pandas-データと統計量-
- 作者: Bill Lubanovic,斎藤康毅,長尾高弘
- 出版社/メーカー: オライリージャパン
- 発売日: 2015/12/01
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (3件) を見る
目次
前提条件
OS:Windows 10 64-bit, version 1607
Anaconda 4.4.0(Python 3.6 version 64-bit)インストール
NumPyのインストール
手順概要
1.コマンドプロンプトでIPython Notebookを起動します。
2.データと統計量
手順
1.コマンドプロンプトでIPython Notebookを起動します。
ipython notebook
2.データと統計量
2.1.numpy、panadasとpandasからSeriesとDataFrameをインポートします。
import numpy as np import pandas as pd from pandas import Series,DataFrame
2.2.arrayを作成します。
arr=np.array([[1,2,np.nan],[np.nan,3,4,]]) arr
Out:
array([[ 1., 2., nan], [ nan, 3., 4.]])
2.3.DataFrameを作成します。
dframe1=DataFrame(arr,index=['A','B'],columns=['One','Two','Three']) dframe1
Out:
One Two Three A 1 2 NaN B NaN 3 4
2.4.列の和を求めます。
dframe1.sum()
Out:
One 1.0 Two 5.0 Three 4.0 dtype: float64
2.5.行の和を求めます。
dframe1.sum(axis=1)
Out:
A 3.0 B 7.0 dtype: float64
2.6.各列の最小値を求めます。
dframe1.min()
Out:
One 1.0 Two 2.0 Three 4.0 dtype: float64
2.7.各列の最小値のindexを返します。
dframe1.idxmin()
Out:
One A
Two A
Three B
dtype: object
2.8.DataFrameの列の累積和を求めます。
dframe1.cumsum()
Out:
One Two Three A 1 2 NaN B NaN 5 4
2.9.DataFrameの詳細を表示します。
dframe1.describe()
Out:
One Two Three count 1 2 1 mean 1 2.5 4 std NaN 0.707107 NaN min 1 2 4 25% 1 2.25 4 50% 1 2.5 4 75% 1 2.75 4 max 1 3 4
2.10.エラーがでました。pandas.io.dataは別のパッケージに移動されてしまったので、pandas-datareader packageをインストールしなさいと。
import pandas.io.data as pdweb
2.11.pandas_datareaderパッケージをインストールします。
pip install pandas_datareader
2.12.pandas_datareader.dataをwebとしてインポートします。
import pandas_datareader.data as web import datetime
2.13.アメリカの証券取引所の株価データを取得します。株価データを取得する期間を指定しています。
prices=web.get_data_yahoo(['CVX','XOM','BP'], start=datetime.datetime(2010,1,1), end=datetime.datetime(2013,1,1))['Adj Close']
2.14.pricesの先頭5行を取得します。
prices.head()
Out:
BP CVX XOM Date 12/31/2012 31.217405 90.781021 74.38414 12/28/2012 30.902534 89.362282 73.137985 12/27/2012 31.202412 91.100006 74.650581 12/26/2012 31.247395 91.049652 74.831062 12/24/2012 31.277386 91.192337 74.702133
2.15.株価の変化の割合を表示します。
rets=prices.pct_change() rets.head()
Out:
BP CVX XOM Date 12/31/2012 NaN NaN NaN 12/28/2012 -0.010086 -0.015628 -0.016753 12/27/2012 0.009704 0.019446 0.020681 12/26/2012 0.001442 -0.000553 0.002418 12/24/2012 0.00096 0.001567 -0.001723
2.16.株価を描画します。
%matplotlib inline prices.plot()
2.17.相関係数を求めます。
rets.corr()
Out:
BP CVX XOM BP 1 0.574921 0.608057 CVX 0.574921 1 0.856295 XOM 0.608057 0.856295 1
2.18.seabornをインストールします。
conda install seaborn
2.19.seabornとmatplotlib.pyplotをインポートします。heatmapで相関係数を描画します。
import seaborn as sns import matplotlib.pyplot as plt sns.heatmap(rets.corr())
2.20.Seriesを作成します。
ser1=Series(['w','w','x','y','z','w','w','x','x','y','a','z']) ser1
Out:
0 w 1 w 2 x 3 y 4 z 5 w 6 w 7 x 8 x 9 y 10 a 11 z dtype: object
2.21.uniqueで重複した値を取り除くことができます。
ser1.unique()
Out:
array(['w', 'x', 'y', 'z', 'a'], dtype=object)
2.22.countsは各要素がいくつあるかカウントしてくれます。
ser1.value_counts()
Out:
w 4 x 3 y 2 z 2 a 1 dtype: int64
Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎
- 作者: Andreas C. Muller,Sarah Guido,中田秀基
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/05/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
参考:
udemy 実践Pythonデータサイエンス
- 作者: 辻真吾
- 出版社/メーカー: 技術評論社
- 発売日: 2010/04/24
- メディア: 大型本
- 購入: 19人 クリック: 199回
- この商品を含むブログ (59件) を見る