kharukaのブログ~お金と技術とキャリア~

Edu Fin~金融×教育~若いうちからお金について学ぶってだいじ!学んだテクノロジーはみんなの財産。過去、現在、将来の人生についてのブログ

データの可視化-回帰とプロット-

入門 Python 3

入門 Python 3

目次

前提条件

  • OS:Windows 10 64-bit, version 1607

  • Anaconda 4.4.0(Python 3.6 version 64-bit)インストール

  • Seabornのインストール

データ解析の基礎 その3 目次

1. Seabornのインストール

2. ヒストグラム

3. カーネル密度推定

4. 分布の可視化

5. ボックスとプロットとバイオリンプロット

6. 回帰とプロット

7. ヒートマップとクラスタリング

回帰とプロット

1. コマンドプロンプトでJupyter Notebookを起動します。

jupyter notebook

2. 写経したソースコードGitHub Repositoryを参照してください。

github.com

3. 補足

3.1. load_dataset('tips')が使えません。インターネットに接続しているはずなのに、、、
tips=sns.load_dataset('tips')

Error

TimeoutError: [WinError 10060] 接続済みの呼び出し先が一定の時間を過ぎても正しく応答しなかったため、接続できませんでした。または接続済みのホストが応答しなかったため、確立された接続は失敗しました。

During handling of the above exception, another exception occurred:

URLError                                  Traceback (most recent call last)
<ipython-input-5-22adfe3a2898> in <module>()
----> 1 tips=sns.load_dataset("tips")
3.2. 回避策

以下GitHubリポジトリからtips.csvをダウンロードし、jupyter notebookを起動しているフォルダにコピーします。

github.com

pandasをimportしてread.csvでtips.csvをDataFrameとして読み取ります。

import pandas as pd
tips=pd.read_csv('tips.csv')
tips.head()

Out:

   total_bill  tip sex smoker  day time    size
0  16.99  1.01   Female  No  Sun Dinner  2
1  10.34  1.66   Male    No  Sun Dinner  3
2  21.01  3.5    Male    No  Sun Dinner  3
3  23.68  3.31   Male    No  Sun Dinner  2
4  24.59  3.61   Female  No  Sun Dinner  4
3.3. sortが使えないため、sort_valuesを使用します。
sns.violinplot(y='tip_pect',x='size',data=tips.sort_values('size'),ax=axis2)
3.4. メモ

matplotlib上でseabornが動いているらしい。

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

参考:

  • udemy 実践Pythonデータサイエンス

www.udemy.com

  • Local regression

Local regression - Wikipedia

Pythonスタートブック

Pythonスタートブック