kharukaのブログ~お金と技術とキャリア~

Edu Fin~金融×教育~若いうちからお金について学ぶってだいじ!自分が学んだテクノロジーはみんなの財産!過去、今、将来の人生!についてのブログ

データ解析の基礎その2-重複したデータの処理-

入門 Python 3

入門 Python 3

前提条件

OS:Windows 10 64-bit, version 1607

Anaconda 4.4.0(Python 3.6 version 64-bit)インストール

NumPyのインストール

重複したデータの処理

1. コマンドプロンプトでJupyter Notebookを起動します。

jupyter notebook

2. 写経したソースコードGitHub Repositoryを参照してください。

github.com

3. pandasのversionが0.20.1ではtake_last=Trueが使えなくなっているようです。keep='last'を使いましょう。

dframe.drop_duplicates(['key1'],take_last=True)

Out:

---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-9-71909356acb7> in <module>()
----> 1 dframe.drop_duplicates(['key1'],take_last=True)

TypeError: drop_duplicates() got an unexpected keyword argument 'take_last'

keep='last'を使えばうまくいきます。

dframe.drop_duplicates(['key1'],keep='last')

スクリーンショット

<作成中>

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

Pythonではじめる機械学習 ―scikit-learnで学ぶ特徴量エンジニアリングと機械学習の基礎

参考:

  • udemy 実践Pythonデータサイエンス

www.udemy.com

  • pandas 0.20.3 documentation

pandas.Series.drop_duplicates — pandas 0.23.4 documentation

Pythonスタートブック

Pythonスタートブック