はじめてのAzure Machine Learning(線形回帰分析)
さわってわかる機械学習 Azure Machine Learning実践ガイド(日経BP Next ICT選書)
- 作者: FIXER,大澤文孝
- 出版社/メーカー: 日経BP社
- 発売日: 2016/05/31
- メディア: Kindle版
- この商品を含むブログを見る
【手順概要】
1.Machine Learning Studio の開始
2.データを取得
3.データを準備
4.特徴を定義
5.学習アルゴリズムを選択して、適用
6.新しい自動車の価格を予測
【手順】 1.Machine Learning Studio の開始。
以下リンクからMachine Learning Studioにサインイン(サインインしたことがなければサインアップ)します。
2.データを取得します。
2.1.Machine Learning Studio ウィンドウの左ペインにあるEXPERIMENTSを選択します。
2.2.ウィンドウの下部にある [+新規] をクリックして新しい実験を作成し、[EXPERIMENT (実験)] を選択してから [Blank Experiment (空の実験)] を選択します。
2.3.実験には既定の名前が付いており、キャンバスの上部で確認できます。 このテキストを選択し、「自動車価格の予測」などのわかりやすい名前に変更します。 名前は一意でなくてもかまいません。
2.4.自動車価格の予測と入力します。
2.5.実験キャンバスの左側には、データセットとモジュールのパレットがあります。 このパレットの上部にある検索ボックスに「自動車」と入力し、自動車価格データ (未加工) というラベルが付いたデータセットを検索します。 このデータセットを実験キャンバスにドラッグ&ドロップします。
2.6.このデータの中身を確認するには、自動車データセットの下部にある出力ポートをクリックし、 [視覚化]を選択します。
3.データを準備します。
3.1.モジュールのパレットの上部にある検索ボックスに「列の選択」と入力し、データセット内の列の選択モジュールを見つけてから、それを実験キャンバスにドラッグ&ドロップします。 このモジュールを使用すると、モデルに含める、またはモデルから除外するデータの列を選択できます。
3.2.自動車価格データ (未加工) データセットの出力ポートを、データセット内の列の選択モジュールの入力ポートに接続します。
3.3.データセット内の列の選択モジュールを選択し、右側ペインの[プロパティ] ウィンドウの [Launch column selector (列セレクターの起動)] をクリックします。
3.4.左側の [With rules (規則を使用)]します。
3.5.[Begin With (次で始まる)] の [All columns (すべての列)] をクリックします。 これにより、データセット内の列の選択では、(これから除外する列を除き) すべての列がフィルターを通過します。
ドロップダウンから [除外] と列名を選択し、テキスト ボックスの内側をクリックします。 列の一覧が表示されます。 [normalized-losses] を選択すると、テキスト ボックスに追加されます
(右下の) チェック マーク (OK) ボタンをクリックして列セレクターを閉じます。
3.6.モジュールをダブルクリックしてコメントを追加します。 この例では、データセット内の列の選択モジュールをダブルクリックして、「正規化された損失を除外する」というコメントを入力します。
3.7.見つからないデータのクリーンアップ モジュールを実験キャンバスにドラッグして、データセット内の列の選択モジュールに接続します。 [プロパティ] ウィンドウで、[Cleaning mode (クリーニング モード)] の下の [Remove entire row (行全体を削除)] を選択します。 これにより、見つからないデータのクリーンアップでは、見つからない値が含まれる行が削除されてデータがクリーンアップされます。 モジュールをダブルクリックして、「値が見つからない行を削除する」というコメントを入力します。
4.特徴を定義します。
4.1.別のデータセット内の列の選択モジュールを、実験キャンバスにドラッグ&ドロップします。 見つからないデータのクリーンアップ モジュールの左側の出力ポートを、データセット内の列の選択モジュールの入力に接続します。
4.2.モジュールをダブルクリックして、「予測対象の特徴を選択する」と入力します。
4.3.[プロパティ] ウィンドウで、[列セレクターの起動] をクリックします。
4.4.[With rules (規則を使用)]をクリックします。
4.5.[Begin With (次で始まる)] の [No columns (列なし)] をクリックします。 フィルター行で、[Include (含める)] と [column names (列名)] を選択してから、テキスト ボックス中の列名の一覧を選択します。 これによりこのモジュールでは、指定した列を除いて列 (特徴) が渡されなくなります。
4.6.チェック マーク (OK) ボタンをクリックします。
5.学習アルゴリズムを選択して、適用します。
5.1.データの分割モジュールを選択して実験キャンバスにドラッグ&ドロップし、最後のデータセット内の列の選択モジュールに接続します。
5.2.データの分割モジュールをクリックして選択します。 (キャンバス右側の [プロパティ] ウィンドウにある) [Fraction of rows in the first output dataset (最初の出力データセットにおける列の割合)] を探して 0.75 に設定します。 このようにして、データの 75% をモデルのトレーニングに使用し、25% をテスト用に保持しておきます (後で異なる割合を使用して実験できます)。
5.3.実験を実行します。 実験を実行すると、データセット内の列の選択モジュールとデータの分割モジュールによって、次に追加するモジュールに列定義が渡されます。
5.4.学習アルゴリズムを選ぶには、キャンバスの左側にあるモジュールのパレットの [Machine Learning] カテゴリを展開してから、[モデルを初期化] を展開します。 これにより、機械学習アルゴリズムの初期化に使用できるモジュールのカテゴリが複数表示されます。 この実験では、[回帰] カテゴリにある線形回帰モジュールを選択し、実験キャンバスにドラッグ&ドロップします (パレットの検索ボックスで「線形回帰」と入力してモジュールを探すこともできます)。
5.5.モデルのトレーニング モジュールを見つけて、実験にドラッグ&ドロップします。 線形回帰モジュールの出力を、モデルのトレーニング モジュールの左側の入力に接続します。次に、データの分割モジュールのトレーニング データ出力 (左側のポート) を、モデルのトレーニング モジュールの右側の入力に接続します。
5.6.モデルのトレーニング モジュールを選択して、[プロパティ] ウィンドウの [起動列セレクター] をクリックし、[価格] 列を選択します。 これが、作成しているモデルで予測する値です。
5.7.[Available columns (使用できる列)] の一覧から [Selected columns (選択した列)] の一覧に移動させることで、列セレクターの price 列を選択します。
5.8.実験を実行します。
6.新しい自動車の価格を予測します。
6.1.モデルのスコア付けモジュールを探して、実験キャンバスにドラッグ&ドロップします。 モデルのトレーニング モジュールの出力を、モデルのスコア付けの左側の入力ポートに接続します。 データの分割モジュールのテスト データの出力 (右側のポート) をモデルのスコア付けの右側の入力ポートに接続します。
6.2.実験を実行して、モデルのスコア付けモジュールの出力を表示します (モデルのスコア付けの出力ポートをクリックして、[視覚化] を選択します)。 出力に、予測された価格の値と、テスト データから既知の値が表示されます。
6.3.最後に、結果の品質をテストします。 モデルの評価モジュールを選択して実験キャンバスにドラッグし、モデルのスコア付けモジュールの出力を、モデルの評価の左側の入力に接続します。
6.4.実験を実行します。
6.5.モデルの評価モジュールの出力を表示するには、出力ポートをクリックして、[視覚化] を選択します。
さわってわかる機械学習 Azure Macine Learning 実践ガイド
- 作者: FIXER,大澤文孝,千賀大司,山本和貴,日本マイクロソフト
- 出版社/メーカー: 日経BP社
- 発売日: 2016/06/03
- メディア: 単行本
- この商品を含むブログ (1件) を見る
参考:
クラウドでの Azure Machine Learning の概要
Machine Learning のチュートリアル: Azure Machine Learning Studio で初めてのデータ サイエンス実験を作成する