kharukaのブログ~お金と技術とキャリア~

Edu Fin~金融×教育~若いうちからお金について学ぶってだいじ!自分が学んだテクノロジーはみんなの財産!過去、今、将来の人生!についてのブログ

gacco 「社会人のためのデータサイエンス入門」 Week 3 データの見方 part 1

データサイエンティスト養成読本 登竜門編

データサイエンティスト養成読本 登竜門編

▼gacco 「社会人のためのデータサイエンス入門」 Week 2 統計学の基礎 part 2 はこちらです。

(執筆中です。)

3-1. 統計表の見方

第3週のねらい

①現実のデータの詳細

統計表などですね。

②データを見るうえでの注意点

ここは大事なとこですよー。

③簡単な分析の仕方

統計データの分類

クロスセクションデータ(横断的データ)
  • 時点を固定した時の様々な分類のデータ

  • 地域別データが代表的。データの並ぶ順番に意味はない。

例)2014年1月1日時点の各都道府県の人口データ

時系列データ
  • 同じ分類で時点が異なるデータ

  • データは並び順は通常、古いー>新しい、順になることが多い。

例)東京都の1981年から2014年までの人口データ

パネルデータ
  • 各分類の各時点のデータ

  • 大規模なデータになることが多い。

例)各都道府県の1981年から2014年までの人口データ

分類について

統計表によくみられる「製造業」や「商業」などの産業分類や職業の分類のことを質的分類といい、標準化が設定されています。

各統計間で定義が異なると、比較が大変ですよね。

だから、質的分類により標準統計分類が設定されています。

以下が定められています。

  1. 分類の原則

  2. 分類の構成

3-2. 比率の見方①-クロスセクションデータ

比率

総数が異なる

-> 実数同士では正しい比較にならない

-> 総数に占める比率で比較

-> 構成比

2つの比率

構成比

構成比は総数とその内訳の比率

(例) 15歳未満人口割合= (15歳未満の人数)/(総人口)

一つの集団のデータ(一つの県のデータなど)を扱うときは構成比を使うのですね。

相対比

異なるデータを分子、分母に取った比率

(例) 人口密度= (人口)/(面積)

一人当たり県民所得=(総県民所得)/(人口)

異なる集団のデータ(他県同士のデータなど)を比較するときは相対比を使うのですね。

相対比を使う時のポイント

集団の相互比較 -> 各集団の大きさの影響を除去

東京の面積と北海道の面積は全然異なるので、両者のコンビニの件数が例え同じだとしても

北海道ではコンビニが50m歩くごとに見つかるとは思えないですもんね。

決して北海道をバカにしている訳ではないですよ。例え話です。

分母と分子の対応に注意しましょう。

データの意味が変わって来ますからね。

3-3. 比率の見方②-使い方と注意点

相関係数

縦軸を女性数、横軸を総人口(都道府県の人口では?)とすると

都道府県の人口の規模の強い影響を受けて、女性数と都道府県の人口が正の相関関係にあるようにみえます。

しかし、これは正しい分析でしょうか?

比率の相関係数

縦軸を女性の比率、横軸を都道府県の人口とすると

相関係数 = -0.51から判断すれば、人口の多い都道府県ほど女性の割合が高いとは言えませんね。

どうやら女性の割合が多かったり、少なかったりする都道府県があるようですね。

比率の相関係数を使う時の注意点

同じ変数(都道府県の人口)を分母とする構成比同士の相関係数では、変数(都道府県の人口)が1つ減っていることに注意しましょう。

男性の比率と女性の比率の関係は直感的にも負の相関係数になりそうですよね?

▼記事の続きは以下へ。

(執筆中です。)

岩波データサイエンス Vol.1

岩波データサイエンス Vol.1

参考