kharukaのブログ~お金と技術とキャリア~

Edu Fin~金融×教育~若いうちからお金について学ぶってだいじ!自分が学んだテクノロジーはみんなの財産!過去、今、将来の人生!についてのブログ

gacco 「社会人のためのデータサイエンス入門」 Week 1 : 統計データの活用 part 1

データサイエンティスト養成読本 登竜門編

データサイエンティスト養成読本 登竜門編

1-1. 大人がデータサイエンスを学ぶべき理由

経験、勘やロジカルシンキングより正しい意思決定をするためにデータ分析を行います。

データ分析をうまく使って、企業であれば企業競争力、個人であればキャリア形成に役立てましょう。

但し、情報洪水に溺れ意思決定が遅くなることは避けましょう。

▼詳しくは以下の仮説思考を一読頂きたいです。

kharuka2016.hatenablog.com

1-2. データサイエンスと統計

データサイエンスとは

データの分析についての学問。統計学、数学、計算機科学などと関連し、主に大量のデータから、何らかの意味のある情報、法則、関連性などを導き出すこと、または、大量のデータの処理の手法に関する研究を行う。(デジタル大辞泉より)

データサイエンティストとは

データサイエンスの研究者、実践者、技術者。更に進んで、データサイエンスを身に付け、統計を始めとするデータに基づく合理的な思考により課題を解決できる人を指すことも。

データサイエンティストを目指すには

「データ」の代表的なものは統計情報。 データサイエンティストを目指すのであれば、統計(学)に関する知識は必須。

データサイエンティストを目指すには統計学をしっかり学ばなければいけないそうだ。

算数、数学が苦手なんて言ってられないですね。笑

PPDACサイクル

データサイエンスの世界ではPDCAサイクルみたいなサイクルがあるそうな。

Probelm 問題の発見
Plan 調査の計画
Data データの収集
Analysis 分析
Conclusion 結論

1-3. 平均値の見方〜分析事例①

平均値

平均(へいきん、英: mean, 独: Mittelwert, 仏: moyenne)または平均値(へいきんち、mean value)は、観測値の総和を観測値の個数で割ったものである[1]。 例えば A、B、C という3人の体重がそれぞれ 55 kg、60 kg、80 kg であったとすると、3人の体重の平均値は (55 kg + 60 kg + 80 kg)/3 = 65 kg である。 特に断らずに平均という場合の多くはこのような加算して個数で割ったものである。

中央値

中央値(ちゅうおうち、英: median)とは、代表値の一つで、有限個のデータを小さい順に並べたとき中央に位置する値。たとえば5人の人がいるとき、その5人の年齢の中央値は3番目に年寄りな人の年齢である。ただし、データが偶数個の場合は、中央に近い2つの値の算術平均をとる。中央値の事を、メディアン、メジアン、中間値とも呼ぶ。ただし、「中間値の定理」の中間値はこの意味ではない。

最頻値

統計学における最頻値(さいひんち)またはモード(英: mode)とは、データ群や確率分布で最も頻繁に出現する値である[1]。日本工業規格では、「離散分布の場合は確率関数が,連続分布の場合は密度関数が,最大となる確率変数の値。分布が多峰性の場合は,それぞれの極大値を与える確率変数の値[2]。」と定義している。 平均や中央値と同様、最頻値は確率変数または何らかの単一の量についての母集団に関しての重要な情報を得る手段の一つである[3][4]。最頻値は一般に平均や中央値とは異なり、特に歪度の大きい分布では大きく異なることがある。 最も頻繁に出現する値は1つとは限らないため、最頻値は一意に定まらないことがある。特に一様分布ではどの値も同じ確率で出現するため、最頻値が定まらない。

分布が標準正規分布になる場合は平均値(=中央値=最頻値)、分布に偏りがある場合は外れ値の影響を受けにくい中央値でデータの分布を判断した方が適切です。

平均年収ではなく中央値年収の方が庶民の肌感覚にあう?笑

▼記事の続きは以下へ。

gacco 「社会人のためのデータサイエンス入門」 Week 1 : 統計データの活用 part 2(執筆中です。)

岩波データサイエンス Vol.1

岩波データサイエンス Vol.1

参考