昨今、ビジネスの現場では、
データ分析が必要と言われている。
多くの現場では、
いわゆる文系出身の人が多く、
データを見るだけでアレルギー反応が出る人もいるだろう。
いわゆる入門書も、
あまり親切ではないものも多い。
今回紹介する書籍は、
大学入学したばかりの理系大学生、
もしくは、ビジネスでデータ分析することになった人に
適した内容となっている。
書籍の中では、
よく使う分析手法の解説や、
なぜそのような数式になるのかを
詳細に解説してくれている。
今回は、要点だけを押さえて、
明日からビジネスの現場で使えるよう紹介したい。
目次
はじめに
ビジネスの世界で、
統計学は必須科目となりつつある。
データ分析やビッグデータ、AIといった
最近のキーワードに置いていかれないように
基礎の基礎を復習しておこう。
以降、分析するデータは、
自然現象によくある正規分布に従うとする。
平均と標準偏差
統計を考えるうえで、
平均値と標準偏差はとても重要だ。
特に標準偏差は、S.D.とも略される。
正規分布のデータにおいては、
平均値±S.D.の範囲に
約70パーセントが収まっている。
平均値±2×S.D.まで広げると、
95パーセント強が収まっている。
標準偏差の2倍(2S.D.)というものが、
物事を分析する上で大きな意味を持ってくる。
なお、統計学の慣例で、
95パーセントほぼぴったりにするため、
平均±1.96 S.D. の数値を採用される。
t検定と母平均の推定
ビジネスの現場で最もよく使われているといえる
t検定を見ていこう。
まずは、t検定で使われるデータTの式を見てみよう。
T=(標本平均ー母平均)×√(標本数ー1)÷(標本の標準偏差)
ちなみに、標本数ー1は、
自由度と呼ばれるので覚えておきたい。
Tは標本の個数によって、
95パーセントの予言が的中する、
限界値と呼ばれるものがある。
限界値は、既知の情報であり、
自由度によって、限界値は異なるため、
そのときどきで限界値を検索する。
結論としては、
母平均を予測するためには、
以下の不等式を解けばよいこととなる。
-限界値 ≦ T ≦ +限界値
例えば、とある男性バスケット選手群の
身長の母平均を予測したいとする。
6人の身長が、
176cm,185cm,182cm,183cm,176cm,178cmだったとする。
標本の平均は180cm
標本の標準偏差は、3.51
(エクセル数式で、STDEV.P関数を使うと標準偏差は簡単に出せる)
標本数は6個(自由度5)のため、
限界値は、2.571
つまり、次の方程式を解けば、
今回の母集団の平均を推測することが出来る。
-2.571 ≦ T ≦ +2.571
先ほど算出した数値を使い、
この数式を解くと
176.0cm~184.0cmが
この男性群の母平均だと予測できる。