完全独習 統計学入門

 

 

昨今、ビジネスの現場では、

データ分析が必要と言われている。

 

多くの現場では、

いわゆる文系出身の人が多く、

データを見るだけでアレルギー反応が出る人もいるだろう。

 

いわゆる入門書も、

あまり親切ではないものも多い。

 

今回紹介する書籍は、

大学入学したばかりの理系大学生、

もしくは、ビジネスでデータ分析することになった人

適した内容となっている。

 

書籍の中では、

よく使う分析手法の解説や、

なぜそのような数式になるのかを

詳細に解説してくれている。

 

今回は、要点だけを押さえて、

明日からビジネスの現場で使えるよう紹介したい。

 

目次

 

 

はじめに

ビジネスの世界で、

統計学は必須科目となりつつある。

 

データ分析やビッグデータ、AIといった

最近のキーワードに置いていかれないように

基礎の基礎を復習しておこう。

 

以降、分析するデータは、

自然現象によくある正規分布に従うとする。

 

平均と標準偏差

統計を考えるうえで、

平均値と標準偏差はとても重要だ。

特に標準偏差は、S.D.とも略される。

 

正規分布のデータにおいては、

平均値±S.D.の範囲に

約70パーセントが収まっている。

 

平均値±2×S.D.まで広げると、

95パーセント強が収まっている。

 

標準偏差の2倍(2S.D.)というものが、

物事を分析する上で大きな意味を持ってくる。

 

なお、統計学の慣例で、

95パーセントほぼぴったりにするため、

平均±1.96 S.D. の数値を採用される。

 

t検定と母平均の推定

ビジネスの現場で最もよく使われているといえる

t検定を見ていこう。

 

まずは、t検定で使われるデータTの式を見てみよう。

T=(標本平均ー母平均)×√(標本数ー1)÷(標本の標準偏差

 

ちなみに、標本数ー1は、

自由度と呼ばれるので覚えておきたい。

 

Tは標本の個数によって、

95パーセントの予言が的中する、

限界値と呼ばれるものがある。

 

限界値は、既知の情報であり、

自由度によって、限界値は異なるため、

そのときどきで限界値を検索する。

 

結論としては、

母平均を予測するためには、

以下の不等式を解けばよいこととなる。

 

-限界値 ≦ T ≦ +限界値

 

例えば、とある男性バスケット選手群の

身長の母平均を予測したいとする。

 

6人の身長が、

176cm,185cm,182cm,183cm,176cm,178cmだったとする。

 

標本の平均は180cm

標本の標準偏差は、3.51

(エクセル数式で、STDEV.P関数を使うと標準偏差は簡単に出せる)

 

標本数は6個(自由度5)のため、

限界値は、2.571

 

つまり、次の方程式を解けば、

今回の母集団の平均を推測することが出来る。

-2.571 ≦ T ≦ +2.571

 

 

先ほど算出した数値を使い、

この数式を解くと

176.0cm~184.0cmが

この男性群の母平均だと予測できる。