正規分布と二項分布を分かりやすく紹介し、
テレビの視聴率や選挙の出口調査を事例に、
統計学がどのように使われているのかを紹介した書籍。
ビジネスで統計を必要とされている人で、
何から手を付けてよいかわからない人にはお勧めしたい一冊。
例えば、身長や足の速さなど、
要因が多すぎる、または非常に偶然性が高いデータは正規分布になりやすい。
いっぽう、体重や所得など。
生まれてからの食事量・運動量、
また、所得のような偶然性が低いものは正規分布になりにくい。
正規分布の特徴は、以下の特徴がある
平均±標準偏差1つ分の範囲に、全体の68%が含まれること
平均±標準偏差2つ分の範囲に、全体の95%が含まれること
平均±標準偏差3つ分の範囲に、全体の99%が含まれること
さらに、正規分布になるとわかっている場合は、
「標準化」という計算作業によって、
平均値=0、標準偏差=1という
次に、二項分布を紹介する。
二項分布とは、事象が2種類しかないときの確率分布である。
例えば、分かりやすい例では、
サイコロを転がして、1かそれ以外(2~6)が出る確率。
コインを投げて、表が出るか裏が出るかの確率などがある。
二項分布となる時、
試行回数をn、事象が発生する確率をμとする。(発生しない確率は1-μ)
二項分布の平均値はnμ、
二項分布の分散はnμ(1-μ)と表現できる。
(標準偏差σは分散の値にルートをかけたもの。)
具体的に視聴率で説明してみる。
関東地区の世帯に対し、とあるTV番組を見たか見ていないかをアンケートする。
ヒアリングする世帯数はn
番組を見ている確率(視聴率)はμとなる。
900世帯にアンケートし、見ているという回答を90得られたとすると、
視聴率は10%
平均、分散はこのままだと、
世帯数に関する平均、分散になるので、
nで割って視聴率に変換する。
すると、平均値は0.1、
分散は0.1×0.9÷900にルートをかけたものになる=0.01
TVアンケートも正規分布になると仮定すると、
μ±2σの間に、全体の95%が含まれる(コレ大事)
0.1±2×0.01=0.08~0.12(視聴率8%~12%)ということが分かる。
もし、サンプル数nが90世帯しかなかったら、以下の計算になる。
視聴率0.1、分散0.1×0.9÷90にルートをかけたもの≒0.03
0.1±2×0.03=0.04~0.16(視聴率4%~16%)
さすがに4%~16%だと、現実の世界では
誤差が大きすぎるので、視聴率の調査が意味あるとは言えない。
ではさらに、9000世帯でアンケートしてみると、
視聴率0.1、分散0.1×0.9÷9000にルートをかけたもの≒0.003
0.1±2×0.003=0.994~0.106(視聴率9.94%~1.06%)
より多くのサンプルをとればとるほど、
収束していくが、コストが増えていくので、
どこまでアンケートを取るかは求める成果とコストのバランスになってくる。
以上からTV視聴率アンケートをまとめると、
関東1800万世帯の視聴率を調査するのに、
900世帯分アンケートすると、大体2%の誤差で全体像が分かるということ。
次の例で、選挙の出口調査で考える。
AさんとBさんの選挙投票の出口調査で、
1000人アンケートし、
Aさんの得票率が50%だったとする
先ほどの視聴率と同様に、
μ±2σの間に、全体の95%が含まれる(コレ大事)
0.5±2σに全体の95%が収まる。
計算すると、0.5±0.03
だいたい得票率は47%~53%ということになる。
つまり、予測の最低値が、
50%を超えるときにはじめて当確を出すことが出来るということ。
簡単に視聴率と選挙の出口調査から、
統計学がどのように使われているかを紹介している。
上記はお勉強事であるが、
ビジネスパーソンにとっては、
どれだけのコストをかけて、
どれだけ信頼性ある情報を導き出し、
どうやってビジネスに活かしていくかを考えていくのが重要だろう。
具体的な計算は割愛していることもあるので、
興味を持った方は、是非当書籍に目を通していただきたい。