これで無理なら諦めて!世界一やさしいデータ分析教室

オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

二項分布とベルヌーイ分布 登校中にヤンキーに遭遇してしまう確率…?

統計学を勉強するにあたって、様々な確率分布が頭に入っていることはとても大切です。
分析対象のデータがどんな分布に従っているのか考え、それに適した統計モデルを選択しないと、一見結果が有意に現れてもそれは意味のない推定となってしまいます。

前回は正規分布について説明しました。
randpy.hatenablog.com

今回は、正規分布同様に頻出の確率分布である、「二項分布」について学んでいきましょう。

二項分布……の前にベルヌーイ分布について

二項分布とは…あ、ちょっとその前に……。
まずはベルヌーイ分布について説明しましょう。

例えば、目の前に表が出る確率が\(\frac{1}{3}\)で、裏が出る確率が\(\frac{2}{3}\)のちょっと歪んだコインがあるとします。
はい、これがベルヌーイ分布です。

「え? どういうこと?」と皆さんの頭にクエスチョンマークが浮かんでいるのが容易に想像できるので、もう少し説明します。
(ちなみに最近知りましたが、クエスチョンマークの後に文を続ける場合は全角スペースを空けるのが正しい使い方らしいです。「へぇー」と思った方は懐かしのトリビアボタンを押す感覚でブクマと読者になるボタンを押してください。)

  • コインの表 or 裏
  • 大学受験の合格 or 不合格
  • 登校中ヤンキーに遭遇する or 回避する

などのように状態が2通りしか発生しない(1 or 0で表現できる)事象を考えたのがベルヌーイ分布です。

大学受験の例を考えると、合格か不合格の2通りの結果があるので、合格を\(x = 1\)、不合格を\(x = 0\)とおきます。このとき、大学合格する確率が\(p\)と分かっているとすると、このデータ分布は

$$ P(x) = \begin{cases}
p & (x=1) \\
1-p & (x=0)
\end{cases}
$$
と表せます。
言葉で表すととても簡単な内容ですが、数式で表現すると上のようになります。

ベルヌーイ分布に従う事象を繰り返し実験すると…?

前章で挙げた例のうち、登校中ヤンキーに遭遇する確率についてもう少し踏み込んでみます。
f:id:Np-Ur:20170702003946p:plain
登校するのは1日だけ、というのはあまりないので100日登校することを考えましょう。

すると、100日のうちヤンキーに1回も遭遇しない、というのは起こりづらそうですよね。また逆に100回遭遇するというのも起こりづらそうです。

  • じゃあ100日中1回も遭遇しない確率は?
  • じゃあ100日中50回遭遇する確率は?
  • じゃあ100日中最もあり得そうな遭遇回数は何回?

ということを考えたくなってきました。

ここで登場するのが二項分布です!(やっと登場!)

二項分布とはベルヌーイ分布に従う事象をある数だけ繰り返し発生させたときの、データのばらつきを表現した確率分布です。
もう少しちゃんと説明すると、\(x = 1\)が起こる確率を\(p\)、そして試行回数を\(N\)としたときに、\(x = 1\)の事象が\(y\)回発生する確率を以下の数式で表現した確率分布です。


$$P(y \mid N, p) = {}_N C _y p^y (1-p)^{(N-y)}$$
高校数学で「反復試行」というのを習った人も多いかと思いますが、それがまさにこれです。

例えば、登校中ヤンキーに遭遇する確率を\(\frac{1}{3}\)、回避できる確率を\(\frac{2}{3}\)とします。このとき、100日登校したと想定しましょう、その内30回ヤンキーと遭遇してしまう確率は、先ほどの式にそれぞれの数値を代入すると以下のようになります。


$$
\begin{eqnarray*}
P(y=30 \mid N=100, p=\frac{1}{3})
&=&{}_{100} C _{30} \frac{1}{3}^{30} \frac{2}{3}^{70}\\
&=& 0.067...
\end{eqnarray*}
$$
30/回遭遇してしまう確率は6.7%ぐらいだと計算できました。

なお、20回遭遇してしまう確率を同じように計算すると0.13%となります。30回遭遇する確率に比べるとかなり小さいことが分かります。このようにして、それぞれの確率を簡単に求めることができます。

せっかくなので確率分布をプロットしてみましょう。Rで二項分布を表現するには「dbinom」を使います。

plot(1:100,dbinom(1:100, 100, p=1/3),type="l",ylim=c(0,0.085),col=1) 

f:id:Np-Ur:20170702000414p:plain
30回遭遇する確率に比べて、20回遭遇する確率がかなり小さいことがグラフからも確認できます。
ちなみに「ylim」はy軸の目盛りを調整するコマンドです。

なお、ヤンキーに遭遇する確率を\(\frac{1}{4}\)とすると以下のようなグラフになります。

plot(1:100,dbinom(1:100, 100, p=1/4),type="l",ylim=c(0,0.1),col=1) 

f:id:Np-Ur:20170702000915p:plain
ちょっとだけ全体的に左に移動しましたね!
是非、N(試行回数)やp(確率)などの数字を変えながらどのような形になるのか検証してみてください。

まとめ

今回はベルヌーイ分布、そして二項分布について説明しました。
二項分布はとてもよく使われる確率分布なので、この機会にぜひマスターしちゃいましょう!

ポアソン分布という、これまた大切は確率分布がありますが、これは次の機会に説明します。
実は二項分布とかなり密接に関係しています。

確率分布についてもっとちゃんと理解したい!という方は、以下の書籍で確認するのが良いかと思います。
是非参考にしてください!

StanとRでベイズ統計モデリング (Wonderful R)

StanとRでベイズ統計モデリング (Wonderful R)

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)