統計のお話(正規分布と母集団と標本について)

コロナのせいで引きこもり生活を始めたばかりの頃、密かに統計のお勉強をしていた。

まだほんの序盤ではあるが、なかなか楽しい学問であり、学生時代にもう少し学んでおけばよかったと思った。

復習と数学的準備

反復試行の確率

1回の試行で、事象 {A} が起こる確率を {p} とおくと、事象 {A} が起こらない確率 {q}{q = 1 - p} となる。

この試行を {n} 回行って、そのうち {k} 回だけ事象 {A} が起こる確率  {P_{k}} は、{ P_{k} = {}_{n} \mathrm{C}_{k} p^{k} q^{n-k} } である。

二項分布

ここで、確率変数  { X = k } とおくと、 {P_{k}} はそのまま確率関数となり、離散型の確率分布が定まる。

この確率分布を 二項分布 と呼び、 {B(n,\,p)} で表す。

正規分布

二項分布  {B(n,\,p)} {n} {\infty } に近付けると、最終的に 正規分布 と呼ばれる連続型の確率分布になる。

正規分布は、その期待値  {\mu} と分散 { \sigma^{2}} を用いて、 {N(\mu,\,\sigma^{2})} と表す。

確率密度関数積分すると確率になる関数)は  { f_{N} (x) = \displaystyle\frac{1}{ \sqrt{ 2 \pi } \sigma }  e^{ - \displaystyle\frac{ ( x - \mu )^{2} }{ 2 \sigma^{2} } } } である。

ちなみに、この正規分布確率密度関数の導出はちょっと難しい。
せめてヒントだけでも!!
わかったよ。これ知ってる?
  • {x} が十分大きいときに  { \displaystyle\frac{ \log (x!)}{dx} \sim \log (x) } と近似できること
  • { \displaystyle\int_{-\infty}^{\infty} e^{- \displaystyle\frac{x^{2}}{2}} dx = \sqrt{2 \pi} } であること
なんで \( \int_{-\infty}^{\infty} e^{- \frac{x^{2}}{2}} dx = \sqrt{2 \pi} \) になるの?
これはガウス積分といって、大学の試験で出題されるレベルなので、ちょっとここでは……。
やだやだ! 知りたい!!
いきなり \( \int_{-\infty}^{\infty} e^{- \frac{x^{2}}{2}} dx \) を求める前に、こんな重積分 \( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^{2}-y^{2}} dx dy \) を考えてみようか。
あ、これ、極座標変換しないと苦しいやつだ。

そうだね。

頑張って計算すると、\( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^{2}-y^{2}} dx dy = \pi \) になる。

左辺を式変形すると、\( \left( \int_{-\infty}^{\infty} e^{ -x^{2} } dx \right)^{2} \) となり、さらに両辺のルートを取ると \( \int_{-\infty}^{\infty} e^{ -x^{2} } dx = \sqrt{\pi} \) になる。

あ、、\( \pi \) が出てきた。
あとは \( x = \frac{z}{ \sqrt{2}} \)、\( \frac{dx}{ dz} = \frac{1}{\sqrt{2}} \) で置換して \( z \) で積分するといいよ。
なるほど……(思った以上にめんどくさい)。

身に付けておきたい考え方

離散型確率分布と連続型確率分布

動いている時計をカメラで撮ったとき、秒針がちょうど文字盤の真上(0秒地点)にある瞬間にシャッターが切れる確率について考える。

実は、その時計がチクタクと動いて離散的に時を刻むタイプかヌルヌルと止まらずに動き続けるタイプかで確率が変わってくる。

チクタクと動く場合は  {\displaystyle\frac{1}{60}} だが、ヌルヌル動く連続型の場合、円周上の無限にある点のうちの一点を指す確率になるので、 {\displaystyle\frac{1}{\infty} = 0} になる。

連続型確率分布を扱う場合、確率変数は点ではなく範囲で考える。

つまり、0秒ぴったりを指す確率は  {0} だが、0秒〜15秒のどこかに入る確率は  {\displaystyle\frac{1}{4}} である。

この 0秒〜15秒という範囲の中に、0秒や15秒といった境界値を含むか含まないは考えなくてよい。 なぜなら、含もうが含むまいが、0秒(もしくは15秒)ぴったりになる確率はどうせ {0} だからだ。

母集団と標本

巨大な母集団から、無作為に  {n} 個の 標本  {X_{1},\, X_{2},\, \cdots ,\, X_{n}} を取り出すことを考える。

ここで、 {X_{i}} を標本の取り方によって変化する確率変数と見なす。

母集団は非常に巨大なので、 {X_{1}} を抽出したとしても、それ以外の標本の要素の抽出結果に影響を与えない。

よって、 {X_{1},\, X_{2},\, \cdots ,\, X_{n}} は、同一の確率分布に従う母集団から、それぞれ個別に抽出された、互いに独立な確率変数と見なすことができる。

いきなり訳がわからなくなったぞ。

標本が、確率変数??

まぁ、あれだよ。

たとえば動いている時計をカメラで 100 回撮って、その秒針が指す位置を記録するとするでしょ?

うん。
そうすると、100回分の記録が取れるでしょ?
うん。
その100回分の記録が入る変数を、\(X_{1} , \, X_{2}, \, \cdots , \, X_{100}\) で表すイメージ。
独立な変数って、どういうこと?
すごく雑な説明なんだけど、\( X_{1},\, X_{2},\, \cdots ,\, X_{n} \) が、他のどの変数を使っても書き表せないことだね。
どういうこと?
たとえば \( X_{3} = 2 X_{1} + 5X_{2} \) みたいに、他の変数を使って表現できる場合、それらは独立ではないんだ。

あれ、、ちょっと混乱したかも。

「時計の写真を100回撮る操作」を何回も何回も繰り返せば、偶然たまたま \( X_{3} = 2 X_{1} + 5X_{2} \) が成り立っちゃうこともあるんじゃない?

標本を取るたび、\( X_{1},\, X_{2}, \, X_{3} \) は毎回変わるでしょ?

\( X_{3} = 2 X_{1} + 5X_{2} \) は、確率変数の中身が何であっても成り立つという意味だから。

そうか、、 確かに \( X_{1},\, X_{2} \) の結果で \( X_{3} \) が常に決まるわけではないもんね……。

そうそう。

確率変数 \( X_{1},\, X_{2},\, \cdots ,\, X_{n} \) が、ほかのどの確率変数を使っても書き表せない場合、独立な確率変数って言うんだ。

もう一つ質問。

母集団って離散型なの? 連続型なの?

えーっと、厳密には離散型なんだけど、ほぼ連続型と考えていい。

でも、もはや離散値として扱いきれなくなっていることが多いから、連続型の確率分布に従うものと見なしてしまうね。

でも、さっきの話だと、連続型の場合は確率変数を点で考えちゃダメなんだよね?

確率がゼロになっちゃうから。

ボクも極限について厳密に理解しているわけではないので、ここはもうフィーリングになっちゃう。

限りなく連続型に近いんだけど実は離散型だから、標本 \( X_{i} \) を取ってきて、その実現値を確認することができるのだと都合よく考えている。

ふむ……。

Copyright (c) 2012 @tercel_s, @iTercel, @pi_cro_s.