コロナのせいで引きこもり生活を始めたばかりの頃、密かに統計のお勉強をしていた。
まだほんの序盤ではあるが、なかなか楽しい学問であり、学生時代にもう少し学んでおけばよかったと思った。
復習と数学的準備
反復試行の確率
1回の試行で、事象 が起こる確率を とおくと、事象 が起こらない確率 は となる。
この試行を 回行って、そのうち 回だけ事象 が起こる確率 は、 である。
二項分布
ここで、確率変数 とおくと、 はそのまま確率関数となり、離散型の確率分布が定まる。
この確率分布を 二項分布 と呼び、 で表す。
正規分布
二項分布 の を に近付けると、最終的に 正規分布 と呼ばれる連続型の確率分布になる。
正規分布は、その期待値 と分散 を用いて、 と表す。
- が十分大きいときに と近似できること
- であること
そうだね。
頑張って計算すると、\( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-x^{2}-y^{2}} dx dy = \pi \) になる。
左辺を式変形すると、\( \left( \int_{-\infty}^{\infty} e^{ -x^{2} } dx \right)^{2} \) となり、さらに両辺のルートを取ると \( \int_{-\infty}^{\infty} e^{ -x^{2} } dx = \sqrt{\pi} \) になる。
身に付けておきたい考え方
離散型確率分布と連続型確率分布
動いている時計をカメラで撮ったとき、秒針がちょうど文字盤の真上(0秒地点)にある瞬間にシャッターが切れる確率について考える。
実は、その時計がチクタクと動いて離散的に時を刻むタイプかヌルヌルと止まらずに動き続けるタイプかで確率が変わってくる。
チクタクと動く場合は だが、ヌルヌル動く連続型の場合、円周上の無限にある点のうちの一点を指す確率になるので、 になる。
連続型確率分布を扱う場合、確率変数は点ではなく範囲で考える。
つまり、0秒ぴったりを指す確率は だが、0秒〜15秒のどこかに入る確率は である。
この 0秒〜15秒という範囲の中に、0秒や15秒といった境界値を含むか含まないは考えなくてよい。 なぜなら、含もうが含むまいが、0秒(もしくは15秒)ぴったりになる確率はどうせ だからだ。
母集団と標本
巨大な母集団から、無作為に 個の 標本 を取り出すことを考える。
ここで、 を標本の取り方によって変化する確率変数と見なす。
母集団は非常に巨大なので、 を抽出したとしても、それ以外の標本の要素の抽出結果に影響を与えない。
よって、 は、同一の確率分布に従う母集団から、それぞれ個別に抽出された、互いに独立な確率変数と見なすことができる。
いきなり訳がわからなくなったぞ。
標本が、確率変数??
まぁ、あれだよ。
たとえば動いている時計をカメラで 100 回撮って、その秒針が指す位置を記録するとするでしょ?
あれ、、ちょっと混乱したかも。
「時計の写真を100回撮る操作」を何回も何回も繰り返せば、偶然たまたま \( X_{3} = 2 X_{1} + 5X_{2} \) が成り立っちゃうこともあるんじゃない?
標本を取るたび、\( X_{1},\, X_{2}, \, X_{3} \) は毎回変わるでしょ?
\( X_{3} = 2 X_{1} + 5X_{2} \) は、確率変数の中身が何であっても成り立つという意味だから。
そうそう。
確率変数 \( X_{1},\, X_{2},\, \cdots ,\, X_{n} \) が、ほかのどの確率変数を使っても書き表せない場合、独立な確率変数って言うんだ。
もう一つ質問。
母集団って離散型なの? 連続型なの?
えーっと、厳密には離散型なんだけど、ほぼ連続型と考えていい。
でも、もはや離散値として扱いきれなくなっていることが多いから、連続型の確率分布に従うものと見なしてしまうね。
でも、さっきの話だと、連続型の場合は確率変数を点で考えちゃダメなんだよね?
確率がゼロになっちゃうから。
ボクも極限について厳密に理解しているわけではないので、ここはもうフィーリングになっちゃう。
限りなく連続型に近いんだけど実は離散型だから、標本 \( X_{i} \) を取ってきて、その実現値を確認することができるのだと都合よく考えている。