pyてよn日記

一寸先は闇が人生

統計的推測の考え方

統計学の勉強をしていて分かりづらい統計的推測の考え方をまとめてみました.数式も図もないです.

間違っている解釈をしている場合,コメントいただけると幸いです.

母集団,標本

  • 母集団 population
    • 我々が性質を知りたいと思う対象.
    • 一般に,母集団を全てを調べ尽くすことはできないため,母集団からその一部分を抽出(観測)し,その一部分の性質から母集団の性質を推測するというのが統計的推測の目的である.母集団から抽出された部分集合を標本と言い,標本を抽出することを標本抽出という.
    • 母集団全体を調べることを全数調査,悉皆調査という(e.g. 国勢調査).
  • 標本 sample
    • 母集団の部分集合.標本を構成する個々の要素(抽出の単位)は「データ」,「観測値」など様々な呼ばれ方をする(「データ」という言葉は広い意味をもつが,「標本を構成する 1 つ 1 つの『データ』」という意味の「データ」は文脈から容易に判断できる).
    • 適切に抽出された標本は,母集団の性質を良く反映していると考えられる(部分が全体の性質を反映している).
      • 標本抽出の方法:作為抽出,無作為抽出

統計的推測のアウトプット

統計的推測では,(広い意味での)データに対する解釈・判断をそのデータが得られる確率に基づいて行う.確率は事象の起こりやすさを定量的に示す.

つまり,ある特定のデータに対して統計的推測の手法を用いて得られる最終的なアウトプットは,「〇〇である」といった断定的な判断ではなく,「〇〇だと考えられる」といった推測になる.そして,その推測に基づいて次の施策を行う.

(ここではデータの収集を行う前にどういった仮説を立てるか・目的を定めるかは一旦置いておく)

確率変数,確率分布,母集団分布

統計的推測では,母集団を構成する 1 つ 1 つの要素(例えば,母集団を「日本人男性の身長」と考えたときの「一人の身長」)を確率的に得られる変量(変数)として考える.つまり,取りうる各値に対して得られる確率が与えられていると考える.取りうる各値に対して確率が与えられている変数を確率変数 random variable,stochatic variableという.確率変数の取りうる値とそれが得られる確率との対応関係を確率分布 probability distributionという.

統計的推測の目的は「母集団分布の性質の推測」

統計的推測では「母集団を構成する 1 つ 1 つの要素を確率変数であると考える」と述べたが,これは,「母集団を構成する 1 つ 1 つの要素に対してそれが得られる確率が与えられていると考える」,すなわち「母集団が特定の確率分布に従うと考える」ことである.ここでの「特定の確率分布」というのは,正規分布ポアソン分布といった「特定の『数式で表される』分布」を指しているわけではなく,単に,取りうる値と得られる確率との対応関係のことである(結果的に正規分布ポアソン分布に従うという可能性はある).この母集団が従う確率分布のことを母集団分布 population distribution という.

ここまで,統計的推測の目的は「母集団の性質を推測する」ことであると述べてきたが,より具体的には「母集団分布の性質を推測する」ことである.繰り返しになるが,「母集団分布」は正規分布ポアソン分布といった特定の数式で表される確率分布を指しているのではなく,単に,取りうる値と得られる確率との対応関係を指している.統計的の推測の結果として「母集団分布はポアソン分布に従う」という判断がなされることはある(そんな綺麗な結論があるかは別として).

母集団分布の性質を「何で」推測するか

統計的推測の目的は「母集団分布の性質を推測すること」である.ではその性質を何で(どんな指標で)推測するのか?

母集団分布の性質の推測:導入

例えば,全日本人男性の身長など,数値データを構成要素とする母集団分布の性質を推測することを考える.

まず,母集団全体を抽出することは不可能なため,標本抽出を行う.ヒストグラム,散布図などで標本の様子を確認した後,抽出した標本に対して平均,分散といった基本的な統計量を考えるのが自然な流れである.もし,「適切に」抽出された標本であれば,「部分が全体の性質を反映している」と考えられ,標本の平均や分散が,母集団の平均や分散に近い値になると考えられる.「標本の平均や分散」という指標を用いて母集団分布の性質を推測しているのである.平均や分散により,母集団の重心,ばらつきの様子が推測できる.これが最も単純な推測である(ここでは,本筋から外れないように標本分散,不偏分散の区別はせず,ぼかして「標本の分散」と言及している).

注意したいのが,「母集団全体を調べない限り,母集団の平均や分散を求めることはできない」,つまり「我々は真の平均や分散を知ることができない」という事実である.「母集団全体を調べることは一般に出来ないから,その性質を反映するであろう標本を抽出して母集団分布の性質を推測しよう」というのが統計的推測のモチベーションであることはここでもう一度確認しておきたい.我々は母集団の平均や分散(真の値)を求めることはできないが,適切な標本抽出によりそれらの値などから母集団分布の性質の「精度を出来る限り高めた」推測を行うことはできる

言葉の定義をしておく.母集団の平均や分散など,母集団分布を特徴付ける定数のことを母数 parameter とい,母集団の平均や分散は母平均母分散といわれる(「パラメータ」ともいう.「パラメータ」は意味が広いため使用する文脈には気を付ける.この記事では,以降,「パラメータ」という言葉を使う).

母集団の性質の推測:母集団分布に既知の確率分布を仮定する

先ほどの例では,標本の平均や分散から母集団の性質を推測できると述べた.次に,「母集団分布に既知の確率分布を仮定した上で,母集団の性質を推測する」という考えてみる.世の中には「〇〇は正規分布に従う」,「△△という現象はポアソン分布に従う」といったことが経験的に知られている事柄・現象がいくつかあるから,そういった事例を元に統計的推測について考えてみよう,ということである.

母集団を「全日本人男性の身長」と設定する.「全日本人男性の身長の分布はおよそ正規分布に従う」ことが経験的に知られている.このとき,先ほどと同様に標本の平均,分散を求め,これらパラメータ(母数)を推定する値として用いる.先ほどの例では,「標本の平均,分散を求めてそれを用いて母集団の性質をざっくり推測できました」で終わったが,この例では「母集団分布が正規分布に従う」という(妥当な)仮定をしている.この仮定の有無の違いは何に現れるのか?

正規分布は平均,分散で分布の形状が決まる釣鐘型の確率分布であるが,標本の平均,分散をパラメータを推定する値として正規分布の式に代入しグラフに描画すれば,それが標本から推測した母集団分布の形状となる.「母集団分布が正規分布に従う」と仮定したことで,標本から算出した平均と分散だけで母集団分布の形まで推測できたのである.少し抽象的に言うと,標本からパラメータを推定する値を求めれば母集団分布の形状の推測が行えるのである.これが「母集団分布に既知の確率分布を仮定する」ことの嬉しさである(仮定の有無で母集団分布に関する推測できる項目が増えた).ただし,「いつも母集団分布に既知の確率分布を仮定することができるわけではない」ことには注意が必要である.この例では,母集団分布に正規分布を仮定できる例をあえて選んでいるに過ぎない.

確率分布によってその形状を決定するパラメータは異なる.例えば,上記に示した正規分布の形状を決めるパラメータは平均と分散であり,ポアソン分布の形状を決めるのは  \lambda である.

  • まとめ
    • 世の中には経験的に既知の確率分布に従う現象が存在する
    • 母集団分布に既知の確率分布を仮定すると,パラメータを推定する値(正規分布を仮定した場合,標本の平均,分散)を求めれば母集団分布の形状を推測できるようになる.
    • ただし,既知の確率分布を仮定できるか,仮定が妥当かは常に意識する必要がある.

パラメトリックとノンパラメトリック

母集団分布に既知の確率分布を仮定することにより,特定のパラメータを求めるだけで母集団分布の形状を推測することができた.このように,母集団分布に既知の確率分布を仮定することができる場合,つまり,いくつかのパラメータが分かれば母集団分布の形状を決定できる場合をパラメトリック parametric の場合という.反対に,母集団分布に既知の確率分布を仮定できない場合,つまり,いくつかのパラメータが分かっても母集団分布の形状を決定できない場合をノンパラメトリック non parametric(「ノンパラ」と略される)の場合という.

  • パラメトリック
    • 母集団分布に既知の確率分布を仮定することができる,つまり,いくつかのパラメータが分かれば母集団分布の形状を決定できる
  • ノンパラメトリック
    • 母集団分布に既知の確率分布を仮定できない,つまり,いくつかのパラメータが分かっても母集団分布の形状を決定できない

また,これらに関連して,既知の確率分布を仮定した統計手法をパラメトリックな統計手法,仮定しない統計手法をノンパラメトリックな統計手法という.例えば,t 検定は母集団分布に正規分布を仮定したパラメトリックな統計手法である.

  • 注意
    • パラメトリックな場合の仮説検定では,母集団分布が正規分布に従うという仮定で議論が進められるが,これはあくまでも仮定である.何でもかんでも観測データに対して正規分布を当てはめればいいというものではなく,データに基づいてパラメトリック,ノンパラメトリックどちらの手法が適切かを選択する必要がある.
    • ノンパラメトリックな場合に求めたパラメータが役に立たないわけではない.ノンパラメトリックな場合でも平均,分散は当然求めることができ(計算するだけなので),それらは母集団分布の一性質(一側面)を表す(ぐちゃぐちゃな分布の平均を求めたところで有用な指標となるとは限らない).しかし,確率分布を仮定できていないため,母集団分布の形状を求めるには至らない,ということである.

パラメトリック検定の考え方

パラメトリックな場合の仮説検定について考える(「パラメトリック検定」ともいう).

パラメトリック検定の考え方:全体像

パラメトリック検定では,主に,「母集団分布が正規分布に従い,標本の各観測値が同一な母集団分布から取り出される独立な確率変数である」ことを仮定した上で議論が進められる.パラメトリック検定の考え方の手順を箇条書きで示す.

  1. 母集団から標本抽出(母集団は正規分布,標本の各観測値は独立)
  2. 標本から特定の統計量(標本平均,t 統計量,F 統計量など)を算出する
  3. 統計量が従う分布はあらかじめ既知の分布に落とし込めている,つまり,統計量の確率分布は求められる
  4. 3 より,標本から算出した統計量が得られる確率が求められる(t 分布から t 統計量が得られる確率が求められる)
  5. 標本から算出した統計量が,(人間が決めた)有意水準を加味した統計量よりも大きい(または小さい)場合,これは確率的に起きにくい事象だと(人間が決めた有意水準により)判断する

補足:「母集団分布が正規分布に従い,標本の各観測値が独立な確率変数である」を仮定することの嬉しさ

「母集団分布が正規分布に従い,標本の各観測値が同一な母集団分布から取り出される独立な確率変数である」と仮定することでパラメトリック検定の理論が構築される.この仮定により,標本和(標本平均)が従う確率分布を求められるようになる.これは正規分布に従う独立な確率変数の和が正規分布に従うという性質による(正規分布の再生性,「独立」による分散の加法性).