« 2009年10月 | トップページ | 2009年12月 »

2009年11月

帰無仮説が正しいと言えない理由

まずはNeyman–Pearson流の検定の手順をおさらい。

1. 検定問題を定式化します。それによって2つの仮説AとBが用意されます。パラメタに関する仮説対立の場合(パラメトリック)も、そうでない場合もあります。
2. 検定のサイズ(aka 危険率,有意水準)を決めます。
3. 検定統計量を決めます。
4. 棄却域を決めます。
5. データから統計量が棄却域に入っているかどうか調べます。

余談ですが、1.~4.はデータを集め始める前に行えますし、行っておくべきです。データを集めてからやることは5.だけです。

1.において、前提のもとで、仮説AとBが互いに補集合になっています(パラメトリックの場合は、母数空間の分割になっています)。つまり、前提のもとで、AでないならBだ、と結論できるように問題が設定されます。

4.において、3.の統計量の空間の部分集合をとることで、標本空間(例えば、30人分の測定値の、ありえる全ての組み合わせ。往々にして無限集合)が2つに分割(partition)されます。もちろん、標本から検定統計量への関数は単射性を要求されません。このように一段はさまって、確率は、標本空間ではなく、統計量の上で検討されます。


さて、ここまでは仮説AとBを並列に扱わない理由はないですが、ここから取り扱いが非対称になります。それによって片方が帰無仮説、片方が対立仮説と呼ばれることになります。どの部分のせいで非対称なのかに注意してみてください。

どこのテキストにも出てくるように、Neyman–Pearson流では第一種過誤と第二種過誤という概念が用いられます。そのためには、どっちの仮説が正しいときの誤判定が第一種(で、もう一方が第二種)か決めなければなりません。第一種過誤を当てはめるよう選ばれた仮説はふつう帰無仮説と呼びますが、ここではAにします。
そして、4.の分割によって作られる棄却域が持つ意味が決まります。すなわち、5.にて統計量が棄却域に入っていればBが正しい、そうでなければAが正しい、と判定することになります。

手順2.にて、4.の棄却域が満たすべき条件があらかじめ決められます。条件は第一種過誤の確率(選んだ仮説Aが正しいときの誤判定率)に関するものですが、ふつうは「ある確率以下」を条件とするので、設定された棄却域に落ちる確率がぴったりその基準値である必要はありません。例えば第一種過誤の確率の上限が 0.05 と決められた場合に、統計量が棄却域に落ちる確率が 0.048 であっても構いません。
しかし、言うまでもなく、誤りは少なくするのが望ましいわけですから、Neyman–Pearson流では、第一種過誤の確率αをある基準以下に保ちつつ、第二種過誤の確率βをできるだけ小さく小さくするよう、棄却域を決めることが求められます。
ですので、ぴったり 0.05 でなくてもよいとは言っても、可能な限り基準ぎりぎりに近づくように棄却域が大きく設定されます(そうするとβがちょっとでも小さくなりますから)。で結局 0.05 になっちゃいます。
最もβが小さくなるような棄却域を最良棄却域(best critical region)と呼び、最良棄却域を使った検定を最強力検定(most powerful test)と呼びます。αが同じ 0.05 でも、βが異なるような複数の棄却域のとり方がありえることに注意してください。
※ βは検定統計量の選択にも依存することにも注意。

この枠組みでは、第一種過誤については明確に基準以下を達成していることを保証する必要がありますから、Aの下での厳密な確率計算が必要となります。しかし第二種過誤については「できるだけ小さければ何でもいいや」的なノリですから、仮説Bについては正確に確率を算出する必要がありません。また、最強力検定でなければ検定をしてはいけない、なんてルールが存在する業界もまずありません。
よってβはほとんど放任ですから、かなーり大きな値(β> 0.5 とか)になっている可能性もままあります。しかしそれでも枠組みは守っているという意味では許されてしまいます。

この、仮説Bが正しいときに誤ってAだと言っちゃう確率βがどれだけ大きくても放任されているという事情によって、棄却域に入らなかったから仮説Aが正しいとする主張(=仮説Bが正しくないとする主張)は、その逆の主張ほどの根拠を持てなくなるのです。


とすると、

もしβがしっかり管理されていれば、仮説Aが正しいとする主張(いわゆる帰無仮説の採択)も仮説Bが正しいとする主張(いわゆる帰無仮説の棄却)と同様な根拠でもって行えるはずです。なぜなら、AとBの非対称性はこのα、βの取り扱いの違いによるものだからです。

仮説Bが統計量の分布を確定させるようなものなら、過誤の確率βは計算できます。それによって、βをある値以下にという基準で棄却域を設定することも可能になります。
でも、そうすると結局これは、上の話で仮説AとBの指すものを入れ替えた場合と同じであることがお分かりいただけるでしょう。βを基準に棄却域を決めて、αを放任するのですから。
※ 第三としてαとβの両方に基準を設ける仕方も可能ですが、そうするとそのような基準を満たす棄却域が存在しないがために検定が不可能な場合が出てきます。

つまり、Neyman–Pearson流の検定には、仮説の内容に踏み入って、これは正しいと言える仮説、言えない仮説、と区別するような性質はありません。任意のデータ集合の発生確率が計算できるなら、どんな仮説でもOKなのです。だから例えば、「差はゼロです」という仮説が正しいという強い(消極的でない)結論も出せないことはありません。


話がややこしいのは、複合仮説(composite hypothesis)の場合です。

複合仮説というのは、確率分布を一意に定めるようなものでない仮説です。たとえば
仮説A: 母平均μ > 0
とか。分布のパラメタが1つの特定の値に定められていないということは、複数の分布を「または」でつなげて1つの仮説にしているということです(「仮説のあいまい性」も参照)。複合仮説でない場合(分布が一意に特定されている場合)は、単純仮説(simple hypothesis)と呼ばれます。

上の仮説AやBが複合仮説の場合、複数の母分布候補からどうやって1つの統計量の分布を決めればよいのでしょうか。
私の知る範囲では、検定のやり方は大きく4通りあります。
1つ目は、これが一番理屈が通ってるっぽいですが、一様最強力性検定(uniformly most powerful test)を用いる方法です。すなわち、仮説に含まれるどのパラメタ値であっても上述の最強力性が成り立っているように検定統計量と棄却域を決めることができる場合です。
2つ目は、仮説に含まれるすべての分布のどれでもその分布が同じであるような検定統計量を用いる、という方法。つまり、統計量の分布を考える上で、パラメタの違いを気にしなくてよい、ということです。ランクを用いるノンパラなどが当てはまります。
3つ目は、固定されていないパラメタに対する十分統計量を用いて条件付けすることで、複合仮説を単純仮説にしてしまう方法。permutation testなど。
4つ目は、固定されていないパラメタに対してデータからの推定値を入れることで、単純仮説にしてしまう方法。最尤推定値を用いた、一般化尤度比検定がしばしば利用されます。


複合仮説はやっかいですが、しかしながら、複合仮説の場合にどうするのが正当か、という問題は帰無仮説だけではなく対立仮説にも関係します。βは放任だとはいえ、よりβの小さい棄却域を与えるほうが望ましく、そうすると統計量の確率を算出するよう迫られるからです。
例えば、分散既知の正規分布を前提に帰無仮説:母平均μ=0で両側検定を行う場合、対立仮説がμ≠0という複合仮説になっている例題を見かけますが、そこで分布の両すそを棄却域とするのは一般化尤度比にて正当化されます。
どちらの仮説においても正当化が要求されるということで、複合仮説の困難は、上の仮説AとBが交換可能、という点に関する決定的な妨げではないように思います。

結論。
Neyman–Pearson流では、ふつうに手順を守っていれば、帰無仮説が正しいと言うことは、できます。
できないとすれば、その理由は、対立仮説の下での統計量の確率計算ができないか、できたとしてもその正当化が納得いかない、ということでしょう。用意した仮説Bのせいです。つまり、あなたのせいです。:-D

続きを読む "帰無仮説が正しいと言えない理由"

| | コメント (0) | トラックバック (0)

« 2009年10月 | トップページ | 2009年12月 »