2009年11月 4日 (水)

帰無仮説が正しいと言えない理由

まずはNeyman–Pearson流の検定の手順をおさらい。

1. 検定問題を定式化します。それによって2つの仮説AとBが用意されます。パラメタに関する仮説対立の場合(パラメトリック)も、そうでない場合もあります。
2. 検定のサイズ(aka 危険率,有意水準)を決めます。
3. 検定統計量を決めます。
4. 棄却域を決めます。
5. データから統計量が棄却域に入っているかどうか調べます。

余談ですが、1.~4.はデータを集め始める前に行えますし、行っておくべきです。データを集めてからやることは5.だけです。

1.において、前提のもとで、仮説AとBが互いに補集合になっています(パラメトリックの場合は、母数空間の分割になっています)。つまり、前提のもとで、AでないならBだ、と結論できるように問題が設定されます。

4.において、3.の統計量の空間の部分集合をとることで、標本空間(例えば、30人分の測定値の、ありえる全ての組み合わせ。往々にして無限集合)が2つに分割(partition)されます。もちろん、標本から検定統計量への関数は単射性を要求されません。このように一段はさまって、確率は、標本空間ではなく、統計量の上で検討されます。


さて、ここまでは仮説AとBを並列に扱わない理由はないですが、ここから取り扱いが非対称になります。それによって片方が帰無仮説、片方が対立仮説と呼ばれることになります。どの部分のせいで非対称なのかに注意してみてください。

どこのテキストにも出てくるように、Neyman–Pearson流では第一種過誤と第二種過誤という概念が用いられます。そのためには、どっちの仮説が正しいときの誤判定が第一種(で、もう一方が第二種)か決めなければなりません。第一種過誤を当てはめるよう選ばれた仮説はふつう帰無仮説と呼びますが、ここではAにします。
そして、4.の分割によって作られる棄却域が持つ意味が決まります。すなわち、5.にて統計量が棄却域に入っていればBが正しい、そうでなければAが正しい、と判定することになります。

手順2.にて、4.の棄却域が満たすべき条件があらかじめ決められます。条件は第一種過誤の確率(選んだ仮説Aが正しいときの誤判定率)に関するものですが、ふつうは「ある確率以下」を条件とするので、設定された棄却域に落ちる確率がぴったりその基準値である必要はありません。例えば第一種過誤の確率の上限が 0.05 と決められた場合に、統計量が棄却域に落ちる確率が 0.048 であっても構いません。
しかし、言うまでもなく、誤りは少なくするのが望ましいわけですから、Neyman–Pearson流では、第一種過誤の確率αをある基準以下に保ちつつ、第二種過誤の確率βをできるだけ小さく小さくするよう、棄却域を決めることが求められます。
ですので、ぴったり 0.05 でなくてもよいとは言っても、可能な限り基準ぎりぎりに近づくように棄却域が大きく設定されます(そうするとβがちょっとでも小さくなりますから)。で結局 0.05 になっちゃいます。
最もβが小さくなるような棄却域を最良棄却域(best critical region)と呼び、最良棄却域を使った検定を最強力検定(most powerful test)と呼びます。αが同じ 0.05 でも、βが異なるような複数の棄却域のとり方がありえることに注意してください。
※ βは検定統計量の選択にも依存することにも注意。

この枠組みでは、第一種過誤については明確に基準以下を達成していることを保証する必要がありますから、Aの下での厳密な確率計算が必要となります。しかし第二種過誤については「できるだけ小さければ何でもいいや」的なノリですから、仮説Bについては正確に確率を算出する必要がありません。また、最強力検定でなければ検定をしてはいけない、なんてルールが存在する業界もまずありません。
よってβはほとんど放任ですから、かなーり大きな値(β> 0.5 とか)になっている可能性もままあります。しかしそれでも枠組みは守っているという意味では許されてしまいます。

この、仮説Bが正しいときに誤ってAだと言っちゃう確率βがどれだけ大きくても放任されているという事情によって、棄却域に入らなかったから仮説Aが正しいとする主張(=仮説Bが正しくないとする主張)は、その逆の主張ほどの根拠を持てなくなるのです。


とすると、

もしβがしっかり管理されていれば、仮説Aが正しいとする主張(いわゆる帰無仮説の採択)も仮説Bが正しいとする主張(いわゆる帰無仮説の棄却)と同様な根拠でもって行えるはずです。なぜなら、AとBの非対称性はこのα、βの取り扱いの違いによるものだからです。

仮説Bが統計量の分布を確定させるようなものなら、過誤の確率βは計算できます。それによって、βをある値以下にという基準で棄却域を設定することも可能になります。
でも、そうすると結局これは、上の話で仮説AとBの指すものを入れ替えた場合と同じであることがお分かりいただけるでしょう。βを基準に棄却域を決めて、αを放任するのですから。
※ 第三としてαとβの両方に基準を設ける仕方も可能ですが、そうするとそのような基準を満たす棄却域が存在しないがために検定が不可能な場合が出てきます。

つまり、Neyman–Pearson流の検定には、仮説の内容に踏み入って、これは正しいと言える仮説、言えない仮説、と区別するような性質はありません。任意のデータ集合の発生確率が計算できるなら、どんな仮説でもOKなのです。だから例えば、「差はゼロです」という仮説が正しいという強い(消極的でない)結論も出せないことはありません。


話がややこしいのは、複合仮説(composite hypothesis)の場合です。

複合仮説というのは、確率分布を一意に定めるようなものでない仮説です。たとえば
仮説A: 母平均μ > 0
とか。分布のパラメタが1つの特定の値に定められていないということは、複数の分布を「または」でつなげて1つの仮説にしているということです(「仮説のあいまい性」も参照)。複合仮説でない場合(分布が一意に特定されている場合)は、単純仮説(simple hypothesis)と呼ばれます。

上の仮説AやBが複合仮説の場合、複数の母分布候補からどうやって1つの統計量の分布を決めればよいのでしょうか。
私の知る範囲では、検定のやり方は大きく4通りあります。
1つ目は、これが一番理屈が通ってるっぽいですが、一様最強力性検定(uniformly most powerful test)を用いる方法です。すなわち、仮説に含まれるどのパラメタ値であっても上述の最強力性が成り立っているように検定統計量と棄却域を決めることができる場合です。
2つ目は、仮説に含まれるすべての分布のどれでもその分布が同じであるような検定統計量を用いる、という方法。つまり、統計量の分布を考える上で、パラメタの違いを気にしなくてよい、ということです。ランクを用いるノンパラなどが当てはまります。
3つ目は、固定されていないパラメタに対する十分統計量を用いて条件付けすることで、複合仮説を単純仮説にしてしまう方法。permutation testなど。
4つ目は、固定されていないパラメタに対してデータからの推定値を入れることで、単純仮説にしてしまう方法。最尤推定値を用いた、一般化尤度比検定がしばしば利用されます。


複合仮説はやっかいですが、しかしながら、複合仮説の場合にどうするのが正当か、という問題は帰無仮説だけではなく対立仮説にも関係します。βは放任だとはいえ、よりβの小さい棄却域を与えるほうが望ましく、そうすると統計量の確率を算出するよう迫られるからです。
例えば、分散既知の正規分布を前提に帰無仮説:母平均μ=0で両側検定を行う場合、対立仮説がμ≠0という複合仮説になっている場面がよくありますが、そこで分布の両すそを棄却域とするのは一般化尤度比にて正当化されます。
どちらの仮説においても正当化が要求されるということで、複合仮説の困難は、上の仮説AとBが交換可能、という点に関する決定的な妨げではないように思います。

結論。
Neyman–Pearson流では、ふつうに手順を守っていれば、帰無仮説が正しいと言うことは、できます。
できないとすれば、その理由は、対立仮説の下での統計量の確率計算ができないか、できたとしてもその正当化が納得いかない、ということでしょう。用意した仮説Bのせいです。つまり、あなたのせいです。:-D

» 続きを読む

| | コメント (1) | トラックバック (0)

2009年10月28日 (水)

第一不完全性定理

今回のfam話は、しばしば発見しつつも、他所で見つからない形の指摘は思い浮かばなかったので書いてなかったのだが(ウォッチャーさん達には当然のことだと思っていたわけではない)、Tさんが勉強のために結城さんの本を買うと宣うのを耳にしたところから、筆をとる結果に。

このたび結城さんが「数学ガール/ゲーデルの不完全性定理」を出された記念・・・というわけではなく偶然に、結城さんのはてな日記に「長男に説明する」的な記事があるのを見つけていた。
http://d.hatena.ne.jp/hyuki/20070209
子供への(長男が子供かどうかは存ぜぬが)説明としては、これ以上込み入らせずに正確な表現をするのは難題だ、というのは確かだと思う。しかし、大人がこの記事を読んでいるとすると、そのまま受け取ってもらうと困る点があるのもまた確かかと。
もちろん、本の中では結城さんが誤解を盛り込んでいないことを期待しているし、まだ読ませてもらっていないのだがおそらくそうだろう。省略なしで証明しているらしいから。


ではでは、
見たことない形でまとめてみました。

Pは証明可能¬Pは証明可能Pは恒真Pは恒真でも恒偽でもないPは恒偽
××UVUSUU
×PVPSPU
×RVRSRU
IVISIU

Pは形式体系(formal system)の任意の論理式(formula)。(閉としていない点にご注意)
あるPは、UVからIUの12マスのどれか1つだけに必ず入ります。つまり、12マスがそれぞれ論理式の集合であり、論理式全部の集合を分割したものと思ってください。
φという記号は空集合、すなわち、それに当てはまる論理式は無い、という意味。

ある体系の上の論理式でこの12マスがどのように埋められるかは、まったく自由ではなく、よく使われる体系では制約がある。
例えば、Pかつ¬Pから何でも証明できる体系では(古典論理上の体系など)、IVかISかIUにあてはまる論理式が1つでもあるならば(すなわち下に書く無矛盾でないなら)、IV、IS、IU以外のすべてがφになる。
また、Pが恒真だと¬Pは恒偽、逆もまた然り、となるような意味論を与えた体系では、Pを¬Qと置いてみればわかるが、PVとRU、PUとRV、などの埋まり方のパターンがある。


以上の準備のもとで、

体系が無矛盾(consistent)とは、IV=IS=IU=φのこと。

体系が健全(sound)とは、無矛盾でPS=PU=φのこと。

体系が完全(complete)とは、UV=RV=φのこと。

理論が完全(complete)とは、無矛盾でUV=US=UU=φのこと。

んで、なんとかうまくこれらを全部満たして、論理式が PV と RU にしか入らない理論をつくりたい、っと。

さて、
第一不完全性定理は"ある類の"無矛盾な理論の不完全性について述べるもの。
上の理論の完全性の定義からわかるように、無矛盾な理論が不完全とは、UV≠φまたはUS≠φまたはUU≠φのこと。
結城さんが書かれている「真なのに証明できない命題がある」という説明は、「真」の意味するところによるが、「UV≠φ」か、あるいは、「UV≠φまたはUS≠φ」と読める。
一方、無矛盾な理論が不完全というのは、UV=US=φかつUU≠φの場合もあり。
ただし、不完全性定理に関しては、但し書きによって普通に数学で使いたい体系に話が限定されていて、そこでは「UV=φ⇔UU=φ」が成立しているから、「UV≠φまたはUS≠φ」のほうの意味と解釈してさしあげればこの説明は間違いではない。キツイか?

ああ、でも、「Pは恒真でも恒偽でもない論理式」はキメラな気がする。
そうするとまずくなってくるなあ。やはり難題。パラドクスはどこへ?

» 続きを読む

| | コメント (0) | トラックバック (0)

2009年10月14日 (水)

可換ブール

二項ブール演算は、16種類。 そのうち、可換律の成立しているものは、8種類。 それぞれ次のように呼ばれ(表記され)ている。 PTTFF QTFTF FALSEFFFF ANDTFFF NORFFFT EQTFFT XORFTTF ORTTTF NANDFT...

» 続きを読む

| | コメント (0) | トラックバック (0)

2009年10月12日 (月)

運動できる子は勉強もできる?

某TV局Kの番組で、例の体力テストと学力テストの全国調査を引用して、「運動できる子は勉強もできる」というような主張を流していた。しかも、原稿読みのアナウンサーではなく、専門家として出演していた大学教員が口にしていた。 残念ながら、これは典型的な誤りの一例と...

» 続きを読む

| | コメント (0) | トラックバック (0)

2009年10月 6日 (火)

categorical

読書会の宿題の件ですが、 「範疇的」と訳すべきのようだ。Tさん、すみません、ありがとうございます。 Wikipediaによれば、Löwenheim–Skolem theoremの記事の中に、この用語はOswald Veblenが由来だと書かれている。 現在...

» 続きを読む

| | コメント (0) | トラックバック (0)

2009年9月 7日 (月)

測定に求める要件

読書会では R(a1, a2, ..., an)⇔S(φ(a1), φ(a2), ..., φ(an)) を望むところとしていたが、実際に現場がほしいものの記述としてはこれは求めすぎかと思う。 理想であることはたしかだが。 もっと緩い条件を念頭に置いて形式...

» 続きを読む

| | コメント (0) | トラックバック (0)

2009年8月31日 (月)

PASW Statistics Developer

PASW Statistics Developer 現れましたな。 しっかし、いまだにSPSS改名の背景事情がわからない。 学会に行った方、小耳に挟んだなら教えてください。

» 続きを読む

| | コメント (0) | トラックバック (0)

2009年7月16日 (木)

お子様の核磁気共鳴画像

ひょんなことで、会議に出席し、日本の脳科学の本当の第一人者であるS先生と話をさせていただく機会を得た。

MRIの結果を解釈する際のネックはたくさんあるのだが(これとかこれとか)、BOLD法のMRIにて困るのは、そもそもMRと血流の関係が一定でない(成人と子供では異なる)ことである。これについてS先生に詳しいところを教えていただいた。
人間の場合、生後2ヶ月ほどでマイナスに転じるらしい。ほへー。そして成人になるまでに戻るらしい。ほへー。
しかも、脳のすべてのエリアでこんな現象が見られるわけではない。
さらに、ホルモンなりなんなり、代謝に関して違うことが多すぎる。

まあ、私の所感では、現状、BOLDのfMRIは発達研究には使いにくいのである。

» 続きを読む

| | コメント (0) | トラックバック (0)

«レベルの持ち込み