« 2008年2月 | トップページ | 2008年4月 »

2008年3月

多重比較

なぜか心理・教育の研究者の間ではその手続きだけが盲信されている多重比較。(他の分野ではどうだか知らない)

この分野では実験条件のペア毎の比較(pairwise comparison)ってことをよくする(この比較ってのはほとんどの場合、平均値の比較)。つまり「比較」を「多重」に行うわけで、その際に、第I種の過誤の確率を考えてちょっと検定の手続きを変えろよ、と統計解析の教科書に言われているのだ。

理屈はこうだ。
通常、教科書で言われている文脈では、実験において何らかの仮説のワンセット(ファミリー)がある。その仮説群を詳細に検討するために一部についての検定を何回も行うわけだが、その際の第I種の過誤は各検定ごとではなくてファミリーで考えなさいよ。なぜなら、あなたのテストは(個々の検定ではなく)ファミリーのレベルで設定された帰無仮説(これを便宜的にファミリー帰無仮説と呼ぼう)への反証をしようとしているのであるから。

例えば、4条件(1変数4水準)の実験をしたとして、ペアワイズ比較は4C2=6種類あるわけだが、ここで研究者の帰無仮説は独立の6つの帰無仮説ではなく、a=b=c=dという1つのファミリー帰無仮説だというのだ(a~dは各条件の真の平均値)。
このa=b=c=dが崩れる仕方はいろいろあるが(a=b!=c=dとかa=b=c!=dとか)どんな崩れ方でも研究者は「えっへん、有意な差を検出しました」と主張しだすわけで、結局主張を試みられているのはnot(a=b=c=d)でしょ、と。だからa=b=c=dが真のときにnot(a=b=c=d)が結論される確率を5%未満にしなさいと。まあ、もっともに聞こえますわな。

ここで、この教科書の理屈にしたがって諸々の多重比較の手続きを行うのは、ファミリーがキーポイントになっていることに注意しなければならない。前提の部分だ。ファミリーが存在する時に、その構成要素ではなくファミリー全体で5%を守りなさいというのだから。
だから、研究においてどういうファミリーが設定されているのかで話が変わってくるわけだ。もちろん手続きも変わってくるのだ。だからそれを踏まえずに常にTukey様万歳と悦に入っている人を「盲信」と表現するのだ。

ところが、このファミリーというのがかなり厄介な代物だ。仮説のセットなら何でもよいのだ。私はとくに混み入った定義を聞いたことがないし、理屈の教科書でも上のようにしか書いていない。
例えば、エクスペリメントワイズというのがある。これはファミリーワイズの親戚だと私は認識している。仮説のセットをその実験で扱うすべての仮説に設定すればそうなる。このように仮説検定のフォーカスを(通常の変動因子ごとの)ファミリーワイズではなくてエクスペリメントワイズに持って行くべきだという統計学者もいるのだ。
でも、これを認めると、同様にもっと大きいところに仮説セットを持って行くこともできるはずだ。論文とか、プロジェクトとか、研究史とか。定義がゆるいからどこにも適用可能になってしまって同じ理屈がまかりとおるのだ。

逆に、通常のフォーカスである変動因子よりも小さいところにファミリーを取ることもできるはずだ。これを考えるには計画的比較という概念をあわせて思い浮かべるのがよい。
ファミリーにもとづく多重比較の理屈は、ファミリーのレベルで5%を設定するのだが、この慣習的な5%という「確率」が含意しているのが何かというと、簡単に言えば「帰無仮説が正しくても100回同じ事を繰り返せば5回はそんなデータ出ますよ」ということだ。ここでポイントは「同じ事を繰り返せば」だ。この「同じ事」がファミリーなのだ。
データを集める前にあらかじめ決まっている「調べる何か」があって、同じくそれを調べようと研究している人が100人いたとして、みんな同じ手続きで実験やってデータを集めたら、帰無仮説が正しいときでも100人中5人は「やっほー有意だぜ」と叫びますよ、というのが5%だ。だから、ほにゃららを調べたい100人が同じことをするためには、ほにゃららを調べるためにほげほげという検定仮説セット(ファミリー)を設定しますよ、という部分に、これを試みる者なら誰しもがこのファミリーを設定するはずだという理由が存在することが重要で、これが計画的比較の根拠なのだ。アプリオリと呼ばれるのはこれ故だ。
例えば、上記例と同じく4条件の実験であっても、1つが対照群で3つが実験群で、a vs b, a vs c, a vs dという3つのペア比較しかしない、ということがあるが、これはまさにその調べたい対象に関して誰しもがそのファミリーを設定するだろう理由がある計画的比較の典型例だ。その理由によって、ある群は「対照群」と呼ばれるのだから。

話を戻す。事前に決まっていたかのように聞こえる小賢しい理由をつけて「計画的に」ココとココの比較しかしませんよ、と主張すれば、4条件の実験でもペア比較は6つより少なくなる。ペア比較でなく対比でもいい。それどころか、そういうアプリオリな理由があれば、6つのペア比較は独立として扱われてもよいのだ。ふつうは非直行対比は調整されるのだが、それはその一群の対比をファミリーにしているからであって、ここで言っているのはつまりファミリーが1ペアに設定されるということだ。ファミリーは5%を考える単位であり、この場合は普通に有意水準5%でt検定6回やっても問題ないことになる。
計画的比較というのは、それが「計画」であればナンデモアリなのであり、計画だと承認されるための「理由」にはとくに制限はない。というか、それは統計学の外の話だ。

ということで、場合によっては有意水準の調節もせずに全水準ペアのt検定を繰り返してもよいのだ。:-p

はあ。
この理屈はもともとおかしいのだ。否、理屈がおかしいのではなくて、理屈が恣意的なものに依存しているのがこの場合まずいのだ。

違うのだよ、恣意的ではないのだよ。計画的比較の理由は「周りの人を納得させなければならない」。ちゃんと制限がついているではないか。ぉぃぉぃそこにきたか。

ともかく、複数の比較をやろうとする場合は常にいわゆる多重比較用の手法を使わなければならない、というのはその人がのっかっている理屈によって誤りである。

| | コメント (0) | トラックバック (0)

« 2008年2月 | トップページ | 2008年4月 »