« グチャグチャを作る | トップページ | 四項類推 »

JASNH

知ってるヒトは知っていると思うが、
Journal of Articles in Support of the Null Hypothesis
という雑誌がある。
こんな雑誌をわざわざ作らなければならないことが、そもそも現代の科学的学術コミュニティの風潮を表しているということ。そしてこの雑誌の存在自体が批判であるということだ。がんばって続けてくれ。

なんのことかわからない人は
Wikipedia:Null hypothesis
ここでも読んでください。
心無い学部生の私に核心をツッコまれた問題は、時をおなじくして遠く海の向こうで結実していたのである。

そうそう、null hypothesisつながりでいうと
Null Hypothesis - The Journal of Unlikely Science
コレそこそこおもしろいよ。
向こうの人はこういうのを好む人がけっこういるのに、日本にこういうのがないのはなぜだろう?? 日本人はみんな真面目ぶって研究してるのか?それともジョークのわからない鈍感バカなのか?自分たちが日々やっていることに楽しみの余地はないのか? マイルネ。。

Johnson(1999) について最近、竹中さんが抄録を作られたのを発見したので、すかさず(といっても出遅れているが)ツッコんでみよう。めんどいので斜体はめんご。
引用内容は竹中さんが書かれた部分とDr.Johnsonが書かれた部分と両方含まれているので注意。

統計学的仮説検定は,
  1. ほんとに示したいこととは反対のことを帰無仮説として考える.
  2. データを集める.
  3. データと帰無仮説からp 値を計算する.
  4. p 値にもとづいて帰無仮説を評価する
というふうに進める.

ちょっと違う。「ほんとに示したいこと」が null である場合もある。そういう説明を思いつく人は結構いるはずだ。実際、学部生なんかはこれで困ったりするんだから。でも、帰無仮説検定万歳の風潮、有意差を示す結果しか受け取ってくれないジャーナル編集方針から、そういうnull肯定説をテストする研究は計画段階で却下されてしまうのだ。だから「ほんとに示したいこととは反対のことを帰無仮説として考える」ではなくて、「確かめたい(支持されるとおもしろい)説のうち帰無仮説検定の形式に対立仮説として乗せることができるものを選別する(or ひねり出す)」がより正確な記述だと思う。

たとえば,昆虫13匹のうち10匹がオス,3匹がメスだとしたら,もっと極端なデータというのはどんなデータだろうか?

13匹のサンプルをとってオスメスを調べようとしたのなら,
「もっと極端なデータ」はオス11匹とメス2匹,オス12匹とメス1匹,オス13匹でメスがゼロ.
オスが10匹つかまるまでサンプルをとり続けるというサンプリング方法なら,
「もっと極端なデータ」はオス10匹とメス2匹,オス10匹とメス1匹,オス10匹でメスがゼロ.
メスが3匹つかまるまでサンプルをとり続けるというサンプリング方法なら,
「もっと極端なデータ」はオス11匹とメス3匹,オス12匹とメス3匹……
などなど,いくらでも考えられる. p 値は「もっと極端なデータ」という,実際には観測されてないデータに基づいて計算するわけだが,これがどんなものかはデータをとった人の気持ちが分からないと決らないということ.

この節はわけがわからない。Johnsonが書いた部分だけど、元ネタはBerger and Berry (1988)みたいだし。
気持ちもクソもない。この例ではテスト対象になるのはある昆虫の母集団におけるオスvs.(その否定と仮定される)メスの比率であろう。気持ちで変わってもらっては困る。前の節で データがランダムにとられている場合に と仮定しているんだし。
Berger and Berry (1988)の意図は、Nが事前に決まっていない(データに依存して決まる)データの取り方をしたとき、ってことかなぁ。そりゃそもそも検定の対象外だね。

point null hypothesis が厳密に正しいなんてことはほぼあり得ないってことは,データをとる前から分かってる.


※ あるパラメータがぴったりゼロで,0.01でも -0.01 でもないなんてことはあり得ないということです.

「データをとる前から分かってる」という一文は、前後に「実際の研究現場では」と、「ことが多い」という修飾を付けるほうがよい。場合によってはゼロになることはあり得るので。確率論の授業でよくあるサイコロを例を思い浮かべればわかる。ほんとに違いがないものにはシステマティックな差は現れない

Power analysis

・・・

でも,データにもとづいて計算したp 値が大きいのなら,そのデータが示してる「帰無仮説からのズレ」を検出する力は低いに決ってるので,これはあんまり意味がない.

なんで意味がないの?その前に書いてることと違うじゃん。p 値が大きくても、「帰無仮説からのズレ」を検出する力は低いに決って いることはない。この1つ前の節の文章が正しい。検出力が十分であっても大きなp値が得られることはあるし、だからこそ一部の統計学者はPower analysisを推奨する。

研究者から見て生物学的に意味があるはずの違いが統計学的に有意だとなったら嬉しい.どうでもよい違いが統計学的に有意でなかったらこれもOK.でも,生物学的に意味があるはずの違いが統計学的に有意でなかったら悲しんで,もっとデータ数増やさなきゃと思う.また,どうでもよい違いが有意になっちゃったらうっとうしいなあと思う.データの取りすぎってこと.

出て欲しい違いが有意だとなるまでデータ数を増やし,出てほしくない違いが有意にならなかったらそのままでよしとする態度は,研究の価値を下げますね.

これが研究の価値を下げ るのかどうか私にはわからないのだが。どうしてだ? このデータ収集活動の方向性自体は悪くないと思うよ、私は。問題なのはデータの解釈だから。
むしろ、ここに書いてあることで重要なのは、有意になるまでデータ数を増やすことでも非有意だったから放っておくことでもなく、どうでもよい違いが有意になっちゃったらうっとうしいなあと思う ってところ。これがおかしい。この事象が研究に対してインパクトを持つはずなのに。でも実際こういう態度の研究者って山ほどいるのよね。。

でも,間違って使われやすいということ自体,統計学的仮説検定の問題だと思うぞ.

それは統計学の問題でもその応用法の問題でもなく、教育の問題です。

たとえばこんな理由.
  • 客観的で正確みたいだから
  • ソフトですぐに計算できるから
  • みんな使ってるみたいだから
  • 使えと教わったから
  • 雑誌の編集者が使えと言うから
野生生物の分野に限らず,心理学とか社会学といった soft な科学で統計学的仮説検定をやりたがる背景には,物理学のような hard な科学をうらやむ気持ちがあるんではないか.

理由の部分はアルアルだと同意するんですが、soft な科学hard な科学、っていったい何ですか? 硬さの比喩が私には意味をもたらさないのですが。説明になってない。

物理学は,世界がどうなってるかについて理論をたてて,それに基づく予測を導く.その予測を科学的な仮説として真偽を検定する.予測が裏切られたら,理論が間違ってたことが分かる.いっぽう,野生生物の生態の分野で検定する仮説は,世界がどうなってるかについての理論から導かれる仮説ではない.たいていは,集団の性質についての統計学的な仮説だ.

科学的仮説はグローバルで一般的なもの,統計学的仮説はローカルで特定のシステムについてのもの.統計学的仮説検定の結果は,科学的仮説の真偽を判断するための材料のひとつ.

「科学的仮説」と「統計学的仮説」というラベルをつけて対比しようとしていますが、これはよくない。まるで統計学が科学(の一部)じゃないみたいじゃないか。グローバルとローカルという視点は悪くない思うが、どちらも科学であり、仮説のテストをすることに本質的違いはない。物理学だって条件をしぼった世界についてモデルをつくることもある。因果関係を確率論的に扱うこともある。生物学や心理学や社会学がやっていることと物理学がやっていることが違うんだなんて思わないほうがよい。基本は同じ。

それは,たぶん,物理学の対象よりもあまりに複雑なシステムで,すべてのものがすべてのものと関係しているシステムを相手にしているからだろう.この世界では,AとBが無関係だというような帰無仮説は,厳密にはすべて誤りだ.

言いたいことはわかるが、これは言い過ぎ。厳密に「AとBが無関係だ」という命題が真となるA、Bの割り当て(A≠B)もある。生物学のレベルであっても。そんなものに興味を持つ研究者はほとんどいないだろうけど。

繰り返しは科学の基本.繰り返し再現されないことは信用できない.違う方法や場所や時期にも同じ結果が得られたら,とても信用できる.意味があるのは,統計学的にとっても有意な結果をひとつだけ得ることじゃなくて,有意な結果が繰り返し得られること.

それはね、その研究者ができるだけ普遍的な法則や原理を見つけようとしているからですよ。そういう前提でのreliable。では、そうしようとしなければ科学じゃないのか?これにYesと答えてしまうと、いま一般に科学的だと思われている学問分野がけっこう篩から落ちる。


最後の「かわりは何だ?」で4つ挙げていらっしゃるが、問題なのは、これらを使った論文が世間的に推奨されるかどうか。私は自分の正しいと思った手法を使いますが、それにお偉いさんの大多数や民衆が同意するかどうかは別問題。そこをどうすればよいかは、ここにも書いていないし、私もまだ確信を持ったことは言えない。これについては、なんとかできないかと思って、ちょっとずつがんばっているところ。

ちなみに簡単に4つに対するよくある批判をそれぞれ挙げておくと、
信頼区間 -> 区間解釈の誤りが多い. 結局帰無仮説検定みたいに扱う.
統計的意思決定論 -> 決定に関するものだから適用範囲が限られる. 特に科学的記述理論の発展には遠い. (似た批判が検定に対してもある.)
モデル選択 -> 選択するモデル候補の作り方が問題. 倹約性とオーバーフィッティングも問題.
ベイズ統計 -> そもそもベイズ確率を認めない. 科学的仮説は真偽が確定しているものだから真偽具合を確率で表現するのはおかしい. …という科学者がいる.

再反論もいろいろあります。

|

« グチャグチャを作る | トップページ | 四項類推 »

Α 科学の諸問題」カテゴリの記事

Δ 心理学の諸問題」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/26863/587095

この記事へのトラックバック一覧です: JASNH:

« グチャグチャを作る | トップページ | 四項類推 »