« 2008年6月 | トップページ | 2008年8月 »

2008年7月

仮説のあいまい性

方法論を学ぶ人へのヒント。

科学的学問の現場において、主張され検証される仮説はいろんな意味であいまいである。
そしてそれによって、反証が難しくなる。


言語的なあいまい性(多義性)

仮説はふつう言語で表現されるのだが(ここで「言語」と言っているのは、日常言語、数学的な記法、絵的なものなども含む。仮説・モデルを表そうとする記号すべて)、その言語が何を表しているのかが ―少なくともmajorityの研究者集団にとって― 一義的に定まらない場合がある。
解釈の候補が1つもない場合はそんな説はそもそも相手にされないだろうが、候補が複数出てくる場合が問題だ。主張されているのがどの意味なのかわからない。こんなとき、ある解釈には一致するが別の解釈には一致しないデータを得たとすると、さてどうしていいものか。
仮説を支持したい人はデータと一致するほうの解釈を選んだりするだろう。

このあいまい性は一番ダメだ。
でも結構よくあるんだな。とくに心理学はhumanityとの接点もあるから、なまじそうゆう主張にふれあいやすい。
科学者ならば(経験世界のtruthを主張するのであれば)、これは全力で回避せねばならない。もしこのあいまい性を残す主張をしている科学者がいたなら「あんた何言ってるかわからん」の一言で切ってよい。それくらい、このあいまい性をなくすのは最低限の常識なのだ。
だから、科学者は、論文とか書くときも、云わんとすることができるかぎりわかりやすく明確になるように書くものだ。ここが文学とは違うところ。解釈の余地など残してはいけない。

この回避を実現するための手段として、科学者はわざわざ数式とかを使うわけだ。だから、数式が書いてある本をみて「わかりにくい」と言うのは真逆だ。心理学界にはそういう数学アレルギーさんがちょくちょくいらっしゃるけど。明確にするために数式を使っておるの。

主張が集合的(選言)

めでたく言語的あいまい性を回避したとして、主張されてる内容ははっきりしたんだけど、その内容に「えーっ」てこともある。
例えば、「この宇宙に今存在する恒星の数は1兆個以下か、1兆個より多いか、どちらかだ」と主張されれば、どうでしょう。こういうのは反証不可能な例で、ナンセンスで、ダメなことが初学者にとっても自明だと思うが、さて、例をもうすこし狭めてみよう。「この宇宙に今存在する恒星の数は123456789個ではない」。・・・。まあ、反証可能性はあるんだけどねえ。あるいは「あなたの星座は牡羊座か牡牛座か・・・(中略)・・・水瓶座のどれかだ」(魚座は含んでいない)。
このように、主張が「A or B or C or ・・・」と選言になっていて、どれか1つが真であればよい、という風な主張をすることができて、それは言語的あいまい性もなく、反証可能でもあることができる。しかし、上の例を読んで「えーっ」と思ったあなた、そのとおりです。あまりにこの選言になっている仮説集合の要素数が多いと、たとえ真でもありがたみがない(ナンセンスとは質が違うのだが、ナンセンスに近づく、と言いたくもなる)。

実はこれは現場でもよくあるのだ。いわゆる、パラメタを含むモデル、というのがそうだ。たいていパラメタは (-∞, +∞) の実数値とされてて、主張されている仮説集合は無限集合だ。
それでももちろんナンセンスでないということで意味はあるんだけど、都合のいいようにパラメタ調整して「ほらデータと一致するだろ」と主張されて、だから何なの。(と思ってしまう人がまとも。)
先の例をパラメタ化してみます。
「この宇宙に今存在する恒星の数はx個である (x≠123456789) 」
x は自由に調整していいので、まあ間違ってないでしょうね。

仮説は集合的であってはいけないとまでは言わないが、その集合ができるだけ小さく限定されているほうが望ましい。そうでなければ、たいていのデータに対して、「データが支持している」と主張できてしまう。
それを根拠に導かれるさらなる別の主張がパラメタの特定の値に依存しているかどうかに注意。飽和モデル(どんなデータでも適合する)にも注意。

把握できない原因

うまいこと仮説の集合も小さくおさえたとして、さて、現場での実際の仮説・モデルというのは、確率モデルが多い。少なくとも生物学、医学、心理学、社会科学などにおいては。つまり、主張の中に確率変数を含んでいる。一番よくあるのが、いわゆる「誤差」だ。
そういうのは結局の所、自分で「あんなのやこんなのやいろんなデータが得られる可能性がありますよ」と腹を切っているということだ。そして、たいていの場合、確率変数の値の範囲も (-∞, +∞) だったりするから、なんでもありだ。先述のナンセンスな主張とほとんど変わらないところまで来ている。(でもそういうモデルが主張しているのは特定の固定的事柄ではなく「分布」についてだという点に注意。)
例えば、多くの場合、誤差にはとりうる範囲に限定をかけないから、どんなデータが得られても「誤差のせいです」と言えてしまう。もちろんその主張によれば飛び抜けたデータが得られる確率は低いとされているわけだが、ゼロではないから、たまたまです、と判断されて仮説は延命するかもしれない。

確率変数をモデルに含めている場合、その確率分布はいったい何によってもたらされるのかと問うと、よくある見解では、仮説・モデルにて言及されていない未知の原因変数があって、そいつのせいでこれが変動してしまうのだ、とされる。測定誤差や標本誤差など、たいてい誤差変動の理由付けはここにある。
これは決定論的な見方と深く関係しているのだが、がちがちの決定論者なら、その仮説・モデルで説明されていないすべての変動は未知の原因によるものだ、と言い放つ。
それはそれで結構だが、データの都合が悪いと未知の原因のせいにしてしまうのはタチが悪い。

もちろん、主張されている分布とデータとの適合に関する定量的評価を行う方法はすでに多く開発されている。上に書いたことからして、このような定量的評価を採用することがいかに重要であるかわかるだろう。
しかしそれでも、確率的な話と悉無的な話は、別物だ。そのあたり、統計的仮説検定が飛躍を伴う意思決定であることとも絡む。(そう、確率モデルでなかったら検定とか要らんのよ。)
ただ、こういう仮説・モデルは、先述したような分野での主張様式の主流であるから、現場がいかに反証のしにくい仮説を扱っているかがわかる。

確率的な自然

未知の原因なら、その原因を特定し(難しいかどうかはともかくとして)モデルに組み込めば、誤差を無くせる。すなわち、確率変数を仮説から消せる。そういう意味でまだマシだ。だが、同じく確率モデルであっても、その確率変動の理由が「自然の性質それ自体が確率的である」というならそうはいかない。
つまり、我々の観測していない何かによって測定のたびにデータがばらつくのではなく、我々が調べようとしているその対象がそもそも真の固定的な何かではなく本質的に確率的な性質を持つもので、それが変動の理由なのだとしたら。
未知の原因のケースと何が違うかをもっと明確にするために付け加えると、誤差の原因となる別の変数は存在しないから永久に発見できない、原理的に主張から確率分布を無くせない、ということだ。

そうなると、人類がこの世界についてすべてを知ろうと究極までがんばったとしても、最終的に行き着く記述は確率分布であり、どうやっても不確実なままだ、ということになる。
この可能性を否定する証拠はどこにもない。どの学術分野においても。先述のような決定論的見解は単なる希望的憶測なのだ。

これは、原理的にそういうものだ、という性質の話だから、先述の3つの点と違って、研究者がどんなにがんばっても回避できない。すなわち、-∞から+∞まで値をとりえますよ、という「すべて受け入れ」仮説のまま、改善しようがない。定量的評価で収束することはできるが、その経験的対象に関する言説と検証は方法論的にではなく本質的に(無限母集団の)確率分布についてであり、真偽で二分する決定的な証拠はありえない。
ただ独立同一を前提として漸近することのみが心の支えである。これが時間に沿ってunsystematicに変化された日には、お手上げだ。


ぼやけっぷりを見て笑え。そして共に生きろ。

| | コメント (0) | トラックバック (0)

« 2008年6月 | トップページ | 2008年8月 »