« 論理は学習されるか | トップページ | 相関係数の不偏推定 »

オッズ比

オッズ比を指標として使っているのをときどき見かける。
そして、オッズ比についての肝心なところを説明していないもの、あるいは誤って説明しているのものも見かける。


いわゆる2x2のクロス表で表現されるデータ、すなわち、各対象について2つの二値属性を測っているデータがあるときに、データ発生源(母集団)の性質を考える場面。

E1E0
T1p1 - p
T0q1 - q

理解のため、ある処置をした場合(T1)としない場合(T0)の、イベントが発生する(E1)しない(E0)の割合、というような具体的イメージを持つとよいだろう。
入手できるデータは有限個であるが、研究の通常では、データ発生源は無限個のデータを発生させられる(無限母集団)と仮定するので、上のクロス表は標本ではなく母集団を表現しようとしていて、セル内の記号は計数ではなく確率を表していると考えよう。

ここでよく登場する専門用語の定義は、

T1のリスク(=T1でのE1の確率) = p
T0のリスク(=T0でのE1の確率) = q
リスク差 = p - q
リスク比(=相対リスク) = p / q
対数リスク比 = log(リスク比) = log(p) - log(q)
T1のオッズ = p / (1 - p)
T0のオッズ = q / (1 - q)
T1のロジット(=T1の対数オッズ) = log(T1のオッズ) = log(p) - log(1 - p)
T0のロジット(=T0の対数オッズ) = log(T0のオッズ) = log(q) - log(1 - q)
オッズ比 = T1のオッズ / T0のオッズ
対数オッズ比(=ロジット差) = log(T1のオッズ / T0のオッズ) = T1のロジット - T0のロジット

以上のとおり。
リスク差やリスク比は、確率の解釈から実質的な意味をとりやすいので、解釈が容易と言われる。
一方で、オッズ、オッズ比、対数オッズ比の解釈は難しいと言われている。

これらの値のとりうる範囲は、

0 ≦ リスク ≦ 1
-1 ≦ リスク差 ≦ 1
0 ≦ リスク比 < ∞
-∞ < 対数リスク比 < ∞
0 ≦ オッズ < ∞
-∞ < ロジット < ∞
0 ≦ オッズ比 < ∞
-∞ < 対数オッズ比 < ∞

である。
これらのうち、属性Tと属性Eの関係の有無や関係の強さを示す指標として使えるのは、「T1の」や「T0の」という修飾が付いていないもの。すなわち、リスク差、リスク比、対数リスク比、オッズ比、対数オッズ比、の5つである。

例えばリスク比が1.5とはどういうことか、オッズ比が1.5とはどういうことか、などを直観的に把握してもらうために、値が同じ(階級分けが荒いので正確には「近い」)ところを同じ色にぬった等高図を5つそれぞれについて下に用意した。

risk difference

risk ratio

log risk ratio

odds ratio

log odds ratio

リスク比とオッズ比は無相関を原点とした対称性がないので、まずその点で不慣れな者には解釈上のつまづきがある。
そして、オッズ比と対数オッズ比は、その"曲線的同値性"の点で、リスクに結びつけた実質的解釈が難しく感じられるのだろう。
その意味では、オッズ比は5つのなかで最悪とも言える。

オッズ比は、その値だけ見ても、T1はT0に比べてリスク(確率)が何倍とかどれくらい増えるとかいうことすら導けないのである。(そういう解釈の仕方を紹介している文献やウェブページは、まず間違いだと思って差し支えないだろう。)
例えば、オッズ比 30 は、図の左上、マゼンタと塗られていない部分の境界線あたりである。もし q(=図ではrisk0)=0.8ならばリスクの差はおよそ 0.2 だが、q=0.05 だとしたらリスク差はおよそ 0.56 である。また、q=0.8だとしたらリスクはおよそ1.2倍だが、q=0.05 ならばリスクはおよそ12倍である。たとえオッズ比が同じでもまさに桁違いである。
よってオッズ比だけから平易な実践的示唆を得ることはまずできないだろう。

しかし、例えば積率相関係数もこれと似たようなものである。その値自体の実質的(非数学的)解釈は難しいので、事実的指標としては異なる標本から計算した係数同士の比較や散布具合の目安程度にしか使わない。(もちろん統計学的には大活躍する。)
しかしそれでもみな納得して頻繁に使っている。オッズ比もそういう使い方を徹底したほうがよいのではと思う。つまり、単純に連関の程度の指標として扱い、事実的解釈はしない、という道。

事実的解釈をしたいなら、対数オッズ比のほうがまだマシである。
というよりも、私の持論では、ロジット差として解釈するほうがより分かりよい。

上記は、2種類のデータ発生源を想定し、その違いを検討するという枠組みであった。しかし、1種類のデータ発生源における2つの属性の同時分布を考えるという枠組みもある。
オッズ比は数学的には2つの属性を対称に扱っているので、どちらの枠組みでも使える。というより、後者の枠組みでは上に挙げた指標はほとんど不適だから、オッズ比しか合わない。
これが、医学・疫学系の文献でケースコントロール研究にてオッズ比の使用を推奨している理由である。

しかし、単純に連関の指標として使うなら、連関の指標は他にもあるから、無理にオッズ比を選択する利点は私には思い浮かばない。

人気のロジスティック回帰は、一般化線形モデルの観点からはリンク関数がロジット関数であり、説明変数の効果はロジット差(=対数オッズ比)だから、対数オッズ比が活躍する。その点で、二値データに対してオッズ比の使用を慣習づけたいのかもしれない。
しかしそのようなオッズ比の常用癖に良い点はないと思う。ロジスティック回帰はそのままロジットの差として解釈したほうがよい。オッズに直すことの積極的意義はとくにない気がする。

図をみればわかるように、T1もT0もリスクが低いことが分かっている場合のリスク比とオッズ比の類似性を利用して、オッズ比をリスク比へ読み替えることが勧められることがあるようだ。これはまだわからないでもないが、その条件すなわち「リスクがある範囲に含まれることが既知」が満たされているなら、他にもやれることはたくさんあろう。リスク比を経由しないでオッズ比からリスクを推定することもできる。とくにリスク比にこだわる必要もないだろう。

オッズ比が指標としてもてはやされる理由がわからない。少なくとも私はロジット差しか教えようとしたことがない。

|

« 論理は学習されるか | トップページ | 相関係数の不偏推定 »

Ζ 教育の諸問題」カテゴリの記事

Η 数理の諸問題」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/26863/38275390

この記事へのトラックバック一覧です: オッズ比:

« 論理は学習されるか | トップページ | 相関係数の不偏推定 »