ウイルス検査と統計学

昨今感染が拡大している新型コロナウィルスにおいて、PCR検査というものがあります。この検査を全ての人に対して行うと、陽性なのに新型コロナウィルスではないといったケースが続出するかもしれません。それは、検査精度が100%というものは考えにくく、誤判定が必ずと言っていいほど発生するためです。統計学を学習するのであれば避けては通れない「ベイズの定理」でも扱われている有名な事例ですが、改めて振り返ってみます。

まず、検査結果に対してどのような可能性が考えられるかというと以下の4つが考えられます。

  1. 陽性で、本当に感染している
  2. 陽性だが、本当は感染していない
  3. 陰性だが、本当は感染している
  4. 陰性で、本当に感染していない

今回は病気を診断する検査での事例ですので、おそらく初等統計学を学習している場合には用いらない用語を導入します。感度と特異度です。感度とは、感染している人が陽性と正しく判定される割合でaの場合に相当します。一方、特異度とは感染していない人を正しく陰性と判断できた割合でdの場合に相当します。今回のPCR検査では中々ハッキリしないところがありますが、それぞれ70%と99%としておきましょう。これらを踏まえて表にまとめると次のようになります。

陽性と判定された人 (B) 陰性と判定された人 (\bar{B})
感染している人 (A) 70% (a) 30% (c)
感染していない人 (\bar{A}) 1% (b) 99% (d)

ここで、次のような確率を考えます。本当の感染率は分かりませんが、ここでは日本の人口約1億2千万人のうち、最終的には12万人が感染すると仮定しています。(感染率0.1%)

陽性と判定された人が感染している確率 P(A\mid B)=?

ある人が感染している確率 P(A)=\cfrac{1}{1,000}

ある人が感染していない確率 P(\bar{A})=\cfrac{999}{1,000}

感染している人が陽性と判定される確率 P(B\mid A)=\cfrac{70}{100}

感染していない人が陽性と判定される確率 P(B\mid\bar{A})=\cfrac{1}{100}

ところで、ベイズの公式によると次のような関係が成り立ちます。(そういう関係式が知られているという理解で、ベイズの公式については別の機会に。)

P(A\mid B)=\cfrac{P(A\cap B)}{P(B)}=\cfrac{P(A)A(B\mid A)}{P(A)A(B\mid A)+P(\bar{A})P(B\mid\bar{A})}

知りたいのは陽性と判定された人が感染している確率です。先の確率を代入して計算してみると、

P(A\mid B)=\cfrac{\cfrac{1}{1,000}\cdot\cfrac{70}{100}}{\cfrac{1}{1,000}\cdot\cfrac{70}{100}+\cfrac{999}{1,000}\cdot\cfrac{1}{100}}\fallingdotseq 0.065\fallingdotseq 6.5\%

つまり、もし全国民を検査すれば、陽性と判定されても、実際に感染しているのはたったの6.5%となってしまう。むやみやたらに検査すればよいというものではないので、検査は疑わしい場合のみ検査して欲しいところ。

もちろん、感度、特異度や感染率という前提はあるが。