長岡亮介のよもやま話86「統計の嘘」

 今回はよくある有名な話題を取り上げましょう。それは「統計の嘘」というものです。私達はコンピューターの大発達普及により、巨大なデータを数学的に取り扱うということが実に容易になってきた。つまり、実用的な意味での統計学で、これは理論的には大変成功にできていても、実用的な場面に適用するというときには困難を感じることが多かったのですが、最近は巨大なデータが簡単に手に入るようになり、そういう意味で、統計的な処理あるいは統計的なアプローチにも、新しい可能性が開けてきています。一部には「データサイエンス」というような表現を好む人たちもいます。データを分析する数学的な手法に対して、それを自然科学に例えようという趣旨なのかもしれませんけれども、私はサイエンスという言葉の使い方とちょっと違うような気がしています。しかしそれは表面的な流行に過ぎませんし、その言葉を使っている人も、表面的な流行であることを承知して使っているのだと思いますので、その問題には立ち入れないことにしましょう。

 ここでは「統計の嘘」つまり、正しく使うならば非常に強力な武器となる統計を、間違って使うととんでもないことになるというお話です。というのも最近、電車のつり革広告なんかでひどい広告が目にするようになりました。「使った人の99%が満足している」とか、99%というのはさすがに嘘っぽいと感じたのか、「98%が大満足また満足である」と、例えばそういうような使い方ですね。これは統計的なデータをどのようにして取ったのかということを全然明らかにしないで、結果の数値だけを述べて、あたかもその裏に統計が隠されているかのように装っている。いわば詐欺です。私がここで触れたい「統計の嘘」、あるいは「統計学の虚偽」というのはそのような意図的な虚偽あるいは意図的な詐欺ではなく、私達がついうっかりすると引っかかってしまう、「善意の虚偽」についてです。

 例えば皆さん、私がこう言ったらきっとびっくりされると思うんですね。「東大生は長男が多い。」こういう命題です。実はこれは自明の話でありまして、長男がいない次男。長男がいない三男なんてのはなかなかいないわけですね。長男という言い方は男性に限りますから、長女を考慮してないという問題がまずありますけど。男性だけを考慮しているとしても「東大生には長男が多い」という言い方をすると、それだけで長男がひょっとすると優秀なのかと、そういうふうに誤解してしまいかねません。あるいは長男に対して親が過度の期待をして教育費にお金をかける、そのことの結果として東大生になる長男が多いんだろう、とそういうふうに思ってしまいます。しかし、少子化の折りであれば、なお一層明らかでありますが、世の中には長男が圧倒的に多いのでありまして、「犯罪者の中にも長男が多い」、「詐欺師の中にも長男が多い」、「病気しやすいのも長男が多い」、何でも言えるんですね。こういうのは、元々の母集団を長男、次男、三男、そういうふうに分類したときに、その分類したときの母集団、母の集団といいますが、その率が明確でないから「第一子」という概念を特に取り出すっていうことに対しては、もっともっと慎重でないと、統計的な処理ができないわけです。

 そのような統計の「いろは」は、最も重要なのは医療統計でありまして、例えば「あるタイプの人は病気になりやすい」、「あるタイプの人はある特定の疾患が重症化しやすい」ということは、医療の知識としては極めて重要でありますから、しばしば言われますが、その基礎となる統計データをきちっと取ってない、というものが少なくないんですね。わが国では、医療の世界に数学が入ってくるっていうことに対して、抵抗を持ってる人がまだまだ大学以外では決して少ないとはいえない。つまり、かなりの人が経験的な知識によって、あるいはひどい場合には、ある権威の意見だけに従って、自分たちの判断を正当化する。そういう一昔前にはしばしば見聞した、そういうような類の権威主義的な病理判断に頼っている傾向が、日本では依然として見られます。

 例えば、今アトピー性皮膚炎というのは非常に深刻な病気で、年をとってからも私の本当に尊敬する友人で、アトピー性皮膚炎を患っている方がいらして、その方は自分のアトピー性皮膚炎がとても気持ちがいいというふうにかわいがっていらっしゃるのですが、子供にとっては非常につらい病気ですよね。その病気を治すために何が大切か。そういうようなことは統計学的にはかなりわかってきている。しかし、統計的な結論を絶対に受け入れない、そういう健康問題に関して頑なな信仰を貫いている人っているんですね。確かに健康問題に関して、今まで近代医療が言ってきたことというのは、こんにちほとんど全てが否定されている、というくらい結論がひっくり返っている。この歴史を考えれば現代医学の知見に対して、「いいやそんなことはない。私はこういうふうに信じている」っていうふうに言い張りたい人の気持ちもわからないではありません。

 特にわが子の問題となったときに、母親たちの甚く、信念に近い思い。これは母性の深いところに根ざしているものですから、「科学的には」とか、「統計学的には」、というようなことが、そのまま受け入れられるとはなかなか思えないのも事実でありますけれども、私がもし母親の立場で自分の子どもの健康を本当に考えているのがあれば、本当の意味で医学的なメカニズム、細かい詳細まではわからないとしても、「その症状の発生とある種の栄養の摂り方に関して、有意な差がある」という統計データを見たら、自分の信念を曲げてもやはり統計データに従わなければならないと思うんです。

 それは「統計データに嘘がない」ということがとても大切でありまして、統計を取るときに最近で言えば、COVID-19で亡くなる人、あるいは重症化する人が出ていますが、その方々の統計において、既往歴、既にかかった病気として、糖尿病であるとか、あるいは高血圧であるとか、各種の体内の慢性的な炎症を伴う病気、特に肺線維症、そういうようなものが病歴にあるかないかということを抜きにして、「COVID-19による被害者が何名出た」というような数値を取り出すことは、私はあまり建設的な統計のとり方ではない。そういうふうに考えます。統計学というのは、私達がそのサイエンスの世界において、本当にその微細な構造にまで分けいることができない。しかしながら、私達がその微細な構造がわかるまで、私達の判断、治療に向けての判断を保留することはできない。現在ある知識の中で最良の選択をしたい、という実践的な結論を急がされるときに、それを科学的に遂行する唯一の方法なんだと思うんです。統計的な結論には嘘がつきもの、あるいは間違いがつきものかもしれません。あるいは「統計的な結論は、絶対間違っていないとは断言できない」という命題は否定できない。統計的な結論が間違ってることも、十分ありうる。しかし、統計学では「その間違っている確率が5%未満である」というようにして推論を正当化する、そういう手法があるわけですね。

 私達は、最終的に科学的な判断、演繹的な判断ができない局面において、それに近い形でとりあえずの実践的な決断をしなければならない、という場面で最も私達が頼りにすべきなのは、「統計」であると思います。その統計で、虚偽の広告を打つような人たちが後を絶たないのは悲しい限りでありますけれども、皆さんも統計に騙されることなく、しかし統計の重要性を常に鑑みて、行動をする、というふうにしていってほしいと思います。特に医療とか子育ての問題に関しては、やはり頼りになるのは統計学でありまして、長年母親をやったと言っても、その母親経験というのはせいぜい三、四人の子供を育てたという経験でしかない。しかも第一子・第二子・第三子・第四子というふうになるにつれて、母親と子供との関係も実に多様に変化していくわけです。人間の個人の体験というのは、どんなベテランといってもたかが知れています。それが例えば小児科の担当医であればその経験が遥かに多い。それは確かに言えますけれども、1人の医師が一生に担当できる患者の数っていうのは、1日20人だとしてもそれは300日毎年繰り返したとしても6000人、20年間繰り返したとしても12万人、大した数にはならないわけです。それに対して1億人の子供たちのデータ、これに基づいて判断するという手法があるならば、それは強力なものに違いないと皆さんも確信してくださるでしょう。

 数学は極めて身近な学問ですが、その中でも特に身近に存在するものが統計学であり、そして、統計学を通じて私達が武装すべきときに、しばしば私達が「統計的な嘘」に騙されて武装解除しまう、という愚かさを繰り返しているわけです。

コメント

タイトルとURLをコピーしました