やたら数式とか出てきてΣやら列ベクトルやら、標準偏差だとかノンパラメトリックとかよくわからない用語が出てきたりとか、手法や検定の名前……独立性の検定とか、分散分析とか、重回帰分析とか、探索的因子分析とか、共分散構造分析とか……やたらと難しそうな名前が並んでいたりという印象でしょうか?
普通に暮らしていると、なかなか触れることのない世界であり、また「数学アレルギー」を発症する人々が多いなどのおかげで統計を武器とする人々ーーもちろん自分も含めてーーにとって、そういう専門用語で誤魔化すことが可能になっています。
ですが、政策決定からマーケティングリサーチから、様々な分野で統計学は用いられています。
今回から何回か、その統計詐欺の手法をいくつか公開していこうと考えています。
統計屋を自称する身としては、自分の首を絞める結果になりかねないのですが、このまま解説もしないで続けることに対して真摯さ(キリッ に欠けるという気持ちもあり、公開していうと思います。
さて、統計とは何かというと……
一言で言ってしまえば「三行で頼む。」の数字版です。
つまり、長い文章の要約です。
要約なので、色々と取捨し、換骨奪胎したりできます。そこに詐欺が入り込む余地がでてくるのです。
わかりやすく例を挙げてみましょう。小学校でも習う初歩の統計数値……算術平均を使います。
問題 太郎君のクラスには10人の男子がいます。身長はそれぞれ、129cm,135cm,140cm,126cm,137cm,136cm,130cm,133cm,136cm,138cmです。平均は何cmですか?
懐かしい感じがする算数の世界ですけど……さすがにココはついてきてくださいね?
まずは問題を解いてみましょう。大人なので計算機の使用はOKです。
式 (129+135+140+126+137+136+130+133+136+138)÷10=1340÷10=134
答 平均134cm
……ということで、平均は134cmということがわかりました。
さて、この平均という数値は何を表しているでしょう?
クラスの男子の中に134cmの人はいません。非実在青少年です。
こういう値を「代表値」と言ったりします。クラスを代表する数値なので、例えばクラスで使う机のサイズを注文するときには「134cmくらいの子が座るサイズで10個くれ!」と言えばいいでしょう。
いちいち「129cm,135cm,140cm,126cm,137cm,136cm,130cm,133cm,136cm,138cmの子がいるから、そのサイズに合う一番いい机を頼む」と言うと面倒だし、わかりにくいですよね。
統計は、この面倒くささとわかりにくさを回避するための節約法なのです。
ただ、面倒な部分を省略しているので、伝達ミスが生じる可能性が多くなります。
次の問題を見てください。
問題 花子さんのクラスには10人の女子がいます。身長はそれぞれ、118cm,119cm,117cm,120cm,130cm,117cm,113cm,114cm,194cm,198cmです。平均は何cmですか?
式 (118+119+117+120+130+117+113+114+194+198)÷10=134
答 平均134cm
というわけで、女子の机も134cmで……ってちょっと待て!なんか超高校級のバスケプレイヤーみたいな身長の奴らがいる!190cmオーバーかよ!
……と、こうなると、この平均134cmという数値には意味がないですね。小さい子にとっては大きすぎて足が着かずにブラブラしてしまうし、超高校級の二人にとっては何の罰ゲームだよという感じですし。
さて、ここで詐欺の手法を考えてみましょう。
私は134cm用の机を専門に作る業者です。男子は134cmになったのでいいですが、女子はこのままだと118.5cm用の机を作る業者に客を取られてしまいます。
そこで、二人の超高校級の女子を刺客として送り込みます。これによって、こころおきなく「おたくの女子の平均身長は134cmですよね?」とセールスできるのです。
荒唐無稽な話であり、実際には気づくよ!と言いたいところですが、これを統計学用語やそれっぽい数式などを出されても騙されない自信があるでしょうか?
代表値が本当にそれらの集団を代表していない、となることはよくあります。
でもそれを指摘できないのは、「数学アレルギー」やら「統計アレルギー」によるものでしょう。
要約が正しいかどうかを検討できる目を養うことが、統計に対する向き合い方です。
今後は、さらに詳しく詐欺の手法を紹介していこうと考えています。
とりあえず初回はこんな感じで。