統計用語としてはかなり初歩に覚えるべき言葉ですが、知らない人が見ると「ママさんの集団……PTAか……」となるそうです。本当かどうかは知りません。あと自分で書いていて、ママさんをマミさんと空目したのでもう何も怖くないです。
さて、母集団とは何かというと……統計の測定をする相手のことです。
統計とは要約、と前回言いましたが、母集団は要約に対する全文のようなものです。
クラスの男子の平均身長は?という問いについて、「クラスの男子」という集団が母集団となります。
そして、統計詐欺の中でもかなり大胆なのに、ばれにくいのがこの母集団詐欺です。
まず統計の基本として「標本調査」と「全調査」があります。全調査は対象となるものすべてを調査すること、標本調査は一部を調査することです。
例えば、小学五年生男子の平均身長は?という問いならば全調査が可能でしょう。どの学校でも毎年、身体測定を行っているはずですし、そのデータは文部科学省や厚生労働省に蓄積されているはずです。ですので、平均身長や平均体重については、全調査が可能です。他にも婚姻や死亡など、全国民が役所に届けなければならないデータについては全調査が可能です。
……全調査にしても色々と問題はあるのですが、とりあえず今回はそこについては扱いません。
なぜなら、普通のデータで全調査はあり得ないくらいに少ないからです。
対して標本調査を行うのは、その他ほとんど全てのデータです。
例えば「アンパンマンに登場するキャラクターの中で最も人気があるのは誰か?」というデータが欲しいとして、それは役所などに蓄積されておらず、自力で調べなければなりませんが……まさか日本国民全員に聞いて回るなどと言う労力をかけられるはずもありません。そこで、一部を取り出して調べる標本調査が必要になってきます。テレビや新聞の世論調査でも、1000〜2000人程度の調査が実施となります。
数の問題はとりあえず置いておきましょう。
1000人に聞いた「50%の人が賛成!」という結果と、2人に聞いた「50%が賛成!」というデータの意味の違いは明確すぎるので、今回は脇に置いておきます。
今回で問題にしたいのは「誰に聞くか」という問題……つまりどんな集団を母集団にするか、という問題です。
街頭でアンパンマンの人気キャラクターについてのアンケートをしたとします。例えば平日の昼間に東京の新宿駅前でアンケートをとったとしましょう。
で、そこで1000人から有効回答を得たとしても、それは偏りが出てきます。それは「新宿駅を利用する人の中で最も人気のキャラクター」であって、「日本国民の中で」とは言えないわけです。
地方格差、利用する年齢層などを考えると、その偏りがイメージできるでしょう。例えば平日昼間の新宿駅でしたら、社会人が多く、誰でも知っている有名キャラクターに票が集まることでしょう。でもそれは「国民の好み」を繁栄している結果とは言えないと考えられます。
世論調査などで最近使われているRDDーーランダムで電話番号を生成して無差別にかける方法ではどうでしょうか?それでも、電話を持っていない人や、また子どもたちなどの意見は吸収できません。
支持政党などについての世論調査の場合は、逆に子どもを排除できて良い方法なのですが、アンパンマンのキャラの調査で子どもを完全に排除するのはあまり得策とは言えないでしょう。
こういった「誰に調査するのか」で詐欺が起こる余地があります。
つまり、データが偏っているのに、偏っていない風を装う、という詐欺です。
統計的に偏りのないデータを本当に集めるためには、層化抽出+ランダムサンプリングをして、各世代ごと、性別ごと、地域ごとにそれぞれ一定の人数を無作為に抽出、調査しなければならないでしょう。青森県の50代男性10人、青森県の40代男性10人……と、こういった形で調査していかない限り、なかなか偏りは消せません。 しかも普段アンパンマンを視聴しているかどうかについての変数も統制しなくてはならないと考えると……時間的、地理的、費用的にかなり面倒な作業になります。それこそ、膨大な費用がかかります。
ですから、雑誌などでは「街頭の若者100人に聞きました」の結果を若者全体の代表意見として扱ったりします。本当は「自分たちが作意的に選んだ100人に対する調査」だったり「自分たちの雑誌に答えてくれる、元々こちらに興味がある人の調査」だったりするのですが、それを全体の意見としてみてしまう、これが母集団詐欺です。
意識的にせよ、無意識的にせよ、自分の都合にいい対象を調査して、それを全体の意見であると主張するという手法ですが、これがなかなかやっかいです。学術的にも母集団へのツッコミは野暮、とされている部分もあります。例えば大学教授の研究対象は費用的にどうしても大学生が多くなるのですが、そこは「お互い様」と見逃しあう文化もあったりして、調査の分野で母集団の適格性はあまり問題にされない傾向があります。
もう少し卑近な例で考えると、自分の見たものを世界の全てだと思ってしまい、結果的に母集団を間違って主張するという例もありえますね。
「Aというブログでアンパンマンが絶賛されていた。Bという人のツイッターでアンパンマンが絶賛されていた。Cというスレでアンパンマンが絶賛されていた。だから世の中の人はみんなアンパンマンが好きなんだし、アンパンマンは良い作品なのだ」と思ってしまうのも、自分に対する詐欺なのでしょう。自分の触れる偏った情報源が、世界全ての意見だと思ってしまうという勘違いです。
こういう時に「自分は、アンパンマンはすごいと思っている」と言えば問題ないのですが、いかにも総体の意見であるように振る舞うのは統計学的に良くないことでしょう。
本論に戻りまして。
統計学的に考えるとどこで何を調査したのか、というのはかなり重要なのですが、ある程度統計に関わっている人ですら意外と意識しない部分なのです。
それは完全に偏りがない調査が費用的にハードルが高く、常に妥協を繰り返しているという状況から生まれていることに起因することなのですが、不完全でしかない、ということです。
そういった意味で、統計数値は「どの母集団を調査するか」に大きな偏りがあり、統計をとる人によって数値の操作が可能になっています。
「駅前で東京都民100人に聞きました・エロマンガの規制に賛成ですか?」という質問のデータを集めたいとしましょう。これを東京の高級住宅街でやるか、秋葉原でやるかで数値を操作することは可能でしょう。そこまで露骨ではなくとも、聞く相手をわざと年寄りを多めにする、若者を多めにする、男性を、女性を……という形で操作は可能です。
これを「駅前で聞いた都民100人」として提出し、それをあたかも都民全体の総意であるように装うことはありえるでしょう。
「何を調査するか」によって統計数値を操作できるというのは、統計詐欺の基本にして奥義かもしれません。
第二回はとりあえずこんな感じで。