
統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。第14回では、統計学の「最強の武器」とも言えるランダム化比較実験について解説します(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています)。

ミルクが先か、紅茶が先か
すでに述べたように、断面的なデータだけをクロス集計しても「因果関係の向き」について明らかにすることはできない。
暴力的なゲームのプレー時間と犯罪率についての例をあげたが、2つの項目が統計学的に強い関連性を示していたとしても、前者が後者の原因なのか、あるいは逆に後者が前者の原因なのか、さらにそこで測定されていなかった第三の(たとえば家庭環境の悪さであるとか本人の暴力性であるといった)要因がその両者に影響を与えているのか、といったことは、単純なクロス集計とp値だけではわからないのである。
だがこれは、あくまで断面的なデータからでは、あるいは、それに対するシンプルな統計解析だけではわからない、という話である。データの取り方自体を工夫すれば、あるいはより高度な解析手法を用いれば、完璧にとは言わないまでも何が原因で何が結果なのか、そしてその「原因」を制御することによって、どれだけ「結果」を左右することができるのかをかなりの部分明らかにすることができる。
そこでここからしばらくは、特にこの「データの取り方を工夫する」というやり方にフォーカスしていこう。具体的には、近年ウェブ界隈で「A/Bテスト」と呼ばれ、統計家が長年「ランダム化比較実験」と呼ぶものがどれだけ強力か、という話が中心的なテーマとなるだろう。
「科学」の対象を拡大したランダム化比較実験
こうしたランダム化比較実験がどれだけ強力か、本節で説明するその最も大きな理由は、「人間の制御しうる何物についても、その因果関係を分析できるから」である。
そう、仮に「超能力が存在するか」を証明しろと言われれば、統計家は喜んでその実証に力を貸すことだろう。仮に統計学で超能力を科学的に実証できないとすれば、その理由はたった1つだけだ。実用レベルの超能力がこの世に存在しないから、である。
占い師や超能力者と称するオカルト関係の仕事を生業とする人、あるいはそうしたものを信じる(そして場合によってはカモられる)人たちは、しばしば「この世には現代科学では割り切れないものだってある」という謎の主張をする。
とんでもない! フィッシャーが打ち立てたこのランダム化比較実験という方法論は、科学哲学を揺り動かし、科学で扱える対象の領域を爆発的に拡大させた。倫理性や制御可能性などの現実的な制約はあるにせよ、「科学で扱い得ないもの」なんて存在しないのだ。
たとえばフィッシャーが1935年に著した『実験計画法』という世界ではじめてランダム化比較実験を体系立てた名著には、ミルクティにうるさい婦人の話が登場する。
20世紀前半のイギリスにて、何人かの英国人男女が紅茶を楽しんでいるところを思い浮かべてほしい。その場にいたある婦人はミルクティについて「紅茶を先に入れたミルクティ」か「ミルクを先に入れたミルクティ」か、味が全然違うからすぐにわかると主張する。この一見どうでもよさそうな婦人の主張ですら、科学的に実証できるというのがランダム化比較実験の力なのである。
その場にいた紳士たちのほとんどは、婦人の主張を笑い飛ばした。彼らが学んだ科学的知識に基づけば、紅茶とミルクが一度混ざってしまえば何ら化学的性質の違いなどない。
だが、その場にいた1人の小柄で、分厚い眼鏡をかけ髭を生やした男だけが、婦人の説明を面白がって「その命題をテストしてみようじゃないか」と提案する。この男こそが、現代統計学の父、ロナルド・A・フィッシャーである。
彼はさっそくティカップをずらりと並べ、婦人に見えない場所で2種類の違った淹れ方のミルクティを用意した。そしてランダムな順番で婦人にミルクティを飲ませ、婦人の答えを書き留めた後でちょっとした確率の計算をする、という実験を行なった。これが世界で最初に行なわれたランダム化比較実験の考え方である。
なぜ、ランダムでなくてはならないのか?
なぜこうしたやり方で婦人の主張は検証できるのだろうか? その問いに答える前に、もしランダム化比較実験を使わずにこの婦人の主張を確かめようとすれば、いったいどういったことが問題になるかを考えてみよう。
たとえば婦人が1杯の「紅茶を先に入れたミルクティ」を飲んで言い当てられたとしても、別にそれは婦人の主張が確かめられたことにはならない。当たるか当たらないかはデタラメに言っても五分五分なのだから、たまたまその50%の確率を一度目で引当てることだって普通にあり得るだろう。
では、交互に「紅茶が先」「ミルクが先」を飲ませてみて百発百中で婦人が言い当てられたとしたらどうだろうか?
1回きりの「実験」よりはマシだが、これだってどんなときでもすぐにわかると言うには弱いだろう。なぜなら「交互に繰り返している」という法則性が存在しているのであれば(そしてそのことを婦人が知っていたり、気づいたりすれば)、最初の1杯を偶然言い当てられた時点で自動的にその後の答えはわかってしまうからである。
もちろん先に5杯連続で「紅茶が先」を飲ませ、その後また5杯「ミルクが先」を飲ませるというやり方もオススメできない。これだって最初の1杯目を偶然言い当てた後、「何杯目で切り替わるか」という点のヤマカンを当てればいいだけである。それに、前半に飲んだ「紅茶が先」よりも後半の「ミルクが先」のほうがどうしてもぬるくなってしまい、単にぬるいミルクティをミルクが先だと判断しているだけでも偶然に当たってしまう。
ではどうすればよいのか? 両タイプのミルクティをランダムに飲ませ、どれほど当てられるのかを検証すればいい。これがランダム化比較実験の基本的な考え方だ。ミルクティはランダムに飲まされるのだから、見えない場所でミルクティを注がれた場合に順番を予測することは誰にもできない。
「1杯の完璧な紅茶の淹れ方」
フィッシャーはさらに『実験計画法』の中で、婦人に実験のやり方についてどの程度説明すべきか、何杯のミルクティでテストすべきか、といった詳細を検討し、また想定される婦人の回答結果と「婦人がデタラメに回答してそれだけの正答率が偶然得られる確率」を計算している。
フィッシャーまでの科学者たちも実験をするにはしていたが、10回やって10回確実に生じるような現象を記述することしかしていなかった。あるいは、10回やってほんの1回しか起こらないような現象であっても、その1回だけを取り上げてさも実験に成功したかのような顔をする者もいた。
どのような手順で実験して、10回中何回成功すれば科学的に実証できたと考えられるのか、ということを考えた人間はフィッシャーの前にはほとんど誰もいなかったのだ。そしてそのフィッシャーの考えた「科学的に実証するための手順」のうち最も重要なアイディアが、「ランダム化する」という部分なのである。
しかし、もし彼女がランダムな5杯のミルクティを飲んですべて当てられたのだとすれば、その確率は2の5乗分の1、すなわち32分の1(約3.1%)、10杯飲んですべてを当てていたのならば1024分の1(約0.1%)ということになる。
これほどの確率を示されれば、彼女が何らかの形でミルクティを識別できていると考えたほうが自然だということになるだろう。
余談だが、婦人がなぜミルクティを識別できたのかという点について、こんな考え方もある。英国王立化学協会は2003年に、「1杯の完璧な紅茶の淹れ方」というウィットに富んだプレスリリースを出したのだ。
これほどミルクティにこだわるのはまさにイギリス人らしいところである。
オカルトとペテンの見破り方
ミルクティに限らず、この考え方を応用すれば、たいがいのペテンは見破ることが可能であるとわかってもらえるだろうか。
もし怪しげな占い師が「科学では割り切れないけど私は運勢が見える」というのならば、たとえば十分な数の人間を集め、外から見えないよう細工をした封筒に入った「賞金の当たるくじ」をランダムに配ればいい。きっと運勢の強い人間はこの賞金くじをつかむだろうし、運勢が見えるのならば偶然とは思えない確率で占えなければおかしい。
もちろんそんな提案をしたら多くの占い師たちは、あれやこれやと理由をつけて「そうした方法では占いができない理由」をつけるだろう。
「そんな風に疑ってる人が近くにいたら気が乱れて正しく占いができない」というような主張もしばしば聞かれるが、もしこの主張が正しかったとしたら、それはそれで問題である。
なぜならもし疑り深い反オカルト主義者がその気になれば、占い師たちの主張が本当であれ言い訳であれ、とりあえず自分自身が気を乱す存在として彼らを付け回すだけで「少なくとも今この占い師は能なしですよ」と言ってしまえるのだ。
なお、私は本当に当たる占い師が存在するかどうかをデータもなしに否定するつもりはないし、どちらかというともし本当に当たる人がいるならその能力を実証させてほしいと常々思っている。たまに「占いは統計学だ」という言説を耳にすることもあるが、もしそれが本当だったら最新の統計学はきっと占いを精緻なものにだってできるはずだ。
インチキな占い師ぐらいわかりやすい怪しさだと引っかかるビジネスマンは少ないかもしれないが、占い師以外にも効果のよくわからない商品を売りに来る人はいくらでもいる。
従業員のパフォーマンスが上がりますという研修、業務の効率が上がりますというITシステム、売上が上がりますという広告など、さまざまなDMやセールスマンが今日もあなたの会社にやって来るはずだ。
彼らの何割かは、意識してかせずか、何の意味もない商品であなたをカモろうとしていると言っていいだろう。もちろん自分の責任の範囲で、信念や直感に基づいてこうした売り込みの採否を決めるのもいいし、「効いた気になる」という心理的な満足感にお金を支払ってもいい。
だが、予算の規模や、リスクの度合いなどを鑑みて、可能な限り間違いを探しておかなければならない場合には、ランダム化比較実験が大きな力を発揮するはずだ。
研修やDMの効果測定にも
たとえば研修だったら、研修の対象となる従業員をランダムに半分に分け、片方に提案された研修を受けさせる一方、もう片方は通常業務に従事させたり、もっとお金のかからない研修やレクリエーションに参加させたりする。そして営業された「従業員パフォーマンス」がどのようなものかを具体的な数値(たとえば営業成績や勤務評定など)として定義し、研修参加直後やその後1年間の数値を比較すればいい。
もしその研修に効果があるのだとしたら、きっと偶然とは言えないレベルで、受けたグループのほうがそうでないグループに比べて平均的に高いパフォーマンスを示しているはずだ。
また、既存データからDMを送って効果が高いとされる顧客の特徴を明らかにしただけでは、その解析結果はあくまで仮説だ。だが実際にそうした特徴を持つ顧客の一部をランダムに選んでDMを送り、その後の平均的な購買金額をDMを送った群と送らなかった群の間で比較すれば、仮説は実証できる。大々的にDMを送るというリスクを冒すのはそうした実証が終わった後でも遅くないはずだ。
たったこれだけのことでビジネスにおけるほとんどの間違いは潰せる。それが(誤差を考慮しない不完全なものであっても)A/Bテストが最近のインターネット関連企業において重要視されるようになった理由なのだろう。
もしあなたがこれから失敗の許されない判断をするのであれば、何らかの形で適切なランダム化比較実験ができないだろうか、という可能性を検討してみてほしい。
Views: 2