【Amazon.co.jp限定】 バッファロー WiFi 無線LAN 中継機 Wi-Fi 5 11ac 866 + 300 Mbps ハイパワー コンセント直挿し コンパクトモデル 簡易パッケージ 日本メーカー 【 iPhone 16 / 15 / 14 / 13 / Nintendo Switch / PS5 動作確認済み 】 エコパッケージ WEX-1166DHPL/N
¥2,479 (2025年4月26日 13:07 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)
統計学の解説書ながら42万部超えの異例のロングセラーとなっている『統計学が最強の学問である』。そのメッセージと知見の重要性は、統計学に支えられるAIが広く使われるようになった今、さらに増しています。そしてこのたび、ついに同書をベースにした『マンガ 統計学が最強の学問である』が発売されました。
第5回では、2010年以降に起きた「ビッグデータ」ブームを統計学の専門家はどのように見ていたのかを紹介します。(本記事は2013年に発行された『統計学が最強の学問である』を一部改変し公開しています。)

社会に定着した「ビッグデータ」
ビッグデータというバズワードが流行りはじめてずいぶん経つ。
毎週のようにどこかしらの企業がビッグデータに関するプレスリリースを発表し、雑誌やウェブメディアなどでは「ビッグデータの今後」であるとか、「これからのビッグデータ時代を生きるために」といった記事が掲載されている。今やITに少しでも関心のある社会人で、「ビッグデータ」という言葉を聞いたことのない人は珍しいのではないだろうか。
「ビッグデータ」というコンセプトにビジネスチャンスを期待する人間は、ハードウェアベンダーやシステムインテグレータ、コンサルティングファームなどさまざまな業界に存在している。ついでに言うと、さしてITにも統計学にも詳しいわけでもないビジネス畑の評論家たちも、判を押したように「これからはビッグデータの時代だ」と言っている。
住所録だろうが入出金記録だろうが、仕事関係のデータといえばエクセルシートで管理するぐらいの発想しかない人でも新しいデータベース技術に興味を持ち、100年以上前に発明された統計手法すら理解していない人でも「データマイニング」という言葉に期待を寄せているのだから、統計家として驚くべき時代だと思わざるを得ない。
狂想曲を盛り上げる専門用語
しかしながら、彼らは果たしてデータがビッグであること、あるいはデータをビッグなまま解析することが、どれだけの価値を生むのかどうか、果たして投資するコストに見合うだけのベネフィットが得られるのかどうか、わかっているのだろうか。
理解している人がいないのか、あるいは理解してはいても本人たちのビジネスメリットに繋がらないから、あまり大きな声では言えないだけなのかはわからないが、ビッグデータに関するこうした疑問に答える言説を目にすることはあまりない。
その代わりによく耳にするのは、大規模データを効率的に処理するための新しい製品の仕組みと性能であったり、それによるちょっとしたアプリケーション事例であったりする。
たとえばハードウェアで言えば、オラクル社のExadataという商品は従来のデータベースシステムの10倍以上の性能を示すらしい、とか、Hadoopというフレームワークを使えば処理を複数のハードに分散させて大規模データの高速処理が可能になるらしい、といった話を耳にしたことがある人も多いだろう。
このように「ビッグデータ」と結びつけられて登場する商品や用語は、ざっと挙げるだけで次のようなものがある。
データマイニング
すでにたまっている大量データから、うまく価値のありそうな情報あるいは仮説を引き出すこと。またはそのための手法。細かい精度よりも速度が重視され、比較的単純な計算過程の繰り返しだけで成立する手法が好まれやすい。スーパーのPOSデータをデータマイニングした結果、おむつとビールが同時に買われている割合が案外高かった、みたいなケースがよく紹介される。
テキストマイニング
人間が読むために書かれた(もしくは聞くために話された)フリーテキストを分析するやり方。言語学の手法が発展してビジネスにも応用されるようになった。形態素解析という文章を単語ごとにぶつ切りにするステップを経て、どんな単語が登場しているか、単語同士の関係性はどうか、みたいな分析がされる。
Exadata
長年データベース業界でブイブイ言わせていたオラクル社が多額の買収劇を経て完成させたビッグデータ関連主力商品。ハード・ソフトの両面からうまいことデータを分散させて高速処理することに最適化させている。性能もすごいが値段もすごい。
Greenplum
Exadataの競合商品。オープンソース技術をうまく使っているためExadataよりは安上がりにスケールアップさせて巨大データが高速処理できる。
分散処理
処理しきれない大量データでも100台のサーバに処理を振り分けて最後にまとめれば
100倍速いはず、みたいな考え方。データの構造やアルゴリズム次第で「うまく振り分けて最後にまとめる」手間が異なるのがむずかしいところ。
インメモリデータベース
データを読み出したり書き込んだりする速度を高速化するため、ハードディスクやSSD
ではなくメモリ(RAM)上にデータを記録する。当然、電源が切れるとデータは消えるため、SSDとRAMディスクを組み合わせて弱点を補いあわせたりするという試みもある。余談だがインメモリと言う人とオンメモリと言う人がいる。
Hadoop
データを分散処理するためのオープンソースのJavaフレームワーク。分散処理の「うまいことする」部分を担っている。最近聞く大規模なデータの分散処理をしようとするソフトウェアのほとんどはHadoop上で動いているらしい。
AWS
Amazon Web Servicesのこと。Amazonによるデータベースやデータ解析などのクラウドサービス。ビッグデータや分散処理に対応しているものもある。
非構造化データ
オラクルはじめ従来の一般的なデータベース(リレーショナルデータベース:RDB)は「形の決まったキレイな表」と「表同士の繋がり」をもとにデータを保存したり検索したりしていたが、そういう形にまとめにくい、あるいはあえてまとめないデータ。
NoSQL
RDBの処理はSQLという言語で記述されていたが、それとは違うやり方でデータを保存したり処理したりするやつ、という意味。
KVS
Key Value Storeの略。RDBでは決まった形の表と表同士の繋がりという形で処理していたが、こちらは表の中身の値(Value)と値同士の繋がり(Key)、という形でデータを処理する。非構造化データを含む大規模データを分散処理するのにも便利らしい。
R言語
オープンソースの統計解析用言語。世界中の専門家が自由に解析手法のライブラリを作って公開している。有料ソフトを買えない貧乏学者たちが細々使っていたが、最近急に注目を集める。ExadataやGreenplumからも、さらにはSPSSからも直接のライブラリを呼び出したりできるようになった。
データ処理が高速化することで、ウェブサービスはユーザー数が増えても快適なサービスを提供できるし、社内システムにおいてはより短時間で定例の集計作業を終えることにも繋がるかもしれない。それに伴って人件費の節約などのメリットに繋がることもあるだろう。私が耳にする「ビッグデータ技術の成功体験」の多くは、こうした情報である。
このように新しくて高価な技術が売れる、ということは間違いなくIT関連の企業にとっては喜ばしいことだ。データの処理速度が10倍高速化します、とか、今流行のビッグデータってやつですよ、とか、データマイニングツールも無料でおつけできますよ、とか、きっと今なら営業トークのネタにも事欠かない。きっと毎日、各社の営業さんたちが売上をあげるべく、営業トークに精を出していることだろう。
データを活かすのにお金は要らない
だが、こうした技術だけではたいていの場合、ビジネスメリットに繋がらない……ということは私がいろいろな人から頻繁に受ける以下のような相談が象徴していると思う。
「我が社(もしくはクライアント企業)には何テラバイトにも及ぶ膨大なデータが貯まっている。Exadataほどではないがサーバも導入した。で、ここから何かわからないだろうか?」
こうした相談を持ちかけてくる企業のことが、私はいつも不思議でならない。「何がわかるかもわからずに、なんでそんな投資したんですか?」と正直聞きたい。というか、何度か実際にそう聞いてみたのだが、「いや、何かはわかりそうな気がするんだよ」とか「一応の現状把握には繋がったんだよ」とかいう、もやっとした答えしか得られたことがない。
Exadataに限らず、複数台の高性能なサーバを並べたシステムを構築しようとすれば何千万円という単位の投資が必要になったことだろう。場合によっては1億円以上の額にだってなったかもしれない。なのに、世の決裁権を持った大人たちは「何がわかるかもわからないもの」に大金を投じることもしばしばあるらしい。
もしあなたの会社が今、日常業務のコスト削減やサービスの安定性向上のため以外のベネフィット、すなわち「データから効率のよい経営判断を行なうこと」を見込んでビッグデータ技術に投資しようとしているのであれば、せめてこの本をあと数十ページ読んでからにしてほしい。本書で扱う統計学の基礎さえわかっていれば、データに基づいて正しい経営判断を行なううえで、数千万円どころか数十万円の投資だってしなくてもいいことがわかるはずだ。