【書評】「統計学が最強の学問である」怪しい集計データが見抜けるようになるかも

7月 26, 2020

概要

統計学はどのような議論や理屈も関係なく、一定数のデータさえあれば最適な回答が出せる。そうした効能により旧来から自然科学で活用されてきたが、近年ではITの発達と結びつき、あらゆる学問、ビジネスへの影響力を強めている。こうした点から本書では統計学を「最強の学問」と位置付け、その魅力と可能性を伝えていく。

著者紹介
西内 啓

兵庫県出身の統計家。東京大学大学院医学系研究科医療コミュニケーション学分野助教、大学病院医療情報ネットワーク研究センター副センター長、ダナファーバー/ ハーバード がん研究センター客員研究員を経て、現在は、分析サービスを提供する株式会社データビークルの取締役として、全てのビジネスマンが分析に携われるツールの開発、官民のデータ活用プロジェクトの支援に従事。
著書である「統計学が最強の学問である」は、シリーズ累計40万部を超え 2014年度ビジネス書大賞、2017年度日本統計学会出版賞を受賞している。
日本プロサッカーリーグ(Jリーグ)のアドバイザー。

目次

第1章 なぜ統計学が最強の学問なのか
 ・統計リテラシーのない者がカモられる時代がやってきた
 ・統計学は最善最速の正解を出す
 ・すべての学問は統計学のもとに
 ・ITと統計学の素晴らしき結婚
第2章 サンプリングが情報コストを激減させる
 ・統計家が見たビッグデータ狂想曲
 ・部分が全体に勝る時
 ・1%の精度に数千万円をかけるべきか?
第3章 誤差と因果関係が統計学のキモである
 ・ナイチンゲール的統計の限界
 ・世間にあふれる因果関係を考えない統計解析
 ・「60億円儲かる裏ワザ」のレポート
 ・p値5%以下を目指せ!
 ・そもそも、どんなデータを解析すべきか?
 ・「因果関係の向き」という大問題
第4章 「ランダム化」という最強の武器
 ・ミルクが先か、紅茶が先か
 ・ランダム化比較実験が社会科学を可能にした
 ・「ミシンを2台買ったら1割引き」で売上は上がるのか?
 ・ランダム化の3つの限界
第5章 ランダム化ができなかったらどうするか?
 ・疫学の進歩が証明したタバコのリスク
 ・「平凡への回帰」を分析する回帰分析
 ・天才フィッシャーのもう1つの偉業
 ・統計学の理解が劇的に進む1枚の表
 ・重回帰分析とロジスティック回帰
 ・統計学者が極めた因果の推論
第6章 統計家たちの仁義なき戦い
 ・社会調査法vs疫学・生物統計学
 ・「IQ」を生み出した心理統計学
 ・マーケティングの現場で生まれたデータマイニング
 ・言葉を分析するテキストマイニング
 ・「演繹」の計量経済学と「帰納」の統計学
 ・ペイズ派と頻度論派の確立をめぐる対立
最終章 巨人の肩に立つ方法
 ・「最善の答え」を探せ
 ・エビデンスを探してみよう
おわりに

書評

盛んに言われている統計学についての基本的な考え方をほぼ数式なしで解説した本。
ただ、実は数式はほぼ使われていないけども、考え方の説明などはそれなりに理解するのに頭を使います。なのできちんと理解したい場合は他の初心者向け統計学の本を参考にしたほうがいいかもです。

IT業界で働いている以上、常に多少の集計や統計は業務の一環として触れている状態ですが、自分が一番興味を持ったのは第3章の「誤差と因果関係が統計学のキモである」という部分。
ここを読んでおくだけで、例えばネットニュースなどで話題になる「ゲーム脳」などのもっともらしい集計ニュースなどはほとんどが「怪しい」と分かるのでかなり役に立つと思います。

あと印象的だったのは、第1章にある「統計学は最善最速の正解を出す」の部分。
中世ヨーロッパでコレラが流行した時に、他の学者や医者はコレラの原因調査を頑張っていたが、その中でスノウという人だけではまずはどのような傾向があるのかを統計で分析し、「なぜかは分からないが水道会社Aを使っている家庭からコレラが感染している傾向が強い。水道会社Aをやめるべきだ」と提案。実際に随分後の調査で水道を引いている川が原因ということが分かったが、統計上ではその時点で「対応策」という部分ではすでに答えは出ていたという話。

もう一つは「サンプリング」と「ランダム化」。
全数調査とサンプリングは昔も今も正確性を巡っての戦いがあるという話。
所詮数%の違いなら費用も手間も時間もかからないサンプリングの方が良くないですか?というのが筆者の主張だけど、これは自分もそう思う。
まぁあまりにざっくりとしたサンプリングだと怪しいので、きちんと統計的に意味がある数字というのが条件だけど。

ランダム化については、今では確かにエクセル一発で終わってしまうので全然苦にならないけど、確かに昔は大変だったよな、というお話。これは単純に読み物として。

全体的には統計学について専門的に学んでいない人にも、統計学の考え方や歴史、重要性や内容などを網羅的に書いてあるので手に取りやすい本になっています。
ただし、最初の方にも書いた通りに実際の統計の話になるとやはり多少の数学的な話にもなるのですが、そこも結構サラっと書いてあるので本当にきちんと理解できるか?というと疑問な感じです。
この本を読む人は大抵が理系ではなくて文系の人が多いと思うので。
なので、まずはこの本を読んでみてよく分からない部分があれば、そこを他の初心者向けの本で補足するという読み方がいいのかな?と思いました。