数字の不正を見抜く方法はあるのか。数学史ライターのFukusukeさんは「アメリカの物理学者フランク・ベンフォードが発見した『ベンフォードの法則』というものがある。
実用的に思えない法則だが、実際にアメリカの大統領選でも議論の引き金となるなど社会で応用されている」という――。
※本稿は、Fukusuke『教養としての数学史』(かんき出版)の一部を再編集したものです。
■自然の数字には「出現率」がある
図表1は日本の都道府県別の人口をまとめたものだが、とりわけ、最も位の高い数字に注目してほしい。
最高位の47個の数字の中で、最も頻繁に出てくる数字を実際に数えてみると、図表2のようになる。
「1」が圧倒的に多いことがわかる。
「だから何だ」「偶然ではないか」で片付けてしまえばそれまでだが、2万件以上のデータから最高位に現れる数字に隠れた法則を見つけた人物がいた。
その人物が、アメリカの物理学者フランク・ベンフォードである。彼はデータにおける最高位の数字は「1」が最も多くなることを「ベンフォードの法則」として発表した。実用的に思えない法則だが、実際にアメリカの大統領選でも登場し、議論の引き金になった。本記事ではベンフォードの法則が成り立つ理由や活用例について見ていこう。
■「ベンフォードの法則」
まず、ベンフォードの法則を解説する。
自然界に出てくる数値と聞くと、感覚的には「1」から始まる数値と「9」から始まる数値の個数は同じように思える。
しかし、ベンフォードの法則によれば「1」から始まる数値が登場する確率は、「9」から始まる数値が登場する確率の6.5倍だ。
この法則は経験則だけではなく、数学的根拠も与えられている。
「自然界に出てくる数値」というのは、比でスケールする数値のことである。森林面積、人口、株価などがそれにあたり、ニュースなどでも「前年度比」とか「前日比」といった比率で語られることが多い。現実的ではない例だが、人口が毎年2倍でスケールした場合、1万人から10万人に増えるまでに3年ちょっとかかる。このときの増え方を1カ月単位で表したのが図表3である。
これを見ると最高位の数字が「1」である期間が最も長いのがわかる。また、1~9の数字に対して、その数字が最高位となる期間の長さをグラフにすると図表4のようになる。
人口が増える割合を現実的な数値に変えてもこの傾向は変わらない。
ベンフォードは自然界におけるさまざまな数値について調べ、それらが比でスケールしていくことを明らかにした。1~9までの各数字の登場確率は図表5のように、対数を使って表すことができる。
人口がスケールしたときのグラフとベンフォードの法則のグラフは同じ形をしているのがわかるだろう。

■「人為的に操作できないデータ」に法則性がある
人口統計や河川の長さ、株価、物理定数など人為的に操作できないデータの多くが自身の法則にしたがうとベンフォードは述べた。
逆に、郵便番号やナンバープレートのように人工的に作られたり、身長や体重のように数値範囲が限定されたりしているデータではベンフォードの法則は適用されない。「死」を連想させる「4」から始まるナンバーの車はあまり見かけないし、ほとんどの人の身長(cm)の最高位の数字は「1」である。
ベンフォードの法則の中身が理解できたところで、この法則の歴史と活用例へと話を移したい。
■物理学者の小さな発見が2万件のデータに
フランク・ベンフォードは1910年にミシガン大学を卒業後、ゼネラルエレクトリックという会社に勤めることになる。ベンフォードはこの会社の研究所で物理学者として働いていた。
大きな数字を扱うため、対数表を使っていく中で、ベンフォードはある発見をする。
自然発生的に登場する数値では、最高位の数字が「1」の可能性が高く、「9」の可能性が低いのではないかという発見だ。
ベンフォードはこの傾向に興味を抱き、野球の統計や河川の流域面積、原子量、物理定数、都市の人口、新聞記事に登場する数字など、さまざまなデータを何年もかけて収集・分析した。
なんとそのデータ数は20229件。
自然界は比でスケールするデータが多く、彼の発見はベンフォードの法則として形を変えた。類まれなリサーチ力で裏付けされたベンフォードの法則はその意外性も相まって、人々に知られるようになっていった。

ベンフォードによって広まった興味深い法則はのちの社会で応用されるようになる。
■バイデン氏の不正を訴えたトランプ氏
1972年、アメリカの経済学者のハル・ヴァリアンはベンフォードの法則は不正の発見に利用できることを示唆した。
それを受けて1980年代以降、会計士は財務諸表の不正検出にベンフォードの法則を活用し始める。この法則に従っていないからといって不正と判断されるわけではないが、不正を発見する初期段階の簡易ツールとして注目された。
選挙でもベンフォードの法則はたびたび姿を見せる。
最近の大きな活用例としては、2020年11月3日に行われたアメリカの大統領選が挙げられる。この選挙は民主党候補のジョー・バイデン氏が当時の現職大統領ドナルド・トランプ氏を破った選挙として記憶に残っている方も多いだろう。
落選したトランプ陣営がバイデン氏の不正を訴えるために利用したのがこの法則であった。図表7はマイアミの各投票区におけるバイデン氏とトランプ氏の得票数の最高位の数字をまとめたものである。
どちらもベンフォードの法則におおむね従っていることがわかる。
しかし、図表8、9のミルウォーキーやシカゴはどうだろうか。
トランプ氏のグラフはきれいな分布をしているが、バイデン氏の分布はベンフォードの法則とかけ離れているのが見て取れる。
これをもとにトランプ陣営はバイデン氏の不正を訴えたのである。
この訴えを受け、行政や司法が動く事態となった。
そして各州で選挙結果が再集計された結果、司法長官が「大規模な不正を示す証拠は見つからなかった」と声明を出し、結果はくつがえらなかった。これはベンフォードの法則が選挙結果の再調査へと動かす引き金になったといえる。
■ベンフォードの法則に従いすぎた例も…
また、ベンフォードの法則に従いすぎた例もある。
2016年に行われたロシアの議会選挙において、国内9万以上の選挙区それぞれの投票者数の2桁目がベンフォードの法則による理論値と完全に一致する結果になった。完璧すぎる数値により、選挙責任者たちがベンフォードの法則に合わせて意図的に票を操作したのではないかと疑われたのである。
ただ、この疑いをかけたのはアメリカのジャーナリストだったこともあり、プーチン政権も選挙結果を妥当なものだと嫌疑を無視。ベンフォードの法則に従いすぎた結果への関与を否定した。
■「嘘つきは数字を使う」
このほかにも選挙結果を法則と照らし合わせて不正を訴追する例はいくつもある。
選挙のような政治が絡む統計においては、ベンフォードの法則に従わなければ疑われ、従いすぎても疑惑を招いてしまうという状態に陥っている。
実際に不正が発覚した事例はほとんどなく、専門家たちはベンフォードの法則の限界を示している。
それでもなおこの法則は、不正検出の第一歩を担い、より詳細な調査を求める足がかりとして機能している。
数字は嘘をつかないが嘘つきは数字を使う。
ユーモアと社会風刺に富んだアメリカの著作家、マーク・トウェインの言葉だ。
ベンフォードの数字への熱意から生まれた法則は、数字を悪用しようとする人間を今も監視し続けている。

----------

Fukusuke(ふくすけ)

数学史ライター&ブロガー

私立中高一貫校の数学教員。早稲田大学教育学部数学科を卒業し、2017年に同大学教職大学院を修了。数学サイト「Fukusukeの数学めも」を立ち上げ、月間8万PVにまで成長させた。サイトでは数学史をメインに、自身が授業で使用している数学ネタから大学数学の解説まで、幅広いコンテンツを発信している。

----------

(数学史ライター&ブロガー Fukusuke)
編集部おすすめ