トランプ当選と有権者のビッグデータの失敗

アメリカの有権者に対してターゲットを設定する技術は、適切な予想投票率の動向を示すことに失敗した。

有権者のイメージと動向を把握し対応を示す現代的な方法をこう呼ぶならば、これはビッグデータの勝利とならなければならなかった。しかし、アメリカの今回の選挙では、それが全く破綻したことを意味することになるだろう。それはクリントン陣営が使用した技術の失敗であり、彼女はこれに数百万ドルを投資したのだが、さらに多くのメディアが前面に出していた予測システムの失敗、これも投票行動をきちんと正確に予測できなかった。

有権者の欲求や習性に関する情報を提供しうるようなデータとファイルの集積は、その絶妙なパスワークによって、バラク・オバマの選挙陣営に2回の勝利をもたらし、アメリカの政党にとっては優先事項の一つとなっていた。

NGP VAN社の一連の専用ソフトウェアに基づいた、しかし同様にオバマ陣営から受け継がれた有権者のファイルにも基づいた情報技術は、選挙区ごと、地区ごと、もしくは世帯ごとの説得すべき有権者の、恐ろしく正確なターゲット設定を可能としており、得られた情報に応じて個人対応された応対マニュアルもあった。このソフトウェアを使えば、ボランティア参加者を見たり、最も活動的な人物をマークしたりすることなどもできる。しかし、これらの手段は、今回の選挙戦をうまく「読む」ことができず、それをおかしな方向に導いてしまった。つまり、とりわけRust Belt(ミシガンやウィスコンシンのような工業を主体とする州)のような、前もって結果が分かっていたとみなされ、それ故に民主党員があまり食い込んでいなかったいくつかの州では、結局は大半がトランプに投票した。


"隠れた"有権者
今回の結果も、有権者の動向調査の失敗として響き渡った。確認するのも比較的簡単な(?)フランス大統領選と異なり、アメリカの投票は間接選挙である。勝利を手にするためには、選挙人を確保すべく各州を制覇しなければならない。このため、さらにこれらの国家レベルの調査結果を集計し、総合的なヴィジョンを得るためには、州ごと(さらには選挙区ごと)に世論の調査を行わなければならない。これは、約10種類、さらにはおよそ100種類のアンケート調査に基づいており、いずれもその方法論、誤差範囲、信頼性は全く異なる。

アメリカの調査機関がほとんど丸ごと破綻したことを説明するために、いくつかの仮説が出されている。まずは、「隠れた」トランプ支持者の存在であり、彼らは、長い間フランスにもいる「国民前線FN」の隠れ支持者のように、調査員に対してトランプに投票するつもりだと言うことを拒んだ。調査対象者をサンプリングする際のバイアスも指摘されている。アメリカ合衆国における調査は、無作為抽出の回答者により構成されてはいるが、代表的サンプリングとはなっていない。調査員たちは、長い間電話帳をめくっていた。携帯電話が登場したことによって、もはや若者たちが固定電話を持たない傾向にあるという、人口構成上のバイアスをもたらした。オンライン調査が利用されるようになってきていることにも同様のものがあり、 これもサンプリングにバイアスを与えている。このバイアスが、地域の調査を集積しているデータ台帳にさらに累積していく傾向がある。

ビッグデータの大失態の3番目は、たくさんのアメリカのメディアが自社の予測手段を投入しているが、それらは、調査結果ではなく各候補者の勝利の可能性を直接パーセンテージとして与えていた。これらの予測手段は、各地域の調査を平均し、それを集計して構成されており、この調査には時に信頼性の「スコア」が与えられ、このスコアが最終結果においてその重要性を加味してしまっている。

ニューヨークタイムズ、アフィントンポスト、ロイターが前面に押し出していた予測手段は、裏目に出た。これらのメディアは、記事のタイトルを「世帯調査ではイラリー・クリントンが勝利しつつある」とするところを、「イラリー・クリントンには90%の勝算がある」としていた。これは、読者が抱いていた印象や、もしくはすでに何ヶ月も前からあらゆるメディアが勝利したと伝えていれば、民主党候補を支持する人たちの投票への参加に影響を及ぼしうる。

アメリカの多くのジャーナリストたちが、自分たちはデータと予測システムによる中毒になっていると知っていた。「ジャーナリストたちは、自分たちが内心で感じていた通りに、トランプ氏が優位に立つ可能性は低いと今回の調査が追認していたために、これを疑わなかった」とニューヨークタイムスのまとめ役、ジム・ルーテンバーグが投票の翌日に書いている。

SNSで広く共有されたあるコメントがあり、その中でハーバード大学ニューヨーク大学の研究者 ダナ・ボイドは、データによるこの集団中毒を強く非難している。「私はデータを信頼しているが、データがそれ自体で見世物ショーとなっている。これらのデータやら、数字は魔法の情報であるとほのめかす見栄えのいいプレゼンやらが作り出すものものの限界に対して、何らの批判も受けないような調査から得られた数字を、メディアがその帳尻を合わせることが、受け入れられるものとなるだろうとは思えない。こういうデータの乱用は止めなければならない。私たちに必要なのは、データには責任が伴うということであって、見世物ショーが必要なのではないのである。」
(Le Monde紙 2016年11月15日)