「医者・看護師」から思い浮かぶ性別の組み合わせは? 黒人女性は顔認証のエラーが起きやすい? 社会の偏りが反映されてしまうアルゴリズム・AIの問題点
「医者・看護師」から思い浮かぶ性別の組み合わせは? 黒人女性は顔認証のエラーが起きやすい? 社会の偏りが反映されてしまうアルゴリズム・AIの問題点

「医者・看護師」と画像検索してみてほしい。多く表示されてくるのは「男性医師×女性看護師」の組み合わせのはずだ。

これはAIが学習するデータに、社会のステレオタイプや偏りがそのまま反映されてしまったからである。
書籍『アルゴリズム・AIを疑う』より一部を抜粋・再構成し、差別や格差の再生産を拡大しかねないアルゴリズムの危険性について解説する。

私たちは検索上位のサイトしか見ない

情報オーバーロード環境※1において適応的なのは、大量の情報を「効率的に」選別することで、ユーザーの認知負荷を軽減するようなアルゴリズムのあり方である。

プラットフォームのアルゴリズムは、ほぼすべてがそのような「選別」を行うためのしくみだといっても過言ではない。それは、検索エンジンのランキング・アルゴリズムも、ECサイトやグルメ情報サイトのレビュースコアも同様である。

たとえば検索エンジンのランキング・アルゴリズムは、膨大なウェブページの中からそのキーワードというパラメーターに応じて、もっとも関連性スコアの高いウェブページから順位づけをして表示することで、ユーザーの認知負荷を軽減している。

もし検索エンジンがランキングをつけてくれなければ、ユーザーはキーワードがマッチした大量のウェブページを全部確認しなければならないことになってしまう。

逆にいえば、ユーザーは多くの場合、ランキングの上位から順番に(ときには1位だけ)ウェブページを確認していけば必要な情報が手に入る確率が高い(あくまで確率が高い、ということで確実ではない)。

実際、検索結果の1位のCTR(クリック率)は非常に高い一方で、2位、3位と順位が下がるに従いCTRはどんどん下がり、2ページ目の11位以降までみる人はほとんどいないという。

つまり、アルゴリズムによって序列化された検索順位が高いということ自体が、そのページにアテンションを向ける理由になるということだ。逆に、アルゴリズムが検索順位を低く判定すれば、そのページはアテンションを向ける対象にならず、(たとえ重要な情報が含まれていたとしても)無視されてしまう。

アルゴリズムが差別や偏見を再生産する

そして、ランキング・アルゴリズムの最適化の対象は、そのページがアテンションをえられるかどうか、である。

すなわち、CTRのようなユーザーの反応を示す指標自体が、ランキング評価のパラメーターのひとつになっている。

ここに、アルゴリズムの自己準拠的な循環というパラドックスが生じる。

検索結果ランキングが上位であるということは、アルゴリズムがそのページに対してアテンションを払うに値すると判断した結果である。

しかし、ひとたびランキングが上位になれば、まさにそれが上位にあるがゆえにCTRは上昇し、そのCTRというパラメーターの値が高いがゆえに、ページのランキングはさらに上昇することになる。

逆にランキング下位になってしまえば、まさにそのページが下位であるがゆえに、クリックされることがなく、アルゴリズムからは価値の低いページとみなされ、上位のページとの「格差」が拡大していくことになる。

そしてその「格差」は、実際のウェブページの内容の「正確性」や「信頼性」とはほとんど関係がない。

アルゴリズムやAIが、情報の意味論的な「正確性」や「信頼性」を直接判別できないという原理的な問題は、社会におけるアテンションの偏り、すなわちヒューリスティックやステレオタイプといった人間の心理バイアスに基づく判断の偏りがそのままスコアリングやランキングに反映される要因にもなる。

たとえばグーグルの画像検索で「医者・看護師」と入力すると、ほとんどの画像が「男性医師」と「女性看護師」の組み合わせになると指摘されている。

これは、グーグルの画像識別のアルゴリズムおよびAIが、社会における実際のデータの分布に基づいて動作した結果である。いわば社会の中で暗黙のうちに共有されているステレオタイプや偏見を、ある意味では忠実に再現した結果なのだ。

また、黒人女性でAI研究者のジョイ・ブオラムウィニは、既存の顔認証システムの識別AIでは、白人男性の判定は問題なくできるのに、黒人女性の場合はエラーになることが多いことを発見した。

そもそもAIの学習データには、白人男性のデータばかりが使われており、黒人や女性のデータは相対的に少ないという偏りがあり、識別の精度が歪んでしまったのだという。

このような偏りは、アルゴリズムやAIが、社会の中の歪んだデータの分布や、人間が暗黙のうちに期待するようなステレオタイプに最適化されることによって、ときに差別や格差を再生産したり拡大したりする危険性を示すものといえるだろう。

ランキング・アルゴリズムをアテンションに忠実に実行したがゆえのこの「偏り」のパラドックスは、検索エンジンに限らず、日常生活におけるさまざまな計算論的なランキングにおいてもしばしばみられる現象である。



音楽のヒットチャートのような例においても、ある楽曲が(その楽曲の作品としての魅力が高いかどうかとは別に)ランキング上位を獲得したがゆえに聴く人が増え、聴く人が増えたからさらにそのランキングが上昇する、という現象は日常的にみられることだろう。

多くのウェブサイトの送り手がSEO(検索エンジン最適化)という手法を駆使してなんとか検索ランキングの上位に自社のコンテンツを上げようとするのも、このような構造が背景にある。

脚注
※1 情報量が人間の処理能力の限界を超えており、適切に情報を処理・活用できない状態のこと

アルゴリズム・AIを疑う 誰がブラックボックスをつくるのか

宇田川敦史
「医者・看護師」から思い浮かぶ性別の組み合わせは? 黒人女性は顔認証のエラーが起きやすい? 社会の偏りが反映されてしまうアルゴリズム・AIの問題点
アルゴリズム・AIを疑う 誰がブラックボックスをつくるのか
2025年5月16日発売1,100円(税込)新書判/240ページISBN: 978-4-08-721363-8

【【続々重版!!】】

★☆★☆各メディアで紹介★☆★☆
2025.7.1聖教新聞にて書評掲載「狭まれた“主体的選択”の余地」
2025.7.5日本経済新聞にて書評掲載「現代必須〈教養〉の入門書」
2025.7.18読売新聞にて書評掲載「ソフト動かす原理解説」
2025.7.19毎日新聞の「今週の本棚」にて書評掲載
2025.8.1新刊ビジネス書の要約『TOPPOINT(トップポイント)』にて書籍紹介
2025.8.15 Lucky FM茨城放送「ダイバーシティニュース」

■内容紹介■
生成AIを筆頭に新しい技術の進歩は増すばかりの昨今。SNSや検索エンジンなどの情報は「アルゴリズム」によって選別されている。しかし私たちはそのしくみを知らないままで利用していることも多い。アルゴリズムを紐解くことは、偏った情報摂取に気づき、主体的にメディアを利用する第一歩なのである。
本書は、アマゾンや食べログなどを例に、デジタル・メディアやAIのしくみを解説。ブラックボックス化している内部構造への想像力を高めることを通じて、アルゴリズム・AIを疑うための視点を提示する。メディア・リテラシーのアップデートを図る書。

■目次■
第1章 アルゴリズムとは
アルゴリズムの日常性、基本構造、AIとの違い‥‥‥

第2章 アルゴリズムの実際
グーグルのランキング、アマゾンのレコメンド、食べログのレビュー・スコアリング、Xのタイムライン表示アルゴリズム‥‥‥

第3章 アルゴリズムと社会問題
認知資源を奪い合う、 情報選別の権力となる、マーケティング装置、偽情報・誤情報を拡散する、ユーザーを商品化するアルゴリズム‥‥‥

第4章 アルゴリズムとブラックボックス
ブラックボックスとは、誰がブラックボックスをつくるのか、アルゴリズムの公開は可能か‥‥‥

第5章 アルゴリズムのメディア・リテラシー
メディア・リテラシーとは、メディア・インフラ・リテラシーの可能性、アルゴリズムを相対化する視座‥‥‥

編集部おすすめ