【研究成果のポイント】
・最新のAI技術を利用して語義(単語の意味)の豊富さを測定する手法を考案しました。
・同手法を用いて、語義と頻度に関する統計的法則として知られるmeaning-frequency lawが24言語について成り立つことを明らかにし、同法則が言語の普遍的性質である可能性が高いことを示しました。
・同手法を用いることで、ChatGPTなどのテキスト生成AIの要素技術である言語モデルがもつ語義識別能力をテストできることを明らかにしました。この成果は、今後の生成AIの発展につながることが期待されます。
本研究成果は、2025年7月27日から8月1日にかけてオーストリアのウィーンで開催されたACL2025で発表され、優秀論文賞に選出されました。
1.背景
人間が産出する言語データにはさまざまな統計的性質が知られており、今回研究対象とした語義と頻度に関する統計的法則(meaning-frequency law)*¹ もその一つです。Meaning-frequency lawは、頻度が高い単語ほど、その単語がもつ意味の数(語義数)が多くなるという法則です。この法則では、単語頻度と語義数を両対数でプロットすると線上になるという、べき乗則*² が成り立ちます(図1)。
既存研究でmeaning-frequency lawの検証は盛んにわれてきましたが、限られた言語と単語しか対象にすることができず、同法則が言語一般に見られる普遍的性質かどうかは明らかではありませんでした。この最大の理由は、辞書に基づいて語義数を決定する点にありました。同じ単語でも辞書により語義数が大きく異なることがあり、語義数を決定することがそもそも難しい問題です。また、辞書に掲載されている単語(主に単語の原型)と語義しか対象にできないという制約もあります。
2.研究成果
本研究では、以上の問題を解決し、従来研究に比べ格段に幅広い言語と単語についてmeaning-frequency lawが成り立つことを明らかにしました。
考案した手法では、辞書を用いずに語義数を決定するために、AI技術を利用して、語義数に対応した語義の豊富さという量を新しく定義しました。また、実際に語義の豊富さを測定する手法を考案しました。最新のテキスト生成AIでは、言語モデル*³ という要素技術が使われています。言語モデルに、文やパラグラフなどの言語データを入力すると、各単語は単語ベクトル*⁴ と呼ばれる数値の組に変換されます。数値の組で表される単語ベクトルは、番地のようなものと捉えられますが、適切な前処理を単語ベクトルに施すと、球面(正確には超球面)上のある地点対応した番地と解釈することができます(図2)。意味が類似した単語は、類似した数値の組からなる単語ベクトルとして表されます。球面上で解釈すると、意味が類似した単語は、球面上の近い地点に配置されることになります。逆に、意味が大きく異なると離れた地点のベクトルとなります。このことを利用して、 Webページなどの大量の言語データに出現する各単語の全用例を言語モデルで単語ベクトルに変換すると、その単語がカバーする球面上の範囲が明らかになります。この範囲が広いほど語義が豊富であると解釈できます。
この定式化に基づいて、 5つの語族に渡る24言語、31種類の言語データについて調査したところ、全データで同法則が成り立つことが明らかになりました(一部の結果を図3に掲載)。また、辞書を必要としない手法のため、古い時代の文書についても同法則の吟味が行えます。実際、古い時代の文書でも同法則が成り立つことを示しました。以上のことは、meaning-frequency lawが言語の普遍的性質である可能性が極めて高いことを示唆しています。
また、本手法の基礎技術である言語モデルのサイズ(パラメータ数)*⁶ が小さいと同法則が観測できなくなることも発見しました。このことは、モデルサイズが小さく十分な語義識別能力が言語モデルにないと同法則が観測できなくなると解釈できます。同様に、モデルの構成法によっても同法則が観測できなくなることも発見しました。見方を変えると、同法則を通じて言語モデルの語義識別能力をテストできる可能性があります。上述の通り、言語モデルは、テキスト生成AIの要素技術であり、言語モデルの能力をテストできることは、今後のAI技術の発展につながります。
3.今後の期待
本研究は基礎的研究に位置づけられますが、さらに発展させることで次の2つの重要な成果が期待されます。1つ目は、人間言語の特性、特に、語の意味に関する特性がさらに明らかにできる可能性があります。2つ目は、同様なことがAIの言語についても期待されます。本研究の成果は、AIの言語能力は、人間に匹敵するのか、人間を超えるのかなどを調査するための基礎的なツールとして使えます。この2つが進むと、人間の言語とAIの言語を区別するものはなにかを明らかにすることにもつながります。さらに、AIが語義を適切に識別できるようになることで、英語などの語学学習において意味的な内容の学習支援を行うことにもつながります。
4.論文情報
・タイトル:A New Formulation of Zipf's Meaning-Frequency Law through Contextual Diversity
・著者:Ryo Nagata (甲南大学/理化学研究所)and Kumiko Tanaka-Ishii(早稲田大学)
https://doi.org/10.18653/v1/2025.acl-long.744
5.用語説明
*1 語義と頻度に関する統計的法則(meaning-frequency law)
Zipfのmeaning-frequency lawとして知られる単語の意味と頻度に関する経験則です。直感的には、頻度が高い単語ほど、その単語の語義数が多くなると理解されます。形式的には、語義数をm 、単語頻度をf としたとき、logm=alogf+c という関係式が成り立つという法則です(ただし、a とc はデータから決定される定数)。したがって、語義数と単語頻度を求めて、両対数でグラフにプロットすると直線になるという法則であることがわかります(図1)。
*2 べき乗則
べき乗則は2つの量の間にある関数的な関係であり、一方の量の相対的な変化が、もう一方の量の相対的な変化に比例する定数指数で表される関係です。すなわち、一方の量はもう一方の量の累乗として変化します。
*3 言語モデル
言語モデルとは、入力として与えられた文章に続く単語を予測する技術の総称です。例えば、言語モデルに「この新鮮な野菜は」という文章を入力すると、「美味しい」や「うまい」など次に来る可能性が高い単語を予想します。最近のテキスト生成AIは、この予測を複数回行うことで、文章の生成を行っています。
近年は、言語モデルは深層学習という枠組みで実現されています。深層学習は、ベクトルと呼ばれる数値の組の変換を何度も行うことでさまざまな予想を可能とします。
言語モデルには、大きく2つの構成法があります。1つ目は、自己回帰型言語モデルと呼ばれるもので、入力として与えられた文章の次に続く単語を予測します。上の野菜の例はこちらのタイプの言語モデルの説明になっています。2つ目は、マスク型言語モデルと呼ばれるもので、入力として与えられる文章は単語が1つ欠けており、欠けた単語を予測します。例えば、「この ??? 野菜は美味しいです。」という文章の場合、「???」の部分が欠けた単語であり、この部分に入る単語をマスク型言語モデルは予測します。
*4 単語ベクトル
上述の通り、最近の言語モデルは深層学習に基づきます。
*5 von Mises-Fisher分布
von Mises-Fisher分布は、確率分布の一種です。(超)球面上の正規分布として例えられます。一般に、単語ベクトルは空間上の任意の点に位置しており、必ずしも超球面上にはありません。しかしながら、適切な前処理を行うことで、超球面上に単語ベクトルを配置することができます。
*6 言語モデルのサイズ(パラメータ数)
上述の通り、深層学習に基づいた言語モデルは数値の組(ベクトル)の変換でさまざまな変換を行います。この変換には、パラメータと呼ばれる別の数値の組に基づいて行われます。パラメータの数が多いとより複雑な変換が可能となり、より難しい予測が可能となります。パラメータ数のことを言語モデルのサイズということもあります。
▼本件に関する問い合わせ先
甲南学園広報部
住所:兵庫県神戸市東灘区岡本8-9-1
TEL:0784352314
メール:kouhou@adm.konan-u.ac.jp
【リリース発信元】 大学プレスセンター https://www.u-presscenter.jp/