LINE WORKS株式会社は、音声・音響信号処理における世界最大規模の国際学会「ICASSP 2024」にて論文が採択されたことを発表した。
今年で49回目の開催となる「ICASSP」(International Conference on Acoustics, Speech, and Signal Processing)は、米国電気電子学会の中で最も長い歴史を持つ信号処理学会である「IEEE Signal Processing Society」が主催する国際学会だ。本論文は、当社のリサーチエンジニアであるヘンツェル・ミヒャエルが2022年から研究した成果をまとめたもので、奈良先端科学技術大学院大学からのインターン生であった西川勇太氏、LINEヤフー株式会社の小松達也氏、藤田雄介氏との共著になるという。
論文について
既存の手法よりも効率的にLLMの知識が転送できる新しい手法を考案。より高度で正確な音声認識を実現する提案に評価された。M . Hentschel “KEEP DECODING PARALLEL WITH EFFECTIVE KNOWLEDGE DISTILLATION FROM LANGUAGE MODELS TO END-TO-END SPEECH RECOGNISERS”https://arxiv.org/abs/2401.11700本論文は音声認識技術にフォーカスしています。音声認識の分野では、近年深層学習モデルが音声から文字列を直接予測するEnd-to-End型と呼ばれる方式が主流になりつつあり、当社が提供する「CLOVA Note」(AI技術を活用した音声記録のテキスト化・管理サービス)でも本方式を採用しているそうだ。
End-to-End型の音声認識では、音声とその発話内容を示すテキストの対を数百~数千時間集めて深層学習モデルを学習する。
一方、近年発展が著しい大規模言語モデル(LLM)は、テキストだけで学習できるために音声認識のモデルよりも遥かに多くのデータを利用して学習することができる。
そこで本論文では、大量のテキストを使って学習したLLMの知識を音声認識のモデルに転移することで、音声認識の学習データでは不足していた知識を補完することを考えた。
via プレスリリースこれまでの手法では、音声認識に使用される深層学習モデルの出力層から入力層に向かってLLMの知識を蒸留する※1 ことがあったが、本論文では、深層学習モデルを構成する多層のエンコーダの各層に知識を蒸留する新しい手法を提案し、これによって既存の手法よりも効率的にLLMの知識が転送できることを確認した。
※1 ここでは、LLMが理解したテキストデータの情報を、音声認識モデルが学ぶ際の手助けとして活用しているということ。この手法により、既存の手法よりも効率的にLLMの知識を音声認識モデルに導入でき、より高度で正確な音声認識が可能となる。
「LINE WORKS」とは
チャットやスタンプはもちろん、掲示板、カレンダー、アドレス帳、アンケートなど、現場で活用できる充実したグループウェア機能を揃えたビジネスチャットだ。コミュニケーションアプリ「LINE」のような使いやすさを保ちながら独自に開発・提供を行っており、ユーザーの教育も最小限に導入したその日から誰でもすぐに使える。
PCやタブレットのほか、スマートフォンだけでもほとんどの機能が使えるため、オフィスワークだけでなく、拠点や店舗などPCを使う時間の少ない「現場」での活用が進んでいる。