
中国アリババグループ傘下のアリババクラウドは9月8日、最新の音声認識モデル「Qwen3-ASR-Flash」を発表した。同モデルは、中国語や英語、フランス語、日本語など11言語と多様なイントネーションに対応する。
Qwen3-ASR-Flashは大量のマルチモーダルデータと数千万時間分の自動音声認識(ASR)データに基づいて構築されており、言語を自動識別し、無音の部分や背景ノイズの部分などを自動的にフィルタリングする。
ASRモデルのベンチマークテストの結果、Qwen3-ASR-Flashは方言や多言語、重要情報、歌詞などの音声認識のエラー率が、グーグルの「Gemini-2.5-Pro」やOpenAIの「GPT-4o-Transcribe」、バイトダンスの「豆包(Doubao)ASR」などを大幅に下回った。
Qwen3-ASR-Flashについては、多様なノイズ、多言語、方言、専門用語の認識など、さまざまなデモ例が公開されている。たとえば、英語や日本語など5つの言語を含む音声を正確に文字起こしできるほか、アカペラと伴奏付きの楽曲の歌詞の書き起こしにも対応しており、研究者の実測によるエラー率は8%を下回った。

(36Kr Japan編集部)