平凡社 世界大百科事典

音声認識

音声の意味内容や,音色に関する情報(発声者,性別,喜怒の感情など)を聞き分ける処理を音声認識という。従ってこれらの情報の機械による認識に限らず,人間の認識機能にも使われるが,最近は前者に限定されることが多い。機械による音声認識には,その意味情報を認識する(狭義の)音声認識と,音色情報の内で発声者がだれかを認識する話者認識とがある。前者では1952年に作られた数字音声の認識機械が最初で,アメリカのデービスK.H.Davisらによる。これは音声波を周波数分析して得られる低周波域の二つのフォルマントの周波数変化特性により認識する機械である。0~9の10個の数字についてあらかじめフォルマント軌跡を分析し,標準パターンとする。これを認識音声入力のフォルマント軌跡と比較し,類似度の最も高い数字音声を認識結果とする。この機械では標準パターンと認識音声入力が同一発声者であれば,認識率が高いが,同一でないと認識誤りが増える。これはフォルマント周波数の値が発声者によって異なるためである。最近の認識機械では低周波域のフォルマントのみならず,高周波域のものも用いており,そのため十数個の帯域フィルターや線形予測分析により,精密に分析している。また標準パターンを発声者ごとに作り直して認識率を高める機械が多い。これを特定話者用と呼ぶ。標準パターンを作り直す必要のない不特定話者用もあるが,語彙(ごい)数が数十単語以下で,認識率がやや悪くなる。特定話者用は語彙数が数百単語にできるが,標準パターンの作成に手間がかかる。標準パターンを単語の代りに音素で表し,音素系列で書いた単語辞書を別に記憶する形式のものもある。こうすれば標準パターンの作成は語彙数にかかわらなくなる。しかし/san/(3)と/nana/(7)の/a/,/n/にみられるように,個々の音素の音響特性には種々の変形が生ずるので,標準パターンに用いる音素の数を増やす必要がある。一般に個々の音素の音響特性はさまざまに変形するので,音声波を分析しながら直ちに文字記号に変換する形式の,いわゆる音声タイプライターでは認識誤りが多い。そのため構文,意味などに関する豊富な言語的知識を用いて,音響分析のみによる認識誤りを訂正する機能をもつ機械が研究されている。これを音声理解システムと呼ぶ。

 話者認識に関しては,ソナグラム(音声合成

斎藤 収三