平凡社 世界大百科事典

音声合成

音声を人工的に作り出す処理を音声合成といい,これを実行する機械を音声合成器と呼ぶ。音声合成器は,その原理から,人の音声器官の動作を模擬する方法とそれ以外に大別される。

 記録に残る最初の音声合成器は1779年に作られた母音合成器で,ドイツのクラッチェンシュタイン,C.Kratzensteinによる。子音,母音ともに合成できたのは1791年で,ハンガリーのケンペレン,W.von Kempelenによる(図2)。これらは人の音声器官の動作を模擬する構造をもっている。この機械的構造の合成器が電気回路構造に代わったのは1939年で,アメリカのダッドリー,H.Dudleyによる(図3)。口腔の共鳴特性は数個の強勢な周波数成分,すなわちフォルマントで表されるので,共振周波数が変化できる数個の共振回路を帯域フィルターの代りに用いて,口腔の共鳴特性を模擬できる。この形式をフォルマント形音声合成器と呼ぶ。最近は口腔の共鳴特性を分析するのに線形予測分析が使われる。これは,音声波の現時点の振幅値が過去の複数個の時点での振幅値の重みつき線形和として予測できる,とする数学的モデルに基づくものである。そしてこのモデルの周波数特性は複数個の共振周波数をもつ電気回路の特性に等しい。よって音声入力の口腔の共鳴特性が簡単な演算により,統計的に最尤(さいゆう)に推定できることになる。この線形予測形音声合成器の代表例にパーコールPARCOR形音声合成器がある。この合成器に用いる制御信号の情報量は,音声波形をそのまま表す場合の約1/20以下に減らすことができる。

 音声器官の動作を模擬する形式の合成器のほかに,音声波形における波形的冗長性を利用する音声合成器がある。音声波形ではほぼ同じ形の波形が繰り返されたり,音声パワーの急激な変動が少ないからである。これの代表例に適応形パルス符号変調形式や,適応形差分パルス符号変調形式の合成器がある。これは音声パワーの変動が緩やかであることを利用して情報量を波形のおよそ数分の1まで減らしている。前記の音声器官の動作を模擬する形式の合成器に比べると情報量の圧縮率は少ないが,合成された音声の音質が優れている。

 最近はいずれの形式の合成器もLSI化され,コンピューターの音声出力や種々のアナウンス用に広く利用されている。このような装置を音声応答装置と呼ぶ。これでは,応答に用いる単語や文節を人間に発音させ,それを分析して,応答装置内の記憶装置に制御信号の形で記憶しておき,これで音声合成器を動作させている。しかし単語や文節を単位として記憶すると,語彙(ごい)数に応じた記憶容量が必要となる。少ない記憶容量で語彙数を増やすには単語の代りに音素や音節を単位にして制御信号を記憶することが考えられる。この応答装置を使うと書物に書かれた文字系列を読み取って音声を合成できる。このような合成を〈テキストからの音声合成〉とか,〈規則による合成〉と呼ぶ。この合成法では文字系列で表した単語や文節に,自然音声に類似のアクセントや抑揚などを付ける必要がある。この韻律的特徴を付与する規則が,現在まだ不完全であるので,この合成法の合成音質は一般に良くない。しかし盲人や聾啞者(ろうあしや)には有用である。

斎藤 収三
図1~図3
図1~図3