OpenAI

OpenAIが、カスタム・ボイスの作成モデルである「Voice Engine」の小規模プレビューを公開すると発表しています。

このモデルは、テキスト入力と15秒間の音声サンプルを使用して、元の話し手に近い自然な音声を生成します。

注目すべきは、15秒のサンプルを1つ持つ小さなモデルで、感情的でリアルな音声を作成できることです。

OpenAIは2022年後半に初めてVoice Engineを開発し、音声合成APIで利用可能なプリセット音声や、ChatGPT VoiceやRead Aloudを実現するために使用してきたそうです。

同時に、合成音声が悪用される可能性があるため、より広範なリリースには慎重かつ十分な情報に基づいたアプローチを取っているそうです。

OpenAIは、合成音声の責任ある展開と、社会がこれらの新しい機能にどのように適応できるかについての対話を開始したいと考えているそうです。

プリセットの音声では不可能な、より幅広い話者の自然で感情的な音声による、非読書者や子供への読書支援。子どもたちの学業成就を目指す教育テクノロジー企業、エイジ・オブ・ラーニングは、スクリプト済みのボイスオーバーコンテンツを生成するためにこれを利用しています。

また、Voice EngineとGPT-4を使って、リアルタイムでパーソナライズされた応答を作成し、生徒とやり取りしています。

この技術により、Age of Learningはより多くの視聴者向けのコンテンツを作成できるようになりました。