記事の概要
OpenAIが「Voice Engine」というAIモデルを開発し、少ない音声サンプルから合成音声を生成できることを発表しました。
このモデルは入力されたテキストから自然な発話音声を生成することができ、必要な音声サンプルの長さは15秒程度で済みます。
また、元の言語のアクセントの癖も保持されるため、フランス語話者の音声サンプルを基に生成された英語音声はフランス語のアクセントをもったものになります。
Voice Engineはすでにいくつかのサービスで活用されており、2023年末からは一部のパートナーと非公開のテストも行われています。
OpenAIは、音声合成AIの悪用リスクにも対策を実装しており、安全性に配慮した運用方針を採っています。
一般公開は予定されていませんが、社会全体で音声合成AIの可能性や課題に対応するきっかけとなることを意図しています。
記事のポイント
詳しい記事の内容はこちらから(引用元)
OpenAIは3月29日(現地時間)、15秒程度のサンプル音声から人間の声を真似ることができる音声合成AI「Voice …
https://ascii.jp/elem/000/004/192/4192115/