記事の概要
最近、アリババが発表した音声生成AI「Qwen3-TTS Family」が注目を集めています。
このモデルは、わずか4秒の音声ファイルを基に高精度な音声を再現することができる特徴があります。
筆者は、自らの過去の講演から抽出した7秒の音声を使い、Qwen3-TTSに音声生成を依頼しました。
その結果、AIが生成した音声は25秒にわたり、筆者の声を非常に忠実に模倣しました。
この成果は、音声系オープンモデルの進化を示すものであり、音声生成技術の可能性を広げるものといえます。
音声のクオリティや再現性の高さには驚かされるばかりです。
記事のポイント
詳しい記事の内容はこちらから(引用元)
ASCII.jp
高性能化する音声系のオープンモデルが話題になっています。わずか4秒ほどの音声ファイルを参考音声として読み込めば、かなりの…
https://ascii.jp/elem/000/004/373/4373939/