記事の概要
Google DeepMindは、動画のピクセルデータから音声を生成する技術「Video-to-Audio(V2A)」を発表しました。
この技術により、無音のAI生成動画に自然な音声や音楽、効果音、セリフを追加することが可能になります。
V2Aは動画の内容を解析し、動きやタイミングに合わせて適切な音声をリアルタイムで生成できます。
高品質な音声を生成するため、V2Aモデルは追加情報を付加した動画や音声データでトレーニングされています。
ただし、オーディオ出力の品質はビデオ入力の品質に依存するため、問題点もあります。
記事のポイント
詳しい記事の内容はこちらから(引用元)
ASCII.jp
Google DeepMindは6月17日、動画のピクセルデータから音声を自動生成する技術「Video-to-Audio…
https://ascii.jp/elem/000/004/205/4205183/