マイクロソフトは2023年1月5日に音声合成AI「VALL-E」を発表しました。VALL-Eは3秒間の音声サンプルで人の声を再現し、一度学習したデータから声だけでなく感情のトーンや録音環境も再現した合成音声を作ることが出来ます
元々発言していないものを作れる
マイクロソフトVALL-Eは3秒間の音声サンプルだけで声を再現したテキスト読み上げモデルを生産できます。開発者によれば、録音したスピーチやテキスト原稿を変更し、元々は発言していない内容を話したり、他のAIと組み合わせてオーディオコンテンツを作成するといったことが可能になるとのことです。
デモページで確認可能
マイクロソフトはデモページを公開しており、実際に生産された音声を聞くことが出来ます。こういったテクノロジーは便利な一方で、音声合成により偽装やなりすましの可能性が高まるといった懸念もあります。
--