Scenema Audioのゼロショット音声クローン技術 - くろねこ味巡り｜全国のご当地グルメ・特産品・旬の食材

要約

Scenema Audioは、感情表現と声のアイデンティティを独立させた音声クローン技術を開発しました。ユーザーは感情の指示を与えるだけで、任意の声で多様な感情を表現することが可能です。

Scenema Audioの新技術とは？

Scenema Audioは、動画制作プラットフォームの一環として開発された音声クローン技術です。この技術の特徴は、感情表現と声のアイデンティティを独立させることです。ユーザーは、どのように感情を表現するかを指示し、必要に応じて声の参考音声を提供することで、任意の声で多様な感情を表現できます。

この技術は、ゼロショット学習を用いて、録音されたことのない感情状態でも声が表現できるようにします。例えば、怒りや悲しみ、興奮、子供の驚きなど、さまざまな感情を表現することが可能です。ユーザーは感情の指示を与えるだけで、特定の声がその感情を表現できます。

Scenema Audioは、従来の音声合成パイプラインではなく、ディフュージョンモデルを使用しています。そのため、一部のシードでは繰り返しや意味不明な出力が発生することがあります。異なるシードを試すことで、異なる結果が得られることもあります。

用語メモ

元記事: