人工知能がロボットのような声で応答することにある種の違和感を感じる人は、このニュースを気に入るはずです。 あ マイクロソフト 5秒以内にあらゆる人間の声を模倣できるAI「VALL-E」を発表した。
このプログラムは、さまざまな状況で人間の声を聞き、合成し、模倣します。 同社が到達すべきニッチはソフトウェアだ」テキスト読み上げ」または「テキスト読み上げ」(意訳)。
続きを見る
警告: この有毒植物により、若者が病院に運ばれました
Google、ジャーナリストを支援する AI ツールを開発…
ロボット的ではなく、より自然に
このAIのアイデアはまさに、自動音声を可能な限り自然なものにすることです。 Microsoft によれば、それ以上に、今日のアプリケーションに存在するような「非個人化された」音声を避ける試みでもあるとのことです。 Google翻訳者.
同社は 60,000 時間以上の録音に依存していました。 音声は、AI が声のさまざまなニュアンスやトーンを識別するための基礎として機能しました。 さらに、スピーチのユーモアを特定することもできました。 以下でお聞きください。
VALL-E は、同じ入力テキストの音声バリエーションも合成します。 pic.twitter.com/Yy9hj05Qa3
— アモグ・ヴァイシャンパヤン (@amogh42) 2023 年 1 月 7 日
人の声を模倣したAIによるマッチングが可能
Microsoftによれば、VALL-Eは他のAIと組み合わせることができるという。 例としては、 GPT-3、OpenIA 会話およびテキスト ジェネレーター。
どちらのテクノロジーも生成的です。 これは、サンプルからコンテンツを作成できることを意味します。 したがって、適切に実行するには大規模なデータベースが必要です。
これまでのところ、人間の声を模倣するAIは英語でのみ機能します。 今後数か月以内に、ポルトガル語を含む他の言語も利用できるようになる可能性があります。
泊まりに来た
これは、AI が私たちの日常生活の一部になりつつあることを示すもう 1 つの例にすぎません。 以前はこれが SF 映画やプログラミングの学生だけの話題であったとしても、現在では私たちの日常の重要な部分となっています。
したがって、このテクノロジーを扱う可能性にどんどん慣れていくのが良いでしょう。
ゴイアス連邦大学でソーシャルコミュニケーションを卒業。 デジタル メディア、ポップ カルチャー、テクノロジー、政治、精神分析に情熱を注いでいます。