
複雑な環境では、人間は耳だけでなく目も使うため、AI よりも音声の意味を理解できます。
たとえば、誰かの口が動いているのを見ると、聞こえてくる音はその人から出ているに違いないと直感的にわかることがあります。
Meta AI は、会話の中で見たり聞いたりしたものの間の微妙な相関関係を認識することも AI に学習させることを目的とした新しい AI 対話システムの開発に取り組んでいます。
VisualVoice は、人間が新しいスキルを習得する方法と同様の方法で学習し、ラベルのないビデオから視覚と聴覚の手がかりを学習することで、音声と映像の分離を可能にします。
これにより、機械にとってはより優れた認識が生まれ、人間の認識も向上します。
メタバース内のグループ ミーティングに世界中の同僚と参加でき、仮想空間を移動しながら小規模なグループ ミーティングに参加し、その間、シーン内のサウンドの残響や音色が環境に応じて調整されることを想像してみてください。
つまり、オーディオ、ビデオ、テキスト情報を同時に取得でき、より豊富な環境理解モデルを備えているため、ユーザーは「非常に素晴らしい」サウンド体験を得ることができます。
投稿日時: 2022年7月20日