
複雑な環境では、人間は耳だけでなく目も使用しているため、AIよりも音声の意味をよく理解できます。
たとえば、誰かの口が動いているのを見て、聞こえる音がその人から来なければならないことを直感的に知っているかもしれません。
Meta AIは、新しいAIダイアログシステムに取り組んでいます。これは、AIに会話で見られるものと聞くものの間の微妙な相関関係を認識することも学ぶように教えることです。
VisualVoiceは、人間が新しいスキルを習得することを学ぶ方法と同様の方法で学び、視覚的および聴覚の手がかりから視覚的および聴覚の手がかりを学ぶことにより、視聴覚的な音声分離を可能にします。
マシンの場合、これはより良い認識を生み出しますが、人間の知覚は改善されます。
世界中の同僚とメタバースでのグループ会議に参加できることを想像してください。彼らが仮想空間を移動する際に小さなグループ会議に参加します。
つまり、オーディオ、ビデオ、テキスト情報を同時に取得することができ、より豊富な環境理解モデルを備えているため、ユーザーは「非常にすごい」サウンドエクスペリエンスを実現できます。
投稿時間:7月20日 - 2022年