このNYUとGoogleの論文は、クロスモーダル表現におけるシーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

このNYUとGoogleの論文は、シーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

I had trouble accessing your link so I’m going to try to continue without it.

非常に大きなモデルが、単一のモダリティで大量の非監督コーパスでトレーニングされることで、驚くべき結果を達成できることがますます明らかになってきています。これは、音声ドメインでは、単一のモデルが驚くほど広範な音響タスクに適応できることが示され、テキストドメインでは、言語モデルが例外的なゼロショットの能力を獲得していることが証明されています。同様の成果は、従来、手動でペアリングされたデータに依存していた2つのモダリティを組み合わせた状況においても、同様の技術をどのように適用するかについての調査を促しました。

興味深いアプローチの1つは、両方のモダリティに対して大きなエンコーダをトレーニングすることであり、その結果、どちらかがペアリングされていない例として提示されると、エンコーダは2つのモダリティを表現空間の似た場所にマッピングすることを学習します。このような表現は、単一のモデルを使用して数多くの画像理解およびテキスト理解タスクで最先端のパフォーマンスを実現できるだけでなく、画像/テキストドメインでも実現可能であることが示されています。

ニューヨーク大学とGoogleによる新しい研究では、明示的なアラインメントで見つかったパフォーマンスの向上が、アップサンプリングシステムで学習された暗黙のアラインメントに一貫性正則化を適用することで達成できるかどうかを調査しています。彼らは、動的時間歪みに触発された方法を開発し、音声とテキストの例のエンコーダの表現を最適にアラインメントします。明示的なアラインメントモデルが存在しない場合、チームは最適なアラインメントがトレーニング中だけでなく、ネットワークのレイヤを進むにつれて改善することも示しています。

音声認識の分野では、非ペアリングの音声とテキストデータの事前トレーニングを容易にするために、共通の音声とテキストエンコーダを持つモデルへの最近の傾向があります。音声を表現するために使用されるより長いシーケンスは、2つのシーケンスモダリティを含むため、音声認識にとって独特の難しさを提供します。そのため、エンコーダの音声表現をテキスト表現とフレームごとに比較することは、同じ埋め込み空間で両方のモダリティが表現されているにもかかわらず、より困難なプロセスとなります。

最後に、この研究では、単一言語および多言語の設定で、学習されたアラインメントモデルなしで、一貫性正則化の基準を直接のフレームワイズの比較ではなく、あるアラインメントの下で一貫性を促進するように変更することで、強力な半教師ベースラインに対して有意なWERの改善が実現できることが示されています。彼らの結果に基づくと、ミスアラインメントを許容することが、クロスモーダル表現の一貫性を強制するために必要なすべてであるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

エロン・マスクのxAIがOpenAIのChatGPTに挑戦します

ビジョン溢れる億万長者であるイーロン・マスクは、電気自動車、宇宙探査、ソーシャルメディアなどの事業を手掛ける人物で、...

AI研究

「スタンフォード大学の新しいAI研究は、言語モデルにおける過信と不確実性の表現の役割を説明します」

自然言語システムが日常のシナリオでますます普及するにつれて、これらのシステムは適切に不確実性を伝える必要があります。...

AIニュース

ジェミニと共に、バードはこれまで最大のアップグレードを実現しました

「私たちは、Geminiの先進機能をBardに導入し始めています」

人工知能

あなたのAIカウンシルChatGPTプラグイン:専門家のアドバイスを受ける

「Your AI Council」のChatGPTプラグインに質問をすると、様々な専門家の視点から異なる見解が提供されます

データサイエンス

GPT-4 新しいOpenAIモデル

近年、人工知能に基づく自然言語システムの開発は前例のない進歩を遂げています

人工知能

ChatGPT Vislaプラグインを使用してビデオを作成する方法

たった一つのプロンプトで、Visla ChatGPTプラグインはわずか数秒でスクリプトとストック画像を使用したビデオを作成します