このNYUとGoogleの論文は、クロスモーダル表現におけるシーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

このNYUとGoogleの論文は、シーケンス長の不一致を克服するための共同音声テキストエンコーダの仕組みを説明しています

I had trouble accessing your link so I’m going to try to continue without it.

非常に大きなモデルが、単一のモダリティで大量の非監督コーパスでトレーニングされることで、驚くべき結果を達成できることがますます明らかになってきています。これは、音声ドメインでは、単一のモデルが驚くほど広範な音響タスクに適応できることが示され、テキストドメインでは、言語モデルが例外的なゼロショットの能力を獲得していることが証明されています。同様の成果は、従来、手動でペアリングされたデータに依存していた2つのモダリティを組み合わせた状況においても、同様の技術をどのように適用するかについての調査を促しました。

興味深いアプローチの1つは、両方のモダリティに対して大きなエンコーダをトレーニングすることであり、その結果、どちらかがペアリングされていない例として提示されると、エンコーダは2つのモダリティを表現空間の似た場所にマッピングすることを学習します。このような表現は、単一のモデルを使用して数多くの画像理解およびテキスト理解タスクで最先端のパフォーマンスを実現できるだけでなく、画像/テキストドメインでも実現可能であることが示されています。

ニューヨーク大学とGoogleによる新しい研究では、明示的なアラインメントで見つかったパフォーマンスの向上が、アップサンプリングシステムで学習された暗黙のアラインメントに一貫性正則化を適用することで達成できるかどうかを調査しています。彼らは、動的時間歪みに触発された方法を開発し、音声とテキストの例のエンコーダの表現を最適にアラインメントします。明示的なアラインメントモデルが存在しない場合、チームは最適なアラインメントがトレーニング中だけでなく、ネットワークのレイヤを進むにつれて改善することも示しています。

音声認識の分野では、非ペアリングの音声とテキストデータの事前トレーニングを容易にするために、共通の音声とテキストエンコーダを持つモデルへの最近の傾向があります。音声を表現するために使用されるより長いシーケンスは、2つのシーケンスモダリティを含むため、音声認識にとって独特の難しさを提供します。そのため、エンコーダの音声表現をテキスト表現とフレームごとに比較することは、同じ埋め込み空間で両方のモダリティが表現されているにもかかわらず、より困難なプロセスとなります。

最後に、この研究では、単一言語および多言語の設定で、学習されたアラインメントモデルなしで、一貫性正則化の基準を直接のフレームワイズの比較ではなく、あるアラインメントの下で一貫性を促進するように変更することで、強力な半教師ベースラインに対して有意なWERの改善が実現できることが示されています。彼らの結果に基づくと、ミスアラインメントを許容することが、クロスモーダル表現の一貫性を強制するために必要なすべてであるようです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「Bard」を活用するための10の役立つ方法

「アイデアのブレストから旅行のスケジュール作成まで、Bardがあなたの仕事を手助けする10の方法をチェックしてみてください」

AIニュース

「OpenAIのAI検出ツールは、AIによって生成されたコンテンツの74%を検出できない」

OpenAIは、画期的な生成型AIチャットボットChatGPTの製造元であり、最近、AI分類ツールの提供を中止したことで話題となりまし...

データサイエンス

クラウドを通じたデジタルトランスフォーメーションの推進

オラクルクラウドワールドの基調講演では、クラウドとAIを活用してデジタル変革の旅を進める業界リーダーたちが、経験とビジ...

機械学習

「ChatGPT Visionのすごい活用方法」

「これらの新しい画像機能により、ChatGPTを利用する新しい方法の世界が広がります」

データサイエンス

倫理的なAIと責任あるデータサイエンス:開発者に何ができるか?

この記事では、アルゴリズムの偏り、解釈可能性、プライバシー保護に対処し、責任あるデータサイエンスのためのAI倫理につい...

AIニュース

「カスタムGPT-4チャットボットの作り方」

ダンテは、技術的な能力に関係なく、誰でも5分以内に専用のAIチャットボットを作成、トレーニング、展開できるようにします