Learn more about Search Results MarkTechPost - Page 14

「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上させてくれました。これまで想像もできなかったことを実現するため、人間のスキル理解をさらに向上させることができるかもしれません。この研究論文では、AIシステムをより優れた人間のスキル理解をするように装備することに焦点を当てています。 人間のスキルを捉えるためには、自己中心的(第一人称)および外向的(第三人称)の視点の両方を考慮する必要があります。さらに、これらの両者の間に連携が必要とされます。他人の行動を自分自身にマッピングすることは、より良い学習のために重要です。既存のデータセットは、自己-外向きのデータセットが非常に限られており、規模が小さく、カメラ間の同期がしばしば欠けているため、この潜在能力を実現するために十分に適していません。この問題に対処するために、Metaの研究者は、Ego-Exo4Dという基礎データセットを導入しました。これは多モーダル、多視点、大規模で、世界中の複数の都市からのさまざまなシーンで構成されています。 より良い理解のためには、時には両方の視点が必要です。たとえば、シェフが第三者の視点から機器を説明し、第一人称の視点から手の動きを見せる場合などです。したがって、より良い人間のスキルを達成するために、Ego-Exo4Dは各シーケンスに第一人称視点と複数の外向き視点を含んでいます。さらに、研究者たちは、すべての視点が時間的に同期していることを保証しています。マルチビューデータセットは、身体のポーズやオブジェクトとの相互作用を捉えるために作成されました。 Ego-Exo4Dは、身体のポーズの動きやオブジェクトとの相互作用を捉えるために、熟練した人間の活動に重点を置いています。このデータセットには、料理、自転車修理など、さまざまなドメインの多様な活動が含まれており、データはラボ環境ではなく本物の環境で収集されています。データの収集には、800人以上の参加者が募集され、堅牢なプライバシーと倫理基準が遵守されました。 このデータセットのすべてのビデオは時間に関連付けられています。つまり、カメラを着用した人物が自分の行動を説明し、第三者が各カメラの映像を説明し、第三者がカメラをつけた人物のパフォーマンスを批評するという特徴があり、他のデータセットとは異なる点です。さらに、トレーニング用の自己-外気データがない場合、熟練した活動の自己中心的な認識において主要な研究課題が生じます。そのため、研究者は、コミュニティがスタートするための出発点を提供するために、一連の基本的なベンチマークを考案しました。これらのベンチマークは、関係、認識、熟練度、自己ポーズの4つのタスクのファミリーに整理されています。 結論として、Ego-Exo4Dは、さまざまなドメインの熟練した人間の活動からなる、前例のない規模の包括的なデータセットです。これは従来のデータセットの欠点を補う、前例のないデータセットです。このデータセットは、活動認識、身体のポーズ推定、AIコーチングなどの多くの領域で応用され、その先にある、多モーダル活動、自己-外向きなどの研究の推進力となると研究者たちは信じています。

アリババAIは、Qwen-1.8B、Qwen-7B、Qwen-14B、Qwen-72B、およびQwen Chatシリーズを含むQwenシリーズをオープンソース化しました

最新モデルを持つ Alibaba Cloud の Qwen シリーズのオープンソース AI モデルを使用して、AI 技術の可能性をさらに押し上げています。 Alibaba は Qwen-1.8B と Qwen-72B のリリースとともに、特殊なチャットモデルとオーディオモデルを提供することで AI ソリューションを拡大しました。 Alibaba の AI 機能の開発に対する献身は、これらのモデルによって示されており、言語処理とオーディオ処理のパフォーマンスと多様性が向上しています。 Qwen-1.8B とその大きな相当する Qwen-72B…

テンセントAI研究所では、GPT4Videoを紹介していますこれは統合マルチモーダル大規模言語モデルであり、指示に従った理解と安全意識のある生成を目指しています

テンセントAIラボとシドニー大学の研究者たちによって、ビデオの理解と生成シナリオの問題がGPT4Videoで解決されました。この統一されたマルチモデルのフレームワークは、ビデオの理解と生成の能力を持つLLM(言語・ロボットマルチモデル)をサポートしています。 GPT4Videoは、安定した拡散生成モデルに統合された指示に従うアプローチを開発し、効果的かつ安全にビデオの生成シナリオを処理します。 先行研究では、視覚入力とテキスト出力を処理する多モーダル言語モデルが開発されています。例えば、いくつかの研究者は、複数のモダリティ用の共有埋め込み空間の学習に焦点を当てています。そして、マルチモーダル言語モデルが指示に従うことができるようにすることに関心が集まっており、最初のマルチモーダルな指示の調整基準データセットであるMultiInstructが紹介されました。LLMは自然言語処理を革新しました。テキストから画像/ビデオの生成は、さまざまな技術を用いて探究されてきました。LLMの安全性への懸念も、最近の研究で取り組まれています。 GPT4Videoフレームワークは、LLMに高度なビデオの理解と生成能力を与えるために設計された万能で多様なシステムです。現在のMLLM(マルチモーダル言語モデル)の限界に応えるために、GPT4Videoはマルチモーダルな出力を生成する能力において不足しているにもかかわらず、マルチモーダルな入力を処理する能力に優れています。GPT4Videoは、LLMが解釈するだけでなく、豊かなマルチモーダルコンテンツを生成することができるようにします。 GPT4Videoのアーキテクチャは、3つの重要なコンポーネントで構成されています: ビデオ理解モジュールは、ビデオの特徴抽出器とビデオの要約器を使用して、ビデオ情報をLLMの単語埋め込み空間とエンコードし整列させます。 LLM本体は、LLaMAの構造を活用し、元の事前学習済みパラメータを維持しながら、Parameter-Efficient Fine Tuning(PEFT)手法であるLoRAを用いています。 ビデオ生成パートは、データセットに従って緻密に構築された指示によって、LLMにプロンプトを生成するように条件付けます。 GPT4Videoは、ビデオの理解と生成において優れた能力を示し、ビデオの質問回答タスクでValleyを11.8%上回り、テキストからビデオへの生成タスクでNExt-GPTを2.3%上回りました。このモデルは、追加のトレーニングパラメータなしでLLMにビデオ生成の機能を備え、さまざまなモデルと連携してビデオ生成に利用することができます。 結論として、GPT4Videoは、言語とビジョンモデルを高度なビデオの理解と生成機能で拡張する強力なフレームワークです。専門的にビデオのモダリティを扱う一方、将来のアップデートでは画像や音声など、他のモダリティにも拡大する予定です。

Google AI研究のTranslatotron 3:革新的な教師なし音声対音声翻訳アーキテクチャの発表

音声から音声への翻訳(S2ST)は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。 音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。 研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。 https://blog.research.google/2023/12/unsupervised-speech-to-speech.html Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。 SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。 多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。 バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。 Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。 Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron…

「ロボットのビジョン-言語プランニングにおけるGPT-4Vの力を発揮する方法は?ViLaと出会ってください:長期計画のためにGPT-4Vを活用するシンプルで効果的なAIメソッド」

高レベルなパフォーマンスをロボットのタスクプランニングで達成する問題に対して、清華大学、上海人工知能研究所、上海騎至研究所の研究者がVision-Language Planning (VILA) を導入することで取り組んでいます。VILAはビジョンと言語の理解を統合し、GPT-4Vを使用して厳密な意味の知識をエンコードし、複雑なプランニング問題を解決することができます。これにより、ゼロショットのシナリオでも優れた能力を持つオープンワールドの操作タスクが可能になります。 この研究はLLMの進歩とビジョン-言語モデル(VLM)の拡大に関する成果を探求しており、ビジョン、言語、ビジョン-言語モデルへの事前学習モデルの応用をカテゴリー分けしています。重点はVLMのビジョンに基づいた特性を活用し、ロボティクスにおける長期的なプランニングの課題に共通知識を提供することです。GPT-4Vを搭載したVILAは、追加のトレーニングデータや文脈に関連する例を必要とせず、日常的な機能において優れた効果を発揮します。 シーンに関するタスクプランニングは、人間の知能の重要な側面であり、文脈の理解と適応性が求められます。LLMは複雑なタスクプランニングのための意味の知識をエンコードすることで優れた成果を上げていますが、ロボットに必要な世界の基盤が欠けています。この問題に対処するため、Robotic VILAはビジョンと言語処理を統合するアプローチです。従来のLLMベースの手法とは異なり、VILAはビジョンの手がかりと高レベルの言語の指示に基づいて行動可能な手順を生成するようにVLMを促し、人間の適応性と多様なシーンでの長期的なタスクプランニングを実現することを目指しています。 VILAはビジョン-言語モデルをロボットプランナーとして活用するプランニング手法です。VILAはビジョンを直接的に推論に組み込むことで、ビジュアル領域に根ざした常識的な知識を活用します。タスクプランニングのためのVLMとして事前学習されたGPT-4V(ision)を用います。実ロボットとシミュレート環境での評価により、VILAは多様なオープンワールドの操作タスクにおいて既存のLLMベースのプランナーに比べて優れたパフォーマンスを発揮します。空間レイアウトの処理、オブジェクト属性の考慮、マルチモーダルな目標の処理など、特徴的な機能を持っています。 VILAはオープンワールドの操作タスクにおいて既存のLLMベースのプランナーよりも優れた成果を上げます。空間レイアウト、オブジェクトの属性、マルチモーダルな目標において優れたパフォーマンスを発揮します。GPT-4Vの力を借りて、ゼロショットモードでも複雑なプランニング問題を解決することができます。VILAはエラーを大幅に減らし、空間配置やオブジェクトの属性、常識的な知識を必要とする優れたタスクを実行します。 まとめとして、VILAは高レベルの言語の指示を具体的な手順に効果的に変換する高度なロボティクスプランニング手法です。知覚データを統合し、ビジュアルの世界で常識的な知識を理解する能力により、既存のLLMベースのプランナーに比べて優れています。ただし、ブラックボックスのVLMに依存し、文脈に関連する例が不足しているという制約もあり、これらの課題を克服するために将来の改善が必要です。

「マックス・プランク研究所の研究者がPoseGPTを導入:画像やテキストの説明から3D人物のポーズを理解し、論理的に推論するための大規模言語モデル(LLM)を利用した人工知能フレームワーク」

人間の姿勢は、全体的な健康や幸福、さまざまな生活の側面において重要です。座っている、立っている、もしくは寝ている際の体の配置や位置を指します。良い姿勢は、筋肉、関節、靭帯の最適な配置をサポートし、筋力バランスの崩れ、関節痛、過度の使用による怪我のリスクを軽減します。体重を均等に分散させ、特定の体の部位に過度のストレスをかけないようにすることもできます。 適切な姿勢により、肺の拡張が容易になり、適切な呼吸が促進されます。 背が丸まったり、姿勢が悪いと、胸腔を圧迫し、肺の容量が制限され、効率的な呼吸が妨げられます。さらに、良い姿勢は全身の健康な循環をサポートします。研究によると、良い姿勢を維持することは、気分や自信に良い影響を与える可能性があります。直立かつ姿勢の開いた姿勢は、自己主張力が増し、ポジティブさが増し、ストレスレベルが低下すると関連付けられています。 マックス・プランク・インテリジェントシステムズ、ETHチューリッヒ、メッシュケイド、清華大学の研究者チームは、PoseGPTと呼ばれる大規模言語モデルを使用したフレームワークを作成し、画像またはテキストの記述から3D人体ポーズを理解し、推論することができます。画像ベースやテキストベースの従来の人体ポーズ推定手法では、より包括的なシーンの理解と微妙な推論が必要であり、視覚データとその現実世界での意味のギャップが生じることがあります。PoseGPTは、テキストと視覚的な入力の両方から3Dボディポーズを直接生成することができるように、SMPLポーズを異なる信号トークンとして埋め込むことで、これらの制約に対応します。 彼らの手法では、SMPLポーズをユニークなトークンとして埋め込み、SMPLポーズに関連する問い合わせに対してLMMをプロンプトすることで、これらを出力させます。このトークンから言語の埋め込みを抽出し、MLP(多層パーセプトロン)を使用してSMPLポーズパラメーターを直接予測します。これにより、モデルはテキストまたは画像を入力として受け取り、3Dボディポーズを出力することができます。 彼らは、PoseGPTを単一画像からの3D人体ポーズ推定やテキストの説明からのポーズ生成など、様々なタスクで評価しました。これらの古典的なタスクの評価精度は、特化した手法と同等にはまだ達していませんが、これを概念実証の最初の段階と見なしています。さらに重要なことは、LLMがSMPLポーズを理解すると、追加のデータやトレーニングを必要とせずに、人体ポーズに関連して世界の知識を活用し、推論することができる点です。 通常のポーズ回帰手法とは異なり、彼らの手法では、マルチモーダルLMMに個人を囲むトリミングされた領域外境界ボックスを提供する必要はありません。代わりに、モデルは全体のシーンにさらされ、そのコンテキスト内の個人や個々のポーズに関するクエリを形成することができます。 LLMが3Dボディポーズの概念を把握すると、人体ポーズを生成し、世界を理解する能力を持つようになります。これにより、複雑な口頭および視覚的な入力を通じて推論し、人体ポーズを開発することができます。この能力により、これまでには実現不可能だった新たなタスクや、どのモデルのパフォーマンスを評価するためのベンチマークが導入されます。

このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成(SLAM)は、自律システムが自ら環境をナビゲートし理解することを目指す重要なトピックです。幾何学的マッピングは、従来のSLAMシステムの主な焦点であり、正確ながらも美的に基本的な環境表現を生成します。しかし、最近のニューラルレンダリングの進展により、SLAMプロセスに写真のようなリアルなイメージ再構成を取り入れることが可能であり、これによってロボットシステムの知覚能力が向上する可能性があります。 既存の手法は、暗黙的な表現に大きく依存しており、計算リソースに制約のあるデバイス上での展開には不向きですが、ニューラルレンダリングとSLAMの統合は有望な結果を生み出しています。たとえば、ESLAMはマルチスケールのコンパクトテンソルコンポーネントを使用し、Nice-SLAMは環境を反映した学習可能な特徴を持つ階層型グリッドを使用しています。その後、多数のレイサンプルの再構築損失を減らすことで、カメラ位置を推定し特徴を最大化するために協力します。最適化のプロセスは時間がかかるため、効果的な収束を保証するためにRGB-Dカメラや密な光流推定器、または単眼深度推定器など複数のソースから関連する深度情報を統合する必要があります。さらに、マルチレイヤーパーセプトロン(MLP)が暗黙的な特徴をデコードするため、最良の結果を得るためにレイサンプリングを正確に規格化するための境界領域を指定することが通常必要です。これにより、システムのスケーリングの可能性が制限されます。これらの制約から、SLAMリアルタイム探索と未知の領域でのマッピング能力を携帯プラットフォームを使用して達成することはできません。 本研究では、香港科技大学と中山大学の研究チームがPhoto-SLAMを提案しています。この画期的なフレームワークは、オンラインでフォトリアルなマッピングと正確な位置推定を実行し、従来の手法のスケーラビリティとコンピューティングリソースの制約を解決します。研究チームは、回転、スケーリング、密度、球面調和(SH)係数、およびORB特性を保持するポイントクラウドのハイパープリミティブマップを追跡します。ハイパープリミティブマップは、元の画像とレンダリングされた画像の間の損失を逆伝播することにより、対応するマッピングを学習し、因子グラフソルバを使用してトラッキングを最適化することを可能にします。3Dガウススプラッティングを使用して画像を生成します。3Dガウススプラッティングレンダラを導入することで、ビュー再構築のコストを下げることができますが、特に単眼の状況ではオンラインの増分マッピングの高品位なレンダリングを提供することはできません。さらに、ジオメトリベースの密度化技術とガウシアンピラミッド(GP)に基づいた学習手法を示唆し、密な深度情報に依存せずに高品質なマッピングを実現する方法を提案しています。 図1: Photo-SLAMは、同時位置推定とフォトリアルなマッピングのためにRGB-D、ステレオ、および単眼カメラをサポートする革命的なリアルタイムフレームワークです。1秒あたり最大1000フレームのレンダリング速度で高品質なシーンビューを再構築できます。 重要なことは、GP学習により、マルチレベルの特徴を段階的に獲得することが容易になり、システムのマッピング性能が大幅に向上します。研究チームは、RGB-Dカメラ、ステレオカメラ、単眼カメラによって撮影されたさまざまなデータセットを使用して、提案手法の効果を評価するための長期的な試行を行いました。この実験の結果は、Photo-SLAMがレンダリング速度、フォトリアリスティックなマッピング品質、および位置推定の効率において最先端の性能を達成していることを明確に示しています。さらに、Photo-SLAMシステムの組み込みデバイスでのリアルタイム動作は、有用なロボットアプリケーションの可能性を示しています。図1と図2は、Photo-SLAMの概要を示しています。 図2: Photo-SLAMの4つの主要コンポーネントは、ハイパープリミティブな要素を持つマップを維持し、位置推定、明示的なジオメトリマッピング、暗黙的なフォトリアルマッピング、およびループクロージャコンポーネントから構成されています。 この仕事の主な成果は以下の通りです: • 研究チームは、ハイパープリミティブマップと同時ローカライゼーションに基づいた初の写真のようなマッピングシステムを開発しました。この新しいフレームワークは、屋内および屋外の単眼、ステレオ、RGB-Dカメラと一緒に動作します。 • 研究チームは、ガウシアンピラミッド学習の使用を提案しました。これにより、モデルは効果的かつ迅速に多レベルの特徴を学習でき、高精度なマッピングが可能になります。このシステムは、埋め込みシステムでもリアルタイム速度で動作し、完全なC++およびCUDAの実装により最先端のパフォーマンスを実現しています。コードへの一般公開も行われます。

ジュネーブ大学の研究者は、多剤耐性(MDR)腸内細菌感染の入院リスクを予測するためのグラフベースの機械学習モデルを調査しています

マシンラーニングは、医療で非常に重要なツールとして登場し、業界のさまざまな側面を革新しています。その主な応用の一つは、診断にあります。マシンラーニングのアルゴリズムは、医療画像、遺伝情報、および患者の記録を含む巨大なデータセットを分析し、パターンを特定し正確な予測を行います。 以前は、マシンラーニングモデルは感染しやすい患者を検出し、感染予防対策(IPC)プログラムを支援するために使用されていました。これらのモデルには、電子健康記録(EHR)で定期的に収集される大量の医療データが使用されました。クラシックなマシンラーニングモデルは限られたユースケースでは効果的な結果を示すかもしれませんが、大規模かつ縦断的なEHRデータに一般化することができません。 ジュネーブ大学の研究者たちは、医療技術において画期的な進展を遂げました。彼らはグラフニューラルネットワーク(GNN)を医療に使用して抗菌耐性(AMR)と多剤耐性(MDR)のエンテロバクテリア属の菌叢を検出しました。 エンテロバクテリア属は通常健康な人の腸内に存在しますが、他の体の部位に菌叢を形成し感染を引き起こすと、健康に非常に危険です。これらの病原体の増殖にはさまざまな要因が関与しています。 研究者たちは、患者と医療従事者の相互作用をグラフ構造でモデル化しました。ノードとその相互作用が患者を表すエッジを記述するグラフニューラルネットワーク(GNN)モデルを訓練して、臨床的な特徴と時空間的な特徴を備えた患者ネットワークからの菌叢のパターンを学習しました。 ジュネーブ大学のダグラス・テオドロ教授は、重要な目標は医療環境内の複雑な相互作用をモデル化して、医療関連感染症(HAIs)の拡散を予測することであると述べました。患者と医療従事者に関するネットワーク情報もこの予測に取り入れられました。この研究の最も重要なメッセージは、医療ネットワークの相互作用を分析することでHAIsの予測を向上させる可能性があるということです。この手法は医療環境における感染予防と制御技術を大幅に前進させることができます。 テオドロ教授はまた、この手法のデータ駆動型アプローチに基づいて、同様の伝播ダイナミクスを持つ他の病原体やさまざまな医療環境にも適用できると予想しています。 この研究には、「病院感染のグラフベース予測」という名前の画像が含まれており、チームがグラフニューラルネットワークを使用して多剤耐性エンテロバクテリア属の伝播パターンをモデル化した方法を示しています。この研究は、病院が感染リスクを予測し対処する方法を変革することを目指しています。 モデルは、Medical Information Mart for Intensive Care (MIMIC-III) データセットを使用して訓練および評価され、従来の機械学習のベースラインと比較されました。特に、GNNモデルは、抗菌薬感受性(AMS)、AMR、およびMDRエンテロバクテリア属の早期検出において、ベースラインモデルよりも優れた予測能力を示しました。 研究者たちは、モデルをテストし、バンコマイシン耐性エンテロコッカス感染が時空間的特徴を使用して同定された場合、受信特性曲線下面積(AUROC)の性能が88%以上であることを確認しました。研究者は、GNNモデルが特徴量として0.91から0.96の範囲のAUROC性能を示すことを発見しました。この性能は、ロジスティック回帰のベースラインの88%よりも8%高いです。

上海人工知能研究所とMITの研究チームが、階層的に制御された再帰ニューラルネットワーク(RNN)の開発を発表しましたこれは効率的な長期依存性モデリングにおける新たなフロンティアです

上海人工知能研究所とMIT CSAIの研究者によって開発された階層的ゲート付き再帰ニューラルネットワーク(HGRN)技術は、線型RNNに忘却ゲートを組み込むことで、シーケンスモデリングの向上の課題に取り組んでいます。目的は、上位層が長期依存関係を捉える一方、下位層が短期依存関係に焦点を当てることを可能にし、特に非常に長いシーケンスの処理を効果的に行うことです。 この研究では、並列トレーニングと長期依存性の能力によるトランスフォーマーの優位性をシーケンスモデリングにおいて探求しており、線型RNNを使用した効率的なシーケンスモデリングに対する再興にも注目しています。特に、忘却ゲートの重要性を強調しています。長いシーケンスに対して自己注意モジュールの代わりに線型再帰と長い畳み込みの代替手法を考慮し、長い畳込みの課題を明示しています。RNNの長期依存性モデリングとゲートメカニズムの制約も取り上げられています。 シーケンスモデリングは、自然言語処理、時系列分析、コンピュータビジョン、音声処理など、さまざまな領域で重要です。トランスフォーマーの登場前には、RNNが一般的に使用されていましたが、トレーニングが遅く長期依存関係のモデリングには課題がありました。トランスフォーマーは並列トレーニングに優れていますが、長いシーケンスに対して二次時間の複雑性を持っています。 この研究では、効率的なシーケンスモデリングのためのHGRNを提案しています。これは、トークンとチャネルのミキシングモジュールからなるスタックされたレイヤーで構成されています。線型再帰レイヤー内の忘却ゲートは、上位層での長期依存性のモデリングと下位層での局所依存性を可能にします。トークンミキシングモジュールは、状態空間モデルに着想を得た出力ゲートと射影を組み込んでいます。ゲートメカニズムと動的減衰率は勾配消失の問題に対処します。言語モデリング、画像分類、長距離ベンチマークの評価により、HGRNの効率と効果を示しています。 提案されたHGRNモデルは、言語モデリング、画像分類、長距離領域ベンチマークで優れた性能を発揮します。バニラトランスフォーマー、MLPベース、RNNベースの手法よりも優れた性能を示し、オリジナルトランスフォーマーと同等の性能を言語タスクで発揮します。Commonsense ReasoningやSuper GLUEなどのタスクでは、より少ないトークンを使用してトランスフォーマーベースのモデルと同等の性能を発揮します。HGRNはLong Range Arenaベンチマークで長期依存関係の扱いにおいて競争力のある結果を達成します。ImageNet-1K画像分類では、HGRNはTNNやバニラトランスフォーマーなどの従来の手法を上回ります。 結論として、HGRNモデルは言語モデリング、画像分類、長距離ベンチマークなど、さまざまな課題やモダリティで高い効果を発揮しています。忘却ゲートとその値の下限の使用により、長期依存関係の効率的なモデリングが可能です。HGRNは、バニラトランスフォーマー、MLPベース、RNNベースの手法のバリエーションに比べて言語タスクで優れた性能を発揮し、ImageNet-1K画像分類ではTNNやバニラトランスフォーマーなどの手法と比較して優れた性能を示しています。 HGRNモデルの将来の展望には、様々な領域や課題での広範な探索が含まれ、その汎用性と効果を評価します。さまざまなハイパーパラメータとアーキテクチャの変化の影響を調査することで、モデルの設計を最適化します。追加のベンチマークデータセットの評価と最先端のモデルとの比較により、性能をさらに検証します。注意力や他のゲートメカニズムの組み込みなど、長期依存性のキャプチャを向上させるための改善点を探求します。さらに長いシーケンスの拡張性とパラレルスキャン実装の利点も調査します。解釈可能性と説明可能性のさらなる分析により、意思決定の洞察を得て透明性を向上させることを目指します。

小さな言語モデル(SLM)とその応用について知るべきすべてのこと

大型言語モデル(LLM)は、GPT、PaLM、LLaMAなど、その驚異的な能力により、多くの関心を集めています。自然言語処理、生成、理解の力を活用してコンテンツの生成、質問への回答、テキストの要約などを行うことができるため、LLMは最近の話題となっています。 ただし、大モデルのトレーニングとメンテナンスの高い費用、特定の目的にカスタマイズする難しさは、彼らにとって課題となっています。OpenAIのChatGPTやGoogle Bardなどのモデルは、トレーニングデータの大量、莫大な記憶容量、複雑なディープラーニングフレームワーク、膨大な電力など、膨大なリソースを必要とします。 小型言語モデルとは何ですか? その代替として、小型言語モデル(SLM)が登場し、より強力かつ柔軟になってきました。小型言語モデルは、小型のニューラルネットワークサイズ、パラメータ数、トレーニングデータのボリュームを特徴としています。LLMよりもメモリと処理能力が少なくて済むため、オンプレミスおよびオンデバイスの展開に最適です。 SLMは、リソース制約がある状況で有用なオプションです。その『小さい』という用語は、モデルの効率性とアーキテクチャの両方に言及しています。軽量設計のおかげで、SLMはパフォーマンスとリソース使用量をバランスさせることで、さまざまなアプリケーションに柔軟な解決策を提供します。 小型言語モデルの重要性 効率的:トレーニングおよび展開の観点から見ると、SLMはLLMよりも効率的です。コンピューティングコストを削減したい企業は、よりパワフルな機器で作業することができ、トレーニングに必要なデータも少なくて済むため、多額の費用が節約できます。 透明性:洗練されたLLMと比較して、小型言語モデルは通常よりも透明で説明可能な動作を示します。透明性により、モデルの意思決定プロセスを理解し、監査することが容易になり、セキュリティ上の欠陥を見つけて修正することが容易になります。 正確性:小型言語モデルは、その小さなスケールのため、事実に基づいた正確な情報を提供し、偏見を表示しにくくなっています。特定のデータセットに対してターゲットトレーニングを行うことにより、異なる企業の基準に合致する正確な結果を一貫して生成することができます。 セキュリティ:セキュリティに関しては、小型言語モデルはより大型のモデルよりも優れた機能を持っています。SLMは、コードベースが小さく、パラメータ数が少ないため、悪意のある行為者に対する攻撃面の可能性が低くなります。トレーニングデータへの制御は、関連するデータセットを選択し、悪意のあるデータや偏ったデータに関連するリスクを減らすことで、セキュリティをさらに強化するのに役立ちます。 小型言語モデルの例 DistilBERTは、効率を損なうことなくパフォーマンスを保持するBERTのより速く、コンパクトなバージョンで、NLPを変革しています。 MicrosoftのOrca 2は、合成データを使用してMetaのLlama 2を洗練させ、特にゼロショットの推論タスクにおいて競争力のあるパフォーマンスレベルを達成しています。 Microsoft Phi 2は、適応性と効率を重視したトランスフォーマーベースの小型言語モデルであり、論理的推論、常識、数学的推論、言語理解などの能力を示します。 GoogleのBERTモデルの改良版(BERT Mini、Small、VoAGI、Tinyなど)は、さまざまなリソース制約に対応するために設計されています。これらのバージョンは、Mini(4.4万パラメータ)からVoAGI(4100万パラメータ)まで、さまざまなアプリケーションに柔軟性を提供します。 小型言語モデルの実践的な応用 顧客サービスの自動化:SLMは、俊敏性と効率性の向上のため、顧客サービスの自動化に最適です。マイクロモデルは、ルーチンの問題や顧客の問い合わせを効率的に処理することができ、人間のエージェントがより個別化された対応に集中できるようにします。 製品開発のサポート:エッジモデルは、アイデアの生成、機能のテスト、および顧客の需要予測に役立ち、製品開発に不可欠です。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us