Search Results SuperGLUE

「エキスパートのミックスについて解説」

ミクストラル8x7Bのリリース（発表、モデルカード）により、トランスフォーマのクラスがオープンAIコミュニティで最も話題となっています。それがエキスパートの混合（Mixture of Experts、略してMoEs）です。このブログ記事では、MoEsの構成要素、トレーニング方法、および推論時の考慮事項について見ていきます。さあ、深く掘り下げてみましょう！目次ミクストラルとは何ですか？ MoEsの簡潔な歴史スパース性とは何ですか？ MoEsのトークンのロードバランシング MoEsとトランスフォーマスイッチトランスフォーマルータZ損失によるトレーニングの安定化エキスパートは何を学ぶのですか？エキスパートの数をスケーリングすると事前トレーニングにどのような影響を与えるのですか？ MoEsの微調整スパースMoEsと密なモデルの使用時期はいつですか？ MoEsを効果的に活用するためにエキスパート並列処理能力係数と通信コストサービングテクニック効率的なトレーニングオープンソースのMoEs ワークのエキサイティングな方向性いくつかのリソース…

「Amazon SageMaker ClarifyとMLOpsサービスを使用して、LLM評価をスケールで運用化する」

ここ数年、大規模言語モデル（LLM）は類稀なる能力を持ち、テキストの理解、生成、操作が可能な優れたツールとして注目されてきましたその潜在能力は、会話エージェントからコンテンツ生成、情報検索まで広範囲にわたり、あらゆる産業を革新する可能性を秘めていますしかし、この潜在能力を生かす一方で、責任ある利用と...

大規模な言語モデル：DeBERTa — デコーディング強化BERTと解釈された注意力

最近、BERTは多くの自然言語処理の課題で第一のツールとなりました情報の処理と理解、高品質の単語埋め込みの構築能力に優れています…

「GO TO Any Thing（GOAT）」とは、完全に見たことのない環境で、画像、言語、カテゴリのいずれかで指定されたオブジェクトを見つけることができる、ユニバーサルなナビゲーションシステムです

このsystemですGOATは、イリノイ大学アーバナ・シャンペーン校、カーネギーメロン大学、ジョージア工科大学、カリフォルニア大学バークレー校、Meta AI Research、Mistral AIの研究者チームによって開発されました。GOATは、家庭や倉庫の環境での拡張された自律運転を目指した普遍的なナビゲーションシステムです。GOATは、カテゴリラベル、ターゲット画像、言語の説明から目標を解釈できる多様なモーダルシステムです。過去の経験から利益を得るライフロングシステムです。GOATはプラットフォームに依存せず、さまざまなロボットの具現化に適応できます。 GOATは、カテゴリラベル、ターゲット画像、言語の説明を使用して、多様な環境での自律ナビゲーションに長けたモバイルロボットシステムです。GOATは深さの推定と意味的セグメンテーションを利用して、正確なオブジェクトインスタンスの検出とメモリストレージのための3D意味的ボクセルマップを作成します。意味的マップは、空間表現、オブジェクトインスタンス、障害物、探索済みエリアの追跡を容易にします。 GOATは動物や人間のナビゲーションの洞察に触発されたモバイルロボットシステムです。GOATは普遍的なナビゲーションシステムであり、人間の入力に基づいて異なる環境で自律的に操作します。モーダル、ライフロング、プラットフォームに依存しないGOATは、カテゴリラベル、ターゲット画像、言語の説明を使用して目標の指定を行います。この研究では、以前の手法のCLIP特徴マッチングよりもSuperGLUEベースの画像キーポイントマッチングを活用することで、未知のモーダルオブジェクトインスタンスへの到達におけるGOATの性能を評価し、その優越性を示しています。 GOATはイメージと言語の説明に基づいたモーダルナビゲーションのためのモジュラーデザインとインスタンスアウェアな意味的メモリを採用しています。事前計算されたマップなしで評価されるプランは、プラットフォームに依存しない学習能力を持っており、家庭での大規模な実験を通じてその能力を示しています。パスの計算には高速マーチング法を使用し、パスに沿ってウェイポイントに到達するためにポイントナビゲーションコントローラを使用します。 9つの家での実験的試行において、GOATは83%の成功率を達成し、以前の手法を32%上回りました。探索後の成功率が60%から90%に向上し、その適応性を示しています。GOATはピックアンドプレイスやソーシャルナビゲーションなどの下流タスクもスムーズに処理しました。質的実験では、GOATはボストンダイナミクスのスポットやハローロボットのストレッチロボットに展開されました。家庭でのSpotによる大規模な量的実験では、GOATの優れた性能が3つのベースラインを上回り、インスタンスの一致と効率的なナビゲーションにおいて優れていることが示されました。優れたモーダルおよびプラットフォームに依存しない設計により、カテゴリラベル、ターゲット画像、言語の説明など、さまざまな手段で目標を指定することができます。モジュラーアーキテクチャとインスタンスアウェアな意味的メモリにより、同じカテゴリのインスタンスを効果的に識別することができます。事前計算されたマップなしでの大規模な実験で評価され、GOATは柔軟性を示し、ピックアンドプレイスやソーシャルナビゲーションなどのタスクに対応します。 GOATの将来の軌道は、さまざまな環境やシナリオでのパフォーマンスを総合的に評価し、その汎用性と堅牢性を測定する包括的な探求を含みます。調査では、調査中の課題に対処するために一致閾値の向上を目指します。目標カテゴリに基づいてインスタンスのサブサンプリングをさらに探求し、パフォーマンスの向上を図ります。GOATの進行中の開発は、グローバルおよびローカルポリシーの改善と、より効率的なナビゲーションのための追加の技術の統合を検討します。広範な現実世界での評価は、異なるロボットやタスクを含めて、GOATの汎用性を検証します。さらなる探求により、GOATの適用範囲をナビゲーション以外の領域、例えば物体認識、操作、相互作用にも広げることが可能です。

「Google AIがAltUpを紹介」

「トランスフォーマー型ニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボット工学、自律運転などの新興アプリケーションにおいて、驚くべき効果を示し、焦点となっていますしかし、これらのモデルの規模が増大することにより、コンピューティングにかかるコストや推論の待ち時間に関する課題が生じていますこれが...」

Google AIは、『AltUp（Alternating Updates）』というアートフィシャルインテリジェンスの手法を導入しましたこれは、トランスフォーマーネットワークのスケールの拡大を利用するための手法であり、計算コストを増やさずに行われます

ディープラーニングにおいて、トランスフォーマーニューラルネットワークは、自然言語処理やコンピュータビジョン、ロボティクス、自動運転などの新興アプリケーションを含め、さまざまなドメインでの有効性に対して注目を集めています。ただし、パフォーマンスの向上に伴い、これらのモデルの規模がますます拡大することで、計算コストと推論遅延が大幅に増加します。大規模なモデルの利点を享受する際に、実用上の計算負荷をもたらさないような困難が存在します。特にトランスフォーマーモデルを含むディープラーニングモデルの現在の状況は、さまざまな領域で著しい進歩を示しています。ただし、増加した計算要件により、これらのモデルのスケーラビリティを向上させる必要がある場合があります。従来の取り組みは、Switch Transformer、Expert Choice、V-MoEなど、スパース混合専門家モデルによって示されるように、ネットワークパラメータの効率的なスケーリングや入力あたりの計算の増加を軽減することに主に焦点を当ててきました。ただし、トークン表現の次元自体のスケーリングに関する研究上の課題が存在します。ここで、この課題を解決するために導入された新しい方法であるAltUpが登場します。 AltUpは、計算のオーバーヘッドを増やさずにトークン表現を拡張する方法を提供することで際立っています。この方法では、拡張された表現ベクトルを等しいサイズのブロックに分割し、各層で1つのブロックのみを処理します。AltUpの有効性の核心は、処理されていないブロックの推論を可能にする予測-訂正メカニズムにあります。直接的な拡張に伴う計算量の二次的な増加を回避することで、モデルの次元を維持しながら、AltUpは、より大きなTransformerネットワークによってもたらされる計算上の課題に対する有望な解決策として浮上しています。 AltUpのメカニズムは、トークン埋め込みの複雑さに深く入り込み、計算の複雑さを増やさずにトークン表現を拡張する方法を検討しています。この方法は以下の手順で行われます: ブロックの1x幅トランスフォーマーレイヤーを呼び出します。「アクティブ」ブロックと呼ばれます。同時に軽量な予測子を使用します。この予測子は、すべての入力ブロックの重み付き組み合わせを計算し、予測値と活性化されたブロックの計算値は、軽量な修正子を介して修正されます。この修正メカニズムにより、非活性なブロックは活性化されたブロックに基づいて更新されます。重要なのは、予測と修正のステップの両方が、通常のトランスフォーマーレイヤーよりもはるかに高速なベクトルの加算と乗算を必要としないということです。 T5モデルに対するAltUpの評価は、同じ精度で密なモデルを上回る一貫した能力を示しています。特に、AltUpで拡張されたT5ラージモデルは、GLUE、SuperGLUE、SQuAD、Trivia-QAの各ベンチマークで、それぞれ27%、39%、87%、29%の著しいスピードアップを実現しています。AltUpの相対的な性能向上は、モデルのサイズが大きくなるにつれてより顕著になり、スケーラビリティと向上した効果を強調しています。 AltUpは、Transformerニューラルネットワークの効率的なスケーリングアップの長年の課題に対する注目すべき解決策として浮上しています。計算コストの比例的な増加を伴わずにトークン表現を拡張する能力は、さまざまなアプリケーションにおいて重要な約束を持っています。AltUpの革新的なアプローチは、分割と予測-訂正メカニズムを特徴とし、大きなモデルの利点を活用するための現実的な方法を提供します。計算要求に適しています。研究者たちによるAltUpの拡張であるRecycled-AltUpは、提案された手法の適応性をさらに示しています。初期トークンの埋め込みを広げる代わりに、再現埋め込みによってRecycled-AltUpは、認識可能な遅延を引き起こすことなく、事前学習パフォーマンスの厳格な改善を示しています。AltUpとMoEのような他のテクニックとのシームレスな統合を伴うこの二重アプローチは、その多様性を具現化し、トレーニングとモデルのパフォーマンスのダイナミクスを探求するための将来的な研究の可能性を開いています。 AltUpは、Transformerネットワークの効率的なスケーリングの追求における画期的なものであり、モデルのサイズと計算効率のトレードオフに対する魅力的な解決策を提供しています。この論文で述べられているように、研究チームの貢献は、大規模なTransformerモデルをさまざまな応用によりアクセス可能で実用的なものにするための重要な一歩です。

中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました：大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

自然言語処理（NLP）のアプリケーションでは、事前学習済み言語モデル（PLMs）であるBERT/RoBERTaを含む、卓越したパフォーマンスが示されています。ただし、これらのモデルは非常に複雑であり、一般的には数億のパラメータを持っているため、研究者にとっては大きな困難をもたらします。そのため、大規模な事前学習済み言語モデル（PLMs）はまだ完全なポテンシャルを発揮していません。重み共有、量子化、ネットワークの剪定、知識の蒸留など、多くのモデル圧縮戦略が提案されていますが、知識蒸留のような大きな圧縮率が必要な状況は、これらのモデル圧縮技術には直接関連していません。支援モデルを追加すると、しばしばより悪化し、不安定なパフォーマンスが生じることがあります。大規模言語モデル（LLMs）は、言語に高いスキルを持っており、さまざまな下流活動に利用することができるため、ますます人気が高まっています。そのため、この情報を小規模モデルに適用する方法を調査することは重要です。ただし、LLMsの圧縮率が非常に高いため、現在の方法ではこれらを圧縮することは適していません。以前の研究では、LLMsを小規模モデルに対して知識の転移やデータ拡張に利用することが提案され、後者は低リソースのデータセットでの性能向上を示しました。しかし、小規模モデルの制約されたパラメータサイズは、SuperGLUEベンチマークのようなより難しいタスクを引き受ける際に障害となり、LLMsが伝える情報を保持することがより容易になります。その結果、小規模モデルの性能向上はまだ改善される必要があります。北京大学、美団、メタAI、国家汎人工知能研究センター（BIGAI）、中国人民大学の研究者らは、Retrieval-based information transmission（RetriKT）と呼ばれる革新的な圧縮パラダイムを提案しています。このパラダイムは、大規模言語モデル（LLMs）の情報を効率的かつ正確に小規模モデルに伝達することを目指しています。彼らの方法は主に2つのステップで構成されています。まず、LLMから知識を抽出して知識ストアを作成し、その後、小規模モデルは知識ストアから関連する情報を取得してタスクを完了します。より正確に言うと、LLMがドメイン内のサンプルを生成するように調整するために、ソフトプロンプトチューニングの方法を使用します。また、生成品質を改善するために、Proximal Policy Optimization（PPO）強化学習技術を提供します。最後に、小規模モデルは知識ストアから関連データを取得する能力を獲得します。彼らはSuperGLUEベンチマークとGLUEベンチマークからの本当に困難で低リソースのタスクに対して包括的なテストを行っています。実験結果は、LLMsの情報を利用することで、RetriKTが小規模モデルの性能を大幅に改善し、以前の最先端の知識蒸留手法を上回ることを示しています。これは、厳しいモデル圧縮のための情報検索ベースの知識転移パラダイムが実用的で成功していることを示唆しています。以下は、彼らの貢献の要約です：・彼らが提案する新しい圧縮パラダイムであるRetrieval-based information transmissionは、LLMsから信じられないほど小規模なモデルに情報を伝達しようとするものです。・生成品質を改善するために、彼らは慎重にインセンティブ関数を構築し、強化学習アルゴリズムであるPPOを提案しています。このパラダイムは、モデルサイズの大きな違いによる極端なモデル圧縮の問題に取り組んでいます。・彼らはSuperGLUEベンチマークとGLUEベンチマークからの低リソースタスクで包括的なテストを行い、LLMsから収集された知識の正確さと多様性を向上させます。その結果、LLMsの情報を利用することで、RetriKTは小規模モデルの性能を大幅に向上させ、以前の最先端の知識蒸留手法を上回ります。

Mistral-7B-v0.1をご紹介します：新しい大型言語モデルの登場’ (Misutoraru 7B v0.1 wo goshōkai shimasu Atarashii ōgata gengo moderu no tōjō)

“`html Mistral-7B-v0.1は、大規模な言語モデル（LLM）の人工知能（AI）の最新の進歩の一つです。Mistral AIの最新のLLMは、このモデルタイプの中で最も大きく、最も強力な例の一つで、70億のパラメータを誇っています。 Mistral-7B-v0.1はトランスフォーマーモデルであり、特にNLPアプリケーションに有用なタイプのニューラルネットワークです。テキストの生成、言語の翻訳、さまざまな形式のクリエイティブなコンテンツの作成、問いに対する具体的な回答などの能力は、大規模なテキストとコードでのトレーニングによって可能となりました。同じサイズの他のLLMと比較して、Mistral-7B-v0.1はいくつかのベンチマークでより優れたパフォーマンスを発揮します。これにはGLUE、SQuAD、SuperGLUEなどが含まれます。これは、おそらく現在利用可能な最も先進的で強力なLLMの一つであることを示しています。 Mistral-7B-v0.1トランスフォーマーモデルの作成には、以下のアーキテクチャオプションが使用されました。グループ化された質問処理絶えず変化するフォーカスバイトフォールバックを持つBPEトークナイザー Mistral-7B-v0.1が有用な例をいくつか紹介します。 Mistral-7B-v0.1は、機械翻訳、テキスト要約、質問応答などのさまざまな自然言語処理（NLP）アプリケーションに有用です。詩、コード、脚本、楽曲、メール、手紙など、クリエイティブライティング用に設計されたプログラムであるMistral-7B-v0.1を使用して生成することができます。 Mistral-7B-v0.1は、さまざまな言語でのコード生成に使用できます。 Mistral-7B-v0.1を使って、生徒たちに個別の授業を提供するために教室で利用することができます。カスタマーケアツールとして、Mistral-7B-v0.1はチャットボットやその他の支援アプリケーションの開発に使用できます。詳細はこちらをご覧ください。 Mistral-7B-v0.1はまだ開発中ですが、コンピュータや外の世界の利用方法を変革する可能性を既に持っています。Mistral-7B-v0.1は、ポジティブな変化のための巨大な潜在能力を持つ先進的なツールです。開発はまだ初期段階ですが、これまで良好な成果を上げています。Mistral-7B-v0.1は、AIの進化における大きな前進です。この開発により、コンピュータと私たちの周りの環境の利用方法が完全に変わる可能性があります。 “`

AIのオリンピック：機械学習システムのベンチマーク

何年もの間、4分以内で1マイルを走ることは、単なる困難な課題ではなく、多くの人にとっては不可能な偉業と考えられていましたそれは心理的、身体的な目標であり、多くの人がそうだと思っていました...

「LLMの力を活用する：ゼロショットとフューショットのプロンプティング」

はじめに LLMのパワーはAIコミュニティで新たなブームとなりました。GPT 3.5、GPT 4、BARDなどのさまざまな生成型AIソリューションが異なるユースケースで早期採用されています。これらは質問応答タスク、クリエイティブなテキストの執筆、批判的分析などに使用されています。これらのモデルは、さまざまなコーパス上で次の文予測などのタスクにトレーニングされているため、テキスト生成に優れていると期待されています。頑健なトランスフォーマーベースのニューラルネットワークにより、モデルは分類、翻訳、予測、エンティティの認識などの言語に基づく機械学習タスクにも適応することができます。したがって、適切な指示を与えることで、データサイエンティストは生成型AIプラットフォームをより実践的で産業的な言語ベースのMLユースケースに活用することが容易になりました。本記事では、プロンプティングを使用した普及した言語ベースのMLタスクに対する生成型LLMの使用方法を示し、ゼロショットとフューショットのプロンプティングの利点と制限を厳密に分析することを目指します。学習目標ゼロショットとフューショットのプロンプティングについて学ぶ。例として機械学習タスクのパフォーマンスを分析する。フューショットのプロンプティングをファインチューニングなどのより高度な技術と比較評価する。プロンプティング技術の利点と欠点を理解する。この記事はData Science Blogathonの一部として公開されました。プロンプティングとは？まず、LLMを定義しましょう。大規模言語モデル（LLM）とは、数億から数十億のパラメータを持つ、複数のトランスフォーマーとフィードフォワードニューラルネットワークの層で構築されたディープラーニングシステムです。これらはさまざまなソースの大規模なデータセットでトレーニングされ、テキストを理解し生成するために構築されています。言語翻訳、テキスト要約、質問応答、コンテンツ生成などが例です。LLMにはさまざまなタイプがあります：エンコーダのみ（BERT）、エンコーダ＋デコーダ（BART、T5）、デコーダのみ（PALM、GPTなど）。デコーダコンポーネントを持つLLMは生成型LLMと呼ばれ、これがほとんどのモダンなLLMの場合です。生成型LLMに特定のタスクを実行させるには、適切な指示を与えます。LLMは、プロンプトとも呼ばれる指示に基づいてエンドユーザーに応答するように設計されています。ChatGPTなどのLLMと対話したことがある場合、プロンプトを使用したことがあります。プロンプティングは、モデルが望ましい応答を返すための自然言語のクエリで私たちの意図をパッケージングすることです（例：図1、出典：Chat GPT）。以下のセクションでは、ゼロショットとフューショットの2つの主要なプロンプティング技術を詳しく見ていきます。それぞれの詳細と基本的な例を見ていきましょう。ゼロショットプロンプティングゼロショットプロンプティングは、生成型LLMに特有のゼロショット学習の特定のシナリオです。ゼロショットでは、モデルにラベル付きのデータを提供せず、完全に新しい問題に取り組むことを期待します。例えば、適切な指示を提供することにより、新しいタスクに対してChatGPTをゼロショットプロンプティングに使用します。LLMは多くのリソースからコンテンツを理解しているため、未知の問題に適応することができます。いくつかの例を見てみましょう。以下は、テキストをポジティブ、ニュートラル、ネガティブの感情クラスに分類するための例です。ツイートの例ツイートの例は、Twitter US…

Learn more about Search Results SuperGLUE