Learn more about Search Results アダプタ - Page 3

「AIに関するアレン研究所の研究者らが、大規模なデータセット上での2段階のトレーニングプロセスによって開発された、新しい科学文書の埋め込みモデルであるSPECTER2を開発しました」

科学的なドキュメント埋め込みの領域は、SPECTERやSciNCLのような既存のモデル内で適応性とパフォーマンスの課題に直面しています。これらのモデルは特定のドメインでは効果的ですが、引用予測タスクに焦点を絞った狭いトレーニングデータの制約などの制限には取り組んでいます。研究者たちはこれらの課題を確認し、これらの問題に対処し、科学的なドキュメント埋め込みの適応性と全体的なパフォーマンスを大幅に向上させる解決策を作成することを目指しました。 SPECTERやSciNCLといった現在の科学的なドキュメント埋め込みのモデルは、進歩を遂げていますが、トレーニングデータの多様性や引用予測に対する狭い焦点の制約に制約されている必要があります。そのため、AIのAllen Instituteに所属する研究チームが取り組み、画期的なSPECTER2モデルを紹介することで、課題形式に特化したアダプターを採用します。SPECTER2は、23の異なる研究分野を横断した9つのタスクにわたる広範なデータセットを活用します。この革新的な進展は、科学的なドキュメントのさまざまなタイプに適したタスク固有の埋め込みを生成するモデルの能力を大幅に向上させるものです。 SPECTER2は、SciBERTのチェックポイントとクエリ、ポジティブ、ネガティブの候補論文からなる三つ組を使用して引用予測の事前トレーニングから開始する緻密なトレーニングプログラムを実施します。その後の段階では、マルチタスクトレーニングのための課題形式固有のアダプターの統合が行われます。この戦略的な拡張により、モデルはさまざまな下流タスクに最適化されたさまざまな埋め込みを生成することが可能になります。このアプローチの洗練度は、以前のモデルに存在する制約を効果的に扱います。最近導入されたSciRepEvalベンチマークの評価によって、SPECTER2は汎用と科学的な埋め込みモデルよりも優れた性能を発揮していることが明らかになっています。特に、特定のタスク形式にカスタマイズされた単一のドキュメントに複数の埋め込みを提供するモデルの傑出した柔軟性と操作効率が強調されています。 結論として、SPECTER2は科学的なドキュメント埋め込みの大きな進歩を象徴しています。既存のモデルの欠点を修正するための研究チームの苦闘は、その先駆者たちを超える頑強な解決策を生み出しました。SPECTER2の学際的な境界を超える能力、タスク固有の埋め込みの生成、ベンチマーク評価での常に最先端の結果を一貫して達成する能力により、これは多様な科学的な応用において貴重なツールとなります。このブレークスルーにより、科学的なドキュメント埋め込みの領域は豊かになり、将来の進歩の道を拓くことができます。 この投稿は、Allen Institute for AIの研究者が大規模データセット上の2ステップトレーニングプロセスを経て新しい科学的なドキュメント埋め込みモデルSPECTER2を開発しました。

「サーモン 大規模な言語モデルのための一般的な聴覚能力へ」

聞くことは、一般的な音声情報の感知と理解を含むため、AIエージェントにとって現実世界の環境では重要ですこの音声情報は、音楽、オーディオイベント、および音声の3つの主要な音声タイプを包括しています最近、テキストベースの大規模言語モデル(LLM)フレームワークは、自然言語処理(NLP)のさまざまな分野で人間レベルのパフォーマンスを達成するなど、注目すべき能力を示してきました

効果的にLLMをトレーニングする方法:小規模な導入のためのベストプラクティス

Large Language Models(LLMs)の新しい進歩に関するニュースの中で、あなたは「自分自身のLLMをどのように訓練すればいいのか」と思っているかもしれません。今日では、特定のニーズに合わせたLLMはますます重要な資産になっていますが、その「大規模」さには価格が付いています。LLMの印象的な成功は、モデルのパラメータ数とトレーニングデータのサイズの増加と相関があるスケーリングの法則によって大きく貢献しています。GPT-4、Llama2、Palm2などのモデルは、世界最大のクラスタで訓練され、完全なスケールのモデルを訓練するために必要なリソースは、個人や小規模企業には獲得困難なことがしばしばあります。 LLMの効率的な訓練は、速く、メモリ使用量を抑え、エネルギーを節約することに焦点を当てた研究の活動領域です。ここでの効率性とは、モデルの品質(例えばパフォーマンス)とそのリソース利用のバランスを達成することを指します。この記事では、データ効率またはモデル効率の訓練戦略を選ぶ際のアドバイスを提供します。詳しくは、最も一般的なモデルとそれぞれの参照が、添付の図に示されています。 データ効率。訓練の効率を向上させるためには、データの戦略的な選択が大きく影響します。データフィルタリングは、訓練を前に行うことで、完全なデータセットと同等のモデルパフォーマンスを達成するために、十分な情報を含むコアデータセットを作成する方法です。カリキュラムラーニングは、訓練中にデータインスタンスを計画的にスケジュールすることを意味します。これは、より単純な例から徐々により複雑な例に進んだり、その逆の場合でもあります。また、これらの方法は、訓練中にデータセット全体にわたるさまざまなサンプリング分布を確立することも可能です。 モデル効率。効率的なモデルを得る最も直接的な方法は、適切なアーキテクチャを設計することです。もちろん、これは容易ではありません。幸いなことに、ニューラルアーキテクチャの検索(NAS)やハイパーパラメータの最適化のような自動モデル選択方法によって、このタスクをより容易にすることができます。適切なアーキテクチャを持つことで、大規模なモデルのパラメータ数を減らしながらも、大規模なモデルのパフォーマンスを演算することが可能となります。多くの成功したLLMは、マルチレベルのシーケンスモデリングと並列化の能力で知られるトランスフォーマーアーキテクチャを使用しています。ただし、アテンションメカニズムは入力サイズの二乗に比例してスケールするため、長いシーケンスの管理は難しい課題です。この領域の進化には、アテンションメカニズムの改善に加え、再帰ネットワーク、長期メモリ圧縮、ローカルとグローバルなアテンションのバランスを取る手法などが含まれます。 同時に、パラメータ効率の方法は、複数の操作での利用効率を向上させるために使用されることがあります。これには、メモリ使用量を削減するために類似の操作間で重み共有するウェイト共有などの戦略が含まれています。パラメータの一部のみを活性化するスパーストレーニングは、「宝くじ券仮説」を利用し、効率的に訓練されたサブネットワークが完全なモデルのパフォーマンスに匹敵することができるという概念を生かしています。 モデルの圧縮も重要な要素であり、パフォーマンスを損なうことなく、計算負荷とメモリのニーズを減らすことが含まれます。これには、重要度が低いウェイトを削除するプルーニング、より小さいモデルを訓練するためのナレッジディスティレーション、およびスループットの向上のための量子化が含まれます。これらの方法は、モデルのパフォーマンスだけでなく、モバイルやリアルタイムのアプリケーションにおいても推論時間を高速化します。 トレーニングセットアップ。利用可能なデータの膨大さにより、トレーニングをより効果的に行うために2つの一般的なテーマが浮かび上がっています。事前トレーニングは、大規模な未ラベルデータセットで自己教師付けの方法で行われる最初のステップであり、初期トレーニングには「Common Crawl – Get Started」といったリソースが使用されます。次の段階である「微調整」には、タスク固有のデータの訓練が含まれます。BERTのようなモデルをゼロからトレーニングすることは可能ですが、特殊なケースを除いて、既存のモデル(例えば「bert-large-cased · Hugging Face」)を使用する方が実用的です。効果的なモデルのほとんどは、リソースの制約により継続的なトレーニングには適していないため、Parameter-Efficient Fine-Tuning(PEFT)に焦点を当てています。「アダプタ」という技術がPEFTの最前線にあり、この技術ではモデルの残りの部分を固定したままでトレーニングを行う追加のレイヤが導入され、元のウェイトに対して独自の「修飾子」ウェイトを学習することや、スパーストレーニングや低ランクアダプテーション(LoRA)のような手法を使用することがあります。モデルの適用を適応させる最も簡単な方法は、プロンプトエンジニアリングです。ここではモデルそのものはそのままにし、タスクに最適な応答を生成するようなプロンプトを戦略的に選択します。最近の研究では、このプロセスを補完するための追加モデルが自動化されることを目指しています。 まとめると、LLMの訓練の効率は、データの選択、モデルのアーキテクチャの最適化、革新的な訓練技術などのスマートな戦略にかかっています。これらの手法により、高度なLLMの使用が民主化され、さまざまなアプリケーションやユーザーにとってアクセスしやすく実用的になります。

ID対マルチモーダル推奨システム:転移学習の視点

この記事は、移転可能な推薦システムの開発状況と代表的な作業(IDベース、モダリティベース、および大規模言語モデルベース)についてレビューしています

NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ

Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation(LoRA)手法のパラメータ効率を改善することを目指しています。この講座では、ウェイトタイイングと選択的トレーニングを使用して、性能とトレーニング可能なパラメータの最適なバランスを見つけます。研究者はさまざまなタスクとベースの言語モデルで実験を行い、効率と性能の間にトレードオフがあることを発見しました。 最近のパラメータ効率の高い微調整技術には、LoRAがあります。これは、低ランク行列の近似を通じてトレーニング可能なパラメータを減らします。AdaLoRAは、動的なランク調整を導入し、アダプタの調整とLoRAを組み合わせたLoRAの拡張です。Kopiczkoによって提案されたVeRAは、凍結行列とトレーニング可能なスケーリングベクトルを介してパラメータを削減します。QLoRAは、メモリ効率の高いLoRAを実現するために量子化されたベースモデルを使用します。本研究では、低ランク重み行列にウェイトタイイングを適用し、さらにパラメータの効率を向上させています。 DownstreamタスクのためのLLMの微調整の計算負荷に対処するために、Tied-LoRAはウェイトタイイングと選択的トレーニングを組み合わせて、LoRAのパラメータ効率を向上させる新しいアプローチです。研究者は、さまざまなスタディとベースの言語モデルで系統的な実験を通じて、さまざまなパラメータトレーニング/フリーズおよびウェイトタイイングの組み合わせを探索しています。研究者は、標準的なLoRA手法と比較して、パラメータのわずか13%のみを利用して同等の性能を実現する特定のTied-LoRA構成を特定しました。 Tied-LoRAは、ウェイトタイイングと選択的トレーニングを組み合わせて、LoRAアプローチのパラメータ効率を向上させる方法です。これは、LoRA内の低ランク行列にウェイトタイイングを適用し、ベースの言語モデルのレイヤー間で同じ結果を共有し、トレーニング可能なパラメータの数を減らすことによるものです。さまざまなパラメータトレーニング/フリーズとウェイトタイイングの組み合わせを探索し、性能とトレーニング可能なパラメータの最適なバランスを実現します。提案されたTied-LoRAの構成は、翻訳や数学的な推論を含むさまざまなタスクで評価され、データ設定全体で効率性を示しています。 さまざまなタスクと2つのベース言語モデルを対象とした実験では、異なるTied-LoRAの構成が効率と性能の間のトレードオフを示しました。特定のTied-LoRA構成であるvBuAは他の構成を凌ぎ、同等のパフォーマンスを実現しました。vBuAは最適なオプションとして特定され、パラメータを87%削減しながらパフォーマンスを維持しました。抽出型質問応答、要約、数学的推論などのタスクでの評価は、Tied-LoRAのパラメータ効率を向上させながら、競争力のあるパフォーマンスを著しく保持していることを示しています。 さまざまなタスクを対象とした実験の結果から、Tied-LoRAはLoRA手法のパラメータ効率を向上させる一つの手法であり、ウェイトタイイングと選択的トレーニングを利用しています。結果は、Tied-LoRAが常識NLI、抽出型QA、要約などの機能を置き換えることができることを示しています。さらに、Tied-LoRAはパフォーマンスを損なうことなく改善されたパラメータ効率を提供し、標準的なLoRAからわずか13%のパラメータのみを利用します。ただし、制限や他のパラメータ効率手法との比較を議論し、将来の探索の潜在的な領域を特定することが重要です。

マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています

人工一般知能(AGI)システムでは、タスクに関係なく利点を提供する事前トレーニング可能な適応的表現の使用に向けた noticeable な傾向が見られました。自然言語処理(NLP)は、この傾向の良い例です。洗練されたモデルは、明快な指示で複数のドメインとタスクをカバーする包括的な知識を持つ柔軟性を示します。NLPの人気は、コンピュータビジョンにおいて補完的な戦略を促しています。特徴やマスキングされた輪郭、オブジェクト配置など、コンピュータビジョンでは特徴的な視覚データの処理が必要です。コンピュータビジョンにおいて普遍的な表現を実現するためには、図1に示されるように、2次元に配置されたさまざまな厳しい課題を上手に処理する必要があります。 図1 空間の階層性:モデルは、細部のピクセル情報と画像レベルのアイデアを理解することで異なるサイズの空間情報を認識する必要があります。図に示したビジョンにおける複雑な空間の階層をサポートするためには、モデルはさまざまな粒度を管理できる能力を持たなければなりません。 意味的な粒度:コンピュータビジョンでは、普遍的な表現はさまざまな意味的な粒度をカバーする必要があります。抽象的なタイトルからより詳細な説明へのパラダイムの変化により、さまざまな使用方法に対する柔軟な理解が提供されます。 この追求は、特異性と重要な挑戦に特徴付けられます。主要な障害は、より多くのデータの必要性であり、空間の階層性と意味的な粒度の複雑なニュアンスを捉える基盤モデルの開発を妨げます。ImageNet、COCO、Flickr30k Entitiesなどの既存のデータセットは、特殊なアプリケーション向けに広範に人間によってラベル付けされています。この制約に対処するためには、より大規模なスケールで各画像の詳細な注釈を生成することが不可欠です。また、コンピュータビジョンで空間の階層性と意味的な粒度をシームレスに統合するモデルが存在しません。タスク固有のデザインにより、従来のモデルは、意味的セグメンテーション、オブジェクト識別、画像キャプションなどのタスクで優れたパフォーマンスを発揮します。ただし、異なるビジョンタスクに対してタスク非依存的な方法で適応できる完全で統一的なモデルを作成することは、重要です。 統一された事前トレーニングとネットワークデザインを通じて、このモデルは、コンピュータビジョンにおける空間、時間、多モーダルの特徴の統合を先駆的に行っています。最初の進化的イテレーションは、ノイズのあるテキスト-イメージのペアリングでの事前トレーニングとカスタマイズされたアダプタを使用したタスク固有の微調整を通じて転送学習に優れています。ただし、大規模なタスク固有のデータセットとアダプタへの依存は、上記の2つの主要な問題に取り組む際にギャップを生じさせる原因となります。この研究では、Azureの研究者が、豊富なビジュアル注釈を使用して獲得された普遍的なバックボーンを提供しています。これにより、不完全かつ包括的なデータと均一なアーキテクチャの不足を成功裏に解決できる、様々なビジョンタスクに対するプロンプトベースの統一された表現が実現されます。 多タスク学習には、大規模で高品質な注釈付きデータが必要です。時間のかかる人間の注釈に頼らずに、彼らのデータエンジンは、\fld という広範なビジュアルデータセットを作成します。このエンジンには2つの効果的な処理モジュールがあります。第1のモジュールでは、特化モデルを使用して写真に共同でおよび自律的に注釈を付けることにより、従来の単一および手動の注釈戦略から脱却します。集団の知恵理論に類似して、多くのモデルが協力して一致を作り出し、より公平で信頼性のある画像解釈を実現します。習得された基本モデルを使用して、第2のモジュールはこれらの自動注釈を反復的に洗練し、フィルタリングします。 彼らのモデルは、この大規模なデータセットを活用して、シーケンス対シーケンス(seq2seq)アーキテクチャを使用して、イメージエンコーダとマルチモダリティエンコーダ‐デコーダを統合しています。このアーキテクチャは、タスク固有のアーキテクチャの調整を必要とせずに、さまざまなビジョンタスクをサポートします。これは、NLPコミュニティの柔軟なモデル作成と統一された基盤の目標と一致しています。データセット内のすべての注釈は、一貫してテキストの出力に標準化されます。これにより、目標と同じ損失関数を使用して単一の多タスク学習戦略を一貫して最適化することが可能になります。その結果、統一されたパラメータを持つ単一のモデルの制御下で、オブジェクト認識、キャプション付け、およびグラウンディングを含むさまざまな機能を処理できる柔軟なビジョン基盤モデル、またはモデルが作成されます。大規模な言語モデル(LLM)が使用する方法と一致して、テキストをプロンプトとして活用することにより、タスクを活性化させます。 彼らの方法は、一般的な表現を達成し、多くの視覚的タスクで広範な利用が可能です。主な見つかりとしては以下のとおりです: モデルは柔軟なビジョン基礎モデルであり、RefCOCOでの参照表現の理解、Flick30kでの視覚的根拠、およびCOCOでのキャプション作成などのタスクにおいて、新しい最先端のゼロショット性能を提供します。 モデルは小さなサイズにもかかわらず、公開された人間によるアノテーションデータを使用して微調整した後、より専門化されたモデルと競合します。特に、改良されたモデルはRefCOCOで新しいベンチマークの最先端スコアを設定しています。 事前に学習されたバックボーンは、下流のタスクであるCOCOオブジェクト検出、インスタンスセグメンテーション、およびADE20K意味セグメンテーションにおいて、教師付きおよび自己教師付きモデルを上回ります。彼らのモデルは、Mask-RCNN、DINO、およびUperNetフレームワークを使用しており、COCOおよびADE20Kデータセットに対してそれぞれ6.9、5.5、および5.9ポイントの大幅な向上をもたらし、またImageNetでの事前学習モデルのトレーニング効率を4倍にしています。

「カスタムレンズを使用して、信頼性のあるよく設計されたIDPソリューションを構築する」シリーズの第3部:信頼性

IDPウェルアーキテクチャのカスタムレンズは、AWSを使用してインテリジェントドキュメント処理(IDP)ソリューションを実行しているすべてのAWSのお客様を対象としており、AWS上で安全で効率的かつ信頼性のあるIDPソリューションを構築する方法に関するガイダンスを探していますクラウドでの本番対応のソリューションを構築するには、リソース、時間、顧客の間で一連のトレードオフが必要です

「LoRAを使用してAmazon SageMakerでWhisperモデルを微調整する」

「ウィスパーは、ウェブ上の言語とタスクの幅広いデータを使用してトレーニングされた、自動音声認識(ASR)モデルですしかし、マラーティー語やドラヴィダ語などの資源の少ない言語においては、性能が低下するという制約がありますこの制約は、ファインチューニングによって解消できますしかし、ウィスパーのファインチューニング […]」

「大型言語モデルを使用して開発するために知っておくべきすべて」

この記事の目的は、簡単な言葉でLLMベースのアプリケーション開発に必要な主要なテクノロジーを説明することですさらなる学習のために多くの有用なリンクも提供されていますそれは行く...

「Llama2とAmazon SageMakerを使用したLoRAのファインチューニングモデルのモデル管理」

ビッグデータとAIの時代において、企業は競争上の優位性を得るためにこれらの技術を利用する方法を常に探求しています現在、AIの中でも最も注目されている分野の一つが生成AIですそしてその理由は十分にあると言えます生成AIは創造性や可能性の限界を押し上げる強力な解決策を提供してくれます

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us