Learn more about Search Results Transformer - Page 2

「リソース制約のあるアプリケーションにおいて、スパースなモバイルビジョンMoEsが密な対応物よりも効率的なビジョンTransformerの活用を解き放つ方法」

ミクスチャー・オブ・エキスパート(MoE)と呼ばれるニューラルネットワークのアーキテクチャは、さまざまなエキスパートニューラルネットワークの予測を組み合わせます。MoEモデルは、いくつかのサブタスクや問題の要素が専門的な知識を必要とする複雑な作業に対応します。これらは、ニューラルネットワークの表現を強化し、さまざまな難しいタスクを処理できるようにするために導入されました。 さらに、スパースゲーテッド・ミクスチャー・オブ・エキスパート(MoE)として知られるニューラルネットワークのアーキテクチャは、ゲーティングメカニズムに疎結合性を追加することで従来のMoEモデルのアイデアを拡張します。これらのモデルは、MoEデザインの効率性とスケーラビリティを向上させ、コンピューティングコストを低減するために作成されています。 それぞれの入力トークンに対してモデルパラメータの一部のみを独占的に活性化できる能力により、モデルのサイズと推論の効率を切り離すことができます。 ニューラルネットワーク(NN)を使用する場合、特にわずかな計算リソースしか利用できない場合には、パフォーマンスと効率の両方をバランスさせることは依然として困難です。スパースゲーテッド・ミクスチャー・オブ・エキスパートモデル(sparse MoEs)は、モデルのサイズと推論の効率を切り離すことができるため、最近は潜在的な解決策として見なされています。 スパースMoEsは、モデルの能力を増強し、計算コストを最小限に抑える可能性を提供します。これにより、大規模なビジュアルモデリングの主要なアーキテクチャ選択肢であるTransformersと統合するオプションとなります。 このため、Appleの研究チームは、「Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts」という論文で、スパースモバイルビジョンMoEsの概念を紹介しました。これらのV-MoEsは、優れたモデルパフォーマンスを維持しながらVision Transformers(ViTs)を縮小する効率的でモバイルフレンドリーなミクスチャーオブエキスパートデザインです。 研究者は、セマンティックスーパークラスを活用してエキスパートのアンバランスを回避するシンプルで堅牢なトレーニング手順を開発したと強調しています。これにより、パッチごとのルーティングでは通常、各画像に対してより多くのエキスパートがアクティブになりますが、パーイメージルーターでは画像ごとのアクティブなエキスパートの数が減少します。 研究チームは、トレーニングフェーズをベースラインモデルのトレーニングから始めました。その後、モデルの予測をトレーニングデータセットから保持された検証セットに記録し、混同行列を作成しました。この混同グラフは、混同行列を基にグラフクラスタリングアルゴリズムによって処理されました。このプロセスにより、スーパークラスの分割が作成されました。 彼らは、モデルが標準のImageNet-1k分類ベンチマークで経験的な結果を示していると述べています。彼らは、1.28Mの画像からなるImageNet-1kトレーニングセットですべてのモデルをゼロからトレーニングし、その後、50Kの画像からなる検証セットでのトップ1の精度を評価しました。 研究者は将来的にもViTs以外のモバイルフレンドリーモデルでMoEデザインを使用したいと考えています。また、物体検出などの他のビジュアルタスクも考慮に入れる予定です。さらに、すべてのモデルにおける実際のオンデバイスのレイテンシを定量化することを目指しています。

🤗 Transformersにおけるネイティブサポートされた量子化スキームの概要

私たちは、トランスフォーマーでサポートされている各量子化スキームの利点と欠点を明確に示し、どれを選ぶべきかを判断するのに役立つ概要を提供することを目指しています。 現在、モデルの量子化は主に2つの目的で使用されています: 大きなモデルの推論をより小さなデバイスで実行すること 量子化モデルの上にアダプタを微調整すること 現時点で、2つの統合の取り組みが行われ、トランスフォーマーでネイティブにサポートされています:bitsandbytesとauto-gptqです。なお、🤗オプティマムライブラリでは他の量子化スキームもサポートされていますが、このブログ投稿では対象外です。 サポートされている各スキームの詳細については、以下で共有されているリソースのいずれかをご覧ください。また、ドキュメントの適切なセクションもご確認ください。 また、以下で共有されている詳細は、PyTorchモデルにのみ有効であり、TensorflowおよびFlax/JAXモデルについては現在のところ対象外です。 目次 リソース bitsandbyesとauto-gptqの利点と欠点 速度ベンチマークの詳細 結論と最終的な言葉 謝辞 リソース GPTQブログ投稿 – GPTQ量子化方法と使用方法について概説しています。 bitsandbytes 4ビット量子化ブログ投稿 – このブログ投稿では4ビット量子化と効率的なファインチューニング手法であるQLoRaについて紹介しています。 bitsandbytes 8ビット量子化ブログ投稿 –…

『キャタリスト研究の変革:テキスト入力を使用したエネルギー予測のために設計された Transformer ベースの AI モデル、CatBERTaに出会ってください』

化学触媒の研究は、常に新しい長期的な解決策が求められるダイナミックな分野です。現代の産業の基盤である触媒は、化学反応を促進するために消費されずに使用され、より環境に優しいエネルギーの生成から医薬品の創造まで、さまざまな分野で活用されています。しかし、最適な触媒材料を見つけることは、複雑な量子化学計算と広範な実験テストが必要な困難で長期的なプロセスでした。 持続可能な化学プロセスを作り出すための重要な要素は、特定の化学反応に最適な触媒材料を見つけることです。Density Functional Theory(DFT)などの技術はうまく機能しますが、さまざまな触媒を評価するために多くのリソースが必要となるため、いくつかの制約があります。単一のバルク触媒は多くの表面の向きを持ち、吸着物はこれらの表面のさまざまな場所に付着することができるため、DFT計算だけに頼ることは問題があります。 これらの課題に取り組むために、研究者グループはエネルギー予測のためのTransformerベースのモデルであるCatBERTaを導入しました。CatBERTaは、優れた性能を示すディープラーニングモデルである事前学習済みのTransformerエンコーダをベースに構築されています。その特徴的な点は、人間が理解できるテキストデータを処理し、吸着エネルギー予測のためのターゲット特徴量を追加することができることです。これにより、研究者は人間が理解しやすい形式でデータを提供し、モデルの予測の利用性と解釈性を向上させることができます。 このモデルは、入力テキストの特定のトークンに集中する傾向があります。これは、CatBERTaの注意力スコアの研究から導かれた主要な結論の1つです。これらの指標は、表面に付着する物質である吸着物、触媒の全体的な構成、およびこれらの要素間の相互作用と関連しています。CatBERTaは、吸着エネルギーに影響を与える触媒システムの重要な要素を特定し、重要視することができるようです。 この研究は、吸着配置を説明するための有用な用語として相互作用する原子の重要性を強調しています。吸着物の原子がバルク材料の原子と相互作用する方法は、触媒にとって重要です。興味深いことに、リンクの長さやこれらの相互作用する原子の元素組成などの変数は、吸着エネルギーの正確な予測にほとんど影響を与えません。この結果は、CatBERTaが手元のタスクにとって最も重要な要素を優先し、テキスト入力から最も関連性の高い情報を抽出する可能性があることを示唆しています。 精度の面では、CatBERTaは吸着エネルギーを平均絶対誤差(MAE)0.75 eVで予測することが示されています。この精度は、このような予測を行うために使用される広く使われているグラフニューラルネットワーク(GNN)と比較しても遜色ありません。また、化学的に同じシステムの場合、CatBERTaからの推定エネルギーは、互いに引いた場合に19.3%まで系統的なエラーを効果的に相殺することができます。これは、触媒のスクリーニングと反応性評価の重要な部分であるエネルギーの差の予測の誤りをCatBERTaが大幅に減らす可能性があることを示しています。 結論として、CatBERTaは従来のGNNに対する可能性のある代替手段を提供します。エネルギー差の予測の精度を向上させる可能性を示し、より効果的かつ正確な触媒スクリーニング手続きの開発の道を開くことができるでしょう。

「Hugging Face Transformersを使用したBERT埋め込みの作成」

はじめに Transformersはもともと、テキストを一つの言語から別の言語に変換するために作られました。BERTは、人間の言語を学習し作業する方法に大きな影響を与えました。それはテキストを理解する元々のトランスフォーマーモデルの部分を改良しました。BERTの埋め込みを作成することは、特に複雑な意味を持つ文章を把握するのに適しています。これは、文章全体を調べ、単語のつながり方を理解することで行います。Hugging Faceのtransformersライブラリは、ユニークな文章コードを作成し、BERTを導入するための鍵です。 学習目標 BERTと事前学習モデルの理解を深める。これらが人間の言語との作業にどれだけ重要かを理解する。 Hugging FaceのTransformersライブラリを効果的に使用する方法を学ぶ。これを使用してテキストの特殊な表現を作成する。 事前学習されたBERTモデルからこれらの表現を正しく削除する様々な方法を見つける。これは、異なる言語タスクには異なるアプローチが必要なため重要です。 実際にこれらの表現を作成するために必要な手順を実際に行い、実践的な経験を積む。自分自身でできることを確認する。 作成したこれらの表現を使用して、テキストのソートやテキスト内の感情の把握など、他の言語タスクを改善する方法を学ぶ。 特定の言語タスクにさらに適したように事前学習モデルを調整する方法を探索する。これにより、より良い結果が得られる可能性があります。 これらの表現が言語タスクの改善にどのように使用され、言語モデルの正確性とパフォーマンスを向上させるかを調べる。 この記事はデータサイエンスブログマラソンの一部として公開されました。 パイプラインはトランスフォーマーのコンテキスト内で何を含むのか? パイプラインは、トランスフォーマーライブラリに含まれる複雑なコードを簡素化するユーザーフレンドリーなツールと考えてください。言語の理解、感情分析、特徴の抽出、質問に対する回答などのタスクにモデルを使用することを簡単にします。これらの強力なモデルとの対話を簡潔な方法で提供します。 パイプラインにはいくつかの重要なコンポーネントが含まれます:トークナイザ(通常のテキストをモデルが処理するための小さな単位に変換するもの)、モデル自体(入力に基づいて予測を行うもの)、そしてモデルがうまく動作するようにするためのいくつかの追加の準備ステップ。 Hugging Face Transformersの使用の必要性は何ですか? トランスフォーマーモデルは通常非常に巨大であり、トレーニングや実際のアプリケーションで使用するために取り扱うことは非常に複雑です。Hugging Face transformersは、このプロセス全体を簡単にすることを目指しています。どれほど巨大であっても、どんなTransformerモデルでも、ロード、トレーニング、保存するための単一の方法を提供します。モデルのライフサイクルの異なる部分に異なるソフトウェアツールを使用することはさらに便利です。一連のツールでトレーニングを行い、その後、手間をかけずに実世界のタスクに使用することができます。 高度な機能 これらの最新のモデルは使いやすく、人間の言語の理解と生成、コンピュータビジョンや音声に関連するタスクにおいて優れた結果を提供します。…

感情の解読:EmoTXによる感情と心の状態の明らかにする、新しいTransformer-Powered AIフレームワーク

映画は物語や感情の中でも最も芸術的な表現の一つです。たとえば、「ハッピネスの追求」では、主人公が別れやホームレスなどの低い状況から、一流の仕事を達成するなどの高い状況まで、様々な感情を経験します。これらの強烈な感情は、観客を引き込み、キャラクターの旅に共感することができます。人工知能(AI)の領域でこのような物語を理解するためには、キャラクターの感情や心理状態の変化を監視することが重要です。この目標は、MovieGraphsからの注釈を活用し、シーンを観察し、対話を分析し、キャラクターの感情や心理状態に関する予測を行うことで追求されます。 感情の対象は歴史を通じて幅広く探求されてきました。古代ローマのキケロの四分類から現代の脳研究まで、感情の概念は常に人類の関心を引きつけてきました。心理学者たちは、プルチキの車輪やエクマンの普遍的な顔の表情などの構造を導入することで、さまざまな理論的な枠組みを提供しました。感情は、感情、行動、認知の側面と身体的な状態を包括する心理状態にさらに分類されます。 最近の研究では、Emoticとして知られるプロジェクトが視覚コンテンツの処理時に26の異なる感情ラベルクラスターを導入しました。このプロジェクトは、画像が平和や関与など、同時にさまざまな感情を伝える可能性があることを許容するマルチラベルのフレームワークを提案しました。従来のカテゴリーのアプローチに代わり、この研究では連続的な3つの次元(快感、興奮、支配)も組み込まれています。 正確な感情の予測には、さまざまなコンテキストモダリティを網羅する必要があります。マルチモーダルな感情認識の主要なアプローチには、対話の中での感情認識(ERC)が含まれます。これにより、対話の交換ごとに感情を分類することができます。また、映画クリップの短いセグメントに対して単一の快感-活動スコアを予測するアプローチもあります。 映画のシーンレベルでの操作は、特定の場所で発生し、特定のキャストを含む、30から60秒の短い時間枠内で物語を伝える一連のショットと一緒に作業することを意味します。これらのシーンは個々の対話や映画クリップよりも長い時間を提供します。この目標は、シーン内のすべてのキャラクターの感情と心理状態、およびシーンレベルでのラベルの蓄積を予測することです。時間の長いウィンドウが与えられるため、この推定は自然にマルチラベル分類アプローチにつながります。キャラクターは同時に複数の感情(好奇心と混乱など)を伝える場合がありますし、他者との相互作用による遷移(たとえば、心配から穏やかに変化する)も起こる可能性があるためです。 さらに、感情は心理状態の一部として広く分類されることができますが、この研究では、キャラクターの態度(驚き、悲しみ、怒りなど)から明確に認識できる外部の感情と、相互作用や対話を通じてのみ識別可能な潜在的な心理状態(礼儀、決意、自信、助け)とを区別しています。著者たちは、広範な感情ラベル空間で効果的に分類するためには、マルチモーダルなコンテキストを考慮する必要があると主張しています。そのため、彼らはビデオフレーム、対話の発話、キャラクターの外観を同時に組み込むモデルであるEmoTxを提案しています。 このアプローチの概要は、以下の図に示されています。 https://arxiv.org/abs/2304.05634 EmoTxは、キャラクターごとおよび映画シーンごとに感情を特定するためにTransformerベースのアプローチを使用しています。プロセスは、初期のビデオの前処理と特徴抽出パイプラインから始まり、データから関連する表現を抽出します。これらの特徴には、ビデオデータ、キャラクターの顔、テキストの特徴が含まれます。この文脈では、モダリティ、キャラクターの列挙、および時間的なコンテキストに基づいて区別するための適切な埋め込みがトークンに導入されます。さらに、個々の感情の分類器として機能するトークンが生成され、シーンまたは特定のキャラクターにリンクされます。これらの埋め込まれたトークンは、線形層を使用して組み合わされ、Transformerエンコーダに供給されます。これにより、さまざまなモダリティ間での情報の統合が可能になります。この方法の分類コンポーネントは、以前のTransformerを用いたマルチラベル分類に関する研究から着想を得ています。 「EmoTx」の振る舞いの例は、著者によって公開され、「フォレスト・ガンプ」のシーンに関連しています。以下の図に報告されています。 https://arxiv.org/abs/2304.05634 これは、適切なマルチモーダルデータからビデオクリップに登場する被験者の感情を予測する、新しいAIベースのアーキテクチャ「EmoTx」の概要でした。興味がある場合は、以下に引用されたリンクを参照して詳細をご覧ください。

「AutoGPTQとtransformersを使ってLLMsを軽量化する」

大規模な言語モデルは、人間のようなテキストの理解と生成能力を示し、さまざまなドメインでのアプリケーションを革新しています。しかし、訓練と展開における消費者ハードウェアへの要求は、ますます困難になっています。 🤗 Hugging Faceの主なミッションは、良い機械学習を民主化することであり、これには大規模モデルを可能な限りアクセスしやすくすることも含まれます。bitsandbytesコラボレーションと同じ精神で、私たちはTransformersにAutoGPTQライブラリを統合しました。これにより、ユーザーはGPTQアルゴリズム(Frantar et al. 2023)を使用して8、4、3、または2ビット精度でモデルを量子化して実行できるようになりました。4ビットの量子化ではほとんど精度の低下はなく、推論速度は小規模なバッチサイズの場合にはfp16ベースラインと比較可能です。GPTQメソッドは、校正データセットのパスを必要とする点で、bitsandbytesによって提案された事後トレーニング量子化手法とは若干異なります。 この統合はNvidiaのGPUとRoCm-powered AMDのGPUの両方で利用可能です。 目次 リソース GPTQ論文の簡潔な要約 AutoGPTQライブラリ – LLMの効率的なGPTQの活用のためのワンストップライブラリ 🤗 TransformersでのGPTQモデルのネイティブサポート Optimumライブラリを使用したモデルの量子化 テキスト生成推論を介したGPTQモデルの実行 PEFTを使用した量子化モデルの微調整 改善の余地 サポートされているモデル 結論と最終的な言葉 謝辞…

「Transformerの簡略化:あなたが理解する言葉を使った最先端のNLP — part 3 — アテンション」

「トランスフォーマーは、AIの分野で、おそらく世界中で重大な影響を与えていますこのアーキテクチャはいくつかのコンポーネントで構成されていますが、元の論文は「Attention is All You...」という名前です」

「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers(DiTs)」

機械学習の領域は、トランスフォーマーベースのアーキテクチャの出現により、自然言語処理、コンピュータビジョンなどの各種タスクを革新的に変革しました。しかし、画像レベルの生成モデルである拡散モデルには、依然として注目すべきギャップが存在し、これらのモデルは主に畳み込みU-Netアーキテクチャに従っています。 他のドメインがトランスフォーマーを採用しているのに対し、拡散モデルはまだこれらの強力なアーキテクチャを統合していません。この問題に取り組むため、ニューヨーク大学の研究者はDiffusion Transformers(DiTs)という革新的なアプローチを導入しており、従来のU-Netバックボーンをトランスフォーマーの機能で置き換えることで、拡散モデルのアーキテクチャにおける既存の慣習に挑戦しています。 現在、拡散モデルは洗練された画像レベルの生成モデルとなっていますが、依然として畳み込みU-Netに依存しています。この研究では、Vision Transformers(ViTs)の原則に基づき、拡散モデルにトランスフォーマーを統合するという画期的なコンセプトを紹介しています。この移行により、U-Netデザインの制約を超えた構造変換が推進され、拡散モデルがより広範なアーキテクチャのトレンドに合致し、拡張性、堅牢性、効率性を向上させることが可能になりました。 DiTsはVision Transformers(ViTs)アーキテクチャに基づいており、拡散モデルの設計に新たなパラダイムを提供しています。このアーキテクチャには、空間入力をトークンシーケンスに変換する「パッチ」というキーコンポーネントが含まれています。DiT-SからDiT-XLまでのさまざまなモデルサイズとともに、条件付き情報を処理するDiTブロックのバリアント、および「インコンテキストコンディショニング」、「クロスアテンションブロック」、「適応的レイヤーノルム(adaLN)ブロック」、「adaLNゼロブロック」も含まれています。これらのブロックデザインとモデルサイズのバリエーションは、強力な拡散モデルの設計に対する柔軟なツールキットを構成しています。 https://arxiv.org/abs/2212.09748 実験フェーズでは、さまざまなDiTブロックデザインのパフォーマンスを評価しています。異なるブロックデザインを採用した4つのDiT-XL/2モデルが訓練され、FIDスコアを基準としてadaLN-zeroブロックデザインの一貫した優越性が示され、その計算効率性と条件付けメカニズムのモデル品質への重要な役割が示されました。この発見は、adaLN-zeroの初期化方法の効果を強調し、さらなるDiTモデルの探索におけるadaLN-zeroブロックの採用に影響を与えました。 https://arxiv.org/abs/2212.09748 さらなる探索では、モデルサイズとパッチサイズを操作してDiT構成をスケーリングします。視覚化により、計算能力の拡張によって達成された画質の大幅な向上が示されます。この拡張は、トランスフォーマーの次元を拡張するか、入力トークンを増やすことによって実行することができます。モデルのGflopsとFID-50Kスコアのロバストな相関関係は、計算リソースがDiTのパフォーマンス向上において重要であることを強調しています。ImageNetデータセットの256×256および512×512の解像度で既存の拡散モデルに対してDiTモデルをベンチマークテストすることにより、説得力のある結果が明らかになりました。DiT-XL/2モデルは、両方の解像度のFID-50Kスコアで既存の拡散モデルを一貫して上回り、その堅牢なパフォーマンスは、DiTモデルがさまざまなスケールでの拡張性と柔軟性を持っていることを強調しています。さらに、この研究はDiT-XL/2モデルの固有の計算効率性を強調し、現実世界のアプリケーションにおける実用的な適用性を示しています。 結論として、Diffusion Transformers(DiTs)を導入することは、生成モデルの革新的な時代を告げるものです。トランスフォーマーの力を拡散モデルと融合することにより、DiTsは従来のアーキテクチャの常識に挑戦し、研究と実世界の応用において有望な道を提供します。包括的な実験と結果は、DiTsが画像生成の領域を前進させる潜在能力を強調し、先駆的なアーキテクチャのイノベーションとしての位置を明確にします。DiTsが画像生成の領域を再構築し続ける中で、トランスフォーマーとの統合は、異なるモデルアーキテクチャを統一し、さまざまなドメインでのパフォーマンス向上に向けた注目すべき一歩となります。

「Cheetorと会ってください:幅広い種類の交互に織り交ぜられたビジョン言語の指示を効果的に処理し、最先端のゼロショットパフォーマンスを達成する、Transformerベースのマルチモーダルな大規模言語モデル(MLLMs)」

教示的なスタイルで言語タスクのグループに対する指示のチューニングを通じて、大規模言語モデル(LLM)は最近、さまざまな活動のための汎用モデルとして優れた能力を示しています。指示のチューニングにより、単一の指示応答形式でさまざまなタスクを微調整することで、LLMは新しいタスク指示に対するゼロショットの汎化能力を大幅に開放します。さまざまな実世界のアプリケーションにおける長年の目標を持つこの結果は、テキストのみの指示に従うモデルをマルチモーダルに拡張するための新たな研究の波を刺激しました。この目的を達成するために、FlamingoとBLIP-2は、視覚入力を理解するための凍結されたビジュアルエンコーダをLLMに備えています。モデルの指示に従う能力は、LLaVA、MiniGPT-4、InstructBLIPのフォローアップによるマルチモーダルな指示に従うデータセットの微調整によりさらに強化されています。 このような指示に従うアシスタントの利用可能性は、主にビジョン言語指示に重点を置いたマルチモーダルな大規模言語モデル(MLLM)によって制約されています。これらのモデルは、視覚的な文脈として単一の画像のみを含むビジョン言語指示に主に焦点を当て、指示のバリエーションが限られています。対照的に、人々は現実の生活で関連するメッセージとビジュアルのシリーズを通じて自分のニーズを表現することがよくあります。例えば、人々はオープンドメインの問い合わせに対応するために、さまざまな情報源(視覚的に魅力的なウェブサイト、教科書、クラスのスライドなど)を参照するモデルが必要になる場合があります。異なる写真とテキストが意味的に関連している交互に使用されるビジョン言語指示は、これらの参照および問い合わせを表します。 浙江大学、シンガポール国立大学、南洋理工大学の研究者は、統一された指示応答形式でバリエーション豊かな指示を持つ31のタスクの包括的な大規模ベンチマークであるI4(意味的に関連し、交互に配置された画像テキスト指示に従う)を開発しました。このベンチマークは、20の異なるシナリオをカバーし、交互に配置されたビジョン言語指示の研究を支援するために設計されています。I4には3つの重要な特徴があります。 (1) 指示はすべて、ストーリーボードや図解付きの教科書など、相互に関連する画像と言葉の連続で構成されています。これは交互に配置されたビジョン言語コンテキストとして知られています。 (2) 複雑な指示が多くあります。タスクは、会話に基づく具体的な活動から監視写真の不整合を特定すること、コミックのためのスピーチ予測までさまざまです。 (3) ベンチマークは、漫画、商業イメージ、ドライビング映像、レシピの指示など、さまざまな指示に従うシナリオをカバーしており、提案されたベンチマークを使用して現代のMLLMを体系的に評価し、これらの複雑なマルチモーダル指示を実行するための支援が必要であることが明らかになりました。彼らは、視覚的なプロンプトジェネレータ(VPG)が複雑な指示の理解においてMLLMにとって重要であると主張します。現在のMLLMは主に、より多様で高品質な指示チューニングデータを作成するための洗練された方法を構築することに重点を置いていますが、いくつかのVPG(線形射影、リサンプラー、Q-formerなど)を使用して、ビジョンのバックボーン(ViTなど)に含まれる豊富な画像情報から関連する視覚的な手がかりを抽出し、LLMが視覚入力を理解するように修正します。 凍結されたLLMに対して視覚的な手がかりに基づいたキャプションを提供するように挑戦することで、彼らはVPGを数百万の画像キャプションペアに対してトレーニングします。効率的ではありますが、ウェブクロールされたキャプションは通常、画像の前景の一部しか記述しません。そのため、VPGは通常のキャプションの明白な情報の抽出のみを教授されているため、一部の活動に必要な正確な情報を抽出できない場合があります。さらに、I4では、タスクがコンテキスト内の他の画像に関連する特定の視覚的な詳細に注目するようにVPGを要求するため、この問題は悪化します。 彼らは軽量のControllable Knowledge Re-Injection(CLORI)モジュールを提案しています。このモジュールは、既存のMLLMにおけるVPGの重要な問題を解決するために、LLMの洗練された推論能力を使用してVPG(つまり、Q-former)を制御するために使用されます。より具体的には、彼らはQ-formerを使用して、言語モデルからタスクに依存しない視覚的な手がかりを提供し、LLMに画像に関する重要な情報を与えます。彼らはまず、言語モデルからタスク固有の条件を構築し、Q-formerを制御し、画像から特定の情報を条件付きで抽出します。これらの条件は、LLMに取り込まれます。 内部のクロスアテンションマップを使用して、まずQ-formerが無視した画像の領域を特定します。その後、ChatGPTとSAMを使用して編集対象を識別し、適切な編集説明を生成します。次に、編集指示に従って元の画像に局所的な調整を行い、ブレンドされた拡散を使用してカウンターファクト画像を作成します。その後、作成されたカウンターファクト画像と元の画像の微小な違いを説明するために、画像間の識別的な事前トレーニングタスクが開発されます。CLORIモジュールは、変更されたビットが最も無視されている場所から選択されるため、カウンターファクト画像とタスク指示に基づいて、抜け落ちた視覚情報を抽出する必要があります。 彼らは、調整可能な知識再注入により、さまざまな複雑なビジョン言語指示から包括的な意味を効果的に作成できる、TransformerベースのMLLMであるCheetorを提案しています。軽量なCLORIモジュールは、100万を切る画像テキストペアで効率的にチューニングできます。巨大なマルチモーダル指示調整データを必要とせず、単一のA100 GPUで数時間で完了することができます。彼らのモデルは、計算やデータの効率性を保ちながら、以前のMLLMよりもI4ベンチマークで優れたパフォーマンスを発揮します。さらに、彼らはMMEベンチマークを使用してCheetorを評価し、そのモデルは優れた結果を示します。 以下は彼らの貢献の要約です:(1)彼らは、31のチャレンジからなる干渉するビジョン言語指示の包括的なベンチマークであるI4を構築します。これは幅広い現実世界の設定をカバーしています。 (2)彼らは、最小限に制御された知識再注入(CLORI)モジュールを提供します。これは、LLMが生成した状況に応じて、指示固有の視覚情報をLLMに補完的に再注入します。 (3)わずか30,000枚の画像を使用して、彼らはクロスアテンションガイド付きの反事実的な画像トレーニング手法を使用して、CLORIモジュールを効果的に教育します。 (4)彼らのCheetorは、高品質のマルチモーダル指示調整データがなくても、7つのA100 GPU時間を要する費用で、I4テストで最先端のパフォーマンスを達成します。

Google AIのAdaTapeは、Transformerベースのアーキテクチャを持つ新しいAIアプローチです

先週のブログ投稿で、Google Researchは新たなAIアプローチであるAdaTapeを紹介しましたAdaTapeはトランスフォーマベースのアーキテクチャを使用し、適応的な計算を活用しますAdaTapeは適応的な機能を使用して、計算予算を変調できる弾力性のある入力シーケンスを作成します関連する研究論文によると、AdaTapeは適応性を直接注入します...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us