マルチモーダル言語モデルの解説：ビジュアル指示の調整

マルチモーダル言語モデルの解説：ビジュアル指示の調整 Condensed result マルチモーダル言語モデルの解説

unimodalityからmultimodal LLMsへの移行のための核心的なアイデアとアプローチの紹介

LLMsは、多くの自然言語タスクにおいてゼロショットおよびフューショット学習において有望な結果を示しています。しかし、LLMsは視覚的な推論が必要なタスクでは不利です。一方、SAMのような大視野モデルは、テキストの推論においてLLMsと同じ進歩を達成しました。

Photo by Anne Nygård on Unsplash — 写真 by Anne Nygård on Unsplash

LLMsを知覚的な推論能力と結びつけることは、MLLMと呼ばれる新興の分野に向かって進んでいます。この分野は、各感覚がお互いに補完的であるように、多感覚的な方法で学習することによって、LLMsの堅牢性を向上させるための強力な議論を持っています。ユーザーエクスペリエンスにおいては、マルチモダリティはより高い簡潔さをもたらすことができます。ユーザーは、長い段落で説明する代わりに、モデルに画像を入力するだけで意図をより効果的に表現することができます。

絵は千語に値する — ヘンリク・イプセン

これらの興味深い新興のユースケースの説明として、MiniGPT-4 [1]は手書きのテキストの指示に基づいてウェブサイトを作成したり、魅力的な食べ物の写真を観察することで詳細なレシピを生成したりします。同様に、MM-ReAct [2]は画像キャプショニング、密なキャプショニング、画像タグ付けなどの形で視覚情報をプロンプト内に組み込み、LLMへのフィードに使用します。この技術により、既存のLLMは、視覚条件付きのジョークやミームの理解、視覚的な数学とテキストの推論、空間的な理解と座標理解、視覚的な計画と予測などのために拡張されることができます。

これは、指示調整を使用したマルチモーダルゼロショット学習、およびマルチモーダルインコンテキスト学習を使用したフューショット学習をカバーする一連の記事になります。その後、マルチモーダルCoTと視覚的な推論について説明します。

この記事では、マルチモーダリティの文脈での指示調整の意味について説明し、次の投稿では、マルチモーダルなインコンテキスト学習を使用したフューショット学習について説明します。

instruction tuningを使用したマルチモーダルゼロショット学習

ファインチューニングされたLLMsは、特に分布のシフトの下で未知のタスクに対して限定されたパフォーマンスを示します。しかし、これらのダウンストリームタスクにおいてより一般化するためには、指示のファインチューニングを使用することができます。指示のファインチューニングは、強化学習を使用して事前学習されたLLMを指示のデータセットでファインチューニングする技術です。これに対して、一般的な目的のデータセット（C4など）でLLMsを事前学習し、その後、翻訳（Bart）[5]、コード生成（CodeT5）[4]、パーシング（ReportQL、HydraNet）[6, 7]などのタスク固有のデータセットでファインチューニングすることが一般的でした。

指示の調整は、特定のタスクに合わせるのではなく、タスクの達成に指示に従う方法の一般化理解を学びます。これにより、すべてのタスクに十分な指示が提供された環境で、モデルはより高い一般化能力を持つことができます。

instruction tuningと事前学習-ファインチューニングおよびプロンプティングとの比較 [20]

一方、言語モデルのファインチューニングはデータに飢えており、ドメイン固有のデータが限られている場合には適用しづらくなります。ファインチューニングのための合成データは有望ではありますが、多くの研究がこの手法はバイアスに対して弱く、未知のサンプルへの一般化が不足していることを示しています。プロンプティングは、特に低データ環境においてフューショット学習のパフォーマンスを向上させます。

マルチモーダルな指示データセットの生成

マルチモダリティへの指示のチューニングの際の主要な課題の一つは、データの不足です。マルチモダルな指示データセットを提供するために、研究者は既存のベンチマークを適応させるか、自己指導を行います。Zhuら[9]の研究「MiniGPT-4: Advanced Large Language Modelsを用いたビジョン-言語理解の向上」では、公開されている画像テキストデータセットを使用することで最適なパフォーマンスが得られないことが分かりました。彼らは、一貫性の欠如、反復、断片化された文が言語モデルの対話パフォーマンスに影響を与えると主張しています。そのため、MiniGPT-4では、二段階のアライメントプロセスを採用しています。最初の段階では、最初の事前トレーニング段階から派生したモデルへのプロンプトを使用して、画像の詳細な説明を生成します。彼らは、会話の使用事例に特化したプロンプトを設計して説明を生成します。

###Human: <Img><ImageFeature></Img> この画像を詳細に説明してください。可能な限り多くの詳細を伝えてください。見えるものすべてを言ってください。###Assistant:

ここでの画像特徴は、線形射影層からの特徴を組み込んでいます。出力の長さが80トークンの閾値を下回る場合、会話の前にcontinueが先行します。

###Human: Continue ###Assistant:

このアプローチに従って、彼らはConceptual Captionデータセット[10]から約5,000枚の画像の包括的な説明を生成しました。

生成されたデータセットはまだノイズがあり、後処理が必要です。著者らはChatGPTを使用して、文の不連続性や単語の反復などの問題を除去しました。

与えられた段落のエラーを修正します。繰り返しの文、意味のない文字、英語ではない文などを削除します。不必要な繰り返しを削除します。不完全な文を書き直します。説明せずに直接結果を返します。入力段落が既に正しい場合は、説明せずに直接入力段落を返します。

正確性を検証するために、彼らは画像の説明を手動で評価し、生成されたキャプションを洗練させました。最終的に、品質基準を満たすように生成されたペアのうち約3,500をサブ選択しました。

一方、Liuら[11]はMiniGPT-4とは異なり、ChatGPT/GPT-4を利用してマルチモード指示データセットを提供しました。ChatGPTの文脈には、キャプションとバウンディングボックスからなる象徴的な表現が含まれます。

文脈タイプ1：キャプション黒い車の外に立っている人々のグループ、さまざまな荷物を持っています。地下駐車場で車を囲む荷物人々はSUVにすべての荷物を収めようとしています。スポーツ多目的車は公共の駐車場に駐車され、旅行のために詰め込まれています。荷物を運んでいるバンのそばに荷物を持った人々がいます。

キャプションは異なる視点からシーンを説明し、バウンディングボックスはオブジェクトに関する空間情報を推測します。この文脈を使用して、彼らは3種類の指示データセットを生成します。まず、会話です。これは、画像の内容に関するさまざまな質問のセットを生成することを含みます。プロンプトは、文脈に基づいて自信を持って回答できる質問に制限することも考慮します。

messages = [ {"role":"system", "content": f"""あなたはAIビジュアルアシスタントであり、単一の画像を見ています。あなたが見ているものは、同じ画像についての5つの文章で提供されます。画像を見ているビジュアルAIアシスタントが画像を見て質問に答えるという形で会話を設計してください。多様な質問をして対応する回答をしてください。画像の視覚的なコンテンツに関する質問、オブジェクトの種類、オブジェクトの数え上げ、オブジェクトのアクション、オブジェクトの位置、オブジェクト間の相対位置などを含めてください。確定的な回答ができる質問のみを含めてください：(1) 質問が尋ねている画像の内容が画像に見え、自信を持って答えることができる。(2) 画像から確信を持って画像にはないことがわかる。自信を持って答えられない質問はしないでください。また、画像の内容に関連する複雑な質問も含めてください。たとえば、画像内のオブジェクトの背景知識について尋ねたり、画像内で起こっているイベントについて話し合ったりするような質問です。再び、不確かな詳細については質問しないでください。複雑な質問に答える際には、詳細な例や推論手順を示して、コンテンツをより説得力のあるものにし、整理されたものにしてください。必要に応じて複数の段落を含めることができます。"""})for sample in fewshot_samples:messages.append({"role":"user", "content":sample[‘context’]})messages.append({"role":"assistant", "content":sample[‘response’]} )messages.append({"role":"user", "content":‘\n’.join(query)})

次に、「詳細な説明」と呼ばれるタイプは、画像の包括的な説明を生成することを目指しています。画像が与えられると、事前定義された質問リストからランダムに1つの質問をサンプリングし、詳細な説明を生成します。

• 「以下の画像を詳細に説明してください」• 「与えられた画像の詳細な説明を提供してください」• 「見ている画像の詳細な説明を行ってください」• 「提示された画像の包括的な概要を共有してください」• 「画像の徹底的な分析を提供してください」• 「目の前の画像のさまざまな側面を説明してください」• 「表示された画像の内容を詳細に説明してください」• 「詳細な説明を用いて画像を特徴づけてください」• 「画像の要素を詳細に分解して説明してください」• 「画像の重要な詳細について説明してください」• 「リッチで描写力のある物語で画像を描写してください」• 「画像の内容を正確に物語る」• 「包括的かつ詳細な方法で画像を分析してください」• 「記述的な説明を用いて画像を説明してください」• 「画像を詳細に調べ、その詳細を共有してください」• 「与えられた画像の徹底的な描写を書いてください」

最後に、「複雑な推論」とは、論理に従ったステップバイステップの推論プロセスが必要な深層の質問に答えることを指します。このために、「会話」と似たプロンプトを使用しますが、より推論に重点を置いています。

あなたは、単一の画像を分析できるAIビジュアルアシスタントです。あなたは、観察している同じ画像を説明する5つの文を受け取ります。さらに、画像内の特定のオブジェクトの位置と、詳細な座標が与えられます。これらの座標は、(x1、y1、x2、y2)という形式の境界ボックスとして表され、0から1までの浮動小数点数で表されます。これらの値は、左上のx、左上のy、右下のx、右下のyに対応します。与えられたキャプションと境界ボックスの情報を使用して、画像に関する合理的な質問を作成し、詳細な回答を提供することです。シーンを説明する以上の複雑な質問を作成してください。このような質問に答えるためには、まず視覚的なコンテンツを理解する必要があります。次に、背景知識や推論に基づいて、なぜ事物がそのように起こっているのかを説明するか、ユーザーの要求に対してガイドやヘルプを提供するかを説明する必要があります。視覚的なコンテンツの詳細を質問に含まないようにすることで、質問者がまずそれについて推論する必要があるように、質問を難しくします。境界ボックスの座標を直接言及するのではなく、このデータを自然言語でシーンを説明するために活用してください。オブジェクトの数、オブジェクトの位置、オブジェクト間の相対位置などの詳細を含めてください。キャプションと座標からの情報を使用する場合は、常に画像を直接見ているかのようにシーンを説明してください。

このアプローチにより、会話のサンプル58,000件、詳細な説明のサンプル23,000件、複雑な推論のサンプル77,000件の合計158,000件の言語-画像マルチモーダルデータセットが生成されました。

マルチモーダルな指示データセットを提供するためのもう一つの取り組みは、既存の言語-画像データセットに指示テンプレートを適用することです。XuらによるMultiInstruct[12]は、既に利用可能な54のデータセットから47以上のタスクに関するベンチマークを使用して、物体認識、視覚的な関係理解、テキスト-画像の関連付けなどの基本的なスキルをLLMに学習させるための新しいマルチモーダルな指示データセットを作成しています。

MultiInstructデータセットでは11つの広範なカテゴリがカバーされています。[12]

これらのベンチマークのいくつかが重複している可能性があるため、著者たちは複雑なタスクをより単純なタスクに分解する可能性を考慮しました。

たとえば、Visual Groundingでは、モデルが画像内の特定の領域にキャプションを生成する必要があります。この複雑なスキルに関連する2つの追加のタスクを派生させました。Grounded Caption Selectionは、特定の領域に対して複数の候補の中から対応するキャプションを選択するモデルに必要なより単純なスキルであり、Visual Grounding Selectionは、指定されたキャプションに基づいて提供された候補領域から対応する領域を選択するモデルに必要です[12]。

その後、各タスクごとに2-3人の人間アノテーターが割り当てられ、トレーニングおよび評価のために5つのタスク固有の指示を書きました。指示は、、、の統一された形式で形成されます。ここで、は指示のプレースホルダーであり、は領域固有の情報のプレースホルダーであり、は分類タスクでのみ使用されます[12]。

オッター[13]は、データセット内のコンテキストを使用することを目的として、MMC4から開始します。MMC4は、ウェブページから派生した画像テキストペアと「コンテキスト」を含む残りのページテキストで構成されています。類似の例は、コンテキストの例セットを形成するためにグループ化されます。

要するに、マルチモーダルな命令データセットを提供するための文献中の一般的な手法は、自己指導です。これには、事前に訓練されたネットワークを使用して命令データを生成することが含まれます。一方、他の人々は既存のビジュアルおよびマルチモーダル学習のベンチマークを適応させています。

さらに、データセットの適応とLLMsのファインチューニングのための視覚的な命令データセットの生成後、LLMsにマルチモーダリティを注入するためのインターフェースを作成する必要があります。

LLMsのアーキテクチャを大幅に変更し、ゼロからトレーニングすることは困難で費用がかかるため、ビジュアル埋め込みを注入するためのパラメータ効率の良いファインチューニング[14]と似たような手法の支配を見ることができます。

ソフトプロンプトと射影層は、MiniGPT-4[11]で使用されるPEFTの一つの方法です。MiniGPT-4は、Vicunaを言語デコーダーとし、ViTと事前訓練されたQ-Formerを組み合わせています。

一般的に、ソフトプロンプトとは、特定のタスクに対してバックプロパゲーションを使用して最適化するために、モデルの入力埋め込みにトレーニング可能なテンソルを前置することを指します。このテンソルの長さは、おおよそ1から150のトークンになります。

def soft_prompted_model(input_ids):    x = Embed(input_ids)    x = concat([soft_prompt, x], dim=seq)    return model(x)

ソフトプロンプトの別のバリアントは、プレフィックスチューニングです。前のアプローチとは異なり、トレーニング可能なテンソルはすべてのレイヤーの隠れ状態に前置されます。すべてのレイヤーを直接操作するため、LiとLiang [15]は前置されたテンソルの最適化に不安定性を見つけました。そのため、彼らは直接テンソルをネットワークに前置する前に、中間のFFNを使用しています。

def transformer_block_for_prefix_tuning(x):    soft_prompt = FFN(soft_prompt)    x = concat([soft_prompt, x], dim=seq)    return transformer_block(x)

MiniGPT-4に戻ると、著者たちは、事前訓練されたビジョンエンコーダーの出力をFFNを介してVicunaにソフトプロンプトとして注入します。トレーニングの最初の段階では、ビジョンエンコーダーと言語デコーダーネットワークは凍結され、プロジェクション層のみがトレーニングされます。

@registry.register_model("mini_gpt4")class MiniGPT4(Blip2Base):    def __init__(...):        self.llama_proj = nn.Linear(            self.Qformer.config.hidden_size, self.llama_model.config.hidden_size    )  def encode_img(self, image):          ...      with self.maybe_autocast():          image_embeds = self.ln_vision(self.visual_encoder(image)).to(device)          image_atts = torch.ones(image_embeds.size()[:-1], dtype=torch.long).to(device)            query_tokens = self.query_tokens.expand(image_embeds.shape[0], -1, -1)          query_output = self.Qformer.bert(              query_embeds=query_tokens,              encoder_hidden_states=image_embeds,              encoder_attention_mask=image_atts,              return_dict=True,          )          inputs_llama = self.llama_proj(query_output.last_hidden_state)          atts_llama = torch.ones(inputs_llama.size()[:-1], dtype=torch.long).to(image.device)      return inputs_llama, atts_llama  def forward(self, samples):        image = samples["image"]        img_embeds, atts_img = self.encode_img(image)        if hasattr(samples, 'question_split'):  # VQA dataset            print('VQA Batch')            vqa_prompt = '###Human: <Img><ImageHere></Img> '            img_embeds, atts_img = self.prompt_wrap(img_embeds, atts_img, vqa_prompt)        elif self.prompt_list:            prompt = random.choice(self.prompt_list)            img_embeds, atts_img = self.prompt_wrap(img_embeds, atts_img, prompt)              ...        to_regress_embeds = self.llama_model.model.embed_tokens(to_regress_tokens.input_ids)        inputs_embeds = torch.cat([bos_embeds, img_embeds, to_regress_embeds], dim=1)        attention_mask = torch.cat([atts_bos, atts_img, to_regress_tokens.attention_mask], dim=1)        with self.maybe_autocast():            outputs = self.llama_model(                inputs_embeds=inputs_embeds,                attention_mask=attention_mask,                return_dict=True,                labels=targets,            )        loss = outputs.loss        return {"loss": loss}

この投影層を整列させるために、彼らはほぼ20000のトレーニングステップとバッチサイズ256でConceptual Caption、SBU、LAIONなどの画像テキストペアデータセットを使用し、約500万のサンプルをカバーしています[9]。

同様に、X-LLM [16] は、複数の凍結された単一モードエンコーダ（画像、音声、ビデオ）と凍結されたLLMを、各モダリティに専用のインタフェースを使用して整列させます。また、ソフトプロンプティングの代わりに、Q-Formerを使用して視覚情報を準言語的な埋め込みのシーケンスに変換するための一部として使用します。

画像とビデオモダリティのインタフェースとしてBLIP-2からのQ-Formerを使用し、前述のモダリティを言語に変換するために適応する必要があります。これは、彼らが画像キャプションペアとビデオキャプションペアを使用してモジュールを事前トレーニングするトレーニングの最初のステージで行われます。これらの2つのモダリティは互いに近いため、画像インタフェースのパラメータを再利用し、さらにビデオテキストデータで微調整しました[16]。音声インタフェースでは、音声発話を言語に変換するために[17]で紹介されたCIFメカニズムを使用しました。ただし、BLIP2は英語データを事前トレーニングに使用していましたが、2番目のステージでもうまく機能することがわかりました。その結果、著者はQ-Formerの事前トレーニング済みパラメータを再利用し、音声エンコーダとしてCIFベースのASRモデルのみをトレーニングすることを選択しました。

Q-formerモジュールには、準言語的な埋め込みの次元とLLMの埋め込み次元を整列させるためのアダプタモジュールが付属しています[16]。

2番目のステージでは、各インタフェースモジュールを14百万の中国語の画像テキストペアとAISHELL-2、VSDial-CNデータセットをASRトレーニングデータセットとして、凍結されたLLMにさらに整列させます。

逆に、Otterは視覚と言語情報を接続し、コンテキストの例との間に注意を確立するためのいくつかのクロスゲートアテンション層でトレーニングされ、ビジョンエンコーダと言語デコーダは凍結されました[13]。

Flamingoでは、LLMデコーダによるテキスト生成は、Perceiver Resamplerによって生成された視覚情報の埋め込みに依存しています。これは、ビジョンエンコーダモデルからエンコードされた任意の数の画像またはビデオ特徴を取り、固定サイズの出力を生成して、凍結されたLMブロックを交互に組み合わせたビジョンテキストのクロスアテンションモジュールの複雑さを減らすのに役立ちます。

def gated_xattn_dense(  y, # 入力言語特徴  x, # 入力ビジュアル特徴  alpha_xattn, # xattnゲーティングパラメータ — 0で初期化  alpha_dense, # f fwゲーティングパラメータ — 0で初期化):    # 1. ゲーティング クロスアテンション    y = y + tanh(alpha_xattn) * attention(q=y, kv=x)    # 2. ゲーティング フィードフォワード（dense）レイヤー    y = y + tanh(alpha_dense) * ffw(y)        # 言語に対する通常の自己注意 + FFW    y = y + frozen_attention(q=y, kv=y)    y = y + frozen_ffw(y)return y # 出力されたビジュアル情報を持つ言語特徴

このゲーティング密なクロスアテンションモジュールは、LSTM [19]で使用されるtanhゲーティングメカニズムを使用しています。これは、学習されたalpha_xattnパラメータを介して、注意の結果をyに残差接続から追加することを制御します。初期化時には、注意とffwの出力は単にランダムであり、トレーニングの不安定性を引き起こす可能性があります。一方、ゲーティングメカニズムでは、alphaが0で初期化され、トレーニングの初めには効果がありません。

まとめると、PEFTの痕跡は、LLMを多モダリティに適応させるための主要なアプローチであり、ビジュアル埋め込みはプロンプトに直接表されたり、FlamingoのようにLLMのアーキテクチャがより操作されたりして、より良い精度のためにトレードオフされることがあります。この分野は比較的新しいため、まだ多くの研究が未探索です。

このシリーズの次の投稿では、In-Context Learningを使用したマルチモーダルなフューショット学習に焦点を当てます。

私はCSでより多くの記事を書きます。私と同じくこの業界に情熱を持っていて、私の記事が有益だと思っているなら、VoAGIのフォローボタンを押して会話を続けましょう💬。LinkedInで直接連絡を取ることも遠慮しないでください！

[1] Zhu, D., Chen, J., Shen, X., Li, X., & Elhoseiny, M. (2023). Minigpt-4: 高度な大規模言語モデルを用いたビジョン言語理解の向上. arXiv preprint arXiv:2304.10592.

[2] Yang, Z., Li, L., Wang, J., Lin, K., Azarnasab, E., Ahmed, F., … & Wang, L. (2023). Mm-react: マルチモーダルな推論とアクションのためのChatGPTのプロンプティング. arXiv preprint arXiv:2303.11381.

[3] Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Liu, P. J. (2020). 統一テキストからテキストへの変換トランスフォーマーによる転移学習の限界の探求. The Journal of Machine Learning Research, 21(1), 5485–5551.

[4] Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., … & Zettlemoyer, L. (2019). Bart: 自然言語生成、翻訳、理解のためのシーケンス対シーケンスのノイズ除去プレトレーニング. arXiv preprint arXiv:1910.13461.

[5] Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., … & Zettlemoyer, L. (2019). Bart: 自然言語生成、翻訳、理解のためのシーケンス対シーケンスのノイズ除去プレトレーニング. arXiv preprint arXiv:1910.13461.

[6] Moezzi, S. A. R., Ghaedi, A., Rahmanian, M., Mousavi, S. Z., & Sami, A. (2023). 構造化された放射線報告書の生成における深層学習の応用：トランスフォーマーベースの技術. Journal of Digital Imaging, 36(1), 80–90.

[7] Lyu, Q., Chakrabarti, K., Hathi, S., Kundu, S., Zhang, J., & Chen, Z. (2020). テキストからSQLへのハイブリッドランキングネットワーク. arXiv preprint arXiv:2008.04759.

[8] Ravuri, S., & Vinyals, O. (2019). 条件付き生成モデルの分類精度スコア. Advances in neural information processing systems, 32.

[9] Zhu, D., Chen, J., Shen, X., Li, X., & Elhoseiny, M. (2023). Minigpt-4: 高度な大規模言語モデルを用いたビジョン言語理解の向上. arXiv preprint arXiv:2304.10592.

[10] Changpinyo, S., Sharma, P., Ding, N., & Soricut, R. (2021). Conceptual 12m: ウェブスケールの画像テキストプレトレーニングを推進し、ロングテールのビジュアルコンセプトを認識するためのガイド. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 3558–3568).

[11] Liu, H., Li, C., Wu, Q., & Lee, Y. J. (2023). ビジュアルインストラクションチューニング. arXiv preprint arXiv:2304.08485.

[12] Xu, Z., Shen, Y., & Huang, L. (2022). マルチモーダルゼロショット学習の改善：インストラクションチューニング. arXiv preprint arXiv:2212.10773.

[13] Li, B., Zhang, Y., Chen, L., Wang, J., Yang, J., & Liu, Z. (2023). Otter: コンテキスト内のインストラクションチューニングを備えたマルチモーダルモデル. arXiv preprint arXiv:2305.03726.

[14] Lialin, V., Deshpande, V., & Rumshisky, A. (2023). パラメータ効率なファインチューニングのためのガイド. arXiv preprint arXiv:2303.15647.

[15] Li, X. L., & Liang, P. (2021). プレフィックスチューニング：生成のための連続プロンプトの最適化。arXivプレプリントarXiv：2101.00190。

[16] Chen, F., Han, M., Zhao, H., Zhang, Q., Shi, J., Xu, S., & Xu, B. (2023). X-llm：多様性を外国語として扱うことによる高度な大規模言語モデルのブートストラップ。arXivプレプリントarXiv：2305.04160。

[17] Dong, L., & Xu, B. (2020, May). CIF：エンドツーエンド音声認識のための連続統合アンドファイア。ICASSP 2020–2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6079–6083)。

[18] Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, & Wanrong Zhu. (2023). OpenFlamingo：大規模自己回帰型ビジョン言語モデルのトレーニングのためのオープンソースフレームワーク。

[19] Hochreiter, S., & Schmidhuber, J. (1997). 長短期記憶。ニューラルコンピューティング、9（8）、1735–1780。

[20] Wei, J., Bosma, M., Zhao, V. Y., Guu, K., Yu, A. W., Lester, B., … & Le, Q. V. (2021). ファインチューンされた言語モデルはゼロショット学習者です。arXivプレプリントarXiv：2109.01652。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

chatbotsChatGPTDeep learningLLMVision

Was this article helpful?

93 out of 132 found this helpful

マルチモーダル言語モデルの解説：ビジュアル指示の調整

unimodalityからmultimodal LLMsへの移行のための核心的なアイデアとアプローチの紹介

instruction tuningを使用したマルチモーダルゼロショット学習

マルチモーダルな指示データセットの生成

Was this article helpful?

「Amazon SageMakerに展開された生成AIを使用して創造的な広告を生成する」

「AIを使わない人々の7つの愚かな理由」

機械学習

ChatGPT Vislaプラグインを使用してビデオを作成する方法

「Transformerの簡略化：あなたが理解する言葉を使った最先端のNLP — part 3 — アテンション」

コードのための大規模な言語モデルの構築とトレーニング：StarCoderへの深い探求

一緒にAIを学ぶ - Towards AI コミュニティニュースレター第4号

「チャンドラヤーン3の着陸：AIとセンサーがISROの壮大な月探査を支援」

「検索増強生成によるAIの幻覚の軽減」

マルチモーダル言語モデルの解説：ビジュアル指示の調整

unimodalityからmultimodal LLMsへの移行のための核心的なアイデアとアプローチの紹介

instruction tuningを使用したマルチモーダルゼロショット学習

マルチモーダルな指示データセットの生成

マルチモーダルプロンプトのためのLLMsの適応

Was this article helpful?