Search Results arXiv

ドリームブースと出会う：主体駆動型テキストから画像生成のためのAI技術

四足の友達が外で遊んでいる様子を想像してみてください。または、貴重なショールームで車が展示されている様子を想像してみてください。これらの架空のシナリオを作成するのは特に困難であり、特定の主題（オブジェクトや動物など）のインスタンスを新しいコンテキストで組み合わせる必要があります。最近開発された大規模なテキストから画像へのモデルは、自然言語の説明に基づいて高品質で多様な画像を生成するという驚くべき能力を示しています。このようなモデルの主な利点の1つは、膨大な画像キャプションのコレクションから獲得した堅牢な意味理解を活用できる能力にあります。この意味的な事前知識により、モデルは「犬」といった言葉を、さまざまな犬の表現と関連付けることができます。これには、画像内のさまざまなポーズや文脈の変化を考慮する必要があります。これらのモデルは合成において優れていますが、与えられた基準セットから被写体の外観を忠実に再現することはできず、異なる文脈でこれらの被写体の新しい解釈を生成することもできません。これは、出力ドメインの制約によるものです。そのため、オブジェクトの詳細なテキストの説明でも、異なる外観のインスタンスが生成される可能性があります。これは、あなたがこのようなものを探している場合には望ましくありません。嬉しいニュースは、最近、「テキストから画像への拡散モデル」の「パーソナライズ」を可能にする新しいAIアプローチが導入されたことです。これにより、生成モデルを個々のユーザーの固有の画像生成要件に合わせる新しい方法が実現されます。目標は、モデルの言語-ビジョン辞書を拡張して、新しい単語とユーザーが生成しようとする特定の被写体との関連付けを確立することです。拡張された辞書がモデルに統合されると、ユニークな識別子とともに、被写体セットの新しい写真のようなイメージを合成する能力を獲得します。このプロセスは「マジックフォトブース」として考えることができます。それは、いくつかの被写体画像がキャプチャされ、その後、簡単で直感的なテキストプロンプトによってガイドされて、さまざまな条件とシーンで被写体の写真を生成します。DreamBoothのアーキテクチャは、以下の図に示されています。 https://arxiv.org/abs/2208.12242 形式的には、目標は、少数（約3〜5）の被写体画像が与えられた場合に、モデルの出力ドメインに被写体を埋め込み、ユニークな識別子と共にその合成を可能にすることです。これを実現するために、DreamBoothは珍しいトークン識別子を使用して被写体を表し、事前に学習された拡散ベースのテキストから画像へのフレームワークを微調整します。テキストから画像へのモデルは、入力画像とテキストプロンプトを使用して微調整されます。テキストプロンプトには、ユニークな識別子の後に被写体のクラス名（例：「A [V] dog」）が含まれています。このアプローチにより、モデルは被写体クラスに関する先行知識を利用しながら、クラス固有のインスタンスをユニークな識別子と関連付けることができます。クラス固有の事前保存損失が提案されており、これは言語の変化を防ぎます。言語の変化は、モデルがクラス名（例：「dog」）を特定のインスタンスと誤って関連付ける可能性があるためです。この損失は、モデル内のクラスの埋め込みされた意味的先行知識を活用し、同じクラスの多様なインスタンスの生成を促進します。提案された手法は、被写体の再コンテキスト化、プロパティの変更、オリジナルアートのレンダリングなど、さまざまなテキストベースの画像生成タスクに適用されます。これらのアプリケーションは、以前は困難だったタスクに新しい可能性を開くものです。再コンテキスト化タスクのいくつかの出力例を以下に示します。それぞれの例には、それを達成するためのテキストプロンプトが付いています。 https://arxiv.org/abs/2208.12242 これはDreamBoothの概要であり、主体駆動型テキストから画像を生成するための新しいAI技術です。興味があり、この研究についてさらに詳しく知りたい場合は、以下のリンクをクリックして詳細情報を見つけることができます。

「圧縮が必要ですか？」

最近公開されたタイトル「低リソース」テキスト分類：圧縮器を使用したパラメータフリーの分類手法[1]という論文は、最近、かなりの注目を集めています...

「Human Sketchesが物体検出にどのような役割を果たすことができるのか？スケッチベースの画像検索に関する洞察」

先史時代から、人類はアイデアを伝えたり記録したりするためにスケッチを使用してきました。言語の存在にもかかわらず、スケッチの表現力は比類のないものです。アイデアを紙とペン（またはZoom Whiteboard）でスケッチする必要性を感じる瞬間を考えてみてください。過去10年間、スケッチに関する研究は著しい成長を遂げています。従来の分類や合成などの伝統的なタスクだけでなく、ビジュアル抽象モデリング、スタイル変換、連続ストロークの適合など、よりスケッチに特化したトピックにもさまざまな研究が行われています。また、スケッチを写真分類器に変換するなど、楽しい実用的な応用もあります。しかし、スケッチの表現力の探求は主にスケッチベースの画像検索（SBIR）、特に細粒度のバリアント（FGSBIR）に焦点を当ててきました。たとえば、コレクション内で特定の犬の写真を探している場合、頭の中でその犬の絵をスケッチすることで、それをより速く見つけることができます。驚くべき進歩がなされ、最近のシステムは商業利用に適した成熟度を達成しました。この記事で報告された研究論文では、著者たちは人間のスケッチの潜在能力を活用して、基本的なビジョンタスク、特に物体検出を向上させることを目指しています。提案手法の概要は以下の図に示されています。 https://arxiv.org/abs/2303.15149 目標は、スケッチの内容に基づいてオブジェクトを検出するスケッチ対応の物体検出フレームワークを開発し、ユーザーが視覚的に自己表現できるようにすることです。たとえば、人が「草を食べるシマウマ」といったシーンをスケッチすると、提案されたフレームワークはシマウマの中からその特定のシマウマをインスタンスに基づいた検出を利用して検出することができます。さらに、ユーザーは物体の部分に特定をすることができるようになり、部分に基づいた検出が可能になります。したがって、「シマウマ」の「頭」にだけ焦点を当てたい場合、その望ましい結果を得るためにシマウマの頭をスケッチすることができます。スクラッチからスケッチ対応の物体検出モデルを開発する代わりに、研究者たちはCLIPなどの基盤モデルとすでに利用可能なSBIRモデルのシームレスな統合を実証し、問題をエレガントに解決しています。このアプローチは、モデルの汎化性を活用するとともに、スケッチと写真の間のギャップを埋めるためにSBIRを利用します。これを実現するために、著者たちはCLIPを適応させ、スケッチと写真のエンコーダ（共有SBIRモデル内のブランチ）を作成しました。各モダリティに対して独立したプロンプトベクトルを個別にトレーニングしています。トレーニング中、これらのプロンプトベクトルは、CLIPのViTバックボーンの最初のトランスフォーマーレイヤーの入力シーケンスに追加されますが、残りのパラメータは凍結されます。この統合により、学習されたスケッチと写真の分布にモデルの汎化性を導入します。クロスカテゴリのFG-SBIRのリトリーバルタスクに特化したいくつかの結果が以下に報告されています。 https://arxiv.org/abs/2303.15149 これはスケッチベースの画像検索に関する新しいAI技術の概要でした。この研究に興味があり、さらに詳細を知りたい場合は、以下のリンクをクリックして詳細情報をご覧ください。

「データサイエンティストのためのAI Chrome拡張のトップ10（2023年）」

Grammarly GO 洞察力のあるメモ。コンテキスト、好み、目標を考慮して、高品質なタスクリスト、メモ、推奨事項、およびドラフトを提供するため、それに頼ることができます。今日の高速な環境に遅れをとらないためには、メンタルと組織のスキルを持つことがますます重要です。この努力を支援するために、Grammarly GOをご紹介します。このノートアドオンは、状況、個人の好み、および望ましい結果を考慮して、有用なリスト、メモ、提案、およびドラフトを提供するため、スマートです。大きなプロジェクトの思考を整理したり、いくつかのアイデアをメモしたり、毎日行う必要のある小さなことを追跡したりするために、Grammarly GOが役立ちます。提供されるコンテキストに適したアイデアは、思考を整理し、作業を磨き、より少ない時間でより多くの作業を完了するのに役立ちます。したがって、このアプリケーションは、学生、専門家、著者、思考と業務を適切に整理しようとする人々の素晴らしい相棒です。AIを使用して、通常のメモアプリを超えた個別化されたサポートを提供します。 Sider Chrome拡張機能テキストの取り扱いに優れています。ソフトウェアは、任意の文章を説明したり、翻訳したり、要約したり、書き直したりできます。テキストの処理は、商業から技術まで、さまざまな産業で日常的に行われています。Siderは、このプロセスを支援し、容易にするプログラムです。ソフトウェアは、任意のページを評価し、価値のある情報を迅速かつ正確に判断し、それを抽出することができます。これらの操作は迅速に行われ、取得したデータはCSVファイルやExcelスプレッドシートなどの一般的なスプレッドシート形式で保存され、後で使用することができます。この機能により、さまざまなデータ分析方法やプログラムとの簡単な統合が容易になります。 SciSpace Copilot 科学的研究で提示される表、グラフィック、その他のデータを明確にするツールです。科学的研究の複雑なデータを理解するのに役立つツールを持つことは、重要です。そのため、SciSpace Copilotは、表、チャート、グラフなどの科学論文のすべてのデータを包括的に説明するために開発されました。SciSpace Copilotは、科学に興味のある人々、科学者、学生、または単に好奇心旺盛な一般の人々にとって便利なツールです。このアドオンは、科学的な論文の難解な専門用語や視覚データを解読し、明確な説明を提供します。このアドオンを使用することで、難解な科学的コンテンツを解読する際に時間と労力を節約することができます。 Data Scraper 任意のウェブページを自動的に読み取り、関連する情報を収集し、結果をCSVファイルやExcelスプレッドシートにエクスポートできるプログラムです。今日のデジタル時代において、データの中に金が埋もれていることはよくあります。手作業でこのデータを抽出することは困難で時間がかかる場合があります。そこで、Data Scraperが役立ちます。このプログラムは、任意のページを迅速かつ正確に評価し、価値のある情報を特定し、抽出する自動パーサーです。これらの操作は迅速に完了し、抽出したデータは後で使用するためにCSVやExcelなどの一般的なスプレッドシート形式で保存することができます。この機能により、データ分析のためのさまざまな方法やプログラムとの簡単な統合が容易になります。 Originality.AI Chrome拡張機能与えられたテキストが人間によって書かれたか、ニューラルネットワークによって書かれたかを判断することができる最高のサービスの1つです。ニューラルネットワークがますます人間の文章のように聞こえるテキストを生成するため、人間が生成したコンテンツとAIによって生成されたコンテンツの違いを検出することはますます難しくなっています。Originality.AIは、この問題を解決するための手段です。最高のものの1つであるこのサービスは、与えられたテキストが人間によって作成されたか、ニューラルネットワークによって作成されたかを判断することができます。Originalityは、学術的な不正行為の防止からコンテンツの制御と検証まで、AIの応用は多岐にわたります。 Fireflies Chrome拡張機能 YouTubeの動画を視聴したり、メールを読んだり、文書を要約したりするGPT-4に基づくウェブベースのアシスタントです。デジタルコンテンツの量が増えるにつれて、異なるソースからの情報を選別し、統合することはますます困難になっています。GPT-4プラットフォームに基づいて構築されたFirefliesヘルパーは、この問題に対処します。記事、YouTubeの動画、メール、文書を要約するだけでなく、このアプリケーションはウェブを閲覧することもできます。Firefliesの先進的なAIにより、データを簡単に消化できる要約に分解することができます。Firefliesは、調査学生、業界のトレンドに追いつくプロフェッショナル、さまざまなウェブソースから学ぶことを好む人々など、誰でも利用できる時間を節約するツールです。 Code…

「アノテーターのように考える：データセットのラベリング指示の生成」

最近のAIモデルの進歩には、私たちはみな驚かされています。ジェネレーティブモデルがファンキーな画像生成アルゴリズムから、AIによって生成されたコンテンツとリアルなものを区別することが難しくなるまで、革命的な進化を遂げたことを目の当たりにしました。これらの進歩は、2つの主要な要素によって可能になりました。高度なニューラルネットワーク構造と、おそらくより重要なことは、大規模なデータセットの利用可能性です。例えば、安定した拡散を取り上げましょう。拡散モデルは以前から存在していましたが、それまでにそのような結果を見たことはありませんでした。安定した拡散が非常に強力になった要因は、トレーニングに使用された非常に大規模なデータセットです。ここで言う大規模とは、本当に大規模なものです。50億以上のデータサンプルについて話しています。このようなデータセットの準備は明らかに非常に要求の厳しい作業です。代表的なデータポイントの慎重な収集と監督付きラベリングが必要です。安定した拡散では、これをある程度自動化することができました。しかし、常に人間の要素が絡んできます。ラベリングプロセスは、特にコンピュータビジョンの場合、監督学習において重要な役割を果たし、プロセス全体を成功させるか失敗させるかを左右することができます。コンピュータビジョンの分野では、大規模なデータセットは多くのタスクと進歩の基盤となります。ただし、これらのデータセットの評価と利用は、クラスの所属を定義し、注釈者に指示を与えるためのラベリング指示（LIs）の品質と入手可能性に依存することがしばしばあります。残念ながら、公開されているラベリング指示はほとんどリリースされておらず、コンピュータビジョンの研究における透明性と再現性の欠如につながっています。この透明性の欠如は重要な意味を持ちます。この見落としには重要な意味があり、モデルの評価における課題、注釈のバイアスへの対応、指示ポリシーによって課せられる制約の理解など、重要な影響を及ぼします。このギャップを埋めるために行われた新しい研究が手に入りました。それは「ラベリング指示生成（LIG）タスク」と呼ばれています。 LIGは、公開されている指示のないデータセットに対して情報量の多いアクセス可能なラベリング指示（LIs）を生成することを目指しています。大規模なビジョンおよび言語モデルを活用し、プロキシデータセットキュレータ（PDC）フレームワークを提案することで、この研究は高品質なラベリング指示を生成し、コンピュータビジョンコミュニティのベンチマークデータセットの透明性と有用性を向上させることを目指しています。 LIGの概要。出典: https://arxiv.org/pdf/2306.14035.pdf LIGは、クラスの所属を定義するだけでなく、クラスの境界、同義語、属性、特殊なケースについての詳細な説明も提供する一連の指示を生成することを目指しています。これらの指示は、テキストの説明と視覚的な例の両方で構成され、包括的で情報量の多いデータセットのラベリング指示セットを提供します。 LIsを生成するという課題に取り組むために、提案されたフレームワークはCLIP、ALIGN、Florenceなどの大規模なビジョンおよび言語モデルを活用しています。これらのモデルは、さまざまなタスクで堅牢なパフォーマンスを実現する強力なテキストおよび画像表現を提供します。プロキシデータセットキュレータ（PDC）アルゴリズムフレームワークは、LIGのための計算効率の高い解決策として導入されています。事前学習済みのVLMを活用してデータセットを迅速にトラバースし、各クラスを代表する最良のテキスト-画像ペアを取得することができます。テキストと画像の表現をマルチモーダル融合を介して単一のクエリに縮約することにより、PDCフレームワークは広範で情報量の多いラベリング指示を生成する能力を示しており、広範な手動キュレーションの必要性はありません。提案されたフレームワークは有望な結果を示していますが、いくつかの制約もあります。例えば、現在の焦点はテキストと画像のペアの生成にあり、より表現豊かなマルチモーダル指示については提案されていません。生成されたテキスト指示は、人間によって生成された指示と比べてよりニュアンスが少ない場合がありますが、言語およびビジョンモデルの進歩によってこの制約は解消されると予想されます。さらに、フレームワークには現在、ネガティブな例は含まれていませんが、将来のバージョンではより包括的な指示セットを提供するためにそれらが組み込まれる可能性があります。

「鳩の中に猫を投げ込む？大規模言語モデルによる人間の計算の補完」

「語源学には常に魅了されてきました多くの場合、言葉やフレーズが私たちが非常に馴染んでいる意味を獲得する過程には、興味深いストーリーがあります変化を経て…」

LLMのトレーニングの異なる方法

大規模言語モデル（LLM）の領域では、さまざまなトレーニングメカニズムがあり、異なる手段、要件、目標がありますそれぞれが異なる目的を果たすため、混同しないようにすることが重要です...

「私たちはLLMがツールを使うことを知っていますが、LLMが新しいツールを作ることもできることを知っていますか？ LLMツールメーカー（LATM）としての出会い：LLMが自分自身の再利用可能なツールを作ることを可能にするクローズドループシステム」

大規模な言語モデル（LLM）は、さまざまなNLPタスクで優れた成績を収め、人工一般知能のいくつかの特徴を実現する可能性を示しています。最近の研究では、LLMに外部ツールを補完することで、人間の知能の進化と同様に、問題解決能力と効率を大幅に向上させる可能性が明らかになっています。ただし、適切なツールの利用可能性は、これらのツール使用手順の適用範囲を決定する主要な要素です。これらのマイルストーンから得られた教訓によると、新しい問題を解決するために人々が自分自身のツールを作成できる能力は、人間の発展における重要な転換点でした。この研究では、Google Deepmind、プリンストン大学、スタンフォード大学の研究者が、ツール作成の重要性に触発されたLLMの分野にこの進化的な概念を適用しています。彼らが提案するシステムであるLLMs As Tool Makers（LATM）は、LLMが新しい責任を引き受けるために再利用可能なツールを作成することを可能にします。彼らの戦略は、2つの重要なフェーズで構成されています：1）ツールの作成：ツールビルダーと呼ばれるLLMが、特定のジョブに特化したツール（Python関数として実装される）を作成します。2）ツールの適用：ツールユーザーとして知られる2番目のLLM（ツールを作成した同じ人物である場合があります）が、新しい要求に対処するためにツールを適用します。2段階の設計により、LATMは各ステップで最も適任のLLMに仕事を割り当てることができます。特に、GPT-4のようなパワフルでリソースの多いモデルは、ツール作成プロセスの能力をモデル化することができます。一方、GPT-3.5 Turboのような軽量で手頃なモデルは、ツール使用手順に関連付けられることができ、はるかに簡単です。この方法により、複数のジョブを処理するための平均計算コストが大幅に低下し、LLMの問題解決能力が向上します。特定の機能については、ツール作成手順は一度だけ実行する必要があります。したがって、生成されたツールは複数のタスクインスタンスに適用できます。この方法は、困難な問題に対処するためのスケーラブルで経済的な代替手段を提供します。例えば、ユーザーがLLMに全員に適したミーティングを調整するように依頼するシナリオを考えてみてください（例えば、メールのやり取りを通じて）。GPT-3.5 Turboのような軽量のマシンは、複雑な算術的推論問題を解決するのは頻繁に難しいです。GPT-4のような強力なモデルは、推論コストがはるかに高くなるにもかかわらず、正しい答えを得ることができます。高価なモデルをツールメーカーとして使用し、コスト効果の高いモデルをツールユーザーとして利用することで、LATMはこれらの障壁を乗り越えます。ツールが作成された後、ユーザーはツールを素早く効果的に使用して作業を行うことができます。 https://arxiv.org/abs/2305.17126 このパラダイムは、24ゲームの数独や、解析および特定のデータ形式にオンライン記事をパーズし、さまざまな専門的要件を満たすルーティング計画を作成するなど、他のプロセスの繰り返しの仕事など、よく知られたゲームにも適用できます。彼らはさらに、新しくツールを開発する必要があるか、既存のツールで問題を解決できるかを決定するディスパッチャーという軽量なLLMを追加しています。これにより、彼らのアーキテクチャにはさらなる動的な要素が加わり、リアルタイムでのツールの作成と使用が可能になります。彼らの試験は、さまざまな難しいBig-Benchの問題や一般的な複雑な思考タスクにおけるこの戦略の効果を示しています。その結果、LATMは、よりリソースを多く必要とするモデルと同等の性能を発揮しながら、よりリーズナブルな価格で提供できます。LLMが生成したツールを利用することで、発展途上の社会がエキサイティングな可能性を実現します。このユニークなLLMへのアプローチは、ツールの生成と利用における人間の進化的な飛躍を模倣しています。

新しいAI研究が「方向性刺激プロンプティング（DSP）」を導入：望ましい要約を生成するためにLLMをより適切に導くための新しいプロンプティングフレームワーク

自然言語処理（NLP）は、最近の大規模言語モデル（LLM）の出現により、従来の比較的小さな言語モデル（LM）であるGPT-2やT5 Raffel et al.などを上回る性能を示すようになり、さまざまなNLPタスクでパラダイムシフトを経験しています。プロンプトは、LLMを使用して自然言語の指示を使用してさまざまなタスクを実行するための事実上の方法であり、パラメータの更新なしにLLMを誘導して望ましい出力を生成させるための方法です。これに対して、従来のファインチューニングパラダイムでは、LMのパラメータを各ダウンストリームタスクごとに更新することができます。このプロンプトスキーマにより、LLMはゼロショットまたはフューショットの環境でさまざまなタスクで非常によいパフォーマンスを発揮することができますが、特定のダウンストリームタスクにおけるパフォーマンスはまだ改善が必要であり、特にトレーニングデータが利用可能な場合には追加の改良が必要です。それにもかかわらず、ほとんどのLLMはブラックボックスの推論APIのみを提供し、ファインチューニングにはコストがかかるため、ほとんどのユーザーや研究者はこれらのLLMを直接最適化することはできません。したがって、解決する必要のある難しいトピックは、トレーニングインスタンスが限られている場合にどのように効果的にLLMのパフォーマンスを向上させるか、です。カリフォルニア大学サンタバーバラ校とマイクロソフトの新しい研究では、指向性刺激プロンプティング（DSP）アーキテクチャを提案しています。このアーキテクチャは、小さなチューナブルLM（RL）を使用して、凍結されたブラックボックスLLMをダウンストリームタスクで強化するものです。ソース：https://arxiv.org/pdf/2302.11520.pdf | 図1：通常のプロンプトアプローチと提案された指向性刺激プロンプティングを使用した要約タスクに使用される時間の比較。この例では、キーワードが刺激として使用され、それからLLMによって所望の要約がよりスコアリングスコアや他のメトリック（青色でハイライト表示）で提供されるように指示します。具体的には、各入力テキストに対して、小さなLM（ポリシーLMと呼ばれる）が指示された刺激として一連の離散トークンを提供し、ジョブに対する一般的なキューではなく、入力サンプルに関する特定の情報や指示を提供するように学習します。目的の目標、例えばパフォーマンスメジャースコアの向上などに向けて、作成された刺激は元の入力とブレンドされ、LLMに供給されます。彼らは最初に、収集されたわずかなトレーニングサンプルを使用して、事前トレーニングされたLMを使用した教師ありファインチューニング（SFT）を行います。トレーニングは、ポリシーLMによって生成される刺激に基づいてLLM生成のダウンストリームパフォーマンスメジャーのスコアを最大化することを目指しています。より良い刺激を探索するための追加の最適化の後、洗練されたLMはRLでポリシーLMを初期化します。図1は要約のジョブのサンプルを示しています。キーワードに基づいて必要な要約をLLMに生成させるために、キーワードは刺激（ヒント）として機能します。ポリシーLMは、ROUGEなどの評価メトリックスコアをインセンティブとして使用して最適化することができ、LLMがより良い要約を生成するためにポリシーLMがキーワードを提供するようにします。LLMは優れた生成スキルを持っていますが、しばしば望ましくない振る舞いを示すため、特定のダウンストリームタスクにおいて意図した生成特性と方向に対する詳細なガイダンスが必要です。これが彼らの提案手法の基礎です。小さなポリシーLMは、サンプルごとの細かいガイダンスを意図した目標に向けて提供するための一連のトークンを生成することができますが、人間の話し言葉に似たテキストを生成することはできません。従来の研究がクエリをより明確に説明しようとするプロンプトエンジニアリング/最適化を介して最適なプロンプトを見つけるのに対して、RLは最適化されたオブジェクト（例：刺激を生成する小さなポリシーLM）とLLM生成によって定義される最適化目標とのギャップを埋める自然な解決策を提供します。彼らのアプローチは、各「質問」に対して「ヒント」または「手がかり」を提供しようとするものであり、推論タスクを解決する際に中間の推論ステップを生成することを促すチェーンオブソートプロンプティングとは異なります。彼らのアプローチは、1つの正しい「答え」だけではない生成タスクを対象とし、小さなチューナブルモデルを使用してLLMを制御およびガイドし、要約および対話応答生成タスクでフレームワークを評価しています。たとえば、刺激を作り出す小さなポリシーLMは最適化されたオブジェクトですが、LLMの生成は最適化の目標を決定します。RLはこのギャップを埋めるための簡単な方法を提供します。以前の研究とは異なり、この研究ではプロンプトエンジニアリングや最適化を使用して「質問」を明確にしようと試みます。彼らの戦略は、各「質問」に対して「ヒント」や「手がかり」を提供することを目指しています。また、論理を必要とするタスクを完了する際に、Mindが独自の推論の中間ステップを生成することを奨励するチェーンオブソートプロンプティングとは異なります。彼らの手法は、複数の有効な「応答」を生成するジョブを対象とし、シンプルな調整可能なモデルを使用してLLMを制御・誘導します。ディスカッションの応答や要約の開発を必要とする課題に対して、彼らのフレームワークを評価します。テストでは、750M Flan-T5-largeをポリシーLMとし、175B CodexをLLMとして使用します。テスト結果によると、Codexは調整されたT5が生成した指示に依存すると、下流のタスクでのパフォーマンスが著しく向上します。要約に含まれるべきキーワードは、要約ジョブへの誘導刺激として使用されます。CNN/Daily Mailデータセットから2,000のサンプルを使用してトレーニングされたT5を使用することで、すでにCodexのパフォーマンスは7.2%向上しています。 MultiWOZデータセットからの500の対話に対して、意図された応答の背後の意味を指定する会話アクトを開発するために、彼らはポリシーLMをトレーニングします。ポリシーLMによって生成された対話アクションにより、Codexのパフォーマンスは合計スコアで52.5%向上しました。これにより、以前の完全なトレーニングデータ（8438の対話）でトレーニングされたシステムと同等またはそれ以上の性能を発揮します。

ReLoRa GPU上で大規模な言語モデルを事前学習する

ReLoRaは、各イテレーションごとにわずかな訓練可能なパラメータのみを活性化させながら、LoRaをリセットして事前学習を可能にする方法です

Learn more about Search Results arXiv - Page 20