Learn more about Search Results Go - Page 16
- You may be interested
- 「私のデータサイエンスキャリアの2年後に...
- 機械学習の時代がコードとして到来しました
- データ、効率化された:より良い製品、ワ...
- 「多変量カテゴリデータを処理するためのP...
- デジタルアイデンティティを保護する方法
- 『Amazon SageMaker を使用して、Talent.c...
- アップステージがSolar-10.7Bを発表:一回...
- 「OpenAI APIを使用して、大規模な言語モ...
- このAI論文は、大規模言語モデルに対する...
- ランチェーン101:パート2c PEFT、LORA、...
- Terraformのインポート:それは何か、そし...
- アリババの研究者たちは、ChatGPTのような...
- 2023年6月のVoAGIトップ投稿:GPT4Allは、...
- 「LMQLに出会ってください:大規模言語モ...
- 「エンベッドチェーンの実践」
ウェイブは、LINGO-1という新しいAIモデルを開発しましたこのモデルは、運転シーンにコメントをすることができ、質問に対しても回答することができます
検出と診断は、車両の運用効率、安全性、安定性を改善するために不可欠です。近年、利用可能な車両データを使用して車両診断プロセスを改善するためのデータ駆動型の手法について、さまざまな研究が行われており、さまざまなデータ駆動型の手法が顧客サービスエージェントのインタラクションを向上させるために使用されています。 自然言語は、自律走行システムにおいて人間との車両間相互作用や歩行者や他の道路利用者との車両間コミュニケーションにおいて重要な役割を果たします。安全性、ユーザーエクスペリエンス、人間と自律システムの効果的な相互作用を確保するために必要です。設計は明確で、文脈を理解しやすく、ユーザーフレンドリーである必要があります。 自動運転技術企業「Wayve」は機械学習を使用して自動運転の課題を解決し、高度な詳細な地図やプログラムされたルールを必要とする高価かつ複雑なロボットスタックの必要性を排除しています。彼らはオープンループドライブコメンテータ「LINGO – 1」を立ち上げました。この技術は、明示的なプログラミングなしでどんな環境や新しい場所でも経験から学習して運転することができます。 LINGO-1は、使用者が選択肢を問いただし、シーンの理解と意思決定に対する洞察を得ることで、有意義な対話に参加することができます。さまざまな運転シーンに関する質問に答えたり、運転の意思決定に影響を与えた要因を明確にしたりすることができます。乗客と自動車の間のこのユニークな対話は透明性を高め、人々がこれらのシステムを理解し信頼するのを容易にすることができます。 LINGO-1は、カメラやレーダーからのデータ入力をハンドル操作や減速などの運転出力に変換することができます。ニューラルネットワークの意思決定は、パフォーマンスに対して徹底的にテストされ、堅牢に統合されて使用者の安全性を確保します。LINGO-1は、イギリス中を走行しながらエキスパートドライバーのコメントを収集した画像、言語、アクションデータを組み込んだスケーラブルで多様なデータセットで訓練されています。 LINGO-1は、信号待ちでの減速、車線変更、交差点での他の車両の接近による停止、他の道路利用者の選択した行動の分析など、さまざまな活動を行うことができます。人間レベルのパフォーマンスと比較して、LINGO-1は60%の正確さです。その結果は、認識や質問応答の能力、運転スキルなどを測定したベンチマークに基づいています。 LINGO-1には、モデルの能力を向上させるフィードバックメカニズムもあります。運転教官が学生ドライバーを指導するように、修正指示やユーザーフィードバックは、モデルの理解力や意思決定プロセスを時間とともに磨くことができます。最後に、自然言語を使用して基礎となる運転モデルの学習と説明可能性を向上させるための重要な第一歩となります。
「Google DeepMind Researchがニューラルネットワークにおける理解現象の謎を探求:記憶と一般化の相互作用を明らかにする」
ニューラルネットワークが学習し一般化するという従来の理論は、ニューラルネットワークの中でのグロッキングの発生によって検証されています。ニューラルネットワークがトレーニングされている間、トレーニング損失が低くなり収束するにつれて、テストデータ上のネットワークのパフォーマンスも向上することが期待されますが、最終的にはネットワークの振る舞いは安定します。ネットワークは最初はトレーニングデータを記憶しているように見えますが、グロッキングによって、トレーニング損失は低く安定したままでありながら、一般化が不十分な結果となります。驚くべきことに、より多くのトレーニングを行うことで、ネットワークは完璧な一般化へと進化します。 ここで疑問が生じます。なぜ、ほとんど完璧なトレーニングパフォーマンスを達成した後でも、ネットワークのテストパフォーマンスはさらなるトレーニングによって劇的に改善するのでしょうか?ネットワークは最初に完璧なトレーニング精度を達成しますが、一般化が不十分であり、その後のトレーニングで完璧な一般化に変換されます。この振る舞いこそがニューラルネットワークにおけるグロッキングです。最近の研究論文で、研究チームは、ネットワークが学習しようとしているタスク内に2つの種類の解が共存していることに基づいてグロッキングの説明を提案しました。解は次のようになります。 一般化解:このアプローチでは、ニューラルネットワークは新しいデータに対して一般化するのに適しています。パラメータのノルム、すなわちネットワークのパラメータの大きさが同じである場合、より大きなロジットまたは出力値を生成することができます。この解は学習が遅く効率が高い特徴を持っています。 記憶解:このアプローチでは、ネットワークはトレーニングデータを記憶し、完璧なトレーニング精度を達成しますが、一般化は効果的ではありません。記憶回路は新しい情報を迅速に取り込むことができますが、同じロジット値を生成するにはより多くの入力が必要です。 研究チームは、記憶回路はトレーニングデータセットのサイズが増えるにつれて効果が低下する一方、一般化回路にはほとんど影響がないことを共有しています。これは、一般化と記憶回路の両方が同じくらい効果的なデータセットサイズ、つまりクリティカルデータセットサイズが存在することを意味します。研究チームは、次の4つの革新的な仮説を検証し、その説明を強力な証拠で支持しています。 著者らは、ネットワークが最初に入力を記憶し、次第に一般化を強調することでグロッキングが起こると予測し、実証しました。この変化により、テスト精度が向上します。 彼らは、記憶と一般化の回路の効果が同等であるクリティカルデータセットサイズの概念を提案しました。このクリティカルサイズは学習プロセスで重要なステージを表しています。 アングロッキング:最も予想外の発見の1つは、「アングロッキング」という現象の発生です。ネットワークが重要なデータセットサイズよりもはるかに小さいデータセットでトレーニングを続けると、完璧なテスト精度から低いテスト精度に逆戻りします。 セミグロッキング:この研究では、セミグロッキングという概念が導入されています。これは、記憶と一般化の回路の効果がバランスの取れたデータセットサイズでトレーニングされたネットワークが、完璧なテスト精度ではなく部分的なテスト精度を達成した後に位相転移を経ることを示しています。これにより、ニューラルネットワーク内のさまざまな学習メカニズムの微妙な相互作用が示されます。 結論として、この研究はグロッキング現象の徹底的かつ独自の説明を提供しています。それは、ネットワークの振る舞いに影響を与える重要な要素が、メモリと一般化の解の共存、およびこれらの解の効果であることを示しています。したがって、予測と経験データを提供することにより、ニューラルネットワークの一般化とそのダイナミクスをより理解することができます。
「アメリカがGoogleの検索支配に挑戦する」
Googleの検索支配は、2019年に始まったビッグテックへの取り締まり以来、最大の米国反トラスト訴訟で審理されています
「Google AIの新しいパラダイムは、多段階の機械学習MLアルゴリズムの組成コストを削減して、強化されたユーティリティを実現する方法は何ですか」
今日のデータ駆動型の環境では、機械学習やデータ分析アルゴリズムの有用性を最大化しながらプライバシーを確保することが重要な課題となっています。複数の計算ステップによるプライバシー保証の劣化である合成のコストは、大きな障害となっています。基礎研究の進展や差分プライバシーの導入にもかかわらず、プライバシーと有用性の適切なバランスを取ることは未だに困難です。 DP-SGDなどの既存の手法は、機械学習モデルのトレーニング中にプライバシーを保護する面で進歩を遂げています。しかし、これらの手法はトレーニング例をミニバッチにランダムに分割することに依存しており、データに依存した選択が必要なシナリオでは効果が制限されます。 Reorder-Slice-Compute (RSC) パラダイムは、STOC 2023で発表された画期的な開発です。この革新的なフレームワークは、適応的なスライス選択を可能にし、合成コストを回避します。順序付けられたデータポイント、スライスサイズ、差分プライバシーアルゴリズムを特定の構造に従わせることにより、RSCパラダイムはプライバシーを犠牲にすることなく有用性を向上させる新たな可能性を切り開きます。 広範な研究と実験から得られた指標は、RSCパラダイムの威力を示しています。従来の手法とは異なり、RSC解析はステップ数に依存しないため、全体的なプライバシー保証は単一ステップと同等です。この突破は、基本的な集計や学習タスクにおけるDPアルゴリズムの有用性を大幅に向上させます。 RSCパラダイムの注目すべき応用の一つは、プライベートな区間点問題の解決です。スライスの選択と新たな解析を組み合わせることで、RSCアルゴリズムはlog*|X|の順序でプライバシーを保護する解を実現し、従来のDPアルゴリズムの大きな障害を克服します。 RSCパラダイムは、プライベートな近似中央値や軸に平行な長方形の学習など、一般的な集計タスクにも取り組んでいます。特定の問題に適したRSCステップのシーケンスを利用することで、アルゴリズムは誤ラベルのある点を制限し、正確かつプライベートな結果を提供します。 さらに、RSCパラダイムは機械学習モデルのトレーニングに革新的なアプローチを提供します。トレーニング例のデータ依存的な選択順序を許容することで、DP-SGDとシームレスに統合し、合成によるプライバシーの劣化を排除します。この進歩は、実稼働環境におけるトレーニングの効率を革新するものとなるでしょう。 まとめると、Reorder-Slice-Compute (RSC) パラダイムは、データ駆動型環境におけるプライバシーと有用性のバランスを取るという長年の課題に対する画期的な解決策です。その独自の構造と新しい解析は、さまざまな集計や学習タスクにおいて新たな可能性を開拓することを約束します。RSCパラダイムは、合成コストを排除することで、より効率的かつプライバシーを保護した機械学習モデルのトレーニングを実現します。このパラダイムシフトは、ビッグデータの時代における頑健なデータプライバシーの追求において重要な瞬間を迎えるものです。
GoogleのAI研究者がMADLAD-400を紹介:419の言語をカバーする2.8TトークンWebドメインデータセット
自然言語処理(NLP)の常に進化する分野では、機械翻訳や言語モデルの開発は主に英語などの豊富なトレーニングデータセットの利用可能性によって推進されてきました。しかし、研究者や実践者にとって重要な課題の一つは、より一般的に話されていない言語のための多様で高品質なトレーニングデータの必要性です。この制約は、世界中のさまざまな言語コミュニティにおけるNLP技術の進展を阻害しています。この問題に着目し、独自の研究チームが解決策を創出するために立ち上がり、それがMADLAD-400の誕生に繋がりました。 MADLAD-400の重要性を理解するためには、現在の多言語NLPデータセットの状況を先に検討する必要があります。研究者は長い間、多くのソースからウェブスクレイピングされたデータを機械翻訳や言語モデルのトレーニングに利用してきました。この手法はオンラインコンテンツが豊富な言語に対しては驚異的な結果を生み出しましたが、一般的でない言語に対しては不十分です。 MADLAD-400の研究チームは、この従来の手法の制約を認識しました。彼らはウェブスクレイピングだけに頼らないことの重要性を理解していました。代わりに、419の言語で広範な手動のコンテンツ監査を行うことで、MADLAD-400の作成に取り組みました。 監査プロセスは容易なものではありませんでした。研究チームは、さまざまな言語に堪能な個人の専門知識を必要とし、言語の枠組みを超えてデータの品質を慎重に検査し評価しました。このハンズオンアプローチにより、データセットは最高品質基準を満たすことが保証されました。 研究者たちはまた、監査プロセスを詳細に文書化しました。この透明性は、データセットの利用者にとって貴重であり、データ品質を保証するために取られた手順に対する洞察を提供します。この文書は、科学研究における再現性の重要な原則を守るためのガイドと基盤となります。 手動の監査に加えて、研究チームはデータ品質をさらに向上させるためのフィルターやチェックを開発しました。著作権物、ヘイトスピーチ、個人情報などの問題のあるコンテンツを特定し対処しました。このデータクリーニングへの積極的なアプローチにより、望ましくないコンテンツがデータセットに含まれるリスクが最小限に抑えられ、研究者たちは自信を持って取り組むことができます。 さらに、MADLAD-400は、研究チームの包括的な取り組みを示すものです。これは、多様な言語を網羅し、NLP研究でしばしば代表されない言語コミュニティに声を与えるものです。MADLAD-400は、メインストリームを超えた言語を含むことにより、包括的で公正なNLP技術の開発の道を開きます。 MADLAD-400の作成とキュレーションはそれ自体で印象的な成果ですが、このデータセットの真の価値はその実用的な応用にあります。研究チームは、MADLAD-400の効果を示すために広範な実験を行いました。 その結果は明確です。MADLAD-400は、さまざまな言語にわたって翻訳の品質を大幅に向上させ、機械翻訳の分野を進化させる可能性を示しています。このデータセットは、言語の壁を超え、言語の分断を取り除き、コミュニケーションを促進するモデルのトレーニングに堅固な基盤を提供します。 総じて、MADLAD-400は、多言語自然言語処理における画期的な成果です。入念なキュレーションと包括性への取り組みにより、このデータセットは重要な課題に対応し、研究者や実践者に言語の多様性を受け入れる力を与えます。これは、言語技術がグローバルな観客に対応する未来に向けた進歩の兆しとなります。
「Google DeepMindの研究者たちは、PROmptingによる最適化(OPRO)を提案する:大規模言語モデルを最適化器として」
人工知能の分野では、自然言語処理、自然言語生成、自然言語理解、およびコンピュータビジョンなどのサブフィールドがますます人気を集めています。最近注目を浴びている大規模言語モデル(LLM)は、最適化のための最適化器として使用されています。その能力は最適化手法の向上のために自然言語の理解に利用されています。最適化はさまざまな産業やコンテキストで実用的な意味を持っています。派生ベースの最適化手法は、さまざまな問題をうまく処理することが実証されています。 これには、グラデーションが現実的な状況では時々しか利用できない場合があるため、困難な問題が生じます。この問題に対処するために、Google DeepMindの研究者チームは、Optimisation by PROmpting (OPRO) と呼ばれる独自のアプローチを提案しました。LLMを最適化器として使用することで、OPROは直感的で非常に強力な技術を提供します。この場合、主な新しさは、最適化タスクを表現するために日常言語を使用することで、プロセスがより簡単でアプローチしやすくなることです。 OPROは、最適化問題の自然言語での説明を提供することから始まります。これにより、問題が複雑な数式ではなく簡単な言語で表現されるため、理解しやすくなります。次に、反復的な解生成が提供されます。LLMは、与えられた自然言語プロンプトに基づいて、各最適化ステップごとに新しい候補解を作成します。このプロンプトは重要であり、以前に作成された解とそれに関連する値の詳細を含んでいます。これらの従来のオプションは、さらなる開発の出発点として機能します。 更新および評価された解が開発され、そのパフォーマンスまたは品質が評価されます。次の最適化ステップのプロンプトには、これらの解が検査された後に含まれます。反復プロセスが進むにつれて、解は徐々に改善されます。OPROの有効性を示すために、いくつかの実用的な例が使用されています。最初に、OPROは2つのよく知られた最適化問題、線形回帰問題と巡回セールスマン問題に取り組むために使用されました。これらの問題は顕著であり、手法の有効性を評価するための基準となります。OPROは、これらの問題に対して優れた解を見つける能力を示しました。 次に、OPROはプロンプトの最適化に使用されました。OPROは、特定の最適化問題に対処するだけでなく、プロンプト自体の最適化にも取り組んでいます。タスクの精度を向上させる指示を見つけることが目標です。特に自然言語処理を含むタスクでは、プロンプトの構造と内容が結果に大きな影響を与えることがあります。 チームは、OPROによって最適化されたプロンプトが一貫して人間が作成したものよりも優れていることを示しました。ある例では、OPROはBig-Bench Hardのワークロードのパフォーマンスを驚異的な50%向上させ、GSM8Kベンチマークでは最大8%向上させました。これは、OPROが最適化結果の改善において非常に大きな潜在能力を持っていることを示しています。 結論として、OPROは大規模言語モデルを利用した最適化の革新的な手法を提案しています。OPROは、最適化問題を通常の言語で説明し、解を繰り返し生成および改善することで、一般的な最適化問題の解決とプロンプトの改善において、従来の手法に比べて著しいパフォーマンスの向上を示しています。特に、グラデーション情報が利用できないか収集が困難な場合には、その効果が顕著です。
Google AIは、TPUを使用して流体の流れを計算するための新しいTensorFlowシミュレーションフレームワークを導入しました
流体力学では、数値技術とアルゴリズムを用いて流体の流れと熱伝達の挙動を調べ、解決する問題を計算流体力学(CFD)として知られています。これはさまざまな科学的および産業的な領域で使用されます。さまざまな学術的および産業的な領域で計算流体力学(CFD)が使用されています。エネルギーセクターでは、効率的な風力タービンや発電プラントの設計に、製造業では混合や化学プロセスに、環境科学では海洋学や天気予報に、土木工学では構造解析や洪水モデリングに、建築業界では省エネビルの設計に適用されます。また、航空宇宙および自動車工学においては、空力およびエンジン性能向上に応用されています。 計算アルゴリズム、物理モデル構築、データ分析の卓越した進歩により、これらの機能が可能になりました。さらに、高性能コンピューティング(HPC)システムの利用可能性、速度、効率は、複雑な物理プロセスを考慮し、解像度を高めた高忠実度の流れシミュレーションを可能にしました。 これらの現象をよりよく理解するために、乱流の研究は環境および工学の流体流れにおいて普遍的です。直接数値シミュレーション(DNS)は、近似や簡略化なしで不安定な三次元流れ場を正確に描写するために有用であり、これらの乱流流れを理解するのに役立ちます。魅力的ではありますが、このようなシミュレーションには、正確にさまざまな地理的スケールで流体流れのパターンを描写するための多くの処理能力が必要です。 そこで、研究者たちはTPUで流体流れの計算を可能にするシミュレーション形式を開発しました。研究者たちは、TPUハードウェア設計とTensorFlowソフトウェアの最先端の進歩を活用して、このフレームワークを作り上げました。彼らは、このフレームワークが問題のサイズに適応する効率的なスケーラビリティを示し、ランタイムパフォーマンスを向上させることを強調しました。 このフレームワークでは、グラフベースのTensorFlowをプログラミングパラダイムとして使用しています。このフレームワークの正確性とパフォーマンスは、TPUネイティブの単精度浮動小数点演算の影響に特に焦点を当てて、数値的および解析的に研究されています。アルゴリズムと実装は、典型的な2Dおよび3Dのテイラー・グリーン渦のシミュレーションで検証されています。 CFDソルバーの開発を通じて、理想化されたベンチマーク問題が頻繁に利用されてきましたが、その多くはこの研究に取り込まれています。乱流解析のための必要なベンチマークの1つは、均質等方性乱流です(統計的な性質、例えば運動エネルギーなどが座標軸の平行移動や回転に対して不変であるという特徴のある流れ)。研究者たちは、80億のポイントを持つ高解像度のグリッドを適用しました。 研究者たちは、乱流流れのシミュレーション能力を調査しました。これを達成するために、2つの特定の構成についてシミュレーションを実施しました:減衰する均質等方性乱流および乱れた平面ジェット。研究者たちは、両方のシミュレーションがベンチマークの解答と強力な統計的合意を示すことを発見しました。 研究者たちはまた、2Dおよび3Dのテイラー・グリーン渦流、減衰する均質等方性乱流、乱れた平面ジェットを含む4つの異なるテストシナリオを使用しました。シミュレーション結果は、丸め誤差が解に影響を与えないことを示し、2次精度のレベルであることを示しました。
Google AIは、高いベンチマークパフォーマンスを実現するために、線形モデルの特性を活用した長期予測のための高度な多変量モデル、TSMixerを導入します
近年、正確な時系列予測の重要性は、多くの現実世界のアプリケーションにおいて極めて重要となっています。需要トレンドの予測やパンデミックの拡大の予測など、正確な予測を行う能力は貴重です。多変量時系列予測には、ユニバリエートモデルとマルチバリエートモデルの2つのカテゴリが登場しています。ユニバリエートモデルは、シングル変数時系列データのトレンドや季節パターンをキャプチャすることに焦点を当てています。しかし、最近の研究では、マルチバリエートモデルはその有望さにもかかわらず、長期の予測ベンチマークにおいてシンプルなユニバリエート線形モデルに劣ることが明らかになりました。これは、クロスバリエート情報の効果や、そのような情報が有益でない場合にマルチバリエートモデルがそれでも自己を維持できるかについての重要な問題を提起しています。 時系列予測の領域では、最近、Transformerベースのアーキテクチャがシーケンスタスクにおいて優れたパフォーマンスを発揮したことから、その存在が広まってきました。しかし、長期の予測ベンチマークにおけるそのパフォーマンスは、よりシンプルな線形モデルと比較してその効果に疑問を投げかけています。そこで、Google AIチームによって画期的な解決策が提案されました。それがTime-Series Mixer(TSMixer)です。ユニバリエート線形モデルの利点を綿密に分析した後に開発されたTSMixerは、大きな飛躍を遂げました。線形モデルの強みを活かしながら、クロスバリエート情報を効率的に組み込むことで、長期の予測ベンチマークにおいて最高のユニバリエートモデルと同等のパフォーマンスを発揮するモデルとなりました。 線形モデルとTransformerの間の重要な違いの1つは、時間パターンのキャプチャ方法です。線形モデルは、固定された時間ステップに依存した重みを使用して静的な時間パターンをキャプチャするため、このようなパターンの学習に非常に効果的です。一方、Transformerは、データに依存した動的な重みを持つアテンションメカニズムに基づいており、動的な時間パターンをキャプチャし、クロスバリエート情報の処理を可能にしています。TSMixerアーキテクチャは、これら2つのアプローチを組み合わせることで、時間線形モデルの能力を保持しながら、クロスバリエート情報の力を利用しています。 メトリクスは嘘をつかないし、TSMixerの場合は結果が物を言います。電力、交通、天候などを含む7つの人気のある長期予測データセットで評価された結果、TSMixerは他のマルチバリエートモデルやユニバリエートモデルに比べて平均二乗誤差(MSE)で大幅な改善を示しました。これは、精度と洞察力を持って設計されたマルチバリエートモデルが、ユニバリエートモデルと同等の性能を発揮することを示しています。 結論として、TSMixerはマルチバリエート時系列予測の領域における画期的な瞬間を象徴しています。線形モデルとTransformerベースのアーキテクチャの利点を巧みに組み合わせることで、他のマルチバリエートモデルを凌駕するだけでなく、最先端のユニバリエートモデルと肩を並べることができます。時系列予測の分野が進化し続ける中、TSMixerはさまざまな領域でアプリケーションを革新することができるより強力で効果的なモデルの道を開拓しています。
「Google Researchが探求:AIのフィードバックは、大規模な言語モデルの効果的な強化学習において人間の入力を置き換えることができるのか?」
人間のフィードバックは、機械学習モデルを改善し最適化するために不可欠です。近年、人間のフィードバックからの強化学習(RLHF)は、大規模な言語モデル(LLM)を人間の好みに合わせるのに非常に効果的であることが証明されていますが、高品質の人間の好みのラベルを収集するという重要な課題があります。Google AIの研究者たちは、研究の中でRLHFとAIフィードバックからの強化学習(RLAIF)を比較しようと試みました。 RLAIFは、人間のアノテーターに頼らずに事前に訓練されたLLMによって優先順位が付けられる技術です。 この研究では、研究者たちは要約タスクの文脈でRLAIFとRLHFを直接比較しました。彼らは、テキストが与えられた場合に2つの候補応答の優先順位ラベルを提供することを課されました。これには、市販の大規模言語モデル(LLM)を利用して推測された優先順位に基づいて報酬モデル(RM)をトレーニングし、対照的な損失を組み込むことが含まれています。最後のステップでは、強化学習の技術を用いてポリシーモデルを微調整することが求められました。上記の画像は、RLAIF(上)とRLHF(下)を示すダイアグラムを示しています。 上記の画像は、Redditの投稿に対してSFT、RLHF、RLAIFのポリシーによって生成された例の要約を示しています。SFTはキーポイントを捉えることができず、RLHFとRLAIFはより高品質の要約を生成しました。 この研究で示された結果は、次の2つの異なる方法で評価された場合に、RLAIFがRLHFと同等のパフォーマンスを達成していることを示しています: まず、RLAIFとRLHFのポリシーはそれぞれの場合において、監視された微調整(SFT)ベースラインよりも人間の評価者から好意を受け取ったことが71%と73%のケースで観察されました。重要なことに、統計分析によって2つのアプローチ間の勝率に有意差は見られませんでした。 次に、RLAIFとRLHFによって生成された結果を直接比較するように人間に求めた場合、両方に対して同等の好みが表明され、それぞれの方法について50%の勝率となりました。これらの結果から、RLAIFは人間の注釈に依存せず、魅力的なスケーラビリティ特性を持つRLHFの代替手段であることが示唆されます。 この研究では要約タスクのみを探求しており、他のタスクへの一般化についてのオープンな問題が残されています。さらに、この研究では、費用対効果の観点から人間のラベリングと比較して大規模言語モデル(LLM)の推論がどれほど費用対効果があるかの推定は含まれていません。研究者は将来的にこの領域を探求することを望んでいます。
UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています
GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル(LLM)の一部の例です。インコンテキスト学習、コード作成、常識的な推論といった新しいスキルが表示されます。最近の取り組みは、LLMを視覚と言語のデータを同時に処理できるようにトレーニングすることです。GPT4、Flamingo、PALIは、VLMの3つの優れた例です。それらは、ピクチャーキャプショニング、ビジュアルクエスチョンアンサリング、オープンボキャブラリ認識などの多くのタスクにおいて新たな基準を確立しました。最先端のLLMは、テキスト情報検索に関するタスクで人間よりも優れた成績を収めますが、最先端のVLMは、Infoseek、Oven、OK-VQAなどの視覚情報検索データセットに苦戦しています。 さまざまな理由から、現在の最先端のビジョン言語モデル(VLM)は、そのような問い合わせに十分な応答をすることは困難です。子供たちは、画像の細かいカテゴリや詳細を認識することを学ぶ必要があります。第二に、彼らの推論はより堅牢でなければなりません、なぜなら彼らは最新の大規模言語モデル(LLM)よりも小さい言語モデルを使用しているからです。最後に、彼らは画像検索エンジンとは異なり、さまざまなメタデータでタグ付けされた大量の画像コーパスとクエリ画像を調べません。この研究では、カリフォルニア大学ロサンゼルス校(UCLA)とGoogleの研究者が、LLMと3つの異なるタイプのツールを統合することで、視覚情報検索のタスクで最先端のパフォーマンスを実現する新しいアプローチを提供しています。 視覚情報抽出を支援するコンピュータプログラムには、オブジェクト検出器、光学文字認識ソフトウェア、ピクチャーキャプショニングモデル、視覚品質評価ソフトウェアが含まれます。 外部の世界に関するデータと情報を発見するためのオンラインリソース 視覚的に関連する画像のメタデータをマイニングして、画像検索の関連結果を見つける方法。 この手法では、LLMによって駆動されるプランナーが、必要なツールとそれに送信するクエリを動的に決定するために使用されます。さらに、研究者は、LLMによって結果を調べ、関連するデータを引き出すためにLLMによって駆動されるリーズナーを使用します。 まず、LLMはクエリを戦略、プログラム、または一連の命令に単純化します。その後、適切なAPIを活性化してデータを収集します。このアプローチは、単純な視覚言語の課題では有望ですが、より複雑な現実のシナリオでは改訂が必要です。このような初期のクエリから包括的な戦略を決定することはできません。代わりに、進行中のデータに応じて継続的な反復を必要とします。現場での意思決定能力が提案された戦略の主要なイノベーションです。視覚情報を必要とする質問の計画は、課題の複雑さのため、複数のステップで行われます。プランナーは、各段階でどのAPIを使用するか、どのクエリを提出するかを決定する必要があります。画像検索などの高度なAPIの回答の有用性を予測することしかできず、それらを呼び出した後の出力を予測することしかできません。したがって、研究者は、アップフロントのプロセス段階とAPI呼び出しの計画を含む従来の方法ではなく、ダイナミックな戦略を選択します。 研究者は、APIとのやり取りで人々がどのように選択を行うかを理解するためのユーザースタディを実施します。この情報を体系的なフレームワークにまとめることで、大規模言語モデル(LLM)がAPIの選択とクエリの作成を決定するための根拠を提供します。収集されたユーザーデータがシステムにもたらす2つの主な利点があります。まず、ユーザーアクションの順序を推論して遷移グラフを構築します。このグラフは、状態間の境界と各状態で実行できる手順を定義します。第二に、プランナーとリーズナーに有用なユーザーの意思決定の具体例を提供します。 主な貢献 チームは革新的なビジュアルクエスチョンアンサリングフレームワークを提案し、大規模言語モデル(LLM)を使用して外部ツールの動的な戦略立案とその出力の調査を行うことで、質問に対する回答を提供するために必要な知識を学習します。 チームは人々が意思決定を行う方法に関するユーザースタディからの知見を活用して、体系的な計画を作成します。このフレームワークは、大規模言語モデル(LLM)に、APIの選択とクエリの構築において人間の意思決定を模倣するよう指示します。 この戦略は、知識ベースのビジュアルクエスチョンアンサリングの2つのベンチマークであるInfoseekとOK-VQAで、最先端のソリューションを上回っています。特に、PALIのInfoseek(未知のエンティティ分割)データセットでの16.0%の正答率に対して、私たちの結果は50.7%と大幅に高いです。 APIとその他のツール AVIS(Autonomous Visual Information Seeking with Large Language Models)は、適切な詳細な情報検索を必要とする視覚的な問い合わせに応えるために、堅牢なリソースセットが必要です。 画像キャプションモデル 視覚的な質問応答モデル 物体検出…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.