Search Results Google DeepMind

「Google DeepMindが大規模な言語モデルを使用して解けない数学問題を解決」

彼らは生産物のほとんどを捨てなければならなかったが、ゴミの中には金があった

AIの新たなフロンティアを探る：Google DeepMindのReSTEM自己学習による機械学習の進化に関する研究

大型の言語モデル（LLMs）は、人間レベルのテキストを生成し、さまざまな言語タスクを実行する驚異的な能力によって、ディープラーニングを変革しています。高品質な人間データを入手することは、興味のあるタスクの性能をさらに向上させるための敷居となっています。特に、多くのリソースと専門知識を必要とする複雑な問題解決の割り当てには負担がかかります。この障害を克服するために、モデル生成の合成データは、その品質が保証される場合にはスケーラブルかつ手頃な解決策として有望です。この研究では、Google DeepmindとMilaの研究者は、LLMsが作成されたデータを自己評価できる場合でも、外部のスカラーフィードバック信号が各生成サンプルの品質指標として機能するより簡単なシナリオを調査しています。研究チームは、言語モデルのための直感的で効果的なセルフトレーニング技術を提案しています。この手法は、2つのスキルのみを必要とします：1）モデルからサンプルを作成すること、および2）これらのサンプルをスコアリングメカニズムを使用して評価すること。このアプローチにより、モデルが生成したデータによるトレーニングを研究することができます。研究チームは、Reinforced Self-Trainingの呼び方を使い、この技術をReST𝐃𝑀と呼んで一貫性と明確性を実現しています。研究チームは、ReST𝐃𝑀を強化学習のための期待最大化と考えることができる方法を示しています。具体的には、ReST𝐃𝑀は以下のように期待値と最大値のフェーズを切り替えています：1. 生成（Eステップ）：入力コンテキストごとに、言語モデルは複数の出力サンプルを生成します。その後、研究チームはこれらのサンプルを2値報酬を使用してフィルタリングしてトレーニングデータセットを収集します。2. 改善（Mステップ）：元の言語モデルは、前の生成フェーズからのトレーニングデータセットを使用して監視および微調整されます。次の生成フェーズでは、調整されたモデルが使用されます。ReST𝐃𝑀およびその派生版は、機械翻訳、意味解析、および好みの整合において、言語モデルの向上に効果的であることが示されています。 ReST𝐃𝑀は、主に非常に小さな言語モデル（最大7Bのパラメータまで）で従来の研究で使用され、より大きなモデルに対しては限定的なスケーラビリティがありました。彼らの研究は、モデルによって作成された合成データと人間提供データのスケーラビリティと効果を比較することにより、これらの取り組みを補完することを意図しています。具体的には、コード生成（APPS）および競技レベルの数学的問題解決（MATH）という2つの難しいが研究されていないドメインで、パLM 2モデルに対してReST𝐃𝑀を適用することで、数学的な推論力とコード生成のスキルが大幅に向上することを示しています。驚くべきことに、モデルによって作成された人工データで改良されたモデルは、人間が提供したデータでトレーニングされたモデルよりもはるかに優れた性能を発揮します。さらに、ReST𝐃𝑀の数サイクル後に改善が低下し、トレーニングケースの数に過学習の可能性が示唆されています。また、ReST𝐃𝑀を使用して最適化されたモデルは、pass@kおよび多数決の機能を向上させます。最後に、これらの改良されたモデルは、ビッグベンチハードタスク、コーディング（ヒューマン評価）、および算術問題（GSM8KおよびハンガリーHS決勝）を含む類似したが異なるベンチマークでのパフォーマンスも向上しています。最後に、ReST𝐸𝑀の微調整におけるトレーニング問題、反復回数、およびモデル生成ソリューションの量の影響を調査するための削除研究が行われています。

Google DeepMindの研究者は、言語モデル（LM）のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code（CoC）」を提案しました

Google DeepMind、スタンフォード大学、およびカリフォルニア大学バークレー校の研究者たちは、言語モデルのコード駆動型の推論能力を向上させる問題に対処するために、Code of Chain（CoC）を開発しました。CoCは、LM（“LMulator”としての言語モデルを示す）でシミュレーションするために、undefinedな動作を明示的にキャッチし、シンタックス上のセマンティックなサブタスクを柔軟な擬似コードとしてフォーマットすることを促すことで、問題に対処します。CoCは、大規模なモデルや小規模なモデルでスケーリングが可能であり、コードで考えることで、LMが正しく答えることができる推論の範囲を広げることができます。 Chain of Thought、最小から最大まで、およびScratchPadのようなワークは、タスクを中間ステップに分解するか、中間結果のトレースを保持することにより、プロンプトを活用して推論能力を向上させています。GithubでトレーニングされたLMは、コードの記述と実行を促すようにプロンプトされ、数値または記号的な推論を含む複雑な問題を解決するのに役立ちます。 CoCは、与えられた問題を解決するために、コード構造内の推論のサブステップを生成します。このコードは、痛みを通して推論するためのフレームワークを提供し、明示的なコード、擬似コード、または自然言語の形式で表される場合があります。CoCは、コードによる表現の利点とLMの優れたセマンティックおよび常識的な知識を組み合わせることで、新たな領域でコードの使用を可能にします。コードで表現が難しいルールを簡単に表現できます（たとえば、果物はどのような食べ物ですか？）。 CoCの主要な貢献は、推論コードの生成だけでなく、その実行方法です。コードが書かれた後、コードはコードインタプリタ（この研究ではPythonが考慮されていますが、アプローチ自体は任意のインタプリタに適用可能です）で実行されようとします。コードが正常に実行される場合、プログラムの状態が更新され、実行が続行されます。コードが実行不可能であるか例外を発生させる場合、言語モデルは代わりに実行のシミュレーションに使用されます。言語モデルの出力がプログラムの状態を更新し、実行が続行されます。 CoCアプローチの全体的なパフォーマンスは、他の方法を上回り、タスク数と全体的な量の両方で人間の基準を超えています。CoCは、いくつかの研究において最先端のパフォーマンスを実現しています。Chain of Thoughtプロンプティングと同様に、モデルのサイズが増えるほど性能が向上します。クロスタスクプロンプティングは、すべての方法においてパフォーマンスが低下しますが、CoCはスケール時にはChain of Thoughtと直接プロンプティングを上回るパフォーマンスを示し、人間の平均パフォーマンスに近づきます。 CoCは、言語モデルを用いた推論をコードの記述とコードの実行により行うアプローチです。コードが実行不可能な場合、インタプリタまたはコードの実行をシミュレーションする言語モデルを使用することができます。CoCは、規制の表現の表現力豊かな構造とその強力なツールの両方を活用できます。さらに、実行不可能なコードのシミュレーションにより、CoCはコードの範囲外の問題（例えば、意味的な推論問題）に適用することができます。

Google DeepMindはAlphaCode 2を導入しました：競争プログラミングの優れた進歩において、ジェミニモデルの力を利用した人工知能（AI）システム

機械学習の分野では、テキストデータの生成と理解において驚くべき進展が見られています。しかし、問題解決における新しい革新は比較的単純な算術とプログラミング問題に制約されています。競技プログラミングは、限られた時間内に複雑な問題のためのコードソリューションを書く競技者のコーディングスキルを評価する厳しいものであり、批判的思考、論理的思考、アルゴリズムとコーディングの概念の徹底的な理解が必要です。 Google DeepMindは、競技プログラミングの分野を解決し、向上させることを目指して、AlphaCode 2を導入しました。AlphaCodeよりも高速で正確さと迅速さが求められるゲームであり、AlphaCode 2は基準を引き上げ、ゲームのルールを変えました。この人工知能（AI）システムは、GoogleのGeminiチームによって2023年に作成された強力なGeminiモデルに基づいており、その洗練された論理思考と問題解決能力の基盤となっています。チームは、AlphaCode 2のアーキテクチャは強力な大規模言語モデル（LLM）と競技プログラミングに特化した高度な検索および再順位付けシステムに基づいていると共有しています。それはコードサンプルを生成するポリシーモデルのファミリー、多様性を促進するサンプリングメカニズム、非準拠のサンプルを除去するフィルタリングメカニズム、冗長性を除去するクラスタリングアルゴリズム、および最適な候補を選ぶスコアリングモデルで構成されています。プロセスの最初のステップは、AlphaCode 2の基盤となったGemini Proモデルです。それはGOLDトレーニングターゲットを使って厳密な調整を2回行います。1回目はCodeContestsデータセットの新バージョンに焦点を当て、多くの問題と人間が生成したコード例が含まれています。その結果、競技プログラミングで遭遇する多くの困難に対応するために特別に設計された洗練されたモデルのファミリーが生成されます。 AlphaCode 2は包括的かつ綿密なサンプリング戦略を採用しています。システムはチャレンジごとに最大100万のコードサンプルを生成し、各サンプルにランダムに温度パラメータを割り当てることで多様性を促進します。高品質のC++のサンプルがGeminiの助けを借りてAlphaCode 2に使用されています。評価によると、AlphaCode 2は競技プログラミングのよく知られたプラットフォームであるCodeforcesで最近のテストでその能力を示しました。AlphaCode 2はたった10回の試行で驚異的な43％の問題に回答することができました。同様の状況下で25％の問題を扱った先行システムAlphaCodeに比べて、これは重要な進展です。AlphaCode 2は平均して85番目のパーセンタイルに位置し、中央値の競合相手を上回り、かつてはAIシステムの能力とは考えられていなかったレベルで動作しています。まとめると、AlphaCode 2は競技プログラミングにおいて困難な問題に取り組むためにAIシステムを使用する方法を示す、驚くべき開発です。このシステムの成功は技術的な成果であり、人間とAIプログラマがプログラミングの限界を押し上げるために協力する可能性を示しています。

Google DeepMindによる新たなブレイクスルー、新しい素材が公開されました

新しい研究論文によれば、GoogleのDeepMindが何十万もの新たな物質デザインの仮説を発見しました彼らはこのブレークスルーによってコンピュータチップ、バッテリー、太陽電池などの材料の生産を改善することを望んでいます自然に掲載されたこの新しい材料の発見と合成は...

「Google DeepMind ResearchはSODAを紹介しました：表現学習のために設計された自己教師付き拡散モデル」

Google DeepMindの研究者は、画像を効率的な潜在表現にエンコードする問題に取り組むAIモデル「SODA」を開発しました。SODAにより、画像と意味的属性のシームレスな遷移が可能となり、さまざまな画像カテゴリをまたがった補間や変形ができます。拡散モデルは、画像、ビデオ、音声、テキストの合成、計画、および薬剤探索など、さまざまなタスクで革新をもたらしました。従来の研究は、生成能力に焦点を当てていましたが、この研究では拡散モデルの表現能力の未開発な領域を探求しています。この研究はさまざまなデータセットやタスクにわたる拡散ベースの表現学習を包括的に評価し、単に画像から得られる潜在的な可能性を明らかにします。提案されたモデルは、学習における合成の重要性を強調し、拡散モデルの大きな表現能力を示しています。SODAは、情報ボトルネックを組み込んだ自己教師モデルであり、離散した情報を含む有益な表現を実現しています。SODAは、高性能のほんの数ショットの新しいビュー生成や意味的な特性制御を含む、分類、再構築、合成タスクでその強みを示します。 SODAモデルは、自己教師拡散を通じて離散した表現を作成するために情報ボトルネックを利用しています。この手法では、分布に基づく事前学習を使用して表現学習を改善し、分類や新しい視点合成のタスクで強力なパフォーマンスを実現しています。SODAの能力は、ImageNetを含むさまざまなデータセットを徹底的に評価することで検証されています。 SODAは、分類、離散化、再構築、新しい視点合成などの表現学習で優れた成果を上げることが証明されています。変分法と比較して、分離メトリクスの改善が顕著です。ImageNetの線形プローブ分類では、SODAは他の識別モデルを上回り、データ拡張に対する堅牢性を示しています。その多目的性は、新たな視点の生成や意味的属性のシームレスな遷移に明らかです。実証的な研究を通じて、SODAは、詳細な分析、評価メトリクス、他のモデルとの比較による、効果的で堅牢で多目的な表現学習手法として確立されています。結論として、SODAは、分類、再構築、編集、合成など、さまざまなタスクに対して堅牢な意味的表現を生み出す表現学習で優れた能力を示しています。情報ボトルネックを利用して、重要な画像の特性に焦点を当て、変分法を分離メトリクスで上回っています。SODAの多目的性は、新しい視点の生成、意味的属性の遷移、カメラの視点など、より豊かな条件情報の処理能力に明らかです。将来の展望としては、SODAの領域をより深く掘り下げるために、3Dデータセットの動的構成シーンや新しい視点合成と自己教師学習とのギャップを埋めることが価値あるでしょう。モデルの構造、実装、評価の詳細など、拡散モデルの予備知識、ハイパーパラメータ、トレーニング技術、サンプリング方法についてさらなる検討が必要です。消去と変異の研究を行うことで、より良い設計選択や代替メカニズム、クロスアテンション、レイヤーごとの変調を探求することが推奨されます。これにより、3D新しい視点合成、画像編集、再構築、表現学習などのさまざまなタスクでのパフォーマンスが向上する可能性があります。

Google DeepMind（グーグルディープマインド）が「GNoME（グノーム）」を発表：新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の注意を払った試験の結果として数ヶ月かけて生まれるものであり、溶解しないため、新たな技術の実現には不可欠です。研究者たちは、限られた成果しか挙げられなかった高価な試行錯誤の実験を行ってきました。彼らは既存の結晶を修正したり、他の元素の組み合わせを試したりして、新しい結晶構造を探しました。材料プロジェクトなどによって牽引される計算手法のおかげで、過去10年間には28,000以上の新しい材料が見つかりました。これまで、実験的に有効な材料を信頼性の高い予測できるAI技術の能力は大きな制約でした。ローレンスバークレー国立研究所とGoogle DeepMindの研究者は、Natureに2つの論文を発表し、自律的な材料合成のためのAI予測の可能性を示しました。この研究では、800年分に相当する約2.2百万の結晶が発見されました。彼らの新しいディープラーニングツールである材料探索のためのグラフネットワーク（GNoME）は、新しい材料の安定性を予測し、発見のスピードと効率を大幅に改善しました。GNoMEは、大量の新しい材料の発見と開発におけるAIの約束を具現化しています。世界中のさまざまな研究室で行われた独立した取り組みによって、これらの新しい構造の中から736個が生み出されました。 GNoMEの導入により、技術的に可能な材料の数は2倍に増加しました。その2.2百万の予測のうち、38万個が安定性の高さから実験的な合成の可能性が最も高いとされています。次世代の電気自動車の効率向上に貢献する新しいバッテリーの材料や、スーパーコンピューターを駆動する超伝導体などが、これらの候補材料に含まれます。 GNoMEは最先端のGNNモデルの一つです。GNNの入力データは原子のつながりに類似したグラフで表されるため、新しい結晶材料の発見に適しています。 GNoMEを訓練するために最初に使用された結晶構造と安定性のデータは、Materials Projectを通じて公開されています。トレーニング手法としての「アクティブラーニング」の使用は、GNoMEの効率を大幅に改善しました。研究者たちはGNoMEを使用して新しい結晶候補を生成し、その安定性を予測しました。彼らは進行中のトレーニングサイクル全体でモデルの性能を評価するため、物理学、化学、材料科学の分野で確立された計算手法である密度汎関数理論（DFT）を使用して原子構造を理解し、結晶の安定性を評価するための反復的なチェックを行いました。モデルトレーニングは高品質なトレーニングデータを使用してプロセスに戻されました。研究結果は、先行の最新モデルによる外部ベンチマークによって指標が設定されている状態から、材料の安定性予測の発見スピードを約50％から80％に向上させたことを示しています。このモデルの効率の向上により、各発見に必要な計算能力が10％未満から80％以上に向上しました。これらの効率の向上は、AI駆動の材料合成のさらなる進展の道を開くものです。自律型のラボは、Materials Projectの材料を使用し、GNoMEの安定性情報を活用して、41以上の新しい材料を生み出しました。これはAI駆動の材料合成の更なる進展を可能にする道を開いたものです。 GNoMEの予測は科学コミュニティに公開されています。研究者たちはその化合物を解析し、380,000の材料をオンラインデータベースに追加するMaterials Projectに提供します。これらのリソースの助けを借りて、科学コミュニティが無機結晶の研究をさらに追求し、機械学習技術の潜在能力を実験のガイドラインとして実現することを願っています。

Google DeepMindの研究者がDiLoCoを導入：効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム

現実世界のアプリケーションにおける言語モデルのソアリング能力は、標準的なバックプロパゲーションのような従来の方法を使用しての大規模トレーニングに関連する複雑な課題によってしばしば制約されます。Google DeepMindの最新のブレークスルーであるDiLoCo（Distributed Low-Communication）は、言語モデルの最適化において新たな基準を設定します。研究チームの論文「DiLoCo：分散低通信言語モデルのトレーニング」では、革新的な分散最適化アルゴリズムを紹介し、緩く接続されたデバイスのクラスタ上で操作することで、驚異的なパフォーマンス向上と通信の500倍の削減を実現しています。 Federated Learningの原則に触発され、研究者たちは広く認識されたFederated Averaging（FedAvg）アルゴリズムの変種を考案し、FedOptアルゴリズムに似た要素を注入しました。DiLoCoは内部最適化手法としてAdamWを戦略的に取り入れ、外側の最適化手法としてNesterov Momentumを活用し、従来のトレーニングパラダイムに内在する課題に立ち向かう巧妙な融合を実現しています。 DiLoCoの輝きは、3つの基本的な柱にあります： 1. 限られた共有位置の要件：各ワーカーは共有位置のデバイスを必要としますが、必要な総数は著しく小さく、物流の複雑さが軽減されます。 2. 通信頻度の削減：ワーカーはすべてのステップで通信する必要はなく、𝐻ステップごとに同期するだけで、通信オーバーヘッドを数百または数千に大幅に削減します。 3. デバイスの異質性：クラスタ内のデバイスは同一である必要がありますが、DiLoCoは異なるクラスタが異なるデバイスタイプを使用して運用できる柔軟性を提供します。 DiLoCoのトレーニングプロセスは、事前トレーニングされたモデル𝜃（0）を複数回複製することで行われます。各ワーカーは独自のデータシャードでモデルのレプリカを独立してトレーニングし、𝐻ステップ後に外部グラデーションを平均化し、外部最適化手法がグローバルパラメータコピー𝜃（1）を更新し、それがワーカーに配布されます。このサイクルは𝑇回繰り返され、各レプリカのトレーニングは異なるグローバル位置で異なるアクセラレータを使用して行われます。 C4データセットを用いた実験では、8つのワーカーを使用したDiLoCoは、通信を驚異的な500倍削減し、完全同期最適化と同等のパフォーマンスを達成します。さらに、DiLoCoはワーカー間のデータ分布の変動に対して非常に強い耐性を示し、トレーニング中にリソースの可用性の変化にシームレスに適応します。要するに、DiLoCoは複数の接続が弱いマシン上でトランスフォーマー言語モデルのトレーニングを分散するための堅牢で革新的な解決策として浮上しています。この画期的なアプローチは、インフラの課題だけでなく、卓越したパフォーマンスと適応性を示し、言語モデルの最適化において大きな飛躍をもたらします。この投稿は、Google DeepMind Researchers Introduce DiLoCo: A Novel…

UCLとGoogle DeepMindの研究者が、トランスフォーマーニューラルネットワークにおけるインコンテキスト学習（ICL）の一瞬のダイナミクスを明らかにします

モデルが推論時に入力を使用して重みを更新せずに動作を変更する能力は、インコンテキスト学習またはICLとして知られています。特に少数の例から望ましい振る舞いを学習する能力を備えたニューラルネットワークアーキテクチャが、最初にこの能力を示しました。モデルがトレーニングセットでうまく機能するためには、将来の予測を行うために、コンテキストからの実例-ラベルのマッピングを覚えておく必要がありました。これらの状況では、トレーニングは各エピソードごとに入力実例に対応するラベルを再配置することを意味しました。テスト時には新しい実例-ラベルのマッピングが提供され、ネットワークのタスクはこれを使用してクエリ実例を分類することでした。 ICLの研究は、トランスフォーマーの開発の結果として発展しました。研究者は、トレーニングの目的やデータを通じて特にそれを促そうとはしていなかったことに注目しました。むしろ、トランスフォーマーベースの言語モデルGPT-3は、適切なサイズで自己回帰的にトレーニングされた後にICLを示しました。それ以来、多くの研究がICLの実例を調査または文書化しています。巨大なニューラルネットワークにおける新しい機能の研究が行われています。ただし、最近の研究では、トランスフォーマーのトレーニングがICLを引き起こすわけではないことが示されています。研究者は、トランスフォーマーにおけるICLの発生は、バースティさや高い偏った分布など、特定の言語データの特性に大きく影響を受けることを発見しました。ユクルとGoogle Deepmindの研究者は、これらの特性が欠けるデータでトレーニングされたトランスフォーマーが通常インウェイト学習（IWL）に頼ることが明らかになりました。IWLレジームのトランスフォーマーは、新たに提供されたインコンテキスト情報を使用せず、モデルの重みに格納されたデータを使用します。重要なのは、ICLとIWLはお互いと相反するように見えることです。ICLは、トレーニングデータがバースティであるときに、つまりオブジェクトがランダムではなくクラスターとして表示され、トークンやクラスの数が多いときにより簡単に現れるようです。ICLの現象をトランスフォーマーでよりよく理解するためには、確立されたデータ生成分布を使用した制御された調査を行うことが重要です。図1：12層、埋め込み次元64、各クラス20の実例が含まれる1,600個のコースでトレーニングされ、インコンテキスト学習は一時的です。トレーニングセッションごとにバーストがあります。トレーニング時間が不十分なため、研究者はICLの一時的な変動を目撃することはありませんでしたが、これらの環境はICLを非常に奨励していることがわかりました。 (a) ICL評価器の精度。 (b) IWL評価器の精度。研究チームは、テストシーケンスが分布から外れているため、トレーニングシーケンスの精度が100％であるにもかかわらず、IWL評価器の精度の改善が非常に遅いことを確認しています。 (c) トレーニングログの損失。 2つの色調は2つの実験的な種を示しています。基本的に、過学習は、LLMでICLを調査する最近のほとんどの研究において内在的な前提に基づいています。モデルは、ICLに依存した機能が発生するため十分なトレーニングを受けたと、トレーニング損失が減少し続ける限り保持されると信じられています。ここでは、研究チームは永続性が存在するという広く信じられている考えを否定します。研究チームは、制御された環境でICLを徹底的に評価することを可能にする、一般的な画像ベースの少数派トレーニングデータセットを修正することでこれを行います。研究チームは、ICLが出現し、モデルの損失が減少し続けるにつれて消える簡単なシナリオを提供します。言い換えれば、ICLは新興現象として広く認識されているにもかかわらず、研究チームはそれが一時的なものである可能性も考慮すべきです（図1）。研究チームは、さまざまなモデルサイズ、データセットサイズ、およびデータセットの種類において一時性が起こることを発見しましたが、特定の属性が一時性を遅延させることも示しました。一般的には、長期間無責任に訓練されたネットワークは、ICLが現れるのと同じくらい速く消えてしまい、現代のAIシステムから期待されるスキルをモデルから奪うことがあります。

Google DeepMindは、画期的なAI音楽生成器である「Lyria」を発表

11月中旬、GoogleのDeepMindがYouTubeとの共同プロジェクトであるLyriaを発表しました彼らのブログ投稿によると、Lyriaは彼らの最も進化したAI音楽生成モデルですこの技術は、ジャズからヘビーメタル、テクノまで多様なジャンルを生成するという複雑な課題を克服し、音楽創造の世界を革新することを約束しています

Learn more about Search Results Google DeepMind