Search Results Nature

大規模なネアデデュープリケーション：BigCodeの背後に

対象読者大規模な文書レベルの近似除去に興味があり、ハッシュ、グラフ、テキスト処理のいくつかの理解を持つ人々。動機モデルにデータを供給する前にデータをきちんと扱うことは重要です。古い格言にあるように、ゴミを入れればゴミが出てきます。データ品質があまり重要ではないという幻想を作り出す見出しをつかんでいるモデル（またはAPIと言うべきか）が増えるにつれて、それがますます難しくなっています。 BigScienceとBigCodeの両方で直面する問題の1つは、ベンチマークの汚染を含む重複です。多くの重複がある場合、モデルはトレーニングデータをそのまま出力する傾向があることが示されています[1]（ただし、他のドメインではそれほど明確ではありません[2]）。また、重複はモデルをプライバシー攻撃に対しても脆弱にする要因となります[1]。さらに、重複除去の典型的な利点には以下があります：効率的なトレーニング：トレーニングステップを少なくして、同じかそれ以上のパフォーマンスを達成できます[3][4]。データ漏洩とベンチマークの汚染を防ぐ：ゼロでない重複は評価を信用できなくし、改善という主張が偽りになる可能性があります。アクセシビリティ：私たちのほとんどは、何千ギガバイトものテキストを繰り返しダウンロードまたは転送する余裕がありません。固定サイズのデータセットに対して、重複除去は研究、転送、共同作業を容易にします。 BigScienceからBigCodeへ近似除去のクエストに参加した経緯、結果の進展、そして途中で得た教訓について最初に共有させてください。すべてはBigScienceがすでに数ヶ月前に始まっていたLinkedIn上の会話から始まりました。Huu Nguyenは、私のGitHubの個人プロジェクトに気付き、BigScienceのための重複除去に取り組むことに興味があるかどうか私に声をかけました。もちろん、私の答えは「はい」となりましたが、データの膨大さから単独でどれだけの努力が必要になるかは全く無知でした。それは楽しくも挑戦的な経験でした。その大規模なデータの研究経験はほとんどなく、みんながまだ信じていたにもかかわらず、何千ドルものクラウドコンピュート予算を任せられるという意味で挑戦的でした。はい、数回マシンをオフにしたかどうかを確認するために寝床から起きなければならなかったのです。その結果、試行錯誤を通じて仕事を学びましたが、それによってBigScienceがなければ絶対に得られなかった新しい視点が開かれました。さらに、1年後、私は学んだことをBigCodeに戻して、さらに大きなデータセットで作業をしています。英語向けにトレーニングされたLLMに加えて、重複除去がコードモデルの改善につながることも確認しました[4]。さらに、はるかに小さなデータセットを使用しています。そして今、私は学んだことを、親愛なる読者の皆さんと共有し、重複除去の視点を通じてBigCodeの裏側で何が起こっているかを感じていただければと思います。興味がある場合、BigScienceで始めた重複除去の比較の最新バージョンをここで紹介します：これはBigCodeのために作成したコードデータセット用のものです。データセット名が利用できない場合はモデル名が使用されます。 MinHash + LSHパラメータ（ P , T , K…

Pythonでトレーニング済みモデルを保存する方法

実世界の機械学習（ML）のユースケースに取り組む際、最適なアルゴリズム/モデルを見つけることは責任の終わりではありませんこれらのモデルを将来の使用や本番環境への展開のために保存、保管、パッケージ化することが重要ですこれらのプラクティスはいくつかの理由から必要です：再強調すると、MLモデルの保存と保管...

行動の組み合わせによる高速強化学習

新しいレシピを学ぶたびに、切る・皮をむく・かき混ぜる方法を再び学ばなければならないとしたらどうでしょうか多くの機械学習システムでは、新たな課題に直面するときに、エージェントは完全にゼロから学ばなければなりませんしかし、明らかなことは、人々はこれよりも効率的に学ぶことができるということです彼らは以前に学んだ能力を組み合わせることができます有限の単語の辞書がほぼ無限の意味を持つ文に再構成されるように、人々は既に持っているスキルを再利用し再組み合わせして新しい課題に取り組むのです

research

AlphaFold 生物学における50年間の偉大な課題への解決策

タンパク質は、実質的にすべての生命機能をサポートするために必要不可欠ですタンパク質は、アミノ酸の鎖から成る大きく複雑な分子であり、タンパク質が行う役割は、その固有の3D構造に大きく依存しますタンパク質がどのような形状に折りたたまれるかを解明することは、「タンパク質の折りたたみ問題」として知られ、過去50年間、生物学の重要な課題として存在してきました最新バージョンのAIシステムAlphaFoldは、二年ごとに行われるタンパク質構造予測の重要な評価（CASP）の主催者によって、この大きな課題の解決策として認識されましたこのブレイクスルーは、AIが科学的な発見に与える影響と、私たちの世界を説明し形作る最も基本的な分野の進歩を劇的に加速する可能性を示しています

research

MuZero ルールなしでGo、チェス、将棋、アタリをマスターする

2016年、我々はAlphaGoという初めて人間を囲碁で打ち負かすことのできる人工知能（AI）プログラムを紹介しました2年後、その後継者であるAlphaZeroは、ゼロから囲碁、チェス、将棋をマスターするために学習しましたそして今、学術誌Natureに掲載された論文で、我々はMuZeroを紹介していますこれは汎用アルゴリズムの追求において重要な進展ですMuZeroは、未知の環境で勝利戦略を計画する能力により、ルールを教えられることなく囲碁、チェス、将棋、アタリをマスターします

research

アルファフォールドの力を世界の手に

昨年12月にAlphaFold 2を発表した際、それは50年間のタンパク質折りたたみ問題の解決策として称賛されました先週、私たちはこの非常に革新的なシステムを作成する方法についての科学論文とソースコードを公開しましたそして、本日は人体のすべてのタンパク質の形状に関する高品質な予測を共有していますさらに、科学者が研究に頼る20の追加の生物のタンパク質の形状についても予測を行っています

research

次の1時間の雨を予測する

私たちの生活は天候に依存していますイギリスではいつでも、ある研究によると、国の1/3が過去1時間以内に天気について話し合ったとされ、天候の重要性が日常生活に反映されています天候現象の中でも、雨は特に重要ですなぜなら、雨は私たちの日常の決定に影響を与えるからです傘を持っていくべきか？大雨に見舞われた車両のルートはどうすべきか？屋外イベントにおける安全対策は何か？洪水が発生するかもしれないのか？私たちの最新の研究と最先端のモデルは、次の1〜2時間以内に雨（および他の降水現象）を予測する降水現在予測の科学を進化させていますメットオフィスとの共同執筆による論文が自然に掲載され、天気予測におけるこの重要な大課題に直接取り組んでいます環境科学とAIの連携は、意思決定者のための価値に焦点を当て、降水現在予測の新たな可能性を開拓し、環境が絶えず変化する中での意思決定の課題に対するAIの支援の機会を指摘しています

research

AIを用いた遺伝子発現の予測

人類ゲノム計画が人間のゲノムのDNA配列を解析することに成功した時、国際的な研究コミュニティは人間の健康と発達に影響を与える遺伝的指示をより良く理解する機会に興奮しましたDNAは、目の色から特定の病気や障害への感受性まで、あらゆることを決定する遺伝情報を持っています人間の体内にある約20,000のDNAセクションである遺伝子には、私たちの細胞で多くの重要な機能を果たすタンパク質のアミノ酸配列についての指示が含まれていますしかし、これらの遺伝子はゲノムのわずか2%未満を占めていますゲノムの30億の「文字」のうち、98%を占める残りの塩基対は「非コーディング」と呼ばれ、遺伝子が人体でいつ・どこで作られたり発現されるべきかについてはよく理解されていませんDeepMindでは、AIがこのような複雑な領域のより深い理解を解き明かし、科学の進歩を加速し、人間の健康への潜在的な利益を提供できると信じています