Search Results RLHF

StackLLaMA：RLHFを使用してLLaMAをトレーニングするための実践ガイド

ChatGPT、GPT-4、Claudeなどのモデルは、Reinforcement Learning from Human Feedback（RLHF）と呼ばれる手法を使用して、予想される振る舞いにより適合するように微調整された強力な言語モデルです。このブログ記事では、LlaMaモデルをStack Exchangeの質問に回答するためにRLHFを使用してトレーニングするために関与するすべてのステップを以下の組み合わせで示します：教師あり微調整（SFT）報酬/選好モデリング（RM）人間のフィードバックからの強化学習（RLHF） From InstructGPT paper: Ouyang, Long, et al. “Training language models to follow instructions with human…

24GBのコンシューマーGPUでRLHFを使用して20B LLMを微調整する

私たちは、trlとpeftの統合を正式にリリースし、Reinforcement Learningを用いたLarge Language Model (LLM)のファインチューニングを誰でも簡単に利用できるようにしました！この投稿では、既存のファインチューニング手法と競合する代替手法である理由を説明します。 peftは一般的なツールであり、多くのMLユースケースに適用できますが、特にメモリを多く必要とするRLHFにとって興味深いです！コードに直接深く入りたい場合は、TRLのドキュメンテーションページで直接例のスクリプトをチェックしてください。イントロダクション LLMとRLHF 言語モデルとRLHF（Reinforcement Learning with Human Feedback）を組み合わせることは、ChatGPTなどの非常に強力なAIシステムを構築するための次の手段として注目されています。 RLHFを用いた言語モデルのトレーニングは、通常以下の3つのステップを含みます： 1- 特定のドメインまたは命令のコーパスで事前学習されたLLMをファインチューニングする 2- 人間によって注釈付けされたデータセットを収集し、報酬モデルをトレーニングする 3- ステップ1で得られたLLMを報酬モデルとデータセットを用いてRL（例：PPO）でさらにファインチューニングするここで、ベースとなるLLMの選択は非常に重要です。現時点では、多くのタスクに直接使用できる「最も優れた」オープンソースのLLMは、命令にファインチューニングされたLLMです。有名なモデルとしては、BLOOMZ、Flan-T5、Flan-UL2、OPT-IMLなどがあります。これらのモデルの欠点は、そのサイズです。まともなモデルを得るには、少なくとも10B+スケールのモデルを使用する必要がありますが、モデルを単一のGPUデバイスに合わせるだけでも40GBのGPUメモリが必要です。 TRLとは何ですか？ trlライブラリは、カスタムデータセットとトレーニングセットアップを使用して、誰でも簡単に自分のLMをRLでファインチューニングできるようにすることを目指しています。他の多くのアプリケーションの中で、このアルゴリズムを使用して、ポジティブな映画のレビューを生成するモデルをファインチューニングしたり、制御された生成を行ったり、モデルをより毒性のないものにしたりすることができます。…

「2023年、オープンLLMの年」

2023年には、大型言語モデル（Large Language Models、LLMs）への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります（その他の利点もあります）。では、オープンLLMsの今年を振り返ってみましょう！文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方まず、大型言語モデルはどのようにして作られるのでしょうか？（もし既に知っている場合は、このセクションをスキップしてもかまいません）モデルのアーキテクチャ（コード）は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです（詳細は元のトランスフォーマーペーパーをご覧ください）。訓練データセットには、モデルが訓練された（つまり、パラメータが学習された）すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語（例：フランス語、英語、中国語）、プログラミング言語（例：Python、C）またはテキストとして表現できる構造化データ（例：MarkdownやLaTeXの表、方程式など）のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します（モデルは数学的な関数であり、したがって入力として数値が必要です）。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます（トークン化方法によっては単語、サブワード、または文字になる場合があります）。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります！訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか？モデルの更新速度はどのくらいですか？これらのパラメータが選択されたら、モデルを訓練するためには1）大量の計算パワーが必要であり、2）有能な（そして優しい）人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化（訓練用のハードウェア上での行列の作成）および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論（つまり、新しい入力の予測やテキストの生成など）に使用することができます。事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる（通常はより専門化された小規模な）データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか？ 2022年初頭まで、機械学習のトレンドは、モデルが大きければ（つまり、パラメータが多ければ）、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM（BigScience Large Open-science…

「NeurIPS 2023のハイライトと貢献」

「ニューラル情報処理システム（Neural Information Processing Systems）カンファレンスであるNeurIPS 2023は、学問的な追及とイノベーションの頂点として存在していますAI研究コミュニティーで崇拝されるこの一流イベントは、再び最も優れた知識と技術の領域を突破しようとする優れたマインドを集めました今年、NeurIPSは印象的な研究の数々を披露し、知識と技術の範疇において重要なマイルストーンを打ち立てました」

Artificial Intelligence

「医療の分野における人工知能モデルのリスト（2023年）」

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/18-1024×618.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/18-150×150.gif”/><p>今年だけでも、人工知能（AI）が進化を遂げた数を考えると、2023年を通じて重要な議論の中心となっていることは驚くべきことではありません。AIは今やほぼあらゆる領域で活用されており、その中でも興味深く有用な応用の1つが医療と医学の分野です。薬物の発見から医療文書の転写、手術の支援まで、医療従事者の生活を変え、誤りを減らし、効率を向上させています。この記事では、2023年に医療現場を変革する可能性のあるいくつかのAIモデルについて説明します。</p><h2><a href=”https://www.voagi.com/google-deepminds-recent-advancements-analogical-stepback-prompting.html”><strong>Med-PaLM 2</strong></a></h2><p>Google Researchが医療分野向けに設計したMed-PaLMは、医療の質問に高品質な回答ができるモデルです。このモデルはGoogleのLLMの力を活用しており、米国医師国家試験のような質問に回答する際には人間の専門家レベルに達する最初のモデルの1つです。評価された結果、このモデルは症状を理解し、複雑な推論を行い、適切な治療法を選択する能力を示しました。さらに、研究の中でMedQA医学試験のベンチマークで86.5％の正確さを達成しました。有望な能力を示しているものの、研究者はより厳密な評価を行い、安全性の重要な領域での展開が可能かどうかを確認するためにさらなる評価を行いたいと考えています。</p><h2><a href=”/?s=Bioformer”><strong>Bioformer</strong></a></h2><p>Bioformerは、バイオメディカルテキストマイニングに使用できるBERTのコンパクト版です。BERTは自然言語処理のアプリケーションで最先端の性能を達成していますが、計算効率を向上させるためにパラメータを減らすことができます。Bioformerの研究者たちは、このアプローチを取り、BERTよりもモデルサイズが大幅に小さいモデル（60％削減）を開発しました。このモデルはPubMedの要約とPubMed Centralの全文記事で訓練され、バイオメディカル用語を使用しています。研究者は2つのバージョンのモデル、Bioformer8LとBioformer16Lをリリースしましたが、名前の識別、関係抽出、質問応答、文書分類などのパラメータで少ないパラメータでもうまく機能しました。</p><h2><a href=”https://www.voagi.com/google-ai-has-launched-medlm-a-series-of-foundation-models-specifically-tailored-for-the-healthcare.html”><strong>MedLM</strong></a></h2><p>MedLMは、Googleが開発した基礎モデルのスイートで、医療ケースに特化してファインチューニングされています。MedLMの下には複雑なタスクに対応し、タスク間でのスケーリングを可能にする2つのモデルが設計されています。これらのモデルの主な目的は、タスクを自動化して時間を節約し、効率を向上し、全体的な患者の健康を改善することです。Googleの研究者はDeloitteと協力して、MedLMの能力を実証するためのパイロットを行っています。MedLMはまた、BenchSciのASCENDなど他のAIシステムと統合されており、臨床研究の品質と速度を向上させるために活用されています。</p><h2><a href=”/?s=RoseTTAFold”><strong>RoseTTAFold</strong></a></h2><p>RoseTTAFoldは、限られた情報から蛋白質の構造を予測するためのディープラーニングを活用したソフトウェアです。このモデルは蛋白質配列のパターン、アミノ酸の相互作用、および3D構造を研究することができます。このモデルにより、研究者は蛋白質と小分子薬剤の相互作用のモデル化が可能になり、これにより薬剤探索の研究が促進されます。モデルの研究者はまた、コードを公開して、全コミュニティの利益に資するようにしています。</p><h2><a href=”https://www.voagi.com/revolutionizing-biological-molecule-predictions-with-deepminds-alphafold.html”><strong>AlphaFold</strong></a></h2><p>AlphaFoldは、DeepMindが開発した強力なAIモデルで、アミノ酸配列から蛋白質の3D構造を予測することができます。DeepMindはEMBL（EMBL-EBI）のEuropean Bioinformatics Instituteとパートナーシップを組んで、20億以上のAI生成蛋白質構造予測を含むデータベースを公開し、科学研究を促進しています。CASP14では、AlphaFoldは他のモデルよりも高い精度で結果を出し、高い正確性を持ちます。さらに、このモデルは研究者が蛋白質構造を理解し、生物学的研究を進めるのに役立つ潜在能力を持っています。</p><h2><a href=”/?s=ChatGLM-6B”><strong>ChatGLM-6B</strong></a></h2> ChatGLMは中国語と英語のバイリンガルモデルであり、中国語の医療対話データベースを元に微調整されています。モデルは比較的短い時間（13時間）で微調整されたため、非常に手頃な医療目的のLLMです。モデルはより長いシーケンス長を持つため、より長い対話や応用に対応しています。モデルは教師あり微調整、RLHFなどの技術を使用してトレーニングされました。これにより、モデルは人間の指示をより理解することができます。その結果、モデルは優れた対話と質問応答の能力を持っています。記事：List of Artificial Intelligence Models for Medical…

タイタン向けのOpenAIのミニAIコマンド：スーパーアライメントの解読！

AI（人工知能）の超人型人工知能（AI）への迫り来る課題に取り組むため、OpenAIが画期的な研究方向、つまり弱から強の汎化を発表しました。この先駆的な手法は、小さなAIモデルがより大きく、より洗練されたモデルを効果的に監督し制御できるかを探求することを目的とし、彼らの最新の「弱から強の汎化」に関する研究論文でも詳述されています。超整列問題 AIの急速な進展に伴い、次の十年以内に超知能システムを開発する可能性が高まるため、重要な懸念が浮上しています。OpenAIの超整列チームは、徹底的な研究論文で議論されているように、超人型AIを人間の価値観に整合させる課題を解決するために急務であると認識しています。現在の整合化手法既存の整合化手法（強化学習による人間のフィードバック（RLHF）など）は、人間の監督に大きく依存していました。しかし、超人型AIモデルの登場により、「弱い監督者」としての人間の不適切さが明らかになってきました。AIシステムが新しい複雑なコードを大量に生成する可能性は、従来の整合化手法にとって大きな課題となり、OpenAIの研究でも強調されています。経験的セットアップ OpenAIは、整合化の課題に取り組むための魅力的な類似点を提案しています：より小さくより能力の低いモデルが、より大きくより能力の高いモデルを効果的に監督できるか？その目標は、弱い監督者の意図に基づいて強力なAIモデルが汎化できるかどうかを判断することであり、彼らの最近の研究成果でも詳細に説明されています。印象的な結果と制約 OpenAIの研究論文で詳述されている実験結果は、汎化の著しい改善を示しています。OpenAIは、より大きなモデルが必要な場合には弱い監督者と異なる意見を持ち、より自信を持つようにする方法を使用し、GPT-2レベルのモデルを使用してGPT-3.5に近い性能を達成しました。これは概念の証明であるにもかかわらず、彼らの研究結果に詳述されているように、弱から強の汎化の可能性を示しています。私たちの意見 OpenAIによるこの革新的な方向性は、機械学習研究コミュニティに整合化の課題に取り組む機会を提供しています。提示された手法には制約がありますが、それはAIが進化し続ける中で整合化問題に対して経験的な進歩を遂げるための重要な一歩であり、OpenAIの研究論文でも強調されています。OpenAIのコードのオープンソース化とさらなる研究のための助成金提供は、AIの進展を重視する上で整合化の問題に取り組む緊急性と重要性を強調しています。 AIの整合化の未来を解読することは、超人型AIの安全な開発に寄与するための研究者にとってのエキサイティングな機会であり、OpenAIの最新の研究論文でも探求されています。彼らのアプローチは協力と探求を奨励し、先進的なAI技術を社会に責任を持って有益に統合するための共同の取り組みを促進しています。

すべての開発者が知るべき6つの生成AIフレームワークとツール

この記事では、トップのジェネラティブAIフレームワークとツールについて探求しますあなたの想像力を解き放ち、ジェネラティブAIの可能性を探究するために必要なリソースを発見してください

「2023年のAI タイムライン」

はじめに人工知能（AI）は、技術的な進歩が人間のつながりの本質と共鳴する形で私たちの日常生活と交差する魅力的な領域です。今年は、単なるアルゴリズムを超えてAIを身近に感じる革新の物語が展開されました。2023年のAIの素晴らしいハイライトを探索しながら、この旅に参加しましょう。 AI 2023年のハイライト 2023年のAIの世界で行われた最大の発見、進歩、および世界的な変革の一部を紹介します。これらの進歩がどのように、技術が私たちの人間の体験にシームレスに統合される未来を形作っているのか、探求してみましょう。 2023年1月のAIハイライトこの年は、AIが医療と健康の分野で重要な進展を示しました。MITの研究者はマサチューセッツ総合病院と連携し、CTスキャンに基づいて患者の肺がんのリスクを評価できるディープラーニングモデルを開発しました。また、革命的な進歩として、研究者たちはAIを使ってゼロから人工的な酵素やタンパク質を作り出すことが可能なAIを開発しました。他にも多くのイノベーションの中で、人工知能は視覚障害のある人々が食料品を見つけるのを手助けするために手杖に統合されました。一方、ビジネスのフロントでは、OpenAIがMicrosoftとの数年間にわたる数十億ドルの取引を通じてAIの開発に大きく投資しました。 2023年2月のAIハイライト 2023年2月には、OpenAIのChatGPTに関する話題が最も盛り上がりました。このAI搭載のチャットボットは、アメリカ合衆国医師資格試験（USMLE）に合格し、その人気は1億人以上のユーザーにまで急上昇しました。 ChatGPTの現象に応えて、GoogleはAI会話の領域に新しい要素となるBard A.I.を導入しました。また、MicrosoftもChatGPTと統合された新しいBing検索エンジンの導入に重要な一歩を踏み出しました。 Metaは、Metaエコシステム内でAIの能力を向上させるというLLaMAを発表しました。一方、Amazon Web Services（AWS）は、一流のAIプラットフォームであるHugging Faceと提携し、AI開発者を支援しました。画期的な成果として、オックスフォードの研究者たちはRealFusionを示し、単一の画像から完全な360°写真モデルを再構築することができる最新のモデルを実証しました。 2023年2月には、AIの世界は音楽生成の領域にも足を踏み入れました。Google ResearchはMusicLMを紹介し、さまざまなジャンル、楽器、概念で曲を作成できるトランスフォーマーベースのテキストからオーディオへのモデルを提供しました。一方、Baiduの研究者はERNIE-Musicを発表し、拡散モデルを使用して、波形領域での最初のテキストから音楽を生成するモデルを開発しました。これらのモデルは、AIと創造的表現の融合における重要な進歩を示しています。 2023年3月のAIハイライト 2023年3月には、創造的なAIはいくつかの興味深い進展を見せました。AdobeはFireflyというAIをバックアップする画像生成および編集ツールの範囲でGenAIの領域に参入しました。一方、Canvaはユーザー向けにAIパワードの仮想デザインアシスタントとブランドマネージャーを導入しました。テックジャイアンツのAIプロジェクトは、第1四半期終盤に向けて全力で進展していました。OpenAIはChatGPTとWhisperというテキストから音声へのモデルのためのAPIを発売しました。OpenAIはまた、ChatGPTのためのいくつかのプラグインをリリースし、最も高度なAIモデルであるGPT-4を正式に発表しました。 HubSpotはユーザー向けにChatSpot.aiとContent Assistantという2つの新しいAIパワードツールを導入しました。ZoomはスマートコンパニオンのZoom…

『UC BerkeleyがAIフィードバックから強化学習を使って訓練されたオープンなLLMを発表』

新しいレポートでは、UCバークレーの研究者がReinforcement Learning from AI Feedback（RLAIF）を使って作成された革命的な大規模言語モデルであるStarling-7Bを紹介しています研究者たちは、このモデルが最先端の技術と手法を取り入れ、自然言語処理の領域を再定義する助けになることを期待しています研究者たちは、...

ジェンAIに関するトップ10の研究論文

イントロダクション自然言語理解の常に進化する風景の中で、研究者たちは革新的なアプローチを通じて可能性の限界を em>押し上げることを続けています。本記事では、生成AI（GenAI）に関する画期的な研究論文のコレクションについて探求していきます。これらの研究は、人間の好みとの一致度向上からテキストの説明から3Dコンテンツを生成するという様々な側面にわたって言語モデルを探究しています。これらの研究は学術的な論議に貢献すると同時に、自然言語処理の未来を形作る可能性のある実践的な洞察を提供しています。これらの啓発的な調査を通じて旅を始めましょう。 GenAIに関するトップ10の研究論文 GenAIに関する数百の研究論文の中から、以下は私たちのトップ10の選り抜きです。 1. 生成プリトレーニングによる言語理解の向上この研究論文は、非教示型のプリトレーニングと教示型のファインチューニングを組み合わせて自然言語理解タスクを強化するための半教師付きアプローチを探求しています。この研究では、Transformerアーキテクチャに基づいたタスクに依存しないモデルを利用しています。これにより、多様な未ラベルのテキストでの生成プリトレーニングとその後の識別的ファインチューニングによって、さまざまな言語理解ベンチマークでのパフォーマンスが大幅に向上することが明らかになりました。このモデルは、常識的な推論において8.9%、質問応答において5.7%、テキスト言い換えにおいて1.5%といった注目すべき改善を達成しました。この研究は、大規模な未ラベルのコーパスをプリトレーニングに活用し、ファインチューニング中のタスクに意識した入力変換を行うことが、教師なし学習を自然言語処理や他の領域で進めるための貴重な洞察を提供しています。論文はこちらで入手できます：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf 2. 人間フィードバックを用いた強化学習：悲観主義を通じたダイナミックな選択の学習この生成AIに関する研究論文は、オフラインでの人間フィードバックによる強化学習（RLHF）の難しい領域に深入りしています。この研究は、人間の選択に影響を受けたトラジェクトリの集合から、マルコフ決定過程（MDP）における人間の基盤と最適方策を把握することを目指しています。この研究は、経済計量学に根ざしたダイナミックディスクリートチョイス（DDC）モデルに焦点を当て、有界合理性を持った人間の意思決定をモデル化します。提案されたDynamic-Choice-Pessimistic-Policy-Optimization（DCPPO）メソッドは、次の3つのステージで構成されています。それらは、人間の行動方針と価値関数の推定、人間の報酬関数の再現、および事実に近い最適方策のための悲観的価値反復の呼び出しです。この論文は、動的なディスクリートチョイスモデルによるオフポリシーオフラインRLHFについての理論的な保証を提供しています。分布のシフトや次元のサブオプティマリティの課題への対処についての洞察も提供しています。論文はこちらで入手できます：https://arxiv.org/abs/2305.18438 3. ニューラル確率言語モデルこの研究論文は、次元の呪いによって生じる統計的言語モデリングの課題に取り組み、未見の単語の連続列に対して一般化する難しさに焦点を当てています。提案された解決策は、単語の分散表現を学習することで、各トレーニング文がモデルに対して意味的に隣接する文について情報を提供することを可能にします。単語の表現と単語列の確率関数を同時に学習することで、モデルは一般化性能を向上させることができます。ニューラルネットワークを用いた実験結果は、最先端のn-gramモデルに比べて大幅な改善を示しており、長い文脈を活用するアプローチの効果を示しています。論文は、学習された分散表現によって次元の課題に対処するモデルの能力を強調しながら、潜在的な将来の改善の可能性についても言及しています。論文はこちらで入手できます：https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf 4. BERT：言語理解のための深層双方向トランスフォーマーの事前学習 GenAIの研究論文では、未ラベル化されたテキストに対して双方向の事前学習を行うために設計された画期的な言語表現モデルであるBERTが紹介されています。従来のモデルとは異なり、BERTはすべてのレイヤーで左右の文脈に依存し、タスク固有の修正を最小限に抑えながら微調整を可能にします。BERTはさまざまな自然言語処理タスクで最先端の結果を実現し、その簡潔さと実証的なパワーを示しています。この論文では既存の技術の制約に対処し、言語表現のための双方向の事前学習の重要性を強調しています。BERTのマスクされた言語モデル目的は、深い双方向のTransformer事前学習を促進し、タスク固有のアーキテクチャへの依存を減らし、11のNLPタスクの最先端の技術を前進させています。…

Learn more about Search Results RLHF - Page 2