Search Results SFT

スタビリティAIは、Beluga 1およびStable Beluga 2の新しいオープンアクセスLLMをリリースしました

新しいブログで、Stability AIとそのCarperAI研究所は、Stable Beluga 1とその後継機であるStable Beluga 2（以前はFreeWillyとして知られていました）を発表しました彼らの投稿によれば、これら2つの大規模言語モデルの目標は、オープンアクセスのAI研究の拡大と新たな基準の創造ですStable Beluga...

このAIニュースレターは、あなたが必要なもの全てです＃58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシミュレーターアプリケーションの発表が含まれています

「UCバークレーの研究者たちは、Chain of Hindsight（CoH）という新しい技術を提案しましたこれにより、LLMsがあらゆる形式のフィードバックから学び、モデルのパフォーマンスを向上させることが可能となります」

過去数年間、大規模なニューラルネットワークが研究者の注目を集めています。これは、自然言語理解や難解な数学の方程式の解決、さらにはタンパク質構造の予測など、さまざまなタスクで優れたパフォーマンスを発揮するためです。しかし、これらのモデルが社会に建設的な貢献をするためには、人間の価値観に合致し、人間の好みを考慮することが重要です。ヒューマンフィードバックの利用は、これを達成するための最も重要な要素の一つであり、正確性、公平性、バイアスなどの幅広い指標に基づいてこれらのモデルのパフォーマンスを評価し、より倫理的な出力を生成するための改善方法を提供します。ユーザーフィードバックの組み込み効率を向上させるために、研究者たちは過去数年間にさまざまなヒューマンインザループシステムのアプローチを試行してきました。その結果、ChatGPTとInstructGPTは、ヒューマンフィードバックを利用して驚くべき結果を示しました。これらの言語モデリングのパフォーマンスの向上は、主に教師ありファインチューニング（SFT）と人間のフィードバックによる強化学習（RLHF）アプローチによる戦略によるものとされています。これらの戦略は、言語モデルのパフォーマンスに関する有望な結果を達成する上で大きく貢献していますが、それぞれに固有の欠点があります。SFTは主に人間の注釈に頼っており、これらのモデルは使用が困難でデータの利用効率も低いです。一方、強化学習は報酬関数に基づいて動作するため、これらのモデルを最適化することは非常に困難です。これらの問題に対処するため、カリフォルニア大学バークレー校の研究者たちは、フィードバックを文に変換し、モデルがフィードバックを理解するためにファインチューニングするという新しい技術を開発しました。この技術は、言語で提供される大量のフィードバックを人間がどのように処理するかに大いに触発されたものです。この技術の設計時の研究者の目標は、強化学習を使用せずにすべてのフィードバックを十分に活用する一方で、SFTとRLHFの強みを組み合わせることで、モデルがより正確かつ効果的にさまざまなタスクを実行できるようにすることでした。研究者たちは、人間は言語形式の豊かなフィードバックから効果的に学ぶことができるという事実を利用しました。事前学習された言語モデルが文脈で効果的に学習する能力が優れていることを考えると、すべてのフィードバックを文に変換し、モデルにフィードバックに従うように学習させる可能性について研究者たちは疑問を抱きました。具体的には、研究者たちはモデルをファインチューニングして結果を予測させる一方で、1つ以上のソートされた結果とそのフィードバックを比較の形式で使用することを提案しました。CoHは、訓練中にランダムに1つ以上のモデルの出力を選択し、比較の形で肯定的なフィードバックと否定的なフィードバックの両方を含む文を構築するためにそれらを利用します。例えば、2つの例文は「以下は悪い要約です」と「以下の要約はより良いです」となります。モデルは推論時に肯定的なフィードバックを使用して望ましい出力を生成します。 CoHのアプローチにより、モデルは肯定的なフィードバックと否定的なフィードバックの両方から学習することができ、否定的な属性やエラーを特定して修正することができます。この戦略には、より有機的なスタイルのフィードバックやトレーニングシステムなど、さまざまな利点があります。また、CoH技術は、研究者による数多くの実験的評価において、言語モデルと人間の好みの相関において以前のアプローチを大幅に上回る成果を behしました。この方法はヒューマン評価で好まれ、要約やディスカッションのタスクでも非常に優れた結果を behしました。カリフォルニア大学バークレー校のチームは、CoHが将来的に自動や数値のフィードバックなど、さまざまなタイプのフィードバックを使用する際に大きな潜在能力を持つと強く信じています。

MySQLのJSON_ARRAYAGG関数をハッキングして、動的で複数値の次元を作成する

「データチームのメンバーとして、定期購入ボックス会社で働いていると想像しましょうMySQLデータベースでは、購入の取引記録がsubscriptionsというテーブルに書き込まれますメタデータを除いた場合、...」

Agents.jsをご紹介します：JavaScriptを使用して、あなたのLLMにツールを提供します

最近、私たちはhuggingface.jsでAgents.jsに取り組んでいます。これはJavaScriptからLLMsに対するツールアクセスを提供するための新しいライブラリで、ブラウザまたはサーバーのどちらでも使用できます。デフォルトでいくつかのマルチモーダルツールが付属しており、独自のツールや言語モデルで簡単に拡張することができます。インストール始めるのは非常に簡単です。次のコマンドでnpmからライブラリを取得できます： npm install @huggingface/agents 使用方法このライブラリはHfAgentオブジェクトを公開しており、これがライブラリへのエントリーポイントです。次のようにインスタンス化することができます： import { HfAgent } from "@huggingface/agents"; const HF_ACCESS_TOKEN = "hf_..."; // https://huggingface.co/settings/tokensでトークンを取得してください const agent = new…

スタビリティAIチームが、新しいオープンアクセスの大規模言語モデル（LLM）であるFreeWilly1とFreeWilly2を紹介します

FreeWilly1とその後継であるFreeWilly2は、Stability AIのCarperAIチームによって開発された強力な新しいオープンソースの大規模言語モデル（LLM）です。両モデルは、多くの異なるメトリックを使用して、推論コンテストで非常に優れたパフォーマンスを発揮します。業界標準のAlpaca形式の教師ありファインチューニング（SFT）を使用して、FreeWilly1モデルをファインチューニングしました。このモデルは、元のLLaMA 65Bファウンデーションモデルの上に構築されています。FreeWilly2は、LLaMA 2 70Bベースモデルを使用して、一部のタスクでGPT-3.5と同等のパフォーマンスを実現しています。 FreeWillyモデルのトレーニングは、Microsoftの画期的なアプローチに大きく影響を受けており、記事「Orca：GPT-4の複雑な説明トレースからの進行的学習」で説明されています。チームは、高品質なインストラクションで言語モデルにプロンプトを与え、データセットのコピーを生成しました。このデータセットには、オリジナルのOrcaの作業で使用されたデータセットサイズの約10％に相当する60万件のデータポイントが含まれています。この方法を使用して、研究者は、より複雑なLLMモデルを使用して追加の10万件、より単純なLLMモデルを使用して50万件を生成しました。彼らはこれらのデータセットを徹底的にスクリーニングし、評価ベンチマークからのケースを削除して、有効な比較を保証しました。彼らの合成生成データセットへのアプローチは、オリジナルのOrcaの論文で使用されたサンプルサイズの10分の1しかトレーニングしていないにもかかわらず、FreeWillyモデルが複数のベンチマークで非常に優れたパフォーマンスを発揮していることで検証されています。研究者は、これらのモデルの評価を行うためにEleutherAIのlm-eval-harnessにAGIEvalを追加しました。その結果、両FreeWillyモデルは、法律や数学などの専門分野の難しい問題の解決、複雑な推論の実行、言語のニュアンスの認識において優れたパフォーマンスを発揮することが示されています。チームは、これらのモデルが話された言語を理解する能力を向上させ、以前は不可能だった可能性を開拓すると信じています。彼らはこれらのモデルの革新的な使用法を人工知能で見ることを望んでいます。

生産性のパラノイアを打破する：Microsoft 365コパイロットには賛成ですか？

Microsoft 365 Copilotは30ドルで価格設定されていますこれは多くの企業にとって、Microsoftのサブスクリプションに対する現在の支出を倍増、あるいは3倍にする可能性があります（The Verge、2023年7月18日）あなたは…

新しいAI研究が「方向性刺激プロンプティング（DSP）」を導入：望ましい要約を生成するためにLLMをより適切に導くための新しいプロンプティングフレームワーク

自然言語処理（NLP）は、最近の大規模言語モデル（LLM）の出現により、従来の比較的小さな言語モデル（LM）であるGPT-2やT5 Raffel et al.などを上回る性能を示すようになり、さまざまなNLPタスクでパラダイムシフトを経験しています。プロンプトは、LLMを使用して自然言語の指示を使用してさまざまなタスクを実行するための事実上の方法であり、パラメータの更新なしにLLMを誘導して望ましい出力を生成させるための方法です。これに対して、従来のファインチューニングパラダイムでは、LMのパラメータを各ダウンストリームタスクごとに更新することができます。このプロンプトスキーマにより、LLMはゼロショットまたはフューショットの環境でさまざまなタスクで非常によいパフォーマンスを発揮することができますが、特定のダウンストリームタスクにおけるパフォーマンスはまだ改善が必要であり、特にトレーニングデータが利用可能な場合には追加の改良が必要です。それにもかかわらず、ほとんどのLLMはブラックボックスの推論APIのみを提供し、ファインチューニングにはコストがかかるため、ほとんどのユーザーや研究者はこれらのLLMを直接最適化することはできません。したがって、解決する必要のある難しいトピックは、トレーニングインスタンスが限られている場合にどのように効果的にLLMのパフォーマンスを向上させるか、です。カリフォルニア大学サンタバーバラ校とマイクロソフトの新しい研究では、指向性刺激プロンプティング（DSP）アーキテクチャを提案しています。このアーキテクチャは、小さなチューナブルLM（RL）を使用して、凍結されたブラックボックスLLMをダウンストリームタスクで強化するものです。ソース：https://arxiv.org/pdf/2302.11520.pdf | 図1：通常のプロンプトアプローチと提案された指向性刺激プロンプティングを使用した要約タスクに使用される時間の比較。この例では、キーワードが刺激として使用され、それからLLMによって所望の要約がよりスコアリングスコアや他のメトリック（青色でハイライト表示）で提供されるように指示します。具体的には、各入力テキストに対して、小さなLM（ポリシーLMと呼ばれる）が指示された刺激として一連の離散トークンを提供し、ジョブに対する一般的なキューではなく、入力サンプルに関する特定の情報や指示を提供するように学習します。目的の目標、例えばパフォーマンスメジャースコアの向上などに向けて、作成された刺激は元の入力とブレンドされ、LLMに供給されます。彼らは最初に、収集されたわずかなトレーニングサンプルを使用して、事前トレーニングされたLMを使用した教師ありファインチューニング（SFT）を行います。トレーニングは、ポリシーLMによって生成される刺激に基づいてLLM生成のダウンストリームパフォーマンスメジャーのスコアを最大化することを目指しています。より良い刺激を探索するための追加の最適化の後、洗練されたLMはRLでポリシーLMを初期化します。図1は要約のジョブのサンプルを示しています。キーワードに基づいて必要な要約をLLMに生成させるために、キーワードは刺激（ヒント）として機能します。ポリシーLMは、ROUGEなどの評価メトリックスコアをインセンティブとして使用して最適化することができ、LLMがより良い要約を生成するためにポリシーLMがキーワードを提供するようにします。LLMは優れた生成スキルを持っていますが、しばしば望ましくない振る舞いを示すため、特定のダウンストリームタスクにおいて意図した生成特性と方向に対する詳細なガイダンスが必要です。これが彼らの提案手法の基礎です。小さなポリシーLMは、サンプルごとの細かいガイダンスを意図した目標に向けて提供するための一連のトークンを生成することができますが、人間の話し言葉に似たテキストを生成することはできません。従来の研究がクエリをより明確に説明しようとするプロンプトエンジニアリング/最適化を介して最適なプロンプトを見つけるのに対して、RLは最適化されたオブジェクト（例：刺激を生成する小さなポリシーLM）とLLM生成によって定義される最適化目標とのギャップを埋める自然な解決策を提供します。彼らのアプローチは、各「質問」に対して「ヒント」または「手がかり」を提供しようとするものであり、推論タスクを解決する際に中間の推論ステップを生成することを促すチェーンオブソートプロンプティングとは異なります。彼らのアプローチは、1つの正しい「答え」だけではない生成タスクを対象とし、小さなチューナブルモデルを使用してLLMを制御およびガイドし、要約および対話応答生成タスクでフレームワークを評価しています。たとえば、刺激を作り出す小さなポリシーLMは最適化されたオブジェクトですが、LLMの生成は最適化の目標を決定します。RLはこのギャップを埋めるための簡単な方法を提供します。以前の研究とは異なり、この研究ではプロンプトエンジニアリングや最適化を使用して「質問」を明確にしようと試みます。彼らの戦略は、各「質問」に対して「ヒント」や「手がかり」を提供することを目指しています。また、論理を必要とするタスクを完了する際に、Mindが独自の推論の中間ステップを生成することを奨励するチェーンオブソートプロンプティングとは異なります。彼らの手法は、複数の有効な「応答」を生成するジョブを対象とし、シンプルな調整可能なモデルを使用してLLMを制御・誘導します。ディスカッションの応答や要約の開発を必要とする課題に対して、彼らのフレームワークを評価します。テストでは、750M Flan-T5-largeをポリシーLMとし、175B CodexをLLMとして使用します。テスト結果によると、Codexは調整されたT5が生成した指示に依存すると、下流のタスクでのパフォーマンスが著しく向上します。要約に含まれるべきキーワードは、要約ジョブへの誘導刺激として使用されます。CNN/Daily Mailデータセットから2,000のサンプルを使用してトレーニングされたT5を使用することで、すでにCodexのパフォーマンスは7.2%向上しています。 MultiWOZデータセットからの500の対話に対して、意図された応答の背後の意味を指定する会話アクトを開発するために、彼らはポリシーLMをトレーニングします。ポリシーLMによって生成された対話アクションにより、Codexのパフォーマンスは合計スコアで52.5%向上しました。これにより、以前の完全なトレーニングデータ（8438の対話）でトレーニングされたシステムと同等またはそれ以上の性能を発揮します。

メタAIは、CM3leonを紹介します：最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー

自然言語処理とテキスト入力に基づいた視覚生成システムは、最近、生成型AIモデルへの新たな関心を引き起こしています。最近のメタ研究では、テキストと画像の両方を生成することができる単一の基礎モデルであるCM3leon（発音は「カメレオン」）が明らかにされました。大規模な検索支援付き事前学習段階と、2番目のマルチタスク監督された微調整（SFT）段階を備えたCM3leonは、テキストのみの言語モデルから変更されたレシピを使用して開発された最初のマルチモーダルモデルです。 CM3Leonのアーキテクチャは、人気のあるテキストベースのモデルと似ており、デコーダーのみのトランスフォーマーを使用しています。CM3Leonの特徴は、テキストと視覚の両方を受け取り、生成することができることです。従来のトランスフォーマーベースの手法よりも5倍少ない計算で訓練されているにもかかわらず、CM3leonはテキストから画像への生成において最先端のパフォーマンスを提供します。 CM3leonは、自己回帰モデルの柔軟性とパワー、およびトレーニングと推論の効率と経済性を備えています。任意のテキストと画像シーケンスに基づいてテキストと画像のシーケンスを生成することができるため、CM3モデルは因果マスク混合モデルの基準を満たしています。これにより、これらのタスクのいずれかを実行できる以前のモデルよりも大幅に改善されます。研究者たちは、画像キャプション生成、ビジュアルクエスチョンアンサリング、テキストベースの編集、条件付き画像生成などのタスクに対してCM3leonに大規模なマルチタスク指示の微調整を適用することで、パフォーマンスを大幅に向上させることを示しています。チームは、元のモデル出力からより高解像度の画像を作成するために独立してトレーニングされたスーパーレゾリューション段階を追加しました。調査結果によると、CM3LeonはGoogleのPartiテキストから画像モデルを上回ります。最も人気のある画像生成ベンチマーク（ゼロショットMS-COCO）でのFID（フレシェ・インセプション・ディスタンス）スコアが4.88となり、新たな最先端を築いています。この成功は、検索の強化とスケーリング技術が自己回帰モデルの出力を決定する上での重要性を示しています。CM3leonは、長いキャプション付けやビジュアルクエスチョンアンサリングなどのビジョン言語タスクで優れたパフォーマンスを発揮します。CM3Leonのゼロショットパフォーマンスは、3十億のテキストトークンから成るデータセットでしか訓練されていないにもかかわらず、より大きなデータセットで訓練されたより大規模なモデルと競争力を持っています。 CM3leonは、さまざまなタスクで印象的なパフォーマンスを示すことで、チームは将来的にはより高い精度で画像を生成し理解することができると期待しています。

「Llama 2が登場しました – Hugging Faceで手に入れましょう」

はじめに Llama 2は、Metaが本日リリースした最新のオープンアクセスの大規模言語モデルのファミリーです。私たちはHugging Faceとの包括的な統合を完全にサポートすることで、このリリースを支援しています。Llama 2は非常に寛容なコミュニティライセンスでリリースされ、商業利用も可能です。コード、事前学習モデル、ファインチューニングモデルはすべて本日リリースされます🔥 私たちはMetaとの協力により、Hugging Faceエコシステムへのスムーズな統合を実現しています。Hubで12のオープンアクセスモデル（3つのベースモデルと3つのファインチューニングモデル、オリジナルのMetaチェックポイントを含む）を見つけることができます。リリースされる機能と統合の中には、以下のものがあります：モデルカードとライセンスを備えたHub上のモデル。 Transformersの統合単一のGPUを使用してモデルの小さなバリアントをファインチューニングするための例高速かつ効率的なプロダクションレディの推論のためのテキスト生成インファレンスとの統合インファレンスエンドポイントとの統合目次 Llama 2を選ぶ理由デモインファレンス Transformersを使用する場合インファレンスエンドポイントを使用する場合 PEFTによるファインチューニング追加リソース結論 Llama 2を選ぶ理由…

Learn more about Search Results SFT - Page 7