Learn more about Search Results 6 - Page 10

2023年6月のVoAGIトップ投稿:GPT4Allは、あなたのドキュメント用のローカルチャットGPTであり、無料です!

GPT4Allは、ドキュメント用のローカルChatGPTであり、無料です! • Falcon LLM:オープンソースLLMの新しい王者 • データサイエンスのチートシート用の10のChatGPTプラグイン • データサイエンス面接のチートシート用のChatGPT • データ分析を自動化するChatGPTプラグイン:Noteableプラグイン • 3...

「QLORAとは:効率的なファインチューニング手法で、メモリ使用量を削減し、単一の48GB GPUで65Bパラメーターモデルをファインチューニングできるだけでなく、完全な16ビットのファインチューニングタスクのパフォーマンスも保持します」

大規模言語モデル(LLM)は、追加または削除したい振る舞いを設定することも可能にするファインチューニングによって改善することができます。しかし、大きなモデルのファインチューニングは非常に高コストです。例えば、LLaMA 65Bパラメータモデルを標準の16ビットモードでファインチューニングすると、780GB以上のGPU RAMを消費します。最新の量子化手法はLLMのメモリフットプリントを軽減することができますが、これらの手法は推論時にのみ機能し、トレーニング時には失敗します。ワシントン大学の研究者たちは、QLORAを開発しました。QLORAは、高精度なアルゴリズムを使用して事前学習モデルを4ビットの解像度に量子化し、量子化結果に対する勾配を逆伝播させることで変更した一連の学習可能な低ランクアダプターの重みを追加します。彼らは、量子化された4ビットモデルがパフォーマンスに影響を与えずに調整できることを初めて示しています。 QLORAによって、65Bパラメータモデルのファインチューニングの平均メモリ要件を、ランタイムや予測パフォーマンスを犠牲にすることなく、16ビットの完全にファインチューニングされたベースラインから780GB以上のGPU RAMから48GBに削減することができます。これにより、これまでに公開されている最大のモデルでも単一のGPUでファインチューニングすることが可能となり、LLMのファインチューニングのアクセシビリティに大きな変化がもたらされます。彼らはQLORAを使用してGuanacoモデルファミリーを訓練し、最大のモデルは単一のプロフェッショナルGPUで24時間以上かけて99.3%の成績を達成し、VicunaベンチマークでのChatGPTに迫る成果を上げました。2番目に優れたモデルは、単一のコンシューマGPUで12時間未満の時間で、VicunaベンチマークでChatGPTのパフォーマンスレベルの97.8%に達します。 QLORAの以下の技術は、パフォーマンスを損なうことなくメモリ使用量を低減することを目的としています:(1) 4ビットNormalFloat、正規分布データのための量子化データ型であり、情報理論的に最適であり、4ビットの整数と4ビットの浮動小数点よりも優れた経験的な結果を生み出します。(2) ダブル量子化は、平均してパラメータごとに0.37ビット(または65Bモデルの約3GB)を節約し、量子化定数を量子化します。(3) ページドオプティマイザは、長いシーケンスを処理する際に勾配チェックポイントによるメモリスパイクを防ぐために、NVIDIA統一メモリを使用します。使用すると、最小のGuanacoモデル(7Bパラメータ)は、Vicunaテストで26GBのAlpacaモデルを20パーセント以上上回る性能を発揮しながら、5GB未満のメモリを使用します。 彼らはこれらの貢献をより洗練されたLoRA戦略に組み込み、以前の研究で特定された精度のトレードオフをほぼなくすようにしました。QLORAの効率性により、メモリコストのために従来のファインチューニングではできなかったモデルサイズに関する指示ファインチューニングとチャットボットのパフォーマンスをより詳細に分析することができます。その結果、彼らは80Mから65Bまでの様々な指示チューニングデータセット、モデルトポロジ、パラメータ値を使用して、1000以上のモデルをトレーニングしました。QLORAは16ビットのパフォーマンスを回復し、Guanacoという高度なチャットボットをトレーニングし、学習されたモデルのパターンを調査しました。 まず、両方が汎化後の指示を提供することを目的としているにもかかわらず、チャットボットのパフォーマンスでは、データの品質がデータセットのサイズよりもはるかに重要であることを発見しました。9kサンプルのデータセット(OASST1)は、チャットボットのパフォーマンスで450kサンプルのデータセット(FLAN v2、サブサンプリング)を上回ります。第二に、優れたMassive Multitask Language Understanding(MMLU)ベンチマークのパフォーマンスが必ずしも優れたVicunaチャットボットベンチマークのパフォーマンスにつながるわけではないこと、そしてその逆もまた同様であることを示しています。言い換えれば、特定のタスクにおいては、データセットの適切さがスケールよりも重要です。彼らはまた、人間の評価者とGPT-4を使用してチャットボットのパフォーマンスを詳細に評価しています。 モデルは、与えられた刺激に対する最適な応答を決定するために、トーナメント形式のベンチマークマッチで互いに競い合います。GPT-4または人間の注釈者がゲームの勝者を決定します。トーナメントの中でのモデルのパフォーマンスのランク付けには、GPT-4と人間の判断がほぼ一致することがわかりましたが、明確な相違点もあります。そのため、彼らはモデルベースの評価が不確実性を持つ一方で、人間の注釈よりも費用が抑えられるという事実に注意を喚起しています。 彼らはチャットボットのベンチマーク調査結果にグアナコモデルの質的分析を追加します。彼らの研究では、定量的な基準では考慮されなかった成功と失敗のインスタンスを特定します。彼らはGPT-4および人間のコメントを含むすべてのモデル世代を公開し、将来の研究を支援します。彼らは自分たちの技術をHugging Face transformersスタックに組み込み、ソフトウェアおよびCUDAカーネルをオープンソース化し、広く利用可能にします。32の異なるオープンソース化された改良モデルについて、サイズ7/13/33/65Bのモデルに8つの異なる命令従属データセットでトレーニングを行ったアダプターのコレクションを提供します。コードリポジトリは公開され、Colabでホストできるデモも提供されます。

「Pythia 詳細な研究のための16個のLLMスイート」

Pythiaは、Eleuther AIによる16の大規模言語モデルのスイートですトレーニングとスケーリング中に自己回帰的な大規模言語モデルを理解し、分析するのに役立ちます

「リードジェネレーションにおいて直接参加イベントがなおも最も有効な6つの理由」

リードを獲得し、新しいつながりを作ることは、製品やサービス、または他の提供物についてより多くの注目を集めるために依然として非常に重要ですオンライン上には無数の機会がありますが、それぞれがその正当性を持っていますが、対面でのネットワーキングはまだ最も良い方法の一つです...

「REPLUG」をご紹介しますこれは、凍結された言語モデルと凍結/調整可能なリトリーバを組み合わせた、検索増強型言語モデリング(LM)フレームワークですこれにより、GPT-3(175B)の言語モデリングの性能が6.3%向上します

近年、言語モデルは人工知能の中でも最も急速に成長している分野の一つとなっています。これらのモデルは、自然言語テキストの処理や生成を行うために開発され、最も革新的で画期的なAIアプリケーションの一部を駆動しており、AIの拡大における新たな時代の最先端に位置しています。特にGPT-3という言語モデルは、その非凡な能力とパフォーマンスにより、世界中で話題を集めています。GPT-3はトランスフォーマーアーキテクチャを使用してテキストを処理し、人間のように質問に答えることができるモデルを生み出します。さらに、このモデルは長いパラグラフを要約したり、コードを完成させたり、非常に高速かつ正確にタスクを完了させることさえ可能です。 GPT-3のような言語モデルはまだ完璧とは言えず、新しいプロンプトに対して正確かつ適切な応答を生成する際に制約があります。そこで、REPLUGという新しい手法が登場します。REPLUGは、検索補完型言語モデルフレームワークであり、ブラックボックス言語モデルのパフォーマンスを向上させる手法です。検索システムは、与えられたプロンプトに一致する大規模なテキストコーパス内の最適なパッセージを見つけ、その後、言語モデルを取得したパッセージに合わせて調整します。これにより、言語モデルは特にトレーニングデータに存在しないプロンプトの場合でも、より正確な回答を生成することができます。 REPLUG手法は、2つの主要なステップで構成されています- 文書の検索と入力の再構築です。まず、リトリーバーを使用して外部コーパスから関連文書を特定します。次に、各取得された文書は元の入力コンテキストに別々に追加され、複数のパスからの出力確率が結合されます。この手法では、異なるモダリティ間のネットワークを学習するために、アテンションメカニズムを強化するディープニューラルネットワークが使用されます。 REPLUGは、大規模な画像キャプションデータセットを含むさまざまなベンチマークデータセットでテストされ、精度とスケーラビリティの面で既存のシステムに比べてより良い結果を示しました。REPLUGの最大の利点の一つは、基礎となる言語モデルのアーキテクチャを変更する必要がないということです。GPT-3などの現行モデルは、検索システムを追加することで強化することができます。これにより、REPLUGは簡単にアクセスでき、実装することができます。チューニングされたリトリーバーを使用したREPLUGは、言語モデリングにおけるGPT-3(175B)のパフォーマンスを6.3%向上させるだけでなく、Codexの5ショットMMLUにおけるパフォーマンスを5.1%向上させます。 結果として、REPLUGの導入はNLPの分野においてゲームチェンジャーとなるようです。REPLUGは、ブラックボックス言語モデルと検索システムの両方の利点を組み合わせて、従来の言語モデルを凌駕するハイブリッドモデルを生成します。REPLUGによって使用されるディープニューラルネットワークアーキテクチャはスケーラブルであり、大量のマルチモーダルデータを処理する必要がある実世界のアプリケーションに適しています。REPLUGの潜在的な応用範囲は非常に広大であり、将来の展望も非常に有望です。

ヒストグラム均等化:ステップバイステップのガイドライン(06)

ヒストグラム平坦化は、画像の中の強度値を均一に分布させるプロセスですヒストグラム平坦化は、コンピュータビジョンにおけるシンプルなテクニックです

VoAGIニュース、7月26日:Googleによる無料の生成AIトレーニング•データエンジニアリング初心者ガイド•GPT-Engineer:あなたの新しいAIコーディングアシスタント

「Googleによる無料の生成AIトレーニング • データエンジニアリング初心者ガイド • GPT-Engineer あなたの新しいAIコーディングアシスタント • GPT-4の詳細がリークされました! • 大規模言語モデルを使用した生成AI ハンズオントレーニング」

ChatGPTカスタム指示の使用方法(6つのユースケース)

「カスタム指示」は、ChatGPTが応答を生成する際に考慮してほしい個人の好みや要件を追加することができます

PaLM-Eをご紹介します:新たな5620億パラメータの具現化された多モーダル言語モデルで、ロボットの操作計画やビジュアルQAなどのタスクを実行します

大容量の言語モデル(LLM)は、会話、ステップバイステップの推論、数学の問題解決、コードの作成など、さまざまな分野で強力な推論能力を示しています。LLMを膨大なテキストデータでトレーニングすることで、物理的な環境に関連する表現が生成されますが、それらの表現を現実世界の視覚的および物理的なセンサーモダリティに接続することは、コンピュータビジョンとロボティクスの現実世界の問題の幅広い範囲の解決に重要です。 従来の研究では、LLMの出力を学習されたロボットポリシーや利用可能な機能関数と統合して意思決定を行う方法に制約がありました。従来の研究の制限は、LLMがテキスト入力のみを受け取ることであり、シーンの幾何学的な構成が重要な多くのタスクには不十分です。さらに、彼らの研究は、ビジュアルクエスチョンアンサリング(VQA)などの一般的なビジョン言語タスクでトレーニングされた最先端のビジュアル言語モデルが、直接的にロボティックな推論問題を解決することができないことを示しています。この研究では、GoogleとTU Berlinの研究者は、具体的な世界における連続的な入力を直接的に取り入れ、言語モデルが実際の世界での連続的な意思決定により正確な結論を導くことができるようにする具体的な言語モデルを提案しています。彼らはPaLM-Eを開発しました。これはシングルビッグな具体的な多モーダルモデルであり、異なる観察モダリティにおける数多くの具体的な推論問題を解決し、正の転送を示します。 PaLM-E LLMは、学習者の第一言語(L1)の知識やスキルを第二言語(L2)の学習に適用することで、L2のより迅速かつ効果的な習得をもたらす正の転送を実現します。たとえば、学習者のL1がL2と類似の文法構造を持つ場合、L1の文法の知識を使用してL2の文法のルールをより迅速に理解し適用することができるかもしれません。同様に、学習者のL1とL2が同じ綴りと意味を持つ語(両言語で同じ綴りと意味を持つ語)を共有している場合、これらの語を認識し記憶することでL2の語彙を迅速に拡大することができるかもしれません。正の転送は、学習者のL1の知識やスキルがL2の習得能力に干渉する場合に生じる負の転送とは対照的です。たとえば、学習者のL1の文法構造がL2のそれと大きく異なる場合、彼らはそれらを理解していてもL2の文法のルールを正しく適用することに苦労するかもしれません。 言語トークンがTransformerベースのLLMのセルフアテンションレイヤーによって処理されるのと同様に、写真や状態推定などの入力も同じ潜在的な埋め込みに言語トークンとして組み込まれます。彼らは、連続的な入力をエンコーダを介して事前にトレーニングされたLLMに注入することから始めます。これらのエンコーダは、自然言語で順序判断を生成するためにエンドツーエンドでトレーニングを受けており、具体的な言語モデルが低レベルのルールを構成したり、具体的なクエリに応答したりすることで理解することができます。さまざまな入力表現(視覚入力の標準的なエンコーディングとオブジェクト中心のViTエンコーディングなど)を対比し、エンコーダのトレーニング中に言語モデルを凍結または微調整すること、および複数のタスクでの共同トレーニングが転送を可能にするかどうかを検証することにより、このアプローチをさまざまな文脈で評価します。 彼らは、3つのロボット操作ドメイン(そのうち2つは実世界でクローズドループ)と、OK-VQAベンチマークなどの一般的なビジョン言語タスク、および言語タスクでこの手法の幅広さを決定するために、テクニックをテストします。彼らの調査結果によれば、マルチタスクトレーニングは単一のタスクのモデルをトレーニングする場合よりもパフォーマンスを向上させます。彼らは、タスク間のこの転送が、ロボティクスタスクにおけるデータの効率性を大幅に向上させること、新しいアイテムの組み合わせや未知のオブジェクトへのワンショットまたはゼロショットの一般化を展示し、少数のトレーニングサンプルからの学習パフォーマンスを大幅に向上させることを示しています。彼らの知識によれば、540BのPaLM LLMと22Bのビジョントランスフォーマー(ViT)を組み合わせて、これまでに公開された最大のビジョン言語モデルであるPaLM-Eを562Bのパラメータにスケーリングしています。 タスク固有の微調整を使用せずに、PaLM-E-562BはOK-VQAベンチマークで最先端のパフォーマンスを実現しています。彼らはまた、PaLM-E-562Bがシングルイメージの例のみでトレーニングされているにもかかわらず、ゼロショットのマルチモーダルなCoT(Chain of Thought)の少数ショットの促進、OCRフリーの算術推論、およびマルチイメージ推論など、幅広いスキルを示すことを発見しています。彼らの知識によれば、ゼロショットのCoTは、タスク固有のプログラムを使用した多モーダルデータのエンドツーエンドモデルでまだ示されていないとのことです。 彼らの主な貢献をまとめると、彼らは(1)具体的なデータをトレーニングに組み込むことで、多様なモダリティを持つ大規模言語モデルをトレーニングし、一般化された、転移学習された、多様な具現化の意思決定エージェントを作成する方法を提案し、示しています。彼らは、最先端の汎用的なビジュアル言語モデルが、ボックス外の具現化の問題を効果的に解決しないことを示していますが(ゼロショット)、有能な具現化の理解者である一般的なビジュアル言語モデルをトレーニングすることが可能であることも示しています。このようなモデルの最適なトレーニングに関する研究を行っています。 彼らは(3)エンティティラベリングのマルチモーダルトークンやニューラルシーン表現など、新しいアーキテクチャの概念を提供しています。さらに、彼らは(4)PaLM-Eが具現化の理解者であるだけでなく、数量的に優れたビジョンと言語の一般的なモデリングも行えることを示し、(5)言語モデルのサイズを拡大することで、多様なモダリティの微調整がより壊滅的な忘却を伴わずに可能であることを示しています。さまざまなデモは、彼らのプロジェクトのウェブサイトで見ることができます。

ChatGPTの振る舞いは時間の経過と共に変化していますか?研究者がGPT-3.5とGPT-4の2023年3月版と2023年6月版を4つの異なるタスクについて評価します

大規模言語モデル(LLMs)は、人工知能の分野における最も革新的なイノベーションであることが成功裏に証明されています。BERT、PaLM、GPTからLLaMa DALL-Eまで、これらのモデルは、人間を模倣する目的で言語を理解し生成するという点で、驚異的なパフォーマンスを発揮しています。これらのモデルは、新しい情報、ユーザーの入力、および設計の変更に基づいて、継続的に改善されています。ただし、GPT-3.5およびGPT-4がどのくらいの頻度で更新されるかにはまだ不確定性があり、これらのLLMsをより広範なワークフローに統合することが困難になっています。 不安定性は、LLMの振る舞いが、プロンプトへの応答時の正確さやフォーマットなど、突然変わる場合に、ダウンストリームのパイプラインに影響を与える可能性があります。この予測不可能性は、開発者やユーザーが定期的な結果を信頼するのを困難にする可能性があり、現行のシステムやワークフローにLLMsを安定して統合することを制限するかもしれません。異なる大規模言語モデル(LLMs)の振る舞いが時間とともにどのように変化するかを研究するため、スタンフォード大学とUCバークレーの研究チームが、GPT-3.5とGPT-4の2023年3月版および2023年6月版の振る舞いを評価しました。 変化を定量化するために、モニタリングするLLMサービス、重点を置くアプリケーションシナリオ、および各シナリオでのLLMのドリフトを測定するためのメトリクスの3つの重要な要素が使用されました。この研究では、ChatGPT、GPT-4、およびGPT-3.5のコアコンポーネントが監視されています。ChatGPTが企業や個人の両方に受け入れられており、人気もありますので、これら2つのサービスを体系的かつタイムリーにモニタリングすることで、ユーザーは特定のユースケースに対してより理解しやすく、LLMsを使用することができます。 研究では、OpenAIのAPIを介してアクセスできるGPT-4とGPT-3.5のメジャーバージョンの2023年3月版と2023年6月版のスナップショットを使用し、2つの日付間の変動または「ドリフト」を調査することが主な目的となっています。チームは、パフォーマンスと安全性のベンチマークとして使用される4つの一般的に研究されているLLMタスクを評価するために選びました。これらのタスクには次のものが含まれます。 数学問題の解決 – 正確さは、LLMサービスが正しい回答をどれだけ頻繁に生成するかを示す指標です。 デリケートな質問への回答:回答率は、LLMサービスが直接的な回答をどれだけ頻繁に提供するかを示します。 コード生成 – プログラミング環境で即座に実行可能で、ユニットテストを満たす生成されたコードの割合。 視覚的推論 – エクサクトマッチは、生成された視覚オブジェクトがソース素材と正確に一致しているかどうかを評価します。 まとめると、この研究では、GPT-4とGPT-3.5に焦点を当て、4つの選択されたタスクで評価し、専門的なパフォーマンス指標と他の一般的なメトリクスを使用して、各シナリオでのLLMのドリフトを定量化し測定することで、さまざまなLLMsの振る舞いが時間とともにどのように進化するかを調べています。研究の結果は、ユーザーがLLMの振る舞いをよりよく理解し、これらのモデルをさまざまなアプリケーションに活用するのに役立つことができます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us