Learn more about Search Results OpenLLaMA

高度なRAGテクニック:イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず、参照のみ行い、それについては放置します

『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者向けにさまざまな選択肢を提供しています。しかし、これらのLLMの大部分は、エンドモデルの重みや推論スクリプトなどの一部のコンポーネントだけが利用可能であり、技術的なドキュメントでは、一般的な設計の側面や基本的なメトリックに焦点を絞った内容が多いです。このアプローチでは、LLMのトレーニング手法の明確性が低下し、チームがトレーニング手順のさまざまな側面を継続的に解明するための努力が重複してしまいます。 Petuum、MBZUAI、USC、CMU、UIUC、UCSDの研究者チームが、LLM360を導入しました。これは、エンドツーエンドのLLMトレーニングプロセスを透明で再現可能にすることにより、オープンかつ協力的なAIの研究をサポートするイニシアチブです。LLM360は、トレーニングコードとデータ、モデルのチェックポイント、中間結果などのすべてをコミュニティに提供することを主張する、完全なオープンソースのLLMです。 LLM360に最も近いプロジェクトはPythiaであり、LLMの完全な再現性を目指しています。GPT-JやGPT-NeoXなどのEleutherAIモデルは、トレーニングコード、データセット、中間モデルのチェックポイントと共にリリースされており、オープンソースのトレーニングコードの価値を示しています。INCITE、MPT、OpenLLaMAは、トレーニングコードとトレーニングデータセットがリリースされ、RedPajamaも中間モデルのチェックポイントを公開しています。 LLM360は、AMBERとCRYSTALCODERの2つの7BパラメータLLMをリリースし、そのトレーニングコード、データ、中間チェックポイント、分析も提供します。事前トレーニングデータセットの詳細、データの前処理、フォーマット、データミキシングの比率、LLMモデルのアーキテクチャの詳細については、研究で詳しく説明されています。 この研究では、以前の研究で導入された記憶スコアの使用と、メトリック、データチャンク、チェックポイントの公開により、研究者が対応関係を容易に見つけることができるようになることを示しています。研究ではまた、LLMが事前にトレーニングされたデータを削除することの重要性や、データのフィルタリング、処理、トレーニング順序の詳細についても強調しています。 研究では、ARC、HellaSwag、MMLU、TruthfulQAの4つのデータセットについてのベンチマーク結果が示され、モデルの事前トレーニング中のパフォーマンスが示されています。HellaSwagとARCの評価スコアはトレーニング中に単調に増加し、TruthfulQAのスコアは減少します。MMLUのスコアは最初に減少し、その後成長します。AMBERのパフォーマンスはMMLUなどのスコアで競争力があるものの、ARCでは遅れています。ファインチューニングされたAMBERモデルは、他の類似モデルと比較して強力なパフォーマンスを示します。 LLM360は、オープンソースLLMの完全かつ包括的なイニシアチブであり、オープンソースのLLM事前トレーニングコミュニティ内での透明性を推進するものです。この研究では、AMBERとCRYSTALCODERの2つの7B LLMをトレーニングコード、データ、中間モデルのチェックポイント、分析と共にリリースしています。研究では、チェックポイント、データチャンク、評価結果を公開することにより、包括的な分析と再現性を可能にするため、すべての角度からLLMをオープンソース化することの重要性を強調しています。 “`

プリンストンの研究者が、構造化プルーニングを介した言語モデルの事前トレーニングの加速のためのシャアドLLaMAモデルを紹介します

“` 大型言語モデル(LLM)は、多様な自然言語タスクにおける優れた能力により、非常に人気が高まっています。彼らは急速に成長していますが、これらのモデルを訓練するために必要な巨大な計算リソースは大きな欠点です。その結果、LLaMA、MPT、Falconなどのよりコンパクトで効果的なLLM(Voice-operated Artificial General Intelligence)サイズのモデルの需要が高まっています。これらのモデルは、効果的な推論と微調整を提供することで、さまざまなユースケースをサポートすることを意図しています。しかし、最小の数十億パラメータLLMすら最初から訓練することは、多くの組織にとって計算リソースの観点から非常に高価です。 研究者たちは以前から、中程度の大きさのLLaMAのような大型言語モデル(LLM)よりも小さな言語モデルが同じぐらい強力であることを示してきました。これらのモデルは、訓練にはかなりの処理能力が必要な大規模なLLMに代わるより効果的な代替手段と考えられています。最近の研究では、研究チームが、大きな事前訓練済みモデルを小さなLLMに圧縮する際に成功した技術である構造化プルーニングの有用性を調査しました。この手法は、以下の2つの基本的な戦略を利用します。 ターゲット指向の構造化プルーニング:この技術は、より大きな言語モデルからレイヤー、ヘッド、中間、隠れた次元を体系的に削除して、目標の構成に調整します。この手順は始めから終わりまで実行されるため、モデルの一貫性と機能が保たれます。重要な言語理解能力を損なうことなく、モデルを最適化します。 ダイナミックバッチローディング:この手法は、異なるドメインの損失レベルに応じて、各バッチ内でトレーニングデータの構成を変更します。モデルは、パフォーマンスが十分に発揮されていないタスクやドメインにより集中するように、各バッチで使用されるデータサンプルを動的に変更します。この方法により、モデルは効果的にパフォーマンスを調整し、全体的な効率を向上させることができます。 Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、LLaMA2-7Bモデルのプルーニングから作成されたより小さいLLMであり、この提案された手法がどれだけ効果的であるかを示しています。このトリミング手法は、訓練セットの500億トークン、またはOpenLLaMAの事前訓練予算の5%しか消費しません。これらの欠点にもかかわらず、Sheared-LLaMA-1.3BとSheared-LLaMA-2.7Bは、Pythia、INCITE、OpenLLaMAなどの同様のスケールの他の有名なLLMよりも、11の典型的な下流のタスクでより良いパフォーマンスを示します。これらのタスクは、オープンエンドの生成のための命令チューニング、読解力、常識の理解、世界知識など、さまざまなトピックについて対応しています。 枝切りモデルの性能トラジェクトリーに基づくと、より多くのトークンでの追加トレーニングもさらなる利益の増大につながる可能性があります。現在の研究の試験は、最大7,000,000,000パラメータを持つモデルに限定されていますが、LLM枝切り技術は高い一般化可能性を備え、将来の調査では任意の大きさの大型言語モデルを含むことができます。 要するに、LLM枝切りは、ダイナミックバッチローディングと重点的な構造化プルーニングを活用したLLMのサイズ削減の包括的なアプローチを提供します。同等のサイズのモデルよりも多様な下流のタスクで優れたパフォーマンスを発揮するSheared-LaMAモデルの構築は、それの効果を実証しています。この手法は、より効果的かつ経済的な小さなが強力なLLMを開発する方法を示し、様々なモデルサイズに利用できます。 “`

「Colabノートブックで自分のLlama 2モデルを微調整する」

「この記事では、なぜファインチューニングが機能するか、そしてGoogle Colabノートブックで実装する方法を見て、独自のLlama 2モデルを作成します」

北京大学の研究者たちは、ChatLawというオープンソースの法律用の大規模言語モデルを紹介しましたこのモデルには、統合された外部知識ベースが搭載されています

人工知能の成長と発展により、大規模な言語モデルが広く利用可能になりました。ChatGPT、GPT4、LLaMA、Falcon、Vicuna、ChatGLMなどのモデルは、さまざまな伝統的なタスクで優れたパフォーマンスを発揮し、法律業界にとっても多くの機会を開いています。ただし、信頼性のある最新かつ高品質なデータを収集することが、大規模な言語モデルの構築には不可欠です。したがって、効果的かつ効率的なオープンソースの法律言語モデルの作成が重要になっています。 人工知能による大規模モデルの開発は、医療、教育、金融など、いくつかの産業に影響を与えています。BloombergGPT、FinGPT、Huatuo、ChatMedなどのモデルは、難解な問題の解決や洞察に有用で効果的であることが証明されています。一方で、法律の領域では、その固有の関連性と正確さの必要性から、徹底的な調査と独自の法的モデルの作成が求められます。法律は、コミュニティの形成、人間関係の規制、そして正義を確保する上で重要です。法律実務家は、賢明な判断を下し、法律を理解し、法的助言を提供するために正確で最新の情報に頼る必要があります。 法的用語の微妙なニュアンス、複雑な解釈、法律の動的な性質は、特殊な問題を引き起こし、専門的な解決策を必要とします。最先端のGPT4などのモデルでも、法的な困難に関しては頻繁に幻覚現象や驚くべき結果が生じることがあります。多くの人々は、関連するドメインの専門知識でモデルを改善することが良い結果をもたらすと考えています。しかし、早期の法的LLM(LawGPT)にはまだ多くの幻覚と不正確な結果が存在するため、これは事実ではありません。当初は中国の法的LLMの需要があることが理解されました。しかし、13億以上のパラメータを持つ中国のモデルは、商業的に利用可能な時点では存在しませんでした。MOSSなどのソースからのトレーニングデータを組み合わせ、中国語の語彙を増やすことで、経済的に実現可能なモデルであるOpenLLAMAの基盤が改善されました。これにより、北京大学の研究者は、中国語の基本モデルを構築し、それに法律特有のデータを追加してChatLawという法的モデルをトレーニングすることができました。 以下は、論文の主な貢献です: 1. 幻覚を減らすための成功した方法:モデルのトレーニング手順を改善し、推論時に「相談」「参照」「自己提案」「応答」という4つのモジュールを組み込むことにより、幻覚を減らす方法を提案しています。参照モジュールを介して垂直モデルと知識ベースを統合することで、幻覚がより少なくなり、ドメイン固有の知識がモデルに組み込まれ、信頼性のあるデータが知識ベースから使用されます。 2. ユーザーの日常言語から法的特徴語を抽出するモデルがトレーニングされました。これはLLMに基づいています。法的な意味を持つ用語を認識するこのモデルの助けを借りて、ユーザーの入力内の法的状況を迅速かつ効果的に特定し、分析することができます。 3. BERTを使用して、ユーザーの普通の言語と930,000件の関連する裁判文書のデータセットとの類似度を測定するモデルがトレーニングされました。これにより、類似した法的文脈を持つ文章を迅速に検索し、追加の研究や引用が可能になります。 4. 中国語の法的試験評価データセットの開発:中国語を話す人々の法的専門知識を評価するためのデータセットを作成しました。また、さまざまなモデルが法的な多肢選択問題でどれだけ優れたパフォーマンスを発揮するかを判断するためのELOアリーナスコアリングシステムも作成しました。 また、一つの汎用的な法的LLMは、この領域で一部のタスクに対してのみうまく機能する可能性があります。そのため、彼らは複数の状況に対応するために、多肢選択問題、キーワード抽出、質問応答などのさまざまなモデルを開発しました。HuggingGPT技術を使用して、大規模なLLMをコントローラーとして使用し、これらのモデルの選択と展開を管理しました。ユーザーの要求に基づいて、このコントローラーモデルは動的に特定のモデルを選択してアクティブにし、タスクに最適なモデルを使用することを保証します。

FastAPI、AWS Lambda、およびAWS CDKを使用して、大規模言語モデルのサーバーレスML推論エンドポイントを展開します

データサイエンティストにとって、機械学習(ML)モデルを概念実証から本番環境へ移行することは、しばしば大きな課題を提供します主な課題の一つは、良好なパフォーマンスを発揮するローカルトレーニング済みモデルをクラウドに展開して、他のアプリケーションで使用することですこのプロセスを管理することは手間がかかる場合がありますが、適切なツールを使用することで、...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us