Learn more about Search Results リリース

インドのスタートアップ、OpenHathiをリリース:初のヒンディー語LLM

言語の革新に向けた注目すべき一歩として、インドのAIスタートアップSarvam AIがOpenHathi LLMをリリースし、ヒンディー語の言語モデルの領域で重要な進歩を遂げました。シリーズAの資金調達で4100万ドルという印象的な数字を獲得したわずか1週間後、同社はOpenHathiシリーズの初のリリースであるOpenHathi-Hi-v0.1を発表しました。 OpenHathiの起源 Sarvam AIの最新の創作物は、ヒンディー語の微妙さに合わせて特別に設計されたMeta AIのLlama2-7Bアーキテクチャに基づいています。OpenHathiシリーズの最初のヒンディー語の大規模言語モデル(LLM)と位置づけられ、インド系言語のGPT-3.5と同等のパフォーマンスを約束しています。このモデルの基盤は、Llama2-7Bの機能を拡張する予算に優しいプラットフォームにあるのです。 トレーニングプロセスの紹介 OpenHathi-Hi-v0.1は、入念な2つのフェーズのトレーニングプロセスを経ます。最初に、ランダムに初期化されたヒンディー語の埋め込みを整列させる埋め込みの整列に焦点を当てます。次に、モデルはバイリンガルな言語モデリングに取り組み、トークン間でクロスリンガルな注意を習得します。その結果、ヒンディー語のさまざまなタスクで堅牢なパフォーマンスが得られ、ネイティブおよびローマ字表記のスクリプトの両方で優れた能力を発揮できるようになります。 協力と学術貢献 Sarvam AIのOpenHathi-Hi-v0.1は、AI4Bharatの学術パートナーとの共同開発によるもので、これらのパートナーが提供する言語リソースとベンチマークを活用しています。この共同の取り組みは、最近KissanAIが発表したDhenu 1.0のように、英語、ヒンディー語、ヒングリッシュの農業に関する大規模言語モデルで示されるように、言語の境界を超えて拡張されています。 Sarvam AIの今後の展望 Sarvam AIの共同設立者であるPratyush KumarとVivek Raghavanは、2023年7月にスタートアップを立ち上げました。Lightspeed Venturesを中心とする大規模なシリーズAの資金調達に支えられ、彼らは多様なインド言語のための生成AI統合を通じてインドの固有のニーズに対応することを目指しています。彼らの関心は、データをバックボーンとしてドメイン固有のAIモデルの開発における企業との協力関係の育成にも及んでいます。 私たちの意見 言語の多様性が重要視される環境において、Sarvam AIのOpenHathi-Hi-v0.1は、インドの言語AIのイノベーションへのコミットメントを体現した約束された進化として現れます。学術パートナーとの協力的な姿勢と明確な将来のロードマップにより、Sarvam AIは生成AIの分野での指針となる存在として位置付けられています。モデルが開発者にその潜在能力を探求するよう促す中、創造性と専門化されたモデルの連鎖反応がインドのAIの領域をさらに豊かにすることが期待されます。…

ミストラルAIは、MoE 8x7Bリリースによる言語モデルの画期的な進歩を発表します

パリに拠点を置くスタートアップMistral AIは、MoE 8x7Bという言語モデルを発表しました。Mistral LLMは、各々が70億のパラメータを持つ8人の専門家からなる、サイズダウンされたGPT-4としてしばしば比較されます。特筆すべきは、各トークンの推論には8人の専門家のうち2人のみが使用され、効率的で効果的な処理手法を示していることです。 このモデルは、混合専門家(MoE)アーキテクチャを活用して、素晴らしいパフォーマンスと効率性を実現しています。これにより、従来のモデルと比べてより効率的で最適なパフォーマンスが得られます。研究者たちは、MoE 8x7Bが、テキスト生成、理解、コーディングやSEO最適化など高度な処理を必要とするタスクを含むさまざまな側面で、Llama2-70BやQwen-72Bなどの以前のモデルよりも優れたパフォーマンスを発揮することを強調しています。 これにより、AIコミュニティの間で多くの話題を呼んでいます。著名なAIコンサルタントであり、Machine & Deep Learning Israelコミュニティの創設者である人物は、Mistralがこのような発表を行っていることを称え、これを業界内で特徴的なものと評価しています。オープンソースAIの提唱者であるジェイ・スキャンブラー氏は、このリリースの異例性について言及しました。彼は、これがMistralによる故意の戦略であり、AIコミュニティからの注目と興味を引くためのものである可能性があると述べ、重要な話題を成功裏に生み出したと指摘しています。 MistralのAI分野における旅は、欧州史上最大と報じられている1億1800万ドルのシードラウンドという記録的な一歩で始まりました。同社は、9月には最初の大規模な言語AIモデルであるMistral 7Bのローンチにより、さらなる認知度を得ました。 MoE 8x7Bモデルは、各々が70億のパラメータを持つ8人の専門家を搭載しており、GPT-4の16人の専門家と1人あたり1660億のパラメータからの削減を表しています。推定1.8兆パラメータのGPT-4に比べ、推定総モデルサイズは420億パラメータです。また、MoE 8x7Bは言語問題に対するより深い理解を持っており、機械翻訳やチャットボットのインタラクション、情報検索の向上につながっています。 MoEアーキテクチャは、より効率的なリソース配分を可能にし、処理時間を短縮し、計算コストを削減します。Mistral AIのMoE 8x7Bは、言語モデルの開発において重要な進展を示すものです。その優れたパフォーマンス、効率性、柔軟性は、さまざまな産業やアプリケーションにおいて莫大なポテンシャルを持っています。AIが進化し続ける中、MoE 8x7Bのようなモデルは、デジタル専門知識やコンテンツ戦略を向上させたい企業や開発者にとって不可欠なツールとなることが予想されています。 結論として、Mistral AIのMoE 8x7Bのリリースは、技術的な洗練と非伝統的なマーケティング戦略を組み合わせた画期的な言語モデルを導入しました。研究者たちは、AIコミュニティがMistralのアーキテクチャを詳しく調査・評価していく中で、この先進的な言語モデルの効果と利用方法を楽しみにしています。MoE 8x7Bの機能は、教育、医療、科学的発見など、さまざまな分野における研究開発の新たな道を開く可能性があります。

ミストラルAI (8x7b)、専門家(MoE)モデルの初のオープンソースモデルをリリース

ミストラルは、最初の560億トークンモデル(8モデル、各70億トークン)をトレント経由でリリースすることによって、オープンソースの世界への取り組みを続けます!数日前、私たちはGPT4が...

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けます。 GPT-3、GPT-4、およびPaLM-2はいくつかの例です。これらのモデルは、テキスト生成、会話の相互作用、および質問応答を含む複雑な言語タスクを実行します。これらはさまざまなドメインで使用され、チャットボット、コーディング、ウェブ検索、顧客サポート、コンテンツ制作などのユーザーエクスペリエンスを向上させています。 しかし、AIコミュニティが小型モデルの広大な領域に没頭するなかで、マイクロソフトはOrcaの次のバージョンであるOrca 2を紹介しました。これはコンパクトなAIモデルの能力を高めるために設計されています。 Orca 1は、詳細な説明、トレースの統合によって、BigBench HardやAGIEvalなどのベンチマークで伝統的な教示チューニングモデルを上回る性能を発揮します。 Orca 2はより洗練されたトレーニングシグナルの潜在能力にも取り組んでいます。 模倣学習は、小型言語モデルの改善における一般的なアプローチです。これらの小型モデルは、教師と同様の方法でコンテンツを生成できるとはいえ、推論力や理解力の向上が必要です。模倣学習にはいくつかの利点がありますが、特定の問題やモデルの能力に最適な解決策を使用できなくする欠点もあります。これらのモデルはしばしばより大きなモデルとの推論力や理解力のマッチングに助けが必要であり、その結果、その真の潜在能力が妨げられる場合があります。 単に模倣するのではなく、Orcaはさまざまな推論手法でモデルに指示を与えます。これには、ステップバイステップの処理、リコールして生成、リコール-推論-生成、および直接回答が含まれます。この目的は、特定のタスクの微妙なニュアンスに適した最も効果的な解決策戦略を識別する能力をモデルに伝えることです。 Orca 2のゼロショット推論能力は、より小さなニューラルネットワークの改善の可能性を示しています。マイクロソフトは、Orca 2に使用されるような特殊なトレーニング手法は新しい有用なアプリケーションを明らかにする可能性があると引き続き信じています。この手法は、これらのニューラルネットワークの展開の効果を向上させることを目指しています。 最も重要なことは、Orca 2はトレーニングフェーズで特定の行動を引き起こした初期の手がかりから保護されています。Orca 2は、革新的なプロンプトの削除技術を使用して慎重な推論者に変身します。この方法は、盲目的な模倣ではなく、より大きなモデルを行動の源として使用し、特定のタスクに最適なものを選択します。 研究者たちはOrca 2を包括的なベンチマークでテストしました。それによると、言語理解、常識的な推論、多段階の数学問題、読解、要約などに関連する他の同等のモデルよりも優れたパフォーマンスを発揮しました。例えば、ゼロショットの推論タスクでは、Orca 2-13Bは他の13Bモデルよりも25%以上の高い精度を達成し、70Bモデルと同等の性能を発揮します。 Orca 2は、小型言語モデルの進化における重要な進歩を示しています。従来の模倣学習からの脱却と、多様な推論手法に焦点を当てることによって、コンパクトなAIモデルのポテンシャルを引き出す新しいアプローチを示しています。

新しいAI研究が「SWIM-IR」をリリース!2800万対33の言語にわたる大規模な合成多言語検索データセット

Google Research、Google DeepMind、そしてウォータールー大学の研究者は、多言語リトリーバルにおける限られた人間によってラベル付けされたトレーニングデータの課題に対処するため、33の言語をカバーする合成リトリーバルトレーニングデータセットであるSWIM-IRを紹介しています。SAP(要約してから尋ねるプロンプティング)の手法を活用して、SWIM-IRは人間の監督なしで多言語密なリトリーバルモデルの合成ファインチューニングを可能にするために構築されています。SWIM-IRでトレーニングされたSWIM-Xモデルは、XOR-Retrieve、XTREME-UP、およびMIRACLを含むさまざまなベンチマークで人間によって監督された厚いリトリーバルモデルと競争力を示しています。 この研究は、多言語密なリトリーバルモデルの限定された成功に対処し、非英語の言語に対する十分な監督トレーニングデータの不足が原因であるとしています。この合成データセットは、多言語密なリトリーバルモデルのファインチューニングを可能にし、XOR-Retrieve、XTREME-UP、およびMIRACLなどのベンチマークで評価されています。その結果、合成データセットによるトレーニングは、人間によって監督されたモデルと競争力のあるパフォーマンスを示し、高価な人間によるラベル付けトレーニングデータの代替手段としての可能性を示しています。 SWIM-IRは、SAP技術を用いて生成された33言語にわたる合成リトリーバルトレーニングデータセットです。SWIM-IRを用いて、この研究ではDense Passage Retrieval(DPR)モデルを適応し、多言語T5-baseチェックポイントからの初期化と英語MS MARCOデータセットでのファインチューニングを行うことで、mContrieverとmDPRのゼロショットベースラインを再現します。mC4データセットでの事前学習と、バッチ内のネガティブサンプルに対する相反損失の利用により、研究者はクロス言語クエリ生成にPaLM 2 Smallモデルを使用しています。 SWIM-IRからの合成トレーニングデータを使用したSWIM-Xモデルは、多言語密なリトリーバルタスクで競争力のあるパフォーマンスを示しています。SWIM-X(7M)は、XOR-RetrieveベンチマークのRecall5ktで最良のファインチューニングモデルであるmContriever-Xを7.1ポイント上回ります。さらに、限定予算ベースラインのSWIM-X(500k)は、mContriever-Xを3.6ポイント上回ります。SWIM-X(180K)は、MIRACLベンチマークで競争力があり、nDCG10で最良のゼロショットモデルを6.6ポイント上回りますが、ハードネガティブを持つ人間によって監督されたトレーニングペアを持つmContriever-Xには及びません。合成ベースラインのSWIM-X(120K)およびSWIM-X(120K)MTは、Recall5ktの点で既存のモデルを上回る優れた結果を示しています。この研究では、SWIM-IRによるハードネガティブのサンプリングなど、最適なトレーニング技術の重要性を強調し、合成モデルのパフォーマンスをさらに向上させる必要性を指摘しています。 研究で使用されたSWIM-IRデータセットには、文脈不明確化、コードスイッチング、パッセージの品質と長さ、LLM生成時の事実の不一致などの制約があります。この研究は、LLMが情報源に対して十分な根拠を持たないテキストを生成する可能性があり、生成された出力における誤情報や幻想のリスクをもたらすことを認識しています。これらの制限は生成されたクエリの品質と正確さに影響を与えるかもしれませんが、直接的には下流の多言語リトリーバルタスクには影響を与えません。ただし、この研究では、SAPアプローチやファインチューニングプロセスなどの手法の制約については詳細に議論されていません。 SWIM-IRは、複数の言語で情報を含んだクエリを生成するためにSAPアプローチを使用して作成された合成多言語リトリーバルトレーニングデータセットです。33の言語で28百万のクエリ-パッセージのトレーニングペアを提供するSWIM-IRは、人間によるラベル付けトレーニングデータを必要とせずに多言語密なリトリーバルモデルのファインチューニングを容易にします。その結果、SWIM-Xモデルは、クロス言語および単言語のベンチマークで既存のリコールおよび平均相互ランクモデルを上回る競争力のあるパフォーマンスを発揮します。これにより、高価な人間によるラベル付けリトリーバルトレーニングデータの費用対効果の高い代替手段としてのSWIM-IRの可能性が強調され、堅牢な多言語密なリトリーバルモデルの開発が可能になります。

ラストマイルAIは、AiConfigをリリースしました:オープンソースの構成駆動型、ソースコントロールに対応したAIアプリケーション開発フレームワーク

AIアプリケーション開発の進化する風景の中で、AI Configは、LastMile Ai から登場し、開発者がAIモデルを統合し、管理する方法を根本的に変える画期的なツールとして注目されています。この革新的なアプローチは、従来の予測型機械学習開発からの脱却であり、ソフトウェアエンジニアの間でより協力的な環境を促進します。 AI Configによる開発の革新 AI Configは、アプリケーションコードをモデルのロジックから切り離す画期的な手法を導入しています。この分離により、開発者はアプリケーションコードを絶えず修正することなく、モデルのオーケストレーションの向上に集中することができます。これにより、より効率的で効率的な開発プロセスが実現されます。 AI Configの主な利点 協力的な開発:異なる個人が独立してプロンプト、モデル、およびアプリケーションコードを管理できるようにすることで、関係を切り離すことを促進します。この分割により、より協力的かつ専門的な開発環境が構築されます。 高度なプロトタイピング:AI Configは、LastMile AIワークブックの一部としてプロンプトとモデルを1つのノートブックのようなエディタに統合し、プロトタイピングと反復プロセスを大幅に加速します。 ガバナンスとコントロール:生成モデルの動作を追跡および再現するために重要なソース制御アーティファクトとして機能します。これには、プロンプトチェーンの管理、さまざまなプロバイダーからのモデルの選択、およびモデルパラメータの調整が含まれます。 迅速な反復と展開:開発者は、アプリケーションコードを変更せずにプロンプトの調整やモデルの切り替えなど、複数のモデルオーケストレーションに迅速に反復することができます。これにより、より迅速な展開とより安定したアプリケーションが実現されます。 ユーザーフレンドリーなインターフェース:LastMiles Aiの直感的なユーザーインターフェースにより、複雑なAI統合がさまざまなスキルレベルの開発者にもアクセス可能になり、論理的なシーケンスの作成を簡素化します。 オープンソースと拡張性:オープンソースであるAI Configは、API統合を介してクローズドソースのモデルと、ローカルでの実行のためのオープンソースのモデルの両方をサポートします。 効率的なモデル管理:AI Configでは、複数のAIモデルをシームレスに組み合わせ、プロンプトの内外のパラメータを処理することができます。以前の実行のキャッシュされた出力を直列化することで、迅速な反復と評価をサポートします。 AI開発の新時代 AI…

未来を点火する:TensorRT-LLMのリリースにより、AI推論のパフォーマンスが向上し、RTXを搭載したWindows 11 PCで新しいモデルのサポートが追加されました

Windows 11 PC上の人工知能は、ゲーマーやクリエイター、ストリーマー、オフィスワーカー、学生、そしてカジュアルなPCユーザーにとって、テックの歴史における転換点となるものであり、革新的な体験をもたらします。 これにより、RTX GPUを搭載した1億台以上のWindows PCとワークステーションのユーザーは、生産性を向上させる空前の機会を得ることができます。また、NVIDIAのRTXテクノロジーにより、開発者がコンピュータの使用方法を変えるAIアプリケーションをより簡単に作成できるようになりました。 Microsoft Igniteで発表された新しい最適化、モデル、リソースにより、開発者は新しいエンドユーザー体験をより迅速に提供できるようになります。 TensorRT-LLMというオープンソースソフトウェアは、AI推論性能を向上させるために開発されており、近い将来、新しい大規模言語モデルのサポートが追加され、8GB以上のVRAMを搭載したRTX GPUを搭載したデスクトップやノートパソコンで要求の厳しいAIのワークロードがより利用しやすくなります。 TensorRT-LLM for Windowsは、近い将来、OpenAIの人気のあるChat APIと互換性があり、新しいラッパーを介して実行される予定です。これにより、数百の開発者プロジェクトやアプリケーションがクラウドではなくRTXを搭載したPC上でローカルに実行されるため、ユーザーはWindows 11 PCにプライベートなデータやプロプライエタリなデータを保持することができます。 カスタム生成AIは、プロジェクトの維持に時間とエネルギーを要します。特に、複数の環境やプラットフォームでの共同作業や展開を試みる場合は、非常に複雑で時間がかかることがあります。 AI Workbenchは、開発者がPCやワークステーション上で事前学習済みの生成AIモデルやLLMを迅速に作成、テスト、カスタマイズできる統合された使いやすいツールキットです。これにより、開発者はAIプロジェクトを組織するための単一のプラットフォームを提供され、モデルを特定の用途に調整することができます。 これにより、開発者は迅速にコスト効率の高いスケーラブルな生成AIモデルを作成し、シームレスな共同作業と展開を実現できます。今後のアップデートを受け取るために、この成長するイニシアチブへの初期アクセスリストに参加することができます。 早期アクセスリストに参加する AI開発者を支援するために、NVIDIAとMicrosoftはDirectMLの強化版をリリースし、Llama 2とStable Diffusionという最も人気のあるAIモデルのパフォーマンスを向上させます。開発者は、パフォーマンスの新たな基準を設定することに加え、ベンダー間でのデプロイメントのオプションもさらに増えました。…

「GiskardはHuggingFaceにGiskard Botをリリースします:HuggingFace Hubにプッシュした機械学習モデルの問題を自動的に検出するボットです」

2023年11月8日に発表された画期的な開発では、Giskard Botが機械学習(ML)モデルのゲームチェンジャーとして登場し、大規模言語モデル(LLM)や表形式のモデルに対応しています。このオープンソースのテストフレームワークは、モデルの整合性を確保するために専用されており、HuggingFace(HF)プラットフォームとシームレスに統合された多くの機能を提供しています。 Giskardの主な目標は明確です。 脆弱性の特定。 ドメイン固有のテストの生成。 CI/CDパイプライン内でのテストスイートの自動化実行。 Giskardは、Hugging Faceのコミュニティベースの哲学に沿ったAI品質保証(QA)のオープンプラットフォームとして機能します。 導入された最も重要な統合の1つは、HFハブ上のGiskardボットです。このボットにより、Hugging Faceのユーザーは、新しいモデルがHFハブにプッシュされるたびに自動的に脆弱性レポートを公開することができます。これらのレポートは、HFディスカッションおよびモデルカードでプルリクエストを介して表示され、バイアス、倫理的な懸念、堅牢性などの潜在的な問題の即座の概要を提供します。 記事の中で示されている魅力的な例は、Giskardボットの能力を示しています。Twitter分類にRobertaを使用した感情分析モデルがHF Hubにアップロードされたとします。Giskardボットは、テキスト特徴で特定の変換を行うことで予測を大幅に変更する5つの潜在的な脆弱性を迅速に特定します。これらの調査結果は、トレーニングセットの構築時にデータ拡張戦略を実装する重要性を強調し、モデルの性能に深く入り込むものです。 Giskardの特徴は、量だけでなく品質にもコミットしていることです。このボットは脆弱性を定量化するだけでなく、定性的な洞察も提供します。モデルカードに変更を提案し、バイアス、リスク、または制約事項を強調します。これらの提案は、HFハブ内のプルリクエストとしてシームレスに表示され、モデル開発者のレビュープロセスを効率化します。 Giskardスキャンは、標準的なNLPモデルに限定されるものではありません。これはLLMにも対応し、IPCCレポートを参照するLLM RAGモデルの脆弱性スキャンを展示します。スキャンは、幻想、誤情報、有害性、機密情報の開示、および堅牢性に関連する懸念を明らかにします。たとえば、IPCCレポートの作成に使用される方法論に関して機密情報を明らかにしない問題が自動的に特定されます。 しかし、Giskardは識別にとどまることはありません。ユーザーには、Hugging Face Spacesの専門ハブにアクセスすることができ、モデルの障害についての具体的な洞察を得ることができます。これにより、ドメインの専門家との協力や、独自のAIユースケースに合わせたカスタムテストの設計が容易になります。 Giskardによってデバッグテストが効率的に行われます。このボットは、問題の根本原因を理解し、デバッグ中に自動化された洞察を提供します。テストを提案し、予測への単語の寄与を説明し、洞察に基づいた自動アクションを提供します。 Giskardは一方通行ではありません。ドメインの専門家からのフィードバックを「招待」機能を通じて奨励しています。この集約されたフィードバックは、モデルの精度と信頼性を高めるために開発者をガイドする、潜在的なモデルの改善の包括的なビューを提供します。

コア42とCerebrasは、Jais 30Bのリリースにより、アラビア語の大規模言語モデルの新たな基準を設定しました

CerebrasとCore42は、G42の企業であり、クラウドおよび生成AIのためのUAEベースの国家規模の活性化促進者である。彼らは、彼らのオープンソースのArabic Large Language Model(LLM)の最新かつ最も優れたバージョンであるJais 30Bの発売を発表しました。 Jais 30Bは、2023年8月にリリースされた前モデルのJais 13Bと比較して、大幅なアップグレードです。この新しいモデルは300億のパラメータを持ち、Jais 13Bの130億と比較して、大幅に大きなデータセットでトレーニングされました。これにより、言語生成、要約、およびアラビア語-英語翻訳の大幅な改善が実現しました。 Jais 30Bは、現在単一言語の英語モデルと同等であり、Foundation Modelの評価ではほとんどのオープンソースモデルを凌駕しています。このモデルは、アラビア語と英語の両方でより長く、より詳細な応答を生成することもできます。 Core42は、責任ある安全なAIの実践に取り組んでおり、Jais 30B開発チームは、バイアスやモデルによる憎悪や有害なコンテンツの生成を防止するためにプロセスとポリシーをさらに強化しました。 Jais 30BはHugging Faceでダウンロード可能です。 Hugging Face foundational model: https://huggingface.co/core42/jais-30b-v1 Hugging Face…

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb(Falcon)、Dolma(AI2)、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。 チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ(84個の処理済みダンプ)が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ(プレーンテキスト)、40以上の高品質な注釈、および重複削除クラスタが含まれています。 このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。 研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。 ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60%減少しますが、ドキュメント数は71%減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40%削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ(パーティション)が示されます。 チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us