Search Results Jam

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb（Falcon）、Dolma（AI2）、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ（84個の処理済みダンプ）が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ（プレーンテキスト）、40以上の高品質な注釈、および重複削除クラスタが含まれています。このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60％減少しますが、ドキュメント数は71％減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40％削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ（パーティション）が示されます。チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

RedPajamaプロジェクト：LLMの民主化を目指すオープンソースイニシアチブ

アクセス可能な大規模言語モデルを通じてコミュニティを強化するプロジェクトのリーダーシップを担っています

Natural language processing

マンバ：シーケンスモデリングの再定義とトランスフォーマーアーキテクチャの超越

「マンバの画期的なシーケンスモデリング手法を探求し、効率的な処理と先進的な状態空間メカニズムにより、従来のモデルを超えてくださいマンバとともに、AIの未来に飛び込んでください」

Sudowriteのレビュー：AIが人間らしい小説を書けるのか？

「AIは本当に人間のように小説を書くことができるのか？ Sudowriteの詳細を知り、このSudowriteのレビューで真実を解明しましょう」

『LLM360をご紹介します：最初の完全オープンソースで透明な大規模言語モデル（LLM）』

“`html オープンソースの大規模言語モデル（LLM）であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者向けにさまざまな選択肢を提供しています。しかし、これらのLLMの大部分は、エンドモデルの重みや推論スクリプトなどの一部のコンポーネントだけが利用可能であり、技術的なドキュメントでは、一般的な設計の側面や基本的なメトリックに焦点を絞った内容が多いです。このアプローチでは、LLMのトレーニング手法の明確性が低下し、チームがトレーニング手順のさまざまな側面を継続的に解明するための努力が重複してしまいます。 Petuum、MBZUAI、USC、CMU、UIUC、UCSDの研究者チームが、LLM360を導入しました。これは、エンドツーエンドのLLMトレーニングプロセスを透明で再現可能にすることにより、オープンかつ協力的なAIの研究をサポートするイニシアチブです。LLM360は、トレーニングコードとデータ、モデルのチェックポイント、中間結果などのすべてをコミュニティに提供することを主張する、完全なオープンソースのLLMです。 LLM360に最も近いプロジェクトはPythiaであり、LLMの完全な再現性を目指しています。GPT-JやGPT-NeoXなどのEleutherAIモデルは、トレーニングコード、データセット、中間モデルのチェックポイントと共にリリースされており、オープンソースのトレーニングコードの価値を示しています。INCITE、MPT、OpenLLaMAは、トレーニングコードとトレーニングデータセットがリリースされ、RedPajamaも中間モデルのチェックポイントを公開しています。 LLM360は、AMBERとCRYSTALCODERの2つの7BパラメータLLMをリリースし、そのトレーニングコード、データ、中間チェックポイント、分析も提供します。事前トレーニングデータセットの詳細、データの前処理、フォーマット、データミキシングの比率、LLMモデルのアーキテクチャの詳細については、研究で詳しく説明されています。この研究では、以前の研究で導入された記憶スコアの使用と、メトリック、データチャンク、チェックポイントの公開により、研究者が対応関係を容易に見つけることができるようになることを示しています。研究ではまた、LLMが事前にトレーニングされたデータを削除することの重要性や、データのフィルタリング、処理、トレーニング順序の詳細についても強調しています。研究では、ARC、HellaSwag、MMLU、TruthfulQAの4つのデータセットについてのベンチマーク結果が示され、モデルの事前トレーニング中のパフォーマンスが示されています。HellaSwagとARCの評価スコアはトレーニング中に単調に増加し、TruthfulQAのスコアは減少します。MMLUのスコアは最初に減少し、その後成長します。AMBERのパフォーマンスはMMLUなどのスコアで競争力があるものの、ARCでは遅れています。ファインチューニングされたAMBERモデルは、他の類似モデルと比較して強力なパフォーマンスを示します。 LLM360は、オープンソースLLMの完全かつ包括的なイニシアチブであり、オープンソースのLLM事前トレーニングコミュニティ内での透明性を推進するものです。この研究では、AMBERとCRYSTALCODERの2つの7B LLMをトレーニングコード、データ、中間モデルのチェックポイント、分析と共にリリースしています。研究では、チェックポイント、データチャンク、評価結果を公開することにより、包括的な分析と再現性を可能にするため、すべての角度からLLMをオープンソース化することの重要性を強調しています。 “`

「エッセンシャルAI、シリーズAラウンドで5650万ドル調達」

スタートアップ企業のEssential AIは、56.5百万ドルのシリーズAを調達し、エンタープライズブレインの構築を目指していますGoogleのベテランであるAshish VaswaniとNiki Parmarによって設立されたこのスタートアップは、人間と機械の間に架け橋を築くことを約束するAI製品のフルスタックに取り組んでいますYahoo!によると...

次元性の祝福？！（パート1）

「これらの問題の1つまたは複数について、慎重に選ばれた科学者のグループが夏に一緒に取り組めば、重要な進展が期待できると私たちは考えています」と提案は述べましたジョンはまだ知りませんでしたが...

「部分情報分解とは何か、そして特徴がどのように相互作用するのか」

ターゲット変数が複数の情報源に影響を受ける場合、各情報源が全体的な情報にどのように寄与しているかを理解することは重要です（しかし、単純な問題ではありません）この中で...

オリジナリティの試金石：AIが創造的所有権に挑む

「もしも誰かがあなたにとって本当に貴重なものを盗んで、さらにひどいことにそれを自分のものだと偽って売りさばいたら、あなたはどう感じるでしょうか？彼らの犯罪から利益を得ています一部のクリエイターやアーティストは、このような感情を抱いています...」

「デベロッパー用の15以上のAIツール（2023年12月）」

“`html GitHub Copilot GitHub Copilotは、市場をリードするAIによるコーディングアシスタントです。開発者が効率的に優れたコードを作成できるように設計され、CopilotはOpenAIのCodex言語モデルを基に動作します。このモデルは自然言語と公開コードの広範なデータベースの両方でトレーニングされており、洞察に満ちた提案を行うことができます。コードの行や関数を完全に補完するだけでなく、コメント作成やデバッグ、セキュリティチェックの支援など、開発者にとって大変貴重なツールとなっています。 Amazon CodeWhisperer AmazonのCodeWhispererは、Visual StudioやAWS Cloud9などのさまざまなIDEでリアルタイムのコーディング推奨事項を提供する、機械学習に基づくコード生成ツールです。大規模なオープンソースコードのデータセットでトレーニングされており、スニペットから完全な関数までを提案し、繰り返しのタスクを自動化し、コードの品質を向上させます。効率とセキュリティを求める開発者にとって大変便利です。 Notion AI Notionのワークスペース内で、AIアシスタントのNotionがさまざまな執筆関連のタスクをサポートします。創造性、改訂、要約などの作業を助け、メール、求人募集、ブログ投稿などの作成をスピードアップさせます。Notion AIは、ブログやリストからブレストセッションや創造的な執筆まで、幅広い執筆タスクの自動化に使用できるAIシステムです。NotionのAI生成コンテンツは、ドラッグアンドドロップのテキストエディタを使用して簡単に再構成や変換ができます。 Stepsize AI Stepsize AIは、チームの生産性を最適化するための協力ツールです。プロジェクトの履歴管理やタスク管理の役割を果たし、Slack、Jira、GitHubなどのプラットフォームと統合して更新を効率化し、コミュニケーションのミスを防ぎます。主な機能には、活動の統一した概要、質問への即時回答、堅牢なデータプライバシーコントロールが含まれます。 Mintlify Mintlifyは、お気に入りのコードエディタで直接コードのドキュメントを自動生成する時間の節約ツールです。Mintlify Writerをクリックするだけで、関数のための良く構造化された、コンテキストに即した説明を作成します。開発者やチームにとって理想的であり、複雑な関数の正確なドキュメントを生成することで効率と正確性が高く評価されています。 Pieces for Developers…

Learn more about Search Results Jam