Learn more about Search Results 使用方法 - Page 14

「Amazon SageMaker JumpStartで大規模な言語モデルの応答をストリーム配信する」

「Amazon SageMaker JumpStartでは、言語モデル(LLM)の推論応答をストリーミングで提供できるようになりましたトークンのストリーミングでは、LLMの応答生成が完了するのを待つ必要なく、応答生成が行われるたびにモデルの応答結果を確認できます」[...]

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb(Falcon)、Dolma(AI2)、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。 チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ(84個の処理済みダンプ)が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ(プレーンテキスト)、40以上の高品質な注釈、および重複削除クラスタが含まれています。 このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。 研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。 ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60%減少しますが、ドキュメント数は71%減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40%削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ(パーティション)が示されます。 チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

「Scikit-LLMを使用したゼロショットテキスト分類の経験」

テキストの分類は、自然言語処理(NLP)の最も一般的な応用の1つですこれは、文書内のテキストの一部に予め定義されたクラスを割り当てるタスクですテキストは…

現代のデータエンジニアリング

現代のデータエコシステムは常に進化し、新しいデータツールが時折現れますこの記事では、データエンジニアに影響を与える重要な要素について話したいと思いますこの記事では、どのようにこれを活用するかについて議論します...

「人間の偏見がAIによるソリューションを妨げる方法」

昨年の9月、イーロン・マスク氏、マーク・ザッカーバーグ氏、サム・オルトマン氏(OpenAIのCEO)など、世界のリーダーたちは、ワシントンD.C.で集まり、一方で、公共・私的セクターがこの技術を共同で活用する方法について議論し、他方で、規制について取り組む目的で集まりました規制は問題となっています...

教育と学習の経験を向上させるために、生成的AIアプリケーションを開発する

最近、教師や機関は人工知能(AI)をカリキュラムに組み込むためのさまざまな方法を模索しています機械学習(ML)の教え方やレッスンプランの作成、採点、その他の教育アプリケーションへの組み込みなどです特に、生成型のAIモデル、特に大規模言語モデル(LLM)は、教育におけるAIの影響を劇的に高めました生成[...]

「5つのシンプルなステップシリーズ:Python、SQL、Scikit-learn、PyTorch、Google Cloudをマスターする」

「Python、SQL、Scikit-learn、PyTorch、Google Cloud Platformの使い方をマスターするためのVoAGI Back to Basics Getting Started in 5 Stepsシリーズに飛び込んでみてください」

キャルレールの最高製品責任者、ライアン・ジョンソンへのインタビューシリーズ

ライアンは、初期のスタートアップからフォーチュン100の組織まで、多様なテクノロジーと製品開発のリーダーシップ経験を15年以上持っていますCallRailのチーフプロダクトオフィサーとして、彼は最高のテクノロジーソリューションを開発し、現実世界の問題を解決することに情熱を傾けていますCallRailへの参加前は、リーダーシップチームの重要メンバーでした...

「コルーチンの実行のマスタリング:UnityにおけるYield、Flow、そして実用例」となります

この包括的なガイドを通じて、Unityでの高度なコルーチンの使用方法を探求しましょうyieldingのテクニック、ゲームループの統合、実践的な応用について深く掘り下げましょう

「LLMsにおけるエンタープライズ知識グラフの役割」

紹介 大規模言語モデル(LLM)と生成AIは、人工知能と自然言語処理の革新的なブレークスルーを表します。彼らは人間の言語を理解し、生成することができ、テキスト、画像、音声、合成データなどのコンテンツを生成することができるため、さまざまなアプリケーションで非常に柔軟に使用できます。生成AIはコンテンツ作成の自動化や強化、ユーザーエクスペリエンスの個別化、ワークフローの効率化、創造性の促進など、現実世界のアプリケーションで非常に重要な役割を果たしています。この記事では、エンタープライズがオープンLLMと統合できるように、エンタープライズナレッジグラフを効果的にプロンプトに基づいて構築する方法に焦点を当てます。 学習目標 LLM/Gen-AIシステムと対話しながら、グラウンディングとプロンプトの構築に関する知識を獲得する。 グラウンディングのエンタープライズへの関連性と、オープンなGen-AIシステムとの統合によるビジネス価値を例を挙げながら理解する。 知識グラフとベクトルストアという2つの主要なグラウンディング競争解決策を、さまざまな側面で分析し、どちらがどのような場合に適しているかを理解する。 パーソナライズされたおすすめの顧客シナリオにおいて、知識グラフ、学習データモデリング、およびグラフモデリングを活用したグラウンディングとプロンプトのサンプルエンタープライズ設計を研究する。 この記事はData Science Blogathonの一環として公開されました。 大規模言語モデルとは何ですか? 大規模言語モデルは、深層学習技術を用いて大量のテキストや非構造化データをトレーニングした高度なAIモデルです。これらのモデルは人間の言語と対話し、人間らしいテキスト、画像、音声を生成し、さまざまな自然言語処理タスクを実行することができます。 一方、言語モデルの定義は、テキストコーパスの分析に基づいて単語のシーケンスに対して確率を割り当てることを指します。言語モデルは、シンプルなn-gramモデルからより洗練されたニューラルネットワークモデルまでさまざまなものがあります。ただし、”大規模言語モデル”という用語は、深層学習技術を使用し、パラメータが数百万から数十億に及ぶモデルを通常指します。これらのモデルは、言語の複雑なパターンを捉え、しばしば人間が書いた文と区別のつかないテキストを生成することができます。 プロンプトとは何ですか? LLMまたは同様のチャットボットAIシステムへのプロンプトとは、会話やAIとの対話を開始するために提供するテキストベースの入力やメッセージのことです。LLMは柔軟で、さまざまなタスクに使用されるため、プロンプトのコンテキスト、範囲、品質、明瞭さは、LLMシステムから受け取る応答に重要な影響を与えます。 グラウンディング/RAGとは何ですか? 自然言語LLM処理の文脈におけるグラウンディング、またはリトリーバル拡張生成(RAG)は、プロンプトをコンテキスト、追加のメタデータ、および範囲で豊かにすることを指します。これにより、AIシステムは必要な範囲とコンテキストに合わせてデータを理解し、解釈するのに役立ちます。LLMの研究によれば、応答の品質はプロンプトの品質に依存することが示されています。 これはAIの基本的な概念であり、生データと人間の理解と範囲を一致する形でデータを処理および解釈する能力とのギャップを埋める役割を果たします。これにより、AIシステムの品質と信頼性が向上し、正確かつ有用な情報や応答を提供する能力が高まります。 LLMの欠点は何ですか? GPT-3などの大規模言語モデル(LLM)はさまざまなアプリケーションで注目と利用が進んでいますが、いくつかの欠点も存在します。LLMの主な欠点には以下があります: 1. バイアスと公平性:LLMはしばしば訓練データからバイアスを引き継ぎます。これにより、バイアスを持ったまたは差別的なコンテンツの生成が生じ、有害なステレオタイプを強化し、既存のバイアスを固定化する可能性があります。 2. 幻覚:…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us