Learn more about Search Results Mistral 7B - Page 9

「KOSMOS-2:Microsoftによるマルチモーダルな大規模言語モデル」

イントロダクション 2023年はAIの年となりました。言語モデルから安定した拡散モデルの強化にSegMind APIを使うまで、AI技術は進化し続けています。その中で、Microsoftが開発したKOSMOS-2が注目を浴びています。これはマイクロソフトによって開発されたマルチモーダルの大規模言語モデル(MLLM)であり、テキストと画像の理解力において画期的な能力を発揮しています。言語モデルを開発することは一つのことですが、ビジョンモデルを作成することは別のことです。しかし、両方の技術を組み合わせたモデルを持つことは、さらなるレベルの人工知能を実現することになります。この記事では、KOSMOS-2の特徴と潜在的な応用について掘り下げ、AIと機械学習への影響を解説します。 学習目標 KOSMOS-2のマルチモーダル大規模言語モデルの理解 KOSMOS-2のマルチモーダルグラウンディングと参照表現生成の仕組みの学習 KOSMOS-2の現実世界での応用について洞察を得る KOSMOSを使ったColabでの推論の実行 この記事はデータサイエンスブログマラソンの一部として公開されました。 KOSMOS-2モデルの理解 KOSMOS-2はマイクロソフトの研究チームによる研究成果で、そのタイトルは「Kosmos-2: Grounding Multimodal Large Language Models to the World(KOSMOS-2:マルチモーダル大規模言語モデルのグラウンディング)」です。テキストと画像を同時に処理し、マルチモーダルデータとの相互作用を再定義することを目指して設計されたKOSMOS-2は、他の有名なモデルであるLLaMa-2やMistral AIの7bモデルと同様にトランスフォーマーベースの因果言語モデルのアーキテクチャを採用しています。 しかし、KOSMOS-2の特徴はその独自のトレーニングプロセスです。特殊なトークンとして画像内のオブジェクトへの参照を含むテキストである、GRITと呼ばれる巨大なデータセットでトレーニングされています。この革新的なアプローチにより、KOSMOS-2はテキストと画像の新たな理解を提供することができます。 マルチモーダルグラウンディングとは何ですか? KOSMOS-2の特徴的な機能の一つは、「マルチモーダルグラウンディング」の能力です。これは、画像のオブジェクトとその位置を記述するイメージキャプションを生成することができるという意味です。これにより、言語モデルにおける「幻覚」の問題を劇的に減少させ、モデルの精度と信頼性を向上させることができます。 この概念は、テキストを画像内のオブジェクトに特殊なトークンを通じて接続し、実質的にはオブジェクトを視覚的な文脈に結びつけるというものです。これにより幻覚が減少し、正確なイメージキャプションの生成能力が向上します。…

OpenAIはGPT-4 Turboを発表:カスタマイズ可能な人工知能の未来への飛躍

“`html イノベーションが急速で革命的な産業で、OpenAIは広く評価されている言語モデルのより強力でカスタマイズ可能なバージョンであるGPT-4 Turboを導入することで、人工知能が達成できる領域を再び押し広げました。 OpenAIのCEOであるSam Altman氏は、会社の年次DevDayカンファレンスで、この新しいモデルの能力を紹介しました。それは前任者から一歩、飛躍的に進んだものです。GPT-4 Turboは高精度化され、複雑な指示のより微妙な理解力を持っています。AIの風景において強力なツールとなっています。 GPT-4 Turboの強化された機能は、洗練されたテキスト生成に表れており、より多様な微妙な要求を容易に処理することができます。このモデルは要約を生成し、メールを作成し、さらには人間と機械生成のコンテンツとの区別が曖昧になるほどポリッシュされたレベルの記事の起草が可能です。 しかし、イノベーションは性能向上で終わるわけではありません。OpenAIは個別の業界ニーズや会社の声に合わせてモデルを調整することで大きな進歩を遂げました。このカスタマイズの能力は重要であり、企業がブランドと運営基準に合わせてGPT-4 Turboをシームレスに統合し、自社の要件に合致した結果を提供する機会を提供します。 GPT-4 Turboのカスタマイズ性は、モデルの出力を制御する能力にも及んでおり、さらなる安全性とユーザーの意図との一致を提供しています。この機能はAIの開発における重要な懸念の1つであり、技術が倫理的に使用されて公共の利益の範囲内に留まることを保証します。 GPT-4 Turboの最も重要な含意の1つは、アクセシビリティの可能性です。Altman氏は、このモデルが障害を持つ個人を力に変える能力を強調し、デジタルプラットフォームとのコミュニケーションとインタラクションを向上させる支援技術となる可能性があると述べています。 これらの進歩についての興奮が続く中、OpenAIは慎重に展開しています。同社は安全で責任あるAI開発に対するコミットメントを強化し、大いなる力には必要な監視が伴うことを保証しています。 GPT-4 Turboの導入は、OpenAIだけでなく、産業全体にとって転換期の瞬間です。これは道具にとどまらず、協力者、創造者、そしてデジタル進化において守りたい価値観の管理者となるAIの将来を予示しています。 要点: OpenAIのGPT-4 Turboは、テキスト生成機能が前例のない強力で微妙な言語モデルのバージョンです。 新しいモデルは幅広いカスタマイズが可能であり、開発者は特定の産業ニーズや企業のブランディングに合わせて調整することができます。 GPT-4 Turboには、ユーザーの意図に合った安全な出力を確保するための高度な制御機能が付属しており、AIにおける倫理的な考慮事項に対応しています。 このモデルは、障害を持つ個人を支援する可能性を広げることで、アクセシビリティの向上につながります。…

「Amazon SageMaker JumpStartで大規模な言語モデルの応答をストリーム配信する」

「Amazon SageMaker JumpStartでは、言語モデル(LLM)の推論応答をストリーミングで提供できるようになりましたトークンのストリーミングでは、LLMの応答生成が完了するのを待つ必要なく、応答生成が行われるたびにモデルの応答結果を確認できます」[...]

トゥギャザーエーアイは、トレーニング用の大規模な言語モデルに向けた30兆トークンを持つオープンデータセット、RedPajama v2をリリースしました

高品質なデータは、Llama、Mistral、Falcon、MPT、およびRedPajamaモデルなどの最先端のオープンLLMの成功には不可欠です。ただし、HTMLからプレーンテキストへの変換による異常、一般的に低品質なソース、およびウェブ上でのコンテンツの拡散に固有のバイアスにより、このデータは洗練されておらず、LLMトレーニングに直接使用するには理想的ではありません。正しいデータセットとデータの組み合わせを収集することは、多くの時間、リソース、およびお金を要する骨の折れる作業です。C4、RedPajama-1T、Refinedweb(Falcon)、Dolma(AI2)、SlimPajamaなど、いくつかのコミュニティプロジェクトがこの取り組みを支えてきましたが、これらの多くはCommonCrawlの一部のクロールしかカバーしておらず、データフィルタリングの非常に狭い方法しか提供していません。 Together.aiの研究者たちは、今年3月にRedPajama-1Tという5TBのデータセットをリリースしました。このデータセットは190,000倍以上使用され、創造的な方法で使用されています。1兆個の高品質な英語のトークンを備えたRedPajama-1Tは、始まりにすぎませんでした。研究者たちはさらに一歩進んで、RedPajama-V2をリリースしました。これは巨大な30兆個のトークンのオンラインデータセットであり、学習ベースの機械学習システムに特化した最大の公開データセットです。 チームは、RedPajama-Data-v2がLLMトレーニングのための高品質データセットの抽出の基盤と、LLMトレーニングデータへの深い研究の基盤を提供すると考えています。彼らはそのCommonCrawlのカバレッジ(84個の処理済みダンプ)が比類のないものであると主張しています。さらに重要なことに、彼らは40以上の品質注釈を含んでおり、データの品質に関する複数の機械学習分類器の結果、ファジーな重複削除またはヒューリスティクスに使用できるminhashの結果も含まれています。LLM開発者は、これらの注釈を使用して、公開されているデータをスライスしてフィルタリングし、独自の事前トレーニングデータセットを迅速かつ簡単に生成することができます。 RedPajama-V2の主眼はCommonCrawlです。RedPajama-V2は、84のCommonCrawlのクロールと他の公開されているウェブデータを使用して構築されています。このデータセットには、生のデータ(プレーンテキスト)、40以上の高品質な注釈、および重複削除クラスタが含まれています。 このデータセットを組み立てるための最初のステップとして、各CommonCrawlスナップショットはCCNetパイプラインによって処理されます。このパイプラインは、データをできるだけ生の形式で保持し、パイプライン内のモデルビルダがフィルタリングや再重み付けを行うという大まかなアイデアによく合っています。このバージョンでは、CCNetの言語フィルタを使用して、英語、フランス語、スペイン語、ドイツ語、イタリア語のみを含めました。この処理の段階では、合計で1,000億件のテキストページが生成されます。 研究者たちは、「head」と「middle」のバケツの40以上の人気のある品質注釈とCCNetによって処理されたテキストドキュメントを計算しています。これらの注釈の主な目的は、最適な使用方法の調査を促進し、下流で作業するモデル開発者がデータセットを自分の基準に応じてフィルタリングまたは再重み付けできるようにすることです。また、コミュニティの支援により、将来的により多くの高品質なシグナルを追加することを期待しています。 ミンハッシュのシグネチャに加えて、チームはドキュメントのsha1ハッシュダイジェストにBloomフィルタを適用することで正確な重複削除も行っています。これらは別個の品質注釈ファイルとして保持され、元の非重複の分布を復元することでこのアプローチの研究を容易にします。 RedPajama-v2には、英語、ドイツ語、フランス語、スペイン語、イタリア語の1130億ドキュメントが含まれており、これは84のCommonCrawlクロールの処理の結果です。テールパーティションには推定80億件のドキュメントが保持されており、ヘッドとミドルパーティションのドキュメント数とトークン数は重複削除の前後で決定されます。トークン数は60%減少しますが、ドキュメント数は71%減少します。これは、テールの論文は通常短いものです。 Bloomフィルタを使用してヘッド+ミドルドキュメントを重複削除した結果、データセットは約40%削減されました。テキストドキュメントは、品質注釈と重複削除クラスタを含むデータセットの大部分を提供しています。レイアウトは、CCNetで指定されたものと非常に似ています。具体的には、各CommonCrawlスナップショットのページは5,000のシャードに分割され、キーにはシャード、言語、およびパープレキシティバケツ(パーティション)が示されます。 チームは今後、広く利用されているLLMのベンチマークと比較した汚染アノテーション、各ドキュメントに対するトピックモデリングと分類アノテーション、そしてコミュニティの興味を引く追加のアノテーションなどを含めるため、現在の高品質なアノテーションのセットを拡大することを望んでいます。

Amazon SageMaker JumpStartを使用した対話型ビジュアル言語処理

ビジュアル言語処理(VLP)は生成AIの最前線にあり、言語知能、ビジョン理解、処理を包括するマルチモーダル学習の進展を推進しています大規模な言語モデル(LLM)と大量のマルチモーダリティデータで訓練された対照的な言語-画像プレトレーニング(CLIP)との組み合わせにより、ビジュアル言語モデル(VLM)は特に画像キャプショニングなどのタスクに優れた能力を示しています

私の個人的なコパイロット:自分自身のコーディングアシスタントをトレーニングする

プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。 しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。 このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。 では、始めましょう 🚀 データ収集のワークフロー 私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。 そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。 リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。 また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。 このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。 最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています: このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです: [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…

「Amazon Personalizeと生成AIでマーケティングソリューションを向上させましょう」

生成的な人工知能は、企業のビジネスの進化をもたらしています組織はAIを活用してデータに基づく意思決定を改善し、オムニチャネルの体験を向上させ、次世代の製品開発を推進しています企業は具体的には、電子メール、プッシュ通知、その他のアウトバウンドコミュニケーションチャネルを通じてマーケティングの取り組みを強化するために生成的なAIを活用していますガートナーは「2025年までに、アウトバウンドマーケティングメッセージの30%がAIによって生成される」と予測しています

「Amazon Kendraを使用した知的にDrupalコンテンツを検索する」

「Amazon Kendra(アマゾン ケンドラ)は、機械学習(ML)によって動作するインテリジェントな検索サービスですAmazon Kendraは、さまざまなコンテンツリポジトリから簡単にコンテンツを集約し、中央のインデックスに格納しますこれにより、企業のデータ全体を迅速に検索し、最も正確な回答を見つけることができますDrupalはコンテンツ管理ソフトウェアです多くの場所で利用されています...」

PEFTの概要:最先端のパラメータ効率の良い微調整の概要

「LoRAなどのパラメーター効率の高いファインチューニングテクニックを学んで、限られた計算リソースを使って大規模な言語モデルを効率的に適応させる方法を習得しましょう」

アマゾンセイジメーカーの地理情報能力を使用したメタン排出ポイント源の検出と高周波監視

メタン(CH4)は、石油やガス抽出、石炭採掘、大規模な畜産、廃棄物処理など、他のさまざまな源から発生する、主要な人為的温室効果ガスですCH4の地球温暖化潜在能はCO2の86倍であり、気候変動に関する政府間パネル(IPCC)は、メタンが観測されている温室効果の30%を担っていると推定しています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us