Search Results Amazon Augmented AI

「組織のためのカスタマイズされたコーディングパートナー」

コーディングの仲間としての生成的AIモデルは、主に公開されているソースコードと自然言語テキストで訓練されています大規模なトレーニングコーパスのため、これらのモデルは一般的に使用される機能のためのコードを生成することができますが、これらのモデルはプライベートリポジトリ内のコードや開発時に強制される関連するコーディングスタイルには無知です

「AWS Inferentia2を使って、あなたのラマ生成時間を短縮しましょう」

Hugging Faceブログの前の投稿で、第2世代のAWS InferentiaアクセラレータであるAWS Inferentia2を紹介し、optimum-neuronを使用して、標準のテキストとビジョンタスクのためにHugging FaceモデルをAWS Inferentia 2インスタンス上で迅速に展開する方法を説明しました。 AWS Neuron SDKとのさらなる統合の一環として、🤗optimum-neuronを使用して、AWS Inferentia2上でテキスト生成のためのLLMモデルを展開することができるようになりました。デモンストレーションには、Llama 2、ハブで最も人気のあるモデルの一つ、を選択するのが最も適しています。 Inferentia2インスタンスに🤗optimum-neuronをセットアップするおすすめは、Hugging Face Neuron Deep Learning AMI（DLAMI）を使用することです。DLAMIには、必要なライブラリが事前にパッケージ化されており、Optimum Neuron、Neuron Drivers、Transformers、Datasets、およびAccelerateも含まれています。また、Hugging Face…

「Arxiv検索のマスタリング：Haystackを使用したQAチャットボットの構築のDIYガイド」をマスターする

イントロダクションカスタムデータに関する質問と回答は、大規模言語モデルの最も求められるユースケースの一つです。LLMの人間のような対話スキルとベクトル検索手法を組み合わせることで、大量のドキュメントから回答を抽出することがより容易になります。いくつかのバリエーションを加えることで、ベクトルデータベースに埋め込まれたデータ（構造化、非構造化、準構造化）と対話するシステムを作成することができます。このクエリ埋め込みとドキュメント埋め込みの類似性スコアに基づいてLLMに取得データを追加する手法は、「RAGまたはRetrieval Augmented Generation」と呼ばれています。この手法により、arXiv論文の読解など、さまざまなことが簡単になります。 AIやコンピュータサイエンスに興味がある方なら、少なくとも一度は「arXiv」を聞いたことがあるでしょう。arXivは電子プレプリントおよびポストプリントのためのオープンアクセスリポジトリであり、ML、AI、数学、物理学、統計学、電子工学などのさまざまな主題の検証済み論文をホストしています。arXivは、AIや理系の研究のオープンな研究を推進する上で重要な役割を果たしています。しかし、研究論文を読むことはしばしば困難で時間がかかります。それでは、論文から関連するコンテンツを抽出し、回答を取得するためのRAGチャットボットを使用することで、少しでも改善することはできるでしょうか？この記事では、Haystackというオープンソースツールを使用して、arXiv論文用のRAGチャットボットを作成します。学習目標 Haystackとは何かを理解し、LLMを活用したアプリケーションを構築するためのコンポーネントを把握する。「arxiv」ライブラリを使用してArXiv論文を取得するコンポーネントを構築する。 Haystackノードでインデックスとクエリパイプラインを構築する方法を学ぶ。 Gradioを使用してチャットインターフェースを構築し、ベクトルストアからドキュメントを取得し、LLMから回答を生成するパイプラインを調整する方法を学ぶ。この記事はData Science Blogathonの一環として公開されました。 Haystackとは何か？ HaystackはスケーラブルなLLMパワードアプリケーションを構築するためのオープンソースのNLPフレームワークです。Haystackはセマンティックサーチ、質問応答、RAGなどの本番向けNLPアプリケーションを構築するための非常にモジュラーかつカスタマイズ可能なアプローチを提供します。これはパイプラインとノードのコンセプトに基づいて構築されており、パイプラインはノードを繋げることで効率的なNLPアプリケーションを構築するのに非常に便利です。ノード：ノードはHaystackの基本的な構成要素です。ノードはドキュメントの前処理、ベクトルストアからの取得、LLMからの回答生成など、一つのことを達成します。パイプライン：パイプラインはノードを繋ぐためのもので、ノードの連鎖を構築するのが容易になります。これによってHaystackでアプリケーションを構築することが容易になります。 HaystackはWeaviate、Milvus、Elastic Search、Qdrantなど、主要なベクトルストアを直接サポートしています。詳細については、Haystackのパブリックリポジトリを参照してください：https://github.com/deepset-ai/haystack。したがって、この記事では、Haystackを使用してArxiv論文のためのQ&AチャットボットをGradioインターフェースで構築します。 Gradio Gradioは、任意の機械学習アプリケーションのデモをセットアップおよび共有するためのHuggingfaceのオープンソースソリューションです。バックエンドにはFastapiが使用され、フロントエンドコンポーネントにはsvelteが使用されています。これにより、Pythonでカスタマイズ可能なWebアプリを作成することができます。機械学習モデルやコンセプトのデモアプリを構築して共有するのに最適です。詳細は、Gradioの公式GitHubをご覧ください。Gradioを使用したアプリケーションの構築については、「GradioでChat GPTを構築しましょう」という記事も参考にしてください。…

シュナイダーエレクトリックは、SageMakerでのリトリーバルアグメントドLLMsを活用して、ERPシステムのリアルタイムの更新を確実にしています

この投稿は、Schneider ElectricのNorth America Artificial IntelligenceのソリューションエンジニアリングおよびアーキテクチャのマネージャーであるAnthony Medeirosと、ビジネスインテリジェンスマネージャーのBlake Santschiによって共同執筆されましたその他のSchneider Electricの専門家には、Jesse Miller、Somik Chowdhury、Shaswat Babhulgaonkar、David Watkins、Mark Carlson、およびBarbara Sleczkowskiが含まれます企業資源計画（ERP）システムは、企業が使用するものです...

私の個人的なコパイロット：自分自身のコーディングアシスタントをトレーニングする

プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。では、始めましょう 🚀 データ収集のワークフロー私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています：このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです： [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…

RAGのNLPにおける検索と生成の統一的な革新的アプローチ

イントロダクション AIの急速に進化する領域に、ゲームチェンジングなイノベーションが登場し、機械が人間の言語と関わる方法を再構築しています。それが、Retrieval Augmented Generation（RAG）です。RAGは単なるテックの流行語ではありません。それは人機コミュニケーションを革命化しています。我々と一緒にRAGの秘密を解き明かし、その応用とAIへの深い影響を探求しましょう。RAGはNLPの最前線に位置し、リトリーバルとジェネレーションをシームレスに統合することで、機械が人間の言語を把握し、相互作用する能力を向上させています。学習目標リトリーバルベースとジェネレーションベースのモデルの基礎的な概念を理解する（NLP）、それによる応用、違い、類似点。 NLPにおける純粋なリトリーバルまたはジェネレーションモデルの制限を分析し、実世界の例を探求する。リトリーバルとジェネレーションモデルの統合の重要性を認識し、この統合が必要なシナリオを理解する。リトリーバル拡張生成（RAG）アーキテクチャに深く入り込み、その構成要素を理解する。 RAGの実装における実践的なスキルを開発し、埋め込みの生成や透明性と正確性の側面を理解する。この記事はData Science Blogathonの一部として掲載されました。リトリーバルとジェネレーションの理解リトリーバルベースとジェネレーションベースのモデルとその主な違いと類似点、自然言語処理におけるアプローチについて探求しましょう。リトリーバルベースのNLPモデル NLPのリトリーバルベースモデルは、入力クエリに基づいて事前に定義された応答セットから適切な応答を選択するように設計されています。これらのモデルは、入力テキスト（質問またはクエリ）を事前に定義された応答のデータベースと比較します。システムは、入力と保存された応答との類似度をコサイン類似度や他の意味的マッチング手法を使用して測定し、最適な応答を特定します。リトリーバルベースモデルは、質問応答などのタスクに効率的であり、応答がしばしば事実ベースで整理された形式で利用可能な場合に適しています。ジェネレーションベースのNLPモデル一方、ジェネレーションベースのモデルは、ゼロから応答を作成します。これらのモデルは、しばしばニューラルネットワークに基づく複雑なアルゴリズムを使用して、人のようなテキストを生成します。リトリーバルベースモデルとは異なり、ジェネレーションベースモデルは事前に定義された応答に依存しません。代わりに、入力に提供された文脈に基づいて次の単語や単語のシーケンスを予測することで、応答の生成を学習します。この新しい、文脈に即した応答を生成する能力により、ジェネレーションベースモデルは非常に多目的であり、クリエイティブなライティング、機械翻訳、対話システムなど、多様で文脈豊かな応答が必要なタスクに適しています。主な違いと類似点要約すると、リトリーバルベースモデルは、事前に定義された応答が利用可能であり、速度が重要なタスクで優れています。一方、ジェネレーションベースモデルは、創造性、文脈認識、多様でオリジナルなコンテンツの生成が必要なタスクで輝きます。RAGなどのモデルでこれらのアプローチを組み合わせることは、両方の手法の長所を活用してNLPシステムの総合的なパフォーマンスを向上させるバランスの取れた解決策を提供します。純粋なリトリーバルまたはジェネレーションモデルの制限人間と機械の会話がますます洗練される中で、人工知能のダイナミックな世界では、リトリーバルベースとジェネレーションベースの2つの主要なモデルが主役となっています。これらのモデルにはそれぞれ長所がありますが、制限もあります。限定された文脈理解…

「AutoGen：次世代の大規模言語モデルアプリケーションの動力源」

「大型言語モデル（LLM）は現在、主流のAI分野で最も話題とされています世界中の開発者たちは、LLMの潜在的な応用可能性を探求していますこれらのモデルは、ディープラーニングの技術と膨大な量のトレーニングデータを利用して、テキスト、音声、画像など、さまざまなコンテンツを理解、要約、予測、生成するAIアルゴリズムです」

印象的なパフォーマンス：TensorRT-LLMを使用したRTXで最大4倍高速化された大規模言語モデル（LLM） for Windows

Generative AIは、個人コンピューティングの歴史で最も重要なトレンドの一つであり、ゲーミング、創造性、ビデオ、生産性、開発などに進歩をもたらしています。また、GeForce RTXとNVIDIA RTX GPUは、Tensor Coreと呼ばれる専用のAIプロセッサを搭載しており、1億台以上のWindows PCとワークステーションにネイティブで生成AIのパワーをもたらしています。本日、TensorRT-LLM for Windowsにより、PC上の生成AIが最大4倍速くなりました。TensorRT-LLMは、AI large language models（Llama 2やCode Llamaなど）の推論性能を高速化するオープンソースライブラリであり、先月のデータセンター版TensorRT-LLMの発表に続きます。 NVIDIAは、TensorRT-LLMでカスタムモデルを最適化するスクリプト、TensorRTで最適化されたオープンソースモデル、およびLLMの速度と品質を示す開発者リファレンスプロジェクトなど、開発者がLLMを加速するためのツールもリリースしています。 TensorRTの高速化は、Automatic1111配布の人気のあるWeb UI内のStable Diffusionでも利用できます。これにより、従来の実装よりも生成AIの拡散モデルが最大2倍速くなります。さらに、RTX Video Super Resolution（VSR）バージョン1.5は、今日のGame…

LLama Indexを使用してRAGパイプラインを構築する

イントロダクション最も人気のある大規模言語モデル（LLM）の応用の一つは、カスタムデータセットに関する質問に回答することです。ChatGPTやBardなどのLLMは、優れたコミュニケーターであり、彼らが訓練されたものに関してはほとんど何でも答えることができます。これはLLMの最大のボトルネックの一つでもあります。彼らはモデルの訓練中に見た質問にしか答えられません。言語モデルは世界の知識に制限があります。例えば、Chatgptは2021年までのデータを利用して訓練されています。また、GPTはあなたの個人ファイルについて学ぶ方法はありません。では、モデルにまだ持っていない知識をどのようにして認識させることができるでしょうか？その答えが「検索補完生成パイプライン（RAG）」です。この記事では、RAG（検索補完生成）パイプラインについて学び、LLamaインデックスを使用してそれを構築する方法について説明します。学習目標 RAG（検索補完生成）とは何か、またいつ使用するべきかを探求する。 RAGの異なるコンポーネントについて簡単に理解する。 Llamaインデックスについて学び、PDFのためのシンプルなRAGパイプラインを構築する方法を理解する。埋め込みとベクトルデータベースとは何か、またLlamaインデックスの組み込みモジュールを使用してPDFから知識ベースを構築する方法を学ぶ。 RAGベースのアプリケーションの実世界での使用例を発見する。この記事はData Science Blogathonの一環として公開されました。 RAGとは何ですか？ LLMは、これまでのところ最も効率的かつ強力なNLPモデルです。翻訳、エッセイの執筆、一般的な質問応答の分野でLLMの潜在能力を見てきました。しかし、特定のドメインに特化した質問応答においては、彼らは幻覚に苦しんでいます。また、ドメイン固有のQAアプリでは、クエリごとに関連する文脈を持つドキュメントはわずかです。したがって、ドキュメントの抽出から回答生成、およびその間のすべてのプロセスを統合する統一されたシステムが必要です。このプロセスは「検索補完生成」と呼ばれています。詳しくはこちらを参照：AIにおける検索補完生成（RAG）では、なぜRAGが実世界の特定のドメインに特化したQAアプリケーションの構築に最も効果的なのかを理解しましょう。なぜRAGを使用すべきか？ LLMが新しいデータを学ぶ方法は3つあります。トレーニング：兆個のトークンと数十億のパラメータを持つニューラルネットワークの大規模なメッシュが使用されて、大規模言語モデルを作成するために訓練されます。ディープラーニングモデルのパラメータは、特定のモデルに関するすべての情報を保持する係数または重みです。GPT-4のようなモデルを訓練するには、数億ドルがかかります。この方法は誰にでも容易にはできません。このような巨大なモデルを新しいデータで再訓練することは実現不可能です。ファインチューニング：別のオプションとして、既存のデータに対してモデルをファインチューニングすることが考えられます。ファインチューニングは、トレーニング中に事前に訓練されたモデルを起点として使用することを意味します。事前に訓練されたモデルの知識を利用して、異なるデータセット上で新たなモデルを訓練します。これは非常に強力ですが、時間とお金の面で高コストです。特別な要件がない限り、ファインチューニングは意味がありません。プロンプティング：プロンプティングは、LLMのコンテキストウィンドウ内に新しい情報を適応させ、提示された情報からクエリに回答させる方法です。これは、訓練やファインチューニングで学んだ知識ほど効果的ではありませんが、ドキュメントの質問応答など多くの実世界のユースケースには十分です。テキストドキュメントからの回答を促すことは効果的ですが、これらのドキュメントはしばしばLarge Language Models（LLM）のコンテキストウィンドウよりもはるかに大きくなるため、課題を提起します。リトリーバルオーグメンテッドジェネレーション（RAG）パイプラインは、関連するドキュメントセクションの処理、保存、および検索を行うことで、LLMが効率的にクエリに答えることができるようにします。それでは、RAGパイプラインの重要なコンポーネントについて議論しましょう。 RAGコンポーネントとは何ですか？…

「LLMsとRAGを組み合わせることによる拡張」

私はVoAGIについてさまざまな技術トピックについて何度もブログを書いてきました特にAmazon SageMaker上での機械学習（ML）モデルのホスティングに関してはより多くの記事を執筆してきました最近では興味を持ったのは…

Learn more about Search Results Amazon Augmented AI - Page 7