Search Results OPT

LangChainとPinecone Vector Databaseを使用したカスタムQ&Aアプリケーションの構築

イントロダクション大規模な言語モデルの登場は、現代における最もエキサイティングな技術の進展の一つです。これにより、人工知能の分野でさまざまな産業において実際の問題に対する解決策を提供する無限の可能性が開かれました。これらのモデルの魅力的な応用の一つは、個人や組織のデータソースから取得した情報をもとに、カスタムの質疑応答やチャットボットを開発することです。しかし、一般的なデータで訓練された大規模言語モデルは、常にエンドユーザーにとって特定の回答または有用な回答を提供するわけではありません。この問題を解決するために、LangChainなどのフレームワークを使用して、データに基づいた特定の回答を提供するカスタムチャットボットを開発することができます。この記事では、Streamlit Cloudでの展開を伴うカスタムQ&Aアプリケーションの構築方法について学びます。学習目標この記事に深く入る前に、主な学習目標を以下に概説しましょう：カスタムの質疑応答のワークフロー全体を学び、各コンポーネントの役割を理解する Q&Aアプリケーションの利点を知り、カスタムの言語モデルの微調整との比較を行う Pineconeベクトルデータベースの基礎を学び、ベクトルの保存と取得を行う OpenAIの言語モデル、LangChain、およびPineconeベクトルデータベースを使用してセマンティックサーチパイプラインを構築し、Streamlitアプリケーションを開発するこの記事はData Science Blogathonの一部として公開されました。 Q&Aアプリケーションの概要出典：ScienceSoft 質疑応答または「データに基づくチャット」は、LLMsとLangChainの広範なユースケースです。LangChainは、ユースケースに対して見つけることができるすべてのデータソースをロードするための一連のコンポーネントを提供しています。LangChainは多くのデータソースとトランスフォーマーをサポートし、ベクトルデータベースに保存するために文字列のシリーズに変換します。データがデータベースに保存されたら、リトリーバーと呼ばれるコンポーネントを使用してデータベースにクエリを送信することができます。さらに、LLMsを使用することで、ドキュメントを大量に参照することなく、チャットボットのような正確な回答を得ることができます。 LangChainは以下のデータソースをサポートしています。画像で確認できるように、様々なデータソースに接続するための120以上の統合が可能です。出典：LangChain Docs Q&Aアプリケーションのワークフロー LangChainがサポートするデータソースについて学びました。これにより、LangChainで利用可能なコンポーネントを使用して、質疑応答パイプラインを開発することができます。以下に、ドキュメントのロード、保存、リトリーバル、LLMによる出力生成に使用されるコンポーネントを示します。ドキュメントローダー：ユーザードキュメントをベクトル化および保存するためにロードするためのコンポーネントテキストスプリッター：これらは、ドキュメントを固定のチャンク長に変換して効率的に保存するドキュメントトランスフォーマーですベクトル保存：入力テキストのベクトル埋め込みを保存するためのベクトルデータベースの統合ドキュメントリトリーバル：データベースからユーザークエリに基づいてテキストを取得するためのコンポーネント。類似性検索技術を使用して取得します…

PDFとのチャット | PythonとOpenAIによるテキストの対話力の向上

イントロダクション情報に満ちた世界で、PDFドキュメントは貴重なデータを共有および保存するための必須アイテムとなっています。しかし、PDFから洞察を抽出することは常に簡単ではありませんでした。それが「Chat with PDFs」が登場する理由です。この革新的なプロジェクトは、私たちがPDFと対話する方法を変革します。この記事では、言語モデルライブラリ（LLM）のパワーとPyPDFのPythonライブラリの多様性を組み合わせた「Chat with PDFs」という魅力的なプロジェクトを紹介します。このユニークな融合により、PDFドキュメントと自然な会話を行うことができ、質問をすることや関連のある回答を得ることが容易になります。学習目標言語モデルライブラリ（LLM）についての洞察を得る。これは人間の言語パターンを理解し、意味のある応答を生成する高度なAIモデルです。 PyPDFを探求し、PDFの操作におけるテキスト抽出、マージ、分割などの機能を理解する。言語モデルライブラリ（LLM）とPyPDFの統合により、PDFとの自然な会話を可能にする対話型チャットボットの作成方法を認識する。この記事はData Science Blogathonの一環として公開されました。言語モデルライブラリ（LLM）の理解「Chat with PDFs」の中心にあるのは、言語モデルライブラリ（LLM）です。これは大量のテキストデータで訓練された高度なAIモデルです。これらは言語の専門家のような存在であり、人間の言語パターンを理解し、意味のある応答を生成することができます。私たちのプロジェクトでは、LLMは対話型チャットボットの作成において重要な役割を果たしています。このチャットボットは、あなたの質問を処理し、PDFから必要な情報を理解することができます。PDFに隠された知識を活用して、役立つ回答と洞察を提供することができます。 PyPDFs – あなたのPDFスーパーアシスタント PyPDFは、PDFファイルとのやり取りを簡素化する多機能なPythonライブラリです。テキストの抽出、結合、分割など、さまざまな機能を利用できます。このライブラリは、PDFの処理と分析を効率化するために私たちのプロジェクトにおいて重要な役割を果たしています。 PyPDFを使用することで、PDFファイルをロードし、そのテキストを抽出することができます。これにより、効率的な処理と分析の準備が整いました。この強力なアシスタントを使用して、PDFとの対話をスムーズに行うことができます。…

組合せ最適化によるニューラルネットワークの剪定

Posted by Hussein Hazimeh、Athenaチームの研究科学者、およびMITの大学院生であるRiade Benbakiによる投稿近代的なニューラルネットワークは、言語、数学的推論、ビジョンなど、さまざまなアプリケーションで印象的なパフォーマンスを達成しています。しかし、これらのネットワークはしばしば大規模なアーキテクチャを使用し、多くの計算リソースを必要とします。これにより、特にウェアラブルやスマートフォンなどのリソース制約のある環境では、このようなモデルをユーザーに提供することが実用的ではありません。事前学習済みネットワークの推論コストを軽減するための広く使用されている手法は、いくつかの重みを削除することによる枝刈りですが、これはネットワークの有用性にほとんど影響を与えない方法で行われます。標準的なニューラルネットワークでは、各重みは2つのニューロン間の接続を定義します。したがって、重みが剪定された後、入力はより小さな一連の接続を介して伝播し、より少ない計算リソースを必要とします。元のネットワークと剪定されたネットワークの比較。枝刈り手法は、ネットワークのトレーニングプロセスのさまざまな段階で適用できます。トレーニング後、トレーニング中、またはトレーニング前（つまり、重みの初期化直後）に適用できます。この投稿では、トレーニング後の設定に焦点を当てています。つまり、事前学習済みネットワークが与えられた場合、どの重みを剪定すべきかをどのように決定できるかという問題です。最も一般的な手法の1つは、マグニチュード剪定です。この手法では、最も小さい絶対値を持つ重みを削除します。効率的ではありますが、この手法は重みの削除がネットワークのパフォーマンスに与える影響を直接考慮しません。もう1つの一般的な手法は、最小化された損失関数に対する重みの影響度に基づいて重みを削除する最適化ベースの剪定です。概念的には魅力的ですが、既存の最適化ベースの手法の多くは、パフォーマンスと計算要件の間に深刻なトレードオフがあるようです。粗い近似を行う手法（例：対角ヘッシアン行列を仮定する）はスケーラブル性が高く、パフォーマンスは比較的低いです。一方、より少ない近似を行う手法はパフォーマンスが向上する傾向がありますが、スケーラブル性ははるかに低いようです。「Fast as CHITA: Neural Network Pruning with Combinatorial Optimization」は、ICML 2023で発表された論文で、事前学習済みニューラルネットワークの剪定において、スケーラビリティとパフォーマンスのトレードオフを考慮した最適化ベースのアプローチを開発した方法について説明しています。CHITA（「Combinatorial Hessian-free Iterative Thresholding Algorithm」の略）は、高次元統計、組合せ最適化、およびニューラルネットワークの剪定など、いくつかの分野の進歩を活用しています。たとえば、CHITAはResNetの剪定において最先端の手法よりも20倍から1000倍高速であり、多くの設定で精度を10％以上向上させることができます。貢献の概要 CHITAには、人気のある手法に比べて2つの注目すべき技術的改善点があります：…

コンテンツモデレーションからゼロショット分類へ

もし、追加情報や文脈がない小さなテキストを分析し、自分自身のデータを定義するために最も妥当なラベルを取得したい場合、どうすればよいでしょうか？

「ヘイスタックの中の針を見つける – Jaccard類似度のための検索インデックス」翻訳結果は以下の通りです：「ヘイスタックの中の針を見つける – Jaccard類似度のための検索インデックス」

ベクトルデータベースは、大規模言語モデル（LLM）の外部メモリとして話題になっています今日のベクトルデータベースは、近似最近傍探索と呼ばれる10年以上前の研究に基づいて構築された新しいシステムです

『強化学習における大規模な行動空間を処理する5つの方法』

大規模な行動空間の扱いは、強化学習においてまだ解決すべき問題の一つです研究者たちは畳み込みネットワークなどを用いて大規模な状態空間の扱いにおいて大きな進展を遂げていますが、行動空間に関してはまだ十分な解決策が見つかっていません

「Amazon Redshift」からのデータを使用して、Amazon SageMaker Feature Storeで大規模なML機能を構築します

Amazon Redshiftは、一日にエクサバイトのデータを分析するために数万人の顧客に利用されている、最も人気のあるクラウドデータウェアハウスです多くのプラクティショナーは、Amazon SageMakerを使用して、完全に管理されたMLサービスであるAmazon Redshiftデータセットを規模拡大して機械学習（ML）を行うために、オフラインで機能を開発する要件を持っています

「pandasのCopy-on-Writeモードの深い探求-パートII」

最初の投稿では、Copy-on-Writeメカニズムの動作方法について説明しましたコピーがワークフローに導入されるいくつかの領域を強調していますこの投稿では、これを確実にする最適化に焦点を当てます...

Amazon SageMakerを使用して、オーバーヘッドイメージで自己教師ありビジョン変換モデルをトレーニングする

この記事では、Amazon SageMakerを使用して、オーバーヘッドのイメージに対して自己教師ありビジョン変換器をトレーニングする方法を示しますトラベラーズは、Amazon Machine Learning Solutions Lab（現在はGenerative AI Innovation Centerとして知られています）と協力して、このフレームワークを開発し、航空写真モデルのユースケースをサポートおよび強化しました

「ベストインクラスのセッションが開催中：新しいNVIDIA Studioノートパソコンがコンテンツ、ゲーム、教育を超高速化する」

編集者注：この投稿は、週刊NVIDIA Studioシリーズの一部であり、注目のアーティストを紹介し、クリエイティブなヒントやトリックを提供し、NVIDIA Studioテクノロジーがクリエイティブなワークフローを向上させる方法を示しています。また、新しいGeForce RTX 40シリーズGPUの機能、技術、リソースについても詳しく説明し、コンテンツの作成を劇的に加速する方法について深堀りしています。新学年の始まりは、学生がNVIDIA Studioラップトップを手に入れて、コンテンツの作成、ゲーム、教育の能力をアップグレードする理想的な時期です。これらのラップトップは、GeForce RTX 40シリーズのグラフィックスカードで動作します。 Marmoset Toolbagは、完全な3Dアート制作ツールであるバージョン4.06をリリースしました。これは、Toolbag 4ユーザー向けの無料アップデートで、OpenUSDファイル形式のサポートを拡張し、NVIDIA Omniverseとの互換性を追加し、NVIDIA DLSS機能、AI OptiXノイズリダクション、およびレンダリングとベイキングの高速化を提供します。すべてがRTXでアクセラレートされます。最後に、今週のNVIDIA Studioで人気のあるインフルエンサーであるJiffyVFX氏が、120万回以上再生された「Doors to Realities」というバイラルビデオシリーズについて話します。創造、ゲーム、学習 GeForceとNVIDIA Studio RTX 40シリーズのラップトップは、AIの力を利用してコンテンツの作成、ゲーム、学習アプリを高速化します。…

Learn more about Search Results OPT - Page 79