Learn more about Search Results ML - Page 240

HNSW(Hierarchical Navigable Small World)への序章

イントロダクション AIの革新は驚異的なスピードで進んでいます。その革新のひとつがベクトル検索エンジンです。では、これらの検索エンジンとは何でしょうか?簡単に言えば、大規模な言語モデル(LLM)を訓練するためのもので、大量のデータセットを徹底的に調査し、関連する情報を選び出します。さて、このインデックス付けは、ベクトルデータベース内でさまざまな方法で行われますが、その中でも階層的ナビゲーション可能な小世界(HNSW)はパフォーマンスと拡張性に優れています。主要なベクトルストアはすべて、HNSWをインデックスメソッドとして提供しています。HNSWは高速で効率的、堅牢かつ信頼性があります。今回の記事では、HNSWの内部機能を解説し、なぜそれほど速いのかについて学びます。 学習目標 埋め込みとベクトルデータベースの理解。 ベクトルデータベースにおけるインデックスの異なる方法について知る。 HNSWとは何か、その仕組みを学ぶ。 HNSWlib、ヘッダのみのHNSW実装を理解する。 この記事は、Data Science Blogathonの一部として公開されました。 埋め込みとは何ですか? 埋め込みとは、データ(テキスト、画像)のベクトル表現です。 意味的に関連するデータはベクトル空間で近接しており、異なるデータは離れています。言い換えれば、Messiやサッカーの埋め込みは埋め込み空間で近くに位置し、サッカーやJoe Bidenの埋め込みは埋め込み空間で遠くに位置しています。 ベクトルの長さは数百から数千以上に及ぶことがあります。そのため、格納、クエリ、検索が困難です。しかし、リトリーバル強化生成(RAG)ベースのアプリケーションでは、データの埋め込みの高速な検索とクエリが必要です。ここでベクトルデータベースが登場します。 ベクトルデータベースとは何ですか? 従来のデータベースが構造化および非構造化データを格納することを目指しているのと同様に、ベクトルデータベースは高次元ベクトルの埋め込みを格納し、検索およびクエリを行います。ユーザーフレンドリーなインターフェースを提供し、埋め込みと関連データを操作できるようにします。ベクトルデータベースは基本的には従来のデータベースとは異なりません。ベクトルデータベースはシリアライズされた埋め込みを格納するために従来のデータベースを使用します。例えば、Chromaはメモリ内ストレージとしてSQLiteを使用し、Pgvectorは埋め込みと関連するメタデータを格納するためにPostgresデータベースを使用します。従来のデータベースとベクトルデータベースの違いは、基礎となるインデックスアルゴリズムです。 ベクトルデータベースでのインデックス作成 インデックス作成とは、最も近い近傍ベクトルの効率的なクエリを提供するために、高次元ベクトルを組織化するプロセスを指します。 これは任意のベクトルデータベースの構築において最も重要な部分です。これらのインデックスは高次元埋め込みの高速かつ効率的なクエリを可能にします。ベクトルインデックスを作成するためには、次のような複数のインデックス作成方法があります。 線形検索アルゴリズム(フラットインデックス):これは線形検索アルゴリズムであり、データベースに格納されているすべてのベクトルとクエリベクトルを比較します。これは最も単純な方法であり、小規模なデータセットではうまく動作します。 クラスタベースアルゴリズム(IVF):反転ファイルはクラスタベースのインデックス技術です。k-meansクラスタリングを使用してすべてのベクトルをクラスタ化します。クエリベクトルが提供されると、クエリベクトルと各クラスタの重心の距離を計算します。そして、クエリベクトルに最も近い重心を持つクラスタで最近傍ベクトルを検索します。これにより、クエリ時間が大幅に短縮されます。 量子化(スカラーおよびプロダクト量子化):量子化技術は、大規模な埋め込みのメモリフットプリントを削減するために、精度を低下させる方法です。 グラフベース(HNSW):最も一般的なインデックス作成方法です。階層的なグラフアーキテクチャを使用してベクトルをインデックスします。そして、これについても探索します。…

清华大学和微软研究人员推出ToRA:用于数学问题解决的人工智能工具集成推理代理

“`html 人工知能と数学問題解決において、特に大規模な言語モデルの出現により、顕著な進展がなされています。しかし、これらのモデルは依然として複雑な数学的な課題に取り組んでいます。マイクロソフトと清華大学の研究者は、自然言語推論と外部計算ツールを組み合わせた画期的なアプローチである「Tool-integrated Reasoning Agents(TORA)」を紹介し、複雑な数学の問題に対処することを目指しています。 研究者は、計算機、コードインタプリタ、およびシンボリックソルバなどの外部ツールを統合することで、これらの課題に対処しています。プログラムベースの手法は、推論タスクをプログラム合成タスクに変換することで効果的に推論を変革していますが、微妙な推論、計画、エラーハンドリングの問題があります。大規模な言語モデル(LLM)にこれらのツールを組み込むことで、推論と生成の性能が大幅に向上しました。LLM生成の軌跡を用いたナレッジ蒸留技術は、先生モデルから生徒モデルへの知識の転移にも役立っています。 LLMは、数学的な推論を含む言語タスクで注目すべき進展を遂げていますが、複雑な数学は依然として困難です。LLMの数学的な能力を高めるための現在の戦略は、ステップバイステップの自然言語推論とプログラム合成です。前者は意味的で抽象的な推論において優れていますが、後者は厳密な操作において優れており、方程式ソルバなどの特殊なツールを利用することができます。このアプローチは、数学的な推論データセットにおいてオープンソースモデルよりも優れた精度を持ち、特に競技レベルのMATHSデータセットで高い精度を達成しています。彼らの手法はまた、数学的な推論におけるツールの相互作用の利点と解決されていない課題に関する洞察を提供し、この領域における将来の研究を指針としています。 TORAモデルは、数学のデータセット上の対話型ツール使用軌跡を用いて訓練され、アノテーションによる模倣学習を適用し、出力空間形成による推論の挙動を洗練しました。訓練セットではGPT-4が多様な推論パターンを生成しました。プロンプトのキュレーションのため、命令と少量の例が交互に構成され、rationalesとプログラムの統合を行うTORAの効果も評価されました。重要な推論性能の向上が実現されています。特定された課題には、ジオメトリスペースのより深い理解と、中級代数と前計算問題における複雑な象徴的推論への対処が含まれます。 TORAは、自然言語の推論とプログラムベースのツール使用をシームレスに統合することで、数学的な推論を向上させます。TORAモデルは、十の数学的な推論データセットにおいて優れた性能を発揮し、平均して13%から19%の絶対的な改善を取り、プログラムベースの問題解決においても優れた性能を発揮しています。ツールの相互作用の利点と課題を分析するこの手法は、rationalesとプログラムの実行を交錯させるTORAのTool-integrated Reasoning形式の効果を示しています。 TORAは、自然言語原理とプログラムベースのツール使用を無理なく統合することにより、数学的な問題解決の前進を実現しています。既存の原理とプログラムベースの手法を凌駕し、さまざまな数学的な推論タスクにおいて最先端の性能を発揮しています。ツールの相互作用の利点と課題に関する包括的な分析は、将来の研究において重要な洞察を提供し、より高度かつ適応性のある推論エージェントの開発を約束しています。 “`

高度なPython:メタクラス

この記事は、Advanced Pythonシリーズを続けます(前の記事はPythonの関数についてです)今回は、メタクラスの紹介をカバーしますこのトピックはかなり高度ですなぜなら、めったに...

NVIDIAはAI市場で権力を乱用しているのか?EUがNVIDIAのAIチップセクターでの圧倒的な支配力を調査中

Nvidia、有名なGPUメーカーは、人工知能チップ市場における支配力について、ヨーロッパで注目を浴びています。ウォール・ストリート・ジャーナルからの最新の報告によると、フランスの寡占反トラスト当局は、Nvidiaのフランスのオフィスを捜索しました。この行動は、Nvidiaが不正な独占的な慣行に従事しているかどうかを調査するためです。 フランス競争当局(FCA)は、グラフィックスチップセクターの特定のメーカーのオフィスでの捜索を確認しました。目的は何でしょうか?独占的な行動の兆候を調査するためです。FCAは調査対象の企業名を明示していませんが、ワシントン・デイリーの情報筋は調査対象がNvidiaであることを確認しています。フランスの当局は捜索中に、Nvidiaのスタッフとのインタビューを行い、物理的およびデジタルな文書を押収しました。しかしながら、Nvidiaはこの問題について沈黙を守ることを選んでいます。 関連動向として、ブルームバーグは、欧州競争委員会が現在、様々な業界の関係者と非公式な議論を行っていると情報筋によって伝えられています。目的は、特にエンタープライズとゲーミング分野において、Nvidiaが人工知能チップ市場を操作しているかどうかを評価することです。NvidiaのA100とH100チップは、人工知能チップ市場の驚異的な80%を占めており、IntelやAMDといった従来のCPU大手は追いつくのに苦労しています。EUの調査が独占的行為を確認すれば、Nvidiaは数十億ドルの罰金を突きつけられる可能性があります。 人工知能の人気の急増はNvidiaにとって恩恵です。同社の株価は急騰し、最近の四半期の売上高はなんと133億5100万ドルで、年間成長率101%を記録しました。時価総額が1兆ドルを超えるNvidiaの成功は言うまでもありません。しかし、大きな力には大きな監視が伴うものであり、このヨーロッパの調査がどのように進展するかはまだ見通せません。

「データ可視化での色の使い方」

データの視覚化における色の力を解き放とうこのガイドブックは、アナリストやビジュアルストーリーテラーが色理論、ツール、テクニックについての洞察を提供し、視覚的に魅力的で理解しやすいデータの物語を作り出すためのものですすべてのデータストーリーに明瞭さと包括性を確保します

変形ロボットが昆虫のように握り、登り、這うことができる

3つの新しいロボットシステムは、形を変えて困難な地形にスムーズに移動できるように適応できます

セルンでの1エクサバイトのディスクストレージ

スイスのヨーロッパ原子核研究機構(CERN)は、1エクサバイトの閾値を超え、100万テラバイト(TB)のディスクスペースを蓄積しました

「私たちはAIとの関係をどのように予測できるのか?」

現在の段階やAGIの後の人間とAIの相互作用は常に議論の的です次の否定的な側面にいるのか、立場をとっているのかに関わらず、私たちの人生におけるAIの結果を解きほぐしたいと思います...

Azure Machine Learningにおける生成AI:AI変革のためのアプリ開発の運用化

「ジェネラティブAIの時代において、リーダーたちは革新と目的の交差点に立たされています取締役会やデータサイエンスの会議場で響き渡るのは次のような疑問です:この最新鋭の技術の星座をどうやって活用し、創造性とビジネスの柔軟性を持って組織の目標を前進させつつ、社会とのバランスを取ることができるのでしょうか...」

「マルチモーダルAIの最新の進歩:(ChatGPT + DALLE 3)+(Google BARD + 拡張)など、さまざまなものがあります….」

マルチモーダルAIは、テキスト、画像、ビデオ、オーディオなどのさまざまなデータタイプ(モーダリティ)を組み合わせて、より優れたパフォーマンスを実現する人工知能(AI)の領域です。ほとんどの伝統的なAIモデルは単一モーダルであり、1つのデータタイプのみを処理できます。それらは訓練され、そのモーダリティに特化したアルゴリズムであります。単一モーダルAIシステムの例として、ChatGPTがあります。それは自然言語処理を使用してテキストデータの理解と意味抽出を行います。さらに、テキストのみを出力することができます。 それに対して、マルチモーダルAIシステムは複数のモーダリティを同時に処理し、複数の出力タイプを生成することができます。GPT-4を使用した有料版のChatGPTは、マルチモーダルAIの例です。それはテキストだけでなく画像も処理でき、PDF、CSVなどの異なるファイルを処理することができます。 この記事では、マルチモーダルAIの最近の進歩について紹介します。 ChatGPT + DALLE 3 DALLE 3は、AIによる画像生成技術の最新の進歩を表しており、AIによって生成される芸術の大きな進歩となっています。システムはユーザープロンプトの文脈を理解する能力が向上し、ユーザーが提供した詳細をより理解することができます。 出典: https://openai.com/dall-e-3 上の画像からは、モデルがプロンプトの詳細を捉えて、入力されたテキストに厳密に従った包括的な画像を作成する能力があることがはっきりとわかります。 DALL·E 3はChatGPTに直接統合されており、シームレスに連携することができます。アイデアが与えられると、ChatGPTはDALL·E 3のために特定のプロンプトを簡単に生成し、ユーザーのコンセプトに命を吹き込むことができます。イメージの調整が必要な場合、ユーザーは簡単な言葉でChatGPTに尋ねることができます。 ユーザーはChatGPTの助けを借りて、DALL·E 3がアートワークを生成するために使用できるプロンプトを作成するには、ChatGPTの支援を求めることができます。DALL·E 3はまだユーザーの特定のリクエストを処理することができますが、ChatGPTの助けを借りることで、AIによるアートの創造がよりアクセスしやすくなります。 Google BARD + 拡張機能 Googleが開発した対話型AIツールであるBARDは、拡張機能を通じて重要な向上を遂げました。これらの改善により、BARDはさまざまなGoogleアプリやサービスと連携できるようになりました。拡張機能により、BARDはGmail、Docs、Drive、Google Maps、YouTube、Google…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us