Learn more about Search Results NetworkX - Page 5
- You may be interested
- ジナAIは、「jina-embeddings-v2」を紹介...
- 『RAG パイプラインの落とし穴: 「テーブ...
- 「マーク・A・レムリー教授による生成AIと...
- Google Cloudがマッコーリー銀行のAIバン...
- コンセプトスライダー:LoRAアダプタを使...
- 「データストーリーテリングとアナリティ...
- 「自律AIエージェントを使用してタスクを...
- デシは、コード生成のためのオープンソー...
- 「GPTの進化を探る ChatGPT-4の新機能と、...
- 私たちがChatGPTチャットボットを10倍速く...
- 「ハリウッドの自宅:DragNUWAは、制御可...
- 顧客セグメンテーション:クラスタリング...
- 複数モードモデルとは何ですか?
- OpenAIはGPT-4 Turboを搭載した次世代AIの...
- 「Amazon Rekognitionを使用して、Amazon ...
知識グラフ:AIとデータサイエンスのゲームチェンジャー
導入 知識グラフは、AIとデータサイエンスにおいて、構造化情報を記録し、データの検索、推論、推論を促進するための効果的で多目的な手法として台頭しています。この記事では、構築、表現、クエリ、埋め込み、推論、アラインメント、融合などの最新の知識グラフについて調査します。 また、レコメンデーションエンジンや質問応答システムなど、知識グラフの多くの応用についても議論します。最後に、新たな進歩と研究の機会を開拓するために、このトピックの問題と潜在的な将来の展望について探求します。 知識グラフは、エンティティと特性の間の複雑な関連を表現するための柔軟でスケーラブルなメカニズムを提供することで、情報の組織と利用の方法を革新しました。ここでは、知識グラフの概要、その重要性、およびさまざまな分野での潜在的な利用方法について一般的な導入を行います。 学習目標 知識グラフの概念と目的、情報の構造化表現について理解する。 ノード、エッジ、プロパティなど、知識グラフの主要な構成要素について学ぶ。 データの抽出と統合技術を含む構築プロセスを探索する。 知識グラフ埋め込みがエンティティと関係を連続ベクトルとして表現する方法を理解する。 既存の知識から新たな洞察を推論するための推論メソッドを探索する。 知識グラフの視覚化による理解向上を探求する。 この記事は、データサイエンスブログマラソンの一環として公開されました。 知識グラフとは何ですか? 知識グラフは、情報抽出操作中に抽出された情報を格納することができます。多くの基本的な知識グラフの実装では、トリプルという概念を利用しています。トリプルは、主語、述語、目的語の3つの要素のコレクションであり、何についての情報を保持できます。 グラフは、ノードとエッジのコレクションです。 これは、設計可能な最小の知識グラフであり、トリプルとも呼ばれます。知識グラフはさまざまな形式やサイズで提供されます。ここでは、ノードAとノードBが個別の要素であることを示すエッジで接続されています。 知識グラフにおけるデータ表現 次のフレーズを例に取り上げます: ロンドンはイングランドの首都です。ウェストミンスターはロンドンに位置しています。 後で基本的な処理を見ていきますが、最初には次のような2つのトリプルがあります: (ロンドン、首都、イングランド)、(ウェストミンスター、位置する、ロンドン) この例では、3つの異なるエンティティ(ロンドン、イングランド、ウェストミンスター)と2つの関係(首都、位置)があります。知識グラフを構築するには、ネットワーク内の2つの関連ノードと関係を持つエンティティと頂点が必要です。その結果得られる構造は次のようになります:知識グラフを手動で作成することはスケーラブルではありません。誰もが数百ページもの文章を読み込んで、すべてのエンティティとそれらの関係を抽出することはありません! 機械は数百、さらには数千の論文を簡単に処理できるため、この作業を人間よりも適しています。ただし、機械は自然言語を理解できないという難しさもあります。この状況では、自然言語処理(NLP)を使用することが重要です。 テキストから知識グラフを作成するためには、コンピュータが自然言語を理解することが重要です。これには、文の分割、依存解析、品詞タグ付け、エンティティ抽出などのNLP手法が使用されます。…
車両ルーティング問題 正確な解法とヒューリスティック解法
「車両ルーティング問題(VRP)は、与えられた一連の顧客をサービスするために、車両のフリートが実行する最適なルートセットを決定することを目指していますその多くの応用と挑戦的な性質により…」
「GPUのマスタリング:PythonでのGPUアクセラレーテッドデータフレームの初心者ガイド」
「RAPIDS cuDFは、pandasのようなAPIを備えており、データサイエンティストやエンジニアがわずかなコードの変更でGPU上での並列計算の膨大な可能性に素早くアクセスできるようにします詳細は以下をお読みください」
グラフ機械学習の概要
このブログ投稿では、グラフ機械学習の基礎をカバーします。 まず、グラフの定義、使用目的、および最良の表現方法について学びます。次に、人々がグラフ上で学習する方法について簡単に説明し、ニューラルメソッド(グラフの特徴を同時に探索する)から一般的にグラフニューラルネットワークと呼ばれるものまでをカバーします。最後に、グラフのためのトランスフォーマーの世界を垣間見ます。 グラフ グラフとは何ですか? 基本的に、グラフは関係でリンクされたアイテムの記述です。 グラフの例には、ソーシャルネットワーク(Twitter、Mastodon、論文と著者をリンクする引用ネットワークなど)、分子、知識グラフ(UML図、百科事典、ページ間のハイパーリンクを持つウェブサイトなど)、文を構文木として表現したもの、3Dメッシュなどがあります。したがって、グラフはどこにでも存在すると言っても過言ではありません。 グラフのアイテム(またはネットワーク)をノード(または頂点)と呼び、それらの接続をエッジ(またはリンク)と呼びます。たとえば、ソーシャルネットワークでは、ノードはユーザーであり、エッジはその接続です。分子では、ノードは原子であり、エッジは分子結合です。 ノードまたはエッジに型が付いたグラフは異種と呼ばれます(例:論文または著者のいずれかとなるアイテムを持つ引用ネットワークには型付きノードがあり、関係に型が付いたXMLダイアグラムには型付きエッジがあります)。これは単にトポロジだけで表現することはできず、追加の情報が必要です。この投稿では同種のグラフに焦点を当てています。 グラフはまた、有向(フォローネットワークのように、AがBをフォローしていることがBがAをフォローしていることを意味しない)または無向(分子のように、原子間の関係が両方の方向に進む)になります。エッジは異なるノードを接続することも、ノード自体に接続することもできますが、すべてのノードが接続される必要はありません。 データを使用する場合、最初に最適な特性(同種/異種、有向/無向など)を考慮する必要があります。 グラフはどのように使用されますか? グラフで行う可能性のあるタスクの一覧を見てみましょう。 グラフレベルでは、主なタスクは次のとおりです: グラフ生成:新しい可能性のある分子を生成するために薬剤探索で使用されます グラフの進化(与えられたグラフが時間とともにどのように進化するかを予測する):物理学でシステムの進化を予測するために使用されます グラフレベルの予測(グラフからのカテゴリ化または回帰タスク):分子の毒性を予測するなど ノードレベルでは、通常はノードの特性予測が行われます。たとえば、Alphafoldは、分子の全体的なグラフからノードの特性予測を使用して原子の3D座標を予測し、分子が3D空間でどのように折りたたまれるかを予測します。これは難しい生化学の問題です。 エッジレベルでは、エッジの特性予測または欠損エッジの予測が行われます。エッジの特性予測は、薬物の副作用予測に使用され、一対の薬物に対して副作用を予測します。欠損エッジの予測は、推薦システムで使用され、グラフ内の2つのノードが関連しているかどうかを予測します。 サブグラフレベルでは、コミュニティの検出やサブグラフの特性予測などが行われます。ソーシャルネットワークでは、コミュニティの検出を使用して人々がどのように接続されているかを判断します。サブグラフの特性予測は、旅程システム(Googleマップなど)で推定到着時間を予測するために使用されます。 これらのタスクに取り組む方法は2つあります。 特定のグラフの進化を予測する場合、すべて(トレーニング、検証、テスト)を同じ単一のグラフ上で行う転移学習の設定で作業します。この場合、単一のグラフからトレーニング/評価/テストデータセットを作成することは容易ではありませんので注意してください。ただし、異なるグラフ(別々のトレーニング/評価/テストデータセット)を使用して作業することもあります。これは帰納的な設定と呼ばれます。 グラフはどのように表現されますか? グラフを処理および操作するための一般的な方法は次のいずれかです: すべてのエッジの集合として表現する(すべてのノードの集合と補完される場合もあります)…
トランスフォーマーによるグラフ分類
前回のブログでは、グラフ上での機械学習の理論的な側面について調査しました。このブログでは、Transformersライブラリを使用してグラフ分類を行う方法について調査します(デモノートブックをここからダウンロードして一緒に進めることもできます!) 現時点では、Transformersで利用できる唯一のグラフトランスフォーマーモデルはMicrosoftのGraphormerですので、こちらを使用します。他のモデルも使用して統合する人々がどのような結果を出すか楽しみにしています 🤗 必要条件 このチュートリアルに従うためには、datasetsとtransformers(バージョン>= 4.27.2)がインストールされている必要があります。これはpip install -U datasets transformersで行うことができます。 データ グラフデータを使用するためには、独自のデータセットから始めるか、Hubで利用可能なデータセットを使用することができます。既に利用可能なデータセットを使用することに焦点を当てますが、自分のデータセットを追加することも自由です! 読み込み Hubからのグラフデータセットの読み込みは非常に簡単です。まず、ogbg-mohivデータセット(StanfordのOpen Graph Benchmarkのベースライン)をロードしましょう。これはOGBリポジトリに保存されています: from datasets import load_dataset # Hubには1つのスプリットしかありません dataset =…
大規模なネアデデュープリケーション:BigCodeの背後に
対象読者 大規模な文書レベルの近似除去に興味があり、ハッシュ、グラフ、テキスト処理のいくつかの理解を持つ人々。 動機 モデルにデータを供給する前にデータをきちんと扱うことは重要です。古い格言にあるように、ゴミを入れればゴミが出てきます。データ品質があまり重要ではないという幻想を作り出す見出しをつかんでいるモデル(またはAPIと言うべきか)が増えるにつれて、それがますます難しくなっています。 BigScienceとBigCodeの両方で直面する問題の1つは、ベンチマークの汚染を含む重複です。多くの重複がある場合、モデルはトレーニングデータをそのまま出力する傾向があることが示されています[1](ただし、他のドメインではそれほど明確ではありません[2])。また、重複はモデルをプライバシー攻撃に対しても脆弱にする要因となります[1]。さらに、重複除去の典型的な利点には以下があります: 効率的なトレーニング:トレーニングステップを少なくして、同じかそれ以上のパフォーマンスを達成できます[3][4]。 データ漏洩とベンチマークの汚染を防ぐ:ゼロでない重複は評価を信用できなくし、改善という主張が偽りになる可能性があります。 アクセシビリティ:私たちのほとんどは、何千ギガバイトものテキストを繰り返しダウンロードまたは転送する余裕がありません。固定サイズのデータセットに対して、重複除去は研究、転送、共同作業を容易にします。 BigScienceからBigCodeへ 近似除去のクエストに参加した経緯、結果の進展、そして途中で得た教訓について最初に共有させてください。 すべてはBigScienceがすでに数ヶ月前に始まっていたLinkedIn上の会話から始まりました。Huu Nguyenは、私のGitHubの個人プロジェクトに気付き、BigScienceのための重複除去に取り組むことに興味があるかどうか私に声をかけました。もちろん、私の答えは「はい」となりましたが、データの膨大さから単独でどれだけの努力が必要になるかは全く無知でした。 それは楽しくも挑戦的な経験でした。その大規模なデータの研究経験はほとんどなく、みんながまだ信じていたにもかかわらず、何千ドルものクラウドコンピュート予算を任せられるという意味で挑戦的でした。はい、数回マシンをオフにしたかどうかを確認するために寝床から起きなければならなかったのです。その結果、試行錯誤を通じて仕事を学びましたが、それによってBigScienceがなければ絶対に得られなかった新しい視点が開かれました。 さらに、1年後、私は学んだことをBigCodeに戻して、さらに大きなデータセットで作業をしています。英語向けにトレーニングされたLLMに加えて、重複除去がコードモデルの改善につながることも確認しました[4]。さらに、はるかに小さなデータセットを使用しています。そして今、私は学んだことを、親愛なる読者の皆さんと共有し、重複除去の視点を通じてBigCodeの裏側で何が起こっているかを感じていただければと思います。 興味がある場合、BigScienceで始めた重複除去の比較の最新バージョンをここで紹介します: これはBigCodeのために作成したコードデータセット用のものです。データセット名が利用できない場合はモデル名が使用されます。 MinHash + LSHパラメータ( P , T , K…
RAPIDS:簡単にMLモデルを加速するためにGPUを使用する
はじめに 人工知能(AI)がますます成長するにつれて、より高速かつ効率的な計算能力の需要が高まっています。機械学習(ML)モデルは計算量が多く、モデルのトレーニングには時間がかかることがあります。しかし、GPUの並列処理能力を使用することで、トレーニングプロセスを大幅に加速することができます。データサイエンティストはより速く反復し、より多くのモデルで実験し、より短い時間でより良い性能のモデルを構築することができます。 使用できるライブラリはいくつかあります。今日は、GPUの知識がなくてもMLモデルの加速化にGPUを使用する簡単な解決策であるRAPIDSについて学びます。 学習目標 この記事では、以下のことについて学びます: RAPIDS.aiの概要 RAPIDS.aiに含まれるライブラリ これらのライブラリの使用方法 インストールとシステム要件 この記事は、Data Science Blogathonの一部として公開されました。 RAPIDS.AI RAPIDSは、GPU上で完全にデータサイエンスパイプラインを実行するためのオープンソースのソフトウェアライブラリとAPIのスイートです。RAPIDSは、最も人気のあるPyDataライブラリと一致する使い慣れたAPIを持ちながら、優れたパフォーマンスと速度を提供します。これは、NVIDIA CUDAとApache Arrowで開発されており、その非凡なパフォーマンスの理由です。 RAPIDS.AIはどのように動作するのですか? RAPIDSは、GPUを使用した機械学習を利用してデータサイエンスおよび分析ワークフローのスピードを向上させます。GPU最適化されたコアデータフレームを持っており、データベースと機械学習アプリケーションの構築を支援し、Pythonに似た設計となっています。RAPIDSは、データサイエンスパイプラインを完全にGPU上で実行するためのライブラリのコレクションを提供します。これは、2017年にGPU Open Analytics Initiative(GoAI)と機械学習コミュニティのパートナーによって作成され、Apache Arrowのカラムメモリプラットフォームに基づいたGPUデータフレームを使用して、エンドツーエンドのデータサイエンスおよび分析ワークフローをGPU上で加速するためのものです。RAPIDSには、機械学習アルゴリズムと統合されるDataframe APIも含まれています。 データの移動量を減らした高速データアクセス…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.