Learn more about Search Results A - Page 314

大規模言語モデルは、ビデオからの長期行動予測に役立ちますか?AntGPTをご紹介します:ビデオベースの長期行動予測タスクにおいて大規模言語モデルを組み込むためのAIフレームワークです

ビデオの観察から、研究はLTAタスク(長期アクション予測)に焦点を当てています。一般的に長期的な時間軸を超えて興味のあるアクターのための動詞と名詞の予測の連続が望ましい結果です。LTAは人間と機械のコミュニケーションにおいて重要です。自動運転車や日常の家事などの状況で、機械エージェントはLTAを使用して人々を支援する可能性があります。また、人間の行動の曖昧さや予測不可能性により、ビデオのアクション検出は非常に困難です。 ボトムアップモデリングは、一般的なLTA戦略の一つで、潜在的な視覚表現や離散的なアクションラベルを使用して人間の行動の時間的ダイナミクスを直接シミュレートします。現在のほとんどのボトムアップLTA戦略は、視覚入力を使用したエンドツーエンドでトレーニングされたニューラルネットワークとして実装されています。アクターの目標を知ることはアクションの予測に役立つかもしれません。特に日常の家庭の状況では人間の行動はしばしば「目的を持っている」です。そのため、広く使用されるボトムアップ戦略に加えて、トップダウンのフレームワークも考慮しています。トップダウンのフレームワークでは、まず目標を達成するために必要なプロセスを概説し、それによって人間のアクターの長期的な目標を示唆します。 ただし、目標指向のプロセス計画をアクション予測に使用するのは通常困難です。なぜなら、ターゲット情報が現在のLTAの標準ではしばしば未ラベル化されており、潜在的です。彼らの研究では、トップダウンとボトムアップのLTAの両方でこれらの問題に取り組んでいます。彼らは、大規模な言語モデル(LLMs)が映画から利益を得ることができるかどうかを調べることを提案しています。なぜなら、LLMsはロボット計画やプログラムベースのビジュアル質問応答において成功しているためです。彼らは、レシピなどの手順テキスト素材で事前トレーニングされたことにより、LLMsが長期的なアクション予測の仕事に対して有用な事前情報をエンコードすることを提案しています。 理想的なシナリオでは、LLMsにエンコードされた事前知識はボトムアップおよびトップダウンのLTAアプローチの両方を支援できます。なぜなら、これらのモデルは「現在のアクションの後に最も可能性の高いアクションは何ですか?」といった質問に応えることができるだけでなく、「アクターが何を達成しようとしており、目標を達成するための残りの手順は何ですか?」といった質問にも応えることができるからです。彼らの研究は、LLMsを長期的なアクション予測に使用するための以下の4つの問いに答えることを目指しています。まず、ビデオとLLMsの間のLTA作業に適切なインターフェースは何ですか?次に、LLMsはトップダウンのLTAに有用であり、目標を推測できますか?アクションの予測は、LLMsの時間的ダイナミクスに関する事前知識によって支援される可能性がありますか?最後に、LLMsのインコンテキスト学習機能によって提供される少数のショットLTA機能を使用できますか? ブラウン大学と本田技術研究所の研究者は、これらの質問に答えるために必要な定量的および定性的評価を行うためのAntGPTという2段階のシステムを提供しています。AntGPTはまず、教師付きアクション認識アルゴリズムを使用して人間の活動を識別します。その後、OpenAI GPTモデルによって認識されたアクションがアクションの意図した結果または今後のアクションに変換され、オプションで最終的な予測に後処理されます。ボトムアップLTAでは、GPTモデルに対して自己回帰的な方法、ファインチューニング、またはインコンテキスト学習を使用して将来のアクションのシーケンスを予測するよう明示的に依頼します。彼らはまずGPTにアクターの目標を予測させ、その後アクターの行動を生成してトップダウンのLTAを達成します。 彼らはまた、目標情報を使用して目標条件付きの予測を行います。さらに、推論のチェーンと少数のショットボトムアップLTAを使用して、AntGPTのトップダウンおよびボトムアップLTAの能力を評価しています。彼らはEGTEA GAZE+、EPIC-Kitchens-55、Ego4DなどのいくつかのLTAベンチマークでテストを実施しています。定量的なテストは彼らの提案されたAntGPTの実現可能性を示しています。さらに、定量的および定性的な研究により、LLMsがビデオの観察からの離散的なアクションラベルを使用してアクターの高レベルの目標を推測することができることが示されています。さらに、LLMsはさまざまな目標を与えられた場合にカウンターファクトアルなアクション予測を実行することができることにも注目しています。 彼らの研究は以下の貢献をしています: 1. 大規模な言語モデルを使用して目標を推測し、時間的ダイナミクスをモデル化し、長期的なアクション予測をボトムアップおよびトップダウンの方法として定義することを提案します。 2. LLMsとコンピュータビジョンアルゴリズムを自然に結び付けるAntGPTフレームワークを提案し、EPIC-Kitchens-55、EGTEA GAZE+、Ego4D LTA v1およびv2のベンチマークにおいて最先端の長期的なアクション予測性能を達成します。 3. LTAの業務に使用される場合、LLMsの重要な設計上の決定、利点、欠点を理解するために、包括的な定量的および定性的評価を実施します。また、彼らはまもなくコードを公開する予定です。

メタAIがオーディオジェネレーションに関するディープラーニングの研究のためのPyTorchライブラリであるAudioCraftをオープンソース化しました

研究者や実践者がモデルを訓練し、最先端を推進するために、メタはテキストから音楽を生成するためのソースコードであるAudioCraftのリリースを行いました。開発のためのAudioCraftフレームワークを構成する3つのモデルは、MusicGen、AudioGen、およびEnCodecです。 MusicGenは、Metaが所有し特定のライセンスが付与された音楽で訓練されたため、テキスト入力に基づいて音楽を生成することができます。 AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。 EnCodecは、AIによるエンコーダ、量子化器、およびデコーダの3つを備えたものです。 AudioGenは、テキスト入力から音声を作成し、公開された効果音で訓練することができます。メタは、EnCodecデコーダの新しい改良版をリリースし、より少ないアーティファクトでより高品質な音楽生成が可能になります。また、事前訓練されたAudioGenモデルも提供され、犬の吠え声、車のクラクション、木製の床での足音などの環境音や効果音を生成するために使用することができます。さらに、AudioCraftモデルの重みとコードも提供されます。技術に興味のある研究者は、これらのモデルを使用することができます。メタは、研究者や実践者が初めてプラットフォームを利用できることを喜んでおり、彼ら自身のデータセットでモデルを訓練し、最先端に貢献することができます。 訓練された後、ユーザーが入力した単語に基づいて、現実的で高品質な音楽や効果音を生成することがあります。AudioCraftにはMusicGen、AudioGen、およびEnCodecの3つのモデルが含まれています。MusicGenとAudioGenは、それぞれの訓練セットに基づいてテキストから音楽や効果音を生成することができます。MusicGenはMeta独自の許可された音楽を使用し、AudioGenは公開された音響データセットを使用します。メタは2017年6月と10月に2つのモデル、MusicGenとAudioGenをリリースしました。 メタは、直感的なインターフェースを備えたAudioCraftがプロフェッショナルな音声を生成できると主張しています。彼らはまた、新しい手法を採用することで、現在の音声生成の最先端の設計を効率化すると主張しています。彼らは、AudioCraftがEnCodecニューラル音声コーデックを使用して生の音声データから意味のある情報を抽出する方法について詳細に説明しています。これにより、事前に決定された音楽サンプル(オーディオトークン)の「語彙」を自己回帰言語モデルに供給し、そのトークンの基盤構造を捉えることで、新しい音声言語モデルを訓練します。テキストの説明に基づいて生成されたトークンは、新しいモデルによって生成され、EnCodecデコーダに送られることで、音声や音楽の合成が可能になります。 メタは、AudioGenとMusicGenのモデルカードを作成し、モデルの開発方法についてドキュメント化し、さまざまなサイズで研究コミュニティに提供しています。また、オーディオ研究フレームワークとトレーニングコードは、MITライセンスの下で一般に公開されており、他の人が使用し、拡張することができます。メタは、より洗練されたコントロールが開発されれば、これらのモデルがアマチュアやプロのミュージシャンに役立つ可能性があると考えています。堅牢なオープンソースの基盤によって、効果音や劇的な音楽を伴うベッドタイムストーリーの朗読など、さまざまな可能性が考えられます。

「IBM、HuggingFace、そしてNASAがWatsonx․ai Foundation Modelをオープンソース化 NASA初の公開可能なAI基盤モデルであり、HuggingFace上で最大の地理空間モデル」

IBMとオープンソースのAIプラットフォームであるHugging Faceは、watsonx.ai地理空間基盤モデルのリリースを共同で発表しました。この驚くべきAIモデルは、NASAの衛星データを使用して開発され、気候科学と地球研究の重要な進歩を表しています。このパートナーシップの主な目的は、AIへのアクセスの民主化を促進し、これらの重要な領域での加速度的なイノベーションを推進することです。 気候科学の領域は、環境条件の絶え間ない変化により、最新のデータにアクセスするという切迫した課題に直面しています。2024年までに新しいミッションからのデータが250,000テラバイトに達すると予想されているにもかかわらず、これらの広範なデータセットの分析は、科学者や研究者にとって困難な課題のままです。この懸念に対処するために、IBMは今年初めにNASAとの宇宙法協定の一環として、地理空間データのためのAI基盤モデルを開発しました。 地理空間基盤モデルをHugging Face上で利用可能にすることで、オープンソースのAIモデルの主要な提唱者であるこのコラボレーションは、AIコミュニティ内でのより大きな協力と情報共有を促進することを目指しています。この動きにより、地球に利益をもたらす影響力のあるソリューションの開発が迅速化することが期待されています。 地理空間基盤モデルは、1年間にわたって米国本土全体でハーモナイズド・ランドサット・センチネル2衛星データ(HLS)で共同でトレーニングされました。このモデルは、既存の手法に比べて15%の向上を示し、ラベル付きデータの半分しか必要としませんでした。このモデルは、森林伐採の追跡、作物収量の予測、温室効果ガスの検出と監視など、さまざまなタスクにさらなる微調整を行うことができます。IBMとNASAはまた、時系列セグメンテーションや類似性研究などの応用についてClark大学と協力しています。 IBMの地理空間モデルは、さまざまなタスクのためにAIモデルを作成しトレーニングするための同社の広範な取り組みの一環として、基盤モデル技術を活用しています。7月には、信頼性のあるデータを使用して高度なAIの影響をスケールアップおよび加速化するためのAIおよびデータプラットフォームであるWatsonxを発表しました。商業版の地理空間モデルは、IBM Environmental Intelligence Suite(EIS)に統合され、今年後半にリリース予定です。 まとめると、IBMとHugging Faceのパートナーシップは、NASAの衛星データによって強化され、科学の進歩を促進し、地球の気候に対する理解を深める有望な機会を提供しています。モデルのオープンソース性は、世界中の研究者や科学者に対して、緊急の環境課題に取り組む力を与えることになるでしょう。

新しいAI研究がMONAI Generative Modelsを紹介:研究者や開発者が簡単に生成モデルをトレーニング、評価、展開できるオープンソースプラットフォーム

最新の生成型人工知能の進歩により、医療画像を含む複数の分野で新たな進展がありました。これらの生成モデルは、異常検出、画像対画像変換、ノイズ除去、磁気共鳴画像(MRI)再構築など、様々な用途において大きな可能性を持っています。しかし、これらのモデルは複雑であるため、実践化や再現性には困難が伴います。この複雑さは進捗を遅らせ、ユーザーの参入障壁を作り、確立された手法と比較して新しいアプローチの評価を妨げる可能性があります。 生成モデルの構築と展開を簡単かつ標準化するために、研究者チームはMONAI Generative Modelsというオープンソースプラットフォームを作成しました。このグループには、キングスカレッジロンドン、国立精神衛生研究所、エジンバラ大学、バーゼル大学、韓国科学技術院、NVIDIA、スタンフォード大学、マウントサイナイ医学校、ロンドン大学などの研究者が参加しました。 技術の有効性を示すために、分布外検出から画像変換、スーパーレゾリューションまで、さまざまな医療画像関連のトピックをカバーした5つの研究が説明されています。2Dおよび3Dのシナリオでさまざまなモダリティと解剖学的領域を使用してプラットフォームの適応性が示され、医療画像のさらなる発展のための新しいツールとしての潜在能力が示されています。5つの実験は以下の通りです: 提案されたモデルは新しい状況に簡単に適応でき、さまざまな状況での徹底的な比較を可能にし、初期の対象範囲を広げることができます。この品質を示すために、研究者はパッケージ内の最先端のモデルの1つである潜在拡散モデルとその能力を評価しました。このモデルは、体型や活動タイプが異なるデータセットから新しい情報を生成する能力を持っています。 潜在的な生成モデルには、圧縮モデルと生成モデルの2つの基本的な部分が含まれており、チームはこれらが非常に柔軟であることを示しています。 このシステムを使用すると、さまざまな医療画像アプリケーションで生成モデルを使用することが容易になります。チームは、通常範囲外の3D画像データの検出に適用できることを示しました。 Stable Diffusion 2.0 Upscalerメソッドを使用して、生成モデルのスーパーレゾリューションの可能性も調査しました。調査結果は、特に3Dモデルにおいて、生成モデルがスーパーレゾリューションアプリケーションに有用であることを示しています。 チームはまた、モデルがスーパーレゾリューション写真とどのように機能するかをテストしました。これにより、拡大されたテストセットの写真とそれに対応する正解画像を比較しました。これらの結果は、モデルの優れたスーパーレゾリューション能力を確認し、画像の明瞭さ向上における効率性を証明しています。 将来的には、研究者はMRI再構築などの他のアプリケーションのサポートを向上させ、モデル比較を容易にするためにより最新のモデルを組み込む予定です。これらの進展により、医療生成モデルおよびその応用分野はさらなる発展を続けるでしょう。

このAI研究では、全身ポーズ推定のための新しい2段階ポーズ蒸留を紹介しています

多くの人間中心の知覚、理解、創造のタスクは、3D全身メッシュ復元、人間とオブジェクトの相互作用、姿勢に基づいた人間の画像と動作生成を含む、全身姿勢推定に依存しています。また、OpenPoseやMediaPipeなどのユーザーフレンドリーなアルゴリズムを使用して、仮想コンテンツの開発やVR/ARのための人間の姿勢の記録が大幅に増加しています。しかし、これらのツールは便利ですが、その性能はまだ改善が必要であり、その可能性を制限しています。したがって、ユーザー主導のコンテンツ制作の可能性を実現するために、人間の姿勢評価技術のさらなる開発が不可欠です。 比較的に、全身姿勢推定は、以下の要因により、体のみのキーポイント検出と比較して困難を伴います。 細かいキーポイントの位置特定のための人間の体の階層構造。 手と顔の小さな解像度。 画像内の複数の人物に複雑な体の部位が一致すること、特に遮蔽や難しい手のポーズの場合。 特に全身画像の多様な手のポーズと頭のポーズに対するデータの制約。 さらに、展開する前にモデルを薄くする必要があります。蒸留、トリミング、量子化が基本的な圧縮技術を構成します。 知識蒸留(KD)は、推論プロセスに不要なコストを追加せずに、コンパクトなモデルの効果を向上させることができます。この方法は、分類、検出、セグメンテーションなどのさまざまなタスクで広範に使用され、生徒がより経験豊富な教師から知識を取得することを可能にします。本研究では、全身姿勢推定のためのKDの調査を通じて、パフォーマンスと効率の良いリアルタイムのポーズ推定器のセットが開発されました。清華深圳国際研究院と国際デジタル経済アカデミーの研究者は、DWPoseという革新的な二段階ポーズ蒸留アーキテクチャを提案しています。図1に示すように、このアーキテクチャは最先端のパフォーマンスを提供します。彼らは、基本モデルとしてCOCO-WholeBodyで訓練された最新のポーズ推定器であるRTMPoseを使用します。 図1は、COCO-WholeBodyの全身姿勢推定のための彼らのモデルと比較可能なモデルの比較を示しています。 彼らは、第一段階の蒸留では、教師(例:RTMPose-x)の中間層と最終的なロジットをネイティブに使用して、生徒モデル(例:RTMPose-l)を誘導します。前のポーズトレーニングでは、キーポイントはその可視性によって区別され、監視には可視のキーポイントのみが使用されます。一方、彼らは教師のすべての出力、つまり可視および不可視のキーポイントを含む最終的なロジットを使用します。これにより、正確で綿密な値が生徒の学習プロセスに役立ちます。また、効果を高めるために、トレーニングセッションの進行に従ってデバイスの重みを徐々に下げる重み減衰アプローチも使用しています。第二段階の蒸留では、ヘッドを増強するためにヘッドに対する自己KDが提案されています。ヘッドがより優れていると、より正確な位置特定ができるためです。 彼らは、2つの同一のモデルを構築し、一方をアップデートする生徒、もう一方をインストラクターとして選択します。生徒のヘッドのみがロジットに基づいた蒸留によって更新され、残りの体は凍結されます。特に、このプラグアンドプレイの戦略は、密な予測ヘッドと共に動作し、蒸留を使用するかしないかにかかわらず、トレーニング時間を20%短縮して生徒がより良い結果を得ることができます。さまざまな人体部位の異なるサイズを対象とするデータのボリュームとバラエティは、モデルのパフォーマンスに影響を与えます。従って、包括的な注釈付きキーポイントの必要性から、既存の推定器は、細かい指や顔の特徴点を正確に特定するのに役立ちます。 そのため、彼らはさらに、さまざまな実生活の設定で撮影された多数の顔と手のキーポイントを含む追加のUBodyデータセットを組み込んでデータ効果を調査しています。したがって、彼らの貢献について次のことが言えます: • 全身データの制約を克服するために、彼らは多様で表現豊かな手のジェスチャーや表情に特に焦点を当てた包括的なトレーニングデータを探索し、実生活のアプリケーションに適用可能にしました。 • 効率的かつ正確な全身姿勢推定を追求するために、2段階の姿勢知識蒸留法を導入しています。 • 提案された蒸留およびデータのテクニックは、最新のRTMPoseを基本モデルとして使用し、RTMPose-lのAPを64.8%から66.5%に大幅に向上させることができます。さらに、彼らはDWPoseの作業生成における強力な効果と効率性を確認しています。

キャッシング生成的LLMs | APIコストの節約

はじめに 生成AIは非常に広まっており、私たちのほとんどは、画像生成器または有名な大規模言語モデルなど、生成AIモデルを使用したアプリケーションの開発に取り組んでいるか、既に取り組んでいます。私たちの多くは、特にOpenAIなどのクローズドソースの大規模言語モデルを使用して、彼らが開発したモデルの使用に対して支払いをする必要があります。もし私たちが十分注意を払えば、これらのモデルを使用する際のコストを最小限に抑えることができますが、どういうわけか、価格はかなり上昇してしまいます。そして、この記事では、つまり大規模言語モデルに送信される応答/ API呼び出しをキャッチすることについて見ていきます。Caching Generative LLMsについて学ぶのが楽しみですか? 学習目標 Cachingとは何か、そしてそれがどのように機能するかを理解する 大規模言語モデルをキャッシュする方法を学ぶ LangChainでLLMをキャッシュするための異なる方法を学ぶ Cachingの潜在的な利点とAPIコストの削減方法を理解する この記事は、Data Science Blogathonの一部として公開されました。 Cachingとは何か?なぜ必要なのか? キャッシュとは、データを一時的に保存する場所であり、このデータの保存プロセスをキャッシングと呼びます。ここでは、最も頻繁にアクセスされるデータがより速くアクセスできるように保存されます。これはプロセッサのパフォーマンスに劇的な影響を与えます。プロセッサが計算時間がかかる集中的なタスクを実行する場合を想像してみてください。今度は、プロセッサが同じ計算を再度実行する状況を想像してみてください。このシナリオでは、前回の結果をキャッシュしておくと非常に役立ちます。タスクが実行された時に結果がキャッシュされていたため、計算時間が短縮されます。 上記のタイプのキャッシュでは、データはプロセッサのキャッシュに保存され、ほとんどのプロセスは組み込みのキャッシュメモリ内にあります。しかし、これらは他のアプリケーションには十分ではない場合があります。そのため、これらの場合はキャッシュをRAMに保存します。RAMからのデータアクセスはハードディスクやSSDからのアクセスよりもはるかに高速です。キャッシュはAPI呼び出しのコストも節約することができます。例えば、Open AIモデルに類似のリクエストを送信した場合、各リクエストに対して請求がされ、応答時間も長くなります。しかし、これらの呼び出しをキャッシュしておくと、モデルに類似のリクエストをキャッシュ内で検索し、キャッシュ内に類似のリクエストがある場合は、APIを呼び出す代わりにデータ、つまりキャッシュから応答を取得することができます。 大規模言語モデルのキャッシュ 私たちは、GPT 3.5などのクローズドソースのモデル(OpenAIなど)が、ユーザーにAPI呼び出しの料金を請求していることを知っています。請求額または関連する費用は、渡されるトークンの数に大きく依存します。トークンの数が多いほど、関連するコストも高くなります。これは大金を支払うことを避けるために慎重に扱う必要があります。 さて、APIを呼び出すコストを解決する/削減する方法の一つは、プロンプトとそれに対応する応答をキャッシュすることです。最初にモデルにプロンプトを送信し、それに対応する応答を取得したら、それをキャッシュに保存します。次に、別のプロンプトが送信される際には、モデルに送信する前に、つまりAPI呼び出しを行う前に、キャッシュ内の保存されたプロンプトのいずれかと類似しているかどうかをチェックします。もし類似している場合は、モデルにプロンプトを送信せずに(つまりAPI呼び出しを行わずに)キャッシュから応答を取得します。 これにより、モデルに類似のプロンプトを要求するたびにコストを節約することができ、さらに、応答時間も短縮されます。なぜなら、キャッシュから直接データを取得するため、モデルにリクエストを送信してから応答を取得する必要がないからです。この記事では、モデルからの応答をキャッシュするための異なる方法を見ていきます。 LangChainのInMemoryCacheを使用したキャッシュ はい、正しく読みました。LangChainライブラリを使用して、応答とモデルへの呼び出しをキャッシュすることができます。このセクションでは、キャッシュメカニズムの設定方法と、結果がキャッシュされており、類似のクエリに対する応答がキャッシュから取得されていることを確認するための例を見ていきます。必要なライブラリをダウンロードして開始しましょう。…

「モンテカルロシミュレーションを通じてA/Bテストのパフォーマンスを理解するための初心者向けガイド」

このチュートリアルでは、共変量がランダム化実験におけるA/Bテストの精度にどのように影響するかを探求します適切にランダム化されたA/Bテストでは、処置群と対照群の平均結果を比較することでリフトを計算します...

「Langchain Agentsを使用して、独自のデータアナリストアシスタントを作成しましょう」

「これまでは、テキスト生成、分析、要約、翻訳、感情分析などのタスクに言語モデルを使用してきました最も有望なユーティリティの一つは、...」

「AIは本当に面接に合格するのを助けてくれるのでしょうか?」

最近、仲間の面接官から心配の声を聞いています彼らは、候補者が技術面接に合格するためにAIを利用する可能性があることを心配していますその心配は、LLM技術を使うことで起こる可能性があるということです...

知識グラフ:AIとデータサイエンスのゲームチェンジャー

導入 知識グラフは、AIとデータサイエンスにおいて、構造化情報を記録し、データの検索、推論、推論を促進するための効果的で多目的な手法として台頭しています。この記事では、構築、表現、クエリ、埋め込み、推論、アラインメント、融合などの最新の知識グラフについて調査します。 また、レコメンデーションエンジンや質問応答システムなど、知識グラフの多くの応用についても議論します。最後に、新たな進歩と研究の機会を開拓するために、このトピックの問題と潜在的な将来の展望について探求します。 知識グラフは、エンティティと特性の間の複雑な関連を表現するための柔軟でスケーラブルなメカニズムを提供することで、情報の組織と利用の方法を革新しました。ここでは、知識グラフの概要、その重要性、およびさまざまな分野での潜在的な利用方法について一般的な導入を行います。 学習目標 知識グラフの概念と目的、情報の構造化表現について理解する。 ノード、エッジ、プロパティなど、知識グラフの主要な構成要素について学ぶ。 データの抽出と統合技術を含む構築プロセスを探索する。 知識グラフ埋め込みがエンティティと関係を連続ベクトルとして表現する方法を理解する。 既存の知識から新たな洞察を推論するための推論メソッドを探索する。 知識グラフの視覚化による理解向上を探求する。 この記事は、データサイエンスブログマラソンの一環として公開されました。 知識グラフとは何ですか? 知識グラフは、情報抽出操作中に抽出された情報を格納することができます。多くの基本的な知識グラフの実装では、トリプルという概念を利用しています。トリプルは、主語、述語、目的語の3つの要素のコレクションであり、何についての情報を保持できます。 グラフは、ノードとエッジのコレクションです。 これは、設計可能な最小の知識グラフであり、トリプルとも呼ばれます。知識グラフはさまざまな形式やサイズで提供されます。ここでは、ノードAとノードBが個別の要素であることを示すエッジで接続されています。 知識グラフにおけるデータ表現 次のフレーズを例に取り上げます: ロンドンはイングランドの首都です。ウェストミンスターはロンドンに位置しています。 後で基本的な処理を見ていきますが、最初には次のような2つのトリプルがあります: (ロンドン、首都、イングランド)、(ウェストミンスター、位置する、ロンドン) この例では、3つの異なるエンティティ(ロンドン、イングランド、ウェストミンスター)と2つの関係(首都、位置)があります。知識グラフを構築するには、ネットワーク内の2つの関連ノードと関係を持つエンティティと頂点が必要です。その結果得られる構造は次のようになります:知識グラフを手動で作成することはスケーラブルではありません。誰もが数百ページもの文章を読み込んで、すべてのエンティティとそれらの関係を抽出することはありません! 機械は数百、さらには数千の論文を簡単に処理できるため、この作業を人間よりも適しています。ただし、機械は自然言語を理解できないという難しさもあります。この状況では、自然言語処理(NLP)を使用することが重要です。 テキストから知識グラフを作成するためには、コンピュータが自然言語を理解することが重要です。これには、文の分割、依存解析、品詞タグ付け、エンティティ抽出などのNLP手法が使用されます。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us