「このAI論文は、すべての科学分野をカバーする学術データを含む26億以上のトリプルを持つ包括的なRDFデータセットを紹介しています」
This AI paper introduces a comprehensive RDF dataset with over 2.6 billion triples, covering all scientific fields.
最近の研究について追いつくことは、科学論文の増加によりますます困難になっています。たとえば、2022年だけでも800万以上の科学論文が記録されました。研究者は、検索インターフェースから推薦システムまで、著者や機関などの関連する知的実体を調査するためにさまざまな技術を使用しています。RDF知識グラフ(KG)として基礎となる学術データをモデル化することは、効率的な方法の1つです。これにより、標準化、可視化、およびリンクデータリソースとの相互リンクが容易になります。その結果、学術KGは、文書中心の学術資料をリンク化および自動化可能な知識構造に変換するために不可欠です。
しかし、既存の学術KGには次のいずれかの制限があります:
- あらゆる科目の包括的な作品リストがめったに含まれていないこと。
- コンピュータサイエンスなど特定の分野のみをカバーしていること。
- 更新頻度が低く、多くの研究やビジネスモデルが時代遅れになっていること。
- 使用制限が頻繁にあること。
- これらの基準を満たしていても、RDFのようなW3Cの標準に準拠していないこと。
これらの問題は、科学的KGの普及を阻害しています。例えば、Microsoft Academic Graph(MAKG)のRDF派生物であるMicrosoft Academic Knowledge Graph(MAKG)は、2021年に終了したため更新できません。
- 「Plotly プロットでインド数字システムの表記を使用する」
- 情報とエントロピー
- クロマに会ってください:LLMs用のAIネイティブオープンソースベクトルデータベース-メモリを使用したPythonまたはJavaScript LLMアプリをより速く構築する方法
革新的なOpenAlexデータセットは、このギャップを埋めることを目指しています。ただし、OpenAlexのデータはLinked Data Principlesに準拠せず、RDFでアクセスできません。そのため、OpenAlexはKGとは見なされず、意味的な問い合わせ、アプリケーションの統合、および新しいリソースへの接続が困難です。最初の外観では、科学的論文に関する学術情報をWikidataに組み込み、WikiCiteムーブメントを支援するための簡単な方法のように思えるかもしれませんが、特定のスキーマ以外にも、データ量が既に非常に大量であるため、Wikidata Query ServiceのBlazegraphトリプルストアは容量制限に達し、統合がブロックされます。
本研究では、Karlsruhe Institute of TechnologyおよびMetaphacts GmbHの研究者が、学術の景観全体に関する非常に大規模なRDFデータセット「SemOpenAlex」を紹介しています。SemOpenAlexには、すべての学術分野から2億4900万以上の論文と260億以上の意味トリプルが含まれています。それは包括的なオントロジーに基づいて構築され、Wikidata、Wikipedia、およびMAKGを含む他のLODソースを参照しています。彼らはSemOpenAlexのインテグレーションを容易にするためにパブリックなSPARQLインターフェースを提供しています。さらに、データベース内のエンティティとその意味的な関係についてリアルタイムで情報を取得するための高度な意味検索インターフェースも提供しており、共著者の表示や著者の重要な概念の表示など、データベースに直接含まれているのではなく、意味的な推論によって導き出された情報も表示します。
彼らはまた、大規模なデータ分析を容易にするためのRDFデータスナップショットも提供しています。SemOpenAlexの規模と統合される科学論文の増加により、彼らはAWSを利用したパイプラインを作成し、完全なサービスの中断なしに定期的にSemOpenAlexを更新しています。さらに、彼らはSemOpenAlexのダウンストリームアプリケーションで使用するための最先端の知識グラフエンティティ埋め込みをトレーニングしています。彼らは可能な限り既存のオントロジーを使用することで、FAIRの原則に準拠したシステムの相互運用性を保証し、SemOpenAlexをLinked Open Data Cloudに統合する可能性を開いています。彼らは月次の更新を提供し、著者の科学的影響の継続的なモニタリング、受賞研究の追跡などのユースケースを可能にすることで、MAKGの終了に伴う空白を埋めています。彼らはSemOpenAlexを自由かつ制約なく提供することで、多様な学問的背景を持つ研究グループがそのデータにアクセスし、研究に組み込むことができるようにしています。現在、初期のSemOpenAlexアプリケーションケースとプロダクションシステムが存在しています。
彼らは次のような貢献をしています:
1. SemOpenAlexのためのオントロジーを開発するために一般的な語彙を使用しています。
2. https://semopenalex.orgでは、SemOpenAlexのRDFで表現された知識グラフを生成しており、260億のトリプルをカバーしています。また、すべてのSemOpenAlexのデータ、コード、およびサービスを一般に公開しています。
3. SemOpenAlexのURIを解決可能にすることで、SemOpenAlexがLinked Open Dataクラウドに参加できるようにしています。SPARQLエンドポイントを使用して、トリプルストア内のすべてのデータをインデックス化し、一般のユーザーがアクセスできるようにしています。
4. 彼らは、エンティティの曖昧さ解消を伴う意味論的な検索インターフェースを提供しており、ユーザーは知識グラフとその重要な統計データにアクセスし、検索し、即座に表示することができます。
5. 高性能な計算を利用して、彼らはSemOpenAlexで表されるエンティティの最先端の知識グラフ埋め込みを提供しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles