「バイオメディシンのための検索補完型生成(RAG)を行っていますか? MedCPTを利用してゼロショットのバイオメディカル情報検索を行いましょう:対話的な事前学習済みトランスフォーマーモデル」

「バイオメディカル情報を探索するための対話型モデル「RAG(Retrieve and Generate)」を使用していますか? MedCPTを活用して一発でバイオメディカル情報を検索しましょう!」

情報検索(IR)モデルは、ユーザークエリに基づいてドキュメントをソートおよびランク付けし、効率的かつ効果的な情報アクセスを容易にする能力を持っています。 IRの最もエキサイティングな応用の1つは、バイオ医学の分野での使用であり、関連する科学文献を検索し、医療従事者がエビデンスに基づいた意思決定を行うのに役立ちます。

ただし、この分野の既存のIRシステムのほとんどはキーワードベースであるため、正確に同じキーワードを共有しない関連する記事を見落とす可能性があります。さらに、密なリトリーバベースのモデルは、ドメイン固有のタスクでうまく機能しない一般的なデータセットでトレーニングされています。さらに、そのようなドメイン固有のデータセットが不足しているため、汎用性のあるモデルの開発が制限されています。

これらの問題に対処するため、この論文の著者は、255Mのクエリ-記事ペアを匿名化されたPubMed検索ログからトレーニングされたIRモデルであるMedCPTを導入しました。従来のIRモデルは、リトリーバモジュールと再ランカーモジュールとの間に不一致があり、パフォーマンスに影響を及ぼします。一方、MedCPTは、コントラスティブラーニングを使用してこれらの2つのコンポーネントを統合する最初のIRモデルです。これにより、再ランキングプロセスが検索された記事の特性とより密接に一致し、システム全体がより効果的になります。

上記のように、MedCPTは第1ステージのリトリーバと第2ステージの再ランカから構成されています。このバイエンコーダアーキテクチャはスケーラブルであり、ドキュメントはオフラインでエンコードでき、推論時にはユーザークエリのみをエンコードする必要があります。その後、リトリーバモデルは最もエンコードされたクエリに似ているドキュメントの部分を特定するために最近傍探索を使用します。再ランカは、クロスエンコーダであり、リトリーバによって返されたトップの記事のランキングをさらに微調整し、最終的な記事のランキングを生成します。

再ランカは計算コストがかかりますが、MedCPTのアーキテクチャ全体は効率的です。再ランキングプロセスの前にエンコードと最近傍探索のみが必要です。MedCPTは、さまざまなゼロショットバイオメディカルIRタスクで評価されました。以下はその結果です:

  • MedCPTは、BEIRベンチマークの5つのバイオメディカルタスクのうち3つで最先端のドキュメント検索パフォーマンスを達成しました。GoogleのGTR-XXL(4.8B)やOpenAIのcpt-text-XL(175B)などのより大きなモデルを上回りました。
  • MedCPTの記事エンコーダは、SPECTERやSciNCLなどの他のモデルに比べてRELISH記事の類似度タスクで優れたパフォーマンスを発揮します。さらに、SciDocsのMeSH予測タスクでもSOTAのパフォーマンスを達成します。
  • MedCPTのクエリエンコーダは、バイオメディカルおよびクリニカルの文を効果的にエンコードすることができました。

結論として、MedCPTはリトリーバと再ランカモジュールのペアを統合した最初の情報検索モデルです。このアーキテクチャは効率とパフォーマンスのバランスを提供し、MedCPTは多くのバイオメディカルタスクでSOTAのパフォーマンスを発揮し、多くの大きなモデルを上回ります。このモデルは、関連する記事の推奨、類似文の検索、関連文書の検索など、さまざまなバイオメディカルアプリケーションに適用する潜在能力があり、バイオメディカルの知識発見と臨床的意思決定のために不可欠な資産です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

LLM幻覚を軽減する方法

AIの幻覚は、訓練データの欠陥と過度の複雑さから生じます幻覚を減らすための研究に基づく戦略を発見しましょう

人工知能

「クロード2 AIチャットボットの使い方 - 新しいChatGPTの競合者」

イントロダクション 複数のAIチャットボットの中でも新たな競争相手、Claude 2に会いましょう。Anthropicによって開発されたC...

データサイエンス

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル(LLM)の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々...

人工知能

ミッドジャーニーV5:ミッドジャーニーの最新バージョン

最新のMidjourneyのインカネーションであるV5は、このアート生成人工知能の進化におけるマイルストーンを示しています

機械学習

エンタープライズAIとは何ですか?

エンタープライズAIの紹介 時間は重要であり、自動化が答えです。退屈で単調なタスク、人間によるミス、競争の混乱、そして最...

AIニュース

「私たちの10の最大のAIの瞬間」

過去25年間の私たちのトップ10のAIの瞬間をまとめました