再生医療テキスト生成が臨床NLPタスクを革命化することができるのか? クリニカルナレッジ抽出とコンテキストに基づいたLLMプロンプトを組み込んだAIモデル「ClinGen」に会いましょう

再生医療を革命化できるのか?「ClinGen」というAIモデルの紹介

医療データの抽出、分析、解釈は、クリニカル ナチュラル ランゲージ プロセッシング(NLP)と呼ばれる新興の学問領域に含まれています。しかし、クリニカル NLP の方法論を開発する際には、特有の困難が生じます。例えば、クリニカル テキストには頻繁に略語や専門的な医療用語が使用されるため、一般的な NLP モデルを混乱させる可能性があります。幸いなことに、大規模な言語モデルの最近の発展により、これらの問題に対する有望な解決策が提供されています。これらのモデルは大規模なコーパスで事前学習され、十分なクリニカル情報を自然に取り込むため、特に役立ちます。

こうした進展は、クリニカル環境での使用に適したLLM(Large Language Models)の変更方法を開発する必要性を強調しています。これには、用語の複雑さに対処するだけでなく、クリニカルデータを微調整してモデルを向上させる方法も含まれます。一般的なLLMには多くのポテンシャルがありますが、それらを直接使用してクリニカルテキストデータに関する推論を行うことは、現実世界の状況では必ずしも望ましくありません。まず第一に、これらのLLMはしばしば数十億のパラメータを備えており、コンセプト段階でもかなりの処理能力を必要とします。これにより、インフラストラクチャのコストが高くなり、推論時間が長くなります。また、クリニカルテキストの機密性の高い患者情報は、プライバシーや規制の遵守に関する懸念も引き起こします。LLMを使用して合成トレーニングデータを作成することは、リソースとプライバシーに配慮した方法でLLMの能力を活用するための潜在的な手法です。

これらの合成データにトレーニングされたモデルは、実世界のクリニカルデータを再現することで、高性能レベルで動作しながらデータプライバシー法を遵守することができます。一般的な機械学習では、基礎モデルを使用して合成データを作成することが最も一般的です。ただし、LLMを使用してクリニカルデータを作成する場合、元のデータセットの分布に沿った高品質のデータを提供するためには、特別な障壁があります。既存の技術によって生成されたデータの品質を評価するために、多様性と分布に焦点を当てた徹底した分析を行います。Central Moment Discrepancy(CMD)スコアとt-SNE埋め込み可視化は、データの分布に notable shift があることを示しています。

また、合成データ中の臨床関連エンティティの量と頻度も調査しており、合成データとグラウンドトゥルースデータを比較すると、著しい減少が見られます。言語モデルを使用して臨床データを作成する研究はいくつかありますが、これらの取り組みの多くは特定のタスクに特化しています。電子健康記録、臨床ノート、医療テキストマイニング、医療対話などがその例です。これらの研究では、過剰なトレーニングデータを使用し、テキストの生成に直接言語モデルを使用することがよくあります。クリニカルダウンストリームアプリケーションでのLLMの修正方法を改善するための結束したアイデアは限られています。

上記の研究にインスパイアされ、Emory大学とGeorgia Institute of Technologyの研究者は、CLINGENという高品質のクリニカルテキストを数ショットのシチュエーションで生成するための臨床知識を持つ汎用フレームワークを提案しました。彼らの最終的な目標は、生成されるテキストの主題の多様性を促進し、合成データと実データとのギャップを縮めることです。これを実現するために、彼らはクリニカルナレッジエクストラクションを使用してプロンプトを文脈化する方法を提供しています。これには、KG(知識グラフ)とLLMからのクリニカルテーマのアイデアと、LLMからの文章スタイルのアドバイスを取得することが含まれます。このように、CLINGENは大規模な言語モデルに内在する内部パラメトリック情報と、外部のクリニカルナレッジグラフから得られるノンパラメトリックな情報を組み合わせることで、医療分野における非常に少ない追加の人的作業を必要とします。

CLINGENは、さまざまな基本的なクリニカルNLPタスクに簡単に使用でき、非常に少ない追加の人的作業が必要です。以下に彼らの貢献の概要を示します:

• 何ショットシーンでのクリニカルテキストデータ作成のために、臨床情報を備えた汎用フレームワークであるCLINGENを提案します。

• 医療知識抽出を活用してプロンプトを対象のクリニカルNLPタスクに合わせるための直感的で効率的な方法を提供します。これは、KGとLLMからのクリニカルテーマのアイデアと、LLMからの文章スタイルのアドバイスを含みます。

• 16のデータセットと7つのクリニカルNLPタスクを使用した合成クリニカルデータの作成について、徹底的な分析を実施します。実験結果は、CLINGENが生成されたトレーニングサンプルの多様性を増加させ、オリジナルのデータ分布により関連性を持たせることを示しています。LLMと分類器が異なるタスク間で一貫してエンピリカルなパフォーマンスの向上(PubMedBERTBaseで8.98%、PubMedBERTLargeで7.27%)が見られます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

オープンAIのCEOであるサム・アルトマン氏が解任されました

驚きの展開となり、AI研究のリーディングカンパニーであるOpenAIは、共同創設者兼CEOのサム・オールトマン氏の解任を発表しま...

データサイエンス

「Jupyter AIに会おう Jupyterノートブックで人工知能の力を解き放つ」

人工知能(AI)とコーディングの革新的な進歩において、Project Jupyterはそのツールキットに画期的な追加を導入します。それ...

データサイエンス

「限られた訓練データで機械学習モデルは信頼性のある結果を生み出すのか?ケンブリッジ大学とコーネル大学の新しいAI研究がそれを見つけました...」

ディープラーニングは、音声認識から自律システム、コンピュータビジョン、自然言語処理まで、人工知能の中で強力で画期的な...

AI研究

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変さ...

機械学習

このAI論文は、検索エンジンに対して大規模な言語モデルが事実確認の効率性にどのように比較されるか、明らかにします

異なる大学の研究者たちは、言語モデル(LLM)と検索エンジンがファクトチェックにおいてどれほど効果的かを比較しています。...

データサイエンス

ジェネラティブAIを活用したシフトレフトテストの推進

「ジェネラティブAIがシフトレフトテストを向上させ、優れたソフトウェア開発のためのテストケースの自動生成と予測的なバグ...