医療における臨床家と言語モデルのギャップを埋めるために:電子医療記録の指示に従うための臨床家によって作成されたデータセット、MedAlignに会いましょう

臨床家と言語モデルのギャップを埋めるために、臨床家によって作成されたデータセット、MedAlignに会いましょう

Large Language Models(LLMs)は自然言語処理の能力を大いに活用しています。言語生成や推論から読解まで、LLMsは何でもこなすことができます。これらのモデルが医師の仕事を助ける可能性は、医療を含むさまざまな分野で注目されています。最近のMed-PaLMやGPT-4を含むLLMsは、特に医療データベースや試験に関連する医学の質問応答を含むタスクでその能力を証明しています。

常に制御されたベンチマークでのLLMsの優れたパフォーマンスが実際の臨床状況にどのように反映されるかを判断することは困難でした。医療従事者は、医療業界でさまざまな情報関連の業務を行い、これらの仕事では電子健康記録(EHR)からの複雑な非構造化データが頻繁に必要です。医療従事者が取り組む複雑さと細密さは、現在利用可能なEHRデータの質問応答データセットでは十分に表現されていません。医師がLLMsを頼りにする際、そのようなモデルが正確で文脈を理解した回答を提供できるかどうかを評価するために必要なニュアンスが欠けています。

これらの制限を克服するために、研究者チームはMedAlignというベンチマークデータセットを開発しました。これは7つの異なる医学専門分野に特化した15人の臨床医が提出した合計983の質問と指示からなります。MedAlignは、単に質問と回答のペアではなく、EHRを基にした指示と回答のペアに焦点を当てており、他のデータセットとは異なる特徴を持っています。チームはこれらの指示のうち303について臨床医が作成した参照回答を含め、それらをEHRデータと関連付けて提示のための文脈と基盤を提供しました。各臨床医は、これらの303の指示に対して6つの異なるLLMsが生成した回答を評価し、ランク付けしてデータセットの信頼性と品質を確認しました。

臨床医自身によるゴールドスタンダードのソリューションも提供されています。臨床医の提供した指示、LLMが生成した回答の専門家による評価、および関連するEHRの文脈を含むデータセットを編成することで、MedAlignは先駆的な取り組みを達成しました。このデータセットは、LLMsが臨床状況でどれだけうまく機能するかを評価するための有用なツールを提供します。

2つ目の貢献では、関連する患者の電子健康記録を臨床指示と一致させるための自動化された検索ベースの手法の実現可能性を検討しています。これを実現するために、チームはより効果的かつスケーラブルな臨床指示の収集方法を作成しました。この指示を求める方法を分離することで、より多様な臨床医からの提出を求めることができます。

彼らはまた、自動化された方法がどのようにして指示を関連するEHRと一致させるかを評価しました。その結果、この自動マッチング手法は、ランダムな指示とEHRのペアリングと比較して、74%の状況で関連性のあるペアリングを提供することが成功したことが明らかになりました。この結果は、自動化によって臨床データの関連性と正確性を高める機会を示しています。

最後の貢献では、自動化された自然言語生成(NLG)パラメータと医師によるLLM生成回答の評価との関係を調査しています。この調査は、専門医の評価に代わってスケーラブルな自動化された指標を使用してLLMの回答をランク付けできるかどうかを判断することを目的としています。人間の専門家のランクと自動化された基準の一致度を測定することで、将来の研究において医師がLLMの回答を手動で識別し評価する必要性を軽減することを目指しています。この取り組みにより、医療応用のためのLLMの作成と改善が効率化され、人的リソースに依存しないレビュープロセスが実現する可能性が高まるでしょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more