このAI研究は、DISC-MedLLMという包括的な解決策を提案し、大規模言語モデル（LLM）を活用して正確な医療応答を提供します

This AI research proposes a comprehensive solution called DISC-MedLLM, which utilizes large language models (LLM) to provide accurate medical responses.

テレメディシンの台頭により、医療の提供方法が変わり、プロフェッショナルネットワークを広げ、価格を下げ、遠隔医療相談を可能にしました。さらに、知的医療システムにより、医療情報抽出、薬物推奨、自動診断、健康問い合わせなどの機能が追加され、オンライン医療サービスが改善されました。知的医療システムの構築には進歩がありましたが、これまでの研究は特定の問題や疾患に焦点を当てたものであり、実験的な開発と実世界での使用との間にはギャップがあります。このギャップを埋めるためには、さまざまな医療シナリオに対する完全なソリューションと、消費者向けの最高水準のエンドツーエンドの会話型医療サービスが必要です。

最近の大規模言語モデルは、人間と意味のある対話を行い、指示に従う驚異的な能力を示しています。これらの進展は、医療相談のシステム開発の新たな可能性を創出しました。ただし、医療相談に関わる状況は通常複雑であり、一般領域のLLMの範囲外です。図1は実世界の医療相談のイラストです。この図は2つの特性を示しています。まず、各段階で会話を理解し、適切に応答するために、詳細で信頼性のある医学知識が必要です。一般領域のLLMは、特定のケースに関連しない出力を提供し、重大な幻想の懸念が生じます。

次に、医療相談には通常、患者の健康状態に関する詳細な知識を得るために何度かの対話が必要であり、各対話ラウンドには目標があります。しかし、広範な領域のLLMは、ユーザーの健康状態の詳細に関する限定的なマルチターンのクエリング能力を持ち、シングルターンのエージェントです。これらの2つの発見に基づいて、Fudan University、Northwestern Polytechnical University、University of Torontoの研究者らは、医療LLMが徹底的で信頼性のある医学知識をエンコードし、実世界の医療会話の分布に準拠するべきだと主張しています。彼らはInstruction Tuningの成功に触発され、医療LLMのトレーニングのための高品質な監督付きファインチューニングデータセットの作成方法を調査し、医学の知識と相談行動のパターンを含めることを検討しています。

実際の実践では、彼らは3つの異なる方法を使用してサンプルを作成します：

・医学知識グラフに基づくサンプルの開発。実世界の相談データセットから収集した患者のクエリ分布に従って、部門指向のアプローチを使用して医学知識ネットワークから知識トリプルを選択します。各トリプルに対してGPT-3.5を使用してQAのペアをfew-shot作成します。その結果、50,000のサンプルが得られます。

・実世界の対話の再構築。LLMの改善のために、医療フォーラムから収集した相談記録は適切な情報源です。これらの文書で使用される言語はカジュアルであり、専門用語は一貫して提示されず、さまざまな医療従事者によって異なる表現スタイルが使われます。そのため、実際のケースを使用してGPT-3.5を使用してディスカッションを再作成します。その結果、420,000のサンプルが得られます。

・サンプルの収集後、人間の嗜好。さまざまな相談セッティングを網羅する実世界の医療対話記録から、限られたエントリのグループを手動で選択し、特定の例を人間の意図に合わせて書き直します。また、人間によるガイド付き再構築後の各ディスカッションの全体的な品質を保証します。その結果、2,000のサンプルが得られます。DISC-MedLLMは、13Bのパラメータを持つ一般領域の中国語LLMの上に新たに作成されたSFTデータセットを使用して、2段階のトレーニングプロセスでトレーニングされます。モデルのパフォーマンスを2つの観点から評価し、マルチターンのディスカッションでの体系的な相談能力とシングルターンの対話での正確な応答能力を確認します。

図1: 患者と実際の医師との会話の一例。医師の応答で言及される医療エンティティは青色でハイライトされています。各ラウンドでは、医師のアクションには特定の意図が示されます：（1）ラウンド1では、潜在的なシナリオを特定するのに役立つデータを収集するためにさらなる調査が行われます。（2）ラウンド2では、予備的な診断が行われ、適切なアドバイスが提供されます。（3）ラウンド3では、医療状態に応じて特定の治療選択肢が提示されます。

彼らは、3つの公開医療データセットから収集された複数選択問題のベンチマークを作成し、このベンチマークを使用してモデルの正確性を単一ターンの評価について評価します。マルチターンのレビューのために、まずGPT-3.5を使用して優れたコンサルテーションケースの小さなコレクションを作成し、患者をシミュレートしてモデルと対話します。GPT-4を使用して、モデルの積極性、正確性、助けになる度、および言語的品質を評価します。実験結果は、DISCMedLLMがGPT-3.5に劣るものの、同じパラメータを持つ医療大規模HuatuoGPTよりも平均10％以上優れていることを示しています。

さらに、DISC-MedLLMは、GPT-3.5、HuatuoGPT、BianQueなどのベースラインモデルよりも、シミュレートされた医療相談設定全体で優れたパフォーマンスを発揮します。特に医療部門と患者の意図が関わるケースでは、DISC-MedLLMは他の中国の医療LLMに比べて優れた結果を出します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

このAI研究は、DISC-MedLLMという包括的な解決策を提案し、大規模言語モデル（LLM）を活用して正確な医療応答を提供します

Was this article helpful?

「ロボットがより良い判断をするにはどうすればよいのか？MITとStanfordの研究者が、高度なロボットの推論と計画のためのDiffusion-CCSPを紹介」

Google AIは、TPUを使用して流体の流れを計算するための新しいTensorFlowシミュレーションフレームワークを導入しました

AI研究

「MITの研究者が、おそらくほぼ正確な（PAC）プライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成」

機械学習モデルを成長させる方法の学習

より多くの人々が失明していますAIはそれを戦うのに役立つことができます

弁護士には、ChatGPTを使用したことについて、許しを求めることを検討するよう命じられました

「WebAgentに会いましょう：DeepMindの新しいLLM、ウェブサイト上での指示に従ってタスクを完了する」

「新しい攻撃が主要なAIチャットボットに影響を与え、誰もそれを止める方法を知りません」