このAI研究は、DISC-MedLLMという包括的な解決策を提案し、大規模言語モデル(LLM)を活用して正確な医療応答を提供します
This AI research proposes a comprehensive solution called DISC-MedLLM, which utilizes large language models (LLM) to provide accurate medical responses.
テレメディシンの台頭により、医療の提供方法が変わり、プロフェッショナルネットワークを広げ、価格を下げ、遠隔医療相談を可能にしました。さらに、知的医療システムにより、医療情報抽出、薬物推奨、自動診断、健康問い合わせなどの機能が追加され、オンライン医療サービスが改善されました。知的医療システムの構築には進歩がありましたが、これまでの研究は特定の問題や疾患に焦点を当てたものであり、実験的な開発と実世界での使用との間にはギャップがあります。このギャップを埋めるためには、さまざまな医療シナリオに対する完全なソリューションと、消費者向けの最高水準のエンドツーエンドの会話型医療サービスが必要です。
最近の大規模言語モデルは、人間と意味のある対話を行い、指示に従う驚異的な能力を示しています。これらの進展は、医療相談のシステム開発の新たな可能性を創出しました。ただし、医療相談に関わる状況は通常複雑であり、一般領域のLLMの範囲外です。図1は実世界の医療相談のイラストです。この図は2つの特性を示しています。まず、各段階で会話を理解し、適切に応答するために、詳細で信頼性のある医学知識が必要です。一般領域のLLMは、特定のケースに関連しない出力を提供し、重大な幻想の懸念が生じます。
次に、医療相談には通常、患者の健康状態に関する詳細な知識を得るために何度かの対話が必要であり、各対話ラウンドには目標があります。しかし、広範な領域のLLMは、ユーザーの健康状態の詳細に関する限定的なマルチターンのクエリング能力を持ち、シングルターンのエージェントです。これらの2つの発見に基づいて、Fudan University、Northwestern Polytechnical University、University of Torontoの研究者らは、医療LLMが徹底的で信頼性のある医学知識をエンコードし、実世界の医療会話の分布に準拠するべきだと主張しています。彼らはInstruction Tuningの成功に触発され、医療LLMのトレーニングのための高品質な監督付きファインチューニングデータセットの作成方法を調査し、医学の知識と相談行動のパターンを含めることを検討しています。
- 「ロボットがより良い判断をするにはどうすればよいのか?MITとStanfordの研究者が、高度なロボットの推論と計画のためのDiffusion-CCSPを紹介」
- マイクロソフトの研究者たちは、人間のフィードバックを用いた強化学習のためのメモリ効率の高い解決策であるHydra-RLHFを紹介しました
- 「MITの研究者が提案するAskIt:ソフトウェア開発における大規模言語モデルの統合を効率化するためのドメイン固有言語」
実際の実践では、彼らは3つの異なる方法を使用してサンプルを作成します:
・医学知識グラフに基づくサンプルの開発。実世界の相談データセットから収集した患者のクエリ分布に従って、部門指向のアプローチを使用して医学知識ネットワークから知識トリプルを選択します。各トリプルに対してGPT-3.5を使用してQAのペアをfew-shot作成します。その結果、50,000のサンプルが得られます。
・実世界の対話の再構築。LLMの改善のために、医療フォーラムから収集した相談記録は適切な情報源です。これらの文書で使用される言語はカジュアルであり、専門用語は一貫して提示されず、さまざまな医療従事者によって異なる表現スタイルが使われます。そのため、実際のケースを使用してGPT-3.5を使用してディスカッションを再作成します。その結果、420,000のサンプルが得られます。
・サンプルの収集後、人間の嗜好。さまざまな相談セッティングを網羅する実世界の医療対話記録から、限られたエントリのグループを手動で選択し、特定の例を人間の意図に合わせて書き直します。また、人間によるガイド付き再構築後の各ディスカッションの全体的な品質を保証します。その結果、2,000のサンプルが得られます。DISC-MedLLMは、13Bのパラメータを持つ一般領域の中国語LLMの上に新たに作成されたSFTデータセットを使用して、2段階のトレーニングプロセスでトレーニングされます。モデルのパフォーマンスを2つの観点から評価し、マルチターンのディスカッションでの体系的な相談能力とシングルターンの対話での正確な応答能力を確認します。
彼らは、3つの公開医療データセットから収集された複数選択問題のベンチマークを作成し、このベンチマークを使用してモデルの正確性を単一ターンの評価について評価します。マルチターンのレビューのために、まずGPT-3.5を使用して優れたコンサルテーションケースの小さなコレクションを作成し、患者をシミュレートしてモデルと対話します。GPT-4を使用して、モデルの積極性、正確性、助けになる度、および言語的品質を評価します。実験結果は、DISCMedLLMがGPT-3.5に劣るものの、同じパラメータを持つ医療大規模HuatuoGPTよりも平均10%以上優れていることを示しています。
さらに、DISC-MedLLMは、GPT-3.5、HuatuoGPT、BianQueなどのベースラインモデルよりも、シミュレートされた医療相談設定全体で優れたパフォーマンスを発揮します。特に医療部門と患者の意図が関わるケースでは、DISC-MedLLMは他の中国の医療LLMに比べて優れた結果を出します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Appleの研究者たちは、暗黙的なフィードバックを持つ協調フィルタリングのための新しいテンソル分解モデルを提案する」
- このAI研究は、ポイントクラウドを2D画像、言語、音声、およびビデオと一致させる3Dマルチモダリティモデルである「Point-Bind」を紹介します
- 「MITキャンパスでのAIパイロットプログラムは、エネルギー使用量と排出物を削減することを目指しています」
- 「このAI研究は、深層学習と進化アルゴリズムを用いて、シリコンMach-Zehnderモジュレータの設計を革新します」
- 「UCLAの研究者たちは、広帯域の回折光学ニューラルネットワークに基づいて設計されたマルチスペクトルQPIシステムを紹介する」
- 『キャタリスト研究の変革:テキスト入力を使用したエネルギー予測のために設計された Transformer ベースの AI モデル、CatBERTaに出会ってください』
- 「産業界が音声AIを活用して消費者の期待に応えている方法」