このMicrosoftのAI研究ケーススタディでは、MedpromptがGPT-4の医学を超えた専門能力をドメイン固有のトレーニングなしでどのように向上させるかが明らかにされています

『MicrosoftのAI研究ケーススタディ:MedpromptがGPT-4の医学専門能力をドメイン固有のトレーニングなしで超える方法』

マイクロソフトの研究者が、ドメイン特化のトレーニングなしでGPT-4が医療の質問に答える能力を向上させる課題に取り組みました。彼らはGPT-4の性能を向上させるために異なるプロンプティング戦略を用いる「Medprompt」を紹介しています。目標は、MultiMedQAスイートの全ての9つのベンチマークで最先端の結果を達成することです。

この研究では、GPT-4の医療能力に関する事前の研究(特にBioGPTとMed-PaLM)を拡張し、性能を向上させるためにプロンプトエンジニアリングを体系的に探求しています。Medpromptの柔軟性は、電気工学、機械学習、哲学、会計、法律、看護、臨床心理学を含むさまざまな領域で実証されています。

この研究は、汎用的な問題解決のための計算機インテリジェンス原則の創造を目指すAIの目標を探求しています。GPT-3やGPT-4などの基礎モデルの成功を強調し、専門的なトレーニングを必要とせずにさまざまなタスクで優れた能力を発揮しています。これらのモデルは、大規模なウェブデータから幅広く学習するテキスト対テキストのパラダイムを採用しています。次の単語の予測精度などのパフォーマンスメトリクスは、トレーニングデータ、モデルのパラメータ、計算リソースのスケールアップによって改善されます。基礎モデルはスケーラブルな問題解決能力を示し、領域を横断した一般化されたタスクに向けた潜在能力を示しています。

この研究では、プロンプトエンジニアリングを体系的に探求し、GPT-4の医療課題におけるパフォーマンスを向上させています。注意深い実験設計により、過学習を軽減するために伝統的な機械学習に似たテストメソドロジーを採用しています。Medpromptは、目を付けたと目をつけないといった分割を使ったMultiMedQAデータセットの評価を通じて、見えない質問に対する堅牢な一般化能力を示しています。この研究では、GPT-4のCoT根拠とMed-PaLM 2の根拠を比較して、生成された出力のより長く詳細な論理を明らかにしています。

Medpromptは、医療の質問応答データセットでGPT-4のパフォーマンスを向上させ、MultiMedQAなどの既存の結果を達成し、Med-PaLM 2などの専門モデルをより少ない呼び出しで上回ります。Medpromptを使用することで、GPT-4はMedQAデータセットのエラーレートを27%削減し、初めて90%のスコアを獲得します。ダイナミックな少数サンプルの選択、自己生成された思考の連鎖、選択肢のシャッフルアンサンブルなど、Medpromptの技術は医学に限定されず、さまざまな領域でGPT-4のパフォーマンスを向上させるために適用することができます。厳密な実験設計により過学習の問題は軽減されます。

まとめると、Medpromptは医療の質問応答データセットで優れたパフォーマンスを発揮し、MultiMedQAを上回り、さまざまな領域での適応性を示しています。過学習を防ぐために目をつけたと目をつけないといった評価の重要性を強調し、プロンプトエンジニアリングや微調整のさらなる探求が医療などの重要な分野での基礎モデルの活用に必要であることを推奨しています。

今後の研究では、プロンプトの改良と基礎モデルの能力向上について、少数の例をプロンプトに組み込む方法を洗練させることが重要です。また、健康などの高リスク領域でのプロンプトエンジニアリングと微調整の連携には潜在的な可能性があり、迅速なエンジニアリングと微調整は重要な研究領域として探求されるべきです。ゲーム理論的なシャプレー値は、除去研究における信用割り当てに使用でき、シャプレー値の計算とその応用に関するさらなる研究が必要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

RayはNVIDIA AIとの協業により、開発者が製品向けのLLMを構築、調整、トレーニング、スケールアップするのを支援します

大規模言語モデルの開発は、NVIDIAとAnyscaleのコラボレーションにより、超音速の速さに達する予定です。 Anyscaleは、急速に...

機械学習

これをデジタルパペットにしてください:GenMMは、単一の例を使用して動きを合成できるAIモデルです

コンピュータ生成のアニメーションは、毎日より現実的になっています。この進歩は、ビデオゲームで最もよく見ることができま...

機械学習

メタAIのハンプバック!LLMの自己整列と指示逆翻訳による大きな波を起こしています

大規模言語モデル(LLM)は、コンテキスト学習や思考の連鎖など、優れた一般化能力を示しています。LLMが自然言語の指示に従...

機械学習

「ジェネラティブAIおよびMLモデルを使用したメールおよびモバイル件名の最適化」

「ジェネレーティブAIとMLモデルを併用して、最大のエンゲージメントを得るために、トーンと対象読者に合わせた魅力的な件名...

AIニュース

「トップのGPTとAIコンテンツ検出器」

GPTZero 教育者やAI生成文章の特定に興味のある他の人々は、GPTZeroというツールを使用することができます。 GPTZeroには、論...

機械学習

「Hugging FaceはLLMのための新しいGitHubです」

ハギングフェイスは、大規模言語モデル(LLM)のための「GitHub」となりつつありますハギングフェイスは、LLMの開発と展開を...