「Med-Flamingoに会ってください:医療分野向けのマルチモーダルな文脈学習を実行できるユニークな基盤モデル」

Meet Med-Flamingo a unique foundational model capable of performing multimodal contextual learning in the medical field.

人工知能(AI)の人気が高まるにつれて、基礎モデルはラベル付きのインスタンスによって提供されるわずかな情報だけで、さまざまな問題を処理する驚異的な能力を示しています。コンテキスト内での学習のアイデアは、モデルのパラメータを調整せずに、いくつかの例からタスクを引き継がせる能力を持つため、注目を浴びています。医療分野と医療領域を考えると、コンテキスト内での学習は現在の医療AIモデルを指数関数的に改善する可能性があります。

コンテキスト内での学習は医療データの複雑さと多様性、および達成しなければならないさまざまなタスクにより、医療環境での実装に困難を伴います。過去にはさまざまなマルチモーダル医療基礎モデルが試みられてきました。例えば、胸部X線を読むことに特化したChexZeroや、生物学の文献からのキャプションと関連付けられたさまざまな画像で訓練されたBiomedCLIPなどです。手術映像や電子健康記録(EHR)データにはいくつかのモデルが開発されています。しかし、これらのモデルにはマルチモーダル医療領域のコンテキスト学習は含まれていません。

限界を克服するために、研究チームは医療領域に特化したユニークで高効果な基礎モデルであるMed-Flamingoを提案しています。このビジョン言語モデルは、コンテキスト内での学習とフューショット学習の能力を示す最初のビジョン言語モデルの1つであるFlamingoに基づいています。Med-Flamingoは、複数の医療分野からのマルチモーダルな知識源の事前トレーニングを提供することで、これらの能力を医療領域に拡大しています。

最初のフェーズでは、信頼性の高い医療知識の信頼できるソースから4K以上の医療テキストからオリジナルの交互に配置された画像とテキストのデータセットを作成します。Med-Flamingoを評価するために、研究者たちは生成的な医療ビジュアルクエスチョンアンサリング(VQA)タスクに焦点を当てています。このタスクでは、モデルが事前定義された可能性を評価するのではなく、オープンエンドの回答を直接作成します。また、人間の評価スコアを主要なパラメータとする新しい現実的な評価プロセスが開発されました。さらに、困難なUSMLEスタイルのタスクを含むビジュアルUSMLEデータセットも開発されました。このデータセットには、画像や症例ビネット、検査結果も含まれています。

3つの生成的医療VQAデータセットで、Med-Flamingoは以前のモデルよりも臨床評価スコアで優れたパフォーマンスを示し、医師はモデルの予測を好む傾向があります。複雑な医療クエリに対応し、理由を提示することで、これまでにマルチモーダル医療基礎モデルが行っていなかった医療推論スキルを発揮しています。ただし、トレーニングデータの多様性とアクセスの容易さ、および一部の医療タスクの難しさによって、モデルの効果は制約される場合があります。

チームは以下の貢献をまとめています。

  1. Med-Flamingoは、医療領域に特化した最初のマルチモーダルフューショット学習者であり、根拠の生成やコンテキストの条件付けなどの新しい臨床応用を提供します。
  2. 研究者たちは、医療領域でのマルチモーダルフューショット学習に適した、ユニークなデータセットを構築しました。
  3. 彼らはまた、ビジュアルクエスチョンアンサリングにおける複雑な医療推論を取り入れたUSMLEスタイルの問題を含む評価データセットを導入しました。
  4. 既存の評価戦略を批評し、医療評価者を巻き込んだ専用のアプリを使用してモデルのオープンエンドVQA生成を評価するための詳細な臨床評価研究が実施されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「限られた訓練データで機械学習モデルは信頼性のある結果を生み出すのか?ケンブリッジ大学とコーネル大学の新しいAI研究がそれを見つけました...」

ディープラーニングは、音声認識から自律システム、コンピュータビジョン、自然言語処理まで、人工知能の中で強力で画期的な...

機械学習

「GANが人工的なセレブリティのアイデンティティを作り出す方法」

イントロダクション 人工知能の時代において、驚くべき現象が展開されています――生成対抗ネットワーク(GAN)が創造的に人工...

データサイエンス

「LLMsが幻覚を見るのを止めることはできますか?」

ほぼすべての人々の注目を集めている大規模言語モデル(LLM)ですが、このような技術の広範な展開は、それに関連するやや厄介...

データサイエンス

企業がOpenAIのChatGPTに類似した自社の大規模言語モデルを構築する方法

最近の数年間で、言語モデルは大きな注目を集め、自然言語処理、コンテンツ生成、仮想アシスタントなど、さまざまな分野を革...

AI研究

マイクロソフトの研究者が、言語AIを活用してオンライン検索エンジンを革命化するための「大規模検索モデル」フレームワークを紹介しました

現代社会はインターネット上の情報の拡散によって特徴付けられ、検索エンジンは知識を見つけたりまとめたりするために欠かせ...

データサイエンス

Ludwig - より「フレンドリーな」ディープラーニングフレームワーク

産業用途の深層学習については、私は避ける傾向があります興味がないわけではなく、むしろ人気のある深層学習フレームワーク...