スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

Stanford researchers developed an AI model called RoentGen based on stable diffusion and fine-tuned with a large-scale chest X-ray and radiographic dataset.

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(LDM)が注目されています。これらのモデルを結合メカニズムと組み合わせることで、推論時に画像生成プロセスを詳細に制御することができます(たとえば、テキストプロンプトを利用することで)。LAION5Bなどの大規模な多モーダルデータセットは、数十億もの実際の画像テキストペアを含んでおり、このようなモデルのトレーニングに頻繁に使用されます。適切な事前トレーニングが与えられれば、LDMは多くの下流活動に使用することができ、時にはファウンデーションモデル(FM)としても言及されます。

LDMは、比較的低次元の潜在空間で動作するため、ハードウェアリソースをほとんど必要とせず、エンドユーザーに簡単に展開することができます。これらのモデルの優れた生成能力の結果として、トレーニングデータが不足している状況で従来の教師あり機械学習パイプラインに高忠実度の合成データセットを追加することができます。これは、注意深く作成された高度に注釈付けされた医療画像データセットの不足に対する潜在的な解決策を提供します。このようなデータセットは、わずかながらも意味的に重要な視覚的要素を解読できる熟練した医療専門家による訓練とかなりの作業を必要とします。

十分な大きさで注意深く維持されている公開可能な医療画像データセットが不足しているにもかかわらず、テキストベースの放射線学報告書は、画像検査に含まれる関連する医療データを詳細に説明することがあります。この医療意思決定の「副産物」は、自動的に下流活動に使用できるラベルを抽出するために使用することができます。ただし、これには自然な人間の言語で説明することができるよりも制約のある問題設定が依然として要求されます。事前トレーニング済みのテキスト条件付きLDMを適切な医療用語や関心のある概念をプロンプトとして使用することで、直感的に合成医療画像データを生成することができます。

本研究では、特定のトレーニングを行わずに医療画像のアイデアにビジョン言語LDM(Stable Diffusion、SD)を適応させる方法について調査しています。SDパイプラインの基礎となる画像テキストの事前トレーニングを活用するため、CXRs(胸部X線)を生成するためにドメイン固有のテキストプロンプトに対応する方法を系統的に探索しています。CXRsは、入手が容易で手頃な価格であり、さまざまな重要な医学的障害に関する情報を提供できるため、世界で最も頻繁に使用される画像モダリティの1つです。本研究では、ドメイン外の事前トレーニング済みLDMのドメイン適応を行い、少数またはゼロショットの文脈を超えた医療画像の条件付き生成に関して、著者の知る限りでは初めて系統的に探索しています。

これを行うために、SDパイプラインの代表的な容量を評価し、定量化した後、CXRsに特化した医療アイデアを表現するためにこの一般的なドメイン事前トレーニングモデルを強化するさまざまな方法を調査しました。彼らはRoentGenを提供し、自由形式の医療言語テキストプロンプトと関連する医療概念の非常に正確な画像相関を使用して、異なるCXRsの画像外観を挿入、組み合わせ、変更するための高忠実度のCXRを合成するための生成モデルを提供します。

報告書は以下の進展も特定しています:

1. ドメイン固有のタスク(事前トレーニング済みの分類器を使用した分類、放射線学の報告書生成、画像-画像およびテキスト-画像の検索)を使用して、医療ドメインに適応したテキストから画像へのモデルの事実的な正確さを総合的に評価するための包括的なフレームワークを提示しています。

2. U-NetとCLIP(コントラスティブ言語画像事前トレーニング)テキストエンコーダを微調整することで、最高レベルの画像忠実度と概念的な正確さが達成され、SDを新しいCXRデータ分布に適応させる他の方法と比較・対比されています。

3. テキストエンコーダを凍結し、U-Netのみをトレーニングする場合、元のCLIPテキストエンコーダをドメイン固有のテキストエンコーダと置き換えることができ、微調整後の結果の安定した拡散モデルのパフォーマンスが向上します。

4. SDの微調整ジョブを使用して、テキストエンコーダが一般的でない異常などの医療概念を表現する能力が向上します。

5. RoentGenは、少数の画像(1.1-5.5k)で微調整することができ、後の画像分類タスクのためのデータを補完することができます。彼らの設定では、実データと合成データの両方でトレーニングすることにより、分類のパフォーマンスが5%向上し、合成データのみでのトレーニングは実データでのトレーニングと同等の結果を示しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more