「AIのトレーニングAI:ゲータートロングPTがフロリダ大学の医療AIのイノベーションの最前線に」

「医療AIの最前線:AIトレーニングAIがゲータートロングPTのフロリダ大学でイノベーションを担当」

臨床データが少ない状況でAIに臨床言語を理解させるにはどうすればいいのでしょうか?別のAIを訓練して、訓練データを合成します。

人工知能は医学の方法を変えつつあり、様々な臨床業務にますます使われています。

これは生成AIやGatorTronGPTのようなモデルによって推進されています。GatorTronGPTはフロリダ大学のHiPerGator AIスーパーコンピュータで訓練され、Nature Digital Medicine Thursdayで紹介された論文で詳細が説明されています。

GatorTronGPTは臨床データに基づいて訓練された大規模な言語モデル(LLMs)の一つです。研究者たちは、GPT-3のフレームワークを使用してこのモデルを訓練しました。ChatGPTでも使用されているフレームワークです。

この目的のために、彼らは2770億単語の巨大なコーパスを使用しました。訓練データには、非特定化された臨床ノートから820億単語と、様々な英文書から1950億単語が含まれています。

しかし驚きはここにあります。研究チームはGatorTronGPTを使用して、約200億語の合成臨床テキストコーパスを生成しました。この合成臨床テキストは、臨床要素に焦点を当て、医師が書いた本物の臨床ノートのように読むことができます。

この合成データは、GatorTron-SというBERTベースのモデルの訓練に使用されました。

比較評価では、GatorTron-Sは臨床概念の抽出や医療関連の抽出などの臨床自然言語理解のタスクで優れたパフォーマンスを示しており、8200億単語の臨床データセットで訓練された元のBERTベースのモデルであるGatorTron-OGが打ち立てた記録を上回っています。

さらに驚くべきことに、これを少ないデータで実現できました。

GatorTron-OGとGatorTron-Sのモデルは、フロリダ大学のHiPerGatorスーパーコンピュータでNVIDIAのMegatron-LMパッケージを実行する560台のNVIDIA A100 Tensor Core GPUで訓練されました。このプロジェクトで使用されたMegatron LMフレームワークの技術は、後にNVIDIA NeMoフレームワークに組み込まれ、GatorTronGPTの最新の研究にも活用されています。

LLMsによる合成データの使用は、いくつかの課題に対処するものです。LLMsには膨大な量のデータが必要であり、品質の高い医療データが限られています。

また、合成データはHIPAAなどの医療プライバシー規制に準拠したモデル訓練を可能にします。

GatorTronGPTの研究は、昨年ChatGPTの急速な普及と共に登場したLLMsが、さらに多くの分野で活用される可能性を示す最新の例です。

また、加速されたコンピューティングによって実現される新しいAI技術の進展の一例でもあります。

GatorTronGPTプロジェクトは、2020年に発表された野心的な共同プロジェクトの最新成果です。その時、フロリダ大学とNVIDIAは、学術界で世界最速の人工知能スーパーコンピュータを建設する計画を発表しました。

このイニシアティブは、NVIDIAの創業者であるクリス・マラチョウスキとNVIDIA自体からの寄付の融合によって推進されました。

AIをトレーニングするためにAIを使うことは、HiPerGatorの影響の一例に過ぎません。このスーパーコンピュータは、フロリダ大学システム全体で医学科学や他の学問分野でのさらなるイノベーションを支えることを約束しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「リオール・ハキム、Hour Oneの共同創設者兼CTO - インタビューシリーズ」

「Hour Oneの共同創設者兼最高技術責任者であるリオール・ハキムは、専門的なビデオコミュニケーションのためのバーチャルヒ...

人工知能

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ディープAIの創設者であるケビン・バラゴナは、10年以上の経験を持つプロのソフトウェアエンジニア兼製品開発者です彼の目標...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...