ドメイン特化の大規模言語モデルの6つの例

6 examples of domain-specific large-scale language models

GoogleのバードやOpenAIのChatGPTなどの大規模言語モデルを使用したことがある多くの人々は、一般的な業界に特化していないLLM(Large Language Models)を使用しています。しかし、時間の経過とともに、多くの業界がこれらのモデルの力を認識してきました。それに応じて、自分たちの業界に適応された場合、これらのモデルは非常に貴重なものになることが理解されるようになりました。ここ数ヶ月、複数の業界固有のLLMの実例が登場しています。

さまざまな業界固有の大規模言語モデルの例と、その業界がそれらをどのように使用しているか、そしてなぜそれらが違いを生んでいるのかを見てみましょう。

法律

私たちの司法制度によってこれまでに生み出された膨大な量の法的文書を吸収し、それに基づいてケースの引用やその他の支援を弁護士に提供するLLMを想像してみてください。それがCaseHOLDです。CaseHOLDは法的NLPタスク向けの新しいデータセットです。53,000以上の多肢選択問題で構成されており、それぞれが引用されたケースの関連する判例を特定するように求めています。関連する判例は引用されたケースが確立する法的原則です。CaseHOLDは正解が引用されたケースに明示的に記述されていないことが多いため、難しいタスクです。

CaseHOLDデータセットは、法的NLP向けの大規模で業界固有のデータセットの不足を解消するために作成されました。このデータセットは、このタスク向けの最初の大規模で業界固有のデータセットであるため、法的NLPに取り組む研究者にとって貴重なリソースです。また、このデータセットは難しいため、新しいNLPモデルのパフォーマンスを評価するための良い手段となります。

バイオメディカル

バイオメディカルテキストマイニングは、バイオメディカルドキュメントの数が急速に増加しているため、ますます重要になっています。バイオメディカルテキストマイニングには、一般的なNLPモデルを使用するだけでは満足のいく結果が得られないことがよくあります。これは、一般的なコーパスとバイオメディカルコーパスの間の単語分布の違いによるものです。

ここでBioBERTが登場します。BioBERTは、大規模なバイオメディカルテキストのコーパスで事前学習された業界固有の言語表現モデルです。BERTモデルをベースにしており、バイオメディカルテキストのデータセットで微調整されています。これにより、BioBERTはバイオメディカルテキストのユニークな特徴を学習し、バイオメディカルテキストマイニングタスクでより優れたパフォーマンスを発揮することができます。

金融

業界固有のLLMから最初に利益を得ると考える人々のほとんどは、金融がそのリストのトップに来るでしょう。そして、BloombergGPTが既にこの業界で注目を集めています。では、BloombergGPTは何をするのでしょうか?このLLMは、幅広い金融データに特化してトレーニングされています。50兆パラメータのモデルであり、大量のテキストとコードのデータセットでトレーニングされています。これにより、BloombergGPTは金融言語のユニークな特徴を学習し、このドメインに特化していないLLMよりも金融タスクで優れたパフォーマンスを発揮することができます。

BloombergGPTは、感情分析、固有表現認識、質問応答など、さまざまな金融タスクを実行することができます。また、一般的なLLMのベンチマークでも良いパフォーマンスを発揮することが示されており、さまざまなタスクに使用できる強力な言語モデルであると言えます。

コード

LLMモデルがより人気になるにつれて、オープンソースの研究や開発に取り組む新しいコミュニティが生まれ、それに伴いStarCoderが誕生しました。StarCoderは、コーディングに関連するいくつかの繰り返し作業を自動化しようとするLLMです。StarCoderは、The Stackという大規模なパーミッシブライセンスのGitHubリポジトリから収集された1兆トークンのデータセットでトレーニングされました。The Stackデータセットには、さまざまなプログラミング言語のコードが含まれており、StarCoderには各言語のユニークな特徴を学習することができます。StarCoderは、35BのPythonトークンのデータセットでも微調整されており、Pythonタスクで優れたパフォーマンスを発揮することができます。

そのため、StarCoderは言うまでもなく巨大です。15.5Bのパラメータと8Kのコンテキスト長を持っており、大量のテキストとコードのデータセットでトレーニングされています。これにより、StarCoderはコード言語のユニークな特徴を学習し、このドメインに特化していないLLMよりもコード関連のタスクで優れたパフォーマンスを発揮することができます。

医療

法律と同様に、医療分野も書類やデータに埋もれています。これがGoogleのAIであるMed-PaLMの出番です。Med-PaLMの特筆すべき点は、大量の医療テキストとコードのデータセットでトレーニングされていることです。これにより、Med-PaLMは医療言語のユニークな特徴を学習することができます。そのため、医療のさまざまなタスク、医療問題の回答、医療テキストの要約、医療レポートの生成、医療エンティティの識別、臨床アウトカムの予測など、さまざまな医療タスクで既存のモデルを上回るパフォーマンスを発揮することが示されています。

まだ正式にリリースされていませんが、テストではMed-PaLMが医師の病気の診断、新しい治療法の開発、患者の個別ケア、患者教育の改善、医療の効率化に役立つことが示されています。Med-PaLMはまだ開発中ですが、医療の提供方法を革新する潜在能力を持っています。

気候

しかし、LLMに関連する領域として多くの人が思い浮かべないのは気候です。しかし、私たちが学んだことは、気候科学と研究者が生み出すすべてのデータもLLMから恩恵を受けることができるということです。BERTファミリーの一部であるClimateBERTは、気候関連のテキストに特化してトレーニングされています。さまざまなソース(一般的なニュース、研究論文、企業の気候報告など)からクロールされた、気候関連のテキストの200万以上の段落でさらに事前トレーニングされたトランスフォーマーベースのモデルです。

現在、ClimateBERTは、テキスト分類、感情分析、事実確認など、さまざまな気候関連のタスクで既存のモデルを上回ることが示されています。また、ClimateBERTで微調整された場合に他のNLPモデルのパフォーマンスを向上させることも示されています。

結論

明らかに、特定の産業/ドメインに向けられた大規模言語モデルは、この新しい技術を学びたいと思う人々にさらなる利益をもたらすことができます。しかし、LLMは迅速に進化するNLPエコシステムの一部であるため、基準やアイデア、さらには手法も急速に変化しています。

そのため、LLMに関連する変更を追いかけることが重要になっています。そして、それを行う最良の場所は、2023年10月30日から11月2日に開催されるODSC Westです。NLPとLLMに特化したトラックがあり、この速変化する分野に焦点を当てたトーク、セッション、イベントなどを楽しむことができます。

確認されたセッションには以下が含まれます:

  • 特徴ストアを使用したLLMのパーソナライズ
  • 大規模モデルの風景の理解
  • LlamaIndexを使用してデータ上のLLMパワードナレッジワーカーを構築する
  • データ2ベクトルを使用した一般的で効率的な自己教師あり学習
  • 説明可能かつ言語に依存しないLLMへの取り組み
  • SlackメッセージでのLLMの微調整
  • デモやプロトタイプを超えて:オープンソースLLMを使用した本番向けアプリケーションの構築方法
  • LangChainを使用したビジネスプロセスの自動化
  • 大規模言語モデルの接続-一般的な落とし穴と課題

何を待っているんですか?今日パスを手に入れましょう!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

AIを使って若返る方法:新しい抗加齢薬が発見される

AIアルゴリズムが突破口を開き、老化や年齢関連疾患と戦う可能性のある潜在的な薬剤を特定するのに重要な役割を果たしました...

人工知能

自動化されたアクセシビリティテストと手動のアクセシビリティテストの包括的な探求

最新のブログで、自動化およびマニュアルのアクセシビリティテストの微妙なニュアンスを探求してくださいCXスコアが両方のア...

データサイエンス

スタンフォード大学の研究者たちは、安定した拡散に基づき、大規模な胸部X線および放射線データセットで微調整された「RoentGen」という人工知能(AI)モデルを開発しました

最近、高い忠実度、多様性、解像度を持つ画像を生成することが可能なデノイジング拡散モデルの一部である潜在的拡散モデル(L...

人工知能

なぜBankrateはAI生成記事を諦めたのか

1月に、Bankrateとその姉妹サイトであるCNETがAIによって生成された数百の記事を公開することで話題となりました彼らは慎重に...

データサイエンス

『FastSpeech:論文の概要と実装』

2019年、FastSpeechはニューラルテキスト音声変換のフロンティアを推し進め、推論速度を大幅に改善しながら、単語の繰り返し...

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...