ドメイン特化の大規模言語モデルの6つの例

6 examples of domain-specific large-scale language models

GoogleのバードやOpenAIのChatGPTなどの大規模言語モデルを使用したことがある多くの人々は、一般的な業界に特化していないLLM（Large Language Models）を使用しています。しかし、時間の経過とともに、多くの業界がこれらのモデルの力を認識してきました。それに応じて、自分たちの業界に適応された場合、これらのモデルは非常に貴重なものになることが理解されるようになりました。ここ数ヶ月、複数の業界固有のLLMの実例が登場しています。

さまざまな業界固有の大規模言語モデルの例と、その業界がそれらをどのように使用しているか、そしてなぜそれらが違いを生んでいるのかを見てみましょう。

法律

私たちの司法制度によってこれまでに生み出された膨大な量の法的文書を吸収し、それに基づいてケースの引用やその他の支援を弁護士に提供するLLMを想像してみてください。それがCaseHOLDです。CaseHOLDは法的NLPタスク向けの新しいデータセットです。53,000以上の多肢選択問題で構成されており、それぞれが引用されたケースの関連する判例を特定するように求めています。関連する判例は引用されたケースが確立する法的原則です。CaseHOLDは正解が引用されたケースに明示的に記述されていないことが多いため、難しいタスクです。

CaseHOLDデータセットは、法的NLP向けの大規模で業界固有のデータセットの不足を解消するために作成されました。このデータセットは、このタスク向けの最初の大規模で業界固有のデータセットであるため、法的NLPに取り組む研究者にとって貴重なリソースです。また、このデータセットは難しいため、新しいNLPモデルのパフォーマンスを評価するための良い手段となります。

バイオメディカル

バイオメディカルテキストマイニングは、バイオメディカルドキュメントの数が急速に増加しているため、ますます重要になっています。バイオメディカルテキストマイニングには、一般的なNLPモデルを使用するだけでは満足のいく結果が得られないことがよくあります。これは、一般的なコーパスとバイオメディカルコーパスの間の単語分布の違いによるものです。

ここでBioBERTが登場します。BioBERTは、大規模なバイオメディカルテキストのコーパスで事前学習された業界固有の言語表現モデルです。BERTモデルをベースにしており、バイオメディカルテキストのデータセットで微調整されています。これにより、BioBERTはバイオメディカルテキストのユニークな特徴を学習し、バイオメディカルテキストマイニングタスクでより優れたパフォーマンスを発揮することができます。

金融

業界固有のLLMから最初に利益を得ると考える人々のほとんどは、金融がそのリストのトップに来るでしょう。そして、BloombergGPTが既にこの業界で注目を集めています。では、BloombergGPTは何をするのでしょうか？このLLMは、幅広い金融データに特化してトレーニングされています。50兆パラメータのモデルであり、大量のテキストとコードのデータセットでトレーニングされています。これにより、BloombergGPTは金融言語のユニークな特徴を学習し、このドメインに特化していないLLMよりも金融タスクで優れたパフォーマンスを発揮することができます。

BloombergGPTは、感情分析、固有表現認識、質問応答など、さまざまな金融タスクを実行することができます。また、一般的なLLMのベンチマークでも良いパフォーマンスを発揮することが示されており、さまざまなタスクに使用できる強力な言語モデルであると言えます。

コード

LLMモデルがより人気になるにつれて、オープンソースの研究や開発に取り組む新しいコミュニティが生まれ、それに伴いStarCoderが誕生しました。StarCoderは、コーディングに関連するいくつかの繰り返し作業を自動化しようとするLLMです。StarCoderは、The Stackという大規模なパーミッシブライセンスのGitHubリポジトリから収集された1兆トークンのデータセットでトレーニングされました。The Stackデータセットには、さまざまなプログラミング言語のコードが含まれており、StarCoderには各言語のユニークな特徴を学習することができます。StarCoderは、35BのPythonトークンのデータセットでも微調整されており、Pythonタスクで優れたパフォーマンスを発揮することができます。

そのため、StarCoderは言うまでもなく巨大です。15.5Bのパラメータと8Kのコンテキスト長を持っており、大量のテキストとコードのデータセットでトレーニングされています。これにより、StarCoderはコード言語のユニークな特徴を学習し、このドメインに特化していないLLMよりもコード関連のタスクで優れたパフォーマンスを発揮することができます。

医療

法律と同様に、医療分野も書類やデータに埋もれています。これがGoogleのAIであるMed-PaLMの出番です。Med-PaLMの特筆すべき点は、大量の医療テキストとコードのデータセットでトレーニングされていることです。これにより、Med-PaLMは医療言語のユニークな特徴を学習することができます。そのため、医療のさまざまなタスク、医療問題の回答、医療テキストの要約、医療レポートの生成、医療エンティティの識別、臨床アウトカムの予測など、さまざまな医療タスクで既存のモデルを上回るパフォーマンスを発揮することが示されています。

まだ正式にリリースされていませんが、テストではMed-PaLMが医師の病気の診断、新しい治療法の開発、患者の個別ケア、患者教育の改善、医療の効率化に役立つことが示されています。Med-PaLMはまだ開発中ですが、医療の提供方法を革新する潜在能力を持っています。

気候

しかし、LLMに関連する領域として多くの人が思い浮かべないのは気候です。しかし、私たちが学んだことは、気候科学と研究者が生み出すすべてのデータもLLMから恩恵を受けることができるということです。BERTファミリーの一部であるClimateBERTは、気候関連のテキストに特化してトレーニングされています。さまざまなソース（一般的なニュース、研究論文、企業の気候報告など）からクロールされた、気候関連のテキストの200万以上の段落でさらに事前トレーニングされたトランスフォーマーベースのモデルです。

現在、ClimateBERTは、テキスト分類、感情分析、事実確認など、さまざまな気候関連のタスクで既存のモデルを上回ることが示されています。また、ClimateBERTで微調整された場合に他のNLPモデルのパフォーマンスを向上させることも示されています。

結論

明らかに、特定の産業/ドメインに向けられた大規模言語モデルは、この新しい技術を学びたいと思う人々にさらなる利益をもたらすことができます。しかし、LLMは迅速に進化するNLPエコシステムの一部であるため、基準やアイデア、さらには手法も急速に変化しています。

そのため、LLMに関連する変更を追いかけることが重要になっています。そして、それを行う最良の場所は、2023年10月30日から11月2日に開催されるODSC Westです。NLPとLLMに特化したトラックがあり、この速変化する分野に焦点を当てたトーク、セッション、イベントなどを楽しむことができます。

確認されたセッションには以下が含まれます：

特徴ストアを使用したLLMのパーソナライズ
大規模モデルの風景の理解
LlamaIndexを使用してデータ上のLLMパワードナレッジワーカーを構築する
データ2ベクトルを使用した一般的で効率的な自己教師あり学習
説明可能かつ言語に依存しないLLMへの取り組み
SlackメッセージでのLLMの微調整
デモやプロトタイプを超えて：オープンソースLLMを使用した本番向けアプリケーションの構築方法
LangChainを使用したビジネスプロセスの自動化
大規模言語モデルの接続-一般的な落とし穴と課題

何を待っているんですか？今日パスを手に入れましょう！

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

ドメイン特化の大規模言語モデルの6つの例

法律

バイオメディカル

金融

コード

医療

気候

結論

Was this article helpful?

「高等教育の前にデータサイエンスのブートキャンプを検討する5つの理由」

エンジニアにとって役立つ6つのリソース

機械学習

「ChatGPTのためにNGINXを使用してOpenAIリバースプロキシを設定する」

お客様との関係を革新する：チャットとReact.jsとのCRMのシナジーを探る

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

ChatGPTで説得力を高めましょう

第四次産業革命：AIと自動化

自己対戦を通じてエージェントをトレーニングして、三目並べをマスターする