「ドメイン特化LLMの潜在能力の解放」
Unlocking the potential of domain-specific LLM
イントロダクション
大規模言語モデル(LLM)は世界を変えました。特にAIコミュニティにおいて、これは大きな進歩です。テキストを理解し、返信することができるシステムを構築することは、数年前には考えられなかったことでした。しかし、これらの機能は深さの欠如と引き換えに得られます。一般的なLLMは何でも屋ですが、どれも専門家ではありません。深さと精度が必要な領域では、幻覚のような欠陥は高価なものになる可能性があります。それは医学、金融、エンジニアリング、法律などのような領域がLLMの恩恵を受けることができないことを意味するのでしょうか?専門家たちは、既に同じ自己教師あり学習とRLHFという基礎的な技術を活用した、これらの領域に特化したLLMの構築を始めています。この記事では、領域特化のLLMとその能力について、より良い結果を生み出すことを探求します。
学習目標
技術的な詳細に入る前に、この記事の学習目標を概説しましょう:
- 大規模言語モデル(LLM)とその強みと利点について学びます。
- 一般的なLLMの制限についてさらに詳しく知ります。
- 領域特化のLLMとは何か、一般的なLLMの制限を解決するためにどのように役立つのかを見つけます。
- 法律、コード補完、金融、バイオ医学などの分野におけるパフォーマンスにおけるその利点を示すためのさまざまな領域特化言語モデルの構築について、例を交えて探求します。
この記事はData Science Blogathonの一部として公開されました。
LLMとは何ですか?
大規模言語モデル(LLM)とは、数億から数十億のパラメータを持つ人工知能システムであり、テキストを理解し生成するために構築されます。トレーニングでは、モデルにインターネットのテキスト、書籍、記事、ウェブサイトなどからの多数の文を提示し、マスクされた単語または文の続きを予測するように教えます。これにより、モデルはトレーニングされたテキストの統計パターンと言語的関係を学びます。LLMは、言語翻訳、テキスト要約、質問応答、コンテンツ生成など、さまざまなタスクに使用することができます。トランスフォーマーの発明以来、無数のLLMが構築され、公開されてきました。最近人気のあるLLMの例には、Chat GPT、GPT-4、LLAMA、およびStanford Alpacaなどがあり、画期的なパフォーマンスを達成しています。
- Dynalang エージェント学習における言語理解と将来予測の統合
- AIの力:機械学習アプリケーションの効率的な展開とスケーラビリティのためのDockerの活用
- マルチモーダル言語モデルの解説:ビジュアル指示の調整
LLMの強み
LLMは、言語理解、エンティティ認識、言語生成の問題など、言語に関するさまざまな課題のためのソリューションとして選ばれるようになりました。GLUE、Super GLUE、SQuAD、BIGベンチマークなどの標準的な評価データセットでの優れたパフォーマンスは、この成果を反映しています。BERT、T5、GPT-3、PALM、GPT-4などが公開された時、それらはすべてこれらの標準テストで最新の結果を示しました。GPT-4は、BARやSATのスコアで平均的な人間よりも高得点を獲得しました。以下の図1は、大規模言語モデルの登場以来、GLUEベンチマークでの大幅な改善を示しています。
大規模言語モデルのもう一つの大きな利点は、改良された多言語対応の能力です。たとえば、104の言語でトレーニングされたマルチリンガルBERTモデルは、さまざまな言語で優れたゼロショットおよびフューショットの結果を示しています。さらに、LLMの活用コストは比較的低くなっています。プロンプトデザインやプロンプトチューニングなどの低コストの方法が登場し、エンジニアはわずかなコストで既存のLLMを簡単に活用することができます。そのため、大規模言語モデルは、言語理解、エンティティ認識、翻訳などの言語に基づくタスクにおけるデフォルトの選択肢となっています。
一般的なLLMの制限
Web、書籍、Wikipediaなどからのさまざまなテキストリソースでトレーニングされた上記のような一般的なLLMは、一般的なLLMと呼ばれています。これらのLLMには、Bing ChatのGPT-4、PALMのBARDなどの検索アシスタント、マーケティングメール、マーケティングコンテンツ、セールスピッチなどのコンテンツ生成タスク、個人チャットボット、カスタマーサービスチャットボットなど、さまざまなアプリケーションがあります。
一般的なAIモデルは、さまざまなトピックにわたるテキストの理解と生成において優れたスキルを示していますが、専門分野にはさらなる深さとニュアンスが必要な場合があります。たとえば、「債券」とは金融業界での借入の形態ですが、一般的な言語モデルはこの独特なフレーズを理解せず、化学や人間同士の債券と混同してしまうかもしれません。一方、領域特化のLLMは、特定のユースケースに関連する専門用語を専門的に理解し、業界固有のアイデアを適切に解釈する能力があります。
また、一般的なLLMには複数のプライバシーの課題があります。たとえば、医療LLMの場合、患者データは非常に重要であり、一般的なLLMに機械学習強化学習(RLHF)などの技術が使用されることで、機密データの公開がプライバシー契約に違反する可能性があります。一方、特定のドメインに特化したLLMは、データの漏洩を防ぐために閉じたフレームワークを確保します。
同様に、一般的なLLMは幻覚に陥りやすく、クリエイティブライティングに重点が置かれているためです。一方、特定のドメインに特化したLLMはより正確であり、特定のフィールドのベンチマークで大幅に性能が向上します。
特定のドメインに特化したLLM
特定のドメインのデータで訓練されたLLMは、特定のドメインに特化したLLMと呼ばれます。ドメインという言葉は、医学、金融などの特定の分野からYouTubeのコメントなどの特定の製品まで何でもカバーします。特定のドメインに特化したLLMは、ドメイン固有のベンチマークで最高のパフォーマンスを目指します。一般的なベンチマークはもはや重要ではありません。専用の言語モデルを構築する方法は複数あります。最も一般的なアプローチは、既存のLLMを特定のドメインのデータに対して微調整することです。しかし、特定のニッチドメインで最先端のパフォーマンスを達成しようとするユースケースでは、事前学習が適しています。
微調整 vs. 事前学習
特定のドメインに既存のLLMを微調整することは、特定のドメインに合わせて調整された言語モデルの開発プロセスを大幅に改善することができます。微調整では、モデルは事前学習中にエンコードされた知識を使用して、ドメイン固有のデータに基づいてこれらのパラメータを微調整します。微調整には、より少ないトレーニング時間とラベル付きデータが必要です。コストが安く済むため、これは特定のドメインに特化したLLMの一般的なアプローチとなっています。ただし、微調整は、特にニッチなドメインの場合には重大なパフォーマンスの制約がある場合があります。法律の言語理解のために構築されたBERTモデルのシンプルな例でこれを理解しましょう(論文参照)。BERT-baseモデルとCustom Legal-BERTモデルの2つの事前学習モデルが使用されています。以下の画像に示すように、法的タスクに微調整されたBERT-baseモデルは、法的タスクに微調整されたCustom Legal-BERTモデルよりも優れたパフォーマンスを発揮します。
上記の例は、法律のようなニッチ領域での特定のドメインの事前学習の威力を明確に示しています。一般的な言語モデルを微調整することは、より一般化された言語の問題に役立ちますが、ニッチな問題領域では事前学習されたLLMの使用の方がはるかに優れています。以下のセクションでは、異なる事前学習アプローチの説明と、各アプローチとその成功の例を示します。
特定のドメインの事前学習
特定のフィールドに合わせて慎重に選択または作成された大規模なデータセットを使用して言語モデルを事前学習することは、特定のドメインの事前学習と呼ばれます。モデルは、ドメイン固有のデータで訓練されることにより、そのフィールド特有の用語、概念、細微な点など、ドメイン固有の知識を学習することができます。これにより、モデルは対象のフィールドの独自の要件、言語、文脈について学習し、より正確で文脈に適した予測や応答を生成することができます。これにより、モデルの対象フィールドへの理解が向上し、生成能力の精度が向上します。LLMの事前学習には、特定のドメインデータを使用するための複数の方法があります。以下にいくつかの例を示します。
アプローチ1
自己教師付き言語モデリングのタスクで一般的なデータの代わりに特定のドメインのデータのみを使用してモデルを事前学習する方法です。この方法では、モデルは特定のドメインの知識を学習します。特定のドメインに特化したLLMは、その後、必要なタスクに対して微調整されるためのタスク固有のモデルを構築するために微調整されます。これは、特定のドメインに特化したLLMを事前学習する最も簡単な方法です。以下の図は、自己教師付き学習で特定のドメインのデータのみを使用してドメイン固有のLLMを構築するためのフローを示しています。
例:StarCoderBase
StarCoderBaseは、GitHubから取得した80以上のプログラミング言語、Gitのコミット、Jupyterノートブックなど、許可されたライセンスのデータを使用してトレーニングされたコード用の大規模言語モデル(Code LLMs)です。これは1兆トークン15Bパラメータのモデルです。StarCoderBaseは、PaLM、LaMDA、LLaMAを含む最も重要なモデルを上回り、かなり小さいサイズであることから、ドメインに特化したLLMの有用性を示しています。(StarCoder Paperより)
アプローチ2
ドメイン固有のデータと一般的なデータを組み合わせて、モデルをセルフスーパーバイズドな言語モデリングタスクの事前学習に使います。この方法では、モデルはドメイン固有の知識を学び、一般的な言語の事前学習を利用して言語理解を向上させることができます。以下は、ドメイン固有のデータと一般的なコーパスを使用してセルフスーパーバイズド学習を行い、ドメイン固有のLLMを構築するためのフローを示した図です。このLLMは、その後、ドメイン固有のタスクに適応するためにファインチューニングすることができます。
例:Bloomberg GPT
Bloomberg GPTは、金融ドメインのLLMであり、金融関連のデータの広範なアーカイブを基にトレーニングされています。英語の金融論文の3630億トークンのデータセットを含む3450億トークンのパブリックデータセットを補完し、合計7000億トークンを超える大規模なトレーニングコーパスが生成されました。研究者は、このトレーニングデータセットの一部を使用して、500億パラメータのデコーダーのみの因果言語モデルを構築しました。特に、BloombergGPTモデルは、金融特有のNLPベンチマークで、同様のスケールの現行のオープンモデルを大幅に上回る結果を収めました。以下のチャートは、Bloomberg GPTの金融特有のNLPタスクにおけるパフォーマンス比較を示しています。出典:Bloomberg。
アプローチ3
一般的なLLMをビルドするか事前学習済みの一般的なLLMのパラメータでコールドスタートします。ドメイン固有のデータを使ってセルフスーパーバイズドな言語モデリングタスクを実行し、コールドスタートされた一般的なLLMの上にドメイン固有のLLMを構築します。これにより、一般的なLLMからの転移学習が利用され、一般的なLLMでコールドスタートされます。以下は、ステップバイステップのセルフスーパーバイズド学習を示した図であり、まず一般的なコーパス、次にドメイン固有のコーパスを使用してドメイン固有のLLMを構築します。
例:BioBERT
BioBERT(Lee et al.、2019)は、BERT-baseモデル(Devlin et al.、2019)をベースにしたもので、追加のバイオメディカルドメインの事前トレーニングが行われています。このモデルは、Pub Medで20万ステップ、PMCで27万ステップのトレーニングを行った後、Pub Medデータセットで100万ステップのトレーニングを行いました。BioBERTは、バイオメディカルコーパスで事前トレーニングされることで、BERTやこれまでの最先端モデルよりも優れた性能を発揮します。BioBERTは、バイオメディカルの名前エンティティ認識(F1スコア改善0.62%)、バイオメディカルの関係抽出(F1スコア改善2.80%)、バイオメディカルの質問応答(MRR改善12.24%)の3つの代表的なバイオメディカルテキストマイニングタスクでBERTを上回ります。
ドメイン固有の事前トレーニングLLMの利点
上記の例は、特定のドメインで言語モデルの事前トレーニングがどれだけ効果的であるかを示しています。リストされた技術は、そのドメインのタスクのパフォーマンスを大幅に向上させることができます。パフォーマンスの向上以外にも、ドメイン固有のLLMにはさまざまな利点があります。ドメイン固有のLLMは、ユーザーエクスペリエンスを向上させることができます。また、大規模なモデルの大きな問題の一つは、幻覚や不正確な情報生成の可能性です。ドメイン固有のLLMは、返答の精度を重視し、応用ケースの範囲を制限することで幻覚を減らすことができます。ドメイン固有のLLMのもう一つの主な利点は、今日のビジネスにおける機密情報や個人情報の保護です。
結論
LLMを使用してより優れたパフォーマンスと多言語対応能力を持つソリューションがますます多くのユースケースで採用されるにつれて、LLMの視点で新しい問題に取り組む価値があります。また、上記のセクションにリストされたパフォーマンスデータは、既存のソリューションをLLMを使用するように移行することが価値ある投資であることを示しています。この記事で言及されているアプローチで実験を実施することで、ドメイン固有の事前トレーニングを使用して目標を達成する可能性を高めることができます。
要点
- LLMは、強力なゼロショットおよびフューショット学習性能、多言語対応能力、さまざまなユースケースへの適応性、データが少なくても利用しやすいという特徴から、強力なものとなっています。
- ただし、汎用的なLLMには、幻覚や低精度、ニッチなドメインの理解の欠如、および潜在的なプライバシーの侵害といった制約があります。
- これらの制約に対する解決策として、ドメイン固有のLLMがあります。カスタムの大規模言語モデルを事前学習することは、最高のパフォーマンス結果を得るためにそれらを微調整するよりも優れています。特定のドメイン向けにカスタムの大規模言語モデルを構築すると、より優れたパフォーマンスと高い精度が得られます。
- 法律、コード生成、金融、およびバイオ医学などのニッチな分野のドメイン固有のLLMは、各分野のNLPベンチマークで汎用モデルよりも優れた性能を発揮しています。
よくある質問
参考文献
[1] Jinhyuk Lee and others, BioBERT: a pre-trained biomedical language representation model for biomedical text mining, Bioinformatics, Volume 36, Issue 4, February 2020 [2] Shijie Wu and others, BloombergGPT: A Large Language Model for Finance, 2023 [3] Raymond Li and Others, StarCoder: May the source be with you! 2023 [4] Jingqing Zhang and others, PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization, 2019 [5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019
この記事に表示されているメディアはAnalytics Vidhyaの所有ではありません。著者の裁量で使用されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles