大規模言語モデル(LLM)とは何ですか?LLMの応用と種類

大規模言語モデル(LLM)について教えてくださいLLMの応用と種類についても教えてください

コンピュータプログラムである大規模言語モデルは、テキストの解析や作成のための新しいオプションをソフトウェアに提供します。大規模言語モデルは、ペタバイト以上のテキストデータを使用してトレーニングされることが珍しくなく、そのサイズは数テラバイトになることもあります。モデルのパラメータは、以前のトレーニングデータから学習されたコンポーネントであり、テキスト生成などのタスクにおけるモデルの適性を確立します。音声認識、感情分析、テキスト要約、スペルチェック、トークンの分類など、自然言語処理(NLP)の活動は、言語モデルを基盤としています。言語モデルはテキストを分析し、ほとんどの自然言語処理のタスクで次のトークンの確率を予測することができます。ユニグラム、N-グラム、指数、およびニューラルネットワークは、言語モデルの有効な形式です。

LLMの応用

以下のチャートは、大規模言語モデル(LLM)の現状を機能、製品、およびサポートソフトウェアの面でまとめたものです。

画像の出典:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b
  • シェルコマンドの生成

次世代ターミナルのWarpは、GPT-3を使用して自然言語を実行可能なシェル命令に変換します。GitHub Copilotのようなものですが、ターミナル向けです。

経験豊富なプログラマでも、シェルコマンドの構文を説明する必要がある場合があります。

  • 正規表現の生成

開発者にとって正規表現の生成は時間がかかりますが、Autoregex.xyzはGPT-3を活用してこのプロセスを自動化します。

  • コピーライティング

このタスクに最も人気のあるモデルはGPT-3ですが、BigScienceのBLOOMやEleuther AIのGPT-Jなどのオープンソースの代替品もあります。Copy ai、Copysmith、Contenda、Cohere、Jasper aiなどのスタートアップ企業は、この分野でアプリを開発しており、ブログ投稿、販売コンテンツ、デジタル広告、ウェブサイトのコピーなどの執筆を素早く容易にします。

  • 分類

テキストを予め定義されたカテゴリに分類することは、教師あり学習の例です。クラスタリングという教師なし学習技術を用いることで、意味が似ているテキストを事前定義されたクラスなしでまとめることができます。

  • 応答生成

応答生成は、サンプルの対話を使用して対話のフローを生成し、機械学習のアプローチを採用するアイデアです。ユーザーに提示される次の議論がモデルによって決定され、ユーザーの過去の応答と最も可能性の高い将来の会話を考慮に入れます。これを予測対話と呼びます。

  • テキストの生成

LLMの能力は、簡単な説明からテストを生成することで、「メタ能力」と見なされるかもしれません。ほとんどのLLMは生成の役割を果たします。フューショット学習データは、生成を大幅に向上させるだけでなく、データのキャスティングもデータの使用方法に影響を与えます。

  • 知識応答

知識応答は、アプリケーションプログラミングインターフェース(API)のクエリや従来の知識ストアに頼ることなく、一般的なクロスドメインの問い合わせに対する応答を可能にする知識重視の自然言語処理(KI-NLP)の応用です。

知識重視の自然言語処理はウェブ検索ではなく、意味検索をサポートする知識ベースです。

  • フロントエンド/ウェブサイトの生成

Pygmaは、Figmaのモックアップを本番用のコードに変換するために使用されます。SalesforceのCodeGenイニシアチブの究極の目標は、会話型のウェブデザインと生成を容易にすることです。

  • SQLの生成

Cogramはデータにアクセスし、ビジネスインサイトを得るためにSQLに精通している必要がないようにするデータベースクエリ言語の変換ツールです。

  • 自動コードレビューとコード品質の向上

Codigaは自動コードレビューを提供し、Mutable AIはJupyterノートブックを産業化しています。

  • データベースクエリの最適化とDevOpsの支援/自動化

キャッシュミスやインデックスの不足などのデータベースエラーは、さまざまな問題を引き起こす可能性がありますが、Ottertuneは診断と修正を支援します。

  • コード生成とオートコンプリート

Copilotを動かしているCodexは最も一般的なアプローチですが、SalesforceのCodeGenにはオープンソースの代替品もあります。Tabnine、Codiga、Mutable AIなどのソフトウェア開発スタートアップの景気も含まれます。

  • パーソナライズされた推薦

NaverのeコマースプラットフォームであるHyperCLOVAは、単に検索を強化するだけでなく、「複数の消費者レビューをまとめて1行にする」、「ユーザーのショッピングの嗜好に合わせた製品を推薦・キュレーションする」、「注目のショッピングコレクションのためのマーケティングフレーズを生成する」といった機能も可能にします。Shaped AIは、フィード、推薦、ディスカバリサイト向けのランキングアルゴリズムも提供しています。

  • 製品要件文書(PRD)の生成

Montereyは「製品開発の共同パイロット」に取り組んでおり、LLMsを含む可能性があります。

  • 製品の洞察

Viable、Interpret、Cohere、Anecdoteの4つのツールは、ユーザーの入力を製品改善のための具体的な洞察に変えるのに役立ちます。

  • エンタープライズ検索

GPT-3、Glean、Hebbia、Algoliaを通じて、テキストデータやSaaSアプリを検索して、ユーザー(内部または外部)が探しているものを見つけるのに役立ちます。職場の内部メモもMemによって自動的に整理されます。

  • 翻訳

Metaは、一度に204の異なる言語の翻訳の品質を向上させるための研究を行っており、これはこれまでに翻訳された言語の数を倍増させています。

  • パーソナライズされたチュータリング

Korbitは大規模オンラインコースを補完し、Replitはコンピューターコードの理解を支援しています。

  • チャットボット/サポートエージェントの支援

LaMDA、Rasa、Cohere、Forethought、Crestaなどのツールを使用すると、チャットボットの動力化や顧客サポート担当者の生産性向上に役立ちます。

  • 一般的なソフトウェアツールアシスタント

Adept AIの長期目標は、どのプログラムにもワークフローステップを推薦できる汎用の共同パイロット/アシスタントになることです。

  • 文法の修正とスタイル

Duolingo、Writer.com、Grammarlyなどのサイトでスマートなライティングヘルパーを見つけることができます。

  • 個人の意思決定

Oogwayの支援を受けることで、人々はオプションをより良く整理し、情報に基づいた判断を行うことができます。

LLMの種類

大規模言語モデル

大規模言語モデルは、ペタバイト以上のテキストデータを使用してトレーニングされることは珍しくありません。そのため、モデルのサイズはテラバイト単位になります。モデルのパラメータは、前回のトレーニングデータから学習されたコンポーネントであり、テキスト生成などのタスクにおけるモデルの性能を確立します。最近の数年間は、複雑な構造に関する研究により、大規模言語モデルの人気が大幅に高まっています。

CohereやAI21 Labsなどの新しい企業は、GPT-3に似たモデルへのアクセスを提供するAPIを提供しています。一方、Googleなどのインターネット大手は、緻密な言語モデルを秘密にしています。

ファインチューニングされた言語モデル

ファインチューニングされたモデルは、よりコンパクトな傾向があります。ファインチューニングにより、質問応答やタンパク質配列生成など、モデルのパフォーマンスを向上させることができます。また、医学科学などの特定の領域におけるモデルの知識も向上させることができます。

既存の言語モデルを起点とするファインチューニングモデルは、トレーニングと実行に要する時間と計算能力を大幅に削減することができます。多くの分野でファインチューニングが使用されていますが、OpenAIのInstructGPTは特に印象的で最新の例です。

エッジ言語モデル

エッジバリアントは、コンパクトでありながらも、元のバージョンの洗練された形状を取ることがあります。これらは、特定のハードウェア制限に準拠するために、非常に少ないデータで最初からトレーニングされることがあります。モデルがエッジデバイス上でローカルに実行できる場合、クラウドを利用するコストを回避することができます。人気のあるクラウドベースのモデルのコストは、数百万のツイートの分析などのタスクにおいて数千ドルに上る場合があります。エッジモデルはデータをクラウドに送信しないため、インターネット依存型のモデルよりもプライバシーが保護されるべきです。

トップオープンソースの大規模言語モデル 

  • GPT-Neo、GPT-J、およびGPT-NeoX

GPT-Neo、GPT-J、およびGPT-NeoXなどの非常に強力な人工知能モデルは、フューショット学習の問題に使用することができます。フューショット学習は、他のディープラーニングモデルと同様にトレーニングとファインチューニングを行いますが、サンプル数が少なくて済みます。他の公開されているオープンソースのGPTモデルと比較して、GPT-NeoXはMegatron-LMとDeepSeedを主に使用しており、大きな進歩を遂げています。Mesh TensorFlowを使用して構築され、複雑さとサイズのためにGPUに最適化されています。これまでに公開されていた最大の公開可能な密な自己回帰モデルは、GPT-NeoX-20Bモデルであり、200億のパラメータを持ち、Pileでトレーニングされました。GPT-NeoX-20Bのフューショット学習の能力により、プロジェクトの実行可能性を評価するための概念実証が可能となります。

  • XLNet

カーネギーメロン大学とGoogleの研究者が開発した新しいモデル、XLNetは、読解、テキスト分類、感情分析などの自然言語処理(NLP)のタスクに使用できます。XLNetの自己回帰形式は、BERTの制約を超えるために全ての可能な因子分解の確率を最適化することで、両方向の知識獲得を可能にしています。一般化された自己回帰モデルを使用して事前トレーニングされます。さらに、XLNetは、事前トレーニングプロセスに最先端の自己回帰モデルであるTransformer-XLを組み込んでいます。XLNetは、質問応答、自然言語推論、感情分析、ドキュメント評価など、18のタスクで最先端のパフォーマンスを発揮し、20のタスクでBERTを上回ります。

  • Roberta

Facebook AIとワシントン大学の研究者らは、GoogleのBERT(Bidirectional Encoder Representation from Transformers)のトレーニングプロセスを研究しました。トレーニング体制には多くの調整が加えられ、結果が改善されました。その結果がRoberta(Robustly Optimized BERT Approach)であり、GLUE(General Language Understanding Evaluation)テストでXLNetレベルのパフォーマンスを実現しています。

  • DeBERTa

Microsoft Researchは、BERTとRoBERTaモデルを拡張するために、デコーディング強化BERTとディセントラルアテンションを提案しました。アテンションメカニズムを最初に分離し、単語はその内容と位置を伝える2つのベクトルで表現されます。用語間のアテンション重みは、両方の要素を独立に考慮した行列によって計算されます。また、改良されたマスクデコーダーを使用して、モデルの事前トレーニング時にマスクされたトークンを予測します。公開時点で、DeBERTaモデルは人間のベースラインよりも高いGLUEベンチマークスコアを達成しました。DeBERTaモデルは、質問応答、要約、トークン、テキスト分類など、多くの自然言語処理アプリケーションで広く使用されています。

  • XLM-RoBERTa

XLM-RoBERTaは、トランスフォーマーを使用してテキストを100の異なる言語に翻訳する言語モデルです。以前は、それぞれの新しい言語ごとに繰り返し行う必要がありましたが、固有のニュアンスを持つ言語に対しても即座に価値を提供することができるマルチリンガルモデル、XLM-RoBERTaなどは、英語の理解を必要とする消費者に価値を提供できます。ただし、時にはジョブあたりの最高のパフォーマンスを発揮します。

  • DistilBERT

DistilBERTは、BERTの効率を最大化しようとする従来のモデルとは異なるアプローチを取ります。DistilBERTは、XLNet、RoBERTa、DeBERTなどの他の類似手法がパフォーマンスを向上させる一方、推論速度を高めることを目指しています。目標は、110Mパラメータを持つBERT BASEと340Mパラメータを持つBERT LARGEをより速く、より小さくすることです。

まとめると

言語の重要性は過小評価できません。それは私たちが世界に関する情報を受け取り、貢献するための手段です(例:合意、法律、メッセージなど)。言語によってつながりやコミュニケーションも促進されます。ソフトウェアは急速に進化していますが、コンピュータの言語能力はまだ制限されています。ソフトウェアはテキスト内で単語の一致を見つけることに優れていますが、人々が日常的に使用するより微妙な言語技術には苦労しています。明らかに、より洗練された言語理解能力を備えた高度なツールが必要です。

言語処理技術の開発は人工知能(AI)における大きな進歩です。これにより、人間の言語のより深い理解を持つ、これまでにないほどスマートなシステムを作成することができます。継続的な研究により、巨大で洗練された最先端の言語モデルは常に改善されていますが、広範な使用に向けてはまだ課題があります。これらのモデルを効率的にトレーニングし、実装するためにはデータ、計算能力、技術的な専門知識が必要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

機械学習

ディープネットワークの活性化関数の構築

ディープニューラルネットワークの基本的な要素は、活性化関数(AF)です活性化関数は、ネットワーク内のノード(「ニューロ...

AI研究

メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました

近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射...

機械学習

ID対マルチモーダル推奨システム:転移学習の視点

この記事は、移転可能な推薦システムの開発状況と代表的な作業(IDベース、モダリティベース、および大規模言語モデルベース...

人工知能

「自律AIエージェントを使用してタスクを自動化するための10の方法」

はじめに テクノロジーのダイナミックな風景の中で、自律型AIエージェントは変革的な存在として登場し、データと人工知能との...

人工知能

サイバーセキュリティにおいてAIを活用して人間を補完する

セキュリティを加速するためにAIを使用する利点がありますしかし、完全な自動化には人間の洞察力が必要です人間の創造力と機...