Search Results 大規模な言語モデル

私たちはどのように大規模な言語モデルをストリーミングアプリケーションで効率的に展開できるのでしょうか？このAI論文では、無限のシーケンス長のためのStreamingLLMフレームワークを紹介しています

大きな言語モデル（LLM）は、コード補完、質問応答、文書要約、対話システムなど自然言語処理アプリケーションのパワーとして、ますます使用されています。事前にトレーニングされたLLMは、正確かつ迅速に拡張シーケンス作成を行う必要があり、その全ての潜在能力を発揮するためには可能な限り大量のシーケンスを処理できる必要があります。例えば、最近の日中のチャットのコンテンツを信頼性を持って編集する理想的なチャットボットヘルパーです。4KのLlama-2など、事前学習されたものよりも大きなシーケンス長に一般化することは、LLMにとって非常に困難です。事前トレーニング中のアテンションウィンドウのため、LLMは制約されます。長い入力に対してこのウィンドウの大きさを拡張し、トレーニングと推論の効果を高めるための取り組みが行われていますが、許容されるシーケンス長はまだ見直す必要があり、永続的な展開を妨げています。MIT、Meta AI、カーネギーメロン大学の研究者らは、この研究で最初にLLMストリーミングアプリケーションのアイデアを検討し、次の質問を提起しています：LLMを無限の入力ストリームに使用する際には、2つの主要な問題が浮かび上がります： 1. TransformerベースのLLMは、デコーディングステージ中にすべての前のトークンのKeyとValueの状態（KV）をキャッシュします（図1(a)参照）。これは、過剰なメモリ使用量とデコードの遅延の増加を引き起こす可能性があります。 2. シーケンスの期間が事前学習中のアテンションウィンドウサイズを超えると、既存のモデルのパフォーマンスが低下します。図1は、StreamingLLMと以前の技術を比較しています。トークンT（T>>L）は、長さLのテキストで事前トレーニングされた言語モデルによって予測されます。（a）密なアテンションはキャッシュ容量が上昇し、時間の複雑さがO（T^2）になります。テキストの長さが事前トレーニングのテキスト長を超えるとパフォーマンスが低下します。（b）ウィンドウアテンションは、キャッシュ中で最新のLトークンのKVを保存します。推論ではパフォーマンスが良いですが、最初のトークンのキーと値が削除されると急速に悪化します。新しいトークンごとに、（c）スライディングウィンドウとリコンピューテーションは、最新のLトークンを使用してKV状態を再構築します。長いテキストの処理には優れていますが、O（T L^2）の計算量と文脈の再計算における二次関数のアテンションのため、非常に遅いです。（d）「ステディなアテンションの計算のため、StreamingLLMは最新のトークンとともに少数の初期トークンをアテンションシンクとして保持します。長いテキストに対して効果的かつ一貫して機能します。Llama-2-13Bモデルは、PG-19テストセットの最初の本（65Kトークン）におけるPerplexityを計算するために使用されます。ウィンドウアテンションは、最新のトークンのKV状態の固定サイズのスライディングウィンドウを保持する明確な戦略です（図1b）。最初のトークンのKVを排除するだけで、シーケンス長がキャッシュ容量を超えると、モデルは崩壊します。キャッシュが最初に一杯になった後も、一貫したメモリ使用量とデコード性能を保証します。さらなる戦略として、再計算を行うスライディングウィンドウ（図1c）があります。このテクニックは、ウィンドウ内の二次関数のアテンション計算により、非常に遅くなりますが、パフォーマンスは良好です。これは、実世界のストリーミングアプリケーションには適していません。ウィンドウアテンションの失敗を説明するための自己回帰LLMの興味深い現象を彼らは発見しました。言語モデリングのタスクと関連性に関係なく、初期トークンに驚くほど高いアテンションスコアが割り当てられています。これらのトークンは「アテンションシンク」と呼ばれ、意味的な価値はほとんどありませんが、重要なアテンションスコアを受け取ります。関連するトークンすべてにおいてアテンションスコアが1になる必要があるソフトマックス処理が原因とされています。そのため、現在のクエリが多くの以前のトークンと良い一致がない場合でも、モデルはこれらの余分なアテンション値を一に加える必要があります。初期トークンは、シンプルな理由で注意の溜め場として使用されます: 自己回帰型言語モデリングの性質により、実質的にすべての後続トークンに対して可視性があり、トレーニングが容易です。前述の発見に基づいて、ストリーミングLLMという直感的で効果的なアーキテクチャを提案しています。これにより、有限な注意ウィンドウで準備されたLLMが、細かな調整なしで無期限のテキストに対応できるようになります。注意の消耗が高いため、StreamingLLMはこの特性を活用して注目度の分布を適度に維持します。StreamingLLMは、スライディングウィンドウのキーバリューと初期トークンの注目計算とモデルの安定性を維持するために使用されます (初期トークンはわずか4つだけ必要です)。 Llama-2-B、MPT-B、Falcon-B、およびPythiaBのようなモデルは、StreamingLLMの助けを借りて4百万トークンを正確に表現できるでしょう、さらに多くの可能性もあります。StreamingLLMは、再計算を伴うスライディングウィンドウとの比較で最大22.2倍の高速化を実現し、LLMのストリーミング使用を実現します。最後に、言語モデルはストリーミング展開に必要な注目の溜め場トークンを単一にすることが事前学習で可能であることを示しています。トレーニングサンプルの開始時に、選択した注目の溜め場を追加の学習可能なトークンとして実装することを提案しています。この単一の溜め場トークンの導入により、1億6000万パラメータからゼロから言語モデルを事前学習することで、ストリーミングインスタンスにおけるモデルのパフォーマンスを維持できます。これは、同じパフォーマンスレベルを維持するために複数の初期トークンを溜め場として再導入する必要があるバニラモデルとは対照的です。

ETHチューリッヒとマイクロソフトの研究者が、大規模な言語モデルの推論を強化するための人工知能フレームワーク「SCREWS」を紹介しました

大型言語モデル（LLM）は、さまざまな推論タスクで成功しています。意図した目的が達成されることを保証するために、LLMの結果を反復的に調整する必要がある場合があります。なぜなら、出力は最初の試行でのみ正確な場合があるからです。これらの改善技術は、連続する結果（同一のモデル、外部モデル、またはツールからの結果）がパフォーマンスを向上させることを前提としています。しかし、後のバージョンが常に改善される保証はありません。図1に示すように、改善は誤った結果を引き起こす場合もあります。これにより、モデルは選択の技術を使用して以前の結果を選択するように促されます。さらに、以前のイテレーションの改良に関する先行研究では、単一の固定推論技術が頻繁に使用されています。しかし、人間はより適応性があります。図1: 条件付き再サンプリング（または「改善」）が初期応答の適切な変更をもたらす場合があることを示す事例研究の例。変更に代わり、この場合は正しいものである初期応答が選択モジュールによって選ばれるかもしれません。製品マネージャーは、優先順位付けテクニックに切り替える前に、優先順位付けテクニックでアイデアを複数生成するためのブレインストーミング技術を使用することがあります。同様に、試験の準備をする学生は、誘導的な推論を使用して結果を確認するために、帰納的な推論を使用することがあります。したがって、私たちは様々な戦術を試すために改善に対するモジュラーな戦略を提案しています。この論文では、ETH ZurichとMicrosoft Semantic Machinesの研究者が、変更に関する推論のためのモジュラーフレームワークであるSCREWSを紹介しています。サンプリング、条件付き再サンプリング、および選択は、フィギュア2で詳細に紹介されるアーキテクチャの3つのコアコンポーネントです。彼らはそれぞれのモジュールのサブモジュールを固定してSCREWSを実行します（例えば、サンプリングモジュールに「考えの連鎖」を選ぶことができます）。これは特定のタスクと入力シーケンスに対して行われます。図2は、変更に関する推論のためのモジュラースクリューフレームワークの上位レベルの概要を示しています。3つの大きなボックス（または「モジュール」）は、いくつかの選択肢（または「サブモジュール」）を含んでいます。セルフリファイン、リーストトゥモスト、LLMsノウ（主に）、セルフコンシステンシー、セルフインプルーブ、PHP CoT、セルフコレクト、Socratic CoT、プログラムオブ思考など、多くの以前の試みがフレームワークの例として見られます。(…)は、各モジュールに追加される可能性のある追加のサブコンポーネントを示しており、これには、サンプリングモジュールのキャッシュされたメモリやオンライン検索、条件付き再サンプリングに対する微調整モデルや外部検証者、選択モジュールに対する人間またはオラクルに基づく選択などが含まれます。サンプリングの最初の出力は、条件付き再サンプリングに渡され、元のサンプルに基づいて変更を作成するかどうかを判断し、必要に応じて変更を作成します。選択モジュールは、すべてのサンプルと変更から最良のものを選択します。彼らのフレームワークのモジュラーデザインを考慮すると、追加のフレームワーク要素を使用することで、いくつかの新しく提案された自己改良手法を強化することができます。彼らのモデルベースの選択技術と自己改良手法を組み合わせることで、全体的なパフォーマンスを向上させることができます。彼らはChatGPTまたはGPT-4を使用して、マルチホップ質問応答、算術的推論、コードデバッグなどのさまざまな推論タスクでSCREWSを評価しています。標準のサンプルと再サンプリング手順と比較して、彼らの提案された解決策は大幅な改善（10-15%）をもたらします。彼らは異種の再サンプリングの価値を示し、それがモデルの論理にどのように影響を与え、非常に低い総コストでベースラインを大幅に改善することができることを示しています。彼らはまた、モデルベースの選択アプローチの重要性を説明し、それは現代のLLMにおいてモデルが以前のより確かな出力に戻ることを可能にする重要な要素です。

「大規模な言語モデルは本当に複雑な構造化データを生成するのに優れているのか？このAI論文では、Struc-Benchを紹介し、LLMの能力を評価し、構造に注意したFine-Tuningの解決策を提案します」

大規模言語モデル（LLM）は、他の自然言語処理のタスクとともに、テキスト生成のタスクで重要な進展を遂げています。生成能力の基本的な要素である、構造化データの生成能力は、以前の研究で大いに注目されてきました。しかし、LLMは、複雑な構造化出力を生成する能力において、依然として苦労しています。これは、自動レポート作成からコーディング支援まで、さまざまなアプリケーションにおいて重要なスキルです。さらに、LLMの構造化出力の能力を評価するための研究は、比較的少ないです。LLMの評価のほとんどは、自発的なテキストやコードの開発に焦点を当てています。これは、LLMがどれだけ複雑な構造化データを生成できるのかという問題を提起します。イェール大学、浙江大学、ニューヨーク大学、ETHチューリッヒの研究者たちは、このようなオープンな問いについて徹底的な分析を行い、それに取り組むことを目指しています。まず、LLMの複雑な構造化データの生成能力に関するより包括的な研究が必要です。これまでのLLMの評価は、関係の抽出、イベントの認識、名前付きエンティティの識別など、単純な情報抽出（IE）タスクに焦点を当てたものが主でした。この場合、IEタスクの目的は、抽出されたデータを整理された形で収集することです。以前の研究は、LLMに比べてタスク中心のアプローチでした。テキストからデータを生成するBARTやT5などの事前学習モデルを使用し、主な焦点はテキストからデータへの問題でした。次に、LLMのパフォーマンスを包括的に評価するための評価基準やメトリックが必要です。既存のベンチマークは、単語の重複などの単純な客観的メトリックを使用して、機械が生成したコンテンツが情報を適切に分類できるかどうかを評価しています。LLMが構造化された出力を提供できるかどうかを判断するためには、情報の形式も考慮すべきです。さらに、現在のLLMは、人間の自然言語の入力に正確に従い、正確な形式とエラーのないコンテンツを提供することができるのでしょうか？この研究は、文献のこれらのギャップを埋め、LLMが構造化された出力を生成するためのトレーニングデータセットと評価基準を向上させることを試みています。以下は、彼らの貢献のリストです：(1) 彼らはSTRUCBENCHと呼ばれるベンチマークを作成しました。このベンチマークは、生のテキスト、HTML、LaTeX形式の構造化テキストの生成に焦点を当てています。彼らはまた、有名なLLMの能力を注意深く評価し、内容の正確さ、フォーマット、数値推論、長いテーブルの管理の問題を特定しました。(2) 彼らは、構造化テキスト生成のベンチマークで有名なLLMを実証評価し、注目すべきデータセットを組み込み、さまざまな領域に拡大しました。これにより、一般的な誤りの種類と欠陥の次元についてより深い理解が得られました。彼らの結果は、GPT-3.5とGPT-4が正確な出力を提供するための支援が必要であり、問題は主に誤ったコンテンツ、不十分なフォーマット、数値推論スキルの不足、長いテーブルの管理能力の欠如によるものです。(3) 彼らは、これらの問題を解決するために、構造認識の指示調整を使用し、ChatGPTを使用してフォーマットの指示を作成した後、LLaMAモデルをトレーニングしてこれらのフォーマットに従うようにしました。視覚的および隠れたデータ上の良好な結果は、これがLLMの構造化された出力を提供する能力を大幅に向上させる可能性があることを示しています。

「大規模な言語モデルを使用した顧客調査フィードバック分析の強化」

はじめに顧客フィードバック分析の世界へようこそ。顧客の意見の未探索の富は、ビジネスの成功を形作ることができます。今日の激しい競争と大規模な言語モデルでは、顧客の思考を理解することは、もはや贅沢ではなく必要不可欠です。顧客フィードバック分析は、アートとサイエンスの両方であり、調査、レビュー、ソーシャルメディア、サポートのやり取りなど、さまざまなソースから実行可能な洞察を抽出するための方法論的なアプローチです。顧客のフィードバックが今まで以上に豊富に流れるデジタルの世界では、ビジネスはこの富にアクセスする方法を絶えず探し求めています。この記事では、AIと顧客フィードバック分析の融合を紹介し、自然言語処理（NLP）や機械学習などの技術が実行可能な洞察を抽出する方法を探ります。AIが顧客満足度向上とビジネスの成功に与える変革の可能性を明らかにします。AIと顧客体験最適化のシナジーを探求するこの啓蒙的な旅に参加してください。学習目標 AIの基礎： NLPや大規模な言語モデルなど、顧客フィードバック分析におけるAIの重要な概念を把握します。 AIの応用：調査、感情分析、フィードバックの分類、自動応答などでのAIの実用的な使用法を探り、その効率性を強調します。現実世界への影響：データ品質やプライバシーなどの顧客フィードバック分析におけるAIの課題と倫理的考慮事項を理解します。戦略的なAIの採用：フィードバック分析における意思決定、顧客志向、効率性、知能、革新を向上させるために、AIを戦略的に活用する方法を学びます。この記事はデータサイエンスブログマラソンの一部として公開されました。 AIの理解：簡潔な概要人工知能（AI）は、機械やシステムに人間のような知能を再現しようとする革命的な技術です。この簡潔な概要では、AIの核心的な概念と機能について洞察を提供します。人間の知能の模倣 AIは、データから学習し、パターンを認識し、意思決定を行い、通常は人間の認知を必要とするタスクを実行できるようにすることで、人間の知能をシミュレートすることを目指しています。これはアルゴリズムとデータの組み合わせによって行われます。アルゴリズムの役割アルゴリズム、つまり事前に定義されたルールと命令のセットがAIの基礎を形成しています。これらのアルゴリズムは、膨大な量のデータを処理し、相関関係を特定し、この情報を予測や意思決定に利用します。機械学習とディープラーニングは、データからの反復学習を通じてアルゴリズムのパフォーマンスを向上させるためのAIのサブセットです。データは燃料データはAIの命脈です。AIシステムがアクセスできる品質の高いデータが多ければ多いほど、パフォーマンスと精度が向上します。このデータには、テキスト、画像、音声など、AIシステムが分析または処理するために設計された情報の任意の形式が含まれます。 AIの種類 AIは、狭いまたは弱いAIと一般的または強いAIの2つの主要なタイプに分類されます。狭いAIは、言語翻訳や画像認識などの特定のタスク向けに設計されています。一方、一般的なAIは人間のような知能を持ち、人間の認知に類似した幅広いタスクを実行できます（ただし、このレベルのAIはまだ主に理論的なものです）。 AIの応用…

「大規模な言語モデルがコンパイラ最適化のメタAI研究者を驚かせる！」

「これは、LLMの明らかな不備についての論文だと思っていましたが、将来の賢いアイデアの動機づけとなるものとして役立つものです。しかし、私たちは非常に驚いたことに、十分に訓練されたLLMは、入力コードに最適な最適化を予測するだけでなく、コンパイラを使わずに直接最適化を行うことができることが多いことがわかりました！」。- Meta AIの研究者 Meta AIの研究者は、通常のコンパイラ（LLVMなど）が行うようなコードの最適化を、大規模な言語モデル（LLM）に行わせようとしていました。LLVMの最適化は非常に複雑であり、C++プログラミング言語で1百万行以上のコードに書かれた数千のルールとアルゴリズムがあります。彼らは、LLMがこのような複雑さに対応できるとは思っていませんでした。なぜなら、LLMは通常、言語の翻訳やコードの生成などのタスクに使用されるからです。コンパイラの最適化には、さまざまな種類の思考、数学、複雑な技法が必要であり、LLMが得意であるとは思っていませんでした。しかし、手法の後、結果は驚くべきものでした。上記の画像は、訓練と推論中にモデルの入力（プロンプト）と出力（回答）を示す方法論の概要を示しています。プロンプトには最適化されていないコードが含まれます。回答には最適化パスのリスト、命令の数、および最適化されたコードが含まれます。推論中、最適化パスのリストのみが生成され、それがコンパイラにフィードされ、最適化されたコードが正しいことを保証します。彼らのアプローチはシンプルで、スクラッチから初期化された70億パラメータの大規模言語モデル（LLM）アーキテクチャを使用します。モデルは、各アセンブリごとに検索プロセスを通じて決定された最適なコンパイラオプションと、それらの最適化を適用した結果のアセンブリコードとペアになった数百万のLLVMアセンブリの例から成る広範なデータセットで訓練されます。これらの例だけで、モデルは驚くほど精度の高いコードの最適化能力を獲得します。彼らの研究の注目すべき貢献は、LLMをコードの最適化のタスクに初めて適用したことにあります。彼らは、コンパイラの最適化に関して特に設計されたLLMが、2.5億回のコンパイルで5.0%の改善を達成する検索ベースのアプローチと比較して、単一のコンパイルで3.0%のコードサイズ削減を実現することを示しています。一方、最新の機械学習アプローチは回帰を引き起こし、数千回のコンパイルが必要です。研究者はまた、LLMがコードの推論における可能性と限界をより包括的に理解するための補足的な実験とコード例を提供しています。全体的に、彼らはこの文脈でのLLMの効果を非常に優れたものと見なし、その結果が広いコミュニティの関心を引くと考えています。

「大規模な言語モデルは、長い形式の質問応答においてどのようにパフォーマンスを発揮するのか？Salesforceの研究者によるLLMの頑健性と能力についての詳細な解説」

大規模な言語モデル（LLM）であるChatGPTやGPT-4は、いくつかのベンチマークでより優れたパフォーマンスを示していますが、MMLUやOpenLLMBoardなどのオープンソースプロジェクトも、さまざまなアプリケーションやベンチマークで追いつくことが急速に進んでいます。彼らの能力、制約、および区別を理解することは、新しいモデルや手法の急速な進歩が進むLLMの新時代においてますます重要になってきます。LLMは要約などのタスクで一貫したテキストを生成する能力を示していますが、LFQAでの実績についてはさらなる情報が必要です。まだ解決されていない重要な問題の1つは、長文の質問応答（LFQA）です。これには多くの現実世界の応用（サポートフォーラム、トラブルシューティング、カスタマーサービスなど）があります。このような質問に答えるためには、複雑な思考スキルが必要であり、質問を理解し、原稿全体に分散している内容を把握する必要があります。記事の主要なポイントは要約にまとめられます。これらの要約からの追加の質問は、ソース素材のさまざまなセクションを結び付ける主題のより良い理解を必要とすると仮定されています。また、他の研究者は、長い素材の3分の1以上の理解を必要とする応答は、人々からはしばしば「難しい」と評価されると示しています。 Salesforceの研究者は、巨大なLLMとより小さなが成功した基本的なLLM（Llama-7B、13Bなど）およびそれらの蒸留対応物（Alpaca-7B、13Bなど）の違いを比較し、対比するためのスケーラブルな評価手法を提案しています。これを行うために、彼らはChatGPTが明示的に指示され、要約から複雑な質問を作成するように指示します。彼らの実証的な研究は、要約から作成された追加の質問が、LLMの推論スキルを評価するための難しいがより現実的なセットアップを提供することを示しています（生成された質問の複雑さとオープンソースLLMの応答品質）。彼らはGPT-4を使用して、以前の作品の下での結束性、関連性、事実の一貫性、正確さに対する応答品質を決定します。これは、長文QAのために完全に人間のレビューに依存することは費用がかかり、スケーリングが困難であるためです。彼らはまた、より小規模な人間の評価を行い、GPT-4が人間の評価と強く相関することを示し、評価が信頼性のあるものであることを示しています。この研究からの主な結論は次のとおりです： • 抽象的な要約から質問を生成するために、文脈を複数回通過することで長い文脈からの推論を推奨します（時間の20％以上）。 • 蒸留対応のLLM（Alpaca-7B、13B）は、元のマテリアルから質問を生成する際には文脈に依存することが少ないですが、要約から質問を作成する能力は大幅に低下します。 • 要約から派生した質問に対して（16.8％以上）、蒸留対応のLLMによって生成された応答は文脈によって一貫している場合がありますが、しばしば主題から逸れ、冗長な回答を生成し、部分的に正確です。 • Alpaca-7Bと13Bは、基本的なLLM（Llama）よりも長い文脈（1024トークン以上）に対してより敏感であり、通常は理にかなった応答を生成します。

「言語モデルは放射線科を革新することができるのか？Radiology-Llama2に会ってみてください：指示調整というプロセスを通じて特化した大規模な言語モデル」

トランスフォーマーをベースとした大規模言語モデル（LLM）は、ChatGPTやGPT-4などを含むトランスフォーマーに基づく自然言語処理の驚異的な能力を示しています。トランスフォーマーをベースとしたNLPモデルの作成は、コンピュータビジョンやその他のモダリティでのトランスフォーマーをベースとしたモデルの設計と使用の進歩をもたらしました。2022年11月以来、LLMは臨床研究、薬局、放射線学、アルツハイマー病、農業、脳科学研究などで広く利用されており、多様な特性と広範な評価に触発されています。しかし、医療などの専門分野ではまだ広く採用されていません。まず、プライバシー法のため、病院はChatGPTやGPT-4のような商用モデルとデータを交換またはアップロードすることができません。そのため、現実の医療にはローカライズされた大規模言語モデルが必要です。広範なドメイン（ChatGPT、GPT-4、PaLM 2など）でトレーニングされたLLMでは、放射線学などの専門分野でより多くの医学的専門知識が必要です。また、Radiology-Llama2などのモデルは、放射線科医の話し方を正確に模倣していますが、ChatGPTのようなモデルは、ウィキペディアに似た詳細な回答を提供するため、実際の放射線科医が使用する明確でわかりやすい言語とは異なり、情報伝達を高速化させます。最後に、その研究は、各医師の好みに合ったカスタマイズされた放射線学的助手の道を開拓します。放射線学において臨床的に有意義なドメインデータで適切にトレーニングされたモデルが必要です。Radiology-Llama2は、結果から放射線学的な印象を提供するために指示チューニングによって放射線学に調整されたLLMで、研究によると、生成された印象の一貫性、簡潔さ、臨床的な有用性において標準的なLLMを上回っています。・最先端のパフォーマンス：MIMIC-CXRデータセットとOpenIデータセットで、臨床的な印象を生成するための他の言語モデルをすべて上回り、新たな基準を設定します。・柔軟性とダイナミズム：BERTベースの競合他社とは異なり、放射線学的なLlama2は特定の入力構造に制約されず、より広範な入力と複雑な推論などさまざまな放射線学的なタスクに対して柔軟性を提供します。・会話能力を備えた臨床的な使いやすさ：生成型LLMには、クエリに応答し、人間らしい文脈情報を提供する会話能力が組み込まれています。これにより、診断と報告が改善され、Radiology-Llama2は臨床的な状況で医療従事者に非常に役立ちます。図1はRadiology-Llama2の全体的な構造を示しています適切に構築されたローカライズされたLLMは、Radiology-Llama2によって示されるように、放射線学を革新する可能性があります。適切に規制されれば、臨床的な意思決定支援など、さまざまな用途において非常に有望です。この調査の結果は、追加の医療専門分野での専門化されたLLMの可能性を開くものです。結論として、Radiology-Llama2は医学におけるLLMの使用における重要な進歩です。モデルの構築と評価に関する継続的な研究により、このような専門化されたLLMは医療AIの進歩を促進することができます。

マルチAIの協力により、大規模な言語モデルの推論と事実の正確さが向上します

研究者は、相互協力、議論、および推論能力の向上を図るために複数のAIモデルを使用し、LLMの性能を向上させながら、責任と事実の正確性を高めています

大規模な言語モデルは本当に数学をできるのか？この人工知能AIの研究はMathGLMを紹介します：計算機なしで数学問題を解くための頑健なモデル

下流の自然言語処理（NLP）タスクにおいて、大規模言語モデル（LLMs）は非常に効果的であることが証明されています。GPT4やChatGPTなどの先駆的なモデルは、膨大な量のテキストデータで訓練され、一貫した文脈に即した応答を生成する能力を持っています。彼らのテキストの理解と生成能力により、彼らは幅広いNLPアプリケーションで非常に柔軟に使用できます。LLMsは、８桁以上の数字の掛け算や小数や分数を含む演算を正確に行うのに難しさを抱えていると一般的に考えられています。GPT-4は、さまざまなNLPタスクにおいて優れた能力を示していますが、数学的思考において同じ程度の熟練度を示すことはないかもしれません。清華大学、TAL AI Lab、Zhipu.AIの研究者は、これらの誤った信念を払拭するために、LLMsの数学的スキルについて調査しています。彼らの最近の研究では、困難な算術演算を実行するために慎重に構築されたロバストなモデルであるMathGLMを提案しています。MathGLMは、GPT-4などの業界をリードするLLMsと比較して最高のパフォーマンスを実現しています。加算、減算、乗算、除算、冪乗などはすべて算術演算の例であり、括弧を使用して複数の種類の算術を組み合わせることも算術演算の一部です。彼らは「1つの原子操作」手順を実行し、他の手順と統合せずに単独で実行します。特に注目すべきは、MathGLMが整数、小数、分数、パーセンテージ、さらには負の数など、あらゆる数値型で算術演算を容易に実行できることです。 Ape210Kデータセットは、インターネット上から数学の問題を収集し、数学的な難しさの包括的な情報源を提供しています。このデータセットはMathGLMのトレーニングに役立ちます。オリジナルのデータセットは、明示的に計算された回答が含まれているという点でユニークです。しかし、チームは、MathGLMの回答のシンプルさによる重要な計算原則やパターンの認識の失敗の可能性があると指摘しています。研究者たちは、ステップバイステップのアプローチを使用してApe210Kデータセットを再構築し、この可能性のある欠点を克服し、MathGLMの数学的な問題解決能力を向上させます。MathGLMは、複雑な算術計算プロセスを一連の連続的なフェーズに分解することで、数学の問題の回答を高い精度で作成できます。広範な試験と詳細な分析により、MathGLMはGPT-4よりも優れた数学的な推論能力を持つことが示されました。オリジナルのデータセットでのファインチューニングと比較して、MathGLMの回答の正確さは42.29%の絶対的な向上を達成します。GLM-10Bからファインチューニングされた後、MathGLMは5,000件の数学の問題データセットでGPT-4に非常に近いパフォーマンスを発揮します。算術ワード問題を構成要素のステップに分解することで、MathGLMは複雑な計算プロセスを完全に理解し、基礎となる計算ルールを学び、より信頼性の高い結果を生み出すことができます。これらの研究結果は、LLMsが困難な算術タスクを処理できないという従来の常識に大きな挑戦を与え、彼らの数学的思考能力の非凡な能力を明らかにします。

テキストから音声へ – 大規模な言語モデルのトレーニング

はじめに音楽家の声コマンドをAIが受け取り、美しいメロディックなギターサウンドに変換する世界を想像してみてください。これはSFではありません。オープンソースコミュニティでの画期的な研究「The Sound of AI」の成果です。本記事では、「テキストからサウンドへ」というジェネレーティブAIギターサウンドの範囲内で、「ミュージシャンの意図認識」のための大規模言語モデル（LLM）の作成の道のりを探求します。このビジョンを実現するために直面した課題と革新的な解決策についても議論します。学習目標：「テキストからサウンド」のドメインでの大規模言語モデルの作成における課題と革新的な解決策を理解する。声コマンドに基づいてギターサウンドを生成するAIモデルの開発において直面する主な課題を探求する。 ChatGPTやQLoRAモデルなどのAIの進歩を活用した将来のアプローチについて、ジェネレーティブAIの改善に関する洞察を得る。問題の明確化：ミュージシャンの意図認識問題は、AIが音楽家の声コマンドに基づいてギターサウンドを生成できるようにすることでした。例えば、音楽家が「明るいギターサウンドを出してください」と言った場合、ジェネレーティブAIモデルは明るいギターサウンドを生成する意図を理解する必要があります。これには文脈とドメイン特有の理解が必要であり、一般的な言語では「明るい」という言葉には異なる意味がありますが、音楽のドメインでは特定の音色の品質を表します。データセットの課題と解決策大規模言語モデルのトレーニングには、モデルの入力と望ましい出力に一致するデータセットが必要です。ミュージシャンのコマンドを理解し、適切なギターサウンドで応答するために、適切なデータセットを見つける際にいくつかの問題が発生しました。以下に、これらの問題の対処方法を示します。課題1：ギターミュージックドメインのデータセットの準備最初の大きな課題は、ギターミュージックに特化したデータセットが容易に入手できないことでした。これを克服するために、チームは独自のデータセットを作成する必要がありました。このデータセットには、音楽家がギターサウンドについて話し合う会話が含まれる必要がありました。Redditの議論などのソースを利用しましたが、データプールを拡大する必要があると判断しました。データ拡張、BiLSTMディープラーニングモデルの使用、コンテキストベースの拡張データセットの生成などの技術を使用しました。課題2：データの注釈付けとラベル付きデータセットの作成 2番目の課題は、データの注釈付けを行い、ラベル付きのデータセットを作成することでした。ChatGPTなどの大規模言語モデルは一般的なデータセットでトレーニングされることが多く、ドメイン固有のタスクに対してファインチューニングが必要です。例えば、「明るい」という言葉は、光や音楽の品質を指す場合があります。チームは、正しい文脈をモデルに教えるために、Doccanoという注釈付けツールを使用しました。ミュージシャンは楽器や音色の品質に関するラベルをデータに注釈付けしました。ドメインの専門知識が必要であるため、注釈付けは困難でしたが、チームはデータを自動的にラベル付けするためにアクティブラーニングの手法を一部適用し、これに対処しました。課題3：MLタスクとしてのモデリング – NERアプローチ適切なモデリングアプローチを決定することもまた、別のハードルでした。トピックまたはエンティティの識別として見るべきでしょうか？チームは、モデルが音楽に関連するエンティティを識別して抽出できるNamed Entity Recognition（NER）を採用しました。spaCyの自然言語処理パイプライン、HuggingFaceのRoBERTaなどのトランスフォーマーモデルを活用しました。このアプローチにより、ジェネレーティブAIは音楽のドメインにおける「明るい」や「ギター」といった単語の文脈を認識できるようになりました。モデルトレーニングの課題と解決策…

Learn more about Search Results 大規模な言語モデル - Page 4