このAI研究は、ITオペレーション向けの新しい大規模言語モデルであるOwlを紹介します

This AI research introduces Owl, a new large-scale language model for IT operations.

自然言語処理(NLP)と人工知能(AI)の絶え間なく進化する風景の中で、大規模言語モデル(LLM)は、さまざまなNLPのタスクで驚くべき能力を示す強力なツールとして登場しました。しかし、現在のモデルには、ITオペレーションに特化した大規模言語モデル(LLM)が不足しているという重要なギャップがあります。このギャップは、この分野を特徴付ける独自の用語、手続き、文脈の複雑さによって課題が生じます。その結果、ITオペレーション内の複雑さを効果的にナビゲートし、対処するための専門のLLMを作成するという緊急の必要性が浮かび上がります。

ITの分野において、NLPとLLMの技術の重要性はますます高まっています。情報セキュリティ、システムアーキテクチャ、および他のITオペレーションの側面に関連するタスクには、ドメイン固有の知識と用語が必要です。従来のNLPモデルは、ITオペレーションの微妙なニュアンスを解読するのに苦労することがよくあり、専門の言語モデルへの需要が高まっています。

この課題に対処するために、研究チームはITオペレーションに特化した大規模言語モデル「Owl」を導入しました。この専門のLLMは、「Owl-Instruct」という注意深くキュレーションされたデータセットでトレーニングされており、情報セキュリティ、システムアーキテクチャなど、さまざまなIT関連のドメインをカバーしています。目標は、OwlにIT関連のタスクで優れた成績を収めるために必要なドメイン固有の知識を装備することです。

研究者たちは、OwlをOwl-Instructデータセットで自己指導戦略を実装してトレーニングしました。このアプローチにより、モデルはシングルターンとマルチターンのシナリオの両方をカバーする多様な指示を生成することができます。モデルのパフォーマンスを評価するために、チームは「Owl-Bench」というベンチマークデータセットを導入しました。これには、9つの異なるITオペレーションドメインが含まれています。

彼らは、タスク固有およびドメイン固有の表現を許可する「アダプタの混合」戦略を提案し、教師ありの微調整を容易にすることでモデルのパフォーマンスをさらに向上させました。TopK(·)は、すべてのLoRAアダプタの選択確率を計算し、確率分布に従って上位kのLoRAエキスパートを選択する選択関数です。アダプタの混合戦略は、トップkのエキスパートを活性化することによって、異なる入力文に対して言語感度のある表現を学習することです。

トレーニングデータの不足にもかかわらず、OwlはRandIndexで0.886、最高のF1スコアで0.894の比較可能なパフォーマンスを達成しています。RandIndexの比較の文脈では、Owlはドメイン内のログに広範にトレーニングされたLogStampと対比して、わずかなパフォーマンスの低下を示します。細かいレベルのF1比較の領域では、Owlは他のベースラインを大幅に上回り、以前に見たことのないログ内の変数を正確に識別する能力を示します。特筆すべきは、logPromptの基礎モデルはChatGPTであるということです。同一の基本設定の下でChatGPTと比較した場合、Owlはこのタスクで優れたパフォーマンスを発揮し、オペレーションとメンテナンスの領域で大規模モデルの堅牢な汎化能力を強調しています。

結論として、OwlはITオペレーションの領域における画期的な進歩を表しています。多様なデータセットで綿密にトレーニングされ、IT関連のベンチマークで厳密に評価された専門の大規模言語モデルです。この専門のLLMは、ITオペレーションの管理と理解の方法を革新します。研究者の業績は、ドメイン固有のLLMの需要に対応するだけでなく、効率的なITデータ管理と分析のための新たな可能性を開拓し、最終的にはITオペレーション管理の分野を前進させます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

機械学習

Google AIは、アーキテクチャシミュレータにさまざまな種類の検索アルゴリズムを接続するための、マシンラーニングのためのオープンソースのジム「ArchGym」を紹介しました

コンピュータアーキテクチャの研究は、コンピュータシステムの設計を評価および影響するためのシミュレータやツールを生み出...

AI研究

清華大学の研究者たちは、潜在意味モデル(LCM)を提案しました:潜在拡散モデル(LDM)の次世代の生成AIモデル

“`HTML 潜在的な一貫性モデル(LCMs)は、潜在空間で拡張確率流ODEソリューションを直接予測することにより、高解像度の...

データサイエンス

「3歳のロボットの子育て」

カーネギーメロン大学とMeta AIの研究者によって開発されたオープンソースのAIエージェントは、ロボットに3歳の子供と同等の...

機械学習

このAI論文は、'リラックス:エンドツーエンドの動的機械学習ワークロードの最適化のためのコンパイラの抽象化'を紹介しています

動的な形状を持つ機械学習モデルの最適化は、より優れたパフォーマンスと柔軟性を実現するために重要です。動的な形状とは、...

AIニュース

「ショートGPTと出会おう:コンテンツ作成の自動化とビデオ制作プロセスの効率化のためのパワフルなAIフレームワーク」

デジタルコンテンツ制作のスピードが速い世界では、効率性と創造性が重要です。ShortGPTは、コンテンツ制作を自動化し、ビデ...