「機械学習システムの技術的負債の管理」

機械学習システムの技術的負債の管理

持続可能な迅速な配信のコストを軽減するための実装コードを探索する

機械学習(ML)コミュニティが年々進化するにつれて、MLプロジェクトの開発に利用できるリソースは豊富になっています。たとえば、データの前処理や基本的な予測タスクには、NumPy、SciPy、matplotlibに基づいた一般的なPythonパッケージであるscikit-learnを利用することができます。また、さまざまな種類のデータセットを分析するための事前学習済みモデルのオープンソースコレクションをHugging Faceから活用することもできます。これらは、現在のデータサイエンティストが標準的なMLタスクを迅速かつ容易に処理しながら、適度に良いモデルのパフォーマンスを実現するのに役立っています。

しかし、MLツールの豊富さは、ビジネスステークホルダーや実践者さえも、エンタープライズレベルのMLシステムの構築に必要な労力を過小評価する原因となることがしばしばあります。特に締め切りが厳しいプロジェクトに直面した場合、チームは十分な技術的な考慮を行わずにシステムを本番環境に展開することがあります。その結果、MLシステムはしばしば技術的に持続可能かつ保守可能な方法でビジネスニーズに対応していない状態となってしまいます。

システムが進化し、時間の経過とともに展開されるにつれて、技術的な負債が蓄積されます — 暗黙のコストが放置されるほど、それを修正するためのコストはより高くなります。

Photo by Andrea De Santis on Unsplash

MLシステムには、技術的な負債の複数の要因があります。以下にいくつかを挙げます。

#1 予期しない要件に対応するための柔軟性のないコード設計

MLが取り組むべきエンタープライズの課題に対処できるかを検証するために、多くのMLプロジェクトは概念実証(PoC)から始まります。まず、データを探索するためにJupyter NotebookやGoogle Colabの環境を作成し、その後いくつかのアドホックな関数を開発し、ステークホルダーにプロジェクトがほぼ完了したような錯覚を与えます。しかし、PoCから直接システムを構築すると、主に「接着剤コード」と呼ばれる、特定の互換性のないコンポーネントを接続するためのサポートコードが主体となることがあります。これらのコードはスパゲッティのようで、保守が困難でエラーの発生しやすいものとなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

適切なバランスを取る:機械学習モデルにおける過学習と過小適合の理解

機械学習の問題に取り組むすべての人は、自分のモデルができるだけ最適に動作することを望んでいますしかし、望むほどモデル...

データサイエンス

アマゾンの研究者は、深層学習を活用して複雑な表形式のデータ分析におけるニューラルネットワークを強化します

ニューラルネットワークは、異質なカラムを持つ表形式のデータに直面するときに、現代計算の驚異として、重要なハードルに直...

データサイエンス

オープンAIによるこの動きは、AGIへの道を開くだろう

人工知能(AI)の能力向上を目指した画期的な取り組みの一環として、OpenAIはデータパートナーシップイニシアチブを発表しま...

機械学習

レオナルドAI:Midjourneyの新たな競合相手

レオナルドAIは、ミッドジャーニーがこれまで築いてきた地位に挑戦する注目すべき代替手段として徐々に浮上しています

人工知能

「生成型AIのGPT-3.5からGPT-4への移行の道程」

導入 生成型人工知能(AI)領域におけるGPT-3.5からGPT-4への移行は、言語生成と理解の分野での飛躍的な進化を示しています。...

データサイエンス

ChatGPTの応用:産業全体におけるポテンシャルの開放

チャットGPTの応用は、仕事や家庭のあらゆる分野で私たちの生活を変えつつありますしかし、どのようにビジネスはそれを成長に...