「機械学習モデルを展開する」とはどういう意味ですか?

「機械学習モデルを展開する」とは何を意味しますか?

データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています。ほとんどの場合、機械学習(ML)モデルは、科学的な研究の文脈でオフラインで実装されます。作成されたモデルのほぼ90%は、実際のプロダクション条件で展開されることはありません。展開は、MLモデルが既存のプロダクション環境に統合され、効果的なデータ駆動型のビジネスの意思決定を実現するプロセスと定義できます。これは、機械学習ライフサイクルの最後の段階の1つです。ただし、近年、MLは純粋な学術研究分野から実際のビジネスの課題に対応できるものに進化してきました。ただし、運用システムで機械学習モデルを使用する際には、さまざまな問題や懸念があるかもしれません。

プロダクション環境でMLモデルを定義するためのいくつかのアプローチがありますが、その範囲によって異なる利点があります。ほとんどのデータサイエンティストは、モデルの展開はソフトウェアエンジニアリングのミッションであり、日常の業務により密接に関連しているため、ソフトウェアエンジニアによって処理されるべきだと考えています。

KubeflowやTFXなどのツールは、モデルの展開プロセス全体を説明することができ、データサイエンティストはこれらを使用するべきです。Dataflowなどのツールを使用することで、エンジニアリングチームとの密接な連携が可能になります。展開前にデータパイプラインの一部をテストすることができるステージング環境を設定することもできます。

展開プロセスは、主に以下の4つのステップに分けることができます:

1) データパイプラインの準備と構成

最初のタスクは、データパイプラインが効率的に構造化され、関連性の高い高品質なデータを提供できるようにすることです。展開後にデータパイプラインとモデルをどのようにスケーリングするかを決定することが重要です。

2) 関連する外部データへのアクセス

プロダクション用の予測モデルを展開する際には、可能な限り最適なデータを最適なソースから使用することに注意する必要があります。注意深く設計されたモデルでも、台無しのモデルは役に立ちません。また、この課題の別の要素は、頑健で一般化可能なモデルを得るために適切な歴史データを収集することです。一部の企業は必要なデータをすべて内部で収集していますが、完全な文脈と視点を持つためには、外部データソースも含めることを検討してください。

3) 効果的なテストとトレーニングの自動化ツールの構築

予測モデルを展開する前に、厳格で妥協のないテストとトレーニングが必要ですが、時間がかかる場合があります。したがって、遅延を避けるために可能な限り自動化する必要があります。時間を節約するトリックやツールに取り組むだけでなく、エンジニアの努力や手動操作なしで機能するモデルを作成する必要があります。

4) 頑健な監視、監査、および再利用プロトコルの計画と設計

MLモデルを展開および実行する前に、実際に期待されるタイプの結果を生成するかどうかを確認する必要があります。これらの結果が正確であり、モデルに提供されるデータがこれらのモデルを一貫して有用で関連性のあるものに維持することが確認されなければなりません。また、古い弱いデータは正確な結果につながる可能性があります。

機械学習の実験を詳細に見ると、これらは時間の経過に伴って変化することのない、つまり、モデルのトレーニングに関連するデータはしばしば固定されていることに気付きます。言い換えれば、このデータは変化せず、または実験中にほとんど変化しません。この場合、クローズドモデルと言います。実世界の条件では、モデルは作成時に使用したものとはかなり異なる新しいデータに常に遭遇します。したがって、モデルが引き続き学習し、パラメータを更新し続けることが重要です。新しいデータを使用してモデルを迅速かつ簡単に再トレーニングすることが興味深いです。モデルの再トレーニングとは、元のモデルとは異なる特性を持つ新しいモデルを開発することを指します。このモデルを再展開して新しい機能を活用することが重要です。

結論として、MLモデルの展開は、MLモデルの使用と活用に関連するすべての懸念を徹底的に理解することが成功するためには必要です。1人の個人が以下の必要な才能をすべて備えていることは非常に珍しいです:

  • 企業のニーズを理解すること
  • MLモデルを作成すること
  • モデルを産業化すること
  • バッチまたはリアルタイムでデータを収集すること
  • データに展開されたモデルを使用すること

したがって、データエンジニア、ソフトウェアエンジニア、データサイエンティストの協力は不可欠です。

まとめると、データサイエンスプロジェクトの成功は、必要な才能の多様性と各チームの問題の徹底的な理解に大きく影響を受けます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

生成AIにおけるプロンプトエンジニアリングの基本原則

導入 この記事では、生成型AIにおけるChatGPTプロンプトエンジニアリングについて説明します。ChatGPTは2022年11月以来、技術...

人工知能

PaaS4GenAI Oracle Integration CloudからIBM Cloudプラットフォーム上のGenerative AI (WatsonX)との接続

「オラクル統合クラウドとIBMクラウドプラットフォーム上のGenerative AI WatsonXを活用したマルチクラウド接続のソリューシ...

機械学習

ロボットスキル合成のための言語から報酬への変換

Googleの研究科学者、Wenhao YuとFei Xiaによる投稿 エンドユーザーがロボットに新しいタスクを教えるためのインタラクティブ...

AI研究

「このAI研究は、深層学習と進化アルゴリズムを用いて、シリコンMach-Zehnderモジュレータの設計を革新します」

NetflixやIoTの人気や分散コンピューティングおよびストレージアーキテクチャへの移行により、ネットワークの伝送容量要件が...

データサイエンス

「すべてのオンライン投稿は、AIの所有物です」とGoogleが発表

Googleは最近のプライバシーポリシーの更新において、その強力なAIツールでよく知られていることから注目される注目すべき変...

AIニュース

「2023年のAI タイムライン」

はじめに 人工知能(AI)は、技術的な進歩が人間のつながりの本質と共鳴する形で私たちの日常生活と交差する魅力的な領域です...