「機械学習モデルを展開する」とはどういう意味ですか?
「機械学習モデルを展開する」とは何を意味しますか?
データサイエンスは、ますます多くの企業を引き付け続ける有望な分野ですが、産業化プロセスに統合されるのに苦労しています。ほとんどの場合、機械学習(ML)モデルは、科学的な研究の文脈でオフラインで実装されます。作成されたモデルのほぼ90%は、実際のプロダクション条件で展開されることはありません。展開は、MLモデルが既存のプロダクション環境に統合され、効果的なデータ駆動型のビジネスの意思決定を実現するプロセスと定義できます。これは、機械学習ライフサイクルの最後の段階の1つです。ただし、近年、MLは純粋な学術研究分野から実際のビジネスの課題に対応できるものに進化してきました。ただし、運用システムで機械学習モデルを使用する際には、さまざまな問題や懸念があるかもしれません。
プロダクション環境でMLモデルを定義するためのいくつかのアプローチがありますが、その範囲によって異なる利点があります。ほとんどのデータサイエンティストは、モデルの展開はソフトウェアエンジニアリングのミッションであり、日常の業務により密接に関連しているため、ソフトウェアエンジニアによって処理されるべきだと考えています。
KubeflowやTFXなどのツールは、モデルの展開プロセス全体を説明することができ、データサイエンティストはこれらを使用するべきです。Dataflowなどのツールを使用することで、エンジニアリングチームとの密接な連携が可能になります。展開前にデータパイプラインの一部をテストすることができるステージング環境を設定することもできます。
- 機械学習の簡素化と標準化のためのトップツール
- AIHelperBotとの出会い 秒単位でSQLクエリを構築する人工知能(AI)ベースのSQLエキスパート
- 「人間によるガイド付きAIフレームワークが、新しい環境でのロボットの学習を迅速化することを約束します」
展開プロセスは、主に以下の4つのステップに分けることができます:
1) データパイプラインの準備と構成
最初のタスクは、データパイプラインが効率的に構造化され、関連性の高い高品質なデータを提供できるようにすることです。展開後にデータパイプラインとモデルをどのようにスケーリングするかを決定することが重要です。
2) 関連する外部データへのアクセス
プロダクション用の予測モデルを展開する際には、可能な限り最適なデータを最適なソースから使用することに注意する必要があります。注意深く設計されたモデルでも、台無しのモデルは役に立ちません。また、この課題の別の要素は、頑健で一般化可能なモデルを得るために適切な歴史データを収集することです。一部の企業は必要なデータをすべて内部で収集していますが、完全な文脈と視点を持つためには、外部データソースも含めることを検討してください。
3) 効果的なテストとトレーニングの自動化ツールの構築
予測モデルを展開する前に、厳格で妥協のないテストとトレーニングが必要ですが、時間がかかる場合があります。したがって、遅延を避けるために可能な限り自動化する必要があります。時間を節約するトリックやツールに取り組むだけでなく、エンジニアの努力や手動操作なしで機能するモデルを作成する必要があります。
4) 頑健な監視、監査、および再利用プロトコルの計画と設計
MLモデルを展開および実行する前に、実際に期待されるタイプの結果を生成するかどうかを確認する必要があります。これらの結果が正確であり、モデルに提供されるデータがこれらのモデルを一貫して有用で関連性のあるものに維持することが確認されなければなりません。また、古い弱いデータは正確な結果につながる可能性があります。
機械学習の実験を詳細に見ると、これらは時間の経過に伴って変化することのない、つまり、モデルのトレーニングに関連するデータはしばしば固定されていることに気付きます。言い換えれば、このデータは変化せず、または実験中にほとんど変化しません。この場合、クローズドモデルと言います。実世界の条件では、モデルは作成時に使用したものとはかなり異なる新しいデータに常に遭遇します。したがって、モデルが引き続き学習し、パラメータを更新し続けることが重要です。新しいデータを使用してモデルを迅速かつ簡単に再トレーニングすることが興味深いです。モデルの再トレーニングとは、元のモデルとは異なる特性を持つ新しいモデルを開発することを指します。このモデルを再展開して新しい機能を活用することが重要です。
結論として、MLモデルの展開は、MLモデルの使用と活用に関連するすべての懸念を徹底的に理解することが成功するためには必要です。1人の個人が以下の必要な才能をすべて備えていることは非常に珍しいです:
- 企業のニーズを理解すること
- MLモデルを作成すること
- モデルを産業化すること
- バッチまたはリアルタイムでデータを収集すること
- データに展開されたモデルを使用すること
したがって、データエンジニア、ソフトウェアエンジニア、データサイエンティストの協力は不可欠です。
まとめると、データサイエンスプロジェクトの成功は、必要な才能の多様性と各チームの問題の徹底的な理解に大きく影響を受けます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「DifFaceに会ってください:盲目の顔の修復のための新しい深層学習拡散モデル」
- 「トップの画像処理Pythonライブラリ」
- このAI論文は、周波数領域での差分プライバシーを利用したプライバシー保護顔認識手法を提案しています
- 「Baichuan-13Bに会いましょう:中国のオープンソースの大規模言語モデル、OpenAIに対抗する」
- スタビリティAIチームが、新しいオープンアクセスの大規模言語モデル(LLM)であるFreeWilly1とFreeWilly2を紹介します
- 「ラマ-2、GPT-4、またはクロード-2;どの人工知能言語モデルが最も優れているのか?」
- 「ミット、ハーバード、ノースイースタン大学による『山に針を見つける』イニシアチブは、Sparse Probingを用いてニューロンを見つける」