「Pantsを使用してMachine LearningのMonorepoを整理する」

Organizing Machine Learning Monorepo using Pants

MLOps

MLワークフロー管理の効率化

プロジェクト間でユーティリティコードの断片をコピー&ペーストしたことがありますか?それにより、同じコードの複数のバージョンが異なるリポジトリに存在することになりましたか?または、データを保存するGCPバケットの名前が更新された後、数十のプロジェクトにプルリクエストを作成する必要がありましたか?

上記のような状況は、MLチームでは非常に頻繁に発生し、その結果は、単一の開発者の迷惑からコードを必要なように出荷することができないチームの無力化まで様々です。幸いなことに、それには対処する方法があります。

まず、Googleなどの主要なテック企業で広く採用されているモノリポスの世界に飛び込んでみましょう。モノリポスは、いくつかの欠点があるにもかかわらず、複雑な機械学習エコシステムを管理するための魅力的な選択肢となる、多くの利点を提供しています。

モノリポスの利点と欠点について簡単に議論し、なぜそれが機械学習チームにとって優れたアーキテクチャの選択肢であるかを調べ、ビッグテックがそれをどのように使用しているかをのぞいてみましょう。最後に、パンツビルドシステムの力を活用して、機械学習モノリポを堅牢なCI/CDビルドシステムに組織する方法を見ていきます。

さあ、MLプロジェクト管理を効率化するための旅に出発しましょう。

この記事は、neptune.aiブログで最初に公開されました。

モノリポとは何ですか?

Machine Learning Monorepo. Image by the author, via neptune.ai.

モノリポ(モノリシックリポジトリの略)は、多数のプロジェクトのコードが同じリポジトリに格納されるソフトウェア開発戦略です。このアイデアは、様々なプログラミング言語で書かれた全社コードが一緒に保存されるという広義のもの(Googleと言った誰かが言ったのではありませんか?)から、小規模なチームによって開発されたいくつかのPythonプロジェクトが1つのリポジトリに統合されるという狭義のものまで、幅広いものとなります。

このブログ記事では、機械学習コードを保存するリポジトリに焦点を当てています。

モノリポ vs. ポリリポ

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

スタンフォード大学の研究は、PointOdysseyを紹介します:長期ポイント追跡のための大規模な合成データセット

大規模な注釈付きデータセットは、さまざまなコンピュータビジョンタスクで正確なモデルを作成するためのハイウェイとして機...

データサイエンス

分散システム設計におけるコンセンサスアルゴリズムの役割の探索

この記事では、信頼性、データの一貫性、および耐障害性を確保する責任を負う人々の重要性と役割について探求します

機械学習

「SIEM-SOAR インテグレーションによる次世代の脅威ハンティング技術」

NLP、AI、およびMLは、データ処理の効率化、自動化されたインシデント処理、コンプライアンス、および積極的な脅威検知を通じ...

機械学習

「トランスフォーマーアーキテクチャとBERT、GPT、T5の台頭:初心者向けガイド」

「人工知能(AI)の広大で絶えず進化する領域において、印象を残すだけでなく、その全体の軌道を再定義する革新が存在します...

データサイエンス

なぜディープラーニングは常に配列データ上で行われるのか?新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

暗黙のニューラル表現(INR)またはニューラルフィールドは、3D座標を3D空間の色と密度の値にマッピングすることによって、3D...

機械学習

「大規模言語モデルの微調整方法:ステップバイステップガイド」

2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル(LLM)の台頭は、人工知能の民主化の傾向を示し...