「データバージョンコントロール入門」

Introduction to Data Version Control

PYTHON | データ | プログラミング

Hangarを使用してPythonで独自のDVCを実装するステップバイステップガイド

Florian Olivo氏による写真

データバージョンコントロール(DVC)とは何ですか?

どんな本番レベルのシステムにも、ある種のバージョン管理が必要です。

一つの最新の真実の情報源。

特に複数のユーザーによって同時に連続して更新されるリソースは、すべての変更を追跡するための監査トレイルのようなものが必要です。

ソフトウェアエンジニアリングでは、これに対する解決策としてGitがあります。

人生でコードを書いたことがあれば、Gitの美しさについてはおそらく知っているでしょう。

Gitによって、変更をコミットしたり、ソースから異なるブランチを作成したり、ブランチを元のブランチにマージしたりすることができます。

DVCは、データセットのためのまさに同じパラダイムです。つまり、ライブデータシステムでは、異なるユーザーが同じデータセット上で異なる実験を行いながら、新しいデータポイントが継続的に取り込まれます。

これにより、同じデータセットの複数のバージョンが生じますが、これは明らかに一つの真実の情報源ではありません。

さらに、機械学習環境では、同じデータセットの異なるバージョンでトレーニングされた同じ「モデル」の複数のバージョンもあります(たとえば、新しいデータポイントを含めるためのモデル再トレーニングなど)。

適切に監査およびバージョン管理されていない場合、これはデータセットと実験の入り組んだウェブを作成することになります。それは私たちが望むものではありません!

したがって、DVCは、特定のデータセットの変更を登録することでデータセットを追跡するシステムです。無料および有料の複数のDVCソリューションがあります。

最近、完全にオープンソースのPython DVCパッケージであるHangarを発見しました。それが何ができるか見てみましょう。

Hangarを使った作業

hangarパッケージは純粋なPythonの実装であり、pipを通じて利用できます。

そのコア機能はgitにも密接に開発されており、学習曲線を大いに助けています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more