「データバージョンコントロール入門」
Introduction to Data Version Control
PYTHON | データ | プログラミング
Hangarを使用してPythonで独自のDVCを実装するステップバイステップガイド
データバージョンコントロール(DVC)とは何ですか?
どんな本番レベルのシステムにも、ある種のバージョン管理が必要です。
一つの最新の真実の情報源。
特に複数のユーザーによって同時に連続して更新されるリソースは、すべての変更を追跡するための監査トレイルのようなものが必要です。
ソフトウェアエンジニアリングでは、これに対する解決策としてGitがあります。
- データサイエンスは変わった、死んだわけではありません!
- 「Transformerの簡略化:あなたが理解する言葉を使った最先端のNLP — part 3 — アテンション」
- 「非構造化データ内のデータスライスの検出」 翻訳結果は以下の通りです: 「非構造化データ内でデータスライスを見つける」
人生でコードを書いたことがあれば、Gitの美しさについてはおそらく知っているでしょう。
Gitによって、変更をコミットしたり、ソースから異なるブランチを作成したり、ブランチを元のブランチにマージしたりすることができます。
DVCは、データセットのためのまさに同じパラダイムです。つまり、ライブデータシステムでは、異なるユーザーが同じデータセット上で異なる実験を行いながら、新しいデータポイントが継続的に取り込まれます。
これにより、同じデータセットの複数のバージョンが生じますが、これは明らかに一つの真実の情報源ではありません。
さらに、機械学習環境では、同じデータセットの異なるバージョンでトレーニングされた同じ「モデル」の複数のバージョンもあります(たとえば、新しいデータポイントを含めるためのモデル再トレーニングなど)。
適切に監査およびバージョン管理されていない場合、これはデータセットと実験の入り組んだウェブを作成することになります。それは私たちが望むものではありません!
したがって、DVCは、特定のデータセットの変更を登録することでデータセットを追跡するシステムです。無料および有料の複数のDVCソリューションがあります。
最近、完全にオープンソースのPython DVCパッケージであるHangarを発見しました。それが何ができるか見てみましょう。
Hangarを使った作業
hangarパッケージは純粋なPythonの実装であり、pipを通じて利用できます。
そのコア機能はgitにも密接に開発されており、学習曲線を大いに助けています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「グラフデータベースを使用してリアルタイムの推薦エンジンを構築する方法」
- 統計学における変数の多様性:データ専門家のためのガイド
- 「木々の中の森を見る:データ保存は鋭い目から始まる」
- 「AIはほとんどのパスワードを1分以内に解読できますAI攻撃からパスワードを保護する方法」
- 「ヘイスタックの中の針を見つける – Jaccard類似度のための検索インデックス」 翻訳結果は以下の通りです: 「ヘイスタックの中の針を見つける – Jaccard類似度のための検索インデックス」
- 「プラットプス:データセットのキュレーションとアダプターによる大規模言語モデルの向上」
- 「大規模な言語モデルとベクトルデータベースを使用してビデオ推薦システムを構築した方法」