Search Results Pachyderm

無料のオープンパスでODSC West Virtualに参加してください.

Note Japanese translation is provided in Unicode characters. Please make sure that your device and browser are capable of displaying Japanese characters for accurate…

West 2023

AI（人工知能）開発の先頭を走る13の企業

AIの未来は今日作られています！ODSCウエストのAIエキスポでは、未来がどのように展開し、AIの軌道がこれからの数年間でどのようになるかがわかる絶好の機会ですなので、いくつかの会社が基礎を築いている様子を見てみましょう

West 2023

2023年の機械学習研究におけるトップのデータバージョン管理ツール

生産に使用されるすべてのシステムはバージョン管理する必要があります。ユーザーが最新のデータにアクセスできる単一の場所です。特に多くのユーザーが同時に変更を加えるリソースには監査トレイルを作成する必要があります。チーム全員が同じページにいることを確保するために、バージョン管理システムが担当しています。それにより、チーム全員が同時に同じプロジェクトで協力し、ファイルの最新バージョンで作業していることが保証されます。適切なツールがあれば、このタスクを迅速に完了することができます！信頼性のあるデータバージョン管理方法を採用すると、一貫性のあるデータセットとすべての研究の完全なアーカイブを持つことができます。データバージョニングソリューションは、再現性、トレーサビリティ、およびMLモデルの履歴に関心がある場合、ワークフローに必須です。データセットやモデルのハッシュなどのオブジェクトのコピーを取得し、区別して比較するために使用できるデータバージョンが頻繁にメタデータ管理ソリューションに記録されるようにすると、モデルのトレーニングがバージョン管理され、繰り返し可能になります。さあ、コードの各コンポーネントを追跡できる最高のデータバージョン管理ツールを調べてみましょう。 Git LFS Git LFSプロジェクトの使用は制限されていません。Gitは、GitHub.comやGitHub Enterpriseなどのリモートサーバーに大きなファイルの内容を保存し、大きなファイルをテキストポインターで置き換えます。音声サンプル、映画、データベース、写真など、置き換えられるファイルの種類には大きなファイルが含まれます。 Gitを使用して大規模なファイルリポジトリを迅速にクローンして取得したり、外部ストレージを使用してGitリポジトリでより多くのファイルをホストしたり、数GBの大きさの大きなファイルをバージョン管理することができます。データの取り扱いにおいては比較的シンプルな解決策です。他のツールキット、ストレージシステム、スクリプトは必要ありません。ダウンロードするデータ量を制限します。これにより、大きなファイルのコピーがリポジトリから取得するよりも速くなります。ポイントはLFSを指し、より軽い素材で作られています。 LakeFS LakeFSは、S3またはGCSにデータを格納するオープンソースのデータバージョニングソリューションであり、Gitに似たブランチングおよびコミット方法をスケーラブルに実装しています。このブランチング方法により、別々のブランチで変更を可能にし、アトミックかつ即座に作成、マージ、およびロールバックできるようにすることで、データレイクをACID準拠にします。 LakeFSを使用すると、繰り返し可能でアトミックなデータレイクの活動を開発することができます。これは新しいものですが、真剣に取り組む必要があります。Gitのようなブランチングとバージョン管理の方法を使用してデータレイクとやり取りし、ペタバイト単位のデータをスケーラブルにチェックできます。 DVC Data Version Controlは、データサイエンスや機械学習のアプリケーションに適したアクセス可能なデータバージョニングソリューションです。このアプリケーションを使用してパイプラインを任意の言語で定義することができます。 DVCは、その名前が示すように、データバージョニングに特化しているわけではありません。このツールは、大きなファイル、データセット、機械学習モデル、コードなどを管理することで、機械学習モデルを共有可能かつ再現可能にします。さらに、チームがパイプラインと機械学習モデルを管理しやすくします。このアプリケーションは、迅速に設定できる簡単なコマンドラインを提供することで、Gitの例にならっています。最後に、DVCはチームのモデルの再現性と一貫性を向上させるのに役立ちます。コードの複雑なファイルの接尾辞やコメントではなく、Gitのブランチを使用して新しいアイデアをテストします。旅行中にペーパーや鉛筆ではなく、自動的なメトリックトラッキングを使用します。プッシュ/プルコマンドを使用して機械学習モデル、データ、およびコードの一貫したバンドルを製品環境、リモートマシン、または同僚のデスクトップに転送するためのアドホックなスクリプトではなく使用します。 DeltaLake DeltaLakeというオープンソースのストレージレイヤーにより、データレイクの信頼性が向上します。Delta Lakeは、バッチおよびストリーミングデータ処理をサポートするだけでなく、スケーラブルなメタデータ管理も提供します。現在のデータレイクに基づいており、Apache…

「機械学習モデルのログと管理のためのトップツール」

機械学習において、実験トラッキングはすべての実験メタデータを1つの場所（データベースまたはリポジトリ）に保存します。モデルのハイパーパラメータ、性能の測定値、実行ログ、モデルのアーティファクト、データのアーティファクトなど、すべてが含まれています。実験ログの実装方法はさまざまです。スプレッドシートは1つのオプションです（もはや使用されていません！）、またはテストの追跡にGitHubを使用することもできます。機械学習の実験を追跡することは常にMLの開発において重要なステップでしたが、以前は手間のかかる、遅くてエラーが発生しやすい手続きでした。近年、機械学習の実験管理とトラッキングのための現代的なソリューションの市場が発展し増加しました。現在、さまざまな選択肢があります。オープンソースまたはエンタープライズソリューション、スタンドアロンの実験トラッキングフレームワーク、エンドツーエンドのプラットフォームなど、適切なツールを必ず見つけることができます。 MLFlowのようなオープンソースのライブラリやフレームワークを利用するか、Weights & Biases、Cometなどのこれらの機能を備えたエンタープライズツールプラットフォームを購入することが、実験ログを行うための最も簡単な方法です。この記事では、データサイエンティストにとって非常に役立つ実験トラッキングツールをいくつか紹介しています。 MLFlow MLflowは、実験、再現性、デプロイメント、および中央モデルレジストリを含む機械学習ライフサイクルを管理するオープンソースプラットフォームです。複数の機械学習ライブラリからモデルを異なるプラットフォームに配布およびサービングする（MLflowモデルレジストリ）機能も提供しています。MLflowは現在、MLコードを再利用可能で再現可能な形式でパッケージングする機能（MLflowプロジェクト）、パラメータと結果を記録および比較するための実験のトラッキング機能（MLflowトラッキング）をサポートしています。さらに、モデルのバージョン管理、ステージ遷移、注釈など、MLflowモデルのライフサイクル全体を共同で管理するための中央モデルストアも提供しています。 Weights & Biases Weights & Biasesは、実験トラッキング、データセットのバージョン管理、およびモデルの管理により、より速くより優れたモデルを生成するためのMLOpsプラットフォームです。Weights & Biasesはプライベートインフラストラクチャにインストールすることも、クラウドで利用することもできます。 Comet Cometは、現在のインフラストラクチャとツールと連携してモデルを管理、可視化、最適化する機械学習プラットフォームです。コード、ハイパーパラメータ、メトリックを自動的に追跡するために、スクリプトまたはノートブックに2行のコードを追加するだけで使用できます。 Cometは、ML実験の全ライフサイクルのためのプラットフォームです。コード、ハイパーパラメータ、メトリック、予測、依存関係、システムメトリックを比較してモデルのパフォーマンスの違いを分析することができます。モデルはモデルレジストリに登録して、エンジニアリングへの簡単な引き継ぎが可能であり、トレーニングランからデプロイまでの完全な監査トレイルで使用中のモデルを把握することができます。 Arize AI Arize AIは、MLチームがプロダクションでより成功したAIを提供および維持するための機械学習可観測性プラットフォームです。Arizeの自動モデルモニタリングおよび可観測性プラットフォームにより、MLチームは問題が発生したときに問題を検出し、なぜ問題が発生したかをトラブルシューティングし、モデルのパフォーマンスを管理することができます。コンピュータビジョンおよび自然言語処理モデルの非構造化データの埋め込みを監視することで、チームは次にラベル付けするデータを予測的に特定し、プロダクションでの問題をトラブルシューティングすることもできます。ユーザーはArize.comで無料アカウントにサインアップできます。…

機械学習（ML）の実験トラッキングと管理のためのトップツール（2023年）

機械学習プロジェクトを行う際に、単一のモデルトレーニング実行から良い結果を得ることは一つのことです。機械学習の試行をきちんと整理し、信頼性のある結論を導き出すための方法を持つことは別のことです。実験トラッキングはこれらの問題に対する解決策を提供します。機械学習における実験トラッキングとは、実施する各実験の関連データを保存することの実践です。実験トラッキングは、スプレッドシート、GitHub、または社内プラットフォームを使用するなど、さまざまな方法でMLチームによって実装されています。ただし、ML実験の管理とトラッキングに特化したツールを使用することが最も効率的な選択肢です。以下は、ML実験トラッキングと管理のトップツールです Weight & Biases 重みとバイアスと呼ばれる機械学習フレームワークは、モデルの管理、データセットのバージョン管理、および実験の監視に使用されます。実験トラッキングコンポーネントの主な目的は、データサイエンティストがモデルトレーニングプロセスの各ステップを記録し、モデルを可視化し、試行を比較するのを支援することです。 W&Bは、オンプレミスまたはクラウド上の両方で使用できるツールです。Weights & Biasesは、Keras、PyTorch環境、TensorFlow、Fastai、Scikit-learnなど、さまざまなフレームワークとライブラリの統合をサポートしています。 Comet Comet MLプラットフォームを使用すると、データサイエンティストはモデルのトレーニングから本番まで、実験とモデルの追跡、比較、説明、最適化を行うことができます。実験トラッキングでは、データセット、コードの変更、実験履歴、モデルを記録することができます。 Cometは、チーム、個人、学術機関、企業向けに提供され、誰もが実験を行い、作業を容易にし、結果を素早く可視化することができます。ローカルにインストールするか、ホステッドプラットフォームとして使用することができます。 Sacred + Omniboard Sacredは、オープンソースのプログラムであり、機械学習の研究者は実験を設定、配置、ログ記録、複製することができます。Sacredには優れたユーザーインターフェースがないため、Omniboardなどのダッシュボードツールとリンクすることができます（他のツールとも統合することができます）。しかし、Sacredは他のツールのスケーラビリティに欠け、チームの協力のために設計されていない（別のツールと組み合わせる場合を除く）が、単独の調査には多くの可能性があります。 MLflow MLflowと呼ばれるオープンソースのフレームワークは、機械学習のライフサイクル全体を管理するのに役立ちます。これには実験、モデルの保存、複製、使用が含まれます。Tracking、Model Registry、Projects、Modelsの4つのコンポーネントは、それぞれこれらの要素を代表しています。 MLflow TrackingコンポーネントにはAPIとUIがあり、パラメータ、コードバージョン、メトリック、出力ファイルなどの異なるログメタデータを記録し、後で結果を表示することができます。…

2023年のMLOpsの景色：トップのツールとプラットフォーム

2023年のMLOpsの領域に深く入り込むと、多くのツールやプラットフォームが存在し、モデルの開発、展開、監視の方法を形作っています総合的な概要を提供するため、この記事ではMLOpsおよびFMOps（またはLLMOps）エコシステムの主要なプレーヤーについて探求します...

Learn more about Search Results Pachyderm