DatabricksでカスタムDockerコンテナ内でPython Wheelタスクを実行する

'DatabricksでPython Wheelタスクを実行する方法'

DatabricksにおけるカスタムDockerイメージでPython Wheelタスクをビルドして実行するステップバイステップチュートリアル(PoetryとTyper CLIを使用)

Lluvia Morales氏による写真(Unsplash)

データエンジニアは、ビジネスの問題を解決するために下流でデータを使用できるように、ETLワークロードを実行するためのパイプラインを設計・構築します。Databricksでは、そのようなパイプラインでは、通常、クラスタノートブック/スクリプトを作成し、いくつかのSparkコードを記述することから始めます。動作するプロトタイプができたら、それを本番環境で実行できるようにし、たとえばREST APIを使用してDatabricksのジョブとしてコードを実行できるようにします。Databricksでは、これは通常、DatabricksファイルシステムにすでにPythonノートブック/スクリプトがあるか、リモートのGitリポジトリがワークスペースに接続されているかのいずれかが必要です。しかし、もしもそれらのいずれも行いたくない場合はどうすればいいでしょうか?Python WheelタスクDatabricksコンテナサービスを使用することで、コンテナレジストリからDockerイメージを使用するジョブランを開始することができます。

したがって、このチュートリアルでは、DatabricksでカスタムDockerイメージPythonジョブ(Python Wheelタスク)を実行する方法を紹介します。

*同期プロセスによってGitファイルがコード実行前にDatabricksワークスペースにアップロードされるか、ジョブランにリモートGit参照のノートブック/スクリプトが提供されます

なぜこれを行いたいのでしょうか?

おそらく「どこでもビルド、配信、実行」の哲学を持っているため、DataBricksの従来の使用方法に満足していないかもしれません。

説明します。

DataBricksは、プラットフォームに対していくつかのCI/CDテクニックを提案しています。

継続的インテグレーションおよび継続的デリバリー/継続的デプロイメント(CI/CD)は、自動化パイプラインの使用を通じて、短い頻度でソフトウェアを開発・提供するプロセスを指します。

通常、デフォルトブランチへのコミットまたはリリースは、リンティング、テストなどのパイプラインを開始し、最終的にDatabricksとの対話を行うアクションに結び付きます。これは、ジョブをトリガーするためのREST API呼び出しである場合があります…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more