データ分析の最適化:DatabricksにGitHub Copilotを統合する

データ分析の最適化:DatabricksにGitHub Copilot統合の活用法

 

イントロダクション

 

GitHub Copilotは、GitHubとOpenAIとの共同開発による人工知能を活用したコード補完アシスタントです。ChatGPTモデルを活用しており、開発者がコーディングプロセスを加速し、エラーを最小限に抑えるのに役立ちます。このモデルは、GitHub自身のリポジトリからのライセンスされたコードと公開されているコードの組み合わせでトレーニングされており、プログラミングのパラダイムについて幅広い理解を備えています。

一方、Apache Sparkの元の作成者によって設立されたオープンアナリティクスおよびクラウドベースのプラットフォームであるDatabricksは、データ分析と機械学習のパイプライン構築をシームレスに行うことでイノベーションを加速させます。また、ユーザー間での協力作業を促進します。

GitHub CopilotをDatabricksと統合することで、データ分析と機械学習エンジニアは効率的かつ時間効果的にソリューションを展開することができます。この統合により、コードの開発をスムーズに行うことができ、コードの品質と標準化を向上させ、クロス言語の効率を高め、プロトタイプの開発を加速し、ドキュメンテーションを支援することで、エンジニアの生産性と効率を向上させることができます。

GitHub CopilotとDatabricksの統合の前提条件:

Databricksのアカウント セットアップ

GitHub Copilotのセットアップ。

Visual Studio Codeのダウンロードとインストール 

 

統合の手順

 

Visual Studio Code MarketplaceでDatabricksプラグインをインストールします。

  

Visual Studio CodeでDatabricksプラグインを設定します。以前にDatabricks CLIを使用したことがある場合は、databrickscfgファイルで既にローカルに設定されています。そうでない場合は、以下の内容を ~/.databrickscfg ファイルに作成します。

[DEFAULT]host = https://xxxtoken = <token>jobs-api-version = 2.0

 

「Databricksの設定」オプションをクリックし、上記の手順で設定されたホスト名が表示される最初のオプションを選択し、「DEFAULT」プロファイルで続けます。

  

設定が完了すると、Visual Studio CodeとDatabricksの接続が確立されます。Databricksプラグインをクリックすると、ワークスペースとクラスタの設定の詳細が表示されます。

ユーザーがGitHub Copilotアカウントのセットアップを完了したら、GitHub Copilotにアクセスできることを確認してください。マーケットプレイスを介してVSCodeにGitHub CopilotとGitHub Copilot Chatプラグインをインストールします。

  

GitHub CopilotとCopilot Chatプラグインをインストールした後、Visual Studio IDEを介してGitHub Copilotにサインインするよう促されます。承認を促されない場合は、Visual Studio Code IDEの下部パネルのベルアイコンをクリックしてください。

  

さあ、GitHub Copilotを使って開発をしましょう

 

データエンジニアリングパイプラインの開発

 

データエンジニアは、GitHub Copilotを使ってデータエンジニアリングパイプラインを迅速に作成し、ドキュメンテーションを含めて手軽に行うことができます。以下は、プロンプト技法を使ったシンプルなデータエンジニアリングパイプラインの作成手順です。

PythonとSparkフレームワークを使用してS3バケットからファイルを読み込みます。

  

PythonとSparkフレームワークを使用してS3バケットにデータフレームを書き込む方法

  

メインメソッドを介して関数を実行します:プロンプトで同じように表示され、コードの実行手順から結果が得られます

 

 

データエンジニアリングと機械学習におけるGitHub Copilotの利点

 

  • 迅速な合理的な提案とひな型コードを提供する優れたAIペアプログラミングツール
  • コードと実行時間の最適化のための一流の提案
  • 論理的なステップに対する優れたドキュメンテーションとASCII表現
  • エラーを最小限に抑えた高速なデータパイプラインの実装
  • 既存の簡単または複雑な機能を詳細に説明し、知的なコードリファクタリングテクニックを提案する

 

チートシート

 

  • Co-pilotのテキスト/検索バーを開きます。

     Windows:[Cltr] + [I] 

    Mac:Command + [I]

  • 右側にトップ10のコード提案を表示する別のウィンドウを開きます。

    Windows:[Cltr] + [Enter]

    Mac:[control] + [return]

  

  • 左側に別のCopilotチャットウィンドウを開きます。

    Windows:[Cltr] + [Alt] + [I]

    Mac:[Control] + [Command] + [I]

  • インライン提案を解除します。

    Windows/Mac:Esc

  • 提案を受け入れます。

    Windows/Mac:Tab

  • 前の提案を参照します。

    Windows:[Alt] + [

    Mac:[option] + [

  • 次の提案を確認します。

    Windows:[Alt] + ]

    Mac:[option] + ]

 

結論

AIペアプログラミングツールを統合開発環境に統合することで、開発者はリアルタイムのコード提案により開発を加速し、ひな型コードと文法を参照するために費やす時間を削減し、革新とビジネスの問題解決に重点を置くことができます。

 

さらなるリソース

 

  

[Naresh Vurukonda](http://www.linkedin.com/in/naresh-vurukonda-a23861124)は、ヘルスケア・ライフサイエンスおよびメディアネットワーク組織でのデータエンジニアリングと機械学習プロジェクトの構築に10年以上の経験を持つプリンシパルアーキテクトです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more