「パート1:ステップバイステップでWindowsベースのシステム上でデータパイプラインを実行するための仮想環境の作成」
Creating a virtual environment for executing a data pipeline on a Windows-based system, Step 1
この記事を書く動機は、単に忘れないためであり、また、ノートを保存する最良の方法は他の人と共有することです。さらに、これらの記事は簡単に消えません。また、フィードバックを提供することでそれに利益を得ることができます。私はそれを自己改善に非常に役立つものと考えています。ご意見/コメントをお待ちしております。
データパイプラインを実行するための仮想マシンの利点
Ubuntuのようなシステムを使用して仮想環境を作成し、データパイプラインを実行することは、データサイエンティストや開発者にとって多くの利点をもたらします。まず第一に、依存関係やパッケージが競合せず、安定した再現可能な結果が得られるように、サンドボックス化された独立した環境を提供します。さらに、仮想環境はシステムのコア機能に影響を与えずに簡単なテストとデバッグを可能にします。また、仮想環境はスケーラビリティを向上させ、パイプラインをさまざまなマシンやクラウドプラットフォームに展開できるようにします。最後に、仮想環境は共同作業を容易にし、チームが一貫した開発環境を共有し、スムーズなワークフローの統合を確保することができます。全体的に、仮想環境を活用することで、データプロフェッショナルはパイプライン開発を効率化し、生産性を向上させ、データに基づく洞察を加速することができます。
ローカルでUbuntu VMのセットアップ
- ローカルマシンでWindows Powershellを検索します
2. ‘ssh’コマンドを入力してインストールされているか確認します。SSHはセキュアシェルを表し、セキュアなリモートアクセスと通信に使用される暗号化ネットワークプロトコルです。これにより、クライアントとサーバーの間で安全なチャネルが提供され、データの交換とコマンドの安全な実行が可能になります。
- ChatGPTにおけるCSVファイルのクエリパフォーマンス向上
- 「AWSを基にしたカスケーディングデータパイプラインの構築方法」
- 「Pythonのタイピングに関するデータサイエンティストのガイド:コードの明瞭さを向上させるための手引き」
3. ‘dir’コマンドを使用するとファイルディレクトリが表示され、’mkdir’はシステム内にフォルダを作成するために使用されます。これらはLinuxベースのシステムで最も一般的に使用されるコマンドです。
4. ‘wsl’と入力してセットアップされているか確認します。これはインストールに必要です。WSLはWindows Subsystem for Linuxの略で、Windows上でLinuxディストリビューションを直接実行できるようにするWindowsの互換性レイヤーです。WSLを使用すると、LinuxのターミナルにアクセスしてLinuxのコマンドラインユーティリティをWindowsアプリケーションと並行して実行することができます。
5. ‘wsl — list — online’を入力すると、システムにインストールされている有効なディストリビューションが一覧表示されます。
6. インストールするディストリビューションを選択して、’wsl — install -d Ubuntu-22.04(インストールするバージョン)’と入力します
7. インストール後、インストールを完了するためにラップトップを再起動する必要があるかどうかは、聞かれることもないかもしれません。ただし、初めての場合は、UNIXのユーザー名とパスワードの設定を求められることもあります。その後、プロセスは完了するはずです。
8. インストールについて確認するために、’uname -a’と入力してインストールの詳細を確認します。
9. powershell cliで ‘wsl -l -v’と入力すると、実行中または停止しているものが表示されます。仮想マシンを再起動するためには、’wsl -d Ubuntu-22.04(起動したいマシン)’と入力します
Dockerの使用方法
- Dockerデスクトップを検索し、インストール手順に従います。手順は非常に簡単です。
PowerShellを使用してWindowsでDockerを検証する
- ‘docker run hello-world’コマンドを使用してインストールが正常に完了したかどうかを確認します
- ‘Docker images’コマンドを使用すると、コンテナ内のイメージが表示されます
- ‘Docker ps -a’は、コンテナの実行情報を表示するためのものです
- ‘Docker rm container_id’は、実行中のイメージを停止するためのものです
すべてをまとめる
- ‘docker run -i -t — rm ubuntu bash‘コマンドを実行することで、リソースをUbuntuベースのDockerコンテナとして設定し、’— rm’のおかげで閉じるとコンテナが自動的に削除されます。
2. コンテナイメージ内で ‘free -h’を実行すると、ローカルマシンで作業しているときにメモリ情報やその他の便利な情報が表示されます。
wsl Ubuntuを使用してWindowsにPythonとdistillsをインストールする
- 開発目的のため、Python 3.9を使用します。ここではUbuntu用のPython 3.9を探しています。
- Ubuntu環境でパワーシェルを使用している場合、以下のコマンドを1つずつコピーして貼り付けてください:
1. パッケージリストを更新し、必要なソフトウェアをインストールする:sudo apt updatesudo apt install software-properties-common 2. deadsnakes PPAをシステムのソースリストに追加する:sudo add-apt-repository ppa:deadsnakes/ppa 3. パッケージリストを再度更新する:sudo apt update 4. Python 3.9をインストールする:sudo apt install python3.9 5. インストールが成功したか確認するには、以下を入力してください:python3.9 --version
このPythonのバージョンで仮想環境を作成できるかどうかを確認するには、’python3.9 -m venv <環境名>’を使用してできるかどうかを確認することができます。できない場合は、仮想環境のために必要なセットアップが完了していることを確認するために、このコマンドを実行してください: ‘sudo apt install python3-distutils -y’。その後、上記のコマンドを再度実行して結果を確認してください。
ちなみに: もし私と同じように以下のエラーが表示される場合は、
Error: Command '['/home/home_folder/p39-venv/bin/python3.9', '-Im', 'ensurepip', '--upgrade', '--default-pip']' returned non-zero exit status 1.
以下のコマンドを使用して、Python仮想環境の作成に必要な残りのフォルダをインストールしてください:
sudo apt-get install python3.9-dev python3.9-venv
次に、仮想環境の作成を進めます:
python3.9 -m venv p39-venv
次に、アクティベーションを行います:
source p39-venv/bin/activate
仮想環境で正しいPythonバージョンが表示されていることを確認するには、’python — version’を実行してください。
以下のコマンドを使用して、作成した仮想環境を無効化および削除してください。
deactivaterm -rf <venv_name>
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「データサイエンスプロジェクトを変革する:YAMLファイルに変数を保存する利点を見つけよう」
- Pythonを使用した探索的データ分析(EDA)の実践ガイド
- テキストのポテンシャルを引き出す:プリエンベッドテキストクリーニング方法の詳細な調査
- 「生データから洗練されたデータへ:データの前処理を通じた旅 – パート1」
- 「ソフトウェア開発におけるAIの活用:ソリューション戦略と実装」
- 「Med-PaLM Multimodal(Med-PaLM M)をご紹介します:柔軟にエンコードし、解釈するバイオメディカルデータの大規模なマルチモーダル生成モデル」
- 「BI-LSTMを用いた次の単語予測のマスタリング:包括的なガイド」