「私たちはデータサイエンスシステムを仮想化すべきでしょうか – それともしないべきでしょうか?」

データサイエンスシステムを仮想化すべきか否か?

Author’s Current Homelab Setup

「ビッグデータ」を活用することが、あらゆる業界で問題解決にますます重要になるにつれて、ホームラボやデータレイクのようなデータリポジトリは、データの抽出、変換、読み込み、分析に必要な並列化された計算パワーを以前に比べて必要としています。自分自身のホームラボを作成する際、仮想マシン上で並列化されたセットアップを作成するか、ハードウェア上でネイティブに実行するかという判断に悩み、パフォーマンスの比較を見つけるのに苦労しました。この記事では、それぞれのセットアップの利点と欠点、および仮想化とネイティブの両方についてのパフォーマンスとベンチマークを並べて探求します。

はじめに

並列化されたコンピュートクラスタの多くには、複数のノード、つまりクラスタ上に分散されたタスクを処理するために指定されたコンピュータが含まれています。このようなノードの管理は大きな頭痛の種であり、データエンジニアリングはその分析の相手よりも非常に魅力的です。通常、企業は複数のクラスタを管理し、個々のノードに個別の注意を払うことはほぼ不可能であり、代わりにProxmox、Kubernetes、Docker Swarmなどのツールを使用した「高可用性」のセットアップが現代の企業にとって必要不可欠です。あなたはおそらく今週、気づかずにこれらのクラスタと対話していることでしょう — 私が昼食に食べたChick-fil-Aのチキンサンドイッチは、エッジコンピューティングのKubernetesクラスタと彼らのポイントオブセールシステムによって有名なものです。

仮想マシンでの計算には多くの利点があります。それには以下のものが含まれます:

  • 企業のサーバーからフィールドに対して完全なオペレーティングシステムをほぼ瞬時に展開できる
  • イメージはリアルタイムでバックアップできる
  • 展開はコンテナ化され、スコープを制限してセキュリティを向上させることができる
  • ハードウェアの障害が発生した場合、システムを最小限のダウンタイムで移行できる

これらは決して新しい概念ではありませんが、組織のあらゆるレベルでデータ分析が必要とされる需要の増加に伴い、方法は…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more