「ラズベリーパイ上でApache Airflowを使用してデータを収集する」
「ラズベリーパイでデータ収集を楽しむためのApache Airflow活用術」
ラズベリーパイが必要です
しばしば、一定期間内にデータを収集する必要があります。IoTセンサーからのデータ、ソーシャルネットワークからの統計データ、またはその他のデータかもしれません。例えば、YouTube データ APIは、現在の時点で任意のチャンネルのビュー数とサブスクライバー数を取得することができますが、解析や過去のデータはチャンネルの所有者にしか利用できません。したがって、これらのチャンネルに関する週次または月次のまとめを取得したい場合には、このデータを自分自身で収集する必要があります。IoTセンサーの場合、APIが存在しない場合やデータを自分で収集して保存する必要があることもあります。本記事では、クラウドプロバイダを利用しないで長期間のタスクを実行するために、ラズベリーパイ上でApache Airflowを設定する方法を紹介します。
明らかに、大規模企業で働いている場合、ラズベリーパイは必要ないかもしれません。その場合、追加のクラウドインスタンスが必要なら、MLOps部門に対してJiraチケットを作成するだけです 😉 しかし、個人プロジェクトや予算が限られたスタートアップにとっては、興味深い解決策となるかもしれません。
では、どのように動作するのか見てみましょう。
ラズベリーパイ
ラズベリーパイとは実際には何でしょうか?過去10年間ハードウェアに興味がなかった読者のために(最初のラズベリーパイモデルは2012年に発表されました)、これはフル機能のLinuxを実行するシングルボードコンピュータです。通常、ラズベリーパイには1GHzの2-4コアARM CPUと1-8MBのRAMが搭載されています。サイズは小さく、安価で、静音です;ファンやディスクドライブはありません(OSはマイクロSDカードから実行されます)。ラズベリーパイには標準のUSB電源供給のみが必要で、Wi-Fiまたはイーサネットを介してネットワークに接続し、数か月、あるいは数年にわたってさまざまなタスクを実行することができます。
- 『平易な日本語で解説する基本的な10の統計概念』
- 『ダフニーを使用してラストのアルゴリズムを正式に検証するための9つのルール(パート2)』
- 詳細な説明でPythonでテキストから特徴を抽出するためのCountVectorizer
私のデータサイエンスの個人プロジェクトでは、2週間以内にYouTubeチャンネルの統計情報を収集したかったのです。1日に2回わずか30〜60秒しか必要としないタスクに対しては、サーバーレスアーキテクチャが完璧な解決策となり、Google Cloud Functionなどを使用できます。ただし、Googleのチュートリアルはすべて「プロジェクトの課金を有効にする」というフレーズで始まりました。Googleによって提供される最初の無料クレジットや無料クオータはありますが、お金についての追加の頭痛を持つことは避けたかったのです…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles