「Google BigQuery / SQLでの5つの一般的な失敗を避ける方法」

『Google BigQuery / SQLで避けるべき5つの一般的な失敗の方法』

BigQuery を何年も使っている間に、経験豊富なデータサイエンティストでもよくある5つの問題を観察しました

James Harrison氏の写真、Unsplashで撮影

Google BigQuery は多くの理由で人気です。非常に高速で取り扱いやすく、GCPの全機能が提供され、データを管理し、早期にミスを見つけることを保証してくれます。さらに、標準のSQLと便利な組み込み関数が使用できます。言い換えれば、ほぼ完全なパッケージです!

常にバグや重複を仮定しましょう!

しかし、他のウェブサービスやプログラミング言語と同様に、BigQuery を使用する際には注意が必要な点があります。多くの間違いを犯し、自身も知っているほとんどの人が同じ問題に遭遇したことに気づきました。キャリアの後半でこれらのいくつかの問題を発見し、非常に経験豊富なデータサイエンティストも同じ問題に遭遇していることを確認しましたので、ここでいくつかの問題を紹介します。

そのため、これからは BigQuery でほぼ誰もが犯す可能性のある5つのポテンシャルなミスのリストを紹介します。これらを避けるために注意してください。各ポイントが重大な結果をもたらす可能性があることを心に留めて、データを扱う際の正しい姿勢を忘れずに:常にバグや重複を仮定しましょう!

1. “NOT IN” を使う際に注意が必要です

速く確認したくて、2つのテーブルを素早くチェックして、一方のテーブルに記載されている特定の項目が二つ目のテーブルの中にも存在するかどうかを確認したいと思うことがよくあります。その場合、直感的に NOT IN 文を使ってみるのがどうかと思いますよね。

問題は、テーブルに NULL 値がある場合、NOT IN が意図通りに動作しないことです。その場合、望む結果が得られない可能性があります!

下記のコード例をご自身で確認してみてください。この例では、input_2 内のカテゴリーが input_1 内に存在しないものを見つけるだけのコードです:

WITH  input_1 AS (  SELECT    category  FROM (    SELECT      ["a", "b", CAST(NULL AS STRING), "d"] AS category),    UNNEST(category) category ),  input_2 AS (  SELECT…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more