データサイエンス面接のための21の必須チートシート:成功への道を開く

21 Essential Cheat Sheets for Data Science Interviews Opening the Path to Success.

データサイエンスは、広範で常に進化し続ける分野であり、全ての知識を頭に入れておくことは不可能です。特に、たまにしか使用しない知識がある場合は、頻繁に復習する必要があります。また、特定の分野で初心者の場合は、理論と実践の交差点で実際の知識になるまで何度も学んだことを復習する必要があります。

一目で必要な情報を確認できるものがあれば、かなり役に立つと思いませんか?それが「チートシート」と呼ばれる「何か」です。それは不正行為とはまったく関係ありません。それらは、学習および復習に使用されます。

(比較的)簡潔で高レベルであることが意図されているため、データサイエンス全体のチートシートを持っていても(チートシート自体の、データサイエンスではなく)目的を果たしません。そのようなチートシートを作成することが可能であっても、そのためには、さまざまなデータサイエンス分野に異なるチートシートを使用する必要があります。

私は、データサイエンティストが欠かせない概念をカバーするチートシートに絞り込もうと試みました。これは、以下について説明するチートシートとして読むことができます。

  • コーディング言語
    • SQL
    • Python
    • R
  • アルゴリズムとモデル
  • データ構造
  • データ可視化
  • 確率と統計
  • データ操作

コーディング言語

コーディング言語を知ることは、データサイエンスのすべての部分が構築される基盤です。特にデータサイエンスコミュニティで特に人気のあるコーディング言語の三位一体は次のとおりです。

  • SQL
  • Python
  • R

SQL

データベースのクエリに特化した言語であるSQLは、データの抽出と操作において優れたパフォーマンスを発揮します。

チートシート: SQL Basics Cheat Sheet

リンク: https://learnsql.com/blog/sql-basics-cheat-sheet/

提供される情報: このチートシートは、機能的なSQLクエリを最初から書くために重点を置いています。そのためには、特定の概念に精通している必要があります。これらには、単一のテーブルのクエリ、データのフィルタリング、JOINを使用した複数のテーブルのクエリが含まれます。また、集計関数、サブクエリ、および集合演算子(UNION、INTERSECT、EXCEPT)もカバーされています。

各概念に簡単な説明が加えられており、サンプルデータを使用したクエリも示されており、実際にどのように動作するかを示しています。

チートシートは、PDFまたはPNG形式でダウンロードできるため、印刷して手元に置くことができます。

チートシート: 初心者のためのEssential SQL Commands Cheat Sheet

リンク: https://itechbrand.com/the-essential-sql-commands-cheat-sheet-for-beginners/

提供される情報: 前のチートシートのようなコードやデータの例はありません。このチートシートは、SQLで必要なコマンドを簡単にリストアップしています。特定のキーワードの機能を思い出したい場合に最適です。また、表の作成および編集、制約、データ、トリガー、ビュー、共通テーブル式(CTE)などの追加のトピックもカバーしています。

チートシート: SQL Cheat Sheet – Technical Concepts for the Job Interview

リンク: https://www.stratascratch.com/blog/sql-cheat-sheet-technical-concepts-for-the-job-interview/

提供される情報: 就職面接で良い成績を収めるために最も重要なSQLコンセプトに焦点を当てたこのチートシートは、JOIN、時間および日付関数、集計関数、ウィンドウ関数、および集合演算子をカバーしています。

各技術トピックとサブトピックは、簡単に口頭で説明され、わかりやすいグラフィカルな表現を使用しています。さらに、関連する質問と解決コードがあります。コードはウィジェットに表示されるため、それを操作できるようになっており、インタラクティブなチートシートとなっています。

Python

Pythonは、データサイエンスで最も一般的に使用されるプログラミング言語の一つであり、必要なすべての領域で優れたパフォーマンスを発揮します。データ抽出および操作、統計分析およびデータの可視化、機械学習、モデルの展開および自動化など、すべてを行います。

チートシート: Pythonチートシート

リンク: https://websitesetup.org/python-cheat-sheet/

得られるもの: この非常に包括的で明確なチートシートは、Pythonで作業を開始するための基盤を持ちたい人に最適です。Pythonの主要なデータ型を説明し、文字列の作成と保存、データの数学演算を含むことを説明します。また、組み込み関数、関数の作成、リスト、タプル、辞書についても学びます。

チートシートでは、条件文、Pythonループ、クラス、Pythonエラーの取り扱いについても概要を示しています。

チートシートは、PDFまたはインフォグラフィック(PNG)形式でダウンロードできます。

チートシート: Pythonチートシート

リンク: https://programmingwithmosh.com/wp-content/uploads/2019/02/Python-Cheat-Sheet.pdf

得られるもの: 上記と非常に似たチートシートです。主に同じトピックをカバーしていますが、詳細度は低くなっています。説明は優れており、Pythonの基本をつかむために取り組む初心者に最適です。

チートシートは、PDFでダウンロードできます。

チートシート: 包括的なPythonチートシート

リンク: https://github.com/gto76/python-cheatsheet

得られるもの: 初心者もこのチートシートを使用できますが、基本レベルで必要なものよりもはるかに多くのトピックをカバーしています。ここではあまり話しません。著者はトピックを説明し、キーワードをリストし、簡単に説明します。また、例のコードと、その返り値を提供します。

扱われるトピックは、コレクション、タイプ、構文、システム、データ、高度、ライブラリです。各トピックは、このチートシートがおそらくほとんどのPythonユーザーに必要な唯一のものになるように、さらにサブトピックに分けられています。

R

Rプログラミング言語はPythonよりも柔軟性に欠けるため、モデルの展開には適していません。それは統計分析とデータ可視化のために作成されているものです。それだけが目的ではなく、データ抽出や操作、機械学習、自動化にも重点的に使用されています。

チートシート: RStudioのチートシート

リンク: https://www.rstudio.com/resources/cheatsheets/

得られるもの: これらのリソースは、Rチートシートに関して必要な唯一のものであるかもしれません。さまざまなチートシートとカバーされるトピックがあります。ユーザーは、基本的なRをカバーするチートシートを提供しました。

Base Rチートシートは、ベクトル、プログラミング、データ型、数学関数、統計などのトピックについて説明しています。

Advanced Rチートシートは、環境、データ構造、オブジェクト指向システム、関数、サブセット、デバッグ、条件処理、防御プログラミングに興味を持つ人に役立ちます。

特定のRトピックに専念したソースウェブサイトには、日時の処理、文字列、データ変換、整理、可視化、深層学習などのチートシートが多数あります。

データ構造

データサイエンティストは、データの組織と保存の方法としてデータ構造に精通している必要があります。可能なデータ構造をすべて常に使用することはないでしょう。使用しなかったデータ構造を使用する時が来たら、チートシートはそのデータ構造の一般的なアイデアを提供することができます。

チートシート: データ構造リファレンス

リンク: https://www.interviewcake.com/data-structures-reference

得られるもの: すべてのデータ構造を短い定義と視覚的な表現でリストアップしており、クイックリファレンスには優れています。各データ構造について詳細を知りたい場合は、それをクリックして、それぞれの強みと弱点、挿入と削除の方法、およびその特定の特性の説明を入手できます。

チートシート: インタビュー用実行可能データ構造チートシート

リンク: https://algodaily.com/lessons/an-executable-data-structures-cheat-sheet

得られるもの: これも、すべてのデータ構造の説明、利点と欠点、注目すべき使用法を提供します。チートシートは、各データ構造の詳細についての追加リソースを提供します。

さらに、すべてのデータ構造には、実行して返される内容を確認できるJavaScript、Python、Javaのサンプルコードがあります。また、完全なデータシートを説明するビデオもあり、より理解しやすくなっています。

データ操作

データ操作、変換、または整形とは、生データをより深い分析や処理に利用できる形式に変換することです。データサイエンスでは、通常、Pythonとそのライブラリpandasを使用して行われます。

チートシート: データサイエンスのためのPandasチートシート

リンク: https://datascientyst.com/pandas-cheat-sheet-for-data-science/

内容: 初心者に最適なこのチートシートは、pandasの主要なコマンドのコードを示し、各コードが何を返すかを説明します。扱われるトピックは、pandasのセットアップ、データ構造、データのインポートとエクスポート、データの検査、および選択です。また、行/列の追加と削除、ソート、フィルター、グループ化、変換、データのマージと連結、および関数の適用方法も学べます。トピックごとに理解しやすいグラフィカルな表現が付属しています。

チートシート: Pandasチートシート

リンク: https://geekyhumans.com/pandas-cheat-sheet/#Making-changes-to-the-data

内容: 一般的に、前のチートシートと同じトピックをカバーしています。違いは、説明が主にコードとその出力を示すことである点です。

チートシート: pandasを使ったデータ整形のチートシート

リンク: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

内容: データ整形に特化した詳細なチートシートです。DataFrameの作成、メソッドチェーン、データの再形成、行と列の処理、クエリの使用、データの集計とグループ化、欠損データの処理、新しい列の作成、データセットの結合、ウィンドウの使用、およびプロットについて解説しています。各トピックはビジュアルで説明され、pandasのキーワードはすべて、コードとその出力を使用して紹介されています。

データ可視化

データの可視化は、データサイエンティストの重要な仕事の一部です。ある意味、データサイエンティストにしか理解できないものを、一般の人にも理解可能な形で表現するということです。データ分析またはモデルの洞察を表現することができます。どちらであっても、チートシートは役立ちます。

チートシート: データ可視化のチートシート

リンク: http://www.biosci.global/customer-stories-en/data-visualization-cheat-sheet/

内容: データ可視化で使用されるグラフの良い概要です。各チャートタイプに加えて、それが何を表しているかの簡単な説明と、それを示す画像があります。各グラフの外観を簡単に想像できます。

また、適切なグラフを選択するための基準の視覚的な概要もあります。

チートシート: データ可視化のチートシート

リンク: https://www.kaggle.com/getting-started/160583

内容: チャートの説明はありませんが、すべてのチャートが視覚的に表示され、データ可視化の目的に基づいてセクションに分けられています。初心者や、正しいグラフを選択したかどうか、より良いオプションがあるかどうかを素早く確認したい人に最適です。

チートシート: データ可視化のチートシート

リンク: https://medium.com/responsibleml/data-visualization-cheat-sheets-1c12ba8a7671

内容: 良いグラフを作成することに関する数枚のチートシートが用意されています。適切なグラフを選択することについてだけでなく、より詳細に説明し、マップにデータを表示する方法、視覚的に障害のある人のための適切な色の選択、グラフをより読みやすくする方法、軸の選択、およびタイムラインの表現についてアドバイスやDos and Don’tsが与えられています。すべてのチートシートはPDFでダウンロードできます。

統計と確率

データサイエンティストにとって、統計学および特に確率に関する広範な知識を持つことは必須です。彼らは、データ分析からモデル構築、テスト、評価まで、ほとんどすべての部分でそれを使用します。統計学は広範な分野であるため、仕事で使用するのは一部のみになる可能性があります。あなたが新しい統計のトピックや頻繁に使用しないトピックがある場合、自分自身を助けるために良いチートシートが必要になります。

チートシート: データサイエンス面接のための包括的な統計学チートシート

リンク: https://www.stratascratch.com/blog/a-comprehensive-statistics-cheat-sheet-for-data-science-interviews/

内容: このチートシートは、ほとんどのデータサイエンティストが必要とするすべての統計学トピックをカバーしています。信頼区間、仮説検定、Z統計量およびT統計量、A/Bテスト、線形回帰、確率の規則、ベイズの定理、組み合わせと順列が含まれます。これらの概念については、式、グラフィカルな表現、例を含む詳細な説明があります。

チートシート: 最も包括的な統計学チートシート

リンク: https://terenceshin.medium.com/week-2-52-stats-cheat-sheet-ae38a2e5cdc6

内容: 一般的に前のチートシートと同じようにトピックを1つまたは2つカバーしています。ただし、ここで説明されているほとんどの統計学の概念は異なります。データ型、中心傾向の測定(平均、中央値、モード)、変動の測定(範囲、分散、標準偏差など)、変数間の関係の測定(共分散および相関)、確率分布関数、連続および離散データ分布、モーメント、および正確性が含まれます。

チートシート: 統計学チートシート

リンク: https://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf

内容: 一般的に前の2つのチートシートでカバーされていないものは何もカバーしていません。ただし、理論的な説明に加えて、このチートシートには、質問された概念を理解するのに役立つ非常に詳細な例があります。

アルゴリズム&モデル

先に述べたすべてのトピックは、通常、究極のデータサイエンティストのタスクの基礎となります:アルゴリズムの作成とモデルの作成。これは、統計学とコーディング知識が出会う場所であり、アルゴリズムとモデルをカバーする役立つチートシートを見つける必要があります。

チートシート: トップ予測アルゴリズム

リンク: https://blog.dataiku.com/machine-learning-explained-algorithms-are-your-friend

内容: このチートシートは、機械学習を一般的な用語で説明し、最も一般的なアルゴリズムである線形回帰、ロジスティック回帰、決定木、ランダムフォレスト、勾配ブースティング、およびニューラルネットワークについて説明しています。各アルゴリズム、その利点、および欠点を説明するインフォグラフィックが非常に素晴らしい機能です。

チートシート: あなたの究極のデータサイエンス統計学&数学のチートシート

リンク: https://towardsdatascience.com/your-ultimate-data-science-statistics-mathematics-cheat-sheet-d688a48ad3db

内容: 機械学習メトリックの詳細な説明。分類器メトリック、回帰器メトリック、統計指標、および分布の種類についてカバーしています。説明は詳細で、明確なグラフィカルな表現、式、および例が含まれています。

チートシート: 機械学習モデルのチートシート

リンク: https://medium.com/analytics-vidhya/machine-learning-models-cheatsheet-7885b33ca44f

内容: 再び、機械学習のアルゴリズムに焦点を当てた非常に詳細なチートシートです。説明は詳細で、例や各アルゴリズムの構築手順が含まれています。著者は、以下のトピックをカバーしています:複数の線形回帰、決定木回帰、ロジスティック回帰、ナイーブベイズ分類器、バイナリ分類器のパフォーマンス評価、ROC曲線、サポートベクターマシン(SVM)、ランダムフォレスト、k-meansクラスタリング、k-nearest neighbors、階層的クラスタリング、主成分分析(PCA)、線形判別分析(LDA)、テキストデータの処理、ランキングアルゴリズム。

結論

この記事では、コーディング、データ構造、データ操作、データ可視化、統計&確率、およびモデル&アルゴリズムについて説明しました。もちろん、データサイエンティストとしてカバーする必要があるトピックはこれらだけではありません。しかし、これらは、ほとんどのデータサイエンティストがキャリアで必要とするトピックです。

私がお勧めするチートシートは、問題のトピックを最もよくカバーしていると思われる優れたチートシートの絞り込まれたリストです。それらはほとんどの場合においてあなたをカバーしてくれるでしょうし、少なくとも良い出発点になると思います。

Nate Rosidiさんはデータサイエンティストであり、プロダクト戦略に携わっています。彼はまた、アナリティクスを教える非常勤教授であり、StrataScratchの創設者でもあります。StrataScratchは、トップ企業からの実際の面接質問でデータサイエンティストが面接の準備をするのを助けるプラットフォームです。彼とはTwitterのStrataScratchまたはLinkedInでつながってください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more