「エンコーディングからエンベディングへ」

From Encoding to Embedding

概念と基礎:SVDからニューラルネットワークまで

credit: https://unsplash.com/

この記事では、データ表現と機械学習の分野における2つの基本的な概念、エンコーディングと埋め込みについて話します。この記事の内容は、スタンフォード大学のCS246 Mining Massive DataSet(MMDS)コースでの講義の一部を参考にしています。役に立つと思います。

イントロダクション

すべての機械学習(ML)手法は、入力特徴ベクトルで動作し、ほとんどの場合、入力特徴は数値である必要があります。MLの観点から、以下の4つの特徴のタイプがあります:

  1. 数値(連続または離散):数値データは連続的または離散的なデータで特徴付けることができます。連続データは範囲内の任意の値をとることができ、一方、離散データは明確な値を持ちます。連続的な数値変数の例は「身長」であり、離散的な数値変数の例は「年齢」です。
  2. カテゴリカル(順序または名義):カテゴリカルデータは、目の色や出身地などの特性を表します。カテゴリカルデータは、順序または名義のいずれかになります。順序変数では、データは特定の方法で順位付けられた順序付けられたカテゴリに分類されます。例としては、「スキルレベル」([`初心者`、`中級`、`上級`])があります。名義変数には値の間に順序がありません。例としては、「目の色」([`黒`、`茶色`、`青`、`緑`])があります。
  3. 時系列:時系列は、一定の間隔で収集された数値のシーケンスです。このデータは、以前の変数とは異なり、時間順に並べられています。米国の年間住宅価格の平均などが例です。
  4. テキスト:任意のドキュメントはテキストデータであり、通常は「単語の袋」として表現されます。

MLモデルに任意の変数を入力するには、それらを数値に変換する必要があります。エンコーディングと埋め込みの両方のテクニックがこのトリックを行います。

エンコーディング

エンコーディングは、テキスト、画像、音声などの生データをコンピュータが簡単に処理できる構造化された数値形式に変換するプロセスです。カテゴリカル変数をエンコードする方法は2つあります:

1️⃣ 整数エンコーディング

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

ジョシュ・フィーストは、CogitoのCEO兼共同創業者であり、感情と会話AIを組み合わせた革新的なプラットフォームを提供するエ...

人工知能

「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 - インタビューシリーズ」

ソフトウェアエンジニアリングの副社長として、DougはCornelis Networksのソフトウェアスタック全体、Omni-Path Architecture...

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ピーター・マッキーはSonarのDeveloper Relationsの責任者です Sonarは、悪いコードの1兆ドルの課題を解決するプラットフォー...

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...

人工知能

「Ami Hever、UVeyeの共同創設者兼CEO - インタビューシリーズ」

עמיר חבר הוא המנכל והמייסד של UVeye, סטארט-אפ ראיה ממוחשבת בלמידה עמוקה, המציבה את התקן הגלובלי לבדיקת רכבים עם זיהוי...