CatBoost回帰:分かりやすく解説してください

CatBoost回帰の解説を分かりやすくしてください

CatBoostの内部動作の包括的な(かつ図解された)解説

CatBoost(カテゴリカルブースティング)は、カテゴリカルな特徴量の扱いに優れ、正確な予測を行う強力な機械学習アルゴリズムです。伝統的に、カテゴリカルデータの扱いはかなり難しいものであり、ワンホットエンコーディング、ラベルエンコーディング、または他の前処理技術が必要であり、これらはデータの固有な構造を歪める可能性があります。この問題に対処するために、CatBoostは独自の組み込みエンコーディングシステムである「Ordered Target Encoding」を使用します。

実際にCatBoostがどのように機能するかを見てみましょう。Goodreadsでの平均書籍評価とお気に入りのジャンルに基づいて、誰かが本「Murder, She Texted」をどのように評価するかを予測するモデルを構築します。

6人に「Murder, She Texted」を評価してもらい、それらに関連する他の情報を収集しました。

これが現在のトレーニングデータセットであり、データをトレーニングするために使用します。

ステップ1:データセットをシャッフルし、「Ordered Target Encoding」を使用してカテゴリカルデータをエンコードする

カテゴリカルデータを前処理する方法はCatBoostアルゴリズムの中心的な要素です。この場合、カテゴリカルな列は1つだけであり、「お気に入りのジャンル」です。この列はエンコードされ(離散的な整数に変換され)、エンコード方法は回帰問題か分類問題かによって異なります。この場合、予測したい変数「Murder, She Texted Rating」が連続値であるため、回帰問題として扱います。以下の手順に従います。

1 — データセットをシャッフルします:

2 — 連続的な目標変数を離散的な「バケット」に入れます:ここではデータが非常に少ないため、同じサイズの2つのバケットを作成して目標変数を分類します(バケットの作成方法の詳細はこちらをご覧ください)。

「Murder, She Texted Rating」の最小値3つをバケット0に入れ、残りをバケット1に入れます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...