「本当にあのキノコを食べるべきか?」
「あのキノコを食べるべきか?」
CatBoost勾配ブースティング決定木を使った食用と有毒なキノコの分類
ほとんどの教育および実世界のデータセットにはカテゴリカルな特徴が含まれています。今日は、カテゴリカルデータのネイティブサポートを提供するCatBoostライブラリから勾配ブースティング決定木を取り上げます。食用または有毒なキノコのデータセットを使用します。キノコは色、匂い、形状などのカテゴリカルな特徴で説明されており、私たちが答えたい質問は次のとおりです:
このキノコは安全に食べられるでしょうか — カテゴリカルな特徴に基づいて?
ご覧の通り、賭けは大きいです。私たちは機械学習モデルを正しく作成して、キノコオムレツが災害に終わらないようにしたいのです。 ボーナスとして、最後にカテゴリカルな特徴の重要度ランキングを提供します。これにより、キノコの安全性の最も強力な予測子がわかります。
キノコデータセットの紹介
キノコデータセットはこちらで入手できます:https://archive.ics.uci.edu/dataset/73/mushroom [1]。プレゼンテーションの明確さのために、元の難解な省略形の変数からpandasのDataFrameを作成し、適切な列名と長い形式の変数で注釈を付けます。データセットの説明から取得した長い形式の変数をpandasのreplace
関数に使用します。ターゲット変数はTrueとFalseの値のみを取ることができます — データセット作成者は疑問のあるキノコを食べられないと分類しました。
- 「2023年のトップAI画像から動画を生成するツール」
- AI生成コンテンツ:クリエイターにとってこれは何を意味するのか?
- 「ベストインクラスのセッションが開催中:新しいNVIDIA Studioノートパソコンがコンテンツ、ゲーム、教育を超高速化する」
欠損値のあるデータセットをチェックした結果、1つの列、stalk_root
だけが影響を受けていることがわかりました。この列を削除します。
データセットの探索により、データがかなりバランスしていることがわかります:8124個のキノコのうち、4208個は…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles