モデルの精度向上:Spotifyでの機械学習論文で学んだテクニック(+コードスニペット)

モデルの精度向上:Spotifyの機械学習論文から学んだテクニック(+コードスニペット)

頑固な機械学習モデルを改善するためのテックデータサイエンティストのスタック

この記事は、Spotifyでの私の機械学習論文からの学びを記録した2部作の一部です。この研究での特徴の重要性の実装方法についてもぜひ確認してください。

2021年、Spotifyでの私の論文の一環として、ユーザー満足度を測定する予測モデルの構築に8ヶ月を費やしました。

Image by Author

私の目標は、ユーザーが音楽体験に満足している要因を理解することでした。それには、LightGBM分類器を構築しました。その出力はバイナリな応答であり、y = 1 ならばユーザーは満足している、y = 0 ならばあまり満足していないという意味です。

人間の満足度を予測することは難しい課題です。人間は定義上、満足していません。機械でさえも人間の心理の謎を解読するのは難しいです。そのため、私のモデルは自然と混乱してしまいました。

人間の予測者から占い師へ

私の正解率は約0.5で、これは分類器で得られる最悪の結果です。これはアルゴリズムが「はい」または「いいえ」を予測する確率が50%であり、人間の推測と同じくらいランダムです。

そのため、私は2ヶ月間、異なる技術を試して組み合わせながらモデルの予測を改善しようとしました。結果として、私はROCスコアを0.5から0.73に改善することができました。これは大きな成功でした!

この記事では、モデルの正確性を大幅に向上させるために使用した技術を共有します。モデルがうまく動かない場合に役立つかもしれません。

この研究の機密性のため、敏感な情報を共有することはできませんが、混乱しないように最善の努力をするつもりです。

#0. データの準備

使用した方法に入る前に、まず基本を押さえておく必要があります。これらの方法のいくつかは、変数のエンコードやデータの準備に依存しています。コードの一部も参照しています…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

マシンラーニングのロードマップ:コミュニティの推奨事項2023

前回の記事で、このロードマップの第1部では、機械学習のための出発点と方向性について簡単に説明しました初心者が堅固な基盤...

データサイエンス

『nnU-Netの究極ガイド』

「画像セグメンテーションの主要なツールであるnnU-Netについて、詳細なガイドに深く入り込んでください最先端の結果を得るた...

機械学習

「オープンソースモデルと商用AI/ML APIの違い」

「最近数ヶ月間、おそらく多くの議論に遭遇したことでしょうそれは、大規模言語モデル(LLM)に対してオープンソースのAPIを...

AIニュース

‘未知に挑む検索 強化生成 (RAG) | AIが人間の知識と出会う場所’

導入 私たちの高速なデジタル世界では、人工知能はその驚くべき能力で私たちを驚かせ続けています。その最新のブレイクスルー...

データサイエンス

自然言語処理のタクソノミー

「異なる研究分野と最近の自然言語処理(NLP)の進展の概要」

人工知能

「責任あるAIの推進のための新しいパートナーシップ」

「本日、Google、Microsoft、OpenAI、Anthropicが共同でフロンティアモデルフォーラムを設立することを発表しました」