機械学習を用いたサッカータッチダウンの予測

機械学習を活用したサッカータッチダウン予測の革新' (Kikai Gakushū o katsuyō shita sakkā tacchi daun yosoku no kakushin)

フットボール。 全国のファンを一つにするアメリカの伝統的なスポーツ。1試合平均1670万回の視聴者とスーパーボウルLVIIでの1億1300万人の視聴者を持つこのスポーツは、 clearly beloved by many と言えるでしょう。私はこのゲームを分解し分析するために機械学習モデルを作成しました。それでは探求していきましょう。

まず、どのフットボールチームの攻撃でもキープレーヤーとなるべき選手を認識する必要があります: クォーターバックです。この選手はチームメートにボールを配り、ヤードを獲得したり、さらにはタッチダウンを得ることを目指します(ゲームの基本的なルールはこちらを参照してください)。タッチダウンは、全ての得点オプションの中で最も多くの得点を獲得することを reword teams with the most points しており、達成が困難ではありますが、通常攻撃では優先されます。もしタッチダウンにつながる要素を分析し、今後のシーズンで最も優れたクォーターバックを予測できたらどうでしょうか?

Keith Johnstonさんによる写真 on Unsplash

データ。 フットボールのデータは非常に多く存在します。私はこのGitHubのリポジトリで、1999年以降の遊びの流れのCSVファイルを見つけました(キープレーヤーの名前、獲得ヤード、完了パスなどを含む)。このような広範なデータ量のために、… 機械学習が必要なのです!

特徴。 機械学習モデルを作成する前に、タッチダウンと最も相関する特徴は何かを特定する必要がありました(データセットには372の特徴があります!)。さまざまな要素をテストしグラフ化することで、獲得ヤード、完了パス、パス全体、インターセプト、サックがタッチダウンと最も相関していることが分かりました。これらの要素は、タッチダウンに対して段階的に相関が低くなる傾向にあり、相関は因果関係とはイコールではないことを覚えておくことが重要です。例えば、クォーターバックがインターセプトを多く投げている場合、それは単に彼らが多くプレー/投げていることを示すだけであり、これはタッチダウンの数にも影響を与えるかもしれません。ラッシングがいくつかのクォーターバックにとって主要な得点手段であるかもしれませんが、このデータはリーグの全てのクォーターバックを対象としています。そのため、一部の外れ値ではパスよりも多くのタッチダウンを獲得することがあります。

同シーズンの統計とのタッチダウン相関

年々の変化。 明らかに、1年で特定のクォーターバックの統計はタッチダウンと相関しています。しかし、前のシーズンの統計データとタッチダウンの相関はあるのでしょうか?つまり、1シーズンのクォーターバックの統計データは、次のシーズンのパフォーマンスを示唆する可能性があるのでしょうか?私はこれを知る必要があり、これが将来のシーズンでどのクォーターバックが成功するかを予測する上で重要です。前のシーズンの統計とタッチダウンの関係をグラフ化してみると、相関がまだ残っていることが分かりました!さらに、今回は前のシーズンと現在のシーズンのタッチダウンの相関も含めることができます。残念ながら、相関は以前よりも弱くなってしまいましたが、それでも次のステップ、つまり機械学習へ進むことができます。

前のシーズンの統計とのタッチダウン相関

機械学習。 機械学習を利用することで、今後のフットボールシーズンでどのクォーターバックが成功するかを予測することができます。数学の授業で覚えるかもしれない、「線形回帰」というデータ解析手法は、既知のデータ(私たちが以前に決定した特徴)を使用して未知のデータ(タッチダウン)を予測するものです。線形回帰モデルは、トレーニングとテストの分割を使用して作成されました(シンプルな説明)。実際にはランダムフォレストモデルもテストしましたが、回帰モデルの方が良い結果が得られました。

そして、あなたは線形回帰モデルは本当に機械学習にカウントされるのか疑問に思っているかもしれませんね。実はそうです。なぜなら、これは統計的技術を用いて変数間の関係を予測したり推定したりするモデルをデータから学習することに関わるからです。これは機械学習の基本的な概念です。

外部要因。 クォーターバックが「優れている」とされるかどうかを決定するのに多くの要因が関与することは重要です。たとえば、クォーターバックのチームメイトや指導者、そして走力 vs パッシングなどの特定の強みなどが、すべて役割を果たします。これらの要因はトレーニングプロセスで考慮するのが困難であり、その影響は最終的な予測で見られるでしょう。そのため、私はこのモデルを単独の獲得タッチダウンに焦点を当て、全体のクォーターバックランキングではなくしました。

結果。 平均二乗誤差が7.4649であり(つまり、予測が平均で約7.5タッチダウンずれていることを意味します)、R二乗値が0.709である(これは説明変数が従属変数に強い効果を与えていることを意味します)、私はモデルがまあまあ機能したと言えるでしょう。でも待って、それあんまり素晴らしくないような気がする!以前にも述べたように、フットボールでは、けがや新人などの他の要素が関与します。私のモデルは、2021年のデータに基づいて2022年のトップタッチダウン獲得者のうち6人を正確に予測しましたが、誤った予測は年齢、けが、その他の要因によって説明されます。また、モデルを使用して、今後の23-24 NFLシーズンでのクォーターバックの成功を予測した結果、かなり成功しました!トップ10の最高タッチダウン獲得者予測は、Fox Newsのクォーターバック予測のうち7人に一致しましたが、けが、他のことに長けていること(パッシングではなくラッシングヤードなど)、前シーズンの低調さ、新しいチームなどによって誤った予測もありました。そして誰が知っているでしょう、多分私の予測は正確だとわかるかもしれません!

2023-2024年のNFLトップ10クォーターバックタッチダウン予測。(「Preds」とは、予測されたタッチダウンの合計を意味します)

これは何を意味するのでしょうか? 私は複雑なデータの中から複雑なパターンを見つけることで、クォーターバックのタッチダウンを合理的に高い精度で予測する機械学習モデルを作成しました。これは機械学習の威力を示し、その多岐にわたる応用の広がりを示しています。フットボールなどの特定の分野では、最善の判断をするために他の情報が必要であることを忘れないようにすることが重要です。しかし、誰が知っていますか?このモデルを使用することで、賭けやファンタジーフットボールリーグで勝利するのに役立つかもしれません。それでは、これと何か他にできることはありますか?もっとも顕著な応用は、チームとリーグ全体の分析です。私たちは過去の年のプレー別データからクォーターバックのタッチダウンを分析しましたが、他の情報も実装して使うことができ、クォーターバックの成功全般、異なるポジション、そしてチーム全体を分析するために使うことができます。フットボールデータ(またはスポーツデータ全般)を探求することによって、ゲームを変える洞察や予測が可能になります。スポーツを分析的な視点からアプローチすることは新しいことではありませんが、今日持っている最新の強力なテクノロジーを備えることは、私たちがゲームを理解し、分析し、優れた結果を得る方法を革新することに確かな効果をもたらすでしょう。

将来的には、機械学習を通じてコンピュータが完璧なブラケットを予測したり、最適なスポーツベットを作成したりすることができるかもしれません…

私のGitHubリポジトリでコードを見つけることができます。

以下に興味深い他のリソースと情報源をリストします:

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

自分のドキュメントで春のAIとOpenAI GPTが有用になるようにRAGを作成する

「RAGを使用して、Spring AIとOpenAI GPTを活用してドキュメント検索のエクスペリエンスを向上させる方法を発見しましょう自...

データサイエンス

RecList 2.0 オープンソースによるMLモデルの体系的なテストシステム

評価は複雑な問題です評価パイプラインの作成に関与するさまざまなコンポーネントを管理することはしばしば困難ですモデルが...

機械学習

科学者たちは、AIと迅速な応答EEGを用いて、せん妄の検出を改善しました

うつ病を検出することは容易ではありませんが、それには大きな報酬があります。患者に必要な治療を迅速かつ確実に行うことで...

機械学習

「このAIニュースレターはあなたが必要とするもの全てです #69」

Googleは、MicrosoftやAdobeといった企業に続き、彼らが提供するAIサービスの利用者を知的財産権侵害に関する訴訟から保護す...

AIニュース

生成AIにおけるプロンプトエンジニアリングの基本原則

導入 この記事では、生成型AIにおけるChatGPTプロンプトエンジニアリングについて説明します。ChatGPTは2022年11月以来、技術...

データサイエンス

「木々の中の森を見る:データ保存は鋭い目から始まる」

「成功したデータ保存戦略の開始は、細心の観察と詳細への確固たる焦点にかかっています」