エンターテイメントデータサイエンス:ストリーミングvs劇場

エンターテイメントデータサイエンス:ストリーミングと劇場の対決

異なる点も、類似点もあるように

Krists Luhaersによる写真(Unsplash)

Toward Data Scienceのエンターテイメントデータサイエンスの次なる領域という私の記事では、データサイエンスがコンテンツライフサイクルのさまざまなフェーズでどのように適用されるかを述べている。脚本のグリーンライトを決定すると、製作コストを最適化する方法を決定するといったように、データサイエンスの応用がどのように異なるかを想像するのは容易ですが、一見似ているように見える文脈でも、実際には著しく異なる点が存在することもあります。

約1年半前、大手映画会社で新しい仕事を始めました。ストリーミングテクノロジーの分野からの転職で、TVと映画のデータ両方ではなく、映画のデータにだけ取り組むことになりました。データを使用して人気のあるものを予測することはどれほど異なるのでしょうか?

さて、全く知識がなかったのです。

この業界はまったく異なります。質問も異なり、利害関係者も異なり、データも異なります。そのため、私はこの記事を2つの目標を持って書きたいと思いました。最初には当然のことですが、エンターテイメントデータのプロフェッショナルを志す初心者に、劇場とストリーミングの文脈でデータサイエンスがどのように異なるかを示すことです。ただし、このような変化は、予測によってXを使用してYをするという同じような仕事をすると思っているが、実際にはXとYの両方が全く異なる場合でも、様々な業界で発生する可能性があるため、2番目のより広範な目標は、ある仕事が表面上は機能的に類似しているように見える場合でも、データやビジネスに関連する質問に本当に深く掘り下げると、異なる点がいくつも存在することをすべての分野のデータプロフェッショナルに理解してもらうことです。

そこで、以下には、ストリーミングエンターテイメントデータサイエンスから劇場エンターテイメントデータサイエンスへの転換後の私の主な観察結果をいくつか挙げます。当たり前すぎるポイントは省略しますが、主要なトレンドに触れます。もちろん、これらすべてが真理の教訓というわけではありません。事業やチームリーダーシップ、その他の要素によって個人の経験は異なるかもしれません。さらに、エンターテイメントのコンテンツライフサイクルの早いフェーズでデータサイエンスが役割を果たす可能性があると述べたとしても、この記事はリリースに近いより下流プロセスでの経験から得られたものです。あえてあいまいにしているのは、秘密主義には触れたくないからです 😉

Joshua Sortinoによる写真(Unsplash)

データの範囲

最も明らかな違いは、データの範囲の違いです。劇場のデータサイエンスでは、主要な分析単位は映画、おそらく映画-国の組み合わせであり、特定の国、特定の年に公開される映画は限られています!

これは、劇場側でより細かいレベルで入手されるより大規模なデータセットを使用しないわけではありません。これらのデータセットは一般的にタイトルまたはタイトルの要素に関連付けられており、タイトルに関連する洞察を生成するためにこれらを処理することがあります。ただし、重要なポイントは、タイトルのスペースがデフォルトで小さいため、データの範囲も小さいということです。劇場領域では、ストリーミング領域で可能な個別レベルの消費洞察を得ることができる日が来ることを願っていますが、少なくとも今の状況ではそれは事実ではありません。

Michael Maraisによる写真(Unsplash)

歴史的なデータなし

ストリーミングでは、ほとんどの場合(ストリーミング専用のリリースを除く)、かなりの量の歴史的データが利用できます。映画興行収入はいくらだったか?公開当時のソーシャルメディアの反響はどうだったか?Rotten Tomatoesでの評価はどうだったか?

しかし、劇場でのデータ分析では、このような贅沢な情報は得られません。確かに、キャスト、スタッフ、ジャンル、またはそれらの組み合わせの過去のデータを一部活用することはできますが、そうしたデータポイントは通常、文字通りの歴史的データほど特定のタイトルに結びつかないでしょう。さらに、このような比較は主観的な懸念や外部の混乱要因によっても影響を受ける可能性があります。どのタイトルが他のタイトルと本当に比較可能であるかはどのように決定されるのでしょうか?マーケティングやマーケティングキャンペーンの違いが、大衆のタイトル同士の類似性の認識にどのような役割を果たすのでしょうか?

* はい、シリーズやフランチャイズはこのルールの一部例外ですが、セカンド映画依存症や類似性の前提に過度に頼るのは危険です。前作の成績が後続作品の優れた推測になる場合が多いですが、フランチャイズは時間とともに勢いを失ったり、過分化されたり(新キャラクター/プロットおよび過去のタイトルとの弱い関連)、以前のタイトルの成績が新しいタイトルの成績を予測する上では無意味になる場合があります。

写真:Scott Graham氏によるUnsplash

非常に具体的なデータ

スタートアップのストリーミング技術の領域で、テックの人々によって運営されるデータチームから来た私は、需要に応じてどのようなデータセットが役立つかについて多くの時間を費やしました。そのような研究の過程で、さまざまなニーズに適した obscura なデータセットを見つけ、高価なライセンスで販売されるベンダーのデータを安価に収集する方法を調査しました(たとえば、高価なライセンス料を支払わずに Google の検索データを入手する方法は?)。

一方で、劇場側では、標準や慣習が非常に確立されているように見えます。業界全体でほぼすべての人が利用している特定の消費者データやソーシャルメディアのデータセットやデータセットタイプがあります。たとえば、ソーシャルリスニングは明らかな現代のデータソースとして思い浮かびますが、主要なベンダーが詳細なリリース前およびリリース後の消費者データを提供しており、これらのベンダーのいくつかは数十年にわたって存在しています。これらは、直接の劇場のスペース外の多くの人が聞いたことがないようなデータセットの種類ですが、この領域にいると、これらのデータセットについて話すことしかなくなります。

写真:Marten Bjork氏によるUnsplash

ウィンドウなし(または、単一のウィンドウ)

ストリーミングの領域では、利用可能なウィンドウの範囲 – ある程度は利用の仕方 – が分析において非常に重要な要素です。このようなウィンドウは、コンテンツに関連するさまざまな要因(たとえば、タイトルがクリスマスに関連しており、ウィンドウがクリスマスウィンドウであるかどうか)や市場レベルの要因(たとえば、タイトルがトップページで目立って表示されているかどうか)と相互作用することができます。

劇場のデータ分析では、これらの懸念はほとんど存在しません – もしくは、より正確には、「このタイトルを作るべきか?」や「いつこのタイトルをリリースすべきか?」という上流モデリングを行っている場合を除きます。ウィンドウの要因に関する懸念は、多くの場合、(おそらく)リリース日があなたが関与するまでに既に決まっている形であらかじめ定められています。気にする必要があるウィンドウは1つだけです(スタガードなリリース日について心配する必要がある場合を除き、それはまた別の話です)。そして、権限を持つ人々がそれがいつであるかを既に決定しています。今度は、そのウィンドウの文脈でできるだけ有用な洞察を提供するための最善の方法を見つける必要があります。

写真:Christian Joudreyさん撮影、Unsplashより引用

ビジネスへの重点強化

ストリーミング側では、何十万ものタイトルや視聴者に関するデータがあったため、それらを数値的に扱うことは容易でしたが、そのような哲学は手法にも反映されていました。要約統計だけでなく、すべてを何らかのベクトル埋め込み(つまり、何らかの人間に観測できない次元の集合にまたがる数値の系列)に変換することも一般的でした。しかし、それが解釈可能性のコストとなる場合があります。「コンテンツの次元2はモデルで最も重要な変数です」と言えても、実際には何も意味しません。

一方、映画側では、数字以上のビジネスに重点が置かれています。データは単に数値だけのために存在するのではなく、組織内のさまざまな関係者に提供できる実践的な洞察を提供するために存在します。それらの多くはデータサイエンティストではなく、日々データを扱っていない人々です。正確な予測をすることは重要ですが、解釈可能性も同様に重要であり、わずかな数パーセントのモデルエラーを減らすためだけに解釈可能性を捨てる必要はありません。その結果、私は自分の仕事においてビジネスと視聴者の両方により繋がっていると感じています。

キーポイントと結論

エンターテイメント業界内でストリーミングから映画へのジャンプを考える中で、上記のさまざまなトピックに触れましたが、根本的なテーマは同じ業界内の2つの類似した仕事の間を行き来する人に関連する質問をすることです。それでは、ストリーミングと映画のデータサイエンスの違いに基づいて、次の仕事が前の仕事とほとんど同じことだと仮定する前に、以下の質問についてもっと深く考えてみる価値があります。

  • データの範囲:データの単位は何ですか?データはどのくらいの頻度で追加され、そのたびにどれくらいの単位があるのですか?その結果、データセットのサイズはどれくらいで、そのようなデータセットを扱うためにどのようなツールが必要ですか?
  • 過去のデータの入手性:利用可能な過去のデータはどのようなものですか?利用可能な過去のデータは直接的な適合性を備えていますか、それとも何らかの集計、補完、または類似性分析が必要ですか?
  • データソース:どのようなデータソースが使用されていますか?データソースは一般的に関連性があるのか、それとも非常に文脈固有のものですか?新しいデータソースを試すための余地はどれくらいありますか、または既存のデータソースを置いておく余地はどれくらいありますか?みんなが使用する確立された一般的なデータセットは何ですか?
  • 時間要素:特定の質問における関連する時間枠はどれくらいですか?それはどのように決定されますか?単一の時間枠なのか、それとも複数の時間枠で、固定されているのか移動しているのか?仕事において時間と関連する要素(季節性、休日など)をどのように考慮する必要がありますか?特定の時間枠がビジネスにとって他よりも興味深いのですか?
  • ビジネスの重点:聴衆は誰ですか?それに応じて、正確さと解釈可能性のバランスをどのように確立する必要がありますか?それがどのようにして便利な機能の種類に影響を与えるのですか?ビジネスのペースが仕事のペースを押し進めるのはどのようになりますか?

明らかに、わたしは現在の職位に採用された理由は、私のスキルセットが仕事の職務に関連しているためであり、私がすることは以前にやっていたことに似ています。しかし、映画側のデータサイエンスは、ストリーミング側と同じくらい似ていると同時に異なるものです。上記で詳述したように、データは異なり、プロセスは異なり、期待も異なります。もしエンターテイメントデータサイエンスの魅力的な分野に参入したいか、自分の業界で類似したが異なる仕事への転職を考えている場合は、この記事が役に立つことを願っています!

執筆時点で、Danny Kim(博士号取得、ペンシルベニア大学;フォーブス30 Under 30 2022)はソニー・ピクチャーズ・エンタテインメント・モーション・ピクチャー・グループのマーケティングアナリティクス&インサイトチームのシニアデータサイエンティストです。ダニーは以前、Whip MediaとParamount Picturesで働いており、ペンシルベニア大学とUSCのアンナバーグ・コミュニケーション学部、ウォートン・スクール、USCシネマティックアーツ学部の卒業生です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more