「生成AIの組織化:データサイエンスチームから得た5つの教訓」
Organizing Generative AI 5 Lessons from the Data Science Team
LLMは非常に大きな約束を持っていますが、持続可能な価値を生み出すには、単なる優秀なチームだけでは不十分です
おめでとうございます!
エグゼクティブリーダーシップが新しいGen AIの機能を組織全体に組み込むと漠然と約束した後、あなたの優秀なチームはMVPを作成するためにスプリントしました。OpenAI APIをアプリケーションに統合することはそれほど難しくなく、実際に役立つことがあるかもしれません。
しかし、今後はどうなるのでしょうか?優秀なチームは永遠にスプリントすることはできません。各メンバーには、組織内で再び彼らの時間と焦点の大部分を必要とする別の役割があります。
言うまでもなく、このプロジェクトでは無視され急いで実施された典型的なプロセスと構造には理由があります。製品の適合性、開発から運用への移行、およびコストの最適化などを確保するために非常に重要です。
考えてみると、プロジェクトが完了した今では、次のラウンドのLLMモデルや他のGen AI製品の機能をスケーリングするのに役立つプラットフォームインフラストラクチャは実際にはありません。
あなたのデータ組織内でGen AIチームの構造とサポートをどのように考えるか、そろそろ考える時が来たようです。そして、それらの洗練された製品デモがプロセスを簡単に見せるように、先行している困難な状況が見えてきます:
- 数少ない主要なテック企業の1つでない限り、データサイエンスとGen AIの専門知識は希少です。この時点では、誰も実際には重要な経験を持っていません。誰もが初めて経験しているのです。
- ビジネスはGen AIを求めていますが、まだなぜそれが必要なのかははっきりしていません。その技術は興奮させるものですが、具体的なユースケースは曖昧です。展開の維持についての経験はほとんどありません。
- エコシステムは一夜で芽生えましたが、サポート技術やベストプラクティスはまだ熟成していません。リスクは一般的に予測できず、不確実性が高いです。
もしこれがおなじみのものに聞こえるなら、それはおなじみのものです。データサイエンスチームは過去5年間ほどの間に、これらの問題に直面しました。
それは苦い経験でした。2020年には、Gartnerが機械学習プロジェクトのうちわずか53%がプロトタイプから本番環境に移行したと報告しています。これはある程度のAIの経験を持つ組織での数字です。データ主導の文化を開発しようとしている企業にとっては、この数字はおそらくはるかに高く、失敗率の推定値は90%近くに達することもあります。
ニューヨークタイムズでデータチームを率いた経験がある私としては、組織の構造、プロセス、およびプラットフォームがこれらのイニシアチブの成功にどれほど重要かを証言できます。
また、さまざまな企業規模や業界の数百のデータリーダーと話をしてきましたが、彼らは共通の一連の学びを表明しています。これらのベストプラクティスは、データサイエンスチームの血、汗、涙を通じて得られたものであり、長期的なGen AI戦略とチーム構造を考えるすべてのデータリーダーの心に留めておくべきです。
レッスン1:構造的なトレードオフと成熟度のカーブを理解する
マラソンをするためには何のトレーニングもなしに目覚めることはできないように、組織も優れたデータチームに似たGen AI組織の構造を作り出すことは、運用の筋力を強化するまでできません。
この点で最も一般的な間違いの1つは、急いで分散化し、会社全体に埋め込もうとするため、人材プールをあまりにも広げることです(おそらくデータメッシュ内)。ビジネスに対する理解と近接性を得る一方で、持続的な価値創造は難しいです。
成功のポケットがあるかもしれませんが、これらはしばしば1人または2人の自己主導型の才能に結び付いています。データサイエンスの才能は希少であり、独立して高い価値のあるプロジェクトを特定し、優先順位を付け、伝え、実行できるシニアデータサイエンスの才能はさらに希少です。
これらの才能ある個人が去った場合、制度的な知識、コードベース、およびプロジェクトの勢いも一緒になくなることがしばしばあります。生き残ったチームメンバーは、これらの放棄されたプロジェクトによって残されたアーティファクトの目的と意味を解読しようとする考古学者の役割を強いられます。ほとんどの場合、ほぼゼロから再開することになります。
コンサルティングモデルは、小規模なデータサイエンスおよび機械学習チームにとってしばしば成功したアプローチとなっています。これにより、最優先のプロジェクトに集中できる人材の集約が実現されます。回避する必要のある潜在的なデメリットは、中心のエクセレンスセンターが、教授が好むかもしれないゴールドプレートのモデルを生成するラボにならないようにすることですが、ビジネスの課題に合わせていない場合があります。
チームが大きくなり、成熟度のカーブを上昇するにつれて、やや異なる組織構造がより適切になります。通常、特化したモデルでは、データサイエンスおよび機械学習のリソースをいくつかの高い価値を持つ問題に集中させ、関連するビジネスドメイン内に展開されたチームを配置します。
このような状況は、機械学習が製品の中核的な要素(たとえば個別化や詐欺検知)であり、製品やエンジニアリングチームとの関連性が中核データチームとの関連性よりも重要な場合に最も一般的に発生します。通常、中核データチームは、特化したチームから独立してデータサイエンスに投資しています。
このモデルは成功する可能性がありますが、無駄やサイロを生み出す可能性もあります。たとえば、中央のチームと特化したチームの両方が、ほとんど共有されたサービスを持たないカスタマイズされたプラットフォームを通常使用しています。製品ドメイン内のストリーミングイベントデータは、中央チームによって収集されたカスタムデータによって豊かにすることが有益であるかもしれませんが、その接続は決して行われないかもしれません。
もう一つの後期の組織構造は、「プラットフォーム」モデルとして説明できます。埋め込み型および特化型モデルは、ビジネスドメイン全体での可視性と一体性の欠如に苦しむ場合があります。各データサイエンスの問題に対して独自のフルスタックソリューションを持つため、ドメインごとに同じタイプの問題を解決する多くのチームがあるにもかかわらず、内在的な類似性が存在します。
解決策は、ビジネスドメインや垂直からの意図的な分離を作成し、それらのオペレーティングモデルを過度にフィットさせないようにすることです。他の水平プラットフォームチームと同様に行う必要があります。
機械学習をプラットフォームの追求として扱うことの主な利点は、各MLアプリケーションの価値が実証された後に共有プラットフォームインフラストラクチャに投資できるため、新しいアプリケーションの展開と維持のリソースとコストが低下することです。この投資は、まずは適用チームへの投資に比べて小さいものであり、それによって適用チームが比較的独立して運営し、ビジネスパートナーの長期目標を追求できるようにします。
このプラットフォームモデルでは、GenAIチームをアプライドチームの1つとして作成し、そのスタックを必要に応じて調整するためのマンデートとエンジニアリングリソースを持つようにします。同時に、他のプラットフォームチームと協力して、組織に持続的な価値を提供するインフラストラクチャと標準を再利用します。多くのチームにGen AIを広げようとするよりも、このモデルを強くお勧めします。重要な質量が重要です。
レッスン2:ビジネス機能ではなくユースケースに基づく組織化
最近、私はこの記事のインスピレーション元であるメディア企業のデータリーダーと話をしました。彼らは、データサイエンスチームがドメイン(この場合はメディアプロパティ)に基づいて組織化されていると述べました。
データサイエンスチームは、各ドメイン内で同じタイプのプロジェクトに取り組んでいます。具体的には、記事推奨アルゴリズムです。各ドメインは、それぞれの問題に特化したフォーカスの恩恵を受けており、データサイエンスチームはそれぞれのビジネスと編集パートナーに近い位置にあることから恩恵を受けています。しかし、この組織構造のデメリットも明らかになりました。才能の無駄な配置や共有インフラストラクチャの不足、多くのチームが同じタイプのコンテンツランキングの問題を解決しているにもかかわらず。
ニューヨーク・タイムズでは、データサイエンスチームを共通の問題を中心に組織化することが効果的であるとわかりました。モデルが1つのドメインで証明された後、別のドメインの固有の入力と制約に合わせて微調整や変更を行う方が、2つのチームが並行して2つのモデルを作成するよりも一般に効率的です。論理的な観点からも、プロトタイプを構築する方が製品を作るよりも常に時間がかかります。
Gen AIも同じように考えられるべきです。テクノロジーに適した高い価値のユースケースに焦点を当てるチームを作り、イベントマーケットプレイスの個別化された座席の提案やメディアサイトの言語ローカライゼーションなどの解決策を他のドメインに適用します。
レッスン3:長期的な価値と難しい問題に焦点を当てる
「長期的」という言葉には、テックとデータの世界では、最高データ責任者の寿命とピーナッツバターの保存期間がほぼ同じくらいの意味があります。
プロジェクトの終了パーティの時間に目標はまだ問題になっているでしょうか?新しいモデルがイテレーションを重ね、追加の価値を見つけることができる5年後には、それはまだ必要ですか?
現実的には、既製のモデルを活用していない限り、機械学習とGen AIの取り組みは高額になる可能性があります(ただし、LLMsは急速に商品化されています)。ユースケースに適したよく訓練されたモデルを開発するには、数か月、場合によっては数年かかることもあります。
他の代替手段と比較して、その価値が高いことを期待しています。例えば、Facebookの広告費の最適化を目的とした機械学習モデルは魅力的に聞こえるかもしれませんが、これは広告プラットフォーム内でネイティブに行われていることに気付いた時にはそうでもありません。
それにもかかわらず、長期的な価値に焦点を当てることは、最初のリリースを2025年に予定しているようなロードマップを作成することを意味しません。
レッスン4:ビジネススポンサーとAIチームをパートナーシップに
では、データサイエンスと生成AIチームが重要なビジネス問題に集中するようにするにはどうすればよいでしょうか?ビジネススポンサーと組み合わせてください。
新しい技術の革新的な応用を見つけることは、線形の旅ではなく、回り道が予想されます。ビジネススポンサーとの強力なパートナーシップは、チームが事業価値から遠く離れることなく、未開拓の領域を探索することを確実にするコンパスの役割を果たします。私はまた、チームの視点をチーム間で共通する問題の範囲を超えて広げる効果もあると考えています。
強力なビジネススポンサーは、チームが旅の途中で必要なリソースを十分に提供し、内部のプロセスや政治に関連する困難な領域をナビゲートするのに役立ちます。このナビゲーションの一部は、一貫したバックエンドとフロントエンドのエクスペリエンスを提供するために、チーム間のロードマップを整合させることを要求する可能性があります。
これらの取り組みはクォーターをまたぐ可能性が高いため、経営陣の関与も早期にこれらのプロジェクトが中止されないようにするために重要です。
レッスン5:データプラットフォームの前提条件を理解する
機械を作る機械を作ることは、最終製品を生産するよりも常に困難です。これは、車を生産する工場であるか、大規模な言語モデルの開発と本番化に使用されるデータプラットフォームであるかに関係ありません。
ビジネスリーダーは常にビジネス目標を念頭に置いており、目標達成に必要なデータプラットフォームへの投資をしばしば見落とします。彼らは悪意を持っているわけではなく、データの専門家であるあなたに必要なものを伝えるように依存しているだけです。
例えば、機械学習チームは、特徴ストアやMLopsソリューションの構築や購入に投資してきました。クラウドデータ環境、データ品質、および周囲の付加機能への基本的な投資に言及するまでもありません。
GenAIの取り組みでは、データプラットフォームとデータパイプラインアーキテクチャの大部分は変わらないでしょう(まだモダンなデータスタックに投資していない場合は、それが出発点です)。発見可能な高品質のデータがなければ、Gen AIプロジェクトは実現できません。ただし、モデルのホスティング、キャッシング、AIエージェントフレームワークなど、まだ発明されていない多くの追加ソリューションもあります。
過去から学ぶか、それを繰り返すか
Gen AIは破壊的な技術であり、大規模に活用するための学習は痛みを伴う教訓の新しいコーパスを作り出すでしょう。ただし、ゼロから始める必要はありません。データサイエンスとGen AIチームを長期的な成功に向けて構築してください。
この記事はMichael Segnerと共同執筆されました。
VoAGIで私のデータリーダーシップやデータサイエンスの応用、関連するトピックについてのさらなるストーリーをフォローしてください。ストーリーを受け取るためには、購読してください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Amazon SageMaker プロファイラーのプレビューを発表します:モデルトレーニングのワークロードの詳細なハードウェアパフォーマンスデータを追跡および可視化します」
- 「アナリストとデータサイエンティストにとっての5つの一般的なデータガバナンスの課題」
- 「LLMsが幻覚を見るのを止めることはできますか?」
- 「エンティティ解決とグラフニューラルネットワークを用いた詐欺検知」
- 「Maxflow Mincut定理の発見:包括的かつ形式的なアプローチ」
- 「iOSのための10の最高のデータ復旧ツール(2023年8月)」
- 「ビジネスはマルチリンガル製品分類器の精度をどのように改善できるのか?このAI論文では、訓練データが限られた言語における分類精度を高めるためのアクティブラーニング手法であるLAMMを提案しています」