「AI開発でこれらのミスを com しないでください」

Please avoid making these mistakes in AI development.

準備に証拠あり

AIモデルを訓練することは簡単に聞こえるかもしれませんが、ニューラルネットワークにデータを与えるだけでAIが完成するわけではありません。実際には、適切なモデルを開発するためには数多くの要素が関与します。

品質の高いAIの展開は、準備と継続的な反復と常時のモニタリングが90%を占めます。AIシステムを開発して実装することは、潜在的な落とし穴が多く存在する複雑なプロセスです。これらの欠点は、最適でない結果、リソースの非効率な使用、さらには重要な課題につながる可能性があります。

以下に、最高のAIモデルを開発するために知っておくべき10のAI開発の誤りがあります:

  1. データの前処理と品質の低さ
  2. 不適切なモデルの評価
  3. 正確な整列
  4. データのプライバシーを無視
  5. リアルタイムスケーリングの準備が不十分
  6. 過剰または不十分なトレーニング
  7. 非現実的なデータセットでのトレーニング
  8. バイアスの考慮漏れまたは対処の不十分さ
  9. AIモデルの理解可能性の必要性を見落とす
  10. モニタリングの怠り

データの前処理の問題

モデルに与えるデータの品質は何よりも重要です。例えば、電子商取引会社が購入履歴や行動に基づいて顧客に製品を推奨するためのシステムを開発しようとしたとします。データの品質が整理されておらず、適切でない場合、すぐに問題が発生する可能性があります。

ユーザーデータの欠落、ノイズやエラーのあるデータ、更新されていないデータは、間違った結果をもたらす可能性があります。顧客は関係のない製品の推奨を受けるかもしれず、ユーザーエクスペリエンスが低下し、売上の減少や推奨システムの開発への投資が損なわれる可能性もあります。

データの品質と整理に意識を向けて準備することで、はるかに良い結果が得られるでしょう。モデルのパフォーマンスは、与えられるデータの品質に反映されます。

正確なモデルの評価

データの他に、適切なモデルの選択も非常に重要です。データモデルを準備することはできますが、正しいモデルを使用し、どのモデルがどの目的に最適であるかを理解することは、優れたAI開発者にとって不可欠です。

たとえば、銀行がクライアントの口座申請に基づいて貸し倒れを予測するための機械学習モデルを使用した場合を考えてみましょう。銀行が過去のクライアントの正確性に基づいてモデルをトレーニングした場合、正確性のみをパフォーマンス指標として使用すると、将来の貸し倒れ者の重要な欠陥が隠され、潜在的な貸し倒れ者の数を知らずに受け入れることになります。

銀行のモデルは、適合率、再現率、F1スコアなどの他のパフォーマンス指標を使用するべきです。また、交差検証やAUC-ROC分析などの手法を使用して、モデルがクラス(貸し倒れ者、非貸し倒れ者)を区別する能力を特定することもできます。

正確なモデルの整列

開発者は通常、正確性、適合率、再現率、F1スコアなどの技術的なメトリクスに基づいてモデルを最適化することに焦点を当てます。これらのメトリクスはモデルのパフォーマンスの重要な尺度を提供しますが、収益生成、コスト削減、顧客満足度、リスク軽減などのビジネスメトリクスとは必ずしも直接的な関係がありません。そのため、技術的なAIメトリクスをビジネスメトリクスと整合させることは、望ましいビジネスの成果を達成するために重要です。

たとえば、クレジットカードの不正検出モデルを考えてみましょう。モデルの正確性やF1スコアを向上させることで、フラグが立てられるトランザクションが増えるかもしれません。これにより、正当なトランザクションが誤って不正としてマークされることが増える可能性があります。これには、アプリケーションやプラットフォームの使用性が低下するなどの重大なビジネス上の影響があります。

データのプライバシーを無視

データのプライバシーは、AIの世界における忘れられがちな重要な要素です。クールなアルゴリズムを設計したり、先端的なモデルを作成することほどエキサイティングには思えませんが、それを無視すると大きな問題を引き起こす可能性があります。

例えば、ユーザーの年齢、ライフスタイルの習慣、過去の医療歴などの個人データに基づいて潜在的な健康リスクを予測するAIシステムを開発するという素晴らしいアイデアを持つヘルステックスタートアップを運営していると想像してください。

最初は素晴らしいアイデアのように思えますが、このタイプのデータは非常に機密性の高い情報です。一般の人々が簡単に手に入れたいと思うような情報ではありません。適切な手続きを守らずにデータを収集し、保管し、使用すると、モデルは多数のデータプライバシー法を破る可能性があります。結果として、重い罰金や法的措置などの深刻な結果につながるでしょう。さらに、会社の評判を損なう可能性もあります。

ネット上で、ジェネレーティブAIが元のソースを引用せずに情報を盗むという話が出ています。これはMidjourneyやStable DiffusionのようなAIアートの場合に起こります。アーティストのスタイルがAIによって「コピー」されることがあります。公共のデータの使用に関する現在の政策は議論が続いています。個別に入手したデータは別の話です。ただし、ユーザーデータには常にユーザーの同意が必要です。

リアルタイムスケーリングの準備ができていない

エキサイティングな新しいアプリケーションのためにAIモデルを構築しています。これは各ユーザーに対して個別の出力を作成するためにAIを使用します。私たちはモデルを限られた人数でテストしました。それでアプリを立ち上げ、準備が整っていると思っています。しかし、突如としてアプリがバイラルになり、一度に何千人、あるいは何百万人ものユーザーがシステムにアクセスするようになりました。

このようなスケールに対応するための計画を立てていないと、AIモデルはリソースをオーバーロードして追いつくことができないかもしれません。そのため、リアルタイムスケーリングの計画を最初から立てることが非常に重要です。モデルが大量のユーザーをどのように処理するかを考え、効率的にスケールアップ(およびスケールダウン)できるように設計してください。インフラストラクチャがデータ処理の急増に対応できるようにし、増加するストレージのニーズを管理する計画を立ててください。

サーバーオーバーロードを防ぐためにユーザー数の上限を設定することはできますが、潜在的なユーザーが離れてしまう可能性もあります。ChatGPTが最初に立ち上がったときの状況を考えてみてください。それはわずか2か月で1億人のユーザーを抱える急成長するインターネットアプリケーションでした。ある期間、ユーザーは「容量がいっぱいです」というメッセージが表示されずにサイトにアクセスできませんでした。予想外のユーザーの急増に備えて、OpenAIはヘッダーのページでインフラストラクチャをアップグレードしていることをユーザーに伝えました。

無理に準備しすぎて、負担をカバーできないほどの巨額なスタートアップコストを負うことは避けてください。

過剰または不十分なトレーニング

オーバーフィッティングは、モデルがトレーニングデータをあまりにもよく学習しすぎるため、テストデータや実際のデータでパフォーマンスが悪くなることを指します。これは単なる暗記ではなく、応用推論の代わりになります。オーバーフィットされたモデルは一般化能力が欠如しています。モデルがトレーニングデータセットで過剰にトレーニングされると、オーバーフィッティングが発生することがあります。

L1(Lasso)やL2(Ridge)のような正則化技術を使用して、モデルの係数を制約するペナルティ項を損失関数に追加することで、オーバーフィッティングを防ぐことができます。

しかし、トレーニングが不十分な場合にはアンダーフィッティングが発生する可能性があります。この場合、モデルのデータに対する理解があまりにも単純すぎて、データの基本的な属性をキャプチャすることができません。モデルはトレーニングデータについて十分に学習していないため、実世界のデータでも同じようにパフォーマンスが悪くなります。

アンダーフィッティングに対処するためには、より複雑なモデル、追加の特徴量、より多くのデータ、または合成データを使用する必要があるかもしれません。ニューラルネットワークでのパラメータの数を増やしたり、決定木での最大深度を増やすことができます。

非現実的なデータでAIモデルをトレーニングする

研究者がモデルをトレーニングおよびテストする際には、クリーンで適切にラベル付けされたデータセットを使用することが多く、一般的には実世界のデータ分布を反映していません。そのため、結果はテストデータ上で優れたパフォーマンスを示すため、トレーニングデータと同じ分布を共有しているテストデータ上でうまく機能します。これは「インディストリビューション」のパフォーマンスと呼ばれます。

しかし、実際のシナリオでは、モデルがトレーニングされたデータとは異なる分布を持つデータ(「アウトオブディストリビューション」データ)に遭遇することがよくあります。データはノイズが多く、明確なラベルが少ない、またはトレーニングデータには存在しないクラスや特徴を含んでいるかもしれません。その結果、モデルのパフォーマンスは実世界で展開された場合に大幅に低下する可能性があります。これは「アウトオブディストリビューション」のパフォーマンスと呼ばれます。

この課題に対応するためには、「頑健なAI」という観点に重点を置くことが増えています。これは、アウトオブディストリビューションのデータに直面した場合でもパフォーマンスを維持できるモデルを開発することを目指しています。この問題に対処するためのアプローチの一つは、ドメイン適応などの技術を使用して、モデルの予測を新しいデータ分布により適合させることです。

バイアスの対処や考慮をしない

AIモデルにおけるバイアスは、アルゴリズムがトレーニングデータまたはモデルの設計方法の基になる偏見によって、系統的なエラーや不公平な意思決定を行う場合に発生します。AIモデルは人間によってトレーニングされるため、人間のバイアスを受け継ぐことになります。

AIモデルがバイアスをチェックされていない場合、公平でないパターンを学習し再現する可能性があり、特定のデータポイントに不利な状況を作り出すことがあります。データセットでバイアスを避けることは難しい場合があるため、バイアスの含意が認識され、対処されるようにガイドラインやルールを設定し、データの選択とクリーニングの方法を監視し、レビューし、共有することが良い方法です。

モデルの理解可能性を見落とす

モデルを設定し、実行してそのまま手放してしまうことは非常に簡単ですが、AIが採用され、信頼されるためには、その決定を透明で理解可能かつ説明可能にすることが不可欠です。責任あるAIとAI倫理を守るために、モデルの透明性を保つことが重要です。

ニューラルネットワークはブラックボックスと呼ばれることがあります。その内部の仕組みを解明し理解することが困難であり、なぜモデルが誤った結果を出力しているのかを解明することが難しい場合があります。

科学者たちは、深層ニューラルネットワークなどの複雑なAIモデルをより透明かつ理解可能にするために取り組んでいます。これらのモデルがなぜ特定の決定をするのかを説明するための技術を開発しました。

一つの方法は、注目メカニズムや注目マップを使用することです。これにより、モデルの決定に影響を与えた入力の重要な部分が強調されます。これにより、ユーザーは最も影響を与えた要素を確認することができます。

ただし、AIモデルの透明性を維持し、理解しやすくするための最善の方法は、徹底的なドキュメンテーションを維持することです。このドキュメンテーションには、AIモデルの訓練に使用されたデータに関する詳細情報が含まれており、そのソース、品質、および適用された前処理の手順について詳細に記載されているべきです。

包括的なドキュメンテーションを保持することで、モデルの基盤とデータの洗練に対する透明性を提供し、その意思決定プロセスに対する信頼を確立することができます。

継続的なモニタリングを無視する

日々のデータの変化や基盤となるパターンの変動により、モデルは時代遅れになったり、正確性が低下することがあります。これらの変化は、消費者の行動の進化、市場のトレンドの変化、競争環境の変化、政策の変更、パンデミックなどの世界的なイベントなど、さまざまな要因によるものです。この現象は概念のドリフトと呼ばれることがあります。

そのため、製品需要を継続的に予測する企業にとって、モデルのパフォーマンスを時間とともにモニタリングすることが重要です。モデルが最初は正確な予測を提供していたとしても、実際のデータの変化により、その正確性が低下する可能性があります。このような問題に対処するために、企業は実際の需要とモデルの出力を継続的に追跡し、パフォーマンスメトリクスをリアルタイムで監視することが必要です。

さらに、インクリメンタルラーニング技術を適用することも重要です。このアプローチにより、モデルは新しいデータから学習すると同時に、以前に観測されたデータから得られた貴重な知識を保持することができます。

これらの戦略を採用することで、企業は概念のドリフトに効果的に適応し、貴重な以前の情報を無視せずに、製品需要の正確な予測を確保することができます。

最良のAIモデルを開発する

AI開発の世界を成功裏に航海することは簡単なことではありません。それは多くの考慮事項、不確実性、および潜在的な落とし穴で満ちた旅です。しかし、細部に注意を払い、倫理的な実践にコミットし、堅牢な方法論にしっかりと握りしめることで、効果的かつ効率的なだけでなく、責任ある倫理的なAIソリューションを作成することができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more