AIにおける複雑さと本質のトレードオフ:知っておくべきこと
『AIの複雑さと本質のトレードオフ:知っておくべきこと』
データサイエンティストにとって、グラウンドトゥルースは神聖なる聖杯です。AIをソフトウェアと捉えるならば、それは指示ではなく例によって教え込まれるものです。したがって、適切な例を選ぶことは、優れたパフォーマンスを発揮するシステムを構築する上で重要な要素です。
これは正しい結果の検証された例を反映したデータです。グラウンドトゥルースは以下の仮定に基づきます:
- 特定の例に対して一つの記録しかないこと。
- 普遍的に適用される定義や基準があること。例えば、画像が猫とラベル付けされた場合、『トラ』や猫のアニメのような曖昧なケースをどのように扱うかについて明確なガイドラインがあること。
- 正確であるという保証があること。タイプミスや測定誤差がなく、生成の方法が信頼性があること。
グラウンドトゥルースはスプレッドシート(表形式)のデータでさえ決定するのが複雑ですが、データや目標がより主観的になるとさらに困難になります。
より複雑なAIモデルを設計するにつれて、「正確さ」はより主観的になります。例えば、この記事を3つの文章で要約するようにお願いした場合、多種多様な正しい回答があり、悪い回答もあるでしょう。そのため、ステークホルダーとモデル間の信頼構築も難しくなります。この課題を解明するために、具体的にグラウンドトゥルースに焦点を当て、データサイエンスチームとの効果的なパートナーシップのためにステークホルダーが知る必要があることを続けて読んでください。
複雑さとグラウンドトゥルースの課題
データサイエンティストにとって、グラウンドトゥルースはモデルのパフォーマンスを測る基準です。
患者が30日以内に再入院するかどうかを予測するといった比較的単純な目標では、実際にどうなるかを観察できます。しかし、アイテムの中から推薦したり、臨床ノートを要約したりといったより複雑な目標では、多くの等しく正しい回答が観察される可能性があるため、グラウンドトゥルースの定義は非常に主観的になります。
以下のグラフは、データの複雑さ、目標の複雑さ、そしてグラウンドトゥルースの関係を示しています。一方の軸にはスプレッドシート、文書、写真、音声、ビデオなどのデータの種類があり、もう一方の軸には測定、予測、推薦、生成といった一般的なAIの目標があります。データがより複雑になるにつれて、クエリが難しくなります。
注:オレンジの線は比喩的なものであり、数学的に正確ではありませんが、ポイントを理解してもらえれば幸いです。
モデルがオレンジのアーチを超えると、リスクの発生確率が高まり、グラウンドトゥルースの決定がより複雑になります。これは、データセットのサイズや予測の数が拡大するとさらに複雑になります。
このカテゴリーには多くの生成型のAIが含まれています。
例えば、あるアジア系アメリカ人のMITの学生がAIに自分のヘッドショットをよりプロフェッショナルなものにしてもらうように頼みました。すると、彼女の元のセルフィーとほぼ同じ顔の画像が生成されましたが、肌が明るくなり、青い目になっていました。これは彼女を白人に見せる特徴です。
そのモデルがプロフェッショナルと非プロフェッショナルの外見の選択をする際の基準は何でしょうか?それは正しいでしょうか?私たちが生活している世界を代表しているでしょうか?私たちが生きたい世界を代表しているでしょうか?
これらは、私たちがMLモデルの中でグラウンドトゥルースを決定する際に頻繁に直面する問いです。そして、グラウンドトゥルースがより主観的になると、予期せぬ結果を検知することが困難になり、モデルへの信頼が低下する原因となります。
>> 関連リソース: AIビルダーとAIユーザーの信頼を築く方法
データと目標が複雑化する場合の対処方法
データと目標の複雑さのレベルを理解し、どちらがグランドトゥルースにどのように影響するかを理解することは役に立ちますが、上部右側のグラフの領域に該当するモデルに直面した場合、どうするべきでしょうか?
以下は、データサイエンティストとビジネスリーダーが信頼性のあるグランドトゥルースを判断し、より複雑なMLモデルに信頼を築くために採用できるいくつかの戦略です。
AIリテラシーの向上
ステークホルダーがなぜ例の選択に関わる必要があるかを直感的に理解させたいのであれば、彼らがグランドトゥルースの見た目を知る必要があります。 AIリテラシーは、この直感を構築するためのツールです。
AIリテラシーとは、個々の人々がAIの概念、技術、およびそれらの影響について理解し、馴染みがあるレベルを指します。これは、MLモデルを理解し信頼するために重要な要素ですが、研究によれば、従業員のうちデータリテラシーを持っているのは25%未満です。
キャシー・コジルコフのMaking Friends with Machine Learningシリーズや彼女の新しく開始したDecision Intelligenceというコースなど、組織内でのデータとAIリテラシーを育成する自己啓発ワークショップや洞察に満ちた記事は、AIの採用率と従業員のAIベースのイニシアチブへの信頼を大幅に向上させます。
ストレステストを含むリスク管理プロセスの採用
モデルが複雑化すると、ストレステストを含むリスク管理プロセスの採用が、モデルがどのように壊れるか突き止めるのに役立ちます。
航空宇宙エンジニアが極限状況下で飛行機の翼をテストするように、AIビルダーは適切なストレステストやシナリオの設計に時間を費やし、これらのシステムを使用するステークホルダーに潜在的なリスクを明確に伝える必要があります。
NISTのAIリスク管理フレームワークは、組織のリスク評価の素晴らしい例です。目標と基礎データの複雑さのグレーディングを含んでおり、チームはグラウンドトゥルースを決定する際にどの程度の手間が必要かを事前に理解することができます。
観測可能性の実践の開発
単純な判断と単純なデータを扱っている場合、モデルのパフォーマンスが良好であるかどうかを非常に迅速に検証することができます。たとえば、ウェブの顧客がセッションの終わりに「購入」ボタンをクリックするかどうかを予測するモデルを構築している場合、数分で答えを得ることができます。彼らがクリックしたかどうかをすぐに確認できます。
しかし、予測がわずかに複雑になると、回答の検証が難しくなります。例えば、患者の再入院を予測したい場合、実際に再入院したかどうかを確認するためには30日待たなければなりません。つまり、モデリングのための再入院患者の例を選択するまで、30日間待たなければなりません。
では、この30日間の期間中に患者が他の州に引っ越し、私たちが観測できない場所で診られた場合、どうなるでしょうか?60日もしくは数か月といったより長い期間の場合には、他にどのような結果が生じるのでしょうか?
モデルが本番環境で実行され、予測を生成すると、MLの観測可能性の実践は、2つの理由から重要です。
- 記録の良い例のデータセットを引き続き構築するため(グランドトゥルース、あなたを見つけたよ)。
- モデルのパフォーマンスを実際の結果と比較するため。
*患者の再入院率は、入院後30日以内に患者が再入院する可能性を示すものです。
より洗練された機械学習モデルを設計するという熱狂に巻き込まれることは簡単ですが、ステークホルダーとAIの間の信頼を築くには、簡単な解決策が良い選択肢となることがあります。そして、問題が実際により複雑なモデルを必要とする場合は、時間とリソースを投資して正確な基準を carefully defined(慎重に定義する)ことに備えてください。
著者について:Cal Al-Dhubaib は、高い信頼性を持つ人工知能におけるデータサイエンティスト兼AI戦略家であり、Clevelandを拠点とするAIコンサルティング、デザイン、開発会社であるPandataの創設者兼CEOでもあります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles