「物理データを使用してコンピュータビジョンを再焦点化する」

Refocusing computer vision using physical data.

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

カリフォルニア大学ロサンゼルス校のDavid Geffen School of MedicineのLaleh Jalilianは、「物理特性をコンピュータビジョンに組み込むことで、多くのデバイスの精度を向上させ、まったく新しい技術を導入することができる」と述べています。 ¶ クレジット:Vijay Patel/Getty Images

コンピュータビジョンは、製造ラインの部品の検査からフライト乗客の身元確認まで、多くのタスクを変革しました。さまざまな状況やシナリオで高品質な結果を提供することができます。しかし、条件がより複雑で厳しい場合、技術の精度と有用性が低下します。

この問題は、コンピュータビジョンと人工知能(AI)の性質に根ざしています。データサイエンティストは、現在のシステムを畳み込みネットワークでトレーニングし、膨大な量のデータ(多くの場合、数万枚の画像)を使用しています。しかし、不完全または未知の変数を使用してオブジェクトを識別する場合、コンピュータビジョンシステムは課題に直面し、重大なエラーを起こす可能性があります。

「今日のコンピュータビジョンシステムは、トレーニングが関与する固定環境での物事の識別に優れています」とカリフォルニア大学ロサンゼルス校(UCLA)の電気工学とコンピュータ科学の助教授であるアチュタ・カダンビは述べています。しかし、照明、視界、または圧力の変化によって、これらのシステムは状況を誤判断する可能性があります。「現実世界のすべての変数に対応する網羅的なトレーニングセットを作成することはできません」と彼は説明しています。

その結果、研究者たちは、物理ベースのセンサーやシステムから収集されたメタデータを従来のコンピュータビジョンデータに補完する方法を探求しています。2023年6月、UCLAと米国陸軍研究所のチームが、Nature Machine Intelligenceに掲載された学術論文で画期的なアプローチを紹介しました。カダンビは言います。「物理法則に由来するアイデアを取り入れることで、これらのシステムがより良く『見る』お手伝いをすることが目標です」。

Kadambiと頻繁に協力するUCLAのDavid Geffen School of Medicineの准教授で麻酔科医のLaleh Jalilianは「物理特性をコンピュータビジョンに組み込むことで、多くのデバイスの精度を向上させ、まったく新しい技術を導入することができる可能性があります」と付け加えています。

視野の向上

現代のコンピュータビジョン技術の力に驚嘆することは誘惑されるかもしれませんが、エンジニアや製品設計者は不便な真実に直面せざるを得ません。ディープラーニングモデルは、”見る”対象や環境に対する内在的な理解を持たずに動作します。結果は、モデルが次に起こることを正確に予測する能力に完全に基づいています。

最も高度なコンピュータビジョン手法でも、予測能力は限定されています。例えば、ディープラーニングモデルがボールや飛行機の軌道をマッピングしようとする場合、物事は非常にうまくいかないことがあります。ディープラーニングシステムは、空気圧、抵抗、天候などの環境要因を明示的にモデル化するように設計されていないため、カダンビは言います。「軌道はわずかにずれることから、ばかげたほど正確でないことまでさまざまです」。

このような異常事例は、顔のスキャンやアセンブリラインで同じアイテムの複数のインスタンスにシステムが遭遇する場合には特に重要ではありません。しかし、移動中のオブジェクトや平面ジオメトリに基づく高度な3次元(3D)予測能力が必要な場合、問題が生じることがあります。カダンビは指摘します。「実際の物理環境は、コンピュータビジョンフレームワークに明示的に組み込まれていません」。

これらのエッジケースは、完全に珍しいわけではありませんが、システムが予測不可能な、時には致命的な方法で反応する原因となることがあります。例えば、2018年には、自動運転のUber車両が横断歩道を自転車を押して歩いている女性を認識できずに彼女を殺害しました。コンピュータビジョンシステムは、歩行者と自転車を検出するように訓練されていましたが、同時に両方を一緒に検出することはありませんでした。

Kadambiと彼の研究仲間が開発したハイブリッドアプローチは、この課題に直接的に対処しています。物理学に基づく属性を組み込むことにより、つながったモノのインターネット(IoT)デバイス、量子センサー、および物理的特性に関する一般的な人間の知識から派生したメタデータを利用することで、より人間に近い知能レベルに到達することが可能です。突然、モデルは重力、抵抗、重量、運動、空気圧の既知の特性を適用して、はるかに正確な予測を行うことができます。

このフレームワークは、以下の3つの主要な領域に焦点を当てています:オブジェクトに振る舞いを定義する追加情報のタグ付け、カメラとAIシステムが読み取るためのコーディングを介したネットワークアーキテクチャへの物理学の注入、物理データのトレーニングセットへの組み込みによるより堅牢なAIモデルの構築。その結果、自律車両、ロボット、またはドローンは、厳しい天候やその他の困難な条件下でもより良いナビゲーションが可能になるでしょう。

現実を見据えて

将来的には、物理学のメタデータはロボット工学や自動化システム以外でも利益をもたらす可能性があります。たとえば、UCLA Medical Centerでは、エンジニアリングのバックグラウンドを持つJalilian氏がデータタグ付けを通じて医療機器の精度と正確性を向上させる方法を探求しています。これには、肌の色に基づいてエラーを生成することがある血液酸素計も含まれます。

Jalilian氏は、カメラ生成の画像とマルチモーダルセンサーを使用して患者のバイタルサインを測定し、他のデータを遠隔で収集する方法にも取り組んでいます。彼女は言います。「この技術は、より高度なテレメディシンをサポートする可能性があります。ビデオストリーム上で実行される環境AIアルゴリズムを搭載した遠隔医療デバイスは、人の状態に関する洞察を提供できるでしょう」。たとえば、システムは酸素濃度の低い患者を検出し、医師に警告するかもしれません。「これにより、反応型医療から予防型医療へと方程式が逆転します」。

他の研究者も、コンピュータビジョンにデータを補完する方法を調査しています。例えば、マサチューセッツ工科大学(MIT)とIBMの研究者グループは、人間の脳に基づいたオブジェクト認識手法に依存するフレームワークを開発しました。この追加のニューラルデータにより、より「人間らしい」処理が可能になりますが、システムは人間と同じように失敗する傾向もあります。

物理的な世界からのタグやその他の形式のメタデータを使用してマシンデータを向上させるというアイデアは、まだ形を取り始めたばかりですが、Kadambi氏や他の研究者たちは、この技術がより堅牢で正確なコンピュータビジョンをもたらし、ビジョンシステムにおける誤検知を回避する能力を提供すると楽観視しています。より良く見ることができるマシンは、ロボティクス、自動化技術、およびその他のセンシングシステムの動作方法、使用方法に根本的な変化をもたらす可能性があります。

「画像は、光学物理学の法則に基づいて生成されるため、言語ベースのシステムから得られるデータとは根本的に異なります」とカダンビは結論付けます。物理学に基づいたメタデータをコンピュータビジョンシステムに接続することで、「非常に優れたモデルを生成し、その能力を大幅に向上させることができます。」

サミュエル・グリーンガードは、アメリカ、オレゴン州ウェストリンに拠点を置く作家兼ジャーナリストです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more