アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新

AppleとCMUの研究者が鮮やかなUIの新たな進化を披露:連続機械学習によるアプリアクセシビリティの革新

機械学習は、さまざまな分野でますます統合されています。その普及は、ユーザーインターフェイス(UI)の世界を含むすべての業界に広がっており、意味論的データを予測するために重要です。このアプリケーションは、利便性を向上させ、テストを簡素化するだけでなく、UIに関連するタスクを自動化することで、効率的で効果的なアプリケーションを実現します。

現在、多くのモデルは主に人間が評価した静止したスクリーンショットのデータセットに依存しています。しかし、このアプローチは高価であり、一部のアクティビティにおいてミスの誤った傾向を露呈する可能性があります。ヒューマンアノテーターは、スナップショットからUI要素がタップ可能であるかどうかを評価する際に、ライブアプリ内のUI要素との相互作用ができないため、視覚的な手がかりだけに頼る必要があります。

モバイルアプリケーションビューの固定されたスナップショットのみを記録するデータセットを使用することの欠点にもかかわらず、これらのデータセットは使用および維持するのに高価ですが、ディープニューラルネットワーク(DNN)のトレーニングにおいて依然として貴重です。

そのため、アップルの研究者はカーネギーメロン大学との共同で「Never-Ending UI Learner」というAIシステムを開発しました。このシステムは実際のモバイルアプリケーションと持続的に相互作用し、UIデザインパターンと新しいトレンドの理解を継続的に向上させることができます。このシステムはモバイルデバイス向けのアプリストアからアプリを自動的にダウンロードし、それぞれを徹底的に調査して新鮮で難解なトレーニングシナリオを見つけ出します。

Never-Ending UI Learnerは現在までに5,000時間以上のデバイスを調査し、6,000以上のアプリで50万回以上のアクションを実行しました。この長期間の相互作用により、タップ可能性を予測するための3つの異なるコンピュータビジョンモデルがトレーニングされます。また、ドラッグ可能性を予測するためのモデルと、画面の類似度を判断するためのモデルもトレーニングされます。

この研究では、アプリケーション内のユーザーインターフェースのコンポーネントにタップやスワイプなどの多くの相互作用を行います。研究者たちは、設計されたヒューリスティクスを使用してUI要素を分類し、ボタンがタッチできるか、画像が移動できるかなどの特性を識別すると強調しています。

収集されたデータの助けを借りて、UI要素のタップ可能性とドラッグ可能性、および画面の類似度を予測するモデルがトレーニングされます。エンドツーエンドの手順では、人間によるラベル付け例がさらに必要ありませんが、プロセスは人間によりラベル付けされたデータで訓練されたモデルで開始することができます。

研究者たちは、このアプリを積極的に調査する手法には利点があると強調しています。これにより、典型的な人間によるラベル付けデータセットが見落とす可能性のある困難な状況を機械が特定するのに役立ちます。画像が常にはっきりしないため、スクリーン上でタッチできるすべてのものに人間が気付かないことがあるかもしれません。しかし、このシステムはアイテムをタップしてそれが何が起こるかをすぐに観察できるため、より明確で正確な情報を提供します。

研究者たちは、このデータに基づいてトレーニングされたモデルが時間の経過とともに改善する様子を実証しました。タップ可能性の予測は、5回の訓練ラウンド後に86%の精度に達しました。

研究者たちは、アクセシビリティの修復に焦点を当てたアプリケーションは、微妙な変化を捉えるためにより頻繁な更新を受けることが有益であると強調しました。一方で、UIの変更がより大きな蓄積を可能にするより長い間隔は、サマリーズやデザインパターンマイニングのようなタスクにとって好ましいかもしれません。再トレーニングと更新のための最適なスケジュールの確立には、さらなる研究が必要です。

この研究は、絶え間ない学習の可能性を強調し、システムがより多くのデータを収集して適応し進化することを可能にします。現在のシステムはタップ可能性などの単純な意味論モデリングに焦点を当てていますが、アップルは同様の原則を適用してモバイルUIやインタラクションパターンのより高度な表現を学ぶことを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIにおける幻覚の克服:事実に基づく強化学習ハイブリッドフレームワークが大規模な多モーダルモデルのビジョン・言語の整合性を最適化する方法

追加の事前訓練による画像とテキストのペアリング、または専門的なビジュアルインストラクションチューニングデータセットで...

機械学習

「GPTCacheとは:LLMクエリセマンティックキャッシュの開発に役立つライブラリを紹介します」

ChatGPTと大規模言語モデル(LLM)は非常に柔軟性があり、多くのプログラムの作成が可能です。ただし、LLM APIの呼び出しに関...

機械学習

「NExT-GPTを紹介します:エンドツーエンドの汎用的な任意対任意のマルチモーダル大規模言語モデル(MM-LLM)」

マルチモーダルLLMは、音声、テキスト、および視覚入力を介したより自然で直感的なユーザーとAIシステムのコミュニケーション...

機械学習

「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です...

AIニュース

JEN-1に会ってください:テキストまたは音楽表現に応じて条件付けられた高品質な音楽を生成するために、双方向および単方向のモードを組み合わせたユニバーサルAIフレームワーク

音楽は、ヘンリー・ワズワース・ロングフェローによって「人間の普遍的な言語」として讃えられ、調和、メロディ、リズムの本...

人工知能

「ジェネラティブAIブームは間もなく崩壊する」

持続不可能なハイプ、現在の技術の制約、現実離れした評価、未検証の事業モデルのため