アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新

AppleとCMUの研究者が鮮やかなUIの新たな進化を披露:連続機械学習によるアプリアクセシビリティの革新

機械学習は、さまざまな分野でますます統合されています。その普及は、ユーザーインターフェイス(UI)の世界を含むすべての業界に広がっており、意味論的データを予測するために重要です。このアプリケーションは、利便性を向上させ、テストを簡素化するだけでなく、UIに関連するタスクを自動化することで、効率的で効果的なアプリケーションを実現します。

現在、多くのモデルは主に人間が評価した静止したスクリーンショットのデータセットに依存しています。しかし、このアプローチは高価であり、一部のアクティビティにおいてミスの誤った傾向を露呈する可能性があります。ヒューマンアノテーターは、スナップショットからUI要素がタップ可能であるかどうかを評価する際に、ライブアプリ内のUI要素との相互作用ができないため、視覚的な手がかりだけに頼る必要があります。

モバイルアプリケーションビューの固定されたスナップショットのみを記録するデータセットを使用することの欠点にもかかわらず、これらのデータセットは使用および維持するのに高価ですが、ディープニューラルネットワーク(DNN)のトレーニングにおいて依然として貴重です。

そのため、アップルの研究者はカーネギーメロン大学との共同で「Never-Ending UI Learner」というAIシステムを開発しました。このシステムは実際のモバイルアプリケーションと持続的に相互作用し、UIデザインパターンと新しいトレンドの理解を継続的に向上させることができます。このシステムはモバイルデバイス向けのアプリストアからアプリを自動的にダウンロードし、それぞれを徹底的に調査して新鮮で難解なトレーニングシナリオを見つけ出します。

Never-Ending UI Learnerは現在までに5,000時間以上のデバイスを調査し、6,000以上のアプリで50万回以上のアクションを実行しました。この長期間の相互作用により、タップ可能性を予測するための3つの異なるコンピュータビジョンモデルがトレーニングされます。また、ドラッグ可能性を予測するためのモデルと、画面の類似度を判断するためのモデルもトレーニングされます。

この研究では、アプリケーション内のユーザーインターフェースのコンポーネントにタップやスワイプなどの多くの相互作用を行います。研究者たちは、設計されたヒューリスティクスを使用してUI要素を分類し、ボタンがタッチできるか、画像が移動できるかなどの特性を識別すると強調しています。

収集されたデータの助けを借りて、UI要素のタップ可能性とドラッグ可能性、および画面の類似度を予測するモデルがトレーニングされます。エンドツーエンドの手順では、人間によるラベル付け例がさらに必要ありませんが、プロセスは人間によりラベル付けされたデータで訓練されたモデルで開始することができます。

研究者たちは、このアプリを積極的に調査する手法には利点があると強調しています。これにより、典型的な人間によるラベル付けデータセットが見落とす可能性のある困難な状況を機械が特定するのに役立ちます。画像が常にはっきりしないため、スクリーン上でタッチできるすべてのものに人間が気付かないことがあるかもしれません。しかし、このシステムはアイテムをタップしてそれが何が起こるかをすぐに観察できるため、より明確で正確な情報を提供します。

研究者たちは、このデータに基づいてトレーニングされたモデルが時間の経過とともに改善する様子を実証しました。タップ可能性の予測は、5回の訓練ラウンド後に86%の精度に達しました。

研究者たちは、アクセシビリティの修復に焦点を当てたアプリケーションは、微妙な変化を捉えるためにより頻繁な更新を受けることが有益であると強調しました。一方で、UIの変更がより大きな蓄積を可能にするより長い間隔は、サマリーズやデザインパターンマイニングのようなタスクにとって好ましいかもしれません。再トレーニングと更新のための最適なスケジュールの確立には、さらなる研究が必要です。

この研究は、絶え間ない学習の可能性を強調し、システムがより多くのデータを収集して適応し進化することを可能にします。現在のシステムはタップ可能性などの単純な意味論モデリングに焦点を当てていますが、アップルは同様の原則を適用してモバイルUIやインタラクションパターンのより高度な表現を学ぶことを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

エッジコンピューティング:データ処理と接続性の革命化

エッジコンピューティングは、リアルタイムのアプリケーションを可能にし、中央集権的なクラウドコンピューティングによって...

機械学習

AIを活用した空中監視:UCSBイニシアチブがNVIDIA RTXを使い、宇宙の脅威を撃退する目的で立ち上がる

数か月ごとに流星群が起こると、観察者は夜空に散らばる流れ星や光の筋が輝く見事な光景を見ることができます。 通常、流星は...

AIニュース

テクノロジー・イノベーション・インスティテュートは、最新鋭のFalcon LLM 40BファウンデーションモデルをAmazon SageMakerでトレーニングします

このブログ投稿は、AI-Cross Centerユニットの執行役員であり、TIIのLLMプロジェクトのプロジェクトリーダーであるDr. Ebtesa...

機械学習

「SIEM-SOAR インテグレーションによる次世代の脅威ハンティング技術」

NLP、AI、およびMLは、データ処理の効率化、自動化されたインシデント処理、コンプライアンス、および積極的な脅威検知を通じ...

AI研究

このAI研究は、FlashAttentionに基づいた新しい人工知能アプローチであるフラッシュデコーディングを紹介しますこれにより、長いコンテキストのLLM推論を最大8倍速く行うことができます

ChatGPTやLlamaなどの大規模言語モデル(LLM)は、優れた自然言語処理能力により、テキスト生成からコード補完までさまざまな...

AI研究

「大規模な言語モデルは、多肢選択問題の選択の順序に敏感なのか」という新しいAI研究に答える

大規模言語モデル(LLM)は、様々なタスクで優れたパフォーマンスを発揮するため、非常に注目を集めています。これらのモデル...