アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新

AppleとCMUの研究者が鮮やかなUIの新たな進化を披露:連続機械学習によるアプリアクセシビリティの革新

機械学習は、さまざまな分野でますます統合されています。その普及は、ユーザーインターフェイス(UI)の世界を含むすべての業界に広がっており、意味論的データを予測するために重要です。このアプリケーションは、利便性を向上させ、テストを簡素化するだけでなく、UIに関連するタスクを自動化することで、効率的で効果的なアプリケーションを実現します。

現在、多くのモデルは主に人間が評価した静止したスクリーンショットのデータセットに依存しています。しかし、このアプローチは高価であり、一部のアクティビティにおいてミスの誤った傾向を露呈する可能性があります。ヒューマンアノテーターは、スナップショットからUI要素がタップ可能であるかどうかを評価する際に、ライブアプリ内のUI要素との相互作用ができないため、視覚的な手がかりだけに頼る必要があります。

モバイルアプリケーションビューの固定されたスナップショットのみを記録するデータセットを使用することの欠点にもかかわらず、これらのデータセットは使用および維持するのに高価ですが、ディープニューラルネットワーク(DNN)のトレーニングにおいて依然として貴重です。

そのため、アップルの研究者はカーネギーメロン大学との共同で「Never-Ending UI Learner」というAIシステムを開発しました。このシステムは実際のモバイルアプリケーションと持続的に相互作用し、UIデザインパターンと新しいトレンドの理解を継続的に向上させることができます。このシステムはモバイルデバイス向けのアプリストアからアプリを自動的にダウンロードし、それぞれを徹底的に調査して新鮮で難解なトレーニングシナリオを見つけ出します。

Never-Ending UI Learnerは現在までに5,000時間以上のデバイスを調査し、6,000以上のアプリで50万回以上のアクションを実行しました。この長期間の相互作用により、タップ可能性を予測するための3つの異なるコンピュータビジョンモデルがトレーニングされます。また、ドラッグ可能性を予測するためのモデルと、画面の類似度を判断するためのモデルもトレーニングされます。

この研究では、アプリケーション内のユーザーインターフェースのコンポーネントにタップやスワイプなどの多くの相互作用を行います。研究者たちは、設計されたヒューリスティクスを使用してUI要素を分類し、ボタンがタッチできるか、画像が移動できるかなどの特性を識別すると強調しています。

収集されたデータの助けを借りて、UI要素のタップ可能性とドラッグ可能性、および画面の類似度を予測するモデルがトレーニングされます。エンドツーエンドの手順では、人間によるラベル付け例がさらに必要ありませんが、プロセスは人間によりラベル付けされたデータで訓練されたモデルで開始することができます。

研究者たちは、このアプリを積極的に調査する手法には利点があると強調しています。これにより、典型的な人間によるラベル付けデータセットが見落とす可能性のある困難な状況を機械が特定するのに役立ちます。画像が常にはっきりしないため、スクリーン上でタッチできるすべてのものに人間が気付かないことがあるかもしれません。しかし、このシステムはアイテムをタップしてそれが何が起こるかをすぐに観察できるため、より明確で正確な情報を提供します。

研究者たちは、このデータに基づいてトレーニングされたモデルが時間の経過とともに改善する様子を実証しました。タップ可能性の予測は、5回の訓練ラウンド後に86%の精度に達しました。

研究者たちは、アクセシビリティの修復に焦点を当てたアプリケーションは、微妙な変化を捉えるためにより頻繁な更新を受けることが有益であると強調しました。一方で、UIの変更がより大きな蓄積を可能にするより長い間隔は、サマリーズやデザインパターンマイニングのようなタスクにとって好ましいかもしれません。再トレーニングと更新のための最適なスケジュールの確立には、さらなる研究が必要です。

この研究は、絶え間ない学習の可能性を強調し、システムがより多くのデータを収集して適応し進化することを可能にします。現在のシステムはタップ可能性などの単純な意味論モデリングに焦点を当てていますが、アップルは同様の原則を適用してモバイルUIやインタラクションパターンのより高度な表現を学ぶことを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「産業界が音声AIを活用して消費者の期待に応えている方法」

急速な技術の進歩のおかげで、消費者は前例のないほどの便利さと効率性に慣れてきました。 スマートフォンを使えば、商品を検...

AI研究

MITとETH Zurichの研究者たちが、動的なセパレータの選択を通じて、拡張された混合整数線形計画法(MILP)の解決を目的とした機械学習技術を開発しました

複雑な最適化問題に効率的に取り組むことは、グローバルパッケージルーティングから電力グリッド管理まで、持続的な課題です...

機械学習

「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」

ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパー...

人工知能

AIのレンズを通じた世界の歴史

人工知能の進歩、特に大規模な言語モデルにより、歴史研究や教育においては興奮すべき可能性が広がっていますしかし、その方...

データサイエンス

「OpenAI(Python)APIを解説する」

「これは、実践において大規模な言語モデル(LLM)を使用するシリーズの2番目の記事ですここでは、OpenAI APIの初心者向けの...

AI研究

「研究者たちは、Facebook広告にさらなる潜在的な差別を見つける」という記事です

メタのFacebookでの求人広告の研究により、特定の人種や人々の一部を過度に強調したり除外したりする可能性のある差別的な雇...