アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新

AppleとCMUの研究者が鮮やかなUIの新たな進化を披露:連続機械学習によるアプリアクセシビリティの革新

機械学習は、さまざまな分野でますます統合されています。その普及は、ユーザーインターフェイス(UI)の世界を含むすべての業界に広がっており、意味論的データを予測するために重要です。このアプリケーションは、利便性を向上させ、テストを簡素化するだけでなく、UIに関連するタスクを自動化することで、効率的で効果的なアプリケーションを実現します。

現在、多くのモデルは主に人間が評価した静止したスクリーンショットのデータセットに依存しています。しかし、このアプローチは高価であり、一部のアクティビティにおいてミスの誤った傾向を露呈する可能性があります。ヒューマンアノテーターは、スナップショットからUI要素がタップ可能であるかどうかを評価する際に、ライブアプリ内のUI要素との相互作用ができないため、視覚的な手がかりだけに頼る必要があります。

モバイルアプリケーションビューの固定されたスナップショットのみを記録するデータセットを使用することの欠点にもかかわらず、これらのデータセットは使用および維持するのに高価ですが、ディープニューラルネットワーク(DNN)のトレーニングにおいて依然として貴重です。

そのため、アップルの研究者はカーネギーメロン大学との共同で「Never-Ending UI Learner」というAIシステムを開発しました。このシステムは実際のモバイルアプリケーションと持続的に相互作用し、UIデザインパターンと新しいトレンドの理解を継続的に向上させることができます。このシステムはモバイルデバイス向けのアプリストアからアプリを自動的にダウンロードし、それぞれを徹底的に調査して新鮮で難解なトレーニングシナリオを見つけ出します。

Never-Ending UI Learnerは現在までに5,000時間以上のデバイスを調査し、6,000以上のアプリで50万回以上のアクションを実行しました。この長期間の相互作用により、タップ可能性を予測するための3つの異なるコンピュータビジョンモデルがトレーニングされます。また、ドラッグ可能性を予測するためのモデルと、画面の類似度を判断するためのモデルもトレーニングされます。

この研究では、アプリケーション内のユーザーインターフェースのコンポーネントにタップやスワイプなどの多くの相互作用を行います。研究者たちは、設計されたヒューリスティクスを使用してUI要素を分類し、ボタンがタッチできるか、画像が移動できるかなどの特性を識別すると強調しています。

収集されたデータの助けを借りて、UI要素のタップ可能性とドラッグ可能性、および画面の類似度を予測するモデルがトレーニングされます。エンドツーエンドの手順では、人間によるラベル付け例がさらに必要ありませんが、プロセスは人間によりラベル付けされたデータで訓練されたモデルで開始することができます。

研究者たちは、このアプリを積極的に調査する手法には利点があると強調しています。これにより、典型的な人間によるラベル付けデータセットが見落とす可能性のある困難な状況を機械が特定するのに役立ちます。画像が常にはっきりしないため、スクリーン上でタッチできるすべてのものに人間が気付かないことがあるかもしれません。しかし、このシステムはアイテムをタップしてそれが何が起こるかをすぐに観察できるため、より明確で正確な情報を提供します。

研究者たちは、このデータに基づいてトレーニングされたモデルが時間の経過とともに改善する様子を実証しました。タップ可能性の予測は、5回の訓練ラウンド後に86%の精度に達しました。

研究者たちは、アクセシビリティの修復に焦点を当てたアプリケーションは、微妙な変化を捉えるためにより頻繁な更新を受けることが有益であると強調しました。一方で、UIの変更がより大きな蓄積を可能にするより長い間隔は、サマリーズやデザインパターンマイニングのようなタスクにとって好ましいかもしれません。再トレーニングと更新のための最適なスケジュールの確立には、さらなる研究が必要です。

この研究は、絶え間ない学習の可能性を強調し、システムがより多くのデータを収集して適応し進化することを可能にします。現在のシステムはタップ可能性などの単純な意味論モデリングに焦点を当てていますが、アップルは同様の原則を適用してモバイルUIやインタラクションパターンのより高度な表現を学ぶことを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「ChatGPTは画像を生成することができるようになりました」

OpenAIは、ChatGPTオンラインチャットボットにDALL-E画像生成器の新バージョンを統合しました

機械学習

アクセラレータの加速化:科学者がGPUとAIでCERNのHPCを高速化

注:これは、高性能コンピューティングを利用した科学を前進させる研究者のシリーズの一環です。 Maria Gironeは、高速コンピ...

AI研究

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

人工知能が人間の感情を再現するにつれて、本物の人間の表情の機械的な複雑さを徹底的に調査することが浮かび上がりました。...

AIニュース

「GitLabがDuo Chatを導入:生産性向上のための対話型AIツール」

ソフトウェア開発では、開発者は複雑なコードやプロジェクトの問題の効率的な管理に取り組むことが多いです。ワークフローで...

AI研究

テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています

テキストから画像への拡散モデルは、入力テキストの説明に基づいて多様で高品質な画像を生成することで印象的な成功を収めて...