Learn more about Search Results この - Page 15

このAIニュースレターがあれば、あなたは全てが揃った!#70

今週のAIでは、特に2つの新しいエージェントモデルのリリースに興味を持っていましたNvidiaは、複雑なタスクを自律的に実行するためにロボットをガイドするために設計されたAIエージェント「ユーレカ」を発表しました…

「リトリーバルの充実は長文の質問応答にどのように影響を与えるのか? このAIの研究は、リトリーバルの充実が言語モデルの長文での知識豊かなテキスト生成にどのような影響をもたらすかについて新しい示唆を提供します」

LFQAは、どんな質問にも完全かつ詳細な回答を提供することを目指しています。大規模言語モデル(LLM)と推論時に提示される検索された文書内のパラメータ情報により、LFQAシステムは証拠文書のスパンを抽出するのではなく、パラグラフ形式で複雑な回答を構築することが可能です。近年の研究では、大規模LLMのLFQA能力の驚異的な優れた点と脆弱性が明らかになっています。最新の適切な情報を提供するために、検索が強力なアプローチとして提案されてきました。しかし、検索による拡張が製品の過程でLLMにどのような影響を与えるのかはまだ分かっておらず、常に予想どおりの効果があるわけではありません。 テキサス大学オースティン校の研究者は、検索がLFQAの回答生成にどのように影響を与えるかを調査しました。彼らの研究では、LMが一定のままで証拠文書が変化する場合とその逆の場合の2つのシミュレートされた研究コンテキストを提供しています。LFQAの品質を評価するのは困難なため、研究者は一貫性などの異なる回答属性に関連する表面的な指標(長さ、Perplexityなど)を数えることから始めました。検索拡張されたLFQAシステムの中で生成された回答を証拠文書に帰属させる能力は魅力的な特徴です。新たに取得した文レベルの帰属データを使用して、市販の帰属検出技術をテストしました。 表面的なパターンの検査から、チームは検索拡張がLMの生成を大きく変更することを結論づけました。提出される論文が関係ない場合でも、すべての影響が緩和されるわけではありません。例えば、生成された回答の長さは変わる場合があります。関連性のない文書とは異なり、文脈内の重要な証拠を提供する文書は、LMが予期しないフレーズをより多く生成する原因となります。同じ証拠文書のセットを使用していても、さまざまな基盤となるLMは検索拡張から対照的な影響を受けることがあります。彼らの新たに注釈付けされたデータセットは、帰属評価を測定するための基準として使用されます。研究結果は、事実ベースのQAでは帰属を特定したNLIモデルがLFQAの文脈でも優れたパフォーマンスを示し、正解率では人間の合意から15%離れているものの、偶然のレベルをはるかに上回ることを示しています。 この研究は、同じ文書のセットが与えられても、帰属の品質が基盤となるLM間で大きく異なる可能性があることを示しています。研究はまた、長文生成のための帰属パターンにも光を当てました。生成されたテキストは、文脈内の証拠文書の順序に従う傾向があります。文脈文書が複数の論文の連結である場合でも、最後の文は前の文よりも追跡が難しいです。全体として、この研究はLMが文脈証拠文書を活用して詳細な質問に答える方法を明らかにし、実践的な研究のアジェンダに向けて示唆を与えています。

このAI研究は、事前のイメージングなしで物体のエッジを検出するためのノイズ耐性のある方法を開発しました

コンピュータビジョンでの重要な関心は、堅牢で効率的なエッジ検出アルゴリズムの開発に集中しています。 従来の微分演算に基づく従来のエッジ検出アルゴリズムから、ニューラルネットワークに基づく最先端のエッジ検出アルゴリズムまで、エッジ検出アプローチはセキュリティ、環境感知、医療に大きく貢献しています。 画像処理手法はエッジ情報を回復するため、従来のエッジ抽出では、対象物の事前完全写真の入手可能性が必要です。 したがって、エッジ識別の成功は、入力画像の品質に依存します。 しかし、標準の光学撮影技術では、霧や濁った水、生体組織など複雑な環境設定での対象物のクリアな画像の取得は困難です。 特に光害のある場面では、最終画像のエッジ検出品質は損なわれる可能性があります。 インテリジェントコンピューティングで公開された研究では、エッジ感度のあるシングルピクセルイメージングが紹介されています。 この画期的な手法は、重度の光害などの変数により、標準の光学的手法による良い画像の取得が困難な場合でも、オブジェクトのエッジを適切に検出するのに特に有用です。 SIベースのエッジ検出アルゴリズムの実現可能性は最近確立されました。 予備イメージングやポストプロセッシングなしに、直接ノイズに強いエッジ感度単一ピクセルイメージング(ESI)を使用して高品質のエッジ抽出方法が提供されます。 ESIは、オブジェクトに慎重に作成された変調パターンを照明し、そのエッジを抽出します。 ハダマード単一ピクセルイメージング(HSI)では、対応するハダマード基底パターンのセットを単一のピクセルに投影してオブジェクトの完全な画像を生成します。 ESIは、二次微分作用素と畳み込むことにより、ハダマード基底パターンのマージンで変動変調パターンを取得します。 このアプローチにより、事前存在するイメージングは不要で、オブジェクトのエッジに対するエッジ感度の高いハダマードスペクトラを直接取得してエッジを検出します。 ESIは、エッジ検出を高速化し、信号対雑音比(SNR)を向上させるためにバイナリ変調パターンを使用します。 ESIよりも半分の変動パターンを使用してエッジを迅速に検出するSESIエッジ検出技術が開発されました。 結果として、SESIは半分の時間でエッジを検出することができ、SIベースのエッジ検出がより実用的になります。 ラプラシアンとガウシアンラプラシアン(LoG)は、一般的な二次微分作用素の例であり、ここでは大部分の議論を占めます。 理論的および実践的な評価の両方が、エッジ検出シミュレーションと実験の結果に与える影響を確認しています。 これらのテストでは、ESIとSESIは画像から鮮明なエッジを直接抽出することができることを示しています。 SIの形式での計算画像は、シーンの照明を特定の目標に合わせるために使用されます。 この研究では、照明パターンは特定のエッジ検出目的に合わせて作成されました。 エンドツーエンドで最適化された計算画像は、この研究と同様に特定の仕事(例えば、エッジ検出)のための照明パターンを作成するのに類似しています。 エッジ検出照明パターンは、決定論的かつ解釈可能な数学モデルを使用して構築されます。…

私たちはハイパーリアルな人物画像を生成できるのか? このAI論文は、HyperHumanと呼ばれるテキストから画像へのモデルでの飛躍を提案しています

量子コンピューティングは、特に古典的なコンピュータが制約に直面する場合に問題解決を革新する可能性が高く評価されています。議論の大部分が漸近的スケーリングでの理論的な利点に関わってきましたが、有限のサイズの問題において量子コンピュータの実用的な応用を特定することが重要です。具体的な例は、古典的な対応物よりも効率的に問題を解決できるかどうか、およびこれらのタスクに量子アルゴリズムをどのように適用できるかを示します。近年、共同研究の取り組みによって、量子コンピューティングの実世界応用が探求され、この新興技術が恩恵を受けることができる特定の問題領域についての洞察が得られています。 拡散ベースのテキストから画像(T2I)モデルは、スケーラビリティとトレーニングの安定性の面で優れた選択肢となっています。ただし、Stable Diffusionなどのモデルは、高精度な人間の画像を生成するための支援が必要です。制御可能なヒューマン生成に対する従来のアプローチには制約があります。研究者たちは、外見と潜在的な構造の相関を捉えることでこれらの課題を克服するHyperHumanフレームワークを提案しました。大規模なヒューマンセントリックなデータセット、Latent Structural Diffusion Model、およびStructure-Guided Refinerが組み込まれ、ハイパーリアルな人間画像生成の最先端性能を実現しています。 テキストやポーズなどのユーザーの条件からハイパーリアルな人間の画像を生成することは、画像アニメーションやバーチャル試着などのアプリケーションにとって重要です。VAEやGANを使用した早期の手法は、トレーニングの安定性とキャパシティの制約に直面しました。拡散モデルは生成型AIを革新しましたが、既存のT2Iモデルは人間の解剖学と自然なポーズにおいて連続性に苦しんでいました。HyperHumanは、外見と構造の相関を捉えるフレームワークを導入し、ハイパーリアリズムと人間画像生成の多様性を保証し、これらの課題に対応しています。 HyperHumanは、ハイパーリアルな人間の画像を生成するためのフレームワークです。340Mの注釈付き画像を備えたHumanVerseという大規模なヒューマンセントリックなデータセットが含まれています。HyperHumanには、RGB画像を生成する際に深度と表面法線をノイズ除去するLatent Structural Diffusion Modelが組み込まれています。Structure-Guided Refinerは、生成された画像の品質と詳細を向上させます。彼らのフレームワークは、さまざまなシナリオでハイパーリアルな人間の画像を生成します。 彼らの研究では、FID、KID、およびFID CLIPを含むさまざまなメトリックを使用してHyperHumanフレームワークを評価し、画像の品質と多様性のためのCLIP類似性、テキスト-画像の整列のためのCLIP類似性、およびポーズの精度メトリックを評価しました。HyperHumanは画像の品質とポーズの精度で優れており、小さなモデルを使用してもCLIPスコアで2位にランクインしています。彼らのフレームワークは、画像の品質、テキストの整合性、一般的に使用されるCFGスケールのバランスの取れたパフォーマンスを実証しています。 結論として、HyperHumanフレームワークは、連続性と自然さの課題を克服するハイパーリアルな人間の画像生成への新しいアプローチを提案しています。HumanVerseデータセットとLatent Structural Diffusion Modelを活用することで、高品質で多様性に富んだ画像が開発され、テキストと整列した画像が生成されます。フレームワークのStructure-Guided Refinerは視覚品質と解像度を向上させます。従来のモデルと比較して、優れたパフォーマンスと堅牢性を備えたハイパーリアルな人間画像生成を実現しています。将来の研究では、テキストからポーズを生成するためにLLMなどの深い事前分布の使用を探究することができます。これにより、ボディスケルトンの入力を不要にすることができます。

このAI研究は、FlashAttentionに基づいた新しい人工知能アプローチであるフラッシュデコーディングを紹介しますこれにより、長いコンテキストのLLM推論を最大8倍速く行うことができます

ChatGPTやLlamaなどの大規模言語モデル(LLM)は、優れた自然言語処理能力により、テキスト生成からコード補完までさまざまなアプリケーションで注目を集めています。これらのモデルの運用コストが高いため、効率とスケーラビリティを向上させるための革新的な解決策を求める研究者も登場しました。 一つの応答を生成するのにかかる平均コストが0.01ドルであるため、膨大なユーザー(それぞれが複数回の日常的なインタラクションを持つ)にこれらのモデルをスケーリングする費用は急速に蓄積される可能性があります。特にコードの自動補完のような複雑なタスクでは、モデルはコーディングプロセス中に引き続き関与しているため、これらのコストは指数関数的に増加する可能性があります。デコードプロセスの最適化の必要性を認識し、研究者は一貫した文脈に基づいたその他のテキストを生成するための注意操作を統合し、スピードと効率性を改善するための技術を探求してきました。 LLMの推論、通常はデコードと呼ばれる操作は、一度に一つのトークンを生成することを含んでおり、注意操作は全体の生成時間を決定する重要な要素です。FlashAttention v2やFasterTransformerのような進歩により、トレーニングプロセスがメモリ帯域幅と計算リソースを最適化することができ、推論フェーズ中の課題も解消されています。デコーディング中の最も大きな制約のうちの1つは、より長い文脈での注意操作のスケーラビリティです。LLMはますます広範なドキュメント、会話、コードベースの処理に従事するため、注意操作は推論時間のかなりの部分を消費する可能性があります。このため、モデル全体の効率に影響を及ぼします。 研究者は、これらの課題に取り組むために、Flash-Decodingと呼ばれる画期的なテクニックを導入しました。このテクニックは、以前の手法の基盤を活用しながら、並列化に焦点を当てています。キーと値のシーケンス長に基づいた戦略的なパーティションにより、小さなバッチサイズと拡張されたコンテキストでもGPUの効率的な利用が可能となります。Flash-Decodingは、並列化された注意操作および対数和の指数関数を活用し、モデル全体のアーキテクチャにわたる効率的で効果的な計算を実現することで、GPUメモリの要件を大幅に削減します。 Flash-Decodingの効果を評価するために、堅牢なアーキテクチャと高度な機能を持つ最新のCodeLLaMa-34bモデルで総合ベンチマークテストが行われました。その結果、既存の手法と比較して、より長いシーケンスに対してデコーディング速度が8倍向上したことが示されました。また、さまざまなシーケンス長とバッチサイズに対してスケーリングされたマルチヘッドアテンションのマイクロベンチマークは、Flash-Decodingの効果をさらに裏付け、シーケンス長が64kまでスケールアップされても一貫した性能を示しました。この卓越したパフォーマンスは、LLMの効率性とスケーラビリティを大幅に向上させる役割を果たし、大規模言語モデル推論技術の飛躍的な進歩を示しています。 まとめると、Flash-Decodingは、大規模言語モデルのデコードプロセスにおける注意操作に関連する課題に対処するための革新的な解決策として登場しました。GPUの利用率を最適化し、モデル全体のパフォーマンスを向上させることで、Flash-Decodingは運用コストを大幅に削減し、さまざまなアプリケーションにおけるこれらのモデルの利用可能性を促進する可能性を秘めています。この先駆的な技術は、大規模言語モデル推論における重要なマイルストーンとなり、自然言語処理技術の効率性と加速度を飛躍的に向上させる道を開いています。

このAI研究は、ロボット学習および具現化人工知能の研究のための包括的なソフトウェアプラットフォームとエコシステムであるRoboHiveを提案しています

近年、人工知能(AI)の進歩は、言語モデリング、タンパク質折りたたみ、およびゲームプレイなどで特に顕著なものがありました。ロボット学習の発展は控えめでした。AIエージェントにとってセンサーモーターの行動は高度な認知活動よりも inherently(本質的に)困難である、と主張するモラベックの逆説の一部がこの進展の鈍さの原因とされるかもしれません。さらに、ロボット学習のためのソフトウェアフレームワークの複雑さと共通の基準の欠如という重要な問題に焦点を当てなければなりません。その結果、敷居が上がり、迅速なプロトタイプ作成が制限され、アイデアの流れが制約されます。ロボット工学の学問領域は、コンピュータビジョンや自然言語処理のような他の領域に比べて、ベンチマークやデータセットが標準化されているため、より分断されています。 ワシントン大学、UCバークレー、CMU、UTオースティン、Open AI、Google AI、およびMeta-AIの研究者たちは、このギャップを埋めるために、ロボHiveという統合環境を提供しています。 RoboHiveは、ベンチマークおよび研究ツールの両方として機能するプラットフォームです。強化学習、模倣学習、転移学習などのさまざまな学習パラダイムを可能にするために、幅広いコンテキスト、具体的なタスクの説明、厳格な評価基準を提供しています。これにより、研究者は効率的な調査とプロトタイピングを行うことができます。また、RoboHiveはハードウェアの統合と遠隔操作の機能も提供し、現実世界と仮想ロボットの間でスムーズな移行が可能です。彼らは、RoboHiveを使用して、現在のロボット学習の状況と開発の潜在力とのギャップを埋めたいと考えています。 RoboHiveというロボット学習のための統一フレームワークの作成とオープンソース化が彼らの業績の主要な貢献です。 RoboHiveの特徴は以下の通りです: 1. 環境動物園:RoboHiveは、さまざまな学術分野をカバーするさまざまな設定を提供しています。これらの設定は、器用な手の操作、二足歩行ロボットや四足歩行ロボットを使用した移動、および筋骨格の腕・手モデルを使用した操作など、操作タスクに使用することができます。彼らは、物理的な現実主義に重点を置いた物理学シミュレーションを提供するMuJoCoを使用して、仮想世界を動かしています。 2. RoboHiveは、simhooksとハードウェアフックを介して仮想および実際のロボットとスムーズに連携する統一的なRobotClass抽象を提供します。この特別な機能により、一つのフラグを変更するだけで、研究者は簡単にロボットのハードウェアとやり取りし、シミュレーションから現実世界への発見の移行を行うことができます。 3. 遠隔操作とエキスパートデータセット:RoboHiveは、キーボード、3Dスペースマウス、およびバーチャルリアリティコントローラーなど、さまざまなモダリティを介した遠隔操作の機能を提供しています。彼らは、ヒトの遠隔操作によって蓄積された最大の実世界操作データセットの一つであるRoboSetを共有しており、料理の種々のタスクにわたる12の能力をカバーしています。模倣学習、オフライン学習、および関連学科で働く研究者にとって、これらの遠隔操作の機能とデータセットは特に役立ちます。 4. ビジュアルの多様性と物理的な忠実度:RoboHiveは、物理的な現実主義と広範なビジュアルの多様性を重視し、以前のベンチマークを超えて、現実世界のロボットの次の研究フロンティアを明らかにします。複雑なアセット、豊富なテクスチャ、および高度なシーン配置を含めることで、彼らはビジュオモーター制御の研究を日常生活のビジュアルの難しさと結びつけています。さらに、RoboHiveは、さまざまな状況でのシーンのレイアウトやビジュアルドメインのランダム化をネイティブにサポートし、視覚認識の適応性を高め、現実的で豊かな物理的な素材を提供します。 5. メトリクスとベースライン:RoboHiveは、さまざまな状況でアルゴリズムのパフォーマンスを評価するために、短く明確なメトリクスを使用しています。このフレームワークは、学習アルゴリズムとのシームレスな統合に向けたユーザーフレンドリーなgymのようなAPIを提供し、多くの学術研究者や実践家にアクセス可能にします。さらに、RoboHiveはTorchRLとmjRLと提携して、研究コミュニティ内で頻繁に研究されているアルゴリズムの詳細なベースライン結果を提供し、パフォーマンスの比較と研究のためのベンチマークを提供します。

このAI研究は、「ニューラルA *:パスプランニング問題のための新しいデータ駆動型検索方法」というタイトルで発表されました

パスプランニングは、環境マップ内の初期点から目標点への費用効果の高い有効なパスを特定するものです。パスプランニングの課題に取り組むためには、A*探索などの探索ベースのプランニング手法が広く活用されています。これらの技術は、自律型車両のナビゲーションやロボットアームの操作など、さまざまな領域での応用が見られます。 最近の研究では、データ駆動型のパスプランニングが2つの特定のシナリオで重要な利点を持つことが強調されています。 最初のシナリオは、従来のヒューリスティックプランナーと比較して、点から点への最短経路探索問題においてより効率的な近似最適パスの発見というものです。 2番目のシナリオは、生の画像入力を利用したパスプランニングの実現です。環境の意味論的なピクセル単位のラベリングにアクセスできない限り、これは古典的なプランナーにとっては困難な課題です。 この研究では、著者たちは従来のA*探索アルゴリズムを異なる方法で再定義し、畳み込みエンコーダーと組み合わせて完全に学習可能なエンドツーエンドのニューラルネットワークプランナーであるNeural A*を作成しました。このアプローチは、与えられた問題インスタンスをガイダンスマップに変換し、そのマップに基づいて微分可能なA*探索を実行することで、パスプランニングの問題に対処します。 上記の画像は、Neural A*によるパスプランニングの2つのシナリオを示しています。 点から点への最短パス探索:入力マップに対して最適パス(赤)と少ないノードの探索(緑)を見つける。 生の画像入力に対するパスプランニング:自然画像上の人間の軌跡(赤)を正確に予測する。 Neural A*は、検索結果を専門家が提供する正解パスと一致させる学習プロセスを通じて、正確かつ効率的に正解に従ったパスを生成することができます。 この図は、Neural A*の概略図を示しています: (1)パスプランニングの問題インスタンスはエンコーダに供給され、ガイダンスマップが生成されます。 (2)微分可能なA*モジュールは、ガイダンスマップを使用して点から点への最短パス探索を実行し、探索履歴と結果のパスを出力します。 (3)探索履歴と正解パスとの間の損失が逆伝播され、エンコーダのトレーニングに利用されます。 包括的な実験結果により、Neural A*が最先端のデータ駆動型プランナーを超え、探索の最適性と効率の良いバランスを実現することが示されています。さらに、Neural A*は、自然画像への探索ベースのプランニングの直接応用により、現実的な人間の軌跡を予測する能力を示しています。

「このAIニュースレターはあなたが必要とするもの全てです #69」

Googleは、MicrosoftやAdobeといった企業に続き、彼らが提供するAIサービスの利用者を知的財産権侵害に関する訴訟から保護することに取り組むことを発表しました...

このAI論文では、「MotionDirector」という人工知能アプローチを提案しています:ビデオの動きと外観をカスタマイズするための手法

テキストからビデオへの拡散モデルは、最近大きな進展を遂げています。テキストの説明を提供するだけで、ユーザーは現実的または想像力豊かなビデオを作成できます。これらの基礎モデルは、特定の外観、スタイル、および主題に一致する画像の生成にも調整されています。しかし、テキストからビデオ生成への動きのカスタマイズの領域はまだ探求されている必要があります。ユーザーは、車が前進してから左に曲がるなど、特定の動きを持つビデオを作成したい場合があります。そのため、ユーザーの好みに対応するより具体的なコンテンツを作成するために、拡散モデルを適応させることが重要になります。 本論文の著者はMotionDirectorを提案しており、これにより基礎モデルは外観の多様性を維持しながら動きのカスタマイズを達成できます。この技術はデュアルパスアーキテクチャを使用して、単一または複数のリファレンスビデオの外観と動きを別々に学習するモデルを訓練します。これにより、カスタマイズされた動きを他の状況に一般化することが容易になります。 デュアルアーキテクチャは空間パスと時間パスから構成されています。空間パスには、各ビデオのトランスフォーマーレイヤーに組み込まれたトレーニング可能な空間LoRA(低ランク適応)を持つ基礎モデルがあります。これらの空間LoRAは、入力ビデオの視覚的属性を捉えるために、各訓練ステップでランダムに選択された単一のフレームを使用して訓練されます。一方、時間パスは基礎モデルを複製し、空間パスと共有する空間LoRAを使用して、与えられた入力ビデオの外観に適応します。さらに、このパスの時間変換器は、入力ビデオから複数のフレームを使用して訓練された時間LoRAで強化されており、固有のモーションパターンを把握します。 訓練済みの時間LoRAを展開するだけで、基礎モデルは学習した動きを持つビデオを多様な外観で合成することができます。デュアルアーキテクチャにより、モデルはビデオ内のオブジェクトの外観と動きを別々に学習します。この分離により、MotionDirectorはビデオの外観と動きを分離し、さまざまなソースビデオからそれらを組み合わせることが可能です。 研究者は、80以上の異なる動きと600以上のテキストプロンプトを備えたいくつかのベンチマークでMotionDirectorのパフォーマンスを比較しました。UCF Sports Actionベンチマーク(95のビデオと72のテキストプロンプト)では、モーションの保護性について、Human ratersは約75%の時間でMotionDirectorを好みました。この手法は、基本モデルの25%の好みを上回りました。第2のベンチマークであるLOVEU-TGVE-2023ベンチマーク(76のビデオと532のテキストプロンプト)では、MotionDirectorは他の制御可能な生成およびチューニングベースの方法よりも優れたパフォーマンスを発揮しました。結果は、MotionDirectorを使用して多くの基礎モデルをカスタマイズすることで、多様性と所望の動きコンセプトを特徴とするビデオを生成することができることを示しています。 MotionDirectorは、特定の動きを持つビデオを生成するためにテキストからビデオへの拡散モデルを適応させる有望な新しい方法です。これは被写体やカメラの特定の動きを学習し適応することに優れており、幅広い視覚スタイルを持つビデオを生成するために使用することができます。 MotionDirectorの改善点の一つは、リファレンスビデオで複数の被写体の動きを学習することです。ただし、この制約にもかかわらず、MotionDirectorはビデオ生成における柔軟性を向上させる潜在能力を持っており、ユーザーが自分の好みと要件に合わせたビデオを作成することができます。

AIが私のいとこのような運動障害を持つ人々を支援する方法

5年前、私のいとこはまさに人生の最盛期にある美しい若い女性として、恐ろしい試練に直面しました彼女は残虐に襲われ、外傷性脳損傷と重度の身体障害を負いました奇跡的に彼女は生き残りましたが、彼女の人生は永遠に変わってしまいました突然彼女は麻痺し、話すことができなくなりました彼女は徐々に認知機能を回復していく中で、私たちは彼女のニーズや思い、感情を理解するためのコミュニケーションの手段を確立しなければなりませんでした 希望の光は彼女の目からやってきました:彼女は「はい」という意味で上を見ることができました彼女の首の筋肉は弱かったですが、彼女は徐々に意図的に視線を向けることで、彼女が何を望んでいるかを伝えることが始められました彼女の旅のこの段階で、目の追跡を利用したコンピューターに彼女が紹介されました目の追跡によって、彼女は画面上のキーボードの特定の文字に向かって眺めることで単語を入力することができましたしかし、これは時間とエネルギーをかけるものでしたAIの進歩により、視線検出を速く正確にすることで、この点を変える可能性が大いにあります 効率的なコミュニケーションへの道は直線的ではありませんでしたしばしばイライラし、心を痛めるプロセスでした技術が機能するために、彼女は各文字に一定の時間を費やす必要がありましたが、彼女の集中力が途切れたり、首が安定しなかったりすることがありましたこのプロセスは遅く、エラーが多く、多くの試みが苦しみに終わりました 私のいとこの苦闘は唯一無二ではありませんけがによって運動機能を失った人々や、脳性麻痺や多発性硬化症などの神経疾患を持つ人々にとって、視線の相互作用は効果的なコミュニケーション手段です視線の入力装置などの支援技術は、人々の人生を変える可能性があるものの、現在の最良の視線入力システムでも、通常の話し言葉の入力速度(125-185 wpm)と比較して、比較的遅いテキスト入力速度(約7-20 wpm)を報告していますこれは目立つギャップであり、助言技術を改善し、それらに頼るすべての個人の生活の質を向上させるために、改善を続ける必要があることを示しています 私の研究はこの問題に取り組むことを目指しています目の障害を持つ無数の人々のために、これらの技術が人生を変える現実となるように、効率的でアクセス可能なコミュニケーションを実現することを目標としていますAIの最適な活用方法を理解することで、目を使った効率的なタイピング方法を再考したいと思っています 私は、Googleとケンブリッジ大学の人間にインスパイアされた人工知能センター(CHIA)の支援を受けることができるという非常に幸運な立場にあります今年の初めに、私はニーズ、欲求、障壁を理解するために、日常的なコミュニケーションに視線入力を頼る非発話の障害を持つ人々とのインタビューを始め、視線入力ユーザーが自分の目標を達成するためにより優れた技術を可能にすることができましたこれはCHIAがAIイノベーションに取り組むアプローチを反映しており、AIの影響を最も受ける人々を開発プロセスの中心に置いています AIと視線タイピング技術を組み合わせることで、私たちはいとこのような人々が自己表現し、世界とつながり、独立感を取り戻すことができるようになることを目指しています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us