[GPT-4V-Actと出会いましょう:GPT-4V(ision)とウェブブラウザを調和させたマルチモーダルAIアシスタント]

「GPT-4V-Actとの出会い:ウェブブラウザと調和するマルチモーダルAIアシスタント、GPT-4V(ision)」

最新プロジェクトのGPT-4V-Actのリリースを、Machine Learningの研究者が最近Redditコミュニティと共有しました。このアイデアは、GPT-4VのSet-of-Markとして知られる視覚地上戦略の最近のディスカッションで火をつけられました。興味深いことに、テストではこの機能を備えたGPT-4Vがユーザーインターフェースのスクリーンショットを分析し、特定のタスクを完了するために必要なピクセル座標を提供できることが示されました。

これまで、このエージェントはRedditでの投稿、製品検索、そしてレジプロセスの開始などが可能であり、限られたテストにしか耐えていませんが、興味深いことに、ゲームをプレイしようとした際にオートラベラーの欠陥を認識し、そのアクティビティを修正しようとしました。

GPT-4V(ision)とウェブブラウザを完全に統合したGPT-4V-Actは、明晰なマルチモーダルAIヘルパーです。これにより、マウスとキーボードの入出力の低レベルまで人間の制御をシミュレートすることができます。この目標は、人間とコンピュータの間の作業の円滑なフローを提供し、どのUIの使いやすさを大幅に向上させ、ワークフローの自動化を容易にし、自動化されたUIテストの利用を可能にする技術の開発につなげることです。

動作原理

GPT-4V-Actは、GPT-4V(ision)とSet-of-Mark Prompting、および個別のオートラベラーを組み合わせることで実現されます。対話可能なユーザーインターフェースの要素ごとに、このオートラベラーによって数値のIDが付けられます。

GPT-4V-Actは、タスクとスクリーンショットからタスクの完了に必要な手順を推測することができます。番号のラベルは、マウスやキーボードによって入力された場合に正確なピクセル座標へのポインタとして使用できます。

重要な注意

GPT-4V(ision)は一般に公開されていないため、このプロジェクトでのマルチモーダルなプロンプティングには、現在のChatGPT Plusの購読が必要です。なお、このプロジェクトでの未承認のGPT-4V APIの使用は、対応するChatGPTの利用条件に違反する可能性があります。

関数呼び出しなどの機能を備えた言語モデル(LM)の使用は増加しています。これらは主にAPIと状態のテキスト表現上で動作します。ユーザーインターフェース(UI)を持つエージェントは、これらが不可能な一般的な状況でより有用かもしれません。エージェントのコンピュータとの相互作用が人間に類似しているため、専門的な知識を必要とせず、エキスパートのデモによるトレーニングが行われることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「木々の中の森を見る:データ保存は鋭い目から始まる」

「成功したデータ保存戦略の開始は、細心の観察と詳細への確固たる焦点にかかっています」

人工知能

「開発チームのためのAIツール 採用するべきか否か?」

「AIツールがより人気になるにつれて、それを導入する際のリスクと利点を知ることが重要ですCodiumAIのイタマール・フリード...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

AI研究

「ADHDを持つ思春期の若者において、この深層学習研究はMRIスキャンの分析において独特な脳の変化を明らかにする:MRIスキャン分析の飛躍的な進歩」

画期的な開発により、研究者は人工知能(AI)の力を活用して、思春期の注意欠陥多動性障害(ADHD)の診断に内在する課題に取...

人工知能

「AI時代における組織の価値を引き出す」

「AIはAIに脅かされるのではなく、より能力を高め、自主性を増し、強い関係を築くことによって、個人の自己決定力を向上させ...