[GPT-4V-Actと出会いましょう:GPT-4V(ision)とウェブブラウザを調和させたマルチモーダルAIアシスタント]

「GPT-4V-Actとの出会い:ウェブブラウザと調和するマルチモーダルAIアシスタント、GPT-4V(ision)」

最新プロジェクトのGPT-4V-Actのリリースを、Machine Learningの研究者が最近Redditコミュニティと共有しました。このアイデアは、GPT-4VのSet-of-Markとして知られる視覚地上戦略の最近のディスカッションで火をつけられました。興味深いことに、テストではこの機能を備えたGPT-4Vがユーザーインターフェースのスクリーンショットを分析し、特定のタスクを完了するために必要なピクセル座標を提供できることが示されました。

これまで、このエージェントはRedditでの投稿、製品検索、そしてレジプロセスの開始などが可能であり、限られたテストにしか耐えていませんが、興味深いことに、ゲームをプレイしようとした際にオートラベラーの欠陥を認識し、そのアクティビティを修正しようとしました。

GPT-4V(ision)とウェブブラウザを完全に統合したGPT-4V-Actは、明晰なマルチモーダルAIヘルパーです。これにより、マウスとキーボードの入出力の低レベルまで人間の制御をシミュレートすることができます。この目標は、人間とコンピュータの間の作業の円滑なフローを提供し、どのUIの使いやすさを大幅に向上させ、ワークフローの自動化を容易にし、自動化されたUIテストの利用を可能にする技術の開発につなげることです。

動作原理

GPT-4V-Actは、GPT-4V(ision)とSet-of-Mark Prompting、および個別のオートラベラーを組み合わせることで実現されます。対話可能なユーザーインターフェースの要素ごとに、このオートラベラーによって数値のIDが付けられます。

GPT-4V-Actは、タスクとスクリーンショットからタスクの完了に必要な手順を推測することができます。番号のラベルは、マウスやキーボードによって入力された場合に正確なピクセル座標へのポインタとして使用できます。

重要な注意

GPT-4V(ision)は一般に公開されていないため、このプロジェクトでのマルチモーダルなプロンプティングには、現在のChatGPT Plusの購読が必要です。なお、このプロジェクトでの未承認のGPT-4V APIの使用は、対応するChatGPTの利用条件に違反する可能性があります。

関数呼び出しなどの機能を備えた言語モデル(LM)の使用は増加しています。これらは主にAPIと状態のテキスト表現上で動作します。ユーザーインターフェース(UI)を持つエージェントは、これらが不可能な一般的な状況でより有用かもしれません。エージェントのコンピュータとの相互作用が人間に類似しているため、専門的な知識を必要とせず、エキスパートのデモによるトレーニングが行われることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

タイタン向けのOpenAIのミニAIコマンド:スーパーアライメントの解読!

AI(人工知能)の超人型人工知能(AI)への迫り来る課題に取り組むため、OpenAIが画期的な研究方向、つまり弱から強の汎化を...

機械学習

ハリウッドにおけるディズニーの論争:AIが登場し、脚本家と俳優が退場!

ハリウッドの中心地で、AIは分かれる存在になっています。映画業界の創造的本質を守るディズニーの脚本家や俳優たちは、AIが...

機械学習

このAI論文は、深層学習を用いて大規模な記録の神経活動を解読する人工知能フレームワーク、POYO-1を紹介しています

ジョージア工科大学、Mila、モントリオール大学、マギル大学の研究者らは、多様な大規模な神経記録を横断的にモデリングする...

人工知能

「スマートな会話インターフェースのためのChatGPTとReactJSの統合」

このブログでは、Kommunicateプラットフォームを使用してChatGPTをReactJSに統合する方法について探っていきますこれにより、...

機械学習

画像認識におけるディープラーニング:技術と課題

「人工知能の広大な領域において、特に画像認識の分野において、ディープラーニングはゲームチェンジャーとして登場しました」

AIニュース

「ジェネレーティブAIがビジネス、健康医療、芸術を再構築する方法」

紹介 生成的な人工知能、一般にはGenAIと呼ばれるものは、AI革命の最前線に位置し、ロボットの無限の創造力と問題解決能力を...