[GPT-4V-Actと出会いましょう:GPT-4V(ision)とウェブブラウザを調和させたマルチモーダルAIアシスタント]

「GPT-4V-Actとの出会い:ウェブブラウザと調和するマルチモーダルAIアシスタント、GPT-4V(ision)」

最新プロジェクトのGPT-4V-Actのリリースを、Machine Learningの研究者が最近Redditコミュニティと共有しました。このアイデアは、GPT-4VのSet-of-Markとして知られる視覚地上戦略の最近のディスカッションで火をつけられました。興味深いことに、テストではこの機能を備えたGPT-4Vがユーザーインターフェースのスクリーンショットを分析し、特定のタスクを完了するために必要なピクセル座標を提供できることが示されました。

これまで、このエージェントはRedditでの投稿、製品検索、そしてレジプロセスの開始などが可能であり、限られたテストにしか耐えていませんが、興味深いことに、ゲームをプレイしようとした際にオートラベラーの欠陥を認識し、そのアクティビティを修正しようとしました。

GPT-4V(ision)とウェブブラウザを完全に統合したGPT-4V-Actは、明晰なマルチモーダルAIヘルパーです。これにより、マウスとキーボードの入出力の低レベルまで人間の制御をシミュレートすることができます。この目標は、人間とコンピュータの間の作業の円滑なフローを提供し、どのUIの使いやすさを大幅に向上させ、ワークフローの自動化を容易にし、自動化されたUIテストの利用を可能にする技術の開発につなげることです。

動作原理

GPT-4V-Actは、GPT-4V(ision)とSet-of-Mark Prompting、および個別のオートラベラーを組み合わせることで実現されます。対話可能なユーザーインターフェースの要素ごとに、このオートラベラーによって数値のIDが付けられます。

GPT-4V-Actは、タスクとスクリーンショットからタスクの完了に必要な手順を推測することができます。番号のラベルは、マウスやキーボードによって入力された場合に正確なピクセル座標へのポインタとして使用できます。

重要な注意

GPT-4V(ision)は一般に公開されていないため、このプロジェクトでのマルチモーダルなプロンプティングには、現在のChatGPT Plusの購読が必要です。なお、このプロジェクトでの未承認のGPT-4V APIの使用は、対応するChatGPTの利用条件に違反する可能性があります。

関数呼び出しなどの機能を備えた言語モデル(LM)の使用は増加しています。これらは主にAPIと状態のテキスト表現上で動作します。ユーザーインターフェース(UI)を持つエージェントは、これらが不可能な一般的な状況でより有用かもしれません。エージェントのコンピュータとの相互作用が人間に類似しているため、専門的な知識を必要とせず、エキスパートのデモによるトレーニングが行われることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム

大型言語モデル(LLM)は、高レベルの計画に優れていますが、ペン回しのような低レベルのタスクに対するサポートが必要です。...

データサイエンス

「ワードエンベディング:より良い回答のためにチャットボットに文脈を与える」

ワードエンベディングとChatGPTを使用してエキスパートボットを構築する方法を学びましょうワードベクトルの力を活用して、チ...

AIニュース

コールセンターにおけるAIソフトウェアが顧客サービスを革命化します

人工知能(AI)技術の急速な進歩により、チャットボットの導入を特に受けた顧客サービスとサポートに変革的なシフトがもたら...

AIニュース

AIを使用して、自分の目で直接拡張現実(AR)を体験してみましょう

技術の飛躍により、Brilliant Labsは最先端のオープンソースARレンズ「Monocle」で拡張現実市場を変革しました。この革新的な...

人工知能

ソフトウェア開発の進化:ウォーターフォールからアジャイル、デボップスそして更に先へ

「ソフトウェア開発の変革に飛び込み、アジャイルとデボップスを理解し、AIやローコードプラットフォームなどの将来のトレン...

AIニュース

大ニュース:Google、ジェミニAIモデルのローンチを延期

予想外の展開となり、Googleは最先端のAIモデル「Gemini」の高い期待を集めるローンチを来年の1月まで延期することを選びまし...