[GPT-4V-Actと出会いましょう:GPT-4V(ision)とウェブブラウザを調和させたマルチモーダルAIアシスタント]

「GPT-4V-Actとの出会い:ウェブブラウザと調和するマルチモーダルAIアシスタント、GPT-4V(ision)」

最新プロジェクトのGPT-4V-Actのリリースを、Machine Learningの研究者が最近Redditコミュニティと共有しました。このアイデアは、GPT-4VのSet-of-Markとして知られる視覚地上戦略の最近のディスカッションで火をつけられました。興味深いことに、テストではこの機能を備えたGPT-4Vがユーザーインターフェースのスクリーンショットを分析し、特定のタスクを完了するために必要なピクセル座標を提供できることが示されました。

これまで、このエージェントはRedditでの投稿、製品検索、そしてレジプロセスの開始などが可能であり、限られたテストにしか耐えていませんが、興味深いことに、ゲームをプレイしようとした際にオートラベラーの欠陥を認識し、そのアクティビティを修正しようとしました。

GPT-4V(ision)とウェブブラウザを完全に統合したGPT-4V-Actは、明晰なマルチモーダルAIヘルパーです。これにより、マウスとキーボードの入出力の低レベルまで人間の制御をシミュレートすることができます。この目標は、人間とコンピュータの間の作業の円滑なフローを提供し、どのUIの使いやすさを大幅に向上させ、ワークフローの自動化を容易にし、自動化されたUIテストの利用を可能にする技術の開発につなげることです。

動作原理

GPT-4V-Actは、GPT-4V(ision)とSet-of-Mark Prompting、および個別のオートラベラーを組み合わせることで実現されます。対話可能なユーザーインターフェースの要素ごとに、このオートラベラーによって数値のIDが付けられます。

GPT-4V-Actは、タスクとスクリーンショットからタスクの完了に必要な手順を推測することができます。番号のラベルは、マウスやキーボードによって入力された場合に正確なピクセル座標へのポインタとして使用できます。

重要な注意

GPT-4V(ision)は一般に公開されていないため、このプロジェクトでのマルチモーダルなプロンプティングには、現在のChatGPT Plusの購読が必要です。なお、このプロジェクトでの未承認のGPT-4V APIの使用は、対応するChatGPTの利用条件に違反する可能性があります。

関数呼び出しなどの機能を備えた言語モデル(LM)の使用は増加しています。これらは主にAPIと状態のテキスト表現上で動作します。ユーザーインターフェース(UI)を持つエージェントは、これらが不可能な一般的な状況でより有用かもしれません。エージェントのコンピュータとの相互作用が人間に類似しているため、専門的な知識を必要とせず、エキスパートのデモによるトレーニングが行われることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ジェンAIの活用:攻撃型AIに対するサイバー強靭性の構築

「創発型人工知能(GenAI)は、セキュリティの風景を革新し、新しい機会と新しい課題を創り出しています」

機械学習

「LLaMA-v2-Chat対アルパカ:どのAIモデルを使用するべきですか?」

この記事は以下の質問に答えます:LLaMA-v2-Chat vs アルパカ、どちらを使うべきですか?両方のAIモデルの利点と欠点は何です...

機械学習

より強力な言語モデルが本当に必要なのでしょうか?

大規模な言語モデルはますます人気が高まっていますしかし、それらの開発には特定の課題にも直面することになりますGPTモデル...

AI研究

「CMUの研究者がBUTD-DETRを導入:言語発話に直接依存し、発話で言及されるすべてのオブジェクトを検出する人工知能(AI)モデル」

画像内のすべての「オブジェクト」を見つけることは、コンピュータビジョンの基礎です。カテゴリの語彙を作成し、この語彙の...

機械学習

ディープラーニングが深く掘り下げる:AIがペルー砂漠で新しい大規模画像を公開

日本の山形大学の研究者たちは、ペルーのリマから南に車で7時間のナスカで、地球上に描かれた画像である地上絵の4つの未発見...

データサイエンス

テキストから音声へ - 大規模な言語モデルのトレーニング

はじめに 音楽家の声コマンドをAIが受け取り、美しいメロディックなギターサウンドに変換する世界を想像してみてください。こ...