ペンシルバニア大学の研究者たちは、OpenAIのChatGPT-Visionに対して、一連のテストを実施することで、ビジョンベースのAI機能の有効性を評価するための機械学習フレームワークを開発しました

「ビジョンベースのAI機能を評価するための機械学習フレームワークを開発:ペンシルバニア大学の研究者がOpenAIのChatGPT-Visionをテスト」

GPT-Visionモデルは、多くの人の注目を集めています。人々は、テキストや画像に関連するコンテンツを理解し生成する能力に興奮しています。しかし、課題があります – GPT-Visionが得意とすることと苦手なことが正確にわかりません。この理解の欠如は危険を伴う可能性があります、特にミスが深刻な結果をもたらす可能性のある重要な分野でモデルが使用される場合には。

従来、研究者はGPT-VisionのようなAIモデルを評価するために、広範なデータを収集し、自動的な指標を使用して測定します。しかし、研究者によって導入されたもう一つの手法である例に基づく分析では、データの大量分析ではなく、特定の数の具体的な例に焦点を当てます。この手法は科学的に厳密で、他の分野でも効果が証明されています。

GPT-Visionの機能を理解する課題に対処するために、ペンシルベニア大学の研究者チームは、社会科学と人間コンピュータインタラクションに触発された形式化されたAIメソッドを提案しました。

この機械学習ベースの手法は、モデルのパフォーマンスを評価するための構造化されたフレームワークを提供し、その実世界での機能に対する深い理解を重視しています。

提案された評価手法には、データ収集、データレビュー、テーマの探索、テーマの開発、テーマの適用という5つのステージが含まれています。社会科学の基礎理論と主題分析から引用し、比較的小規模なサンプルサイズでも深い洞察を提供するために設計されています。

この評価プロセスの効果を示すために、研究者たちは特定のタスクにそれを適用しました – 科学的な図表のための代替テキストの生成。代替テキストは視覚障害を持つ個人に画像の内容を伝えるために重要です。分析の結果、GPT-Visionは印象的な能力を示す一方で、テキスト情報に過度に依存し、プロンプトの表現に敏感で、空間的な関係の理解に苦労することが判明しました。

結論として、研究者は、知識不足-drivenの質的分析がGPT-Visionの限界を特定するだけでなく、新しいAIモデルの理解と評価に対する緻密なアプローチを示していることを強調しています。目標は、特にエラーが重大な結果をもたらす可能性のある状況で、これらのモデルの潜在的な誤用を防ぐことです。

この記事はUniversity of Pennsylvaniaが、OpenAIのChatGPT-Visionにテストを実施することで、視覚ベースのAI機能の有効性を測定するための機械学習フレームワークを開発しました

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

「オープンソースAI」の神話

新たな分析によると、「オープンソース」のAIツールであるLlama 2などは、さまざまな方法で依然として大手テック企業によって...

AI研究

大規模な言語モデルは本当に行動し思考できるのか?イリノイ大学アーバナ・シャンペーン校の研究者が意思決定の向上のためにLATSを導入

LLMは、推論や意思決定のタスクにおいて価値のある存在となっています。複雑な問題を連続したステップに分解することで優れた...

データサイエンス

Amazon SageMaker Ground Truthのはじめ方

イントロダクション ジェネレーティブAIの時代において、データ生成はピークに達しています。正確な機械学習およびAIモデルの...

コンピュータサイエンス

「アメリカでの顔認識技術は、最大の試練のひとつに直面する」

「マサチューセッツ州の警察の使用を制限する法案は、アメリカでの技術の規制の基準を設定する可能性があります」

AIニュース

「GitLabがDuo Chatを導入:生産性向上のための対話型AIツール」

ソフトウェア開発では、開発者は複雑なコードやプロジェクトの問題の効率的な管理に取り組むことが多いです。ワークフローで...

AIニュース

新技術による道路と橋の建設および修復のためのツール:人工知能

「ペンシルベニア州とその他の地域で、AIが国の老朽化したインフラに適用されていますそれは賢明な判断でしょうか?」