Search Results Otte

「RetinaNetとKerasCVを使用した物体検出」

画像セグメンテーションをベースにしたミニプロジェクトを終えた後（こちらをご覧ください）、コンピュータビジョンの一環として、別の一般的なタスクに取り掛かる準備ができました：オブジェクト検出ですオブジェクト検出とは...

このAIニュースレターはあなたが必要とするものです＃76

今週、私たちはトランスフォーマーや大規模な言語モデル（LLM）の領域を超えた重要なAIの進展に焦点を当てました最近の新しいビデオ生成拡散ベースのモデルの勢いについて…

「MMMUと出会おう：専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」

マルチモーダルプリトレーニングの進歩は、LXMERT、UNITER、VinVL、Oscar、VilBert、VLPなどのモデルに示されるように、さまざまなタスクに対応しています。 FLAN-T5、Vicuna、LLaVAなどのモデルは、指示に従う能力を向上させます。 Flamingo、OpenFlamingo、Otter、MetaVLのような他のモデルは、文脈を持った学習を探求します。 VQAのようなベンチマークは認識に焦点を当てますが、MMMは大学レベルの問題における専門家レベルの知識と緻密な推論を要求することで際立っています。包括的な知識カバレッジ、さまざまな画像形式、および既存のベンチマークとは異なる主題特化の推論に対する独自の強調点といった特徴があります。 MMMベンチマークは、IN.AI Research、ウォータールー大学、オハイオ州立大学、インディペンデント、カーネギーメロン大学、ビクトリア大学、プリンストン大学などの様々な組織の研究者によって提案され、さまざまな学問をカバーする大学レベルの問題が含まれています。専門家レベルの認識と推論を重視したこのベンチマークは、現行のモデルにとって大きな課題を提示します。この研究では、人間の能力を超えるExpert AGIに向けた進歩を評価するためのベンチマークの必要性が強調されています。MMLUやAGIEvalなどの現行の基準はテキストに焦点を当てており、より多様なモーダルな課題が必要です。大規模なマルチモーダルモデル（LMMs）は有望でありますが、既存のベンチマークには専門家レベルのドメイン知識が必要です。MMMベンチマークはこのギャップを埋めるために導入され、複雑な大学レベルの問題に多様な画像形式と交差するテキストを特徴としています。これはLMMsにとって高度なAI能力を目指す難しい評価を要求し、専門家レベルの認識と推論を提供します。 Expert AGI評価のために設計されたMMMベンチマークは、6つの学問と30の科目にわたる11.5Kの大学レベルの問題で構成されています。データ収集は、視覚入力に基づいてトピックを選択し、学生のアノテータを参加させてマルチモーダルな質問を収集し、品質管理を実施することによって行われます。LLMsやLMMsを含む複数のモデルは、MMMベンチマークでゼロショットの設定で評価され、微調整やフューショットデモなしで正確な回答を生成する能力がテストされます。 MMMベンチマークは、GPT-4Vが55.7％の精度しか達成できないため、モデルにとって困難です。専門家レベルの認識と推論の要求により、LLMsやLMMsにとって厳しい評価となります。エラー分析により、視覚的な認識、知識表現、推論、およびマルチモーダル理解の課題が明らかになり、さらなる研究の領域が示唆されます。30種類の多様な画像形式で大学レベルの知識をカバーするMMMベンチマークは、基礎モデルの精度と専門分野での適用性を高めるためにドメイン固有の知識をトレーニングデータセットに豊かにすることの重要性を強調しています。まとめると、MMMベンチマークの作成はExpert AGIの評価においてLMMsの重要な進展を表しています。このベンチマークは、現行のモデルに基本的な感覚スキルと複雑な推論を評価する機会を提供し、Expert AGI開発の進歩を理解するのに役立ちます。専門家レベルのパフォーマンスと推論能力を重視し、視覚的な認識、知識表現、推論、およびマルチモーダル理解におけるさらなる研究の領域をハイライトします。専門分野の精度と適用可能性を向上させるために、トレーニングデータセットにドメイン固有の知識を豊かにすることが推奨されます。

関係データベースとその応用についての深い探求

今日では、さまざまな頻繁に関連のないカテゴリに膨大な量のデータを記憶する必要性が、高い効率のデータベースの重要な意義を強調しています。データベースは、迅速なアクセス、操作、分析を可能にするために、注意深く整理、構造化、保存されたデータのコレクションです。データベースは、データウェアハウジングやオンライントランザクション処理など、さまざまなタスクに役立ち、在庫記録、顧客情報、財務記録などのデータの種類をサポートしています。リレーショナルデータベースとは何ですか？リレーショナルデータベースは、基本的にはテーブル形式で行と列にデータが整然と構造化されたセットです。このパラダイムでは、テーブルを使用してデータを記述し、各行が特定のレコードを示し、各列が特定のプロパティまたはフィールドを定義します。基本的には、予め定義された関係を持つデータオブジェクトのセットがリレーショナルデータベースを構成します。テーブルの列は、各々が特定のタイプのデータを含み、フィールドは属性の実際の値を含んでいます。テーブルの行は、単一のアイテムやエンティティの関連する値のグループを表します。テーブル内の各行を識別するために一意の識別子である主キーが使用されます。外部キーは、異なるテーブルの行の関係を確立するために使用されます。リレーショナルデータベースの例子供の夏キャンプのデータでは、テーブル内の各行が個別のキャンパーを表し、彼らの名前、年齢、参加しているアクティビティ、および一意のID番号などの情報が含まれています。 ID Name Age Activity 1 John 11 Pottery 2 Courtney 16 Photography 3 Matt 14 Cooking 4 Jasmine…

「コールオブデューティ」がGeForce NOWに登場

ゲームの始まりに – このGFNの木曜日は、高い期待を胸に待ち望まれたCall of Duty: Modern Warfare IIIがクラウド上に登場します。これは、NVIDIAとMicrosoftの提携の一環として、初めてActivisionのタイトルがGeForce NOWに登場するものです。さらに、Call of Duty: Modern Warfare IIとCall of Duty: Warzoneも加わります – これらの3つのタイトルは、GeForce NOW上のCall of Dutyのロゴを通じて1つの中央場所からプレイすることができます。そして、素晴らしい季節がやってきました…

注釈の習得：LabelImgとのシームレスなDetectron統合

イントロダクションコンピュータビジョンの大局において、画像のラベリングや写真の注釈付けは困難でありました。私たちの調査は、LabelImgとDetectronのチームワークに深く入り込んでおり、正確な注釈付けと効率的なモデル構築を組み合わせた強力なデュオです。簡単で正確なLabelImgは、注意深い注釈付けでリーダーシップを発揮し、明確なオブジェクト検出のための堅固な基盤を築きます。 LabelImgを試行し、境界ボックスの描画についてのスキルを向上させると、Detectronにシームレスに移行します。この堅牢なフレームワークは、マークされたデータを整理し、高度なモデルのトレーニングに役立ちます。LabelImgとDetectronは、初心者からエキスパートまで、誰にでも簡単にオブジェクト検出を可能にします。マークされた各画像が視覚情報のフルパワーを解き放つのをお手伝いいたします。学習目標 LabelImgの使い方を学ぶ。環境のセットアップとLabelImgのインストール。 LabelImgの理解と機能。 VOCまたはPascalデータをCOCO形式に変換してオブジェクト検出する。この記事はData Science Blogathonの一環として発表されました。フローチャート環境のセットアップ 1. 仮想環境の作成： conda create -p ./venv python=3.8 -y このコマンドはPythonバージョン3.8を使用して、「venv」という名前の仮想環境を作成します。 2. 仮想環境のアクティブ化：…