複数の画像やテキストの解釈 Technology - Section 56

「UniDetectorであなたが望むものを検出しましょう」

深層学習とAIは、特に検出モデルにおいて、近年驚異的な進歩を遂げてきました。しかし、これらの素晴らしい進展にもかかわら...

データセットの凝縮の潜在能力を解き放つ：SRe^2LがImageNet-1Kで記録的な精度を達成

近年、データの圧縮と蒸留手法に注目が集まり、人工知能の研究に革新をもたらしています。これらの手法は、大規模なデータセ...

シンガポール国立大学の研究者が提案するMind-Video：脳のfMRIデータを使用してビデオイメージを再現する新しいAIツール

人間の認知を理解することは、特に非侵襲的な技術である機能的磁気共鳴画像法（fMRI）を用いた場合、脳プロセスから人間の視...

UTオースティンとUCバークレーの研究者が、アンビエントディフュージョンを紹介します：入力としての破損したデータのみを使用してディフュージョンモデルをトレーニング/微調整するためのAIフレームワーク

高次元の分布を学習し、逆問題を解決するために、生成拡散モデルが柔軟かつ強力なフレームワークとして現れています。Dalle-2...

「QLORAとは：効率的なファインチューニング手法で、メモリ使用量を削減し、単一の48GB GPUで65Bパラメーターモデルをファインチューニングできるだけでなく、完全な16ビットのファインチューニングタスクのパフォーマンスも保持します」

大規模言語モデル（LLM）は、追加または削除したい振る舞いを設定することも可能にするファインチューニングによって改善する...

「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。カー...

「NTUシンガポールの研究者がResShiftを導入：他の手法と比較して、残差シフトを使用し、画像超解像度をより速く実現する新しいアップスケーラモデル」

低レベルビジョンの基本的な課題の1つは、画像のスーパーレゾリューション（SR）であり、低解像度（LR）の画像から高解像度（...

UCバークレーの研究者たちは、ビデオ予測報酬（VIPER）というアルゴリズムを紹介しましたこれは、強化学習のためのアクションフリーの報酬信号として事前学習されたビデオ予測モデルを活用しています

手作業で報酬関数を設計することは時間がかかり、予期しない結果をもたらす可能性があります。これは、強化学習（RL）ベース...

「DeepMind AIが数百万の動画のために自動生成された説明を作成することで、YouTube Shortsの露出を大幅に向上させる」

DeepMindは、YouTubeとの共同作業で、YouTube Shortsビデオの検索性を向上させるために設計された最先端のAIモデル「Flamingo...

「このAI研究は、合成的なタスクにおけるTransformer Large Language Models（LLMs）の制限と能力を、経験的および理論的に探求します」

ChatGPTはトレンドであり、毎日数百万人が利用しています。質問応答、ユニークで創造的なコンテンツの生成、大量のテキストデ...

Find your business way

Globalization of Business, We can all achieve our own Success.

Advertising with us

Web Analytics