Learn more about Search Results arXiv - Page 10
- You may be interested
- 「生データから洗練されたデータへ:デー...
- クラウドの保護:クラウドセキュリティの...
- 思考のグラフ:大規模言語モデルにおける...
- このAI論文は、柔軟なタスクシステムと手...
- 「Jepson Taylorと共に未来のAIを解き放つ」
- 大規模な言語モデルについて企業が知って...
- 「改善された推論のためのアナロジー提示...
- ベイジアンマーケティングミックスモデル...
- MLflowを使用した機械学習実験のトラッキング
- 「LLMは誰の意見を反映しているのか? ス...
- 「APAC地域における責任あるAIの現状」
- 「ChatGPTとScraperを使用して、TripAdvis...
- ジョージア工科大学の研究者が「ChattyChe...
- 「AWS 上の生成型 AI を使用して、放射線...
- 「部分情報分解とは何か、そして特徴がど...
「医療AIの基礎モデル」
「私たちはPLIPという医療AIの基盤モデルを説明しますPLIPは病理学のAIタスクをサポートするために構築されたビジョン言語モデルです」
「ビルドしてプレイ!LLM搭載のあなた自身のV&Lモデル!」
大型言語モデル(LLM)はますますその価値を示しています画像をLLMに組み込むことで、ビジョン言語モデルとしてさらに有用になりますこの記事では、...
「今日、何を見たと思う?このAIモデルは、あなたの脳の信号を解読して、あなたが見たものを再構築するんだよ」
脳 。人体の最も魅力的な器官です。それがどのように機能するかを理解することが、生命の秘密を解き明かす鍵です。私たちはどのように考え、感じ、嗅ぐ、感じ、行動するのでしょうか?これらのすべての質問の答えは、脳の働きを理解することにあります。 私たちが見るものに対する脳の反応を理解することは、高度な計算認知システムの開発につながる可能性があるため、研究の注目を集めています。機能的磁気共鳴画像法(fMRI)や脳波測定(EEG)などの高度なツールがあるため、科学者は視覚刺激によって引き起こされる脳活動を記録することができます。これにより、人間の脳がこれらの刺激に対してどのような反応を示すのかを解読し、再構築することへの関心が高まっています。 人間の視覚知覚を研究する一般的なアプローチの1つは、被験者が実験中に見た画像やビデオを再構築することです。これは主にfMRIデータに基づいた計算手法、特に深層ニューラルネットワークを使用して行われます。しかし、fMRIデータの収集は費用がかかり、実用的な使用には不便です。つまり、もしMRI装置に入ったことがあるなら、おそらくそこにいることがどれほど不快かを知っているでしょう。誰もが喜んでそうした実験に参加することはありません。 ここでEEGが登場します。EEGは、被験者がさまざまな刺激を見る間に脳信号を記録し、分析するより効率的な方法ですが、独自の課題もあります。EEG信号は時系列データであり、静止画像とは非常に異なります。これにより、刺激と対応する脳信号の一部をマッチングすることが困難になります。また、電極の誤配置や身体の動きなどの問題により、データに重大なノイズが生じる可能性があります。単純にEEGの入力を画素にマッピングして画像を再構築すると、品質の低い結果が得られます。 一方、拡散モデルは生成モデリングの最先端アプローチとして登場しています。これらは画像合成やビデオ生成を含むさまざまなタスクに成功裏に応用されています。強力な事前学練習オートエンコーダの潜在空間で操作することにより、研究者はピクセル空間評価の制約を克服し、高速な推論を可能にし、トレーニングコストを削減しています。 では、NeuroImageGenと出会いましょう。これは拡散モデルの力を使ってこの問題に取り組むパイプラインです。 NeuroImageGenは、EEG信号を使用した神経画像生成のためのパイプラインです。これは、EEGベースの画像再構築に関連する課題に取り組むために、マルチレベルの意味抽出モジュールを組み込んでいます。このモジュールは、EEG信号からサンプルレベルの意味から画素レベルの詳細(例:顕著性マップ)まで、さまざまなレベルの意味情報をデコードします。これらのマルチレベルの出力は、事前学習済みの拡散モデルに供給され、さまざまな意味レベルでの生成プロセスを効果的に制御します。 EEG信号はノイズの影響を受けやすい複雑な時系列データであり、取り扱いが難しいです。 NeuroImageGenは、ピクセルレベルの意味情報とサンプルレベルの情報の両方を含むマルチレベルの意味情報を抽出することによって、これを克服します。ピクセルレベルの意味情報は、EEG特徴から生成される顕著性マップとして表されます。一方、サンプルレベルの意味情報は、画像のカテゴリやテキストキャプションを認識するなど、より粗い粒度の理解を提供します。このマルチレベルのアプローチにより、NeuroImageGenはノイズの多いEEGデータを効果的に処理し、高品質の視覚刺激再構築を可能にします。 NeuroImageGenの概要。出典:https://arxiv.org/abs/2308.02510 NeuroImageGenは、これらのマルチレベルの意味情報を潜在的な拡散モデルに統合して画像を再構築します。EEG特徴から生成される顕著性マップとして表されるピクセルレベルの意味情報は、初期画像として使用されます。画像キャプションのCLIPモデルの埋め込みから導かれるサンプルレベルの意味情報は、拡散モデルにおけるノイズ除去プロセスをガイドします。この統合により、再構築された視覚刺激は、細かい粒度と粗い粒度の情報を効果的に組み合わせて高品質の画像を生成します。 この手法の結果は有望であり、EEGデータにおいて従来の画像再構成手法を凌駕しています。NEUROIMAGENは再構成された画像の構造的な類似性と意味的な正確性を大幅に向上させ、視覚刺激が人間の脳に与える影響を理解するための改善をもたらしています。
「GPT-4を超えて 新機能は何ですか?」
「GPT-4を超えて:生成AIの4つの主要なトレンド:LLMからマルチモーダル、ベクトルデータベースへの接続、エージェントからOSへ、そしてファインチューニングからプラグインへそして、MetaのLlama 2とCode Llama」
「BLIVAと出会ってください:テキスト豊かなビジュアル質問をより良く扱うためのマルチモーダルな大規模言語モデル」
最近、大規模言語モデル(LLMs)は、自然言語理解の分野で重要な役割を果たしており、ゼロショットやフューショットのシナリオを含む幅広いタスクの一般化能力において、素晴らしい能力を示しています。OpenAIのGPT-4などのVision Language Models(VLMs)は、画像または一連の画像に関する質問に答えるためにモデルが答える必要があるオープンエンドのビジュアルクエスチョンアンサリング(VQA)タスクの解決において、大きな進展を遂げています。これらの進展は、LLMsと視覚理解能力の統合によって実現されています。 視覚関連のタスクにおいてLLMsを活用するために、視覚エンコーダのパッチ特徴との直接的なアライメントや、一定数のクエリ埋め込みを介した画像情報の抽出など、様々な手法が提案されています。 しかし、これらのモデルは、画像内のテキストを解釈する際に課題に直面します。テキストを含む画像は日常生活でよく見られ、このようなコンテンツを理解する能力は人間の視覚知覚にとって重要です。以前の研究では、クエリ埋め込みを使用した抽象モジュールが使用されていましたが、このアプローチでは画像内のテキストの詳細を捉える能力が制限されていました。 本記事で概説されている研究では、研究者らはBLIVA(InstructBLIP with Visual Assistant)というマルチモーダルLLMを紹介しています。このモデルは、LLM自体と密接に関連する学習済みのクエリ埋め込みと、より広範な画像関連データを含む画像エンコードされたパッチ埋め込みという2つの主要なコンポーネントを統合するように戦略的に設計されています。提案手法の概要は以下の図に示されています。 https://arxiv.org/abs/2308.09936 この技術は、通常言語モデルに画像情報を提供する際に関連する制約を克服し、最終的にはテキスト-イメージの視覚知覚と理解を向上させるものです。モデルは、事前学習済みのInstructBLIPと、ゼロからトレーニングされたエンコードされたパッチ射影層を使用して初期化されます。2段階のトレーニングパラダイムが採用されています。初期段階では、パッチ埋め込み射影層の事前トレーニングと、インストラクションチューニングデータを使用してQ-formerとパッチ埋め込み射影層の両方を微調整します。このフェーズでは、実験から得られた2つの主な結果に基づいて、画像エンコーダとLLMの両方が凍結された状態に保たれます。第一に、ビジョンエンコーダを凍結解除すると、以前の知識の大規模な忘却が起こります。第二に、LLMの同時トレーニングは改善をもたらさず、トレーニングの複雑さを導入します。 著者によって示された2つのサンプルシナリオは、”詳細なキャプション”および”小さなキャプション+VQA”に関連するVQAタスクにおけるBLIVAの影響を示しています。 https://arxiv.org/abs/2308.09936 これが、VQAタスクに取り組むためにテキストとビジュアルエンコードされたパッチ埋め込みを組み合わせる革新的なAI LLMマルチモーダルフレームワークであるBLIVAの概要でした。興味があり、さらに詳しく知りたい場合は、以下に引用されたリンクを参照してください。
「紙からピクセルへ:手書きテキストのデジタル化のための最良の技術の評価」
「組織は、歴史的な手書き文書をデジタル化するという煩雑で高額な作業に長い間取り組んできました以前は、AWS Textractなどの光学文字認識(OCR)技術を使用していましたが…」
「ジュラシックパークへの待ち時間は終わりましたか?このAIモデルは、イメージからイメージへの変換を使用して、古代の化石を生き返らせます」
画像対画像変換(I2I)は、コンピュータビジョンと機械学習の興味深い分野であり、視覚コンテンツをシームレスに別のドメインに変換する力を持っています。この変換プロセスは、単純なピクセル値の変更を超えて、画像の基礎的な構造、意味、スタイルの深い理解を必要とします。 I2Iは、写真のアートな表現から衛星画像を地図に変換し、スケッチを写真のようなリアルな画像に変換するなど、さまざまなドメインで広範な応用が見られます。これは、生成的対抗ネットワーク(GAN)や畳み込みニューラルネットワーク(CNN)などの深層学習モデルの能力を活用しています。 従来のI2I手法は、主に写真から絵画や異なる種類の動物への変換など、ギャップが小さいドメイン間の変換に焦点を当ててきました。しかし、これらのタスクでは、変換プロセス中に大きく異なる視覚的特徴や形状に関する推論を生成する必要はありません。 それでは、I2Iの新しいアプローチであるRevive-2Iに出会いましょう。このアプローチは、スカルを生きている動物に変換するという、Skull2Animalとして知られるタスクを探求します。 Skull2Animalは、スカルを生きている動物の画像に変換するという難しいタスクです。このタスクは、新しい視覚的特徴、テクスチャ、色を生成し、対象ドメインのジオメトリに関する推論を行う必要があるため、大きな課題を提供します。 Skull2Imageタスク。出典:https://arxiv.org/abs/2308.07316 長いI2I変換の課題を克服するために、Revive-2Iは、画像の望ましい変更を説明するテキストプロンプトを使用します。これにより、現実的で検証可能な結果を生成することができます。このアプローチは、生成された画像が意図したターゲットドメインに合致するように厳しい制約を提供します。 Revive-2Iは、自然言語のプロンプトを使用してゼロショットのI2Iを行うための潜在的な拡散モデルを利用しています。 Revive-2Iは、エンコーディングとテキストによる誘導デコーディングの2つの主要なステップで構成されています。エンコーディングステップでは、ソース画像が拡散と呼ばれるプロセスを使用して潜在表現に変換されます。この潜在表現は、望ましい変更を取り込むためにノイズが加えられます。潜在空間で拡散プロセスを実行することにより、Revive-2Iはより速く効率的な変換を実現します。 Revive-2Iの概要。出典:https://arxiv.org/abs/2308.07316 Revive-2Iの最適なポイントを見つけることは容易な課題ではありませんでした。これには、前方拡散プロセスの異なるステップ数での実験が必要でした。部分的なステップを踏むことで、変換プロセスはソース画像の内容をよりよく保持しながら、ターゲットドメインの特徴を取り入れることができます。このアプローチにより、テキストプロンプトによって誘導される望ましい変更を注入しながら、より堅牢な変換が可能になります。 制約のある長いI2I変換を行う能力は、さまざまな分野で重要な意味を持ちます。たとえば、法執行機関は、スケッチに基づいて容疑者のリアルな画像を生成するためにこの技術を活用することができ、識別を支援することができます。野生生物保護活動家は、絶滅の危機に瀕した種の画像を生きている個体の画像に変換することで、気候変動の生態系や生息地への影響を示すことができます。また、古生物学者は、古代の化石をその生きている姿の画像に変換することで、新たな命を吹き込むことができます。ついにジュラシック・パークが実現しそうです。
大規模言語モデル(LLM)の微調整
この投稿では、事前学習されたLLMをファインチューニング(FT)する方法について説明しますまず、FTの重要な概念を紹介し、具体的な例を示して終わります
MetaGPT 現在利用可能な最高のAIエージェントの完全ガイド
「なぜMetaGPTがAutoGPTやBabyAgiなどの他のAIエージェントよりも複雑なコーディングタスクで優れているのかを発見してください詳細な記事でセットアッププロセスを案内し、具体的な例を提供します1行のプロンプトでGPTを搭載したマイクロアプリを構築してください」
「時を歩く:SceNeRFlowは時間的一貫性を持つNeRFを生成するAIメソッドです」
ニューラル レディアンス フィールド(NeRF)は、最近3D領域で革新的なコンセプトとして浮上しました。それは、3Dオブジェクトの可視化を扱う方法を再構築し、新たな可能性を開拓しました。機械がリアリズムを持ってシーンを再生成することで、デジタルと物理的な現実のギャップを埋めることができます。 コミュニケーション、エンターテイメント、意思決定において視覚が中心的な役割を果たすデジタル時代において、NeRFは機械学習の力が物理世界を想像もつかなかった方法でシミュレートすることの証です。 NeRFを使用すると、仮想環境を歩き回ることができますが、時間は止まっています。つまり、異なる角度から同じシーンを見ることができますが、動きはありません。 もちろん、3DのNeRFに満足せず、時間を考慮に入れたい人々は4Dで取り組み始めました。この新たなフロンティア、4Dシーン再構築が最近浮上しました。ここでは、3Dシーンだけでなく、時間を通じた変化も記録することを目標としています。この現象は、時間を超えた対応関係の複雑な相互作用、いわゆる「時間の一貫性」によって実現されます。 時間の一貫性を保ちながら動的なシーンを再構築するという概念は、数多くの可能性への入り口です。RGB入力から一貫した時間的な方法で一般的な動的オブジェクトを再構築するという課題は比較的未開拓のままですが、その重要性は過小評価できません。それでは、SceNeRFlowに会いましょう。 SceNeRFlowは、マルチビューのビデオから一般的な非剛体シーンを再構築することができます。出典: https://arxiv.org/pdf/2308.08258.pdf SceNeRFlowは、シーンをさまざまな角度から見るだけでなく、その時間的な変化をシームレスに体験することも可能です。視覚データ以上のものを抽出し、シーンの本質、変化、相互作用を包括します。 最大の課題は、対応関係を確立することで、動的なシーンの潜在的な構造を解読するプロセスです。異なる時間ステップでオブジェクトの位置を割り当てるようなものです。 SceNeRFlowは、時間不変の幾何学モデルを使用してこの問題に取り組んでいます。 SceNeRFlowの概要。出典: https://arxiv.org/pdf/2308.08258.pdf SceNeRFlowは、大きな動きと密な3D対応関係における時間の一貫性を探求します。これまでの方法は主に新しい視点合成に焦点を当ててきましたが、SceNeRFlowは新しいアプローチを取ります。シーンとその変形を包括的に理解しようとします。これを実現するために、複雑な技術である逆変形モデリングを使用します。大規模な非剛体運動を扱うための逆変形モデリングを可能にするこのブレイクスルーは、理論と実践のギャップを埋めます。 SceNeRFlowは、一定のカメラから連続したタイムスタンプでキャプチャされたマルチビューRGB画像の系列から始まります。この方法により、シーンの本質を再構築することができます。時間的な整合性を保つことを重視して、SceNeRFlowは、ジオメトリと外観の両方を包括した、時間変化する変形に基づく時間不変のNeRFスタイルのカノニカルモデルを構築します。オンラインで動作するこの方法は、最初のタイムスタンプを基に初期のカノニカルモデルを構築し、その後、時間的な入力シーケンス全体で変化を継続的に追跡します。その結果、流体のような動きと堅牢な一貫性を兼ね備えた、細心の注意を払って再構築されたシーンが得られます。シーンの変化を時間の経過にわたって緻密に描写します。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.