Learn more about Search Results Meta - Page 8
- You may be interested
- マイクロソフトAI研究は、分子システムの...
- 「ゼロからの実験オーケストレーション」
- スタンフォード大学、コーネル大学、オッ...
- 「ChatGPTエンタープライズ- LLMが行った...
- 「Amazon SageMakerでのMLOpsによる堅牢な...
- 「BoomiのCEOが統合と自動化プラットフォ...
- なぜプロンプトエンジニアリングは一時的...
- 「強化学習の実践者ガイド」
- ブラックボックス化学プロセスの最適化
- 重要なGANモデルとアプリケーションの概要
- 「教師が教室でChatGPTの潜在能力を引き出...
- コーネル大学がChatGPTの中核に巨大な脅威...
- 「T2I-Adapter-SDXL:小型で効率的な制御...
- 兆のトークンからリトリーブして言語モデ...
- このAI研究では、全身ポーズ推定のための...
「このAI研究は、姿勢オブジェクト認識を次のトークン予測として新しいアプローチを提案します」という意味です
どのようにして効果的に物体認識にアプローチできるのでしょうか? Meta AIとメリーランド大学の研究チームは、画像埋め込みからテキストトークンを予測してラベルを形成するために言語デコーダを利用する新しい手法を開発し、物体認識の問題に取り組みました。また、パフォーマンスを損なうことなく、より効率的なデコーダの作成戦略も提案しました。 深層学習時代以前から存在した物体認識は、画像注釈に貢献してきました。領域のスライシングや単語の予測などの手法を用いて、領域と単語を語彙に基づいて結びつけました。画像とテキストを共有空間に共同埋め込みすることで、画像とテキストのマッチングに取り組み、フレーズのグラウンディングを強調しました。画像注釈はトピックモデルからトランスフォーマベースのアーキテクチャへ進化しました。GPTやLLaMAなどの言語モデルは視覚認識に貢献し、検出、フューショット認識、説明、推論などに応用されました。言語モデルからの建築的な概念、例えばプレフィックスのアイデアなどは、ビジョン-言語ドメインで影響を与え、探索されてきました。 この研究は、画像エンコーダが埋め込みを生成し、言語デコーダが物体のラベルを予測するフレームワークを導入することによって、コンピュータビジョンにおける物体認識に取り組んでいます。従来の固定埋め込みを持つ従来の手法とは異なり、提案手法では認識を次のトークンの予測として扱い、画像の埋め込みからタグの自己回帰的なデコーディングを可能にします。この手法により、事前に定義されたラベルの必要性がなくなり、柔軟で効率的な認識が促進されます。非因果的な注意マスクやコンパクトなデコーダなどの主要な革新は、パフォーマンスを損なうことなく効率を向上させ、コンピュータビジョンにおける物体認識への新しい解決策を提供します。 研究では、次のトークン予測に基づく物体認識に関する手法を提案し、画像埋め込みからテキストトークンを予測してラベルを作成する言語デコーダを使用します。デコーダは非因果的な注意マスクを組み込んで自己回帰を行い、画像トークンをプレフィックスとして扱います。推論時には、複数のラベルから並列トークンサンプリングを行い、確率に基づいてランキングします。効率性のために、事前学習された言語モデルから中間ブロックを削除するコンパクトなデコーダ構築戦略が提案されていますが、パフォーマンスは保持されます。 研究はCLIP、Open Flamingo、LLaVA、BLIP-2、InstructBLIP、CaSEDと比較し、トップ-kの予測と適合率-再現率曲線を評価しています。提案手法はトップ10の予測で競合他社を一貫して上回り、ラベル生成の優れた関連性を示しています。適合率-再現率曲線は強い線形相関を示し、kが増加するにつれて高い再現率が得られ、データセット全体で予測品質が向上していることを示唆しています。デコーダの切り詰めによる摘出解析に関する研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。これは、物体認識のための初期のLLaMA 7Bモデルブロックの重要性を強調し、よりコンパクトなデコーダのために11番目以降のブロックを削除することを示しています。 結論として、提案された次のトークン予測を活用した自己回帰的な物体認識手法は、データセット全体でトップ10の予測を生成する他の手法よりも優れた関連性を示しています。適合率-再現率曲線で観察される強い線形相関は、すべてのテストデータセットで予測品質が向上していることを示唆しています。デコーダの切り詰めに関する摘出解析の研究では、CC3Mではわずかなパフォーマンスの低下が見られましたが、COCOとOpenImagesでは変化がありませんでした。また、LLaMAモデルの中間トランスフォーマーブロックを削除することで、よりコンパクトなデコーダが得られ、パフォーマンスも保持されました。これは、物体認識においてLLMの一部の知識の重要性を強調しています。 さらなる研究では、一回のサンプリングでの競合の懸念に対処するため、緩和策を探索することに焦点を当てることができます。他の可能性としては、事前に定義されたサブセットや参照ピボットなしで、特にLLMと物体認識を直接的に結びつける生成モデルの直接のアライメントを調査することがあります。また、訓練データのボリュームを大幅に増やして、未知のデータや概念を解釈または認識するための依存度を減らす効果を検証することも有益であり、時間の経過とともに新しいラベルを増やしていくオープンワールドのパラダイムと一致しています。
「SageMakerエンドポイントとしてカスタムMLモデルを展開する」
「機械学習(ML)モデルを開発するには、データ収集からモデルの展開までの重要なステップがありますアルゴリズムの改善やテストを通じてパフォーマンスを確認した後、最後の重要なステップは...」
ビデオスワップに会おう:対話型意味ポイント対応でビデオの被写体交換をカスタマイズする人工知能フレームワーク
最近、ビデオ編集において人工知能(AI)を使った編集が進化しています。今回はその中でも特に有望な分野として、拡散ベースのビデオ編集が注目されています。この手法は、スタイル変更や背景の交換などの課題に対して、事前学習済みのテキストから画像/ビデオに拡散させるモデルを利用します。しかし、ビデオ編集における最も困難な部分は、ソースから編集されたビデオへのモーションの移行と、全体のプロセスでの時間的な一貫性の確保です。 ほとんどのビデオ編集ツールは、時間的な一貫性とモーションの整列を保持することに焦点を当てています。しかし、形状の変更に取り組む場合には効果的ではありません。このギャップに対処するために、本論文の著者(ショーラボの研究者、シンガポール国立大学、およびMetaの研究者)は、VideoSwapというフレームワークを開発しました。このフレームワークは、密な点の代わりに意味的な点の一致を使用して主体のモーション軌跡を整列させ、形状を変更するために使用されます。 密な点の一致を使用することで、時間的な一貫性が向上しますが、編集されたビデオの主体の形状の変更を制限します。一方、意味的な点の一致を使用する方法は柔軟ですが、さまざまなオープンワールドの設定で変動するため、一般的な条件モデルの学習が困難となります。研究者たちは、限られた数のソースビデオフレームのみを使用して意味的な点の制御を学習しようとしました。その結果、ソースビデオフレーム上で最適化された点が、主体のモーション軌跡を整列させるだけでなく、主体の形状も変えることができることがわかりました。さらに、最適化された意味的な点は、意味や低レベルの変化を超えて転送することもできます。これらの観察結果から、ビデオ編集で意味的な点の一致を使用することが有効とされています。 研究者たちは以下の方法でフレームワークを設計しました。まず、モーションレイヤーを画像拡散モデルに統合し、時間的な一貫性を確保しました。次に、ソースビデオ内で意味的な点を特定し、主体のモーション軌跡の転送に使用しました。この手法は、高レベルの意味的な整列に焦点を当てるため、低レベルの詳細を学習しないようになっており、意味的な点の整列を向上させています。さらに、VideoSwapにはユーザーとのポイントのやり取りもあり、多数の意味的な点の対応において点の削除やドラッグなどの操作が可能です。 研究者たちは、Latent Diffusion Modelを使用してフレームワークを実装し、基礎モデルとしてAnimateDiffでモーションレイヤーを採用しました。結果として、従来のビデオ編集手法と比較して、VideoSwapはソースのモーション軌跡を整列させつつ、対象の概念の形状を変更することに成功しました。また、研究者たちは、ヒューマンエバルエーターを使用して結果を検証し、主体の一貫性、モーションの整列、時間的な一貫性などのメトリックにおいて、VideoSwapが他の比較手法を圧倒する結果を示しました。 まとめると、VideoSwapは複雑な形状を含むビデオ編集にも適用可能な柔軟なフレームワークです。この方法は、プロセス中の人間の介入を制限し、意味的な点の一致を使用してビデオの主体を交換します。また、形状の変更と同時にソースオブジェクトのモーション軌跡を整列させることができ、複数のメトリックにおいて従来の方法を上回る先端的な結果を示しています。
「 Omnivore に会いましょう:SiBORG Lab は OpenUSD と NVIDIA Omniverse を使ってアクセシビリティのアプローチを高める」
アクセシビリティは、すべてのデザイナーがスペースや製品を構築する前に考慮しなければならない重要な要素ですが、評価プロセスは従来、手間と時間がかかるものでした。 ニュージャージー工科大学の建築とデザインの助教授であるマシュー・シュワルツは、NVIDIA OmniverseプラットフォームとUniversal Scene Descriptionフレームワーク(別名OpenUSD)を使用して、建築家、インテリアデザイナー、産業デザイナーがこの課題に取り組むのを支援しています。 シュワルツの研究および設計ラボSiBORG(シミュレーション、バイオメカニクス、ロボット工学、グラフィックス)は、特にアクセシビリティ、人間要因、自動化に関連するデザインのワークフローを理解し、改善することに焦点を当てています。シュワルツと彼のチームは、研究プロジェクトのためのアルゴリズムを開発し、それらを利用可能な製品に転換します。 Omniverseを使用することで、チームはシュワルツのコードを使用してグラフやそれが生成するパスを視覚化することができます。これは、デザイナーが建築基準と居住者の安全性をより良く評価するのに役立ち、重要なアクセシビリティの洞察を提供します。 https://blogs.nvidia.com/wp-content/uploads/2023/12/Pathloop.mp4 OpenUSDの力 従来、建築設計プロセス中のアクセシビリティや環境条件に関するフィードバックは、建築基準分析に限定されていました。シュワルツの研究により、OmniverseとOpenUSDをシームレスに統合することで、デザイナーはこの壁を乗り越えることができるようになりました。 以前は、彼はシミュレーションとモデリングのプロジェクトのさまざまな側面を達成するために複数のアプリケーションの切り替えが必要でした。彼のワークフローは、人々をサポートするUnityや3Dモデリング機能を提供するMcNeel Rhino3Dなどのツールの間で分割されることが多かったのです。 OpenUSDを使用することで、彼は研究、Pythonコード、3D環境とレンダリング、お気に入りのツールをOmniverseに統合することができます。 彼は言いました。「Omniverseに魅了されたのは、Pythonアプリケーションプログラミングインタフェースを強力な物理、レンダリング、アニメーションソフトウェアと組み合わせることができる点でした。チームは、柔軟なPython APIをOmniverseで活用して、ほぼすべてのユーザーインターフェースを開発しました。」 シュワルツのチームは、OpenUSDに互換性のあるプログラムと相互作用できる汎用的なデータ分析ツールをOmniverseを使用して活用しています。 彼は言いました。「OpenUSDとOmniverseを使用すると、研究の範囲を広げることができました。データ分析と可視化を設計プロセスと簡単に組み合わせることができます。」 リアルなレンダリングとシミュレーションの実行 シュワルツはまた、Omniverseを使用して人々の動きや相互作用をシミュレートしています。 彼は、リアルタイムの可視化を可能にする2つのNVIDIA RTX A4500 GPUsを使用して大規模な群衆のシミュレーションとアニメーションを高速化しています。これにより、デザイナーは移動能力の制限がある人々がどのように空間を移動し、相互作用するかに関する貴重な洞察を得ることができます。 シュワルツは言いました。「看板を最も目立つ位置に配置するための最適な場所を示すこともできます。シミュレーションの結果は、早期の設計段階で取られるパスを可視化するために使用できます。これにより、建築基準に問題が生じることを防ぎながら、最小の要件を超えるデザインを作成できます。」…
データサイエンスへのゲートの解除:GATE 2024 in DS&AIの究極の学習ガイド
イントロダクション Graduate Aptitude Test in Engineering(GATE)は、インドで行われる大学院入学試験です。この試験は主に、工学と科学の学部の内容を総合的に理解できるかをテストします。もし、IIScバンガロールが導入するGATE 2024のデータサイエンスとAIに向けて準備をしているのであれば、正しい場所にいます。この記事は、あなたがこの新しくてエキサイティングなGATEペーパーを進む際の指針となるであろう、学習教材、講義ノート、標準的な参考書などをまとめた宝庫です。 準備の基盤となる主要な科目には、確率と統計、線形代数、機械学習、AIなどがあります。これらはただの科目ではありません。これらこそがデータサイエンスとAIの基盤です。私が紹介する情報源は、IIScバンガロールの名声高い教授陣によってテストされ、推奨されたものです。 確率と統計:チャンスとデータのゲーム 確率と統計においては、挑戦されることを予想しなければなりません。この科目は、CSEのカリキュラムに比べて非常に重要な位置を占めており、追加のトピックが多く含まれています。この難関を乗り越えるためには、正しい参考書を手にする必要があります。私はまず、“A First Course in Probability”(シェルドン・ロス著)から始めることをおすすめします。これは学部レベルでも定番です。これに慣れたら、同じ著者による“Introduction to Probability Models”に進んでください。 より高度な知識を求める方には、“Introduction to Probability Theory”(S.C. PortおよびC.J. Stone著)、さらにその後に続く“Introduction to…
「エンティティ抽出、SQLクエリ、およびAmazon Bedrockを使用したRAGベースのインテリジェントドキュメントアシスタントの強化」
会話AIは、最近の生成AIの急速な発展により、特に指示微調整や人間のフィードバックからの強化学習といったトレーニング技術によって導入された大規模言語モデル(LLM)のパフォーマンス改善により、大きな進歩を遂げてきました正しくプロンプトされると、これらのモデルは特定のタスクのトレーニングデータなしで、一貫した会話を行うことができます[…]
「Q4 Inc.が、Q&Aチャットボットの構築において、数値と構造化データセットの課題に対処するために、Amazon Bedrock、RAG、およびSQLDatabaseChainを使用した方法」
この投稿は、Q4 Inc.のスタニスラフ・エシェンコと共同執筆されました企業は、問答型チャットボットを構築する主流アプローチとして、Retrieval Augmented Generation(RAG)に注目しています利用可能なデータセットの性質から生じる新たな課題が引き続き現れていることを確認していますこれらのデータセットは、しばしば数値とテキストデータの混合であり、時には構造化されています
「Pixel 8 Pro」という初めてのAI搭載スマートフォンは、現在Gemini Nanoで稼働しており、さらにAIのアップデートがPixelポートフォリオにも導入されています」
ニューフィーチャードロップは、Pixelハードウェアへのアップデートをもたらしますさらに、Gemini Nanoは、Pixel 8 Proのデバイス内生成AI機能をパワーアップします
「松ぼっくりベクトルデータベースとAmazon SageMaker JumpStartのLlama-2を使用したリトリーバル増強生成によって幻覚を軽減する」
産業全体でのLLMの採用は止まることのないように見えますが、それらは新しいAIの波を支えるより広範な技術エコシステムの一部です多くの対話AIのユースケースでは、Llama 2、Flan T5、BloomのようなLLMがユーザーのクエリに応答するために必要ですこれらのモデルは質問に答えるためにパラメトリックな知識に依存しています モデルは[…]
リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか
パート1では、非最適な埋め込みモデル、効率の悪いチャンキング戦略、およびメタデータフィルタリングの不足により、LLMから関連する応答を得るのが難しくなることをご覧いただけます
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.