Learn more about Search Results ML - Page 310

映画チャットをご紹介しますビデオの基礎モデルと大規模な言語モデルを統合した革新的なビデオ理解システムです

大規模言語モデル(LLM)は最近、自然言語処理(NLP)の分野で大きな進歩を遂げています。LLMにマルチモーダリティを追加し、マルチモーダルな大規模言語モデル(MLLM)に変換することで、マルチモーダルな知覚と解釈を行うことができます。MLLMは人工一般知能(AGI)への可能な一歩として、存在、数え上げ、位置、OCRなどの知覚、常識的な推論、コード推論などのさまざまなマルチモーダルタスクで驚異的な新たなスキルを示しています。MLLMは、LLMや他のタスク特化モデルと比較して、より人間らしい環境の視点、ユーザーフレンドリーなインターフェース、幅広いタスク解決スキルを提供します。 既存のビジョン中心のMLLMは、Q-formerや基本的なプロジェクション層、事前学習済みLLM、ビジョンエンコーダ、および追加の学習可能モジュールを使用しています。異なるパラダイムでは、現在のビジョンパーセプションツール(トラッキングや分類など)をLLMとAPIを介して組み合わせ、トレーニングなしでシステムを構築します。以前のビデオセクターの研究では、このパラダイムを使用してビデオMLLMを開発しました。しかし、長さが1分以上の長い映画に基づくモデルやシステムの調査はこれまで行われておらず、これらのシステムの有効性を測定するための基準も存在しませんでした。 この研究では、浙江大学、ワシントン大学、マイクロソフトリサーチアジア、香港大学の研究者が、ビジョンモデルとLLMを組み合わせた長いビデオ解釈の課題のためのユニークなフレームワークであるMovieChatを紹介しています。彼らによれば、長いビデオ理解の残りの困難は、計算の困難さ、メモリの負荷、長期的な時間的関連性です。これを実現するために、彼らはAtkinson-Shiffrinメモリモデルに基づいたメモリシステムを提案しています。このメモリシステムは、迅速に更新される短期記憶とコンパクトな長期記憶を含みます。 このユニークなフレームワークは、ビジョンモデルとLLMを組み合わせ、長いビデオ理解のタスクを可能にする最初のものです。この研究では、理解能力と推論コストの両方のパフォーマンスを評価するための厳格な数量的評価と事例研究を行い、計算の複雑さとメモリのコストを最小化し、長期的な時間的関連性を向上させるためのメモリメカニズムを提供しています。この研究は、巨大な言語モデルとビデオ基盤モデルを組み合わせたビデオの理解に向けた新しいアプローチを提示しています。 このシステムは、Atkinson-Shiffrinモデルに触発されたメモリプロセスを含むことで、長い映画の分析に関する困難を解決します。このメモリプロセスは、トランスフォーマー内のトークンで表される短期記憶と長期記憶で構成されています。提案されたシステムであるMovieChatは、わずかなフレームしか処理できない以前のアルゴリズムに比べて、長いビデオ理解において最先端のパフォーマンスを達成することで優れた結果を出しています。この方法は、長期的な時間的関係を扱いながら、メモリ使用量と計算の複雑さを低下させます。この研究は、ビデオ理解におけるメモリプロセスの役割を強調し、モデルが重要な情報を長期間保存し、呼び出すことができるようにします。MovieChatの人気は、コンテンツ分析、ビデオ推奨システム、ビデオモニタリングなどの産業に実用的な影響を与えます。将来の研究では、メモリシステムを強化し、音声などの追加のモダリティを使用してビデオ理解を向上させる方法について検討することができます。この研究は、視覚データの徹底的な理解を必要とするアプリケーションの可能性を創出します。彼らのウェブサイトには複数のデモがあります。

データ駆動型のディスパッチ

「現代のスピーディーな世界において、データに基づく意思決定がディスパッチ応答システムにおいて不可欠となっていますディスパッチャーは、通話を聞いて優先順位を付けるという一種のトリアージを行います...」

「Salesforce Data Cloudを使用して、Amazon SageMakerで独自のAIを持ち込む」

この投稿はSalesforce Einstein AIのプロダクトディレクターであるDaryl Martisと共同執筆されたものですAmazon SageMakerとSalesforce Data Cloudの統合を発表することを喜んでお知らせしますこの機能により、企業はSageMakerを使用してSalesforceデータに安全にアクセスし、SageMakerのツールを使用してAIモデルを構築、トレーニング、展開することができます推論エンドポイントは[...]です

トランスフォーマーにおけるセルフアテンション

「初心者にやさしいセルフアテンションガイドセルフアテンションは、AIの現在の進歩の中で鍵となる「トランスフォーマー」のコアです」

「OpenAIがユーザーエクスペリエンスを革新するために6つのエキサイティングなChatGPT機能を発表」

ChatGPTを開発した先進的な企業であるOpenAIは、6つのエキサイティングな新機能を追加し、ユーザーエクスペリエンスを向上させ続けています。これらのアップデートは、来週にもリリースされ、ChatGPTとのやり取りをより魅力的で効率的かつ生産的にすることを目指しています。プロンプトの例からキーボードショートカットまで、これらのアップデートが最先端の言語モデルとのユーザーのやり取りをどのように変革するか、探ってみましょう。 また読む:OpenAIがDall E-3を発売へ:次世代AIイメージジェネレーター! プロンプトの例:簡単に会話を始める ChatGPTは、各チャットの最初にプロンプトの例を提供するようになりました。これにより、ユーザーは会話を開始しやすくなります。これらのサンプルプロンプトは、AIとの対話を円滑に開始するため、ユーザーを魅力的な対話へと導きます。 また読む:GPT-3におけるプロンプトエンジニアリング 提案された返信:関連するオプションで対話を高める 会話を豊かにするために、ChatGPTは「提案された返信」を導入しました。AIモデルが関連するオプションを提供するため、ユーザーは1クリックでさらに深いトピックを探求することができます。このアップデートにより、ユーザーの対話はダイナミックかつ多様性に富んだものとなります。 GPT-4が中心となる:新しいデフォルトモデル 最新モデルに合わせて、ChatGPTは現在、Plusユーザーに対してGPT-4をデフォルトに設定しています。3時間ごとに50件のメッセージの制限があり、新しいチャットを開始する際にGPT-3.5に戻る必要はありません。このスムーズな体験により、ユーザーの時間が節約され、利便性が向上します。 また読む:OpenAIがオープンソースのGPTモデルリリースを予告 コードインタプリタの新機能:10ファイルのアップロード Code Interpreterベータユーザーは、最大10ファイルのアップロードが可能になり、さまざまなデータの分析をChatGPTに依頼することができるようになりました。これにより、マーケターやデータアナリストは、深いマーケティング分析やデータ抽出のためのエキサイティングな機会を開拓することができます。 また読む:AnthropicがClaude 2を発表:コーディングを革新する次世代のAIチャットプログラム! より長時間ログイン状態を維持:シームレスなログイン体験 OpenAIは、以前の2週間のログアウトポリシーを廃止し、ログイン体験を改善しました。ユーザーはより長い時間ログイン状態を維持できるため、ChatGPTへの中断ないアクセスが保証されます。新しいログインページもより使いやすく、ユーザーフレンドリーです。 ChatGPTキーボードショートカット:作業をスーパーチャージ ChatGPTには、キーボードショートカットが導入され、ユーザーは簡単なコマンドで作業をスピードアップすることができます。コードブロックのコピーから他の時間の節約に役立つアクションまで、これらのショートカットは、すべてのユーザーに生産性と利便性を向上させます。 また読む:ChatGPTのためのカスタムインストラクションをOpenAIがローンチ ChatGPTの機能の進化:デジタルマーケターにとっての利点 ChatGPTのアップデートは、SEOとデジタルマーケティングコミュニティにとって素晴らしいニュースです。コンテンツの生成、分析、ワークフローの効率化など、ChatGPTはSEO戦略家やコンテンツマーケティングマネージャーにとって貴重な資産です。改良された機能は、このパワフルなツールに頼るプロフェッショナルの生産性と効果を向上させることを約束します。 また読む:AIによるコンテンツ作成がコンテンツマーケティングの未来を革新!…

「BeLFusionに出会ってください:潜在的拡散を用いた現実的かつ多様な確率的人間の動作予測のための行動的潜在空間アプローチ」

人工知能(AI)が世界を魅了し続ける中で、コンピュータビジョンとAIの交差点において、人間の動き予測(HMP)という注目すべき応用が登場しています。この魅力的なタスクは、観測された動きのシーケンスに基づいて、人間の将来の動きや行動を予測することを目的としています。その目標は、人の体のポーズや動きがどのように進化するかを予測することです。HMPは、ロボット工学、仮想アバター、自律型車両、人間とコンピュータのインタラクションなど、さまざまな分野で応用されています。 確率的HMPは、単一の決定論的な将来ではなく、可能な将来の動きの分布を予測することに焦点を当てた伝統的なHMPの拡張です。このアプローチは、人間の行動の本質的な自発性と予測不可能性を認識し、将来の行動や動きに関連する不確実性を捉えることを目指しています。確率的HMPは、可能な将来の動きの分布を考慮することで、人間の行動の可変性と多様性を考慮し、より現実的かつ柔軟な予測を実現します。アシストロボットや監視アプリケーションなど、複数の可能な行動を予測することが重要な場合に特に価値があります。 確率的HMPは、通常、観測されたシーケンスごとに複数の将来の動きを予測するためにGANやVAEなどの生成モデルを使用してアプローチされます。しかし、この座標空間で多様な動きを生成することに重点を置いた方法は、観測された動きとよりよく整合する必要がある非現実的で速い動きの発散予測につながる場合があります。さらに、これらの方法は、微小な関節変位を伴う広範囲の多様な低レンジの行動を予測することをしばしば見落とします。その結果、行動の多様性を考慮し、確率的HMPタスクでより現実的な予測を行うための新たなアプローチが必要とされています。既存の確率的HMPの手法の制約に対処するために、バルセロナ大学とコンピュータビジョンセンターの研究者は、BeLFusionを提案しています。この新しいアプローチは、現実的かつ多様な人間の動きのシーケンスを生成するための行動潜在空間を導入しています。 生成モデルにおける速く発散する動き。 BeLFusionの主な目的は、動作をポーズから滑らかに遷移させることで、観測されたポーズと予測されたポーズの間の遷移をスムーズにすることです。これは、行動エンコーダ、行動カプラー、コンテキストエンコーダ、補助デコーダから構成される行動VAEによって達成されます。行動エンコーダは、ゲート付き再帰ユニット(GRU)と2D畳み込み層を組み合わせて、関節座標を潜在分布にマッピングします。次に、行動カプラーは、サンプリングされた行動を進行中の動きに転送し、多様で文脈に適した動きを生成します。BeLFusionは、条件付き潜在拡散モデル(LDM)も組み込んでおり、行動の動態を正確にエンコードし、それらを進行中の動きに効果的に転送するとともに、潜在エラーや再構成エラーを最小限に抑えて生成される動きの多様性を高めます。 BeLFusionの革新的なアーキテクチャは、関節座標から隠れた状態を生成するオブザベーションエンコーダで続きます。このモデルでは、行動がポーズと動きから分離された潜在空間からサンプリングされるように、U-Net、クロスアテンションメカニズム、残余ブロックを使用した潜在拡散モデル(LDM)を利用しています。行動の観点からの多様性を促進し、直近の一貫性を維持することにより、BeLFusionは、確率的HMPの最先端手法よりもはるかに現実的で一貫した動きの予測を生み出します。行動の分離と潜在拡散のユニークな組み合わせにより、BeLFusionは人間の動き予測における有望な進歩を表しています。さまざまなアプリケーションに対してより自然で文脈に適した動きを生成する可能性を提供します。 実験評価により、BeLFusionの印象的な汎化能力が示されました。BeLFusionは、既知のシナリオと未知のシナリオの両方で優れたパフォーマンスを発揮します。Human3.6MおよびAMASSデータセットの厳しい結果を使用したクロスデータセット評価において、さまざまなメトリックで最先端の手法を上回ります。H36Mでは、BeLFusionは平均変位誤差(ADE)がおよそ0.372、最終変位誤差(FDE)が約0.474であります。同時に、AMASSでは、ADEが約1.977、FDEがおよそ0.513となります。これらの結果は、BeLFusionの正確で多様な予測を生成する優れた能力を示し、異なるデータセットやアクションクラスにおける現実的な人間の動作予測における有効性と汎化能力を示しています。 全体的に、BeLFusionは、Human3.6MおよびAMASSデータセットの精度メトリックにおいて最先端のパフォーマンスを達成する、人間の動作予測のための新しい手法です。BeLFusionは、行動の潜在空間と潜在拡散モデルを利用して、多様でコンテキスト適応型の予測を生成します。この手法によるシーケンス間での行動の捕捉と転送能力により、ドメインシフトに対して堅牢性が向上し、汎化能力も向上します。さらに、定性評価により、BeLFusionの予測が他の最先端の手法よりも現実的であることが示されました。アニメーション、仮想現実、ロボット工学など、人間の動作予測における有望な解決策を提供します。

「私たちの独占的なDockerチートシートをチェックしてください!」

はじめに Dockerは、コンテナを使用してアプリケーションのビルド、配布、実行のプロセスを簡素化するオープンソースのプラットフォームです。コンテナを使用することで、開発者はアプリケーションとその依存関係をパッケージ化し、異なる環境でポータブルかつ一貫性のあるものにすることができます。このDockerチートシートは、Dockerを効果的に使用するための必要なコマンドと概念のクイックリファレンスガイドを提供します。 Dockerとは何ですか? Dockerは、開発者が独立したコンテナ内でアプリケーションを作成、デプロイ、管理するためのコンテナ化プラットフォームです。これらのコンテナには、アプリケーションコード、ランタイム、ライブラリ、および依存関係がパッケージ化されており、さまざまなシステムでの一貫性と効率性が確保されています。 詳細はこちら:初心者向けDocker完全ガイド Dockerのアーキテクチャ Dockerはクライアントサーバーアーキテクチャに従います: Dockerクライアント: Dockerデーモンと対話するためのコマンドラインツール。 Dockerデーモン: Dockerコンテナのビルド、実行、管理を担当するバックグラウンドサービス。 Dockerイメージ: コンテナを作成するための読み取り専用テンプレート。 Dockerコンテナ: Dockerイメージの実行インスタンス。 Dockerレジストリ: Dockerイメージの保存と配布を行うリポジトリ。 Dockerのインストール システムにDockerをインストールするには、オペレーティングシステムに適切な手順に従ってください。以下はWindowsおよびMacOSの手順です。 Windows システム要件の確認 Windows 10 64ビット:Pro、Enterprise、またはEducationエディション…

車両ルーティング問題 正確な解法とヒューリスティック解法

「車両ルーティング問題(VRP)は、与えられた一連の顧客をサービスするために、車両のフリートが実行する最適なルートセットを決定することを目指していますその多くの応用と挑戦的な性質により…」

「EU AI Actについて今日関心を持つべき理由」

「MLおよびAI業界で働く私たちのほとんどは、新しい規制に関する見出しを見て流し読みするでしょう新しい規制は『法律用語』というカテゴリに属しますこの用語は、どんな規制でも表現されるものです…」

AWSの知的ドキュメント処理を生成AIで強化する

「データの分類、抽出、分析は、大量の文書を扱う組織にとって困難な課題です従来の文書処理ソリューションは手作業が必要であり、高価でエラーが発生しやすく、スケーラビリティにも難がありますAWSのインテリジェントドキュメントプロセッシング(IDP)は、Amazon TextractなどのAIサービスを活用することで、業界をリードする機械学習(ML)技術を迅速かつ効果的に活用できます」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us