Learn more about Search Results MarkTechPost - Page 21
- You may be interested
- レコメンダーシステムにおけるPrecision@N...
- シリコンボレー:デザイナーがチップ支援...
- 「データサイエンスの役割に関するGoogle...
- AIに人間の価値観をどのように組み込むこ...
- Google Quantum AIの研究者が、拡張性のあ...
- 「Pythonによるロジスティック回帰のエラ...
- 「給与システムでの人事管理の活用方法:4...
- 「PyTorchでのSoft Nearest Neighbor Loss...
- パーソナライズされたA.I.エージェントが...
- GoogleのプロジェクトOpen Se Curaをご紹...
- 「伝統的な機械学習はまだ重要ですか?」
- 「専門家から汎用アシスタントへ:ビジョ...
- 「大きな言語モデルの操作(LLMOps)とは...
- 『AIが世界中のニュースルームで変化を生...
- 「実践におけるバージョン管理:データ、M...
ダックAIは、DuckTrackを紹介します:マルチモーダルコンピュータインタラクションデータコレクター
ユーザーの相互作用の正確で精密なトラッキングは、コンピューターエージェントの機能を進化させる上で重要な基盤となります。このタスクは、インテリジェントシステムの開発とトレーニングにおいて中心的な役割を果たしています。認知プロセスを模倣し、独立して業務を実行することを目的としたこれらのシステムの効果は、ユーザーの相互作用の慎重な調査と体系的な記録に依存しています。 ダックAIの研究者は、コンピューターエージェントが収集されたデータに適切に訓練されるように、さまざまな入力を正確に記録するためのDuckTrackを開発しました。DuckTrackは、主要なオペレーティングシステムと互換性のある使いやすいデスクトップアプリを通じて、マウス、キーボード、画面のビデオ、および音声データを同期して収集します。 さらに、DuckTrackはコミュニティデータ収集イニシアチブを開始しました。 このオープンソースの取り組みでは、さまざまなコンピューターの相互作用データの収集に参加する貢献者を募集しています。 DuckTrackは、すべての主要なオペレーティングシステムでスムーズに動作し、Pythonで作成されています。 DuckTrackの機能概要には、マウスおよびキーボードアクションの正確で精密な記録と再生の能力が示されています。 リサーチャーは、画面の録画をOBSと統合することで、その汎用性をさらに向上させると述べています。 DeepTruckでは、描画タスクにおいて構造的類似性指数(SSIM)は常に0.9を超えています。各イベントは、市場に存在する既存のトラッカーよりも低い誤差範囲で0.03ms ± 0.4msで記録されています。 DuckTrackは、パフォーマンスメトリックにおいて卓越したコミットメントを示しており、最高のトラッキングおよび再生ソリューションを求めるユーザーにとって信頼性のある選択肢となっています。 しかし、DuckTrackにも一定の制限があります。再生時にダブルクリックやトリプルクリックをリアルに再現することは現実的には難しく、これらのアクションの正確性に影響を与えます。さらに、DuckTrackはトラックパッドのジェスチャーを記録することができず、ゲームなどの生の情報を含むシナリオで入力をキャプチャする際に制限があります。 開発者たちは、これらの制限に対処し、コミュニティとの関与を継続することでDuckTrackの能力を向上させるために積極的に取り組んでいます。 リサーチャーは、M2 Pro MBP 14(macOS Sonoma 14.0を実行)、Intel i7-10510U System76 Lemur Pro 9(PopOS!…
アップルの研究者がパラレルスペキュラティブサンプリング(PaSS)を紹介:言語モデルの効率とスケーラビリティにおける飛躍
EPFLの研究者は、Appleとの共同研究で、Parallel Speculative Sampling(PaSS)と呼ばれる仕様採取の新たなアプローチを導入しました。この新たなアプローチにより、単一のモデルを使用して複数のトークンを同時に起草することが可能となり、自己回帰生成と仕様採取の利点を組み合わせることができます。PaSSの評価では、テキストとコードの補完のタスクで有望なパフォーマンスが示されており、モデルの品質を損なうことなく、先読み埋め込みの数がアプローチに与える影響も探求され、最適な数値が見つかりました。 PaSSは、仕様採取の制約事項に対処するために提案されたもので、同じトークナイザを使用する2つのモデルが必要な仕様採取と比較して、単一のモデルで複数のトークンの起草が可能です。自己回帰生成とベースラインメソッドとの比較評価により、PaSSの優れたスピードとパフォーマンスが示されています。テキストとコードの補完のタスクでのテストでは、全体的なモデルの品質を損なうことなく、有望な結果が得られました。また、異なるサンプリング手法を使用したベースラインとの比較により、サンプリングスキームと先読み埋め込みがPaSSのパフォーマンスに与える影響も探求されました。 大規模言語モデルは、自己回帰生成による自然言語処理の制約事項があります。生成されるトークンごとに順方向のパスが必要となり、メモリアクセスと処理時間に影響を与えます。仕様採取は解決策を提供するものの、同じトークナイザを使用する2つのモデルが必要となり、ボトルネックを導入します。PaSSは、2段階の並列デコーディングを利用する方法です。1つ目のトークンは、却下された場合の分布マッチングのために起草から除外され、モデルは並列デコーディングを使用して複数のトークンを同時に生成します。この方法により、全体的なモデルの品質を維持しながら、優れたスピードとパフォーマンスが実現されます。 PaSSは、自己回帰生成と比較して最大30%の高速化が見込まれる言語モデルの生成において、モデルのパフォーマンスを適正範囲内に維持しながら、低い分散性と高い予測性を持つトークンを生成する効果的な手法として証明されています。テキストとコードの補完のタスクにおいてPaSSのパフォーマンスを評価することで、その有効性が実証されています。さらなる改善点として、より高いパフォーマンス向上を目指して、より優れた先読みチケットを利用する方法が提案されています。 将来の研究の方向としては、先読みトークンを利用した並列生成の品質向上を探求することが推奨されており、PaSSのパフォーマンス向上のための有望な手法とみなされています。研究者は、先読みステップ数がPaSSに与える影響についてさらなる調査が必要であると強調しており、ステップ数の増加がアプローチの利点を相殺する可能性があると指摘しています。
「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」
OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約、文の補完などの言語処理能力を持つ画期的なモデルでした。その後継モデルであるGPT-4のリリースは、AIシステムとの対話方法において重要な変化をもたらし、テキストと画像の両方を処理する多モーダル機能を提供しています。さらにその機能を拡張するために、OpenAIは最近、GPT-4V(ision)をリリースしました。これにより、ユーザーはGPT-4モデルを使用して画像入力を分析することができます。 近年、異なるデータ形式を処理できる多モーダルLLMの開発が増えています。GPT-4は、多くのベンチマークで人間レベルの基準を示しているモデルの一つです。GPT-4V(ision)は、GPT-4の既存の機能の上に構築されており、テキストとの相互作用機能に加え、ビジュアル分析機能も提供しています。モデルはGPT-Plusに加入することでアクセスすることができますが、APIを介したアクセスについてはウェイトリストに参加する必要があります。 GPT-4V(ision)の主な特徴 モデルの主な能力には、以下があります: ユーザーからスクリーンショット、写真、ドキュメントなどのビジュアル入力を受け付け、さまざまなタスクを実行することができます。 オブジェクト検出を行い、画像内に存在する異なるオブジェクトに関する情報を提供することができます。 さらに、グラフやチャートなどの形式で表されるデータを分析することが可能です。 また、画像内の手書きテキストを読み取り、理解することができます。 GPT-4V(ision)の応用 GPT-4V(ision)の興味深い応用の一つは、データ解釈です。モデルはデータ可視化を分析し、それに基づいて重要な洞察を提供することができます。これにより、データの専門家の能力が向上します。 このモデルは、ウェブサイトのデザインに基づいてコードを書くことも可能です。これにより、ウェブ開発のプロセスを大幅に加速することができます。 ChatGPTは、ライターズブロックを克服し、素早くコンテンツを生成するためにコンテンツクリエーターに広く使用されてきました。ただし、GPT-4V(ision)の登場により、それは完全に異なるレベルにまで進化しました。たとえば、まずDALLE 3からイメージを生成するためのプロンプトを作成し、それを使用してブログを書くことができます。 このモデルは、駐車状況の分析、画像内のテキストの解読、オブジェクトの検出(およびオブジェクト数のカウントやシーンの理解などのタスク)、などにも役立ちます。モデルの応用は上記で挙げたポイントに限定されず、ほとんどの領域に適用することができます。 GPT-4V(ision)の制限事項 モデルは非常に優れていますが、画像の入力に基づいて間違った情報を提供することがあるため、注意が必要です。そのため、完全に頼るのではなく、データ解釈を行う際には人間が結果を検証する必要があります。また、複雑な推論はGPT-4にとって難しい領域であり、例えば数独の問題などが該当します。 プライバシーとバイアスは、このモデルの使用に関連するもう一つの重要な問題です。ユーザーによって提供されたデータは、モデルの再トレーニングに使用される可能性があります。GPT-4も、前身のモデルと同様に、社会的なバイアスや視点を再強化しています。そのため、制限事項を考慮して、GPT-4V(ision)は科学的な画像や医療アドバイスの提供などの高リスクなタスクには使用されないほうが良いでしょう。 結論 GPT-4V(ision)は、AIの能力において新たな基準を設けた強力な多モーダルLLMです。テキストと画像の両方を処理する能力により、AIを活用したアプリケーションの新たな可能性が開かれています。それにはまだ制限があるものの、OpenAIはこのモデルを安全に使用できるよう取り組んでおり、完全に依存することではなく、分析を補完するために使用することができます。 記事「GPT-4V(ision)の概念を理解する:新しい人工知能のトレンド」はMarkTechPostで最初に掲載されました。
聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか
研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化されます。これには、主要および非主要の聴覚皮質領域、聴覚神経、および底皮質構造が含まれます。環境の状況や言語的知覚単位に対する変化する音声信号のため、自然言語の知覚は困難な課題です。古典的な認知モデルは、音声の多くの心理的特徴を説明できますが、これらのモデルは脳の符号化と自然言語の認識を説明するのに不十分です。深層学習モデルは、自動音声認識で人間の性能に近づいています。 AIモデルの解釈可能性を向上させ、感覚知覚の新たなデータ駆動型計算モデルを提供するため、カリフォルニア大学サンフランシスコ校の研究者たちは、深層学習モデルの計算と表現を人間の聴覚系の神経応答と関連付けることを目指しています。この研究では、人間の聴覚回路と最先端の音声ニューラルネットワークモデル間の共通の表現と計算を特定することを目指しています。分析は、昇順聴覚経路に沿って正確な音声に対するニューラル応答に相関する深層ニューラルネットワーク(DNN)音声埋め込みに焦点を当て、ニューラル符号化のためのフレームワークを使用して行われます。 聴覚回路と異なる計算アーキテクチャ(畳み込み、再帰、セルフアテンション)および訓練手法(教師ありおよび教師なしの目標)を持つディープニューラルネットワーク(DNN)モデルを比較する方法論的な手法が用いられます。さらに、DNNの計算の調査は、ニューラル符号化予測の基本的なプロセスに関する情報を提供します。これまでのモデリング試みは、主に英語を中心とした単一の言語に焦点を当てていましたが、この研究では、言語固有および言語非依存の音声知覚の特徴をクロスリンガルパラダイムを使用して明らかにします。 先端のDNNがヒトの聴覚系で鍵となる情報処理要素に近く獲得される音声表現方法を示し、DNN特徴表現が真実の音声に対するニューロンの応答を予測する際に、理論に基づく音響-音声的特徴セットよりも優れた性能を発揮することが研究で明らかにされました。さらに、DNNにおける基本的な文脈処理を調査しました。彼らは完全に教師なしの自然言語のトレーニングが、これらのネットワークが音素や音節の文脈など、言語に特有なリンギスティックな情報を獲得する方法であることを発見しました。この言語固有の言語情報を獲得する能力は、非主要聴覚皮質におけるDNN-ニューラル符号化の相関を予測します。線形STRFモデルは、クロス言語知覚時のSTGにおける言語固有の符号化を明らかにすることはできませんが、ディープラーニングベースのニューラル符号化モデルはできます。 まとめると、 比較的な方法論を用いて、研究者たちは、音声学習用ディープニューラルネットワーク(DNN)と人間の聴覚システム間に重要な表現的および計算的類似性を示しています。神経科学の観点から見ると、古典的な特徴ベースの符号化モデルは、統計的構造からの中間音声特性を抽出するためにデータ駆動型計算モデルによって超えられます。神経応答と選択性との対照により、AIの観点からDNNの「ブラックボックス」表現を理解する手段を提供します。彼らは現代のDNNが、ヒトの聴覚システムが情報を処理する方法に似た表現方法を選んだ可能性を示しています。研究者によれば、将来の研究では、より幅広い範囲のAIモデルとさらに多様な人口を使用してこれらの結果を調査し、検証することができるでしょう。 The post Deciphering Auditory Processing: How Deep Learning Models Mirror Human Speech Recognition in the Brain appeared first…
MITとMeta AIからのこのAI研究は、高度なリアルタイムのロボットにおける手でのオブジェクト再配置のための革新的かつ手ごろな価格のコントローラーを発表します
MITとMeta AIの研究者は、単一の深度カメラを使用して、多様な形状のオブジェクトをリアルタイムに再配置するオブジェクト再配置コントローラを開発しました。この開発によって解決される課題は、一貫性のあるポイントの姿勢を必要とせずに、新たな条件に汎用的で効率的なオブジェクト操作システムが必要です。このプラットフォームは、オブジェクト再配置だけでなく、他の巧妙な操作タスクにも展開でき、将来の研究のためのさらなる改善の機会が示されています。 オブジェクト再配置の研究で使用される現在の方法には、特定のオブジェクトに焦点を当て、範囲が限定された遅い操作、高価なセンサーに依存し、シミュレーション結果のみが得られる制約があります。これらの方法は、シミュレーションから実世界のシナリオへの転送の課題を効果的に解決する必要があります。成功率は、タスクによって異なるエラー閾値によって決定されます。学生のビジョンポリシーネットワークは、これらの制限を対処するためにトレーニングされ、データセット間で最小限の汎化ギャップを示しました。 この研究では、手の中でのオブジェクト再配置の課題に対処することで、ロボットの手の器用さを向上させる方法を提示しています。以前の手法では制約があるため、高価なセンサーが必要であり、柔軟性に限界があります。これらの制約を克服するために、シミュレーションで強化学習を用いてコントローラをトレーニングし、新しい形状に対して実世界での汎化を成功させました。視覚入力を使用してコントローラをトレーニングし、効果的なシミュレーションから実世界への転送を達成する方法についても議論が行われました。 提案された方法は、シミュレーションでビジョンベースのオブジェクト再配置コントローラをトレーニングし、ゼロショット転送のために直接実世界で展開することを含みます。トレーニングでは、Isaac Gymの物理シミュレータを使用したテーブルトップセットアップで、容量向上型の畳み込みネットワークとゲート付きリカレントユニットを使用します。報酬関数には成功基準と追加の整形項が組み込まれています。方法の有効性を評価するために、3Dプリントおよび実世界のオブジェクトの両方でテストが行われ、エラー分布および定義された閾値内の成功率に基づいてシミュレーションと実世界の結果が比較されます。 シミュレーションでトレーニングされた単一のコントローラは、150のオブジェクトの再配置に成功し、3本指と変更された4本指のD’Clawマニピュレータの両方で実世界に展開されました。標準のワークステーションを使用して、12 Hzのリアルタイムパフォーマンスが達成されました。OptiTrackモーションキャプチャシステムを使用した評価では、正確なオブジェクト再配置と新しいオブジェクト形状への汎化能力が示されました。エラー分布と閾値内の成功率の分析により、シミュレーションから実世界への転送の課題に対するシステムの有効性と追加の仮定なしでの精度向上の可能性が示されました。 まとめると、この研究は、リアルタイムの強化学習によるコントローラの開発に成功し、実世界でのオブジェクト再配置を効果的に行うことができます。ただし、システムの中央の再配置時間は約7秒であり、再配置タスクにおける形状情報の重要性についての疑問を投げかけます。それは、シミュレーション結果を実世界に転送する重要性の課題を示しています。これらの課題にもかかわらず、コントローラは手の中での巧妙な操作において、特に構造のない環境での応用の可能性を持ち、追加の仮定なしでの精度向上の必要性を強調しています。 将来の研究の潜在的なアプローチは、形状特徴を組み込むことで、コントローラの性能を向上させる方法を探ることです。特に、正確な操作と新しい形状への一般化の観点でのコントローラの訓練の視覚的な入力の利用を調査する価値があるかもしれません。最後に、従来の作品との比較的研究は、既存の文献における研究結果を文脈化するのに役立つかもしれません。また、オープンソースハードウェアを使用した巧妙な操作もさらなる調査が求められます。
MLOps(エムエルオプス)とは何ですか?
“`html 機械学習オペレーション(MLOps)は、機械学習(ML)の開発とデプロイメントを結びつけることにより、生産環境での高性能モデルの継続的なデリバリーを標準化し効率化するための一連のプロセスです。 MLモデルの作成と改善をML開発と呼びます。機械学習モデルのデプロイメントは、それらを実稼働環境で使用可能にすることです。 MLモデルを開発から実稼働環境に移動させるために必要なプロセスを自動化することで、MLOpsは開発とデプロイメントの間のギャップを埋めます。これにより、MLモデルの迅速かつ効果的なデプロイメント、および産業環境での持続的な成功が支援されます。 MLOpsの利点は何ですか? MLOpsの価値は、企業が以下のことが可能になることです: MLOpsは、MLモデルを開発から実稼働環境に迅速にデプロイするためのプロセスを合理化し、デプロイメントを迅速化します。これにより、組織に利点をもたらすMLモデルの迅速なデプロイメントが実現されます。 MLOpsは、MLモデルをトレーニング環境と一致する実稼働環境にデプロイして、機械学習(ML)モデルの品質を向上させます。これにより、モデルが時間の経過とともに精度を失う、基本的なデータ分布が変化することのリスクを軽減します。 MLOpsは、実稼働環境でのMLモデルの管理と監視のプロセスを自動化することで、MLオペレーションの高コストを削減します。従業員は新しいMLモデルの作成など、他のプロジェクトに時間を費やすことができます。 MLOpsは具体的にどのように機能しますか? MLOpsを実装するためには、通常、継続的な統合とデリバリー(CI/CD)パイプラインが使用されます。ソフトウェアアプリケーションのビルド、テスト、リリースなどのプロセスは、CI/CDパイプラインの助けを借りて自動化することができます。 MLOps用のCI/CDパイプラインの典型的な手順の例は次のとおりです: 過去に収集されたデータを使用して、MLモデルをトレーニングします。 ホールドアウトデータセットと比較することで、MLモデルをテストします。 MLモデルを実稼働環境にデプロイメントします。 MLモデルを監視し、実稼働環境での性能を確認します。 CI/CDワークフローは手動または自動で開始することができます。たとえば、機械学習モデルの新バージョンが学習された場合にパイプラインがアクティブ化されることがあります。 MLOpsに使用されるツールは何ですか? MLOpsで使用できるさまざまな有用なツールがあります。一般的なツールには次のものがあります: トレーニングやMLモデルのデプロイメントに使用される一連のツールは、MLフレームワークとして知られています。MLフレームワークの中でも特によく使用されるのは、TensorFlow、PyTorch、scikit-learnです。 クラウドコンピューティングプラットフォームは、実稼働環境でのMLモデルのインストールと管理に必要なインフラストラクチャとサービスを提供します。代表的なクラウドコンピューティングプラットフォームには、Amazon Web Services(AWS)、Google Cloud…
「Bingチャットは、最新のリアルタイムな知識を提供する点でChatGPTを上回るのか? 検索補完強化ジェネレーション(RAG)によるご紹介」
近年、大規模言語モデル(LLM)の開発により、人工知能(AI)と機械学習の分野において革新的な変化がもたらされました。これらのモデルは大衆やAIコミュニティから重要な注目を集め、自然言語処理、生成、理解において驚異的な進歩を遂げています。よく知られたChatGPTというLLMの最良の例は、OpenAIのGPTアーキテクチャに基づいており、人間がAIパワードの技術と対話する方法を変えました。 LLMは、テキスト生成、質問応答、テキスト要約、言語翻訳などのタスクにおいて優れた能力を示していますが、それでも独自の欠点があります。これらのモデルは、時に正確でない情報や時代遅れの情報として出力することがあります。さらに、適切なソースの引用がない場合、LLMによって生成された出力の信頼性を検証することが困難になることがあります。 Retrieval Augmented Generation(RAG)とは何ですか? Retrieval Augmented Generation(RAG)という手法は、上記の制限に対処しています。RAGは、外部知識ベースから事実を収集し、大規模言語モデルが正確かつ最新の情報にアクセスできるようにする人工知能ベースのフレームワークです。 外部知識の取り込みにより、RAGはLLMを変革することができました。RAGは従来のLLMの制限を解消し、外部検索と生成手法をスムーズに組み合わせることにより、より信頼性のある、文脈に敏感な、知識のあるAIによるコミュニケーション環境を保証します。 RAGの利点 応答の品質向上 – Retrieval Augmented Generationは、不一致のあるLLM生成の応答問題に焦点を当て、より正確で信頼性のあるデータを保証します。 最新の情報の取得 – RAGは外部情報を内部表現に統合することで、LLMが最新かつ信頼性のある事実にアクセスできるようにします。これにより、回答が最新の知識に基づいており、モデルの正確性と関連性が向上します。 透明性 – RAGの実装により、ユーザーはLLMベースのQ&Aシステムにおけるモデルのソースを取得できます。ユーザーに文の整合性を検証する機能を提供することで、LLMは透明性を促進し、提供するデータへの信頼性を高めます。 情報の欠落と幻覚の減少 – RAGは、LLMを独立かつ検証可能な事実に基づいて構築することにより、モデルが機密情報を漏洩したり、誤った結果を生成する可能性を低減します。より信頼性のある外部知識ベースに依存することで、LLMが情報を誤解する可能性を減らします。…
このAI研究は、車両の後続振る舞いモデリングのための包括的なベンチマークデータセット「FollowNet」を紹介します
他の車に続くことは、最も一般的で基本的な運転行動です。他の車に安全に従うことは、衝突を減らし、交通の流れを予測しやすくします。ドライバーが道路上で他の車に従うとき、適切な車両追跡モデルは、この行動を数学的または計算的に表現します。 運転データの実世界での利用可能性と機械学習の進歩は、過去10年間にデータ駆動型の車両追従モデルのブームに大きく貢献しました。車両に従うためにデータに依存するモデルには、ニューラルネットワーク、再帰型ニューラルネットワーク、強化学習などがあります。ただし、次のようないくつかの制約もあります: まず、車両追従モデルは、標準のデータ形式の不在のためにまだ十分に評価されていません。NGSIMやHighDなどの公開運転データセットが利用可能であるにもかかわらず、車両追従モデルの新規提案モデルのパフォーマンスを既存のものと比較するのは困難です。 第二に、現在の研究の限られたデータセットでは、混合交通流における車両追従行動を正確に描写することは不可能です。自律型車両を考慮しない小規模なデータセットで車両追従行動をモデリングしているということが先行研究の主な焦点であり、これは人力および自動運転車両が道路を共有している時期に行われたものです。 これらの問題を解決し、標準的なデータセットを作成するために、香港科技大学、広東省統合通信キーラボ、同济大学、ワシントン大学の研究者らによる新しい研究によって、FollowNetというベンチマークが作成されました。彼らは一貫した基準を使用して、5つの公開データセットから車両追跡イベントを抽出し、ベンチマークを確立しました。研究者らはベンチマーク内で5つのベースラインの車両追従モデルを実行し、評価し、従来の手法とデータ駆動型の手法を包括しています。彼らは車両追従モデルの作成を容易にするために、一貫したデータ形式を使用してこのような行動の最初の基準を設定しました。さまざまなデータ構造やフレームワークの取り扱いは困難かもしれませんが、彼らの標準化された車両追従ベンチマークはそれを考慮に入れています。 ベンチマークを使って、GHR、IDM、NN、LSTM、DDPGの2つの従来型および3つのデータ駆動型の車両追従モデルがトレーニングおよび評価されます。HgihD53、Next Generation Simulation(NGSIM)54、Safety Pilot Model Deployment(SPMD)55、Waymo56、およびLyf57という5つの人気のある公開運転データセットは、提案されたベンチマークを構成する車両追従イベントを含んでいます。研究者らは複数のデータセットについて車両追従行動のパターンや基本的な統計情報を調査しました。結果は、一貫した評価指標を用いてベースラインモデルのパフォーマンスを評価することを示しています。特にWaymoとLyfのデータセットでは、車両追従の発生が混合交通状況であることが示されています。静止時間が90%以上のイベントは含まれていません。 データ駆動型のモデルがクラシックなモデルよりもスペーシングのMSEが低くなったとしても、衝突はまだ起こり得ます。衝突率がゼロで、スペーシングエラーが少ない車両追従モデルの開発は望ましいです。データ駆動型モデルを現実世界で実用的かつ安全に使用するために、衝突回避機能を組み込むことは有益です。提案されたベンチマークでは、すべての車両が一貫して似たような行動パターンを示すと考えられています。しかし現実的には、運転習慣はドライバーや車両、交通状況によって大きく異なることがあります。そのため、幅広い運転スタイル、行動、交通状況をカバーする適応可能なアルゴリズムと代表的なデータセットを作成することは、車両追従モデルに運転の異質性を含めるために不可欠です。 研究者らは、将来のデータセットが更なる性能と現実性を向上させるために、追加のフィーチャーを取り入れる必要があると提案しています。例えば、交通信号や道路の状況データを追加することで、より完全な道路環境の全体像が得られるかもしれません。さらに、アルゴリズムは、近くの車両やその活動に関するデータを統合すれば複雑な関係性を考慮し、より良い予測を提供することができます。これらの追加データソースを使用することで、将来のデータセットはより現実世界の運転シナリオを反映できるようになり、頑健かつ効果的な車両追従アルゴリズムの作成を可能にします。
「UCLとイギリス帝国大学の研究者が、タスク適応型貯水池コンピューティングを通じてエネルギー効率の高い機械学習を発表」
従来のコンピュータは多くのエネルギーを使用します。世界の電力需要の約10%を占めているのです。これは、従来のコンピュータがデータを処理し、保存するために別々のユニットに依存しているためであり、その2つのユニット間での継続的なシャッフルが必要です。このプロセスによって熱が発生し、エネルギーが無駄になります。 脳に触発された、またはニューロモーフィックなコンピューティングは、従来のコンピュータのエネルギー効率の問題に対して、潜在的に効果的な解決策です。これは、人間の脳の構造と運用にモデル化されており、少量のエネルギーを使用して複雑な計算を行うことができます。 物理的な貯溜器を使用することは、ニューロモーフィックなコンピューティングの基本原理です。非線型ダイナミクスを持つ物質、または入力にわずかな変化が生じるとその振る舞いが感度を持つ物質は、物理的な貯溜器として知られています。これらの貯溜器は、情報を物質の状態に符号化することができますので、計算に適しています。 最近の研究では、国際的な学術グループが、VoAGIとしてキラル磁石を使用した新しい形の物理的な貯溜器コンピューティングを作り出しました。ねじれた構造を持つ物質、つまりキラル磁石は、ユニークな磁気特性を持っています。科学者たちは、温度を変化させ、外部磁場をかけることでキラル磁石の磁気相を制御することができることを発見しました。これにより、材料の物理的な特性をさまざまな機械学習アプリケーションに合わせて変更することができました。たとえば、磁化した粒子が渦状のパターンで回転しているスカイミオン相は、強力なメモリを持つため、予測アプリケーションに理想的です。一方、錐体相は最小限のメモリを持っていますが、非線形性があるため、分類や変換のジョブには最適です。 より従来のニューロモーフィックなコンピューティング方法と比較して、この新しい物理的な貯溜器コンピューティングへの新たなアプローチは、いくつかの利点を提供します。まず第一に、外部の電子機器が必要ないため、よりエネルギー効率が高くなります。第二に、より広範な機械学習のタスクに適応することができます。 この新しいタイプの脳に触発されたコンピューティングの創造とともに、よりエネルギー効率の高いコンピュータソリューションの探求が進んでいます。さらなる調査により、この技術は私たちの計算方法を大きく変える可能性があります。
「中国のAI研究は、GS-SLAMを導入し、高度な3Dマッピングと位置特定のための新しい手法を紹介します」
上海AI研究所、復旦大学、西北工業大学、香港科技大学の研究者たちは、GS-SLAMという3Dガウス表現ベースの同時位置推定と地図作成(SLAM)システムを開発しました。この計画の目標は、精度と効率のバランスを実現することです。GS-SLAMはリアルタイムの微分可能なスプラッティングレンダリングパイプライン、適応的な拡張戦略、およびコーストゥファインの技術を使用して、姿勢追跡を改善し、ランタイムを短縮し、より堅牢な推定を実現します。このシステムは、ReplicaとTUM-RGBDのデータセットで競争力のあるパフォーマンスを発揮し、他のリアルタイム手法を上回っています。 この研究では、手作業の特徴ベース、ディープラーニング埋め込み、およびNeRFベースのアプローチに基づく既存のリアルタイム密なビジュアルSLAMシステムについて検討しました。GS-SLAMの導入まで、カメラ姿勢推定とリアルタイムマッピングに3Dガウスモデルを使用した研究が不足していることを強調しています。GS-SLAMは、リアルタイムの微分可能なスプラッティングレンダリングパイプラインと適応的な拡張戦略を組み合わせ、効率的なシーン再構築を実現する革新的な3Dガウス表現を採用しています。確立されたリアルタイムSLAM手法と比較して、この手法はReplicaとTUM-RGBDのデータセットで競争力のあるパフォーマンスを示しています。 この研究では、従来のSLAM手法が細かい密な地図を作成する上で直面する課題に取り組み、GS-SLAMという新しいRGB-D密なSLAM手法を紹介しました。GS-SLAMは、3Dガウスシーン表現とリアルタイムの微分可能なスプラッティングレンダリングパイプラインを活用して、速度と精度のトレードオフを向上させています。提案された適応的な拡張戦略は新たに観測されたシーンジオメトリの効率的な再構築を実現し、コーストゥファインの技術はカメラ姿勢推定を向上させます。GS-SLAMは、追跡、マッピング、およびレンダリングのパフォーマンスを改善し、ロボット、仮想現実、拡張現実の応用における密なSLAM機能の重要な進歩を提供します。 GS-SLAMは、マッピングとRGB-D再レンダリングのために3Dガウス表現とリアルタイムの微分可能なスプラッティングレンダリングパイプラインを使用しています。シーンジオメトリの再構築とマッピングの向上には、適応的な拡張戦略が特徴として採用されています。カメラトラッキングでは、コーストゥファインの技術が信頼性のある3Dガウス表現の選択に使用され、ランタイムが短縮され、堅牢な推定が確保されます。GS-SLAMは、ReplicaとTUM-RGBDのデータセットで最先端のリアルタイム手法に対して競争力のあるパフォーマンスを発揮し、同時位置推定と地図作成の効率的かつ正確なソリューションを提供します。 GS-SLAMはReplicaとTUM-RGBDのデータセットでNICE-SLAM、Vox-Fusion、およびiMAPを上回ります。さまざまなメトリックでCoSLAMと同等の結果を達成します。GS-SLAMは構築されたメッシュに明確な境界と詳細を表示し、優れた再構築パフォーマンスを示します。トラッキングに関しては、Point-SLAM、NICE-SLAM、Vox-Fusion、ESLAM、およびCoSLAMを上回ります。GS-SLAMは約5FPSの実行速度でリアルタイムアプリケーションに適しています。 GS-SLAMの効果は、高品質な深度情報の入手可能性に依存しており、3Dガウスの初期化と更新のために深度センサーの読み取りに頼っています。この手法は大規模なシーンにおいてメモリ使用量が増加する傾向があり、今後の課題としてこの制限をニューラルシーン表現の統合を通じて緩和することを計画しています。この研究はこれらの制約を認識していますが、適応的な拡張戦略とコーストゥファインのカメラトラッキング技術の潜在的な制約についてのさらなる洞察が必要です。そのコントロールを包括的に評価するためには、さらなる分析が必要です。 まとめると、GS-SLAMは速度と精度のバランスを提供する密なビジュアルSLAMタスクの有望なソリューションです。適応的な3Dガウスの拡張戦略とコーストゥファインのカメラトラッキングにより、ダイナミックで詳細なマップの再構築と堅牢なカメラ姿勢推定が実現されます。高品質な深度情報への依存と大規模なシーンでの高メモリ使用量にもかかわらず、GS-SLAMは競争力のあるパフォーマンスと優れたレンダリング品質を示しています、特に詳細なエッジ領域において。今後の改善にはニューラルシーン表現の統合が計画されています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.