Learn more about Search Results A - Page 75

このAI論文は、高度な潜在的一致モデルとLoRA蒸留によってテキストから画像を生成するタスクを革新するLCM-LoRAを紹介しています

潜在拡散モデルは機械学習における生成モデルであり、特に確率モデリングで使用されます。これらのモデルはデータセットの潜在的な構造や潜在変数を捉えることを目指しており、リアルなサンプルの生成や予測に焦点を当てています。これらは時間とともにシステムの進化を記述します。これは、一連のステップや拡散プロセスを通じて初期分布から目的の分布へのランダム変数のセットの変換を指すことができます。 これらのモデルはODE-Solverのメソッドに基づいていますが、推論ステップの数を減らす一方で、特にクラシファイアフリーガイダンスを組み込む場合にはかなりの計算オーバーヘッドを要求します。Guided-Distillなどの蒸留法は有望ですが、その計算要件が高いため改善が必要です。 こうした課題に取り組むために、潜在一貫性モデルの必要性が浮かび上がってきました。彼らのアプローチでは、Augmented Probability Floe ODE問題として逆拡散プロセスを取り扱い、潜在空間での解を予測し、数値ODEソルバーを介した反復的な解決の必要性を回避します。これにより、高解像度画像の顕著な合成にはわずか1〜4の推論ステップがかかります。 清華大学の研究者は、LoRA蒸留をStable-Diffusionモデル(SD-V1.5、SSD-1B、SDXLなど)に適用することで、LCMの潜在的な可能性を拡大しました。彼らは、優れた画像生成品質を実現することで、メモリ消費を大幅に削減しながら大規模なモデルにLCMの適用範囲を広げました。アニメ、フォトリアル、ファンタジー画像などの特殊なデータセットでは、Latent Consistency Distillation(LCD)を使用して事前学習されたLDMをLCMに蒸留するか、LCFを使用してLCMを直接微調整するなど、追加のステップが必要です。しかし、カスタムデータセットにおいて高速でトレーニングフリーな推論を実現することは可能でしょうか。 チームは、これに答えるためにさまざまなStable-Diffusionで微調整されたモデルに直接接続できるトレーニングフリーの高速化モジュールであるLCM-LoRAを紹介します。LoRAのフレームワークの中で、得られたLoRAパラメータは元のモデルパラメータにシームレスに統合することができます。チームは、潜在一貫性モデル(LCMs)の蒸留プロセスにLoRAを使用することの実現可能性を示しました。LCM-LoRAパラメータは他のLoRAパラメータと直接組み合わせることができ、特定のスタイルのデータセットで微調整することができます。これにより、追加のトレーニングなしで特定のスタイルで画像を生成することができます。したがって、これらは多様な画像生成タスクにおいて普遍的に適用可能なアクセラレータを表します。 この革新的なアプローチにより、反復ステップの必要性が大幅に削減され、テキスト入力からの高信頼性画像の迅速な生成が可能となり、最先端のパフォーマンス基準を設定しています。LoRAはパラメータの変更する必要のあるボリュームを大幅に削減し、計算効率を向上させ、データが少なくてもモデルの改良を可能にします。

ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました

ヴァンダービルト大学とカリフォルニア大学デービス校の研究者は、PRANCと呼ばれる枠組みを導入しました。この枠組みは、重み空間内のランダムに初期化されたモデルと凍結された深層モデルの線形組み合わせとして、深層モデルを再パラメータ化することを示しています。トレーニング中に、これらの基底ネットワークが張る部分空間内の局所最小値が求められ、深層モデルの大幅なコンパクションが実現されます。PRANCは、深層モデルの保管と伝送における課題に取り組み、マルチエージェント学習、持続的学習者、フェデレーテッドシステム、エッジデバイスなどの潜在的な応用を提供します。PRANCにより、レイヤ毎の重みの即時生成によるメモリ効率の高い推論が実現されます。 この研究では、ランダムに初期化されたネットワークやサブネットワークを使用したモデルの圧縮や持続的学習に関する先行研究について議論されています。ハッシュ、プルーニング、量子化など、さまざまな圧縮手法が比較され、それらの制約が強調されています。提案されたPRANCフレームワークは、既存の方法よりも極端なモデルの圧縮を目指しており、他の圧縮方法と比較されています。PRANCは、画像圧縮において従来のコーデックや学習ベースの手法と比較され、その有効性が示されています。ただし、特定のモデルパラメータの再パラメータ化の課題や大規模なモデルのトレーニングにおける計算コストなどの制限もあります。 この研究は、精度向上が単に複雑さやパラメータの増加から生じるという概念に挑戦します。PRANCは、凍結されたランダムモデルの線形組み合わせとして深層モデルをパラメータ化し、モデルの効率的な保管と伝送のために大幅に圧縮します。PRANCは、マルチエージェント学習、持続的学習者、フェデレーテッドシステム、エッジデバイスなどの課題に取り組んでいます。この研究は、極端な圧縮率の必要性を強調し、PRANCを他の圧縮手法と比較しています。ただし、特定のモデルパラメータの再パラメータ化の課題や大規模なモデルの計算コストなどの制限もあります。 PRANCは、ランダムに初期化されたモデルの重み空間内で、深層モデルをパラメータ化する枠組みです。この枠組みは、タスクの解決に対して重みを最適化し、基底モデルの範囲内でタスクの損失を最小化します。モデル生成には単一のスカラーシードを使用し、再構成のための学習係数を使用することで通信コストを削減します。最適化には標準的なバックプロパゲーションが使用され、基底モデルをチャンク化し、GPUベースの疑似乱数ジェネレータで各チャンクを生成することでメモリ効率が向上します。PRANCは、画像圧縮への応用が探索され、他の手法とのパフォーマンスが比較されています。 この手法は、PRANCの画像分類および圧縮のパフォーマンスを評価し、その両方のタスクにおける優位性を示しています。PRANCは、画像分類においてベースラインを圧倒し、重要な圧縮を実現し、メモリ効率の高い推論が可能です。画像圧縮では、JPEGやトレーニングされたINR手法を超えるPSNRやMS-SSIMの評価値を示しています。異なるサブセットを使用した再構成画像の視覚化が行われています。プルーニング手法との比較では、競争力のある精度とパラメータ効率が強調されています。 PRANCは、ランダムに初期化されたモデルと凍結されたモデルの線形組み合わせとして深層モデルを大幅に圧縮する枠組みです。PRANCは画像分類においてベースラインを圧倒し、重要な圧縮を実現します。メモリ効率の高い推論を実現するために、レイヤ毎の重みの即時生成が行われます。画像圧縮では、PSNRとMS-SSIMの評価でJPEGやトレーニングされたINR手法を上回ります。この研究では、PRANCを寿命学習や分散シナリオに応用する可能性を示唆しています。ただし、特定のモデルパラメータの再パラメータ化の課題や大規模なモデルの計算コストなどの制限もあります。 PRANCについての将来の応用と改善策は、効率的なパラメータの保管と通信に向けて、PRANCをGANや拡散モデルなどのコンパクトな生成モデルに拡張することを提案しています。コンパクト性を向上させるために、重要度が低下するような線形混合係数の学習を行う方法や、通信や保管の制約に基づいて精度とコンパクト性をトレードオフする基底モデルの順序を最適化する方法などがあります。また、PRANCを例示ベースの半教師あり学習方法に適用し、積極的な画像拡張を通じた表現学習における役割を強調することも提案されています。

パロアルトネットワークスは、Cortex XSIAM 2.0プラットフォームを導入します:ユニークなBring-Your-Own-Machine-Learning(BYOML)フレームワークを特徴としています

“`html サイバーセキュリティにおいて、組織はセキュリティインテリジェンスと自動化の効率的な管理に直面しています。一つの問題は、セキュリティ対策の強化のために効果的な機械学習モデルが必要とされることです。従来、セキュリティチームは事前定義されたモデルに限定され、進化する脅威に対応することが困難でした。 この課題に対処するためのいくつかの解決策が存在しましたが、それらはセキュリティチームからより高い柔軟性を要求することがよくありました。これらの解決策では、セキュリティ専門家が自分たちの特定のニーズに合わせて独自の機械学習モデルを作成・実装することができませんでした。この制限は、詐欺検出、セキュリティ研究、データの可視化などの領域で機械学習の可能性を十分に活用する能力を阻害しました。 Palo Alto Networksは、ユニークな「Bring-Your-Own-Machine-Learning (BYOML) フレームワーク」を備えた「Cortex XSIAM 2.0プラットフォーム」を導入しました。このフレームワークは、XSIAMに格納されている膨大なセキュリティデータへのアクセスを提供することで、セキュリティチームに力を与えます。今では、セキュリティチームはXSIAMエコシステム内で独自の機械学習モデルを構築し利用することができ、より高度なカスタマイズと適応性が可能です。 XSIAM内のBYOMLフレームワークは、セキュリティチームが詐欺検出やセキュリティ研究を含むさまざまなユースケースにおいて、機械学習を活用することを可能にします。進化するサイバーセキュリティの課題に対応するため、機械学習モデルを柔軟に適応させることができるより動的なアプローチを提供します。 XSIAM 2.0への注目すべき追加機能の一つは、XSIAMコマンドセンターの導入です。この中央ハブにより、セキュリティチームはデータソースとアラートに関する貴重な洞察を得ることができます。この機能により、セキュリティ専門家は統一されたプラットフォーム内でセキュリティインシデントを効率的に識別し優先順位付けを行い、インシデント対応と管理を効率化することができます。 さらに、XSIAM 2.0では、MITRE ATT&CKカバレッジダッシュボードが組み込まれており、組織は一般的な脅威行動者の戦術と手法に対する全体的な防御策を評価できます。これにより、プラットフォームが多様なサイバーセキュリティの脅威に対してどのように対処できるかを視覚的に表現することができます。 このプラットフォームは、AIおよび自動化機能を備えた伝統的な能力を超えています。これらの機能により、組織は手動タスクを自動化し、セキュリティオペレーションの自動化方法についての推奨事項を受け取ることができます。これにより、運用効率が向上し、サイバーセキュリティに対して能動的かつ適応的なアプローチを取ることができます。 結論として、Palo Alto NetworksのXSIAM 2.0のリリースは、サイバーセキュリティの進化する課題に対処するための重要な一歩を示しています。この革新的なソリューションにより、セキュリティチームは自分たちの機械学習モデルを制御し、新たな脅威に適応し、インシデント対応を効率化することができます。XSIAMコマンドセンターやMITRE ATT&CKカバレッジダッシュボードなどの追加機能により、組織はサイバーセキュリティの脅威に対する防御能力を強化するための包括的なプラットフォームを備えることができます。 この記事は、Palo Alto…

(ローマ字:Rokkagetsu de detā anarisuto no shigoto o te ni ireta hōhō)

2019年、私は国内でも最も名門の大学でコンピューターサイエンスの学位を追求していましたデータ業界での仕事につながることを期待して、応募を始めました

データサイエンスの戦略の鬼才になる:AIビジョンリーダー、ビン・ヴァシスタ氏との対話

アナリティクス・ビディヤの画期的なシリーズLeading With Dataでデータサイエンスの変革的な世界に飛び込んでください。このシリーズからの独占インタビューでは、アナリティクス・ビディヤのCEOであるクナール・ジャインが、優れたAIリーダーであるビン・ヴァシシュタとの魅力的な対話を繰り広げます。ビンの旅の秘密を明らかにし、技術的な役割からリーダーシップへの戦略的な転換による貴重な洞察と経験を共有します。 ビン・ヴァシシュタとの対話、創設者兼AIアドバイザー、V Squaredによる さあ、始めましょう! 主なポイント Vin Vashishtaの非凡な旅に乗り出し、PCの設置からAI戦略の先駆者への変動を体験してください。 リーダーにとっての重要な意思決定についての彼の見解を明らかにし、データサイエンスのアプリケーションの信頼性と即効性のバランスを取る方法を理解してください。 業界のトレンドを爆発する前に予知するVin独自のプロセスに見入り、常に変わりゆく環境での戦略的な動きをガイドしてください。 彼のスタートアップの起源に迫り、年月を経るにつれてその進化を目撃し、挑戦と勝利についての生の体験を提供します。 最新テクノロジーの後発者にとっても持続的な成功の推進力となるビジネスビジョンの重要性をいかに信じているかをVinの考え方を探ってください。 急速に進化する分野での前進の必要性を強調し、技術の専門家が異なる領域に進出することを推奨するVinの考えについて理解してください。 データサイエンスの旅をどのように始めましたか? 私は建築学に進むための教育を開始し、父の footstepsに続きました。しかし、12歳のときの初めてのプログラミングの体験は私に深い影響を与えました。仮想環境で何かを作り出す力に魅了されました。大学の1年生の間にプログラミングの授業を受け、すぐに自分の情熱だと確信しました。私の焦点は1994年から1995年ごろのプログラミングに切り替わりました。私のデータサイエンスへの道は直接のものではありませんでした。私は90年代の最初のAIブーム時に卒業しました。マイクロソフトで働いて高度なモデルを構築したいという私の大望にもかかわらず、私はより伝統的なソフトウェアエンジニアリングの役割にいました。PCの設置からウェブサイトの構築とデータベース管理まで、上り詰めてきました。最初の企業の仕事は、ソフトウェアとプラットフォームの自社設置と直接のお客様との仕事でした。この経験は重要で、ソフトウェアの約束を実現する重要性を教えてくれました。 データサイエンスモデルに初めて直面した課題は何でしたか? 私の最初のデータサイエンスプロジェクトは2012年で、当時は現在のようなライブラリやリソースはありませんでした。私はC、C++、Javaなどさまざまな言語でモデルを構築しました。技術の制約からすべてを最適化する必要があったためです。現在のクラウドインフラストラクチャは利用できず、大規模企業にのみデータが利用可能でした。初期のクライアントは大企業であり、2016年頃から中小企業が私にアプローチするようになりました。これらの小規模なクライアントとの仕事では、予算や時間といった現実の制約に直面しました。これは法人の世界とは異なる経験でした。 技術的な役割から戦略とリーダーシップへの過渡はどのようにして行われましたか? 2012年に解雇された後、私はすぐに副業のコンサルティングを本業に転換し、V Squaredというビジネスを立ち上げました。最初の頃はデータサイエンスよりもBI分析に近い仕事でした。分野が進化するにつれ、私は統計モデルを構築し、科学者と協力してモデルの説明性の重要性を学びました。この経験から、従来の機械学習アプローチと科学の厳密な基準とのギャップを埋めるようになりました。素早くより信頼性のある解決策が必要な場合を見極める能力を身につけました。バリューの提供と技術的厳密さのバランスを取るこの理解が、技術的な役割からリーダーシップと戦略に押し上げました。 ソーシャルメディアはビジネスの成長にどのように影響しましたか? ソーシャルメディア、特にTwitterとその後LinkedInは、私のビジネスの拡大に重要な役割を果たしました。それは私の営業のトンネルを完全に変え、お問い合わせや機会の数を増やしました。経営者の視点からデータサイエンスと機械学習について議論することで、私はユニークな声を見つけました。私のブランドは常に実用主義に基づいており、日々の仕事と経験に基づいて、現場でうまくいくこと、そしてそうでないことについて議論しています。…

会社独自のChatGPTを開発するには、技術の1/3とプロセス改善の2/3が必要です

2023年を通じて、バルト地域最大のエネルギー企業のEnefitの従業員向けに、GPTモデルをベースにした仮想アシスタントを開発してきました最初の記事(こちらで読む)では、私は...

ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム

少ないトレーニングデータで特定のドメイン用の事前学習済みの大規模言語モデル(LLM)に特化するために、低ランク適応またはLoRAは人気を集めています。LoRAは、事前学習モデルの重みを保持し、Transformerアーキテクチャの各層に学習可能なランク分解行列を追加することで、学習可能なパラメーターの数を大幅に減らすため、テナントは最小限のコストでさまざまなLoRAモデルをトレーニングできます。 LoRAは現在、広く使用されているファインチューニングフレームワークの一部です。テナントの要求に応えるために、MLプロバイダーは同時に多くの特定のLoRAモデルを提供する必要があります。 LoRAモデルを個別にトレーニングしたかのように提供するだけでは、GPUリソースが無駄になります。 各LoRAモデルにはk GPUが必要である場合、n個の別々のLoRAモデルをサポートするためにk×n GPUが必要とされるでしょう。ただし、これは単純な方法であり、これらのLoRAモデル間の重みの相関性の可能性を無視しています。彼らは、複数の異なるLoRAモデルをサポートする効果的なシステムは、次の3つの設計原則に従う必要があると主張しています。(G1)GPUは高価で供給が少ないため、マルチテナントのLoRAサービングワークロードを少数のGPUに集中させてGPUの使用率を最大化する必要があります。 (G2)バッチ処理は、MLワークロードを組み合わせてパフォーマンスとGPUの使用率を向上させるための最善の方法の1つであることが以前の研究で指摘されています。ただし、要求が同じモデルに対して行われる場合にはバッチ処理のみを行っています。そのため、さまざまなLoRAモデルに対してバッチ処理を許可する必要があります。 (G3)モデルサービングのコストのほとんどは解読ステージに起因します。したがって、彼らはステージのパフォーマンスに集中する必要があります。他のより重要でないモデルサービングの構成要素に対しては、オンデマンドでLoRAモデルの重みを読み込むなど、簡単な方法を使用することができます。これらの3つの基準に基づいて、ワシントン大学とデューク大学の研究者が共有GPUクラスタ上のLoRAモデルのマルチテナントサービングフレームワークであるPunicaを開発しました。 セグメント化されたギャザーマトリックス-ベクトル乗算(SGMV)は、新しいCUDAカーネルの1つであり、複数の異なるLoRAモデルの同時実行によるバッチ処理GPU操作を可能にします。SGMVによって、GPUがメモリと計算の両方でGPUの効率を劇的に向上させるために、事前学習モデルのコピーの数を減らすことができます。この新しいCUDAカーネルとともに、システム最適化のためのいくつかの最先端の手法を組み合わせました。驚くべきことに、同じLoRAモデルをバッチ処理すると、他の異なるLoRAモデルをバッチ処理する場合とほとんどパフォーマンスの違いはありません。SGMVは、複数のLoRAモデルからのバッチリクエストを許可します。同時に、LoRAモデルのオンデマンド読み込みの遅延はわずか数ミリ秒です。 Punicaは、現在GPU上で実行中のLoRAモデルに制限されることなく、ユーザの要求をより少ないGPUグループに集約できるようになりました。 Punicaは、複数のテナントのタスクをアレンジするために次の2つの方法を使用します。 Punicaは、現在使用中の選択した一部のGPUグループに新しいリクエストを直接送信し、それらのGPUを最大限に利用します。 Punicaは、現在のGPUが完全に使用されるまで、さらなるGPUリソースを確保しません。 Punicaは、定期的にアクティブなリクエストを統合するために移動します。これにより、Punicaが割り当てられたGPUリソースを解放できるようになります。彼らは、NVIDIA A100 GPUクラスタでLlama2 7B、13B、および70Bモデルから派生したLoRAモデルを評価します。 Punicaは、トークンあたり2ミリ秒の遅延を追加し、同じGPUリソースで最先端のLLMサービングソリューションよりも12倍高いスループットを提供します。この論文の貢献は次のとおりです: • さまざまなLoRAモデルへのバッチ処理リクエストの潜在能力を認識しました。 • 一度に多くのLoRAモデルを実行するために効果的なCUDAカーネルを作成して実装しました。• LoRA内の多数のテナントからのタスクを組み合わせるための革新的なスケジューリング技術を提供しました。

「Pandasを使用したSpark上のPythonの並列化 並行性のオプション」

私の前の役職では、数千のディスクにわたるマネージドサービスのお客様の将来のディスクストレージ使用量を予測するための内部プロジェクトに取り組んでいました各ディスクは以下の条件があります...

「JARVIS-1に会おう:メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

北京大学、UCLA、北京邮电大学和北京智能综合研究所的研究人员介绍了一种名为JARVIS-1的多模态代理,该代理用于Minecraft中的开放世界任务。JARVIS-1利用预训练的多模态语言模型解释视觉观察和人类指令,生成复杂的行动控制计划。 JARVIS-1利用多模态输入和语言模型进行计划和控制。JARVIS-1建立在预训练的多模态语言模型上,融合了多模态记忆,基于预训练的知识和游戏经验进行规划。在200个多样化任务中实现了接近完美的性能,尤其在具有挑战性的长视程钻石镐任务中取得了五倍的完成率提升。该研究强调了多模态记忆在增强代理自主性和开放世界场景中的智能的重要性。 该研究解决了在开放世界环境中为复杂任务创建复杂代理的挑战。现有方法需要在多模态数据、长期规划和终身学习方面进行改进。所提出的JARVIS-1代理,建立在预训练的多模态语言模型上,在Minecraft任务中表现出色。JARVIS-1在200个任务中实现了近乎完美的性能,显著改善了长视程钻石镐任务。该代理展示了自主学习的能力,在较少外部干预的情况下发展,为实现具备普遍能力的人工智能做出了贡献。 JARVIS-1建立在预训练的多模态语言模型上,结合视觉和文本输入生成计划。代理的多模态记忆将预训练的知识与游戏经验融合,用于规划。现有方法使用层次目标执行架构和大型语言模型作为高层规划器。JARVIS-1在Minecraft Universe基准测试中进行了评估,揭示了由于控制器对短视程文本指令的不完美执行而导致的钻石相关任务中的挑战。 JARVIS-1的多模态记忆促进了自我改进,通过超越其他指令跟随代理增强了总体智能和自主性。JARVIS-1在具有挑战性的任务中超过了没有记忆的DEPS,钻石相关任务的成功率几乎提高了三倍。该研究强调了在更容易执行的计划生成以及在钻石相关任务中提高控制器遵循指令能力方面的重要性。 JARVIS-1是建立在预训练的多模态语言模型上的开放世界代理,擅长于Minecraft宇宙中的多模态感知、计划生成和行动控制。通过整合多模态记忆,JARVIS-1利用预训练的知识和实时经验来增强决策能力。JARVIS-1在长视程钻石镐等任务的完成率大幅提高,超过以往记录多达五倍。这一突破为复杂虚拟环境中多功能和适应性代理的未来发展奠定了基础。 进一步的研究建议增强任务执行的计划生成,提高控制器在钻石相关任务中遵循指令的能力,并研究简化执行的方法。建议通过多模态记忆和实时经验探索提升开放世界场景中的决策能力的方式。推荐扩展JARVIS-1在Minecraft的更广泛任务范围内的能力,并在其他虚拟环境中进行潜在的适应。该研究鼓励通过终身学习不断改进,促进JARVIS-1的自我改进和更大程度的智能和自主性的发展。

中国のSJTUの研究者たちは、大規模なLiDARオドメトリ用のウィンドウベースのマスキングされたポイントトランスフォーマーフレームワーク、TransLOを紹介しました

上海交通大学と中国矿业大学の研究者たちはTransLOを開発しました。このLiDARオドメトリネットワークは、セルフアテンションとマスクされたクロスフレームアテンションを備えたウィンドウベースのマスクされたポイントトランスフォーマーを統合しています。TransLOは、スパースな点群を効果的に扱うため、無効な動的な点を除外するためにバイナリマスクを使用しています。 この手法では、Iterative Closest Point(ICP)のバリアントや広く使用されているLOAMなど、一般的なLiDARオドメトリの手法について説明しています。また、パフォーマンスの向上のために地面のセグメンテーションを組み込んだLOAMのバリアントに重点を置いています。この研究では、CNNとトランスフォーマーを組み合わせた世界的な特徴埋め込みを実現するため、最初のトランスフォーマーベースのLiDARオドメトリネットワークであるTransLOが紹介されています。射影感知型マスク、ウィンドウベースのマスクされたセルフアテンション(WMSA)、マスクされたクロスフレームアテンション(MCFA)などのコンポーネントは、TransLOの効果を示すアブレーション研究を通じて評価されています。 LiDARオドメトリは、SLAM、ロボットナビゲーション、自動運転などのアプリケーションにおいて重要ですが、従来はICPや特徴ベースの手法に依存していました。CNNなどの学習ベースの手法は、ポイントクラウドにおける長距離の依存関係やグローバル特徴のキャプチャに課題があります。TransLOは、ウィンドウベースのマスクされたポイントトランスフォーマーを使用して、効率的にポイントクラウドを処理し、姿勢推定を予測します。 TransLOは、2D射影、長距離の依存関係をキャプチャするローカルトランスフォーマー、および姿勢推定を予測するMCFAを使用してポイントクラウドを処理します。ストライドベースのサンプリング層とWMSAを使用してポイントクラウドを円柱状の表面に射影します。CNNは受容野を拡大し、射影感知型マスクはポイントクラウドのスパースさに対処します。姿勢ワーピング操作により反復的な改善が行われます。アブレーション研究は、コンポーネントの効果を確認し、TransLOがKITTIオドメトリデータセットで既存の手法を上回ることを示しています。 KITTIオドメトリデータセット上の実験結果は、平均回転RMSEが0.500°/100m、平行移動RMSEが0.993%というTransLOの優れたパフォーマンスを示しています。TransLOは最近の学習ベースの手法を上回り、ほとんどの評価シーケンスでLOAMをも凌駕します。アブレーション研究では、外れ値をフィルタリングするバイナリマスク、フレーム間のソフトな対応関係の確立により、MCFAモジュールが翻訳と回転エラーの改善に貢献していることが強調されています。 提案されたTransLOネットワークは、LiDARオドメトリのためのエンドツーエンドのウィンドウベースのマスクされたポイントトランスフォーマーであり、CNNとトランスフォーマーを統合してグローバル特徴埋め込みと外れ値除去を強化し、KITTIオドメトリデータセット上で最新のパフォーマンスを達成します。主要なコンポーネントには、長距離の依存関係のためのWMSA、外れ値フィルタリングのためのバイナリマスク、フレームの関連付けと姿勢推定におけるMCFAが含まれています。アブレーション研究は、WMSAの重要性、外れ値フィルタリングのためのバイナリマスク、MCFAのモデルの成功における重要な役割を確認しています。TransLOは、大規模な位置特定とナビゲーションにおいて優れた精度、効率、グローバル特徴に焦点を当てています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us