Learn more about Search Results アブロ - Page 4

このAI論文は、オープンエンドのシナリオでの大規模言語モデルのスケーラブルな評価のための新しいアプローチ、JudgeLMを紹介しています

最近、大規模な言語モデル(LLM)は、優れた命令の従順さと幅広いオープンエンドシナリオの処理能力により、注目を浴びています。研究者は命令の微調整を通じて、FlanT5、OPT、LLaMA、およびPythiaなどのオープンソースのLLMに基づいてこれらのモデルを人間の好みと調整するための多くの技術を提供しています。調整されたLLMは、人間の命令の理解力が向上し、より論理的な応答を生成します。しかし、オープンエンドのシナリオでのLLMの能力は、現在のベンチマークと従来の測定によって十分に評価される必要があります。 したがって、オープンエンドの活動でのLLMの評価を徹底的に評価する新しいベンチマーク手法が必要です。同時の研究では、LLMのパフォーマンスを決定するための異なる手法を調査しています。アリーナ形式の手法は、クラウドソーシングプラットフォームを利用して匿名化されたLLMの競争結果を取得します。人間の評価は信頼性がありますが、コストがかかり、多くの努力が必要です。一部の手法ではGPT-4を仲裁者として使用しますが、これらの手法には可変APIモデルのシフトと可能なデータの開示への支援が必要であり、裁判官の繰り返し可能性が危険にさらされる可能性があります。PandaLMは、回答評価に使用されるオープンソースのLLMを改善することを目指しています。 図1(a):JudgeLMのデータ生成パイプライン。105Kのシードタスクが最初に質問として収集されます。その後、11つのLLMから回答を取得し、回答セットから2つをランダムに選択します。最後に、タスク、サンプル回答ペア、および必要に応じてGPT-4への応答を入力します。これにより、裁判官インストラクターのスコアと綿密な理由が生成されます。 ただし、精緻なモデルの有用性は、モデルのサイズ、トレーニングデータの品質、および固有のLLMバイアスから生じる制約により弱体化します。北京人工知能研究院と華中科技大学の研究者は、本研究で最適化されたオープンソースのLLMを使用してLLMを評価することを提案しており、スケーラブルな裁判官(JudgeLM)として十分な合意に達する裁判官としての機能を持つLLMを組み合わせます。彼らの手法では、裁判官モデルのトレーニングと評価に役立つ高品質のデータセットを組み合わせ、スケーラブルな裁判官を使用してオープンエンドの割り当てで評価します。彼らは、オープンソースのLLMを彼らのフレームワーク内で裁判官として使用するために改変し、モデルのサイズ(7Bから33B)とトレーニングデータのボリューム(3.5Kから100K)の観点でどれだけスケールするかを調査します。 図1(b):JudgeLMの異なる特徴と微調整の例。スケーラブルな裁判官としてのLLMのパフォーマンスを向上させるために、裁判官のサンプルを使用します。また、形式バイアス、知識バイアス、および位置バイアスを克服するために、LLMをウェイトジャッジとして微調整するために参照ドロップ、参照サポート、およびスワップ増強も提案されます。 図1aに示すように、彼らのデータセットは105Kのシード質問、LLM回答ペア、および教師裁判官で構成されています。各シードチャレンジについて、生徒は参考回答で1つと参考回答なしで1つの意思決定を行いました。このデータセットの分割では、トレーニング用に100Kのシード質問を確保し(PandaLMよりも大きい×2倍)、残りの質問を検証用に確保し(PandaLMよりも29倍大きい)、LLMを裁判官として使用する際には、位置バイアス(特定の状況での応答を好む)、知識バイアス(事前トレーニングされた情報に対する過度の依存)、および形式バイアス(特定のプロンプト形式の下でのみ最適なパフォーマンス)などのバイアスが必ず導入されます。 彼らはそれらに対処する方法を提供しています。さらに、図1bに示されるように、彼らのJudgeLMシステムには、マルチターンの会話、単一の応答の評価、およびマルチモーダルモデルに加えて複数の回答の判断など、拡張された機能があります。アリーナ形式のアプローチと比較して、彼らのものは迅速かつコストパフォーマンスの高い解決策です。例えば、JudgeLM-7Bは3分で5000の応答ペアを評価することができ、たった8つのA100 GPUだけが必要です。JudgeLMは、クローズドソースのLLMジャッジよりもプライバシー保護と繰り返し可能性を提供します。彼らの方法では、同時にオープンソースのLLMジャッジと比較して、LLMの微調整のスケーリング能力とバイアスを調査しています。 さらに、彼らが提示するデータセットは最も包括的で優れており、将来のモデル分析の研究に大いに役立ちます。以下に彼らの主要な貢献を簡単に説明します: • 彼らはJudgeLMを提案しており、オープンエンドのシナリオでLLMを評価するために設計されたスケーラブルな言語モデルジャッジです。 • 彼らは、多様なシードタスク、LLMが生成した回答、およびGPT-4からの詳細な判断を組み込んだ高品質で大規模なデータセットを導入し、LLMの評価に関する将来の研究のための基盤を築きました。これには人間との合意を超える90%以上の合意があります。さらに、JudgeLMは長時間のジョブを処理するための幅広い機能を備えています。 • 彼らはLLMの中に存在するバイアス、ジャッジの微調整を調査し、いくつかの解決策を提示しています。彼らの技術は、様々なシナリオでのモデルの一貫性を大幅に向上させ、JudgeLMの信頼性と適応性を高めます。

このAI論文は、ChatGPTを基にしたテキストデータの拡張アプローチであるAugGPTを提案しています

“`html NLP、または自然言語処理は、言語を使用した人間とコンピュータの対話に焦点を当てたAIの分野です。テキスト分析、翻訳、チャットボット、感情分析などがその多くの応用の一部です。NLPは、コンピュータが人間の言語を理解し、解釈し、生成することを目指しています。 最近のNLPの研究では、データの不十分さに対応するための少ないデータ学習(FSL)方法の改善に焦点が当てられています。これらの方法は、アーキテクチャの設計や事前学習言語モデルを通じてモデルの能力を向上させますが、データの品質や数量の制限は依然として存在します。 さらに、テキストデータの拡張方法は、サンプルの数の制限に対処するための貴重なツールとして注目されています。シノニムの置換やバックトランスレーションなどのより高度な手法を含む、モデルに依存しないこれらの技術は、NLPのFSL方法を補完し、これらの課題に対する解決策を提供します。 同じ文脈において、研究チームは「AugGPT」と呼ばれる新しいデータ拡張手法を紹介する新しい論文を発表しました。この方法は大きな言語モデルであるChatGPTを活用して、少数のフューショットテキスト分類タスクのための補助的なサンプルを生成します。 この方法は、限られたデータで訓練されたモデルがわずか数例しかないターゲットドメインで一般化することが期待される少数学習における課題に対応します。提案されているAugGPT方法は、ChatGPTを活用してより多くのサンプルを生成し、テキスト分類のためのトレーニングデータを向上させることを目的としています。 具体的には、モデルは比較的大規模なラベル付きサンプルセットを含むベースデータセット(Db)と、わずかなラベル付きデータのみを含む新しいデータセット(Dn)で訓練されます。目標は、新しいデータセットにおいて満足のいく一般化能力を達成することです。AugGPTのフレームワークは、ベースデータセットでBERTを微調整し、ChatGPTを使用して拡張データ(Daugn)を生成し、拡張データでBERTを再度微調整するというものです。データ拡張にはChatGPTが使用され、入力文を追加の文に再表現してフューショットサンプルを増やすことが行われます。フューショットテキスト分類モデルはBERTに基づいており、クロスエントロピーとコントラスティブ損失関数を使用して効果的にサンプルを分類します。AugGPTは、シノニムの置換や文字、単語レベルの置換、キーボードシミュレーションなどの他のデータ拡張手法と比較されます。本方法のプロンプトは、シングルターンとマルチターンの対話に適しており、さまざまなデータセットとシナリオに対して効果的なデータ拡張を可能にします。 要約すると、提案されたAugGPTの手法を実行するためには、以下の手順が取られます: 1- データセットのセットアップ: ラベル付きサンプルの大規模なベースデータセット(Db)を作成します。 ラベル付きサンプルがわずかしか含まれていない新しいデータセット(Dn)を準備します。 2- BERTの微調整: ベースデータセット(Db)でBERTモデルを微調整し、事前学習言語理解能力を活用します。 3- ChatGPTによるデータ拡張: 少数学習のテキスト分類タスクに向けて、大規模な言語モデルであるChatGPTを利用して拡張データ(Daugn)を生成します。 ChatGPTを使用して入力文を言い換え、少数学習サンプルを増やすための追加の文を作成します。このプロセスにより、データの多様性が向上します。 4- 拡張データを使ったBERTの微調整: 拡張データ(Daugn)を使ってBERTモデルを微調整し、少数学習分類タスクに適応させます。 5- 分類モデルのセットアップ:…

「マルチプレーナーUNet:すべての3Dセグメンテーションタスクに対応した1つのUNet(データが少ない場合でも)- ローコードアプローチ」

「博士号の取得を開始した後、最初に本物の医療画像セグメンテーションプロジェクトとしてぶつかったのは、膝のMRIセグメンテーションでしたトレーニングと検証に使用するMRI画像はわずか39枚で、20枚...」

中国のこのAI論文は、ダイナミックなSLAM環境における革新的な時間変動NeRFアプローチを紹介しています:トラッキングとマッピングの精度を向上させる

コンピュータビジョンとロボット工学において、同時の位置推定と地図作成(SLAM)システムは、機械が周囲の環境をナビゲートし理解することを可能にします。ただし、動的環境の正確なマッピング、特に移動オブジェクトの再構築は、従来のSLAM手法にとって大きな課題でした。最近のブレイクスルーでは、研究チームがニューラルインプリシット表現を動的領域で活用する画期的なソリューション、TiV-NeRFフレームワークを導入し、密なSLAM技術を革新しています。事前学習モデルへの依存を軽減し、重複率に基づく革新的なキーフレーム選択戦略を取り入れることで、この手法は3D環境理解と再構築の重要な進歩となります。 従来の手法の限界に取り組むため、中国の研究者チームは、3D空間位置を4Dの時空間位置に拡張する革新的な戦略を採用しました。この時間変動表現をSLAMシステムに統合することで、環境内の動的オブジェクトのより正確な再構築が可能になります。このイノベーションは、動的シーンの正確で包括的なマッピングのための新たな可能性を開拓する、この分野における大きな進歩です。 提案手法の主なハイライトの一つは、重複率に基づくキーフレーム選択戦略の導入です。従来の手法とは異なり、この戦略により、より頑健で安定した再構築プロセスが可能となり、従来のSLAMシステムによく見られるゴーストトレイル効果やギャップの問題が軽減されます。現在のフレームとキーフレームデータベースとの重複率を正確に計算することで、システムはより包括的で正確な動的オブジェクトの再構築を実現し、SLAM分野における新たな基準を設定します。 提案手法は合成データセットで有望なパフォーマンスを示していますが、研究チームはさらなる実世界のシーケンス評価の必要性を認識しています。高速な動的オブジェクトが存在する環境は、カメラ姿勢推定の正確さに影響を与える可能性があります。そのため、チームはシステムのパフォーマンスを改善し、これらの課題に効果的に対応するための継続的な研究の重要性を強調しています。 この革新的な手法は、既存の手法がもたらす制限に対する有望な解決策を提供することにより、密なSLAMにおける注目すべき進展を示しています。ニューラルインプリシット表現を活用し、重複率に基づくキーフレーム選択戦略を実装することで、研究チームは動的シーンのより正確で包括的な再構築の道を切り拓きました。ただし、現在の限界を認識しつつも、より広範な実世界の評価と、高速移動するオブジェクトを持つ動的環境におけるカメラ姿勢推定の改善が求められるため、今後の発展と実際のシナリオへの適用の可能性には大いなる期待が寄せられます。 まとめると、この研究は動的環境と包括的なオブジェクト再構築に重点を置いたSLAMシステムの進化において、大きな前進です。提案手法のニューラルインプリシット表現と効率的な重複率に基づくキーフレーム選択戦略は、動的シーンの取り扱いにおいてより頑健で安定したアプローチを提供し、SLAMシステムのパラダイムの転換を象徴しています。現在の制限はあるものの、実世界のシナリオにおける評価の拡充と、動的環境におけるカメラ姿勢推定の向上の可能性は、密なSLAM技術の将来において大きな期待を持っています。

インテルの研究者たちは、CPU上でLLMs(Large Language Models)をより効率的に展開するための新しい人工知能のアプローチを提案しています

大型言語モデル(LLM)は、その驚異的なパフォーマンスと多様なタスクでの潜在能力により、世界中で話題となっています。テキスト生成、言語理解、テキスト要約などの能力でよく知られています。ただし、これらのモデルの広範な採用の一方で、モデルパラメータの膨大なサイズにより、推論には大きなメモリ容量と専用のハードウェアが必要であり、これまでこれらのモデルの展開は非常に困難でした。 推論に必要な計算能力を削減する方法の一つは、量子化手法を使用することです。つまり、人工ニューラルネットワークの重みと活性化関数の精度を低下させることです。INT8や重みのみの量子化など、推論コストを改善するための方法はいくつかありますが、これらの方法は一般的にCUDAに最適化されており、必ずしもCPU上で動作するわけではありません。 このIntelの研究論文の著者は、LLMを効率的にCPU上に展開する方法を提案しています。彼らのアプローチは、自動INT-4重みのみの量子化(低精度がモデルの重みにのみ適用され、活性化関数の精度は高く保たれます)のフローをサポートしています。また、CPU上の推論プロセスを加速する高度に最適化されたカーネルを持つ特定のLLMランタイムも設計しています。 量子化フローは、Intel Neural Compressorをベースに開発され、異なる量子化レシピ、粒度、グループサイズでのチューニングが可能で、精度目標を満たすINT4モデルを生成することができます。モデルはその後、LLMランタイムに渡され、量子化モデルのパフォーマンスを評価するために設計された特殊環境で評価されます。このランタイムは、CPU上のLLMの効率的な推論を提供するために設計されています。 実験では、研究者たちはパラメータサイズが異なる人気のあるLLMをいくつか選びました(7Bから20Bまで)。オープンソースのデータセットを使用してFP32モデルとINT4モデルのパフォーマンスを評価しました。選択したデータセット上での量子化モデルの精度は、FP32モデルとほぼ同等であることが観察されました。さらに、次のトークン生成のレイテンシの比較分析を行い、LLMランタイムがggmlベースのソリューションよりも最大1.6倍優れていることがわかりました。 結論として、この研究論文は、LLMに関連する最大の課題の1つであるCPU上での推論に対する解決策を提案しています。従来、これらのモデルはGPUのような専用ハードウェアが必要であり、多くの組織にとって利用できない状況でした。この論文では、INT4モデルの量子化と専用のLLMランタイムを提供することで、CPU上のLLMの効率的な推論を実現しています。人気のあるLLMの一連の評価では、この手法はggmlベースのソリューションに比べて優位性を示し、FP32モデルと同等の精度を提供します。ただし、今後の改善の余地もあり、研究者はAI生成コンテンツの成長する需要に対応するために、PC上での生成型AIを強化する計画です。

マイクロソフトの研究者が「LoRAShear LLMの構造的な剪定と知識の回復に対する画期的な人工知能効率的アプローチ」を紹介

LLMは大量のテキストデータを処理し、関連情報を迅速に抽出することができます。これは、検索エンジン、質問応答システム、データ分析などに応用され、ユーザーが必要とする情報をより簡単に見つけるのに役立ちます。LLMは、即座に広範な情報データベースにアクセスすることにより、研究者、プロフェッショナル、様々な分野で知識を求める個人にとって価値のある情報を提供することで、人間の知識を補完することができます。 知識の復元は、LLMにおいて最も重要なタスクの1つです。LLMにおける知識の復元には、ファインチューニングという一般的な方法があります。開発者は、事前学習済みのモデルを取り、特定のデータセットでファインチューニングすることで、その知識を更新することができます。最新のイベントや特定の領域についてのモデルを知識を持たせたい場合、関連するデータでのファインチューニングが役立ちます。LLMを維持する研究者や組織は、定期的に新しい情報でモデルを更新し、より最新のデータセットや特定の知識の更新手順でモデルを再学習しています。 マイクロソフトの研究者は、LLMの枝刈りと知識の構造的な回復を効率的に行う革新的な手法を開発しました。これを「LoRAShear」と呼んでいます。構造的な枝刈りは、ニューラルネットワークのアーキテクチャの特定の要素を削除または減少させることで、より効率的でコンパクトで計算量の少ないものにすることを指します。彼らは、LoRAモジュールとの間で進行的な構造的な枝刈りを可能にするために、Lora Half-Space Projected Gradient(LHSPG)を提案し、さらに、事前学習と指示付きファインチューニングの両方の方法でのマルチステージのファインチューニングを行うためのダイナミックな知識回復ステージを導入しています。 研究者たちは、LoRAShearをLoRAモジュールを持つLLMに適用することで、一般的なLLMに適用できると述べています。彼らのアプローチは、元のLLMおよびLoRAモジュールの依存関係グラフを作成するためのアルゴリズムを固有に定義します。また、LoRAモジュールからの情報を利用して重みを更新する構造的疎密最適化アルゴリズムも導入しており、知識の保存を向上させています。 LoRAPruneは、LoRAを反復的な構造的な枝刈りと組み合わせることで、パラメータの効率的なファインチューニングと直接的なハードウェアアクセラレーションを実現しています。彼らは、これはLoRAの重みと勾配のみを用いた枝刈り基準に依存しているため、メモリの効率的なアプローチであると述べています。彼らは、LLMを与えられた場合、トレースグラフを構築し、圧縮するノードグループを確立します。学習可能な変数を最小限の削除構造に分割し、学習可能な変数グループを再構成してLLMに返します。 彼らは、これをオープンソースのLLAMAv1に実装することで、その効果を実証しています。20%削減されたLLAMAv1はパフォーマンスが1%低下し、50%削減されたモデルは評価ベンチマークで82%のパフォーマンスを保持することを発見しました。ただし、LLMへの適用は、大量の計算リソースと事前学習および指示付きファインチューニングデータセットの利用できない要件により、重要な課題に直面しています。今後の課題は、これを解決することです。

アップルの研究者が提案する「大規模な言語モデル強化学習ポリシー(LLaRP)」:体現された視覚的課題のために汎用的なポリシーとして機能するLLMをカスタマイズするためのAIアプローチ

自然言語処理、理解、生成は、大規模言語モデル(LLM)の導入により新たな段階に入りました。GPT-3などのモデルは、膨大な量のテキスト資料でトレーニングされているため、言語認識能力において他を圧倒しています。彼らの有用性は、言語関連の活動を超えて、具現化思考、推論、視覚理解、対話システム、コード開発、さらにはロボット制御などの様々な領域で非常に優れたスキルを発揮しています。 これらの能力の多くが、専門的なトレーニングデータの要件なしに現れることは非常に興味深く、これらのモデルの理解力が広範かつ汎用的であることを示しています。LLMは、言語で簡単に表現できない入力と出力を処理する能力を持っています。また、出力としてロボットの命令を提供したり、入力として画像を理解したりすることもできます。 具現化AIでは、他のタスクに移植可能で汎用的な判断を行うエージェントを開発することを目標としています。従来、LLMを具現化AIに活用するための主要な進歩の源は、大量の異なる専門的データを必要とする静的データセットでした。代わりに、具現AIシミュレータの支援を受けて、エージェントは相互作用、探索、報酬フィードバックを通じて仮想設定で学習することができます。しかし、このようなエージェントの汎化能力は、他の領域で示された能力に比べて十分ではありません。 最近の研究では、研究チームが「大規模言語モデル強化学習ポリシー(LLaRP)」と呼ばれる新しいアプローチを提案しています。これにより、LLMを一般化可能な具現化視覚タスクのポリシーとしてカスタマイズすることができます。このアプローチでは、事前にトレーニングされた固定されたLLMが、テキストの命令と視覚的な自己中心の観察をリアルタイムで処理し、環境内でアクションを生成します。LLaRPは、強化学習を通じて環境を感知し、それとのエンカウンターを通じてのみ行動するようにトレーニングされています。 チームが共有した研究の主な結果は次のとおりです。 複雑な言い回しへの堅牢性:LLaRPは、タスクの指示の複雑な表現への驚異的な耐性を示します。つまり、意図した動作を維持しながら、さまざまな方法で与えられた指示を理解して実行することができます。同じタスクに対して新しい言語の言い回しに適応することができます。 新しいタスクへの一般化:LLaRPの注目すべき特徴の1つは、一般化能力です。完全にオリジナルかつ理想的な振る舞いを要求する新しい任務を引き受ける能力があります。トレーニング中に経験したことのないタスクにも適応することで、その多様性と適応性を示します。 驚異的な成功率:LLaRPは、1,000の未知のタスクのセットに対して驚異的な42%の成功率を示しました。他のよく使われる学習ベースラインやゼロショットのLLMアプリケーションと比較すると、この成功率は1.7倍以上です。これは、LLaRPアプローチの優れたパフォーマンスと一般化能力を示しています。 ベンチマークの公開:言語依存の大規模マルチタスク具現化AIの課題について研究コミュニティの理解を向上させるために、研究チームは「言語の並べ替え」という新しいベンチマークを公開しました。このベンチマークには、言語に依存した並べ替えのための150,000のトレーニングタスクと1,000のテストタスクを備えた大規模なデータセットが含まれています。これは、この分野のAIについてさらに学び、開発したい研究者にとって素晴らしいツールです。 まとめると、LLaRPは、具現化視覚タスクに事前にトレーニングされたLLMを適応させる素晴らしいアプローチであり、全体的に、堅牢性と一般化能力において非常に優れた成果を上げています。

「HITL-TAMPを紹介します:自動計画と人間の制御のハイブリッド戦略を通じて、ロボットに複雑な操作スキルを教えるための新しいAIアプローチ」

ロボットに複雑な操作スキルを教えるための人間のデモンストレーションの観察は、有望な結果を示しています。操作のデモを提供することは時間がかかり、労力もかかるため、これを現実世界の長期運用に拡大することは困難です。ただし、タスクのすべての要素が同じではありません。 NVIDIAとジョージア工科大学による新しい研究では、様々な将来の結果が可能な問題を解決するのに特に効果的なTask and Motion Planning(TAMP)システムの強化方法を探索しています。有限の基本的な能力のすべての組み合わせを探索することで、TAMPアプローチはさまざまな多段階の操作タスクの行動を計画することができます。各スキルは従来から手作業で設計されていますが、バネで固定された蓋を閉める、または穴に棒を挿入するなどのタスクは非常に効率的にモデル化するのが非常に難しい例です。代わりに、チームは人間の遠隔操作とクローズドループ学習を利用して、必要な能力のみを組み込み、残りは自動化に任せることでタスクを実現します。これらの機能は、データ収集時の人間の遠隔操作および収集されたデータから学習されたポリシーに依存しています。TAMPシステムと人間の遠隔操作を統合する際には、重要な技術的な障壁があり、それらの間でスムーズな引継ぎが確保される必要があります。 これらの障壁を克服するために、彼らはHuman-in-the-Loop Task and Motion Planning(HITL-TAMP)を提供しています。これは、TAMPと遠隔操作を補完的に統合するシステムです。デバイスによって使用されるTAMPゲート制御メカニズムにより、TAMPシステムと人間の遠隔操作の切り替えによるデモンストレーションの収集が可能です。重要なことは、TAMPシステムが人間オペレーターに対して作業計画の特定のポイントでのみ参加するよう促すことで、一度に1つのデモンストレーションセッションを非同期に管理することができる点です。この技術は、データ収集のスループットを劇的に向上させます。これにより、必要なときにのみ人間のデモンストレーションを要求することで、長期運用で接触の頻度が高い作業における巨大なデータセットの収集に必要な労力を削減します。TAMPゲートストラテジーを人間のデータを使用してトレーニングするために、彼らは模倣学習フレームワークとデータ収集システムを統合しています。タスクをロボットに教えるために必要なデータ、タスクを教えるのにかかる時間、教えられたポリシーの成功率について、彼らはこれが完全なタスクの人間のデモンストレーションの収集よりも高いパフォーマンスをもたらすことを示しています。 研究者たちは15人の参加者を対象にHITL-TAMPと通常の遠隔操作システムを比較しました。彼らの方法では、ユーザーは同時に3倍以上のデモンストレーションを獲得することができました。非専門の遠隔操作からのわずか10分のデータで、75%以上の成功率を持つエージェントをトレーニングすることができました。HITL-TAMPは、現実世界のコーヒーの淹れ方など、12の接触の多い長期タスクにまたがる2.1Kのデモンストレーションを収集することで、ほぼ完璧なエージェントを頻繁に生成します。 タスクの全体での人間のデモンストレーションの収集とポリシーの学習効率は、TAMPと遠隔操作の組み合わせによってHITL-TAMPで大幅に向上しています。

「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」

学習済みの先行知識を活用することで、モノクルカメラによるRGBのみの再構成は、低テクスチャ領域の課題や画像ベースの再構成の曖昧さに向けて大きな進歩を遂げました。リアルタイム実行のための実用的なソリューションが注目されています。これらのソリューションは、モバイルデバイス上のインタラクティブなアプリケーションにとって不可欠です。しかし、現在の最先端の再構成システムには、成功したアプローチがオンラインかつリアルタイムの両方であるという重要な前提条件が考慮されていません。 オンラインで動作するためには、アルゴリズムが画像キャプチャ中に正確な増分再構成を生成し、すべての時間間隔で過去と現在の観測にのみ依存する必要があります。この問題は、各ビューが正確な、完全に最適化された姿勢推定を持っているという以前の取り組みの重要な前提を破ります。その代わりに、同時位置推定およびマッピング(SLAM)システムでは、リアルワールドのスキャン条件の下で姿勢のドリフトが発生し、動的な姿勢推定のストリームが生じます。既存の姿勢は、姿勢グラフ最適化およびループクロージャによって更新されます。このようなSLAMからの姿勢の更新は、オンラインスキャンで一般的です。 図1に示すように、再構成はこれらの変更を尊重することによって、SLAMシステムとの一致を維持する必要があります。ただし、最近のRGBのみの密な再構成には、オンラインアプリケーションでのカメラの姿勢推定の動的な性質にはまだ対応していません。再構成の品質における重要な進展にもかかわらず、これらの取り組みは動的な姿勢を明示的に扱っておらず、静的な姿勢の入力画像の従来の問題の定式化を維持しています。一方で、これらの更新が存在し、現在のRGBのみの手法に姿勢の更新管理を統合する方法を提供しています。 図1:SLAMシステム(a、b)からの姿勢データは、ライブ3D再構成では更新(c、赤緑)される場合があります。私たちの姿勢更新管理手法は、グローバルに一貫性のある正確な再構成を生成しますが、これらの変更を無視すると不正確なジオメトリが生じます。 彼らは、シーンに新しい視点を統合するための線形の更新アルゴリズムを使用するRGB-Dの技術であるBundleFusionに影響を受けています。これにより、古いビューの非統合と、更新された位置の利用可能性に応じた再統合が可能となります。本研究では、汎用的なフレームワークとしての非線形の学習ベースの非統合技術を提供し、RGB画像からの動的な再構築における姿勢変更の管理をサポートします。静的な姿勢の仮定を持つ3つのサンプルのRGBのみの再構築技術が研究されています。オンラインシナリオにおける各アプローチの制約を克服するために。 具体的には、Appleとカリフォルニア大学サンタバーバラ校の研究者は、学習ベースの非線形の更新ルールに依存するNeuralReconなどの技術のために、動的な再構築を容易にする深層学習ベースの非線形の非統合技術を提供します。彼らは、LivePoseと呼ばれる新しいかつユニークなデータセットを提供し、BundleFusionを使用して構築されたScanNetの完全な動的な姿勢シーケンスを含んでおり、この技術を検証し、将来の研究を支援します。非統合戦略の効果は、重要な再構成指標における質的および量的な改善を明らかにするテストで示されています。 彼らの主な貢献は以下の通りです:• モバイルインタラクティブアプリケーションのための現実の環境により忠実に模倣した新しいビジョンの仕事を提供し、動的な姿勢のRGB画像からの密なオンライン3D再構成を実現します。• 彼らは公開可能な初の動的SLAM姿勢推定データセットであるLivePoseをリリースしました。これにはScanNetデータセットの1,613スキャンごとに完全なSLAMポーズストリームが含まれます。• 動的な姿勢での再構築を容易にするために、革新的なトレーニングと評価方法を作成しました。• 学習済みの再発ビュー統合を持つ技術に対して動的な位置処理を可能にする、独自の再発性非統合モジュールを提案しています。このモジュールは、姿勢変更の管理方法を教えます。

ニューラルネットワークにおける系統的組み合わせ可能性の解除:組み合わせ可能性のためのメタラーニング(MLC)アプローチによるブレイクスルー

人工知能(Artificial Intelligence)と機械学習(Machine Learning)の分野はますます普及しています。これらの領域での主要な関心事の一つは、機械が人間の認知と言語の複雑さを再現できる能力です。まだ疑問が残るのは、ロボットが人間の言語と認知を特徴付ける方法論的な構成性を本当に再現できるのかという点です。 人間の学習における体系性は、新しいアイデアを獲得し、それらを既存のものと体系的に統合する能力です。体系的な構成性は人間の言語と知性の素晴らしい能力です。そのアイデアは代数方程式を解くことに似ており、既知の要素の新しい組み合わせを生成し理解する能力が必要です。 しかし、ニューラルネットワークの分野ではこの体系性の問題はまだ解決されていません。この分野での大きな進展にもかかわらず、FodorとPylyshynによって提唱されたよく知られた主張が浮上しています。彼らによれば、人間の心のモデルとしての人工ニューラルネットワークは、この能力を持たないため不十分です。それに対し、最近、研究チームは、メタラーニング(Meta-Learning)の一種である構成性のためのメタラーニング(MLC)という新技術を使用することで、ニューラルネットワークが人間のような体系性を獲得できる可能性を示しました。 このアプローチでは、ニューラルネットワークを訓練するため、一連の動的な構成問題に基づいています。この研究では、行動学習を行うための指示学習パラダイムを使用して、人間と機械のパフォーマンスを比較しました。MLCは、人間と機械の体系性の面での差を埋める役割を果たしています。このアプローチでは、ニューラルネットワークの学習プロセスを高次のガイダンスと人間の例に基づいて指導するため、手動で作成された内部表現や帰納バイアスに依存するのではなく、メタラーニングの一種を可能にし、ネットワークが適切な学習能力を獲得するのに役立ちます。 研究チームは、このアプローチを評価するために、人間の行動実験を実施しました。人間のような一般化の重要な要素である柔軟性と体系性のバランスが最も良いと思われる7つの異なるモデルを評価しました。その結果、MLCは、過剰に柔軟で体系的でないニューラルネットワークに依存することなく、厳密に体系的であるが剛直な確率的記号モデルを強制することもありませんでした。 MLCの特に素晴らしいところは、複雑な特殊なニューラルネットワークのトポロジーを必要としないということです。代わりに、通常のニューラルネットワークを構成スキル向けに最適化します。このヘッドツーヘッドの比較では、MLCを搭載したネットワークは、人間の体系的な一般化を非常によく模倣しました。 結論として、MLCは、機械が言語と推論の面で人間のような体系性を獲得できることを証明することで、様々な認知活動(問題解決、創造思考、自然言語処理など)の向上に向けて、機械学習システムが人間の体系的な能力を模倣できる可能性を示しています。このブレイクスルーは、人間の認知の体系性を真に理解し再現するだけでなく、機械により人間をより近づけることで、人工知能の分野を革新する潜在能力を秘めています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us