Learn more about Search Results による - Page 9

「DeepMindのAlphaFoldによる生体分子予測の革命」

生体分子の理解を進めましょう DeepMindは先駆的なAI研究所です。Google DeepMindは画期的なAlphaFoldシステムの最新バージョンを発表しました。これは生体分子の理解において重要な飛躍となります。AlphaFoldは、タンパク質の構造を正確に予測する能力で話題になっています。最近、彼らは新しいモデルを発表し、その拡張機能を備えました。これらの機能は、リガンド、核酸、翻訳後修飾を含む、広範な生物学的に関連する分子に適用されます。 Google DeepMindのAlphaFoldは、2020年の初版リリース以来、タンパク質とその相互作用を認識する方法を変革してきました。この先端技術は、DeepMindとIsomorphic Labsの協力のもとで生み出されました。彼らは分子の予測におけるAIの限界を押し上げるために共同で取り組んできました。 また読む: Google DeepMindはChatGPTを超えるアルゴリズムに取り組んでいます 新しいAlphaFoldモデルの主なハイライト 新しいGoogle DeepMindのAlphaFoldモデルの主なハイライトは以下の通りです: 高い精度とカバレッジ:最新のAlphaFoldモデルは、ほぼProtein Data Bank(PDB)データベース内のすべての分子に対して予測を生成し、原子レベルの精度を実現します。この画期的な精度は、リガンド、タンパク質、核酸(DNAおよびRNA)、翻訳後修飾を含むさまざまな生物分子クラスにまで広がります。 バイオメディカルのブレークスルーの加速:拡張された能力により、AlphaFoldはバイオメディカルの発見を加速し、新たな「デジタルバイオロジー」の時代を切り開く準備が整っています。病気の経路、ゲノミクス、生物再生可能材料、植物免疫、治療の標的、薬剤設計のメカニズム、タンパク質エンジニアリングと合成生物学の革新的なアプローチなど、研究者はより深い洞察を得ることができます。 薬物探索の進歩:AlphaFoldは、特に薬物探索への影響が大きいです。このモデルは、リガンドとタンパク質の相互作用を決定するために広く使用される最もよく知られたドッキング法よりも優れた性能を発揮します。さらに、参照タンパク質構造を必要とせずにタンパク質リガンドの構造を予測できるため、新しい分子や潜在的な薬剤の設計に貴重なツールとなります。 最近の進展報告では、このモデルの驚異的な精度と生物分子全般への能力が示され、多くの科学領域での進歩が確認されました。 AlphaFold:画期的なタンパク質構造予測 AlphaFoldの旅は、単一鎖タンパク質の予測から複数のタンパク質鎖を持つ複雑な構造の予測へと進化し、ついに2022年にAlphaFold 2.3がリリースされました。特筆すべきは、Google DeepMindのAlphaFoldがほぼすべてのカタログ化されたタンパク質の構造予測をAlphaFold Protein Structure…

マシンラーニングの革命:光フォトニックアクセラレータでの3D処理の活用による高度な並列処理とエッジコンピューティングの互換性の実現

技術の進歩と機械学習の台頭により、データのボリュームは増加しています。世界のデータ生産は2020年には64.2ゼタバイトに達し、2025年までに181.0ゼタバイトに達すると予想されています。物理科学、コンピュータ科学、医学科学、音声認識、コンピュータビジョン、自然言語処理などは、この技術が大きな応用を持つ分野です。大規模なデータセットはハードウェアシステムに著しい計算要求を課します。 現代のAIジョブに必要な処理能力が現在倍増する速度は非常に速く、平均して3.5ヶ月ごとに起こっています。この拡大に追いつくためには、ハードウェア容量を3.5ヶ月ごとに4倍する必要があります。このような技術が処理できるデータの次元性を向上させることが提案されています。2次元データを処理するために空間と波長の多重化が使用されてきましたが、3次元処理のハードウェア実装が必要です。 そのため、オックスフォード大学、ミュンスター大学、ハイデルベルク大学、エクセター大学の研究者が、3次元(3D)データを処理するための光電子ハードウェアを開発しました。このブレークスルーにより、人工知能(AI)活動のデータ処理の並列性が大幅に改善されました。 研究者は、光通信の並列化を増加させるために、無線周波数変調を使用し、データにさらなるレイヤーを追加しました。これは、波長多重化を利用し、空間に広がる非揮発性メモリを組み込むことで実現できました。空間と波長の変動だけを利用する手法と比較して、科学者たちはこのシステムで良好な並列性を達成し、100を達成し2つの次元を改善しました。 研究チームは、多次元処理により、光フォトニックマトリックスベクトル乗算チップの処理能力をさらに向上させました。データを符号化するために多くの無線周波数を使用するこの改善は、高次元処理として知られ、これまでの成果を超えるレベルの並列性をもたらします。 研究チームは、革新的なギアを使用して実世界の設定で心臓病患者の急死のリスクを検査することで、心電図で急死の可能性を93.5%の成功率で正しく特定することに成功しました。同時に100の心電図を分析しました。 研究者はまた、このアプローチが最新の電子プロセッサを上回る可能性があると主張しました。入力と出力がわずかに増加しても、このスケーラビリティは計算密度とエネルギー効率の大幅な100倍の向上につながる可能性があります。

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル(LLM)の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々な課題やモダリティに対して訓練された多くのモデルが最近提供されています。これらの発展により、LLMは人工一般知能(AGI)への重要なステップであるという共通の認識が生まれました。しかし、すべての利点にもかかわらず、LLMの現在の設計と実装には改善の余地があります。LLMの最も顕著な欠点の1つは、非構造化テキストに依存していることです。これにより、モデルが明らかな論理推論を見落としたり、誤った結論を想像したりすることが時折あります。 もう1つの欠点は、LLMが教示された時期に基づく固有の制約があるため、世界の進化に関する「新しい」知識を統合することが困難な場合があります。最も適応性の高い情報表現形式の1つは、グラフ構造化データであり、これは両方の問題に対する潜在的な解決策を提供します。しかし、この潜在的な解決策にもかかわらず、グラフとLLMの交差点での研究はほとんど行われていません。例えば、グラフデータベースとLLMは注目を集めているものの、グラフ構造化データの広範な応用に関してはさらなる研究が必要です。Wangらは最近、言語モデルに特化したグラフベンチマーキングチャレンジを作成することで、この問題を解決しようと試みました。 しかし、自然なグラフの課題の削除やアドレスされるグラフ構造のタイプの変化の欠如により、多くの未解決の問題が残っています。彼らの研究は、LLMのグラフ推論能力を評価する興味深い初めの取り組みを示しています。他の最近の研究では、グラフ構造化データの代わりにLLMを使用しようとしていますが、LLMの核心的な問題の一部を無視しています。Google Researchの研究者は、この論文でLLMがテキストとして読み取ることができるグラフ構造化データ上の推論について、初の徹底的な調査を行いました。彼らはグラフのプロンプト工学とグラフのエンコーディングを分析し、グラフ推論をさらに詳しく調査しました。 私たちは、さまざまなグラフのエンコーディング技術を実験することで、LLMが習得した表現をグラフの問題に利用することができます。プロンプト工学手法を研究する際には、質問を適切に設定してLLMに回答してもらうための最良のアプローチを選ぶことができます。彼らのテスト結果は、異なるプロンプトヒューリスティクスが最適なパフォーマンスを発揮するシナリオを特定することを目的としています。そのために、彼らはGraphQAというブランドニューのベンチマークを提供し、LLMの推論パフォーマンスを評価します。GraphQAは、以前のLLMを使用した研究よりもはるかに多様で現実的なグラフ構造を持つグラフを使用しています。 特に、彼らの研究は以下の点に貢献しました: 1. LLMの使用におけるグラフ構造のプロンプトアプローチの徹底的な調査。 2. LLMの使用のためのグラフをテキストとしてエンコードするためのベストプラクティスと洞察。 3. グラフ構造がLLMのプロンプトにどのように影響を与えるかを探索するために、コミュニティがより良い探求をすることができる新しいグラフベンチマークであるGraphQA。

「時系列分析による回帰モデルの堅牢性向上—Part 2」

第1部では、SARIMA(季節性自己回帰和分移動平均)を使用して、タイムシリーズモデルを成功裏に構築することに成功しましたさらに、構築したモデルを評価しました

「ChatGPTのような大規模言語モデルによる自己説明は感情分析にどれほど効果的か?パフォーマンス、コスト、解釈可能性に迫る深い探求」

言語モデル(GPT-3)は、データで学習したパターンに基づいてテキストを生成するため、中立であり感情を持ちません。トレーニングに使用されたデータにバイアスが含まれている場合、そのバイアスはモデルの出力に反映されることがあります。しかし、彼らの出力は、文脈と入力に基づいてポジティブ、ネガティブ、または中立として解釈することができます。センチメントを決定する際には、テキストの文脈が重要です。一つの文は、単独で考えるとネガティブかもしれませんが、テキスト全体の広い文脈で考えるとポジティブかもしれません。大きな言語モデルは周囲のテキストを考慮に入れますが、文脈を理解することは困難な場合もあります。 曖昧さ、皮肉、または混合した感情を持つテキストのセンチメント分析は困難です。大きな言語モデルは、そのような微妙なニュアンスを正しく解釈できない場合があります。センチメント分析の誤分類や誤用は、現実世界での結果を招く可能性があります。AIを責任を持って使用する際には、これらの影響を考慮することが重要です。UCサンタクルーズの研究者は、ChatGPTやGPT-4などのさまざまなモデルのセンチメンタルな振る舞いを分析しました。彼らはLLMの自己生成機能の特徴的行動を評価しました。 評価では、2つの生成方法を研究しました。予測の前に説明を生成する方法と、予測を生成してからそれを説明する方法を比較しました。両方の方法で、モデルに、重要度スコアを含む全ての単語の特徴割り当ての完全なリストを作成し、最も重要な単語のトップk個を返すように求めました。彼らはそれらを、解釈手法である遮蔽および局所的なモデルに依存しない説明と比較しました。これらの2つの技術は、複雑なモデルの予測を解釈および説明するために機械学習および深層学習で使用されます。 また、これらのモデルは入力特徴に基づいて評価する必要もあります。勾配操作、スムース勾配、および統合勾配などの代表的な方法を使用して、入力特徴値の微小な摂動に対するモデルの応答を評価する必要があります。研究者たちは、多様な入力と複数の特徴を同時に除去することで非線形の相互作用を捉え、特徴の重要度を線形回帰係数として定義し、評価しました。 誠実性の評価によれば、自己生成された説明は他のどの評価にも明確な優位性を持ちません。合意の評価によれば、非常に異なる結果があります。その結果、現在の説明よりも優れた説明が存在する可能性があり、新しい技術がそれを明らかにする必要があるかもしれません。 この考えの連鎖は、モデルの説明と見なすことができます。特に数学の問題解決などの複雑な推論タスクにおいて、最終的な回答の正確性に役立ちます。したがって、チームの将来の研究では、GPT-4、Bard、およびClaudeなどのLLMを評価します。これらのモデルが自分自身をどのように理解しているかを理解するため、比較的な研究を実施します。また、カウンターファクトな説明や概念ベースの説明に関する研究も行いたいと考えています。

ニューラルネットワークにおける系統的組み合わせ可能性の解除:組み合わせ可能性のためのメタラーニング(MLC)アプローチによるブレイクスルー

人工知能(Artificial Intelligence)と機械学習(Machine Learning)の分野はますます普及しています。これらの領域での主要な関心事の一つは、機械が人間の認知と言語の複雑さを再現できる能力です。まだ疑問が残るのは、ロボットが人間の言語と認知を特徴付ける方法論的な構成性を本当に再現できるのかという点です。 人間の学習における体系性は、新しいアイデアを獲得し、それらを既存のものと体系的に統合する能力です。体系的な構成性は人間の言語と知性の素晴らしい能力です。そのアイデアは代数方程式を解くことに似ており、既知の要素の新しい組み合わせを生成し理解する能力が必要です。 しかし、ニューラルネットワークの分野ではこの体系性の問題はまだ解決されていません。この分野での大きな進展にもかかわらず、FodorとPylyshynによって提唱されたよく知られた主張が浮上しています。彼らによれば、人間の心のモデルとしての人工ニューラルネットワークは、この能力を持たないため不十分です。それに対し、最近、研究チームは、メタラーニング(Meta-Learning)の一種である構成性のためのメタラーニング(MLC)という新技術を使用することで、ニューラルネットワークが人間のような体系性を獲得できる可能性を示しました。 このアプローチでは、ニューラルネットワークを訓練するため、一連の動的な構成問題に基づいています。この研究では、行動学習を行うための指示学習パラダイムを使用して、人間と機械のパフォーマンスを比較しました。MLCは、人間と機械の体系性の面での差を埋める役割を果たしています。このアプローチでは、ニューラルネットワークの学習プロセスを高次のガイダンスと人間の例に基づいて指導するため、手動で作成された内部表現や帰納バイアスに依存するのではなく、メタラーニングの一種を可能にし、ネットワークが適切な学習能力を獲得するのに役立ちます。 研究チームは、このアプローチを評価するために、人間の行動実験を実施しました。人間のような一般化の重要な要素である柔軟性と体系性のバランスが最も良いと思われる7つの異なるモデルを評価しました。その結果、MLCは、過剰に柔軟で体系的でないニューラルネットワークに依存することなく、厳密に体系的であるが剛直な確率的記号モデルを強制することもありませんでした。 MLCの特に素晴らしいところは、複雑な特殊なニューラルネットワークのトポロジーを必要としないということです。代わりに、通常のニューラルネットワークを構成スキル向けに最適化します。このヘッドツーヘッドの比較では、MLCを搭載したネットワークは、人間の体系的な一般化を非常によく模倣しました。 結論として、MLCは、機械が言語と推論の面で人間のような体系性を獲得できることを証明することで、様々な認知活動(問題解決、創造思考、自然言語処理など)の向上に向けて、機械学習システムが人間の体系的な能力を模倣できる可能性を示しています。このブレイクスルーは、人間の認知の体系性を真に理解し再現するだけでなく、機械により人間をより近づけることで、人工知能の分野を革新する潜在能力を秘めています。

『アクション-ユニオン・ラーニングによる人間-ロボットインタラクションのための弱教師アクションセグメンテーションの改善』と題する 富士通の新しいAIリサーチが発表されました

人間の行動認識の最近の進展は、人間とロボットの相互作用(HRI)において驚くべきブレークスルーを実現しました。この技術により、ロボットは人間の行動を理解し、それに応じて反応することができるようになりました。行動セグメンテーションは、人間の行動のラベルと時間的な境界を決定するプロセスであり、行動認識の重要な部分です。ロボットは人間の行動を動的に特定し、人々とうまく働くためにこのスキルを持っている必要があります。 従来の行動セグメンテーションモデルのトレーニング方法では、大量のラベルが必要です。徹底した監視のために、フレームごとのラベル、すなわち、アクションの各フレームに適用されるラベルが理想的ですが、これらのラベルは2つの重要な困難を提供します。まず、各フレームにアクションラベルを注釈付けすることは、高価で時間がかかることがあります。第二に、複数の注釈付け者からの一貫性のないラベリングやアクションの時限の明確さにより、データにバイアスが生じる可能性があります。 これらの課題に対処するために、最近の研究で、研究者チームは学習フェーズ中に新しいユニークな学習技術を提案しました。彼らの方法は、連続するタイムスタンプの間にある未ラベルフレームのアクションユニオンの尤度を最大化します。与えられたフレームが周囲のタイムスタンプのラベルによって示されるアクションの組み合わせを持つ確率をアクションユニオンと呼びます。このアプローチにより、アクションユニオン確率を考慮して未ラベルフレームの信頼性の高い学習ターゲットを提供することで、トレーニングプロセスの品質が向上します。 チームは推論ステップ中に新しい改良方法を開発し、モデルのソフト割り当て予測からより正確なハード割り当てアクションラベルを提供します。フレームに割り当てられるアクションクラスは、この改良プロセスにより、より正確かつ信頼性の高いものになります。これには、フレームごとの予測だけでなく、異なるビデオセグメントの時間にわたるアクションラベルの一貫性と滑らかさも考慮されます。これにより、モデルの正確なアクション分類能力が向上します。 この研究で開発された技術はモデルに依存しないものであり、様々な現行の行動セグメンテーションフレームワークで利用することができます。これらの方法の柔軟性により、大幅な変更を加える必要なく、さまざまなロボット学習システムに組み込むことが可能です。これらの手法の有効性は、3つの一般的な行動セグメンテーションデータセットを使用して評価されました。結果は、この方法が以前のタイムスタンプ監視技術を上回る最新のパフォーマンスレベルを達成し、完全に監視されたラベルの1%未満で同様の結果を生み出すとした。これにより、パフォーマンスの観点で完全に監視された手法と同等またはそれ以上の効果を持つ、非常に経済的な解決策となる可能性を示しています。これは、彼らが提案する方法が効果的に行動セグメンテーションの分野と人間とロボットの相互作用への応用を進めることができることを示しています。 以下に、この研究の主な貢献をまとめました。 アクションユニオンの最適化を行動セグメンテーションのトレーニングに導入し、モデルのパフォーマンスを向上させました。この革新的な手法では、タイムスタンプ間の未ラベルフレームのアクションの組み合わせの確率を考慮しています。 アクションセグメンテーションモデルの出力を改善するために、新しいかなり有益なポストプロセッシング技術を導入しました。この改良プロセスにより、アクション分類の正確さと信頼性が大幅に向上します。 この手法は、関連するデータセット上で最新の成果を達成し、人間とロボットの相互作用の研究をさらに進める可能性を示しています。

「前例のない緊急事態下でのオンライン機械学習による流水下水の influent(流入)流量予測」

流入量を正確に予測することは、下水処理場のオペレーターやマネージャーにとって必要不可欠です。簡単に言うと、インフルエントフローは処理場に入る未処理水です。この予測は、生物化学的酸素要求量(BOD)、全懸濁固形物(TSS)、およびpHなどの排水特性と密接に関連しています。 以前の研究では、データ駆動型モデルがインフルエントフローを効果的に予測することが示されていました。しかし、これらの研究の多くは、データが時間をかけて収集され、機械学習モデルがバッチでトレーニングされるバッチ学習に焦点を当てていました。このアプローチは有用ですが、特にCOVID-19時代には見直す必要がありました。なぜなら、影響力のあるパターンが大幅に変化したからです。 機械学習では、バッチ学習は時間をかけてデータを分割して処理することを意味します。対照的に、オンライン学習は新しいデータが利用可能になるたびにモデルを継続的にトレーニングすることを意味します。COVID-19の影響で、バッチ学習アプローチの制約がCOVID-19のロックダウンによってもたらされる入出力関係の変化によってより顕著になりました。これに対応するため、チームはオンライン学習モデルの可能性を確認するために焦点をそらしました。 マクマスター大学の土木工学者であるPengxiao Zhouは、COVID-19のロックダウン状況の独特な文脈の中で、廃水のインフルエントフローを予測する能力を向上させるために革新的な機械学習技術を使用したと説明しました。 研究者たちは、カナダの2つの廃水処理場でインフルエントフロー率を予測するために、ランダムフォレスト、K最近傍法、およびマルチレイヤーパーセプトロンを含む従来のバッチ学習モデルのパフォーマンスを、それぞれのオンライン学習モデルと比較しました。オンライン学習モデルは、様々なシナリオで従来のバッチ学習モデルよりも優れた性能を発揮し、最も高いR2値、最も低い平均絶対パーセンテージ誤差(MAPE)、および最も低い平方平均誤差(RMSE)を示しました。すべての場合において、テストデータセットのR2値が注目されるほどのインフルエントフロー率の24時間先の予測が行われました。 研究者たちは、これらのオンライン学習モデルが動的なデータパターンの中で信頼性のある予測を提供することを発見しました。これらは連続的で大量のインフルエントデータストリームを扱う効率性を示しています。 チームは、カナダの2つの廃水処理場から得られた3〜4年の毎時のインフルエントフロー率データおよび気象データを活用してモデルを作成しました。彼らは、これらの2つの処理場でインフルエントフロー率を予測するため、オンライン学習モデルを対応する従来のバッチ学習モデルと比較することによる比較分析を実施しました。 Pengxiao Zhouは、新しいオンライン学習モデルがCOVID-19などの緊急事態によるインフルエントパターンの変化に対処するために、下水処理場のオペレーターやマネージャーにより堅牢な意思決定支援を提供できると述べました。 構築したモデルの効果をさらに検証するために、チームの今後の取り組みには、さらなるケーススタディの実施と様々な予測シナリオの探索が含まれる予定です。

GoogleシートのAI搭載ソリューション「スマートフィル」によるデータ処理の革新

データ管理とスプレッドシートの愛好家にとって、手作業でデータ処理を行うことは常に煩雑で時間のかかる作業でした。フィードバックの分類、ニュース記事の整理、住所データの標準化、テキストフィールドから貴重な情報を抽出するなど、この反復作業の負担は多くの人々にとって共通の悩みでした。 従来、Google Sheetsなどのスプレッドシートソフトウェアのユーザーは、これらの課題に取り組むために手作業のデータ入力や複雑な数式に頼る必要がありました。しかし、希望の光が現れました。情報処理の効率的な方法を熱心に求めるデータ愛好家たちは、AIが救世主になることはあるのかという疑問を抱きました。 AIによるデータ処理の解決策は利用可能ですが、これらはしばしば煩雑なセットアップとプログラミングの専門知識を要します。しかし、Google Sheetsの「スマートフィル」はこの風景を革新すると約束しています。このエキサイティングな機能は、頼れるスプレッドシートとChatGPTのスマートな能力の結合と見なすことができます。 Google Workspaceを通じて利用可能なスマートフィルは、2つの列間の関係を自動的に検出し、入力する値を予測することで、データ操作の手間を省きます。この驚くべきAI技術はデータを理解し、全体のプロセスを効率化します。これにより、ユーザーは多くの手動作業の時間を節約する可能性があります。 このAI技術による最も魅力的な側面の1つは、さまざまなタスクにシームレスに対応できる能力です。テーマごとにフィードバックを分類し、トピックごとにニュース記事を整理し、一貫性のない住所データを統一された形式に変換し、テキストフィールドから電話番号を抽出することは、その数多くのアプリケーションの一部です。スマートフィルの使いやすさと多様性は、どんなデータ愛好家にも感銘を与えるでしょう。 いかなる技術的な進歩の正確な評価は、そのパフォーマンス指標にあり、スマートフィルも例外ではありません。早期の採用者は、データ処理タスクを最大4倍速く完了できるという大幅な時間節約を報告しています。さらに、AIモデルによって行われる予測の正確さは驚くべきものであり、手動データ入力に関連するエラーの可能性を最小限に抑えています。 結論として、「スマートフィル」をGoogle Sheetsに導入することは、データを扱うすべての人にとって画期的な進歩です。時間のかかるデータ処理の古い問題だけでなく、使いやすく非常に効果的な方法でこれを解決します。スマートフィルのデータ関係を理解し、予測する能力は、スプレッドシート技術の大きな進歩だけでなく、さまざまなユーザーにとっても重要な時間節約です。このAI技術を採用する個人や企業が増えれば、手動データ入力の苦労の日々は遠い記憶になるかもしれません。

ビデオオブジェクトセグメンテーションの革命:高度なオブジェクトレベルのメモリ読み取り技術による可愛い子の明らかな化身

オープンボキャブラリーで定義されたフレームアノテーションからのオブジェクトのトラッキングとセグメンテーションは、ビデオオブジェクトセグメンテーション(VOS)のために必要です、より正確に言えば、「半教師あり」オプションです。 VOSの技術は、全般的なビデオセグメンテーション(トラッキングアンシングなど)とロボット工学、ビデオ編集、データアノテーションのコスト削減に対応するために、Segment Anything Models(SAMs)と組み合わせることができます。現代のVOSメソッドは、メモリベースのパラダイムを使用しています。任意の新しいクエリフレームは、セグメンテーションのための特徴を抽出するために、このメモリから「読み取り」ます。このメモリ表現は、以前にセグメンテーションされたフレームを使用して生成されます(入力として供給されるか、モデルによってセグメンテーションされます)。 重要なのは、これらの方法は、ピクセルメモリの読み取りからセグメンテーションをボトムアップで作成し、メモリ読み取りに対して主にピクセルレベルのマッチングを使用する点です。ピクセルレベルのマッチングは、各メモリピクセルをクエリピクセルの線形結合に変換します(たとえば、注意レイヤーを使用して)。その結果、ピクセルレベルのマッチングは低レベルの一貫性を持ち、特に混乱要因がある場合にはマッチングノイズの影響を受けやすくなります。その結果、オクルージョンや頻繁な干渉を含む困難な状況では、個々のパフォーマンスが悪化します。具体的には、デフォルトのDAVIS-2017データセットではなく、最近提案された困難なMOSEデータセットを評価する場合、現在の技術のパフォーマンスはJ&Fで20ポイント以上悪化します。 彼らは困難なケースで失望させる結果の原因は、オブジェクトレベルの思考の欠如であると信じています。彼らはこの問題を解決するためにオブジェクトレベルのメモリ読み取りを提案しており、これによりオブジェクトがメモリからクエリフレームに戻されます(図1)。彼らは、オブジェクトクエリとして記述される現在のクエリベースのオブジェクト検出/セグメンテーションの方法にインスピレーションを与えるため、オブジェクトトランスフォーマーを使用してオブジェクトレベルのメモリ読み取りを実現しています。1)特徴マップの反復的な探求と校正(ピクセルレベルのメモリの読み出しから開始)および2)オブジェクトレベルの情報をエンコードするために、このオブジェクトトランスフォーマーは限られた数のエンドツーエンドトレーニングされたオブジェクトクエリを使用します。この方法により、ハイレベル/グローバルなオブジェクトクエリ表現と低レベル/高解像度の特徴マップの双方向のトップダウンおよびボトムアップの通信が可能になります。 図1は、ピクセルレベルのメモリ読み取りとオブジェクトレベルのメモリ読み取りを対比しています。各ボックスの左側に参照フレーム、右側にセグメンテーション可能なクエリフレームが表示されます。赤い矢印が間違った一致を示しています。混乱要因がある場合、低レベルのピクセルマッチングは(大声になるかもしれません)低信頼性のビデオオブジェクトセグメンテーションのために、オブジェクトレベルのメモリ読み取りをおすすめします。 この通信のために、提案された前景-背景マスク付きアテンションを含む一連のアテンションレイヤーがパラメーター化されます。前景のみのマスク付きアテンションから派生し、マスク付きアテンションにより、一部のオブジェクトクエリは前景にのみ焦点を当て、残りの質問は背景のみに焦点を当てることができ、グローバルな特徴の相互作用と明確な前景/背景の意味的区別を可能にします。また、ターゲットオブジェクトの特徴を凝縮するために、ピクセルメモリに加えてコンパクトなオブジェクトメモリも組み込まれています。このオブジェクトメモリは、ターゲット固有の特徴を持ち、エンドツーエンドのオブジェクト検索を改善し、ターゲットオブジェクトの効果的な長期表現を可能にします。 テストでは、提案されたCutie法は、困難な状況(MOSEの場合、XMemよりも+8.7 J&F)で以前の方法を上回り、DAVISやYouTubeVOSなどの一般的なデータセットで競争力のある精度と効率のレベルを維持しつつ、優れたパフォーマンスを発揮します。結論として、イリノイ大学アーバナシャンペーン校とアドビリサーチの研究者が、オブジェクトレベルのメモリ読み取りを持つCutieを作成しました。 • ピクセルレベルのボトムアップ特徴とハイレベルのトップダウンクエリを組み合わせて、大きな遮蔽や干渉がある困難な状況での効果的なビデオオブジェクトセグメンテーションを実現します。 • 彼らはリッチなシーンの要素を保持しながら、ターゲットアイテムを取り巻く邪魔要素からの注意を喚起するため、マスクされた焦点を前景と背景に広げます。 • クエリ中のターゲット固有のオブジェクトレベル表現として後で検索するために、コンパクトなオブジェクトメモリを構築します。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us