CVPR 2023におけるGoogle

Google at CVPR 2023.

Googleのプログラムマネージャー、Shaina Mehtaが投稿しました

今週は、バンクーバーで開催される最も重要なコンピュータビジョンとパターン認識の年次会議であるCVPR 2023の始まりを迎えます（追加のバーチャルコンテンツもあります）。Google Researchはコンピュータビジョンの研究のリーダーであり、プラチナスポンサーであり、メインカンファレンスで約90の論文が発表され、40以上のカンファレンスワークショップやチュートリアルに積極的に参加しています。

今年のCVPRに参加する場合は、是非、ブースに立ち寄って、最新のマシンパーセプションの様々な分野に応用するための技術を積極的に探求している研究者とお話ししてください。弊社の研究者は、MediaPipeを使用したオンデバイスのMLアプリケーション、差分プライバシーの戦略、ニューラル輝度場技術など、いくつかの最近の取り組みについても話し、デモを行います。

以下のリストでCVPR 2023で発表される弊社の研究についても詳しくご覧いただけます（Googleの所属は太字で表示されています）。

理事会と組織委員会

シニアエリアチェアには、Cordelia Schmid、Ming-Hsuan Yangが含まれます。

エリアチェアには、Andre Araujo、Anurag Arnab、Rodrigo Benenson、Ayan Chakrabarti、Huiwen Chang、Alireza Fathi、Vittorio Ferrari、Golnaz Ghiasi、Boqing Gong、Yedid Hoshen、Varun Jampani、Lu Jiang、Da-Cheng Jua、Dahun Kim、Stephen Lombardi、Peyman Milanfar、Ben Mildenhall、Arsha Nagrani、Jordi Pont-Tuset、Paul Hongsuck Seo、Fei Sha、Saurabh Singh、Noah Snavely、Kihyuk Sohn、Chen Sun、Pratul P. Srinivasan、Deqing Sun、Andrea Tagliasacchi、Federico Tombari、Jasper Uijlingsが含まれます。

広報委員会： Boqing Gong

デモチェア： Jonathan T. Barron

プログラム諮問委員会には、Cordelia Schmid、Richard Szeliskiが含まれます。

パネル

人工知能とコンピュータビジョンの歴史と未来のパネリストには、Chelsea Finnが含まれます。

科学的発見と環境のパネリストには、Sara Beeryが含まれます。

ベストペーパー賞候補

MobileNeRF：モバイルアーキテクチャでの効率的なニューラルフィールドレンダリングのためのポリゴンラスタライズパイプラインの利用 Zhiqin Chen、Thomas Funkhouser、Peter Hedman、Andrea Tagliasacchi

DynIBaR：ニューラルダイナミックイメージベースドレンダリング Zhengqi Li、Qianqian Wang、Forrester Cole、Richard Tucker、Noah Snavely

DreamBooth：主体駆動型ジェネレーションのためのテキストからイメージへの拡散モデルの微調整 Nataniel Ruiz*、Yuanzhen Li、Varun Jampani、Yael Pritch、Michael Rubinstein、Kfir Aberman

ガイドされた拡散モデルの

注目論文

ビデオローカライズドナラティブによるビジョンと言語の接続 Paul Voigtlaender、Soravit Changpinyo、Jordi Pont-Tuset、Radu Soricut、Vittorio Ferrari

MaskSketch：非対称構造ガイド付きマスク画像生成 Dina Bashkirova*、Jose Lezama、Kihyuk Sohn、Kate Saenko、Irfan Essa

SPARF：スパースでノイズの多いポーズからのニューラル輝度場 Prune Truong*、Marie-Julie Rakotosaona、Fabian Manhardt、Federico Tombari

MAGVIT：マスク付き生成ビデオトランスフォーマー Lijun Yu*、Yong Cheng、Kihyuk Sohn、Jose Lezama、Han Zhang、Huiwen Chang、Alexander Hauptmann、Ming-Hsuan Yang、Yuan Hao、Irfan Essa、Lu Jiang

ビジョントランスフォーマーによるオープンボキャブラリーオブジェクト検出の領域別事前学習 Dahun Kim、Anelia Angelova、Weicheng Kuo

I2MVFormer：大規模言語モデルによるマルチビュードキュメント監視によるゼロショット画像分類 Muhammad Ferjad Naeem、Gul Zain Khan、Yongqin Xian、Muhammad Zeshan Afzal、Didier Stricker、Luc Van Gool、Federico Tombari

直接PAC-Bayesian境界最小化による頑健な汎化の改善 Zifan Wang*、Nan Ding、Tomer Levinboim、Xi Chen、Radu Soricut

Imagen EditorとEditBench：テキストガイドされた画像修復の前進と評価（ブログ投稿を参照） Su Wang、Chitwan Saharia、Ceslee Montgomery、Jordi Pont-Tuset、Shai Noy、Stefano Pellegrini、Yasumasa Onoe、Sarah Laszlo、David J. Fleet、Radu Soricut、Jason Baldridge、Mohammad Norouzi、Peter Anderson、William Cha

RUST：未ポーズの画像からの潜在的なニューラルシーン表現 Mehdi S. M. Sajjadi、Aravindh Mahendran、Thomas Kipf、Etienne Pot、Daniel Duckworth、Mario Lučić、Klaus Greff

複数ソースマルチモーダル知識メモリによる検索増強型ビジュアル言語事前学習（ブログ投稿を参照） Ziniu Hu*、Ahmet Iscen、Chen Sun、Zirui Wang、Kai-Wei Chang、Yizhou Sun、Cordelia Schmid、David Ross、Alireza Fathi

RobustNeRF：ロバスト損失による邪魔者の無視 Sara Sabour、Suhani Vora、Daniel Duckworth、Ivan Krasin、David J. Fleet、Andrea Tagliasacchi

論文

AligNeRF: アラインメントに注意したトレーニングによる高精度なニューラル放射場 Yifan Jiang*、Peter Hedman、Ben Mildenhall、Dejia Xu、Jonathan T. Barron、Zhangyang Wang、Tianfan Xue*

BlendFields: 少数ショットの例に基づく顔モデリング Kacper Kania、Stephan Garbin、Andrea Tagliasacchi、Virginia Estellers、Kwang Moo Yi、Tomasz Trzcinski、Julien Valentin、Marek Kowalski

キーポイントの検出と説明を共同で学習することによる変形可能なローカル特徴の向上 Guilherme Potje、Felipe Cadar、Andre Araujo、Renato Martins、Erickson Nascimento

オブジェクトがどのようにアクション認識を支援できるか？ Xingyi Zhou、Anurag Arnab、Chen Sun、Cordelia Schmid

大規模なシーンに対するモーションブラーを備えたハイブリッドニューラルレンダリング Peng Dai、Yinda Zhang、Xin Yu、Xiaoyang Lyu、Xiaojuan Qi

IFSeg：ビジョン言語モデルによる画像フリーのセマンティックセグメンテーション Sukmin Yun、Seong Park、Paul Hongsuck Seo、Jinwoo Shin

ユーザ意識型サリエンシモデリングからの学習 (ブログ投稿を参照) Shi Chen*、Nachiappan Valliappan、Shaolei Shen、Xinyu Ye、Kai Kohlhoff、Junfeng He

MAGE：表現学習と画像合成を統一するマスク付き生成エンコーダ Tianhong Li*、Huiwen Chang、Shlok Kumar Mishra、Han Zhang、Dina Katabi、Dilip Krishnan

NeRF-Supervised Deep Stereo Fabio Tosi、Alessio Tonioni、Daniele Gregorio、Matteo Poggi

Omnimatte3D：制約のない単眼ビデオでのオブジェクトとその効果の関連付け Mohammed Suhail、Erika Lu、Zhengqi Li、Noah Snavely、Leon Sigal、Forrester Cole

オープンボキャブラリーを使用した3Dシーン理解 Songyou Peng、Kyle Genova、Chiyu Jiang、Andrea Tagliasacchi、Marc Pollefeys、Thomas Funkhouser

写真コレクションからの個人化された再構築 Chung-Yi Weng、Pratul Srinivasan、Brian Curless、Ira Kemelmacher-Shlizerman

プレフィックス条件付けは言語とラベルの監視を統一する Kuniaki Saito*、Kihyuk Sohn、Xiang Zhang、Chun-Liang Li、Chen-Yu Lee、Kate Saenko、Tomas Pfister

ビデオ学習を再考する：共通の画像とビデオの学習のためのスパースビデオチューブ (ブログ投稿を参照) AJ Piergiovanni、Weicheng Kuo、Anelia Angelova

Burstormer：バースト画像の復元と強化トランスフォーマー Akshay Dudhane、Syed Waqas Zamir、Salman Khan、Fahad Shahbaz Khan、Ming-Hsuan Yang

マルチヘッド蒸留を用いた分散学習 Andrey Zhmoginov、Mark Sandler、Nolan Miller、Gus Kristiansen、Max Vladymyrov

GINA-3D：野生の内在的ニューラルアセットの生成を学習する Bokui Shen、Xinchen Yan、Charles R. Qi、Mahyar Najibi、Boyang Deng、Leonidas Guibas、Yin Zhou、Dragomir Anguelov

Grad-PU: Gradient Descentを使用した学習済み距離関数による任意スケールポイントクラウドアップサンプリング Yun He, Danhang Tang , Yinda Zhang , Xiangyang Xue, Yanwei Fu

Hi-LASSIE: スパース画像アンサンブルからの高精度関節形状およびスケルトン発見 Chun-Han Yao*, Wei-Chih Hung, Yuanzhen Li , Michael Rubinstein , Ming-Hsuan Yang , Varun Jampani

視覚表現を超えたハイパーボリック対比学習 Songwei Ge, Shlok Mishra, Simon Kornblith , Chun-Liang Li, David Jacobs

Imagic: 拡散モデルを用いたテキストベースの実画像編集 Bahjat Kawar*, Shiran Zada , Oran Lang , Omer Tov , Huiwen Chang , Tali Dekel , Inbar Mosseri , Michal Irani

RGBシーケンスからのインクリメンタル3Dセマンティックシーングラフ予測 Shun-Cheng Wu, Keisuke Tateno , Nassir Navab, Federico Tombari

IPCC-TP: インクリメンタルピアソン相関係数を利用した複数エージェントの軌道予測 Dekai Zhu, Guangyao Zhai, Yan Di, Fabian Manhardt , Hendrik Berkemeyer, Tuan Tran, Nassir Navab, Federico Tombari , Benjamin Busam

ユーザーレベルの差分プライバシーを用いた画像埋め込みの生成学習 Zheng Xu, Maxwell Collins, Yuxiao Wang, Liviu Panait, Sewoong Oh, Sean Augenstein, Ting Liu, Florian Schroff, H. Brendan McMahan

NoisyTwins: Class-Consistent and Diverse Image Generation Through StyleGANs Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali , Varun Jampani , Venkatesh Babu Radhakrishnan

ガイド拡散モデルを使用した実画像のNULL-Text反転 Ron Mokady*, Amir Hertz*, Kfir Aberman , Yael Pritch , Daniel Cohen-Or*

SCOOP: 自己教師あり対応および最適化ベースのシーンフロー Itai Lang*, Dror Aiger , Forrester Cole , Shai Avidan , Michael Rubinstein

ブートストラップされた放射状フィールド反転によるシェイプ、ポーズ、外観の単一画像からの取得 Dario Pavllo*, David Joseph Tan , Marie-Julie Rakotosaona , Federico Tombari

自己教師あり6Dオブジェクトポーズ推定のためのニューラルテクスチャ学習 Hanzhi Chen, Fabian Manhardt , Nassir Navab, Benjamin Busam

TryOnDiffusion: 2つのUNetの物体クラス整合性と多様性を持った画像生成 Luyang Zhu*, Dawei Yang , Tyler Zhu , Fitsum Reda , William Chan , Chitwan Saharia , Mohammad Norouzi , Ira Kemelmacher-Shlizerman

合成指示と模倣学習によるビジョン・ランゲージ・ナビゲーションの拡大 Aishwarya Kamath*, Peter Anderson , Su Wang , Jing Yu Koh*, Alexander Ku , Austin Waters , Yinfei Yang*, Jason Baldridge , Zarana Parekh

CLIPPO: ピクセルのみからの画像と言語の理解 Michael Tschannen , Basil Mustafa , Neil Houlsby

人物のための制御可能な光拡散David Futschik、Kelvin Ritland、James Vecore、Sean Fanello、Sergio Orts-Escolano、Brian Curless、Daniel Sýkora、Rohit Pandey

CUF：連続アップサンプリングフィルターCristina Vasconcelos、Cengiz Oztireli、Mark Matthews、Milad Hashemi、Kevin Swersky、Andrea Tagliasacchi

多モーダルモデルのゼロショット汎化および頑強性の向上 Yunhao Ge*、Jie Ren、Andrew Gallagher、Yuxiao Wang、Ming-Hsuan Yang、Hartwig Adam、Laurent Itti、Balaji Lakshminarayanan、Jiaping Zhao

LOCATE：弱く監視されたアフォーダンスグラウンディングのためのオブジェクトパーツのローカル化と転送 Gen Li、Varun Jampani、Deqing Sun、Laura Sevilla-Lara

2D教示からの効率的な構造意識の3Dシーン表現のためのローカル輝度場Xiaoshuai Zhang、Abhijit Kundu、Thomas Funkhouser、Leonidas Guibas、Hao Su、Kyle Genova

自己教示オートフローHsin-Ping Huang、Charles Herrmann、Junhwa Hur、Erika Lu、Kyle Sargent、Austin Stone、Ming-Hsuan Yang、Deqing Sun

一度だけのトレーニングでのパーソナライゼーション Hong-You Chen*、Yandong Li、Yin Cui、Mingda Zhang、Wei-Lun Chao、Li Zhang

密なビデオ字幕のためのビジュアル言語モデルの大規模事前学習（ブログ記事を参照） Antoine Yang*、Arsha Nagrani、Paul Hongsuck Seo、Antoine Miech、Jordi Pont-Tuset、Ivan Laptev、Josef Sivic、Cordelia Schmid

ビジョン言語事前学習を用いたユーザコメントからの画像の美的価値の学習Junjie Ke、Keren Ye、Jiahui Yu、Yonghui Wu、Peyman Milanfar、Feng Yang

動的なアーリーエグジットによる加速統合ビジョン言語モデルのための複数のエグジットの必要性 Shengkun Tang、Yaqing Wang、Zhenglun Kong、Tianchi Zhang、Yao Li、Caiwen Ding、Yanzhi Wang、Yi Liang、Dongkuan Xu

偶発的なライトプローブ Hong-Xing Yu、Samir Agarwala、Charles Herrmann、Richard Szeliski、Noah Snavely、Jiajun Wu、Deqing Sun

FedDM：通信効率の良いフェデレーテッドラーニングのための反復分布マッチング Yuanhao Xiong、Ruochen Wang、Minhao Cheng、Felix Yu、Cho-Jui Hsieh

FlexiViT：すべてのパッチサイズに対応する1つのモデルLucas Beyer、Pavel Izmailov、Alexander Kolesnikov、Mathilde Caron、Simon Kornblith、Xiaohua Zhai、Matthias Minderer、Michael Tschannen、Ibrahim Alabdulmohsin、Filip Pavetic

イテレーションビジョンアンドランゲージナビゲーション Jacob Krantz、Shurjo Banerjee、Wang Zhu、Jason Corso、Peter Anderson、Stefan Lee、Jesse Thomason

MoDi：多様なデータからの無条件のモーション合成 Sigal Raab、Inbal Leibovitch、Peizhuo Li、Kfir Aberman、Olga Sorkine-Hornung、Daniel Cohen-Or

視覚認識のための欠落したモダリティを持つマルチモーダルプロンプティング Yi-Lun Lee、Yi-Hsuan Tsai、Wei-Chen Chiu、Chen-Yu Lee

シーンに適応したエゴセントリックな3D人体姿勢推定 Jian Wang、Diogo Luvizon、Weipeng Xu、Lingjie Liu、Kripasindhu Sarkar、Christian Theobalt

単一視点画像からのスケーラブルな3D形状学習、ジオメトリおよびCLIPベースの一貫性を介して Zixuan Huang、Varun Jampani、Ngoc Anh Thai、Yuanzhen Li、Stefan Stojanov、James M. Rehg

Webスケールの画像テキストデータからの検索による画像認識の改善 Ahmet Iscen、Alireza Fathi、Cordelia Schmid

JacobiNeRF：相互情報勾配を使用したNeRFシェーピング Xiaomeng Xu、Yanchao Yang、Kaichun Mo、Boxiao Pan、Li Yi、Leonidas Guibas

単眼RGBビデオからの個人化された高品質ボリューメトリックヘッドアバターの学習 Ziqian Bai*、Feitong Tan、Zeng Huang、Kripasindhu Sarkar、Danhang Tang、Di Qiu、Abhimitra Meka、Ruofei Du、Mingsong Dou、Sergio Orts-Escolano、Rohit Pandey、Ping Tan、Thabo Beeler、Sean Fanello、Yinda Zhang

手のひらにNeRF：新規ビュー合成を介したロボティクスのための補正オーグメンテーション Allan Zhou、Mo Jin Kim、Lirui Wang、Pete Florence、Chelsea Finn

Pic2Word：ゼロショット構成画像検索のための画像から単語へのマッピング Kuniaki Saito*、Kihyuk Sohn、Xiang Zhang、Chun-Liang Li、Chen-Yu Lee、Kate Saenko、Tomas Pfister

曖昧性を意識した深度推定によるスペースカービングからのNeRFs SCADE Mikaela Uy、Ricardo Martin Brualla、Leonidas Guibas、Ke Li

制御可能なアバターの再構築のための構造化3D特徴 Enric Corona、Mihai Zanfir、Thiemo Alldieck、Eduard Gabriel Bazavan、Andrei Zanfir、Cristian Sminchisescu

トークンチューリングマシン Michael S. Ryoo、Keerthana Gopalakrishnan、Kumara Kahatapitiya、Ted Xiao、Kanishka Rao、Austin Stone、Yao Lu、Julian Ibarz、Anurag Arnab

TruFor：信頼性のある画像偽造検出とローカリゼーションのためのオールラウンドな手がかりの活用 Fabrizio Guillaro、Davide Cozzolino、Avneesh Sud、Nicholas Dufour, Luisa Verdoliva

映像確率拡散モデルの射影潜在空間Sihyun Yu、Kihyuk Sohn、Subin Kim、Jinwoo Shin

視覚プロンプトチューニングによる生成転移学習Kihyuk Sohn、Yuan Hao、Jose Lezama、Luisa Polania、Huiwen Chang、Han Zhang、Irfan Essa、Lu Jiang

グローバル-ローカルコンテキスト特徴を使用したゼロショット参照画像セグメンテーションSeonghoon Yu、Paul Hongsuck Seo、Jeany Son

AVFormer：凍結音声モデルに視覚を注入してゼロショットAV-ASRを実現する（ブログ記事を参照）Paul Hongsuck Seo、Arsha Nagrani、Cordelia Schmid

DC2：デュアルカメラの焦点調整を学習してリフォーカスするHadi Alzayer、Abdullah Abuolaim、Leung Chun Chan、Yang Yang、Ying Chen Lou、Jia-Bin Huang、Abhishek Kar

エッジから形状から概念へ：堅牢なビジョンのための敵対的拡張Aditay Tripathi*、Rishubh Singh、Anirban Chakraborty、Pradeep Shenoy

メタCLUE：包括的な視覚的比喩研究に向けてArjun R. Akula、Brendan Driscoll、Pradyumna Narayana、Soravit Changpinyo、Zhiwei Jia、Suyash Damle、Garima Pruthi、Sugato Basu、Leonidas Guibas、William T. Freeman、Yuanzhen Li、Varun Jampani

条件付きジェネレータを使用したマルチリアリズム画像圧縮Eirikur Agustsson、David Minnen、George Toderici、Fabian Mentzer

NeRDi：単一視点NeRF合成の一般的な画像事前条件としての言語による拡散Congyue Deng、Chiyu Jiang、Charles R. Qi、Xinchen Yan、Yin Zhou、Leonidas Guibas、Dragomir Anguelov

セマンティックセグメンテーションモデルのキャリブレーション：分析とアルゴリズムDongdong Wang、Boqing Gong、Liqiang Wang

持続性のある性質：無限の3D世界の生成モデルLucy Chai、Richard Tucker、Zhengqi Li、Phillip Isola、Noah Snavely

顔のアンチスポーフィングのためのドメイン汎化の再考：分離可能性と整列性Yiyou Sun*、Yaojie Liu、Xiaoming Liu、Yixuan Li、Wen-Sheng Chu

SINE：事前ガイド編集フィールドを使用した意味に基づく画像ベースのNeRF編集Chong Bao、Yinda Zhang、Bangbang Yang、Tianxing Fan、Zesong Yang、Hujun Bao、Guofeng Zhang、Zhaopeng Cui

GAN分類器に対するGANの逐次トレーニングにより、独立にトレーニングされたGANインスタンス間に存在する相関のある「知識ギャップ」が明らかになるArkanath Pathak、Nicholas Dufour

SparsePose：スパースビューカメラポーズ回帰と微調整Samarth Sinha、Jason Zhang、Andrea Tagliasacchi、Igor Gilitschenski、David Lindell

教師が生成した空間的注意ラベルは、対比モデルの堅牢性と精度を向上させますYushi Yao、Chang Ye、Gamaleldin F. Elsayed、Junfeng He

ワークショップ

ミックスドリアリティのためのコンピュータビジョンスピーカーには、Ira Kemelmacher-Shlizermanが含まれます。

自律走行に関するワークショップ（WAD）スピーカーには、Chelsea Finnが含まれます。

マルチモーダルコンテンツモデレーション（MMCM）主催者には、Chris Breglerが含まれ、スピーカーには、Mevan Babakarが含まれます。

医療用コンピュータビジョン（MCV）スピーカーには、Shekoofeh Aziziが含まれます。

VAND：視覚異常および新奇検出スピーカーには、Yedid Hoshen、Jie Renが含まれます。

3Dデータの構造的および合成学習主催者には、Leonidas Guibasが含まれ、スピーカーには、Andrea Tagliasacchi、Fei Xia、Amir Hertzが含まれます。

ファイングレインドビジュアルカテゴリ化（FGVC10）主催者には、Kimberly Wilber、Sara Beeryが含まれ、パネリストには、Hartwig Adamが含まれます。

メタバースのNeRFの進歩に関するXRNeRF 主催者には、Jonathan T. Barronが含まれ、スピーカーには、Ben Pooleが含まれます。

自然言語を介した意味理解のための無限ラベル空間のOmniLabel 主催者には、Golnaz Ghiasi、Long Zhaoが含まれ、スピーカーには、Vittorio Ferrariが含まれます。

大規模ホリスティックビデオ理解主催者には、David Rossが含まれ、スピーカーには、Cordelia Schmidが含まれます。

ゼロショット画像キャプショニング評価の新たなフロンティア（NICE）スピーカーには、Cordelia Schmidが含まれます。

計算カメラおよびディスプレイ（CCD）主催者には、Ulugbek Kamilovが含まれ、スピーカーには、Mauricio Delbracioが含まれます。

野生での注視推定と予測（GAZE）主催者には、Thabo Beeleが含まれ、スピーカーには、Erroll Woodが含まれます。

ヘルスインフォマティクスのための顔とジェスチャー解析（FGAHI）スピーカーには、Daniel McDuffが含まれます。

動物の行動追跡とモデリングのためのコンピュータビジョン主催者には、Sara Beeryが含まれ、スピーカーには、Arsha Nagraniが含まれます。

3Dビジョンとロボティクススピーカーには、Pete Florenceが含まれます。

エンドツーエンド自動運転：知覚、予測、計画およびシミュレーション（E2EAD）主催者には、Anurag Arnabが含まれます。

エンドツーエンド自動運転：新しいタスクと課題スピーカーには、Sergey Levineが含まれます。

マルチモーダル学習とアプリケーションスピーカーには、Aleksander Hołyńskiが含まれます。

自律システムのための合成データ（SDAS）スピーカーには、Lukas Hoyerが含まれます。

ビジョンデータセットの理解主催者には、José Lezamaが含まれ、スピーカーには、Vijay Janapa Reddiが含まれます。

未来を見通す：先見性主催者には、Utsav Prabhuが含まれます。

画像復元と強化のための新しいトレンド（NTIRE）主催者には、Ming-Hsuan Yangが含まれます。

コンピュータビジョンのための生成モデルスピーカーには、Ben Mildenhall、Andrea Tagliasacchiが含まれます。

コンピュータビジョンにおける敵対的な機械学習：堅牢性の芸術主催者には、Xinyun Chenが含まれ、スピーカーには、Deqing Sunが含まれます。

メディアフォレンジックスピーカーには、Nicholas Carliniが含まれます。

追跡とその多くのギーズ：オープンワールドで任意のオブジェクトを追跡する主催者には、Paul Voigtlaenderが含まれます。

ビジョン、グラフィックス、およびロボティクスのための3Dシーン理解スピーカーには、Andy Zengが含まれます。

生理計測のためのコンピュータビジョン（CVPM）オーガナイザーには、Daniel McDuffが含まれています

野外での感情行動分析のためのオーガナイザーには、Stefanos Zafeiriouが含まれています

コンピュータビジョンの創造的な応用における倫理的考慮事項（EC3V）オーガナイザーには、Rida Qadri, Mohammad Havaei, Fernando Diaz, Emily Denton, Sarah Laszlo, Negar Rostamzadeh, Pamela Peter-Agbia, Eva Kozaneckaが含まれています

VizWiz Grand Challenge：視覚障害者が撮影した画像とビデオの説明をするスピーカーには、Haoran Qiが含まれています

効率的なコンピュータビジョンのためのディープラーニング（ブログ投稿を参照）オーガナイザーには、Andrew Howard, Chas Leichnerが含まれています。スピーカーには、Andrew Howardが含まれています

ビジュアルコピーディテクションのオーガナイザーには、Priya Goyalが含まれています

マルチビュー監視による3D学習（3DMV）のスピーカーには、Ben Pooleが含まれています

画像マッチング：ローカルフィーチャーとその先のオーガナイザーには、Eduard Trullsが含まれています

ビジョンフォーオールシーズン：悪天候および雷電条件（V4AS）のオーガナイザーには、Lukas Hoyerが含まれています

ビジョンのためのトランスフォーマー（T4V）のスピーカーには、Cordelia Schmid, Huiwen Changが含まれています

学者とビッグモデル-アカデミックがどのように適応できるか？オーガナイザーには、Sara Beeryが含まれています。スピーカーには、Jonathan T. Barron, Cordelia Schmidが含まれています

ScanNet屋内シーン理解チャレンジのスピーカーには、Tom Funkhouserが含まれています

顕微鏡画像解析のためのコンピュータビジョンのスピーカーには、Po-Hsuan Cameron Chenが含まれています

埋め込み型ビジョンのスピーカーには、Rahul Sukthankarが含まれています

Sight and Soundのオーガナイザーには、Arsha Nagrani, William Freemanが含まれています

コンテンツ作成のためのAIのオーガナイザーには、Deqing Sun, Huiwen Chang, Lu Jiangが含まれています

スピーカーには、Ben Mildenhall, Tim Salimans, Yuanzhen Liが含まれています

野生のコンピュータビジョンのオーガナイザーには、Xiuye Gu, Neil Houlsbyが含まれています。スピーカーには、Boqing Gong, Anelia Angelovaが含まれています

ロボット用のビジュアルプリトレーニングのオーガナイザーには、Mathilde Caronが含まれています

全方位コンピュータビジョンのオーガナイザーには、Yi-Hsuan Tsaiが含まれています

チュートリアル

ビジョンでの注目の理解と解釈を理解するためのすべてのビット：ViTs Hila Chefer, Sayak Paul

異常検知の最近の進歩 Guansong Pang、Joey Tianyi Zhou、Radu Tudor Ionescu、Yu Tian、Kihyuk Sohn

カメラとワイヤレスセンサーを使用した無接触ヘルスケア Wenjin Wang、Xuyu Wang、Jun Luo、Daniel McDuff

自己教師あり学習を超えたオブジェクトローカリゼーション Oriane Simeoni、Weidi Xie、Thomas Kipf, Patrick Pérez

ビジョンでのプロンプト Kaiyang Zhou、Ziwei Liu、Phillip Isola、Hyojin Bahng、Ludwig Schmidt、Sarah Pratt、Denny Zhou

*Googleでの作業

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

conferenceconferencesCVPR

Was this article helpful?

93 out of 132 found this helpful

CVPR 2023におけるGoogle

理事会と組織委員会

パネル

ベストペーパー賞候補

注目論文

論文

ワークショップ

チュートリアル

Was this article helpful?

非アーベル任意子の世界で初めてのブレードング

AWS CDK を使用して Amazon SageMaker Studio ライフサイクル構成をデプロイします

AIニュース

Google AIは、高いベンチマークパフォーマンスを実現するために、線形モデルの特性を活用した長期予測のための高度な多変量モデル、TSMixerを導入します

ステアラブルニューラルネットワーク（パート1）への優しい紹介

「Amazon SageMakerを使用して、クラシカルなMLおよびLLMsを簡単にパッケージ化してデプロイする方法、パート2：SageMaker Studioでのインタラクティブなユーザーエクスペリエンス」

「アマゾン、無人レジ技術を衣料品店に適用」

トヨタのAIにより、電気自動車の設計がより迅速になりました

SalesforceのAI研究者が、LLMを活用した自律エージェントの進化と革新的なBOLAA戦略を紹介します