「CVPR 2023のメモ」
CVPR 2023 Memo
カナダプレイス周辺の数日間….
私は幸運にも2023年6月18日から22日まで、バンクーバーのバンクーバーコンベンションセンターで開催されたコンピュータビジョンとパターン認識の主要なカンファレンスであるCVPRに参加する機会を得ました。興味深いワークショップ、チュートリアル、セッションがたくさんありましたが、ときには並行して開催されていました。私はたくさんのことを学び、会後にいくつかの論文やビデオを調べています。この記事では、いくつかの内容を共有します。
すべてのViTs:ビジョンにおける注意の理解と解釈
これはHila CheferとSayak Paulによって非常にわかりやすく説明されたチュートリアルでした。Hilaは注意/トランスフォーマーの解釈可能性に関する幅広い研究を行っており、素晴らしいスピーカーです。個人的には、彼女の研究は本当に重要だと思います。なぜなら、ほとんどのAI実践者がトランスフォーマーの内部動作を理解し、結果を解釈することができないからです。それは彼らが適切なツールセットを持っていないためです。Hilaの研究は、将来のあらゆるものであるトランスフォーマーベースのモデルのより良い理解へのゲートウェイとなることができます。詳細:https://all-things-vits.github.io/atv/
ワークショップ:長尺ビデオの理解と生成
このワークショップでは、私の仕事に関連するいくつかの興味深い課題があります。例えば、ビデオイベントの境界検出、イベント境界のキャプション付けなどです。私は上記のチュートリアルに参加していたため、このワークショップには参加できませんでしたが、将来の参考のために言及しておきたいと思います。詳細については、https://sites.google.com/view/loveucvpr23をご覧ください。
ワークショップ:マルチモーダル設定におけるオープンドメインの推論
Deepmind Flamingo論文の共著者であるKarel Lencが、Flamingoにおける大規模言語モデルの評価とトレーニングに関する彼の研究を共有しました。Karelはモデルのアーキテクチャー、デコーダーのみのトランスフォーマーベースのネットワークを共有しました。Flamingoのビジュアル処理はCLIPと似ていますが、ViTの代わりにNFNetを使用しており、ネットワークからプーリングレイヤーを削除し、画像特徴ベクトルと直接作業します。ビジュアル処理の中には、「Perceiver Resampler」という新しいリサンプリング技術が提案されています。彼らはまた、新しい「ゲート付きクロス…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles