「CVPR 2023のメモ」

CVPR 2023 Memo

カナダプレイス周辺の数日間….

CVPR 2023 at Vancouver Convention Center. Source: author — バンクーバーコンベンションセンターでのCVPR 2023。出典：著者

私は幸運にも2023年6月18日から22日まで、バンクーバーのバンクーバーコンベンションセンターで開催されたコンピュータビジョンとパターン認識の主要なカンファレンスであるCVPRに参加する機会を得ました。興味深いワークショップ、チュートリアル、セッションがたくさんありましたが、ときには並行して開催されていました。私はたくさんのことを学び、会後にいくつかの論文やビデオを調べています。この記事では、いくつかの内容を共有します。

すべてのViTs：ビジョンにおける注意の理解と解釈

これはHila CheferとSayak Paulによって非常にわかりやすく説明されたチュートリアルでした。Hilaは注意/トランスフォーマーの解釈可能性に関する幅広い研究を行っており、素晴らしいスピーカーです。個人的には、彼女の研究は本当に重要だと思います。なぜなら、ほとんどのAI実践者がトランスフォーマーの内部動作を理解し、結果を解釈することができないからです。それは彼らが適切なツールセットを持っていないためです。Hilaの研究は、将来のあらゆるものであるトランスフォーマーベースのモデルのより良い理解へのゲートウェイとなることができます。詳細：https://all-things-vits.github.io/atv/

ワークショップ：長尺ビデオの理解と生成

このワークショップでは、私の仕事に関連するいくつかの興味深い課題があります。例えば、ビデオイベントの境界検出、イベント境界のキャプション付けなどです。私は上記のチュートリアルに参加していたため、このワークショップには参加できませんでしたが、将来の参考のために言及しておきたいと思います。詳細については、https://sites.google.com/view/loveucvpr23をご覧ください。

Deepmind Flamingo論文の共著者であるKarel Lencが、Flamingoにおける大規模言語モデルの評価とトレーニングに関する彼の研究を共有しました。Karelはモデルのアーキテクチャー、デコーダーのみのトランスフォーマーベースのネットワークを共有しました。Flamingoのビジュアル処理はCLIPと似ていますが、ViTの代わりにNFNetを使用しており、ネットワークからプーリングレイヤーを削除し、画像特徴ベクトルと直接作業します。ビジュアル処理の中には、「Perceiver Resampler」という新しいリサンプリング技術が提案されています。彼らはまた、新しい「ゲート付きクロス…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「CVPR 2023のメモ」

カナダプレイス周辺の数日間….

すべてのViTs：ビジョンにおける注意の理解と解釈

ワークショップ：長尺ビデオの理解と生成

Was this article helpful?

「人類はAIの日食の瀬戸際にあるのか？」

AIパルス＃2：メタの人間のようなAI＆小さな言語モデル

人工知能

「3つの質問：ロボットの認識とマッピングの研磨」

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

ディープAIの共同創業者兼CEO、ケビン・バラゴナ氏- インタビューシリーズ

ジョシュ・フィースト、CogitoのCEO兼共同創業者 - インタビューシリーズ

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

「クリス・サレンス氏、CentralReachのCEO - インタビューシリーズ」

「CVPR 2023のメモ」

カナダプレイス周辺の数日間….

すべてのViTs：ビジョンにおける注意の理解と解釈

ワークショップ：長尺ビデオの理解と生成

ワークショップ：マルチモーダル設定におけるオープンドメインの推論

Was this article helpful?