初心者のための2023年の機械学習論文の読み方
2023年の機械学習論文の読み方
AI研究ブーム中に正気を保つための実践的なヒント。
私は数十の機械学習論文を読んでおり、論文の学習方法についてのコツを掴み始めています。まずは、特定の論文を読む目的を理解することが重要です!私は3つの主な理由があることを発見しました。それぞれにはやや異なる技術が必要であり、研究の重要な部分です。
最新のハイプについて追いつく
論文に本格的に取り組む前に、まず最初に読む理由について見てみましょう。最新のブレイクスルーとハイプについて追いつくためです。ここでは、最高レベルの理解が必要です。
たとえコンピュータビジョンの研究者であっても、大規模言語モデルの最も重要な進展について知っておく必要があります。私はあなたの「FOMO」を煽るつもりはありませんが、他の研究者と有意義な雑談ができること、または理想的には自身の研究に応用できる新しい技術について学ぶことが重要だと思います。
さて、新しい論文をざっくり読む前に、まず最新で最も注目されている論文について知る必要があります。そのため、単にTwitterのような大手AI研究所やLinkedInをフォローすることをおすすめしますが、Lior S.やAleksa GordićといったAIニュースの人物もフォローしておくと良いでしょう。人々が論文について投稿する際には、主な貢献と結果の要約が含まれることが多いです。それでも、論文を自分で確認したい場合は、まず要約を読んで論文の内容を把握することをおすすめします。要約は、著者自身による論文の最も簡潔な要約です。通常、主な結果が既に含まれています。「他のモデルよりも優れているか、またはより効率的である」といった内容です。しかし、実際にどれだけ優れているのか、主な利点は何か、ということを確認するのも面白いかもしれません。要約が論文の主な貢献点を強調していない場合は、導入部を探すか、AIを使ってAIについて学ぶ必要があります!すでに論文を要約するためのLLMツールが存在しているため、完全に無料のSciSpace Copilotなどのツールに論文の要約や主な貢献点のリストを依頼することができます。これは通常非常にうまく機能します!
- ワシントン大学とAI2の研究者が、VQAを介してAIが生成した画像の忠実度を測定する自動評価指標であるTIFAを紹介します
- Google Researchにおける責任あるAI:パーセプションの公平性
- Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です
覚えておいてください、「論文を読む」という目的を知る必要があります。この場合、起こっていることを高レベルで理解したいだけです。そのため、TwitterやLinkedIn、そして(若干遅れた情報更新のために)YouTubeのAIニュースの人物は本当に素晴らしい情報源です!
自身の研究のアイデアを探索する
さて、おそらく最も聞きたい理由について話す前に、論文を読む第二の理由について簡単に説明しましょう:自身の研究のアイデアを探索するためです。
自分にとって興味深い新しい技術、データセット、またはより効率的な実装は何でしょうか?2022年にはICLRだけで約1,000件の論文が受け入れられました。それらをすべて徹底的に読むことは絶対に不可能です。ハイプのある論文以外にも、自身の研究領域での新しいアイデアや洞察を見つける必要があるでしょう。実際、多くの論文は単一の新しいアイデアを提案しており、しばしば非常にシンプルです。
たとえば、言語モデルに取り組んでいる場合、Contrastive Decoding [1]の基本的なアイデアは、「強力なLanguage Modelとより弱いLanguage Modelが次のトークンの出力ロジットを生成し、それらを要素ごとに引き算して新しい出力ロジットを得る。これにより、より多様な結果が得られる」というものです。
このプロセスは、多くの探索を伴います。主に、単に論文をGoogleで検索したり、会議の公式ウェブサイトで公開されている論文リストを見たり、さらに自分が既に読んでいる論文の参考文献を再帰的に確認することによって行います。最終的には再び要約を読み、主なアイデアとその性能向上、つまり主な結果を見つけることを期待します。常に心に留めておくべきは、「これが私の研究にどのように役立つか?」ということです。ただし、2023年以降では、メインのアイデアをすぐに理解できない場合でも、AIツールに主な貢献点、新規性、および結果を抽出し、簡単な言葉で概念を説明してもらうことができます。実際、一部の場合では、新しいアプローチと別のアプローチを直接比較するように依頼することもできます!もう一つ注目すべきは、もし存在する場合はアーキテクチャ図です。これにより、モデルやパイプラインのフローを一目で把握できます。
独自の研究に統合する – 深く潜る
もし、この論文が主なアイデアと結果と、あなた自身の研究にとても適していると感じているなら、論文を読む理由の最後の部分に辿り着きます。本当に細かい詳細に入り込んで、研究に統合し、それを基に構築する可能性があります。
まず、もし論文にビデオやブログ記事がある場合は、それは大当たりです!私の意見では、YouTubeのビデオやブログ記事から始めてから論文を読むのが一番です。その方法なら、何を期待し、最も注意を払うべきかを知り、基本的な理解も持つことができます。論文の専門用語は非常に洗練されており(議論の余地はあるかもしれませんが)、必要以上に難解です。
さて、論文を見ていきましょう。特にビデオやブログ記事がない場合は、まずはアブストラクトから始め、次に結果に進む必要があります(既にしていない場合)。この論文を基に構築したい場合、トレーニングや評価に使用されるデータセットを見ることは非常に役立つかもしれません。利用可能な場合は、それらを自分自身で使用したいですね!
そして、方法論のセクションへ移りましょう。モデルを本当に理解するためには、まずモデル図を見ることをお勧めします。先述したように、それによってデータのフローを感じることができます。その後、このモデルを説明するテキストを読むことから始めます。基本的なレベルでは、非常に簡略化された形で言えば、ディープラーニングモデルは単なる行列やテンソルの再形成操作の連続です。ですので、モデルの個々のブロックを見ると、特定の形状の入力と、それに対応する形状の出力があります。そしてテキストには、この変換を数学的に形式化したものが含まれているかもしれません。
これを強調しておきますが、データの次元(つまり、形状)がどのように変化するのかを常に理解する必要があります。
私がいつもやるのは、各操作の後と最後のブロックの後に形状を書き留めることです。これをステップバイステップで行うと、最終的に見えるほど圧倒されることはありませんし、私にとって非常に助けになります!
さらに、ここでのプロのヒントです。もし論文にコードが存在する場合は、それをダウンロードしてVSCodeのデバッガでステップ実行してみてください。これは、論文で言及されている著者自身の実装を見たり、コードがある論文のサードパーティの実装を見たりすること、または、私の意見ではさらに簡単に、huggingfaceのモデルをインポートして実行し、彼らの非常に素晴らしい実装をステップ実行することです。ここで探しているのは、個々のコード操作やモジュールがモデル図や論文の数学の式と一致することです。そして、常に入力と出力の次元を見て理解することです。
さて、数学の式に関しては、それらはしばしば非常に恐ろしく見えますが、実は単純なものです!特に、損失関数を見る場合はそうです。非常に頻繁に、著者は負の対数尤度、クロスエントロピー、平均二乗誤差などの一般的な損失を使用します。しかし、彼らが完全に新しい損失を定式化する場合でも、それは人間のアイデアの数学的な表現にすぎません。
例えば、識別器を訓練して、実際の画像を実際のものとして、生成された画像を偽物として認識させます。そして、生成器を訓練して、識別器がそれらを実際のものとして思うような画像を生成するようにします。そして、繰り返して行います。これらの数式を説明するために、あなたは再びAIを使用することができます!私たちは本当に魅力的な時代に生きています!
これらの異なるテクニック、AIツール、VSCodeのデバッグ、単に論文の説明ビデオやブログを見ること、データの形状を見ることや損失を分析することなどを使って、理解できない部分や「あはっ!」と思う瞬間がある場合は、常にハイライトして自分自身のメモを取るべきです。
もちろん、非常に難しい論文や理論的で数学的に重い論文、あるいはAIと科学の交差点に関連する、多くのドメイン知識を必要とする論文もあります。最終的に、論文を本当に理解するための解決策は常に同じです。続けることです。論文を読むときに最初の段階でアイデアが理解できない場合は心配しないでください。読み続ければ、おそらくより明確になるでしょう。現在読んでいる論文で参照された技術の説明が十分ではない場合は、参照されている論文に進んで読むことができます。私が好きなもう1つのプロのヒントは、研究者たちがシンプルなコーヒーブレイク中にどのように彼らのアイデアについて話していたかを考えてみることです。
わかります…それは面倒かもしれませんが、約束します、始めることは常に一番難しいです。この知識は、将来新しい論文を読む際にはずっと楽になるでしょう!もう一度、約束します!
実行可能なヒントの要約
では、実行可能なヒントを簡単に要約します:
- ほぼ常に、まずは要約を読み、次に結果、そして方法論セクションを読みます。
- YTやブログなどの他の情報源を利用してください。論文の専門用語は非常に短縮されているため、理解するのが難しいことがよくあります。
- もしコードがある場合は、デバッガを使用してコードをステップ実行し、常に入力と出力の形状を理解してください。
- 最後に、SciSpace CopilotのようなAIツールを使用して要約を作成し、主な貢献を抽出し、言語をより簡単にし、数式を説明するのに躊躇しないでください。
私はこれからもたくさんの論文解説ブログ投稿(そしてYouTubeビデオ!!)を行う予定です。私の要約と説明がAIの進歩についての理解をより容易にすることを願っています。もし将来の投稿を見逃したくない場合は、フォローを忘れずにお願いします!
P.S.:このコンテンツとビジュアルが気に入った場合は、YouTubeチャンネルもご覧になってください。そこでは同様のコンテンツがより美しいアニメーションとともに投稿されています!
参考文献
[1] Contrastive Decoding, X. L. Li et. al, 2023, https://arxiv.org/abs/2210.15097
[2] Generative Adversarial Networks, I. J. Goodfellow et. al, 2014, https://arxiv.org/abs/1406.2661
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Google DeepMindの研究者が、チェスの課題に取り組むためのAIの多様性の力を明らかにする:計算問題解決における次の飛躍、AZ_dbの紹介」
- ウィスコンシン大学マディソン校の研究者たちは、「エベントフルトランスフォーマー:最小限の精度損失でコスト効果のあるビデオ認識手法」というタイトルで、イベントフルトランスフォーマーに基づくビデオ認識の費用対効果の高い手法を提案しています
- 「LLMはナレッジグラフを取って代わるのか? メタリサーチャーが提案する『ヘッド・トゥ・テイル』:大規模言語モデルの事実知識を測るための新たな基準」
- アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです
- 研究者たちは、ロボットが手全体を使って複雑な計画を立てることができるようにするAIを開発しました
- 『広範な展望:NVIDIAの基調講演がAIの更なる進歩の道を指し示す』
- 「この新しいAI研究は、事前学習されたタンパク質言語モデルを幾何学的深層学習ネットワークに統合することで、タンパク質構造解析を進化させます」