Learn more about Search Results Transformers paper
- You may be interested
- より良いOCRパフォーマンスを得るためのEa...
- 「AIドクター」は、入院後の再入院やその...
- 人工汎用知能(AGI)の包括的な紹介
- 未来への進化-新しいウェーブガイドがデー...
- ルーシッドドリーマー:インターバルスコ...
- 「MongoDBの時系列コレクションとAmazon S...
- 枝刈り探索法で最適解を見つける
- ChatGPT、GPT-4、Bard、およびClaudeを検...
- NVIDIAとUTオースティンの研究者がMimicGe...
- 中国からの新しいAI研究は、機械学習の手...
- 「なぜより多くがより良いのか(人工知能...
- スタンフォード大学の研究者たちは、「Hye...
- 「Oktaの顧客アイデンティティで優れたデ...
- 「ポーラーズ.ローリングは、列の数とどの...
- 「Co-BioNetに会ってください:モナッシュ...
「ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from a Google DeepMind Research Paper」 ビジョン・トランスフォーマーにおけるReLU vs. Softmax:シーケンスの長さは重要か?Google DeepMindの研究論文からの洞察
今日一般的な機械学習アーキテクチャは、トランスフォーマーアーキテクチャです。トランスフォーマーの主要なパーツの1つであるアテンションは、トークン全体にわたる確率分布を生成するソフトマックスを持っています。ソフトマックスは、指数計算とシーケンスの長さの合計による計算量のため、並列化が困難です。この研究では、確率分布を常に提供しないポイントワイズのソフトマックスの代替手法について調査しています。特筆すべき発見の1つは、ビジュアルトランスフォーマーの場合、ReLUによるシーケンスの長さで分割されたアテンションのスケーリング動作が、クラシックなソフトマックスアテンションとほぼ同等または一致することです。 この発見により、ReLU-アテンションはシーケンスの長さ次元に沿って標準のアテンションよりも容易に並列化できる新たな可能性が開かれました。以前の研究では、ReLUまたは二乗ReLUがソフトマックスの代替手法として考慮されてきました。ただし、これらの手法はシーケンスの長さで分割されていないため、Google DeepMindの研究者によれば、ソフトマックスと同等の精度を達成するためにはこれが重要です。さらに、以前の研究では、ソフトマックスの役割を果たすことが考慮されており、シーケンスの長さの軸方向での正規化は依然として必要ですが、これにはギャザリングが必要です。さらに、アテンションを線形にするために活性化関数を排除する研究が豊富にあり、これは長いシーケンスの期間に有利です。 彼らの研究では、活性化が完全に除外されると精度が低下しました。彼らのテストは、ハイパーパラメータを変更せずに、BigVisionソースのImageNet-21kおよびImageNet-1kのトレーニング設定を使用しています。ImageNet-21kでは30エポック、ImageNet-1kでは300エポックトレーニングします。その結果、両方のトレーニング実行には約9e5ステップかかります。これは以前の研究でモデルサイズのスケーリング時の不安定性を避けるために必要であることが判明しているため、彼らはqkレイヤーの正規化を持つViTsを使用します。彼らは、これが彼らのスケールにおいて重要な要素ではないと結論づけています。 彼らは、ファインチューニングせずにImageNet-1k内のトップクラスのみを取ることによって、ImageNet-21kモデルのImageNet-1k精度を報告しています。彼らは、転送パフォーマンスを評価するために、3つのシードで平均化された10ショットのリニアプローブを使用します。転送先のタスクには、Caltech Birds、Caltech101、Stanford Cars、CIFAR-100、DTD、ColHsit、Pets、およびUC Mercedがあります。この研究は、多くの未解決の問題を提起しています。なぜ因子L^(-1)がパフォーマンスを向上させるのか、またはこの概念を学習できるかを彼らは発見しなければなりません。さらに、彼らが調査していないより効果的な活性化関数があるかもしれません。
デコード Transformersを平易な英語で説明します
コード、数学、またはキー、クエリ、値の言及なし
「AutoGPTQとtransformersを使ってLLMsを軽量化する」
大規模な言語モデルは、人間のようなテキストの理解と生成能力を示し、さまざまなドメインでのアプリケーションを革新しています。しかし、訓練と展開における消費者ハードウェアへの要求は、ますます困難になっています。 🤗 Hugging Faceの主なミッションは、良い機械学習を民主化することであり、これには大規模モデルを可能な限りアクセスしやすくすることも含まれます。bitsandbytesコラボレーションと同じ精神で、私たちはTransformersにAutoGPTQライブラリを統合しました。これにより、ユーザーはGPTQアルゴリズム(Frantar et al. 2023)を使用して8、4、3、または2ビット精度でモデルを量子化して実行できるようになりました。4ビットの量子化ではほとんど精度の低下はなく、推論速度は小規模なバッチサイズの場合にはfp16ベースラインと比較可能です。GPTQメソッドは、校正データセットのパスを必要とする点で、bitsandbytesによって提案された事後トレーニング量子化手法とは若干異なります。 この統合はNvidiaのGPUとRoCm-powered AMDのGPUの両方で利用可能です。 目次 リソース GPTQ論文の簡潔な要約 AutoGPTQライブラリ – LLMの効率的なGPTQの活用のためのワンストップライブラリ 🤗 TransformersでのGPTQモデルのネイティブサポート Optimumライブラリを使用したモデルの量子化 テキスト生成推論を介したGPTQモデルの実行 PEFTを使用した量子化モデルの微調整 改善の余地 サポートされているモデル 結論と最終的な言葉 謝辞…
DPT(Depth Prediction Transformers)を使用した画像の深度推定
イントロダクション 画像の深度推定は、画像内のオブジェクトがどれだけ遠いかを把握することです。これは、3Dモデルの作成、拡張現実、自動運転などのコンピュータビジョンの重要な問題です。過去には、ステレオビジョンや特殊センサなどの技術を使用して深度を推定していました。しかし、今では、ディープラーニングを利用するDepth Prediction Transformers(DPT)と呼ばれる新しい方法があります。 DPTは、画像を見ることで深度を推定することができるモデルの一種です。この記事では、実際のコーディングを通じてDPTの動作原理、その有用性、およびさまざまなアプリケーションでの利用方法について詳しく学びます。 学習目標 密な予測トランスフォーマ(DPT)の概念と画像の深度推定における役割。 ビジョントランスフォーマとエンコーダーデコーダーフレームワークの組み合わせを含むDPTのアーキテクチャの探索。 Hugging Faceトランスフォーマライブラリを使用したDPTタスクの実装。 さまざまな領域でのDPTの潜在的な応用の認識。 この記事はData Science Blogathonの一部として公開されました。 深度推定トランスフォーマの理解 深度推定トランスフォーマ(DPT)は、画像内のオブジェクトの深度を推定するために特別に設計されたディープラーニングモデルの一種です。DPTは、元々言語データの処理に開発されたトランスフォーマと呼ばれる特殊なアーキテクチャを利用して、ビジュアルデータを処理するために適応し適用します。DPTの主な強みの1つは、画像のさまざまな部分間の複雑な関係をキャプチャし、長距離にわたる依存関係をモデル化する能力です。これにより、DPTは画像内のオブジェクトの深度や距離を正確に予測することができます。 深度推定トランスフォーマのアーキテクチャ 深度推定トランスフォーマ(DPT)は、ビジョントランスフォーマをエンコーダーデコーダーフレームワークと組み合わせて画像の深度を推定します。エンコーダーコンポーネントは、セルフアテンションメカニズムを使用して特徴をキャプチャしてエンコードし、画像のさまざまな部分間の関係を理解する能力を向上させます。これにより、細かい詳細を捉えることができます。デコーダーコンポーネントは、エンコードされた特徴を元の画像空間にマッピングすることで密な深度予測を再構築し、アップサンプリングや畳み込み層のような手法を利用します。DPTのアーキテクチャにより、モデルはシーンのグローバルなコンテキストを考慮し、異なる画像領域間の依存関係をモデル化することができます。これにより、正確な深度予測が可能になります。 要約すると、DPTはビジョントランスフォーマとエンコーダーデコーダーフレームワークを組み合わせて画像の深度を推定します。エンコーダーは特徴をキャプチャし、セルフアテンションメカニズムを使用してそれらをエンコードし、デコーダーは密な深度予測を再構築します。このアーキテクチャにより、DPTは細かい詳細を捉え、グローバルなコンテキストを考慮し、正確な深度予測を生成することができます。 Hugging Face Transformerを使用したDPTの実装 Hugging Faceパイプラインを使用してDPTの実践的な実装を見ていきます。コードの全体はこちらでご覧いただけます。…
「エキスパートのミックスについて解説」
ミクストラル8x7Bのリリース(発表、モデルカード)により、トランスフォーマのクラスがオープンAIコミュニティで最も話題となっています。それがエキスパートの混合(Mixture of Experts、略してMoEs)です。このブログ記事では、MoEsの構成要素、トレーニング方法、および推論時の考慮事項について見ていきます。 さあ、深く掘り下げてみましょう! 目次 ミクストラルとは何ですか? MoEsの簡潔な歴史 スパース性とは何ですか? MoEsのトークンのロードバランシング MoEsとトランスフォーマ スイッチトランスフォーマ ルータZ損失によるトレーニングの安定化 エキスパートは何を学ぶのですか? エキスパートの数をスケーリングすると事前トレーニングにどのような影響を与えるのですか? MoEsの微調整 スパースMoEsと密なモデルの使用時期はいつですか? MoEsを効果的に活用するために エキスパート並列処理 能力係数と通信コスト サービングテクニック 効率的なトレーニング オープンソースのMoEs ワークのエキサイティングな方向性 いくつかのリソース…
革新的なAI会社Ludaが革命的なリアルタイム強化学習システムを発表
2023年9月27日、テクノロジー界は画期的な出来事を経験しましたLudaという革新的な企業が人工知能(AI)の普及を目指して登場しましたLudaは一般の人々に、魅力的なサンドボックス体験を通じて学習プロセスに遊びを統合することで、独自のAIエンティティを構築し、育成し、展開する力を与えます経験豊富な専門家で構成されています […]
高度なRAGテクニック:イラスト入り概要
この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず、参照のみ行い、それについては放置します
推測的なサンプリング—直感的かつ徹底的に説明されています
この記事では、「推測的サンプリング」という戦略について説明しますこれによって、テキスト生成の速度を速くし、コストを抑えつつも性能には妥協しないことができますまずはじめに、私たちは…
ジェンAIに関するトップ10の研究論文
イントロダクション 自然言語理解の常に進化する風景の中で、研究者たちは革新的なアプローチを通じて可能性の限界を em>押し上げることを続けています。本記事では、生成AI(GenAI)に関する画期的な研究論文のコレクションについて探求していきます。これらの研究は、人間の好みとの一致度向上からテキストの説明から3Dコンテンツを生成するという様々な側面にわたって言語モデルを探究しています。これらの研究は学術的な論議に貢献すると同時に、自然言語処理の未来を形作る可能性のある実践的な洞察を提供しています。これらの啓発的な調査を通じて旅を始めましょう。 GenAIに関するトップ10の研究論文 GenAIに関する数百の研究論文の中から、以下は私たちのトップ10の選り抜きです。 1. 生成プリトレーニングによる言語理解の向上 この研究論文は、非教示型のプリトレーニングと教示型のファインチューニングを組み合わせて自然言語理解タスクを強化するための半教師付きアプローチを探求しています。この研究では、Transformerアーキテクチャに基づいたタスクに依存しないモデルを利用しています。これにより、多様な未ラベルのテキストでの生成プリトレーニングとその後の識別的ファインチューニングによって、さまざまな言語理解ベンチマークでのパフォーマンスが大幅に向上することが明らかになりました。 このモデルは、常識的な推論において8.9%、質問応答において5.7%、テキスト言い換えにおいて1.5%といった注目すべき改善を達成しました。この研究は、大規模な未ラベルのコーパスをプリトレーニングに活用し、ファインチューニング中のタスクに意識した入力変換を行うことが、教師なし学習を自然言語処理や他の領域で進めるための貴重な洞察を提供しています。 論文はこちらで入手できます:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf 2. 人間フィードバックを用いた強化学習:悲観主義を通じたダイナミックな選択の学習 この生成AIに関する研究論文は、オフラインでの人間フィードバックによる強化学習(RLHF)の難しい領域に深入りしています。この研究は、人間の選択に影響を受けたトラジェクトリの集合から、マルコフ決定過程(MDP)における人間の基盤と最適方策を把握することを目指しています。この研究は、経済計量学に根ざしたダイナミックディスクリートチョイス(DDC)モデルに焦点を当て、有界合理性を持った人間の意思決定をモデル化します。 提案されたDynamic-Choice-Pessimistic-Policy-Optimization(DCPPO)メソッドは、次の3つのステージで構成されています。それらは、人間の行動方針と価値関数の推定、人間の報酬関数の再現、および事実に近い最適方策のための悲観的価値反復の呼び出しです。この論文は、動的なディスクリートチョイスモデルによるオフポリシーオフラインRLHFについての理論的な保証を提供しています。分布のシフトや次元のサブオプティマリティの課題への対処についての洞察も提供しています。 論文はこちらで入手できます:https://arxiv.org/abs/2305.18438 3. ニューラル確率言語モデル この研究論文は、次元の呪いによって生じる統計的言語モデリングの課題に取り組み、未見の単語の連続列に対して一般化する難しさに焦点を当てています。提案された解決策は、単語の分散表現を学習することで、各トレーニング文がモデルに対して意味的に隣接する文について情報を提供することを可能にします。単語の表現と単語列の確率関数を同時に学習することで、モデルは一般化性能を向上させることができます。 ニューラルネットワークを用いた実験結果は、最先端のn-gramモデルに比べて大幅な改善を示しており、長い文脈を活用するアプローチの効果を示しています。論文は、学習された分散表現によって次元の課題に対処するモデルの能力を強調しながら、潜在的な将来の改善の可能性についても言及しています。 論文はこちらで入手できます:https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf 4. BERT:言語理解のための深層双方向トランスフォーマーの事前学習 GenAIの研究論文では、未ラベル化されたテキストに対して双方向の事前学習を行うために設計された画期的な言語表現モデルであるBERTが紹介されています。従来のモデルとは異なり、BERTはすべてのレイヤーで左右の文脈に依存し、タスク固有の修正を最小限に抑えながら微調整を可能にします。BERTはさまざまな自然言語処理タスクで最先端の結果を実現し、その簡潔さと実証的なパワーを示しています。 この論文では既存の技術の制約に対処し、言語表現のための双方向の事前学習の重要性を強調しています。BERTのマスクされた言語モデル目的は、深い双方向のTransformer事前学習を促進し、タスク固有のアーキテクチャへの依存を減らし、11のNLPタスクの最先端の技術を前進させています。…
「40歳以上の方におすすめのクールなAIツール(2023年12月版)」
DeepSwap DeepSwapは、説得力のあるディープフェイクの動画や画像を作成したい人向けのAIベースのツールです。動画、写真、ミーム、古い映画、GIFなど、様々なコンテンツをリフェイスして簡単にコンテンツを作成することができます。このアプリにはコンテンツの制限がないため、ユーザーはどんなコンテンツのアップロードも行うことができます。また、初めて製品の定期購読ユーザーとなると、50%オフの特典を受けることができます。 Aragon Aragonを使用して、驚くべきプロフェッショナルなヘッドショットを手軽に撮影しましょう。最新のAI技術を活用して、自分自身の高品質なヘッドショットを瞬時に作成しましょう!写真スタジオの予約やドレスアップの手間を省いてください。写真の編集と修正が迅速に行われ、数日後ではなくすぐに受け取ることができます。次の仕事に就く際に優位性を持つ40枚のHD写真を受け取りましょう。 AdCreative.ai AdCreative.aiは、究極の人工知能ソリューションで広告とソーシャルメディアの効果を高めます。創造的な作業に費やす時間を減らし、数秒で生み出される高変換率の広告とソーシャルメディアの投稿に挨拶を告げましょう。AdCreative.aiを使って、成功を最大限に引き出し、努力を最小限に抑えましょう。 Hostinger AIウェブサイトビルダー Hostingerは、先進の人工知能エンジンの力を借りて、すべてのウェブサイトオーナーのための最高のAIウェブサイトビルダーを作成しています。このビルダーは、デザインプロセスをガイドし、レイアウト、カラースキーム、コンテンツ配置を提案し、ニーズに合わせてカスタマイズする自由を提供します。さまざまなデバイスに対応したレスポンシブデザインを維持しながら、細部のカスタマイズに取り組みましょう。 Otter AI Otter.AIは、人工知能を利用して、共有可能で検索可能でアクセス可能で安全なリアルタイムの会議の記録を提供します。音声を録音し、メモを書き、スライドを自動的にキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Notion Notionは、先進のAI技術を活用してユーザーベースを拡大しようとしています。最新の機能であるNotion AIは、ノートの要約、会議でのアクションアイテムの特定、テキストの作成と変更など、タスクをサポートする堅牢な生成AIツールです。Notion AIは、煩雑なタスクを自動化し、ユーザーに提案やテンプレートを提供することで、ワークフローを効率化し、ユーザーエクスペリエンスを簡素化・向上させます。 Codium AI 忙しい開発者向けの有意義なテストを生成します。CodiumAIを使用すると、IDE内で提案される非自明なテスト(そして自明なテストも!)を手に入れることができます。賢くコーディングし、価値をより多く創出し、プッシュする際に自信を持ちましょう。CodiumAIにより、開発者はテストとコードの分析に費やす時間を節約しながら、より迅速にイノベーションを実現します。あなたが意図した通りにコードを書きましょう。 Docktopus AI Docktopusは、100以上のカスタマイズ可能なテンプレートを備えたAIパワープレゼンテーションツールで、オンラインコンテンツの作成を簡素化します。数秒でプロのプレゼンテーションを作成できるようになりましょう。 SaneBox AIは未来ですが、SaneBoxでは12年以上にわたりAIを活用したメールの運営に成功し、平均ユーザーは週に3時間以上の受信トレイの管理時間を節約しています。…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.