Learn more about Search Results CLIP - Page 11
- You may be interested
- 「セールスとマーケティングのためのトッ...
- 大規模言語モデル:SBERT
- 上位10のLLM脆弱性
- 『UltraFastBERT:指数関数的に高速な言語...
- オープンソースツールがデータサイエンス...
- MITとFAIR Metaの研究者は、「組織化され...
- クラウドの証明 GeForce NOWがUltimate Ko...
- In English Building a Batch Data Pipeli...
- ミシガン大学の研究者は、AIの心理理論に...
- 「AWS 上の生成型 AI を使用して、放射線...
- ChatGPTを使ってより良いStackOverflowを...
- CMUの研究者がMultiModal Graph Learning...
- データサイエンスは良いキャリアですか?
- ランナーの疲労検知のための時間系列分類 ...
- 「ケーススタディ:ChatGPT Plusのコード...
LoftQをご紹介します:大規模言語モデルのためのLoRA(Fine-Tuning-Aware Quantization)
プリトレーニングされた言語モデル(PLM)の導入は、自然言語処理の分野において画期的な変革を示しています。プリトレーニングされたモデルは、自然言語理解(NLU)や自然言語生成(NLG)を含む幅広い言語タスクにおいて卓越した能力を示しています。これらのモデルは通常、数百万または数十億のパラメータを組み込んでおり、計算およびメモリの要件が大きくなっています。ただし、これらのモデルの計算およびメモリのニーズは、研究コミュニティに認識されているように、重要な課題を提起しています。 この論文で、著者たちは新しい量子化フレームワークであるLoRA-Fine-Tuning-aware Quantization (LoftQ)を紹介しています。このフレームワークは、量子化とLoRA微調整を必要とするプリトレーニングモデルに特化しています。このフレームワークは、元々の高精度のプリトレーニングウェイトを低ランク近似と組み合わせて近似的に表現することにより、効果的に機能します。 上記の画像は、QLoRAの異なるビットでのパフォーマンスを示しています。左:WikiText-2上のLLAMA-2-13bのQLoRA初期化。右:WikiText-2の言語モデリングタスクにおいてLLAMA-2-13bにQLoRAを適用。より小さい困惑度はより優れたパフォーマンスを示します。 量子化手法。LoftQがさまざまな量子化関数と互換性があることを示すために、2つの量子化手法を適用します: ・一様量子化は、古典的な量子化手法です。連続区間を均等に2N個に分割し、復元のために局所的な最大絶対値を格納します。 ・QLoRAで使用されるNF4とその2ビットバリアントNF2は、高精度の値がガウス分布に従っていると仮定し、これらの値を等しい確率を持つ離散スロットにマッピングします。 私たちは全モデルに2ビットおよび4ビットの量子化を行い、4ビットおよび2ビットレベルでそれぞれ25〜30%、15〜20%の圧縮率を達成しました。すべての実験はNVIDIA A100 GPUで実施されました。 彼らの量子化フレームワークの評価は、NLU、質問応答、要約、NLGを含むさまざまな下位タスクでの包括的な実験を通じて行われます。これらの実験の結果は、LoftQがすべての精度レベルにおいて常にQLoRAを上回っていることを示しています。たとえば、4ビット量子化では、XSumおよびCNN/DailyMailのRouge-1の改善がそれぞれ1.1と0.8であります。自然言語処理の分野が進歩し続けるにつれ、PLMの膨大な潜在能力とその実用的な展開との間のギャップを埋めるため、さらなる革新と最適化が期待されており、幅広いアプリケーションとユーザーに利益をもたらすでしょう。
注文事項:AIが逆順に苦戦する理由
「LLM(リップリップマスク)は世界中で人気が爆発的に広まっています日々進化しているように見えますが、制限はないのでしょうか?それはそうではありませんが、一部のケースでは失敗することもあります私たちは...」
「Chromaを使用してマルチモーダル検索アプリを作成する方法」
はじめに 複雑な脳が世界をどのように処理しているのか、あなたは考えたことがありますか? 脳の内部の仕組みは依然として謎ですが、私たちはそれを多目的なニューラルネットワークにたとえることができます。 電気化学的な信号のおかげで、それは様々なデータ型を処理します-音、映像、匂い、味、触覚。 AIが進化するにつれて、マルチモーダルモデルが登場し、検索能力が革新されています。 このイノベーションにより、検索の正確性と関連性が向上し、新たな可能性が開かれています。 マルチモーダル検索の魅力的な世界を発見しましょう。 学習目標 「AIにおけるマルチモーダリティ」という用語を理解する。 OpenAIのイメージテキストモデルCLIPについての洞察を得る。 ベクトルデータベースとベクトルインデックスの概要を理解する。 CLIPとChromaベクトルデータベースを使用して、Gradioインターフェースを使用した食品推薦システムを構築する。 マルチモーダル検索の他の現実世界での使用例を探索する。 この記事はData Science Blogathonの一部として公開されました。 AIにおけるマルチモーダリティとは何ですか? Googleで検索すると、マルチモードはプロセスに複数のモードや方法を関与させることを指すと分かります。 人工知能では、マルチモーダルモデルは異なるデータタイプを処理し理解することができるニューラルネットワークです。 たとえば、GPT-4やバードなどです。 これらは、テキストや画像を理解できるLLMです。 他の例としては、ビジュアルとセンサーデータを組み合わせて周囲の状況を理解するテスラの自動運転車、またはテキストの説明から画像を生成できるMidjourneyやDalleがあります。 コントラスト言語-画像事前トレーニング(CLIP) CLIPは、OpenAIが大量の画像テキストペアのデータセットでトレーニングしたオープンソースのマルチモーダルニューラルネットワークです。…
LoRa、QLoRA、およびQA-LoRa:低ランク行列分解を通じた大規模言語モデルの効率的な適応性
大型言語モデル(LLM)は、人間のようなテキストを理解し生成するという非常に優れた能力を持つ特異な領域を切り開いてきましたLLMのすごさは、膨大な数のパラメータを持っていることに起因していますこの巨大なスケールがパフォーマンスを引き上げる一方で、特定のモデルへの適応においては課題も生じます
予測分析がテクノロジーの意思決定を革命化している方法
「ビジネス環境での予測分析の仕組みを学びましょう」
ミニGPT-5:生成的なヴォケンによる交錯したビジョンと言語の生成
ここ数年、大規模言語モデル(LLM)は、自然言語処理(NLP)のブレークスルーにより、AI開発者から世界的に注目されていますこれらのモデルは、テキストの生成と理解の新たな基準を打ち立てていますしかし、テキストに対応する画像を一貫して生成することは依然として難しい課題ですこの問題に取り組むために、[…]
AIの環境負荷軽減:アプリを持続可能にするための7つの戦略
記事では、AIアプリケーションに関連する炭素排出量を正確に推定する方法について包括的な方法論を探求しています現在の世界において、環境への影響は重要な考慮事項であり、それについて説明しています
GoogleのAIがPaLI-3を紹介:10倍も大きい似たモデルと比べて、より小型、高速、かつ強力なビジョン言語モデル(VLM)です
ビジョン言語モデル(VLM)は、自然言語理解と画像認識の能力を組み合わせた高度な人工知能システムです。OpenAIのCLIPやGoogleのBigGANのように、VLMはテキストの説明を理解し、画像を解釈することができるため、コンピュータビジョン、コンテンツ生成、人間との対話など、さまざまな分野での応用が可能です。VLMは、視覚的なコンテキストでテキストを理解し生成する能力を示し、AIの分野で重要なテクノロジーとなっています。 Google Research、Google DeepMind、Google Cloudの研究者は、分類と対照的な目標で事前学習されたVision Transformer(ViT)モデルと比較し、特にSigLIPベースのPaLIがマルチモーダルタスクで優れた成果を上げていることを明らかにしました。研究者たちは、2兆パラメータのSigLIP画像エンコーダをスケーリングし、新たなマルチリンガルクロスモーダル検索の最先端を実現しました。彼らの研究は、分類スタイルのデータではなく、ウェブ規模の画像テキストデータでビジュアルエンコーダを事前学習することの利点を示しています。PaLI-Xのような大規模ビジョン言語モデルの分類事前学習の拡大による利点が明らかになっています。 彼らの研究では、VLMのスケーリングについて詳しく説明し、実用性と効率的な研究の重要性を強調しています。彼らは競争力のある結果を出すために、5兆パラメータのPaLI-3というモデルを導入しました。PaLI-3のトレーニングプロセスは、ウェブスケールのデータでの対照的な事前トレーニング、改善されたデータセットのミキシング、およびより高解像度のトレーニングを含んでいます。さらに、2兆パラメータのマルチリンガルな対照的なビジョンモデルも紹介されています。脱落研究は、特に位置特定や視覚に関連するテキスト理解のタスクにおいて、対照的な事前学習モデルの優越性を確認しています。 彼らのアプローチでは、事前学習済みのViTモデルを画像エンコーダとして使用し、特にViT-G14を使用しています。ViT-G14は約2兆パラメータを持ち、PaLI-3のビジョンのバックボーンとなります。対照的な事前トレーニングでは、画像とテキストを別々に埋め込み、それらの対応を分類します。ViTの出力からのビジュアルトークンは、テキストトークンと組み合わされます。これらの入力は、タスクに固有のプロンプト(VQAの質問など)によって駆動される、30億パラメータのUL2エンコーダ-デコーダ言語モデルによって処理されます。 PaLI-3は、特に位置特定と視覚的に配置されたテキストの理解において、より大きなモデルと比較して優れています。対照的な画像エンコーダの事前トレーニングを持つSigLIPベースのPaLIモデルは、新たなマルチリンガルクロスモーダル検索の最先端を確立しています。フルのPaLI-3モデルは、リファリング表現のセグメンテーションの最新技術を凌駕し、検出タスクのサブグループ全体で低いエラーレートを維持しています。対照的な事前トレーニングは、位置特定タスクにおいてより効果的です。PaLI-3のViT-G画像エンコーダは、複数の分類およびクロスモーダル検索タスクで優れています。 まとめると、彼らの研究は、SigLIPアプローチによる対照的な事前トレーニングの利点を強調し、高度で効率的なVLMを実現します。より小規模な5兆パラメータのSigLIPベースのPaLI-3モデルは、位置特定およびテキスト理解において大きなモデルよりも優れており、さまざまなマルチモーダルベンチマークで優れた成果を上げています。PaLI-3の画像エンコーダの対照的な事前トレーニングは、新たなマルチリンガルクロスモーダル検索の最先端を実現しています。彼らの研究は、画像エンコーダの事前トレーニング以外のVLMトレーニングのさまざまな側面について包括的な調査が必要であり、モデルのパフォーマンスをさらに向上させる必要性を強調しています。
ジェネラティブ人工知能を解明:拡散モデルと視覚コンピューティングの進化についての詳細な解説
コンピュータグラフィックスおよび3Dコンピュータビジョングループは、コンピュータ生成の視覚を組み合わせたり、写真からシーンの物理的特性を推測したりするために、数十年間物理的に現実的なモデルを作成するために取り組んできました。ビジュアルエフェクト、ゲーム、画像およびビデオ処理、コンピュータ支援設計、仮想および拡張現実、データ可視化、ロボティクス、自律型車両、リモートセンシングなどを含むいくつかの業界は、レンダリング、シミュレーション、ジオメトリ処理、フォトグラメトリを含むこの手法に基づいて構築されています。生成的人工知能(AI)の台頭により、視覚コンピューティングについての完全に新しい思考のあり方が現れました。生成的AIシステムにより、書き込みのプロンプトまたは高レベルの人間の指示のみを入力として、写真、映画、または3Dオブジェクトの作成および操作が可能になります。 これらのテクノロジーは、以前は専門的なトピックの専門家にしか利用できなかった視覚コンピューティングの多くの時間を要するタスクを自動化します。Stable Diffusion、Imagen、Midjourney、またはDALL-E 2およびDALL-E 3などの視覚コンピューティングの基礎モデルは、生成的AIの無類の能力を開放しました。これらのモデルは、何億ものテキストと画像のペアリングで訓練された後、すでに「それをすべて見てきた」と言えるほど膨大で、数十億の学習可能なパラメータを持っています。これらのモデルは、非常に強力なグラフィックス処理ユニット(GPU)のクラウドで訓練されました。 画像、ビデオ、および3Dオブジェクトを生成するために使用される畳み込みニューラルネットワーク(CNN)に基づく拡散モデルは、CLIPなどのトランスフォーマベースのアーキテクチャを使用して計算されたテキストを多様な形式で統合します。2D画像生成のための基礎モデルを他の高次元のドメイン(ビデオや3Dシーン作成など)で使用するために、学術界にはまだ大きな貢献をする余地があります。 主により具体的な種類のトレーニングデータの必要性がこれを引き起こします。たとえば、ウェブ上には高品質で多様な3Dオブジェクトや設定の例よりも、低品質で一般的な2D写真の例がはるかに多くあります。また、ビデオ、3Dシーン、または4Dマルチビューコンシステントシーン合成に必要なより大きな次元に合わせて2Dイメージ生成システムをスケーリングする方法がすぐには明らかではありません。現在のネットワークアーキテクチャは、(ラベルのない)大量のビデオデータがウェブ上で利用可能であっても、訓練するには時間がかかりすぎるか、適切な計算リソースがないため、しばしば非効率なのです。これにより、拡散モデルは推論時間が非常に遅くなります。これは、ネットワークの大きさと反復的な性質に起因します。 図1:視覚コンピューティングの拡散モデルの理論と応用については、この最新の論文でカバーされています。これらのモデルは、最近では2Dおよび3D/4Dでのイメージ、ビデオ、およびオブジェクトの生成と変更のための受け入れられた基準として取って代わりました。 未解決の問題にもかかわらず、視覚コンピューティングの拡散モデルの数は昨年急増しました(図1に示すような例があります)。複数の大学の研究者によって開発されたこの最新のレポート(STAR)の目的は、視覚コンピューティングでの拡散モデルの応用に焦点を当てた多くの最近の出版物の整理されたレビューを提供し、拡散モデルの原理を教え、未解決の問題を特定することです。
なぜ便利なソフトウェアを書くのはいつも難しいのか
「歴史は、長く有益なソフトウェアを書くことがいかに困難かを教えてくれますそれはコードとはほとんど関係がありませんので、AIはそれを修正することはできません」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.