Search Results A

「データサイエンスをマスターするための無料コース5選」

データサイエンスに参入したいですか？プログラミング、データ分析、機械学習を学ぶための無料コースで今すぐスキルアップしましょう

Data science

『基礎に戻る週間2 データベース、SQL、データ管理、統計の概念』

「VoAGIの『基礎に戻る』シリーズの第2週へようこそ今週は、データベース、SQL、データ管理、データサイエンスにおける統計的概念という、重要な世界に深く迫ります」

Data science

『ODSC West 2023 キーノート：デジタルマインドの倫理：異常な新たな領域』

世界が技術の成長とともにデジタル化されるにつれて、過去には考えられなかった新たな倫理的な問いが今では問われなければならないようになりましたODSCウエスト2023で、オックスフォード大学のスウェーデンの哲学者ニック・ボストロムは、彼の仕事で知られています...

クラスタリングアルゴリズムへの導入

クラスタリングアルゴリズムの完全な入門ガイド階層型、分割型、密度ベースのクラスタリングをカバーする10種類のクラスタリングアルゴリズムを扱います

「ベイズ推論を用いてデータセットとチャットしましょう」

「chatGPTのようなモデルの台頭により、より広い層の人々が自分自身のデータセットを分析し、“質問する”ことが可能になりましたこれは素晴らしいことですが、このようなアプローチには…」

中国の研究者がCogVLMを紹介：パワフルなオープンソースのビジュアル言語基礎モデル

ビジュアル言語モデルのモデルは強力かつ柔軟です。次に、トークン予測を使用して、画像キャプション、ビジュアルクエスチョンアンサリング、ビジュアルグラウンディング、さらにはセグメンテーションなど、さまざまなビジョンとクロスモダリティのタスクを作成できます。VLMがスケールアップされると、ダウンストリームアクティビティの強化とともに、インコンテキスト学習などの有用なスキルも現れます。 LLAMA2のような訓練済みの純粋な言語モデルと同じNLPパフォーマンスを持つVLMをスタートから訓練するのはより困難であり、既に大規模な言語モデルを導入すること自体が困難なタスクです。そのため、利用可能な事前訓練済みの言語モデルを使用してVLMを訓練するプロセスを見ることは合理的です。 BLIP-2に代表される広く使用されている浅いアラインメント技術は、トレーナブルなQ-Formerまたは線形層を使用して、凍結された事前訓練ビジョンエンコーダと言語モデルを接続し、画像特徴を言語モデルの入力埋め込み空間に変換します。このアプローチは収束速度が速いですが、PaLI-Xのように言語とビジョンのモジュールを同時に訓練すると同等のパフォーマンスは発揮されません。MiniGPT-4、LLAVA、およびVisualGLMなどの浅いアラインメント技術を使用して教えられたチャットスタイルのVLMの場合、ビジュアルの理解力の不足が幻覚として現れます。自然言語処理（NLP）の能力を損なうことなく、大規模言語モデルの視覚的な理解能力を向上させることは可能ですか？ Zhipu AIと清華大学の研究者は、これに「はい」と答えています。彼らはCogVLMを紹介しました。この強力なオープンソースのビジュアル言語基礎モデルは、言語とビジュアル情報の深い統合の不足が浅いアラインメントアプローチのパフォーマンス低下の主な理由であると考えています。この考えは、効果的な微調整の2つのアプローチを比較することから生まれました：p-tuningは入力のタスク接頭辞埋め込みを学習します。LoRAは各レイヤーのモデルの重みを調整するために低ランク行列を使用します。その結果、LoRAはより効果的かつ安定して機能します。浅いアラインメント技術の画像特徴は、p-tuningのプレフィックス埋め込みと同様に振る舞いますので、VLMでも同様の現象が起こる可能性があります。 p-tuningと浅いアラインメントの性能低下のさらなる具体的な原因は次のとおりです： 1. テキストトークンが言語モデルの凍結された重みを訓練します。テキスト領域は、ビジュアル特性に完全に一致するだけです。ビジュアル特性は、多層の変更に続く深層の重みの入力分布と一致しなくなるかもしれません。 2. たとえば画像キャプションの仕事の文章スタイルやキャプションの長さは、浅いアラインメントのアプローチでは事前トレーニング中にビジュアル特性にのみエンコードされる可能性があります。ビジュアル要素とコンテンツの一貫性を強めることができるでしょう。Qwen-VLやPaLIが使用する画像テキストの組み合わせトレーニングに言語モデルを適応させることは、1つの可能な対策です。ただし、これによりNLPが不要に損なわれ、画像ベースの詩の作成や画像の文脈の提供などのテキスト中心のアクティビティに影響を与える場合があります。PaLM-EによるVLMの事前トレーニング中に言語モデルを訓練可能にすると、厄介な忘却が起こり、8B言語モデルのNLGパフォーマンスが87.3%減少します。その代わりに、CogVLMは訓練可能なビジュアルエキスパートを使用して言語モデルを強化します。各レイヤーは、シーケンス内の画像特徴のための独自のQKV行列と、テキスト特性のためのMLP層を使用します。ビジュアルエキスパートは同じFLOPを維持しますが、パラメータの数を増やします。入力シーケンスに画像がない場合、すべてのパラメータが固定されているため、振る舞いは元の言語モデルと同じです。 NoCaps、Flicker30k、COCOなどの14の典型的なクロスモーダルベンチマークでは、Vicuna-7Bから訓練されたCogVLM-17Bは、最新技術または第2位の性能を達成しています。TDIUC、ScienceQAなどの3つのマルチチョイスデータセット、RefCOCO、RefCOCO+、RefCOCOg、Visual7Wなどのビジュアルグラウンディングデータセットが含まれていません。彼らはChatGLM-12Bから訓練されたCogVLM-28B-zhを商業用に中国語と英語の両方をサポートするために使用しました。過去の最も有名なVLM、例えばFlamingo、SimVLM、Coca、BEIT-3、GIT2、PaLI、PaLI-Xなどのほとんどはクローズドソースであるため、CogVLMのオープンソース化がビジュアルの理解の研究と産業応用に重大な影響を与えると予想されています。を日本語に翻訳すると、となります。

Learn more about Search Results A - Page 550

「データサイエンスをマスターするための無料コース5選」

『基礎に戻る週間2 データベース、SQL、データ管理、統計の概念』

『ODSC West 2023 キーノート：デジタルマインドの倫理：異常な新たな領域』

クラスタリングアルゴリズムへの導入

画像処理におけるノイズとは何ですか？ – 簡易解説

「ベイズ推論を用いてデータセットとチャットしましょう」

中国の研究者がCogVLMを紹介：パワフルなオープンソースのビジュアル言語基礎モデル

「生存分析を用いたイベント発生までの時間の探索」

哲学とデータサイエンス−データについて深く考える

「データエンジニアリングの本」

Find the right Blockchain Investment for you