Learn more about Search Results CLIP - Page 13

「MindGPTとは、fMRI信号から察知された視覚刺激を自然言語に解釈する非侵襲的な神経デコーダーです」

他の人とコミュニケーションを取るために、人間は外界で見たことを説明するために限られた量の言葉しか使うことができません。この適応性のある認知能力は、言語を介して伝達される意味情報が、特に視覚に関する異なる形態の感覚入力と複雑に絡み合っていることを示しています。神経科学の研究によると、アモーダルな意味表現は視覚と言語の経験の間で共有されています。例えば、単語「猫」は猫のイメージに匹敵する概念情報を生成します。ただし、概念的なカテゴリとV&Lモダリティ間の意味関係や滑らかな遷移は、時には計算モデルを使用して数量化または実現されることがあります。 最近の神経デコーダの研究では、機能的磁気共鳴イメージングで捉えられた視覚皮質の表現から視覚コンテンツを再構築することができることが示されています。しかし、再構築された画像のぼやけや意味のなさや不一致は依然として存在します。一方、神経科学のコミュニティは、脳の視覚野がV&L形式の意味的なアイデアにアクセスできるという主張を裏付ける強力な証拠を提供しています。その結果、私たちはあなたが口頭で知覚することを翻訳するための新しい「心の読み取り」装置の開発を推進する必要があります。このような取り組みは、クロスモーダルな意味統合メカニズムを明らかにする上で相当な科学的価値を持ち、補完的または修復的な脳-コンピュータインタフェースに有用な情報を提供するかもしれません。 浙江大学の著者らは、MindGPTという非侵襲的な神経言語デコーダを紹介しています。これは、静的な視覚刺激によって生成される血液酸素レベル依存パターンを適切な単語の列に変換するものです(図1参照)。彼らの知識によれば、Tangらは非侵襲的言語デコーダの作成を試みた最初の研究者であり、非侵襲的言語デコーダに沈黙の映画の意味を回復する能力すらも備えています。しかし、fMRIの時間的解像度が低いため、候補の単語と誘発された脳の反応との間の微細な意味的意義を予測するためには、多くのfMRIデータを収集する必要があります。 図1: 左:MindGPTの非侵襲的言語デコーダの全体的なパイプライン。右:私たちのMindGPT再構築、SMALLCAP画像キャプションモデル、VQ-fMRI、MinD-Vis視覚デコーディング手法の結果。 この研究では、単一の画像などの静的な視覚感覚体験によってアモーダルな言語マップがどの程度意味的にラベル付けされるかに焦点を当てています。彼らのMindGPTは2つの重要な要件を満たすために構築されています:(i) 脳活動から視覚的な意味表現を抽出できる必要があり、(ii) 学習されたVSRを適切に構築された単語の列に変換する方法を含まなければなりません。彼らはまず、大規模な言語モデルであるGPT-2をテキスト生成器として使用することを決定しました。このモデルはWebTextと呼ばれる数百万のウェブサイトのデータセットで事前学習されており、文のパターンを適切な形式の自然な英語に似せることができます。 その後、脳-視覚言語表現間の意味のギャップを閉じるために、彼らはシンプルで効果的なCLIPガイドのfMRIエンコーダと交差注意層を採用しました。このニューラルデコーディングの形式は、学習可能なパラメータ数が非常に少なく、軽量かつ効率的です。この研究では、MindGPTが信頼性の高いV&L意味変換のための脳の視覚野と機械の間のリンクとして機能する可能性を示しています。彼らの技術は一般化可能な脳の意味的表現とB & V & Lモダリティの包括的な理解を学習し、観察された入力の視覚的な意味を正確に捉えた言語を生成します。 さらに、彼らは非常に少量のfMRI画像トレーニングデータでも、熟練したMindGPTが刺激画像の視覚的な手がかりを記録する能力を持つように見えることを発見しました。これにより、視覚特徴が言語の意味にどのように貢献するかを調査することが容易になりました。また、視覚化ツールの助けを借りて、MindGPTによって教えられた潜在的な脳の表現が、低レベルの視覚的側面と高レベルの意味的アイデアの両方で有益な局所性特性を持っていることがわかり、神経科学の一部の研究結果と一致しています。全体として、MindGPTは以前の研究とは対照的に、fMRIの時間的解像度を考慮せずに脳のVC内のV&L表現間の意味的な関係を推測することが可能であることが明らかになりました。

JAXを使用してRL環境をベクトル化・並列化する:光の速さでのQ学習⚡

前回の話では、グリッドワールドのコンテキストで、特にQ学習に焦点を当て、時間差学習を紹介しましたこの実装は、デモンストレーションの目的を果たすために役立ちましたが、...

「機械学習入門:その多様な形式を探索する」

最近、機械学習はどこにでもありますねもしもあなたがここにいるなら、機械学習が一体何なのかに興味を持ったのかもしれませんね!では、簡単に説明させていただきましょう機械学習とは、高度なレベルで言えば...

「テキストを科学的なベクトルグラフィックスに変換することはできるのか?このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」

テキストから画像の生成の最新の進歩により、直感的な自然言語記述から詳細なグラフィックの作成が可能になりました。Stable DiffusionやDALL-Eなどのモデルを使用すると、頻繁に人間によって作成された実際の画像や芸術作品に似た結果が得られます。しかし、これらのモデルは科学的な図においては最良のラスター画像を生成しません。科学的な図は複雑な概念の説明や重要な発見の伝達を研究者が支援するために重要です。ラスターグラフィックスは高い幾何学的精度と小さな文字でも読めるテキストが必要ですから、これらの領域で改善する必要があります。その結果、データを幾何学的な形状に分割し、テキストの検索が可能であり、ファイルサイズが小さくなることが多いベクトルグラフィックスが、多くの学術会議で推奨されています。 自動ベクトルグラフィックスの作成の分野も拡大していますが、利用可能な手法にはそれぞれ欠点があります。主に拡張性のあるベクトルグラフィックス(SVG)形式の低レベルのパスコンポーネントを生成しますが、正確な幾何学的関係を保持せず、単一のアイコンや書体の文字などの複雑度が低い出力を生成することが多いです。ビーレフェルト大学、ハンブルク大学、マンハイム大学とビーレフェルト大学の研究者たちは、下位レベルのベクトルグラフィックス形式から抽象化を行うビジュアル言語の使用方法を調査し、これらの制限を解決するために高レベルの構造を提供します。 言語モデルはこれらの言語を習得し、それらを使用して単純なタスクを達成することができることを示唆しています。しかし、科学的な図をどの程度生成できるかはまだ判明していません。この研究では、その表現力と科学への重視から、GPT-4やClaude 2などの汎用の言語モデルと比較して、この作業でTikZというグラフィックス言語に焦点を当てています。テキストから画像の生成と同様に、言語モデルが画像キャプションに基づいて科学的な図を自動生成し、TikZのニュアンスを捉えることができるかどうかを知りたいと考えています。これにより、生産性が向上し、包括性が促進されます(社会科学者などのプログラミングのような言語に慣れていない学者にも助けとなる)。また、カスタマイズされたTikZの例を生成することで、教育の改善にもつながる可能性があります。TEX Stack Exchangeはこの使用例の一つであり、おおよそ10%の問い合わせがTikZに関するものです。 彼らの主な貢献は以下の通りです: (i) AutomaTikZプロジェクトの一環として、約120,000のTikZの図とキャプションのペアを持つDaTikZが開発され、これは最初の大規模なTikZデータセットとなります。 (ii) 大規模言語モデル(LLM)LLaMAがDaTikZに合わせて調整され、そのパフォーマンスが汎用のLLM、特にGPT-4とClaude 2と比較されます。自動と人間による評価により、調整されたLLaMAによって生成される科学的な図は人間によって作成された図により類似していることがわかりました。 (iii) 彼らはLLaMAを拡張したCLiMAに取り組んでおり、これにはマルチモーダルのCLIP埋め込みが含まれています。この改善により、CLiMAはより簡単に入力キャプションを理解することができ、テキストと画像の整合性を高めます。さらに、写真を追加の入力として使用することが可能になり、さらなる速度向上が図れます。 (iv) また、すべてのモデルが独自の結果を提供し、メモリ関連の問題はほとんどありません。LLaMAとCLiMAは、入力キャプションを出力画像へ過度に複製することでテキストと画像の類似性を最大化する退化した解を頻繁に提供する一方、GPT-4とClaude 2はよりシンプルな出力を生成することがよくあります。

カルテックとETHチューリッヒの研究者が画期的な拡散モデルを導入:最先端のビジュアルタスクと異なるドメインへの適応を実現するためのテキストキャプションの活用

拡散モデルは、テキストから画像の生成を革新し、古典的な機械学習のタスクにおいて新たな可能性を解き放っています。しかし、特にビジョンのタスクにおいて、彼らの知覚的な知識を効果的に利用することは依然として困難です。カリフォルニア工科大学、ETHチューリッヒ、スイスデータサイエンスセンターの研究者は、自動生成されたキャプションを使用してテキストと画像の整合性を高め、相互注意マップを跨いだ知覚パフォーマンスの大幅な向上を実現するアプローチを探求しています。彼らの手法は、拡散ベースの意味セグメンテーションや深度推定において新しい基準を設定し、オブジェクト検出やセグメンテーションのタスクでも顕著な結果を示しています。 研究者は、拡散モデルをテキストから画像の生成に使用し、ビジョンのタスクに応用することを探求しています。彼らの研究は、テキストと画像の整合性や自動生成されたキャプションの利用が知覚的なパフォーマンス向上にどのような影響を与えるかを調査しています。また、一般的なプロンプト、テキストドメインの整列、潜在的なスケーリング、キャプションの長さの利点についても探求しています。さらに、CLIPを使用した改良されたクラス固有のテキスト表現アプローチを提案しています。彼らの研究は、拡散ベースの意味セグメンテーション、深度推定、およびさまざまなデータセットにおけるオブジェクト検出の新たな基準を設定しています。 拡散モデルは、画像生成において優れた性能を発揮し、意味セグメンテーションや深度推定などの区別的なビジョンのタスクにも期待が持てます。しかし、コントラスティブモデルとは異なり、テキストとの因果関係を持っており、テキストと画像の整合性にどのような影響を与えるかという疑問が生じます。彼らの研究は、この関係を探求し、整合しないテキストプロンプトがパフォーマンスを妨げる可能性があることを示唆しています。彼らは、自動生成されたキャプションを導入してテキストと画像の整合性を高め、知覚的なパフォーマンスを向上させています。一般的なプロンプトとテキストターゲットドメインの整列は、クロスドメインのビジョンタスクにおいて調査され、さまざまな知覚タスクで最新の結果を達成しています。 彼らの手法は、最初は生成的であり、拡散モデルをテキストから画像の合成と視覚タスクに使用しています。Stable Diffusionモデルは、エンコーダ、条件付きノイズ除去オートエンコーダ、言語エンコーダ、デコーダの4つのネットワークから構成されています。トレーニングは、イメージとキャプションのデータセットを活用した前向きと学習済み逆プロセスを含みます。クロスアテンションメカニズムは知覚的なパフォーマンスを向上させます。さまざまなデータセットでの実験により、拡散ベースの知覚タスクにおいて最新の結果を得ることができます。 彼らの手法は、ADE20Kデータセットにおける拡散ベースの意味セグメンテーションの最新結果を超え、NYUv2データセットにおける深度推定の最新結果を達成します。また、Watercolor 2Kデータセットでのオブジェクト検出において最新結果、Dark Zurich-valおよびNighttime Drivingデータセットでのセグメンテーションにおいても最新結果を実現します。キャプションの修正技術は、さまざまなデータセットでのパフォーマンスを向上させ、クラス固有のテキスト表現にCLIPを使用することでクロスアテンションマップも改善します。彼らの研究は、ビジョンタスクのパフォーマンスを高めるためにテキストと画像の特定領域の整合性を強調し、その重要性を明確に示しています。 まとめると、彼らの研究は、拡散ベースの知覚モデルにおいてテキストと画像の整合性を高め、さまざまなビジョンタスクでのパフォーマンスを向上させる方法を紹介しています。この手法は、自動生成されたキャプションを活用した意味セグメンテーションや深度推定などのタスクで結果を実現しています。彼らの手法は、クロスドメインのシナリオにおいてもその利点を拡大し、適応性を示しています。テキストプロンプトと画像の整合性を整えることの重要性を強調し、モデルの個別化技術を通じたさらなる改良の可能性について貴重な示唆を提供しています。拡散モデルにおけるテキストと画像の相互作用を最適化するための貴重な洞察を提供しています。

「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」

コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介する包括的なフレームワークを確立するために、数多くの講演論文が議論されました。この時期には、問題に関連する大量のデータでモデルを事前トレーニングし、その後、同じ問題タイプに関連するさまざまな実世界のシナリオにそれらを転送するアプローチが一般的でした。これには、しばしばゼロショットまたはフューショットテクニックが使用されます。 最近のマイクロソフトの研究では、ビジョンとビジョン言語の能力を持つ多モーダルな基礎モデルの歴史と開発について、詳細な調査結果を提供しています。特に、専門的なヘルパーから汎用的なヘルパーへの移行を重点的に取り上げています。 彼らの論文によると、主に以下の3つの主要な教育戦略のカテゴリが議論されています。 ラベル付き教育: ラベル付き教育は、モデルをトレーニングするために以前にラベル付けされた例を使用します。ImageNetなどのデータセットを使用することで、この方法の効果を証明しています。インターネット、画像、人間が作成したラベルから大量のノイズのあるデータセットにアクセスできます。 「言語監督」とも呼ばれるこの戦略は、最も頻繁に画像 – テキストのペアで無監督のテキスト信号を使用します。CLIPとALIGNは、コントラスティブロスを使用して画像 – テキストのペアを比較するための事前トレーニングモデルの例です。 画像のみの自己教育学習: この技術は、視覚情報のみを監督信号のソースとしています。マスク画像モデリング、非コントラスティブ、およびコントラストベースの学習は、いずれも有効なオプションです。 研究者は、画像キャプショニング、ビジュアル質問応答、領域レベルの基礎トレーニング、セグメンテーションのためのピクセルレベルの基礎トレーニングなど、視覚理解に対するいくつかのアプローチがどのように統合されて最良の結果を得ることができるかを調査しました。 マルチモーダル基礎モデル テキストと画像などの複数のモダリティで提示されるデータを理解し解釈する能力が、マルチモーダルの基礎モデルの特徴です。これによって、大量のデータ収集と合成が必要なさまざまなタスクが可能になります。重要な多モーダルの概念的フレームワークには、以下が含まれます。 CLIP(コントラスティブ言語画像事前トレーニング)は、共通の画像とテキストの埋め込み空間を発見する革新的な技術です。画像テキストの検索やゼロショットの分類などが可能です。 BEiT(ビジョンのBERT)は、視覚ドメインでのBERTのマスク画像モデリング技術を適応させています。マスク画像のトークンを予測することで、画像変換モデルは他のタスクに進むことができます。 CoCa(コントラスティブおよびキャプショニング事前トレーニング)は、対照的な学習とキャプション損失を組み合わせて画像エンコーダを事前トレーニングするための手法です。パラフレーズ画像キャプショニングシステムのおかげで、多モーダルタスクの完了を観察することが現実的になりました。 UniCL(統一コントラスティブ学習)は、CLIPのコントラスティブ学習を画像ラベルデータに拡張することで、画像テキストと画像ラベルのペアに対する統一コントラスティブ事前トレーニングを可能にします。 MVP(マスク画像モデリングビジョン事前トレーニング)は、マスク画像と高レベルの特徴目標を使用してビジョントランスフォーマーを事前トレーニングする方法です。 MIMの精度を向上させるため、EVA(Vision-Text Alignmentの活用)は、CLIPなどのモデルからの画像特徴をターゲット特徴として使用します。 BEiTv2は、DINOのような自己蒸留損失を取り入れることで、学習中にグローバルな視覚表現の獲得を促進するようにBEiTを改良します。 これらのマルチモーダルの基礎モデルにより、コンピュータビジョンと自然言語処理のアプリケーションは、洞察力と処理の向上に大いに恩恵を受けています。…

このAI研究は「カンディンスキー1」という新しい手法を発表しました:COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成

“` 近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につながっています。拡散ベースのモデルを含む様々な生成アーキテクチャが、生成される画像の品質と多様性の向上において重要な役割を果たしています。この記事では、33億のパラメータを持つ強力なモデル、Kandinsky1の原理、特徴、能力を探求し、測定可能な画像生成品質の最高レベルのパフォーマンスを強調します。 テキストから画像を生成するモデルは、内容レベルのアーティファクトを持つ自己回帰的なアプローチからDALL-E 2やImagenといった拡散モデルへと進化しました。これらの拡散モデルは、ピクセルレベルと潜在レベルのカテゴリに分類され、信頼性と多様性においてGANを上回る画像生成の能力を持っています。これらのモデルは敵対的なトレーニングなしでテキスト条件を統合し、GLIDEやeDiff-Iなどのモデルによって示されるように、低解像度の画像を生成し、スーパーレゾリューション拡散モデルを使用して拡大します。これらの進展によってテキストから画像を生成する技術は大きく変容しました。 AIRI、Skoltech、およびSber AIの研究者らは、Kandinskyという新しいテキストから画像を生成するモデルを紹介しました。このモデルは、潜在拡散手法と画像事前モデルの組み合わせを特長としています。Kandinskyは、画像オートエンコーダーコンポーネントとして改良されたMoVQの実装を採用し、また、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために画像事前モデルを別途トレーニングします。彼らの手法は、多様な生成モードをサポートし、モデルのソースコードとチェックポイントをリリースするユーザーフレンドリーなデモシステムを提供しています。 Kandinskyは、画像事前モデルと潜在拡散技術を組み合わせたテキストから画像を合成するための潜在拡散アーキテクチャを導入しています。CLIPとXLMRのテキスト埋め込みを使用して、拡散と線形マッピングを組み込んだ画像事前アプローチを採用しています。モデルは、テキストのエンコーディング、埋め込みマッピング(画像事前)、および潜在拡散の3つの主要なステップで構成されます。フルデータセットの統計に基づく視覚埋め込みの要素ごとの正規化は実装されており、拡散プロセスの収束を早めます。 Kandinskyのアーキテクチャは、256×256の解像度でCOCO-30Kバリデーションデータセットにおいて8.03の素晴らしいFIDスコアを達成するなど、テキストから画像を生成する際に強力なパフォーマンスを発揮します。また、線形事前構成は最も優れたFIDスコアを示し、視覚的およびテキストの埋め込み間に潜在的な線形関係が存在する可能性を示しています。彼らのモデルは、一部の猫の画像のサブセットで「猫事前」をトレーニングすることによっても、優れた画像生成能力を発揮します。全体的に、Kandinskyはテキストから画像を生成する最先端モデルと競合しています。 Kandinskyは、拡散ベースのシステムとして、画像生成および処理のタスクにおける最先端のパフォーマーとして浮上しています。彼らの研究は、線形事前が有望であり、視覚的およびテキストの埋め込み間に線形な関係が存在する可能性を示しています。ウェブアプリやTelegramボットなどのユーザーフレンドリーなインターフェースはアクセシビリティを向上させます。今後の研究の方向性としては、高度な画像エンコーダの活用、UNetアーキテクチャの向上、テキストプロンプトの改善、より高解像度の画像の生成、ローカル編集や物理ベースのコントロールなどの機能の探索が挙げられます。研究者らは、望ましくない出力の軽減のためにリアルタイムのモデレーションや頑健な分類器の導入が必要であるとの課題にも言及しています。 “`

このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです

“`html 最近、テキストの説明から画像を作成したり、テキストと画像を組み合わせて新しい画像を生成したりすることにおいて、大きな進歩がありました。しかし、未開拓の領域として、一つの舞台や複数の物体や人物を含むシーンの説明から画像を生成するというものがあります。Microsoft Research、ニューヨーク大学、ウォータールー大学の研究チームが、この問題に取り組むためにマルチモーダルLLMを活用したモデルであるKOSMOS-Gを提案しました。 KOSMOS-Gは、複雑なテキストと複数の画像の組み合わせから詳細な画像を生成することができます。例えそれがこれまでに見たことのない組み合わせであっても、問題ありません。これまでにないモデルであり、ある説明に基づいてさまざまな物体や事物が写っている画像を生成することができます。KOSMOS-Gは、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術を使用するための新しい可能性を開拓します。 KOSMOS-Gは、テキストと画像から画像を生成するための賢いアプローチを使用しています。まず、テキストと画像を理解することができるマルチモーダルLLMをトレーニングします。次に、テキストを理解することに優れたCLIPテキストエンコーダと整列させます。 KOSMOS-Gにテキストとセグメント化された画像のキャプションを与えると、指示に合った説明を持つ画像を生成するためにトレーニングされます。事前にトレーニングした画像デコーダを使用し、さまざまな状況で正確な画像を生成するために学んだ内容を活用します。 KOSMOS-Gは、指示と入力データに基づいて画像を生成することができます。トレーニングには3つのステージがあります。第一ステージでは、モデルはマルチモーダルコーパスに対してプリトレーニングされます。第二ステージでは、AlignerNetがKOSMOS-Gの出力空間をU-Netの入力空間にCLIPの指示によって整列させるようにトレーニングされます。第三ステージでは、KOSMOS-Gはキュレーションされたデータに基づいた構成生成タスクによって微調整されます。ステージ1では、MLLMのみがトレーニングされます。ステージ2では、MLLMは固定されたままでAlignerNetがトレーニングされます。ステージ3では、AlignerNetとMLLMの両方が共同でトレーニングされます。画像デコーダはすべてのステージで固定されたままです。 KOSMOS-Gは、さまざまな設定でのゼロショット画像生成において本当に優れています。意味を成し、良く見え、異なるカスタマイズが可能な画像を作成することができます。文脈を変えたり、特定のスタイルを加えたり、変更を加えたり、画像に追加の詳細を追加するなどの機能があります。KOSMOS-Gはゼロショット設定でのマルチエンティティVL2Iを実現した最初のモデルです。 KOSMOS-Gは、画像生成システムにおいてCLIPの代わりに簡単に使用することができます。これにより、以前は不可能だったアプリケーションへの新しい可能性が広がります。CLIPの基盤を築くことで、KOSMOS-Gはテキストに基づく画像生成からテキストと視覚情報の組み合わせに基づく画像生成への移行を進め、多くの革新的なアプリケーションのチャンスを提供することが期待されています。 要約すると、KOSMOS-Gはテキストと複数の画像から詳細な画像を生成するモデルです。そのトレーニングでは、「指示を行う前に整列する」という独自の戦略が使用されています。KOSMOS-Gは個々のオブジェクトの画像生成に優れており、複数のオブジェクトに対しても同様のことを行う最初のモデルです。また、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術と組み合わせて使用できます。要するに、KOSMOS-Gは画像生成において言語のような画像を作成するための初歩的なステップです。 “`

「AWS上でクラウドネイティブなフェデレーテッドラーニングアーキテクチャを再発明する」

このブログでは、AWS上でクラウドネイティブなFLアーキテクチャを構築する方法を学びますAWSのインフラストラクチャとコード(IaC)ツールを使用することで、簡単にFLアーキテクチャを展開することができますまた、クラウドネイティブアーキテクチャは、確かなセキュリティと運用の優れたAWSサービスのさまざまな利点を最大限に活用し、FLの開発を簡素化します

新しい – Amazon SageMaker Canvasで利用可能なノーコード生成AI機能が追加されました

2021年に発売されたAmazon SageMaker Canvasは、ビジネスアナリストや市民データサイエンティストが使いやすいビジュアルなポイントアンドクリックサービスで、準備された機械学習(ML)モデルを使用し、コードを書く必要なく正確な予測を行うカスタムMLモデルを構築することができます準備されたモデルにより、テキスト、画像、ドキュメントから直接的な気付きを得ることができます

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us