Learn more about Search Results MarkTechPost - Page 22

デジタルアートの革新：ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能（AI）に興味を引かせています。問題は、DALL-EやStableDiffusionなどの既存のAIツールによって生成される単なるコラージュの模倣にとどまらず、本物のコラージュを自律的に作成できるAIエージェントを育成する必要がある点にあります。ソウル大学の研究者たちは、人間の芸術家が行う緻密な手順を再現して本物のコラージュを作成できるAIエージェントを育成するという使命に取り組んでいます。既存のAIツールはコラージュのような画像を生成できますが、真のコラージュ作成プロセスの本物さが求められます。ソウル大学の研究チームは、強化学習（RL）を活用してAIエージェントに「本物のコラージュ」の制作を学ばせる画期的な手法を導入しています。この手法は、ピクセルベースの手法とは異なり、有名な作品や他の画像を再現するために素材を引き裂き、貼り付けることを含みます。研究者たちは、既存のツールの制約から離れてRLに取り組み、AIエージェントにコラージュ作成の微妙な手順を理解し実行する能力を与えました。研究者の方法論は、RLモデルをキャンバスと対話させ、コラージュ作成プロセスの各ステップで判断を下すように訓練することを含みます。訓練中はランダムに割り当てられた画像をエージェントに与え、後の段階でどのターゲットや素材にも適応できるように学習します。多様な切り抜きや貼り付けのオプションを通じて、RLエージェントは材料を実験し、ターゲットの画像に似たコラージュを生成するのに最適なものを見つけます。報酬システムは時間とともに進化し、エージェントが作成したコラージュとターゲット画像との類似性を主に高めます。重要な要素の一つは、微分可能なコラージュ環境の開発であり、モデルベースのRLの適用を可能にします。この環境により、エージェントはコラージュ作成プロセスの動態を容易に追跡することができます。研究チームのモデルは、さまざまな画像やシナリオに対して優れた汎化性能を示しています。このアーキテクチャは自律性が特筆されます。そのため、学習に大量のサンプルデータやデモデータが必要なく、RLが提供する強力なデータフリーラーニングドメインを重視しています。評価にはユーザースタディとCLIPベースの評価が含まれます。その結果、他のピクセルベースの生成モデルと比較して優れたパフォーマンスを示しています。この手法は、人間の芸術的才能と創造性に似たAI生成のコラージュを実現しようとする重要な進展を表しています。まとめると、ソウル大学の研究チームは、強化学習を使用して本物のコラージュ作成のためのAIエージェントの訓練の課題に成功しました。既存のピクセルベースの手法を超える革新的なモデルは、本物のコラージュ作成における複雑な手順を自律的に学習し実行する能力をRLが提供する可能性を示しています。ユーザースタディと客観的評価によって検証されたこのアプローチは、人間の芸術の深みを反映したAI生成アートの大きな進歩を示しています。このブレークスルーにより、機械が視覚芸術の世界に有意義に貢献する可能性を秘めたAIによる芸術創造の新たな可能性が開かれました。 “`

このAIリサーチはGAIAを紹介します：一般AIの能力の次のマイルストーンを定義するベンチマーク

FAIR Meta、HuggingFace、AutoGPT、GenAI Metaの研究者は、論理思考や多様性のハンドリングなどの基本的なスキルを必要とする現実世界の問題を、人間のような応答能力を持つ高度なAIに対してテストする問題に取り組んでいます。GAIAの開発は、人間レベルの堅牢性を目指すことで、人工汎用知能（AGI）の達成を目指しています。 GAIAは、人間と高度なAIの両方にとって困難なタスクに重点を置くことで、現在のトレンドから外れています。クローズドシステムとは異なり、GAIAは現実のAIアシスタントの使用例を反映しています。GAIAは、品質を重視し、GPT-4とのプラグインを使用して人間の優位性を確認するため、慎重に選ばれたゲーム可能性のない質問を特集しています。それは、マルチステップの完了を確実にし、データの汚染を防ぐための質問設計を指南することを目指しています。 LLM（Language and Logic Models）は現在のベンチマークを超える性能を持つようになってきており、その能力を評価することはますます困難になっています。ただし、複雑なタスクに重点を置くにもかかわらず、LLMにとっての難易度レベルは必ずしも人間を挑戦するものではありません。この課題に対処するために、GAIAという新しいモデルが導入されました。GAIAは、LLMの評価の落とし穴を回避するために、実世界の問題に焦点を当てた一般的なAIアシスタントです。AIアシスタントの使用例を反映する人間が作成した質問によって実用的性を確保しています。NLPにおけるオープンエンドの生成を目指すことで、GAIAは評価ベンチマークを再定義し、次世代のAIシステムを進化させることを目指しています。 GAIAによって行われたベンチマークでは、実世界の質問に対する人間とGPT-4の間に大きな性能差があることが明らかになりました。人間は92％の成功率を達成しましたが、GPT-4はわずか15％のスコアでした。ただし、GAIAの評価では、LLMの正確性と使用例は、ツールAPIやWebアクセスを介して向上させることができることも示されています。これは、ヒューマン・AIモデルと次世代のAIシステムの進歩のための機会を提供します。全体として、このベンチマークはAIアシスタントの明確なランキングを提供し、一般的なAIアシスタントの性能向上のためにさらなる改善の必要性を浮き彫りにしています。まとめると、GAIAによる実世界の質問に対する一般的なAIアシスタントの評価のためのベンチマークでは、ヒューマンがプラグインと共にGPT-4を凌駕していることが示されました。それは概念的に単純で複雑な質問に対しても、人間と同様の堅牢性をAIシステムが示す必要性を強調しています。ベンチマークの方法論のシンプルさ、ゲーム性のなさ、解釈可能性は、人工汎用知能を実現するための効率的なツールとして役立ちます。さらに、注釈付きの質問とリーダーボードの公開は、NLPおよびそれ以上の領域におけるオープンエンドの生成評価の課題に対処することを目指しています。

メタAIの研究者がスタイルテーラリングを紹介する：高い視覚的品質を持つ特定のドメインにおいて潜在的な拡散モデル（LDMs）を調整するためのテキストからステッカーのレシピ

GenAI、Metaの研究者チームは、ステッカー画像生成のための潜在拡散モデル（LDM）の微調整方法であるStyle Tailoringを紹介し、視覚の品質向上、プロンプトの整列、シーンの多様性の向上を図っています。彼らの研究は、Emuのようなテキストから画像へのモデルを使い、フォトリアリスティックなモデルに頼っているとステッカー生成において整列や多様性において問題が生じることを発見しました。Style Tailoringには以下の要素が含まれます：ステッカー風の画像の微調整。整列とスタイルのためのヒューマンインザループのデータセット。トレードオフの対応。コンテンツとスタイル分布の同時フィッティング。この研究では、LDMを利用したテキストから画像の生成の進歩を振り返り、その特徴として、高品質の画像を自然言語の記述から生成できることを強調しています。テキストから画像のタスクのためにLDMを微調整する際のプロンプトとスタイルの整列のトレードオフに対応した前の研究には、特定のスタイルやユーザーが提供した画像に基づいて事前学習された拡散モデルを整列させるなど、さまざまな微調整戦略が含まれています。報酬重み付けされた尤度最大化およびヒューマンの選択に基づいてImageRewardモデルを訓練することで、プロンプトとファッションの整列の課題に取り組んでいます。Style Tailoringは、推論時の遅延なしでスタイルとテキストの信頼性のトレードオフをバランスさせることを目指しています。この研究では、拡散ベースのテキストから画像へのモデルの進歩について探求し、オプティマルな結果を得るための戦略的な順序での微調整の重要性を強調しています。視覚的に魅力的なステッカーを生成するために、Style Tailoringの導入は迅速な整列、視覚的多様性、技術的一致性を最適化することを目指しています。この手法には、弱く整列した画像とヒューマンインザループ、専門家インザループの段階を含んでいます。また、生成されたステッカーにおける透明性とシーンの多様性の重要性にも強調が置かれています。この手法は、ドメインの整列、プロンプトの改善のためのヒューマンインザループの整列、スタイルの向上のための専門家インザループの整列を含む、テキストからステッカーの生成のためのマルチステージの微調整手法を提案しています。ドメインの整列には弱く教師ありのステッカー風の画像が使用されます。提案されたStyle Tailoringの方法は、コンテンツとスタイルの分布の最適化を共同で行い、プロンプトとファッションの整列のバランスを取ることができます。評価には、視覚の品質、迅速な整列、スタイルの整列、生成されたステッカーのシーンの多様性などの人間の評価とメトリックが含まれます。 Style Tailoringの方法は、ステッカーの生成を大幅に向上させ、視覚の品質を14％、プロンプトの整列を16.2％、シーンの多様性を15.3％向上させ、ベースのEmuモデルに比べて優れた性能を発揮しています。さまざまなグラフィックスタイルにおいて汎化性能も備えています。ベースラインモデルとの比較により、この手法の有効性が示され、主要な評価メトリックでその優位性が確立されています。この研究では、ステッカー生成においてフォトリアリスティックなモデルの迅速なエンジニアリングに頼ることで、プロンプトの整列とシーンの多様性に制約が生じることを認識しています。Style tailoringはプロンプトとスタイルの整列を改善しますが、トレードオフのバランスを取ることは依然として難しいです。また、この研究はステッカーに焦点を当てており、他のドメインへの汎化能力の調査は限定されています。より大規模なモデルへの拡張性、網羅的な比較、データセットの制約、倫理的な考慮点は、今後の研究の注目すべき領域です。より充実した評価とテキストから画像生成における広範な応用と潜在的なバイアスについての議論が有益です。総括すると、Style TailoringはLDMによって生成されたステッカー画像の視覚的品質、プロンプトの整列、シーンの多様性を効果的に向上させます。ベースのEmuモデルと比較して、それぞれ14％、16.2％、15.3％の向上を実現しました。この手法は複数のスタイルに適用可能で、低遅延を維持します。最適な結果を得るために、戦略的な順序での微調整ステップの重要性を重視しています。

「アマゾンが「Q」という業務に合わせてカスタマイズできる生成AIチャットボットを発表」

Amazon Web Services（AWS）は最近、職場を変革するために設計された画期的な生成型AIパワードアシスタント「Amazon Q」を発表しました。 Amazon Qは、企業のデータと専門知識を利用して、回答を提供し、問題を解決し、コンテンツを生成し、アクションを促進する能力により注目されています。 Amazon Qの主な機能と機能には次のものがあります：ビジネスニーズへのカスタマイズ： Amazon Qは、組織の既存のアイデンティティ、役割、および権限に基づいて対話を個別化することができます。このカスタマイズにより、アシスタントの応答と提案が関連し、会社の特定のワークフローと情報システムに合致することが保証されます。セキュリティとプライバシー： Amazon Qの特筆すべき機能は、組み込まれているセキュリティとプライバシー対策です。これらの重要な機能を最初に組み込まない他の生成型AIソリューションとは異なり、Amazon Qはこれらの考慮事項を中心に設計されています。開発者およびITサポート：開発者やITプロフェッショナル向けに、Amazon Qは知識豊富なアシスタントの役割を果たし、トラブルシューティングからコードの最適化までのタスクをサポートします。 AWSの知識と経験に基づいてトレーニングされており、さまざまなAWSサービスやツールを介して洞察と解決策を提供します。機能開発とコード変換： Amazon Qは、新機能の開発と既存のコードの変換を支援し、アプリケーションの開発とメンテナンスを効率化します。開発者から必要とされる時間と労力を削減するため、開発プロセスの多くの側面を自動化することができます。ビジネスデータとシステムとの統合：アシスタントは、会社のデータとシステムに接続することができ、問題解決やコンテンツ生成のための個別の支援を提供します。この機能により、従業員は内部リソースを効果的に活用し、生成型AIを最大限に活用することができます。…

ディープマインドのこの機械学習研究は、動的な環境での高度な計画に対してベクトル量子化モデル（VQ）を導入しています

技術の絶え間ない進歩により、人間の脳力を模倣することで、人間と同じように思考し学習することができるようになった人工知能（AI）が成功を収めています。人工知能、機械学習（ML）、ディープラーニングの最近の進展により、医療、金融、教育などの多くの分野が改善されています。最近注目を集めている大規模言語モデルは、人間の模倣能力に優れています。質問応答やテキスト要約からコード生成やコード補完まで、これらのモデルはあらゆるタスクで優れた性能を発揮します。大規模言語モデル（LLMs）は、機械学習パラダイムである強化学習の概念を用いて微調整されます。強化学習では、エージェントは周囲との相互作用を通じて意思決定能力を身につけます。環境に対して時間の経過に伴う積み重ねられた報酬信号を最大化することを目指します。モデルベースの強化学習（RL）は最近進化し、計画を必要とするさまざまな状況で有望な結果を示しています。ただし、これらの成功例は、完全に観測可能で決定論的な状況に限定されています。最新の研究では、DeepMindの研究チームがベクトル量子化モデルを使用した新しい計画戦略を提案しています。このアプローチは、確率的で部分的に観察可能な環境で問題を解決することを目的としています。この手法では、状態VQVAE（ベクトル量子化変分オートエンコーダ）および遷移モデルを使用して、将来の観測値を離散的な潜在変数にエンコードします。これにより、確率的または部分的に観測可能なコンテキストに関連付けられる、将来の観測値および将来の行動に対する計画が可能になります。チームは、この手法で離散的なオートエンコーダを使用して、確率的な状況での行動のさまざまな可能な結果を捉えることができました。オートエンコーダは入力データを潜在的な表現にエンコードし、元の形式にデコードします。確率的なコンテキストにおけるエージェントの行動から生じる複数の代替的な結果の描写は、離散的なオートエンコーダの使用によって可能になりました。チームは、この種のコンテキストで計画を容易にするために、モンテカルロツリーサーチの確率的なバージョンを使用しました。計画と意思決定プロセスでの意思決定を行うための人気のある手法の1つはモンテカルロツリーサーチです。この場合、確率的バリアントは環境の不確実性を考慮に入れることができます。エージェントの行動に加えて、環境の可能な応答を示す離散的な潜在変数が計画プロセスに組み込まれています。これにより、部分的な観測可能性と確率性によってもたらされる複雑さを捉える包括的な手法を実現しています。チームは、この手法を評価し、確率的なチェスの解釈において、よく知られているRLシステムであるMuZeroのオフラインバリアントを上回ることを示しました。この視点では、対戦相手はシステムに不確実性をもたらし、周囲の重要な要素と見なされます。DeepMind Labによる効果的な実装により、提案された手法の拡張性が証明されました。このシナリオで観察された好ましい結果は、伝統的なボードゲームを超えた複雑でダイナミックなコンテキストの管理における手法の柔軟性と効果を示しています。結論として、このモデルベースの強化学習技術は、部分的に観測可能な確率的な環境における完全に観測可能な決定論的な環境の効果を拡大します。不確実な環境での生じる困難を洞察するための離散的なオートエンコーダと確率的なモンテカルロツリーサーチのバージョンは、実用的なアプリケーションにおけるパフォーマンスの向上をもたらします。

「GPTクローラーに会ってください：サイトをクロールし、知識ファイルを生成し、1つまたは複数のURLからカスタムGPTを作成できるAIツール」

ウェブページから知識を抽出してユニークなGPTモデルを構築できるとしたら、どれほど素晴らしいことでしょうか。あなた自身のURLから自分自身のカスタムGPTを作成する知識ファイルを生成するためにサイトをクロールすることのできる素晴らしいAIツールGPTクローラーに会ってください。 GPTクローラーは、非常に効率的かつ正確にウェブページから知識を抽出するために、巨大なテキストとコードのコーパスでトレーニングされた大規模な言語モデルGPTを使用します。 GPTクローラーは、通常のウェブクローラーとは異なり、情報のコンテキストと意味を解釈するために自然言語処理技術を使用しています。これにより、関係、事実、概念を含む重要なデータを認識し抽出することが可能であり、非構造化のウェブ素材を整理された知識に変換することができます。こちらはリサーチャーが開発した短いカスタムGPTで、Builder.ioの使用と統合に関する一般的な問題に対するアシストを目的としています。必要なのはビルダードキュメンテーションのURLのみです：https://chat.openai.com/g/g-kywiqipmR-builder-io-assistant 以下の4つの簡単なステップで始めることができます：リポジトリをクローンする。依存関係を設定する。クローラーをセットアップする。クローラーを起動する。コマンドと設定の手順はGitHubのページでご覧いただけます。 Dockerを使用してコンテナ内で実行するというような他のアプローチもあります。データをOpenAIにアップロードするこのプロジェクトのルートには、クロールによってoutput.jsonという名前のファイルが作成されます。ヘルパーやカスタムGPTを作成するためには、それをOpenAIにアップロードしてください。また、ここでカスタムGPTを作成してすぐに他の人と知識を共有することもできます。今すぐカスタムGPTを設計して利用するためには、プレミアムChatGPTサブスクリプションが必要です。さらに、作成した知識に合わせて個別のアシスタントを構築するために、こちらを使用することもできます。それを製品に組み入れることができます。さらなる進展へ GPTクローラーや同様のツールは、GPTテクノロジーの発展とともに情報抽出、カスタムGPTモデルの作成、個別のAIインタラクションにおいてますます重要になると予想されます。オーガナイズされた情報と非構造化のウェブ素材の間のギャップを埋める能力のために、知識管理、コンテンツ制作、AIパワードアプリケーションの可能性の世界が開かれます。疑いなく、GPTクローラーは情報との人間とのインタラクション方法を完全に変えることができるため、人工知能のゲームチェンジャーです。 The post Meet GPT Crawler: An…

「このAI論文は、超人的な数学システムの追求において、認知科学と機械学習の融合を探る」という記事です

MIT BCS、ケンブリッジ大学、アラン・チューリング研究所の研究者たちは、人工知能における自動化数学者の歴史的追求を探求し、LLMsの最近の影響を強調しています。認知科学の視点を主張し、人間または超人間レベルの数学システムを構築するために不可欠な古典的な研究および進行中の研究方向に重点を置いています。数学的AIシステムの進化を促進するために、認知科学者、AI研究者、および数学者の間での協力を奨励し、数学の最前線と人間の認知能力についての洞察を提供します。より洗練された数学的AIシステムの開発には、オープンな議論と学際的な取り組みが不可欠です。数学者の自動化の可能性を探る際には、認知科学の視点を考慮することが重要です。多様な人間の数学的能力を包括することは、適応性のある最先端の自動化数学者の創造に不可欠です。学習の自己説明の重要性とAIシステム設計への説明の組み込みには特に注意を払う必要があります。この研究では、大規模な言語モデルを使用した人間レベルの数学パフォーマンスの実現に向けたさまざまな個人やグループの貢献を評価し、課題を認識しています。研究チームは、AIにおける計算システムによって数学の人間レベルの熟練度を実現するという長年の目標に取り組んでいます。 LLMsが可能にした進歩にもかかわらず、数学パフォーマンスは他の領域に追いつく必要があります。彼らのアプローチは、静的なベンチマークを超える自動化された数学者を開発するための総合的な方法を提案しており、洞察力、判断力、理性、および問題解決の戦術を取り入れて数学の知識を推進します。数学の人間レベルのAIを実現するためには、認知科学者、AI研究者、および数学者の間での協力が重要です。認知科学の視点の重要性を強調することで、研究は数学の最前線を押し進める、適応性のある革新的な自動化された数学者の開発を描いています。この研究は具体的な結果を提供していませんが、認知科学とAIの交差点のさらなる探求を奨励し、高度な数学システムを作成するための洞察力の重要性を強調しています。柔軟性のある、最先端のAI数学者の創造が最終目標です。この共同研究は、認知科学、AI、および数学の洞察から導かれた、人間レベルでのパフォーマンスを発揮できるAI数学者の開発を目指しています。研究は、数学の熟練度に必要な基本的な知識と数感に焦点を当てています。 AIシステムの設計は、学習における自己説明の力によって指示を受けています。研究はまた、LLMsの認知的側面と新しい促進戦略についての反省を重視しています。学際的なアプローチを重視することで、計算基盤、問題解決、および数学学習における事前知識の役割を探求するためのディスカッションとツールの提供が行われています。

「脱拡散を用いたLLMsにおける強力なクロスモーダルインターフェースのための情報豊富なテキストの生成」

世界的な現象であるLLM（Large Language Model）製品の例として、ChatGPTの広範な採用が注目されています。LLMは自然言語会話を理解し、人間のクリエイティブなタスクを支援する上での利点について、多くの人々の間で一致が生まれています。しかし、この認識にもかかわらず、これらのテクノロジーの進化の先にはどのような展望があるのでしょうか？顕著な傾向として、画像、動画、音声など、さまざまなモダリティを理解するためのモデルへのシフトが示されています。優れた画像理解能力を持つマルチモーダルモデルであるGPT-4が最近発表され、オーディオ処理能力も付属しています。ディープラーニングの登場以来、クロスモーダルなインタフェースではしばしばディープエンベディングが使われてきました。これらのエンベディングは、自己符号化器としてトレーニングされた際に画像ピクセルを保持する能力を備えており、最近のモデル（CLIPなど）によって示されているように、意味のある内容を実現することもできます。音声とテキストの関係を考えると、テキストは直感的なクロスモーダルなインタフェースとして自然に機能し、しばしば見落とされがちです。音声オーディオをテキストに変換することにより、コンテンツは効果的に保持され、成熟したテキスト読み上げ技術を使用して音声オーディオを再構築することができます。さらに、転写されたテキストは必要なすべての意味情報を具備していると考えられています。類推して言えば、画像をテキストに同様に「転写」することができます。これは一般的には画像キャプションと呼ばれるプロセスです。ただし、典型的な画像キャプションは内容の保持には短所があり、精度を重視する傾向があります。画像キャプションは、幅広い視覚的な問い合わせに対応するのに苦労しています。画像キャプションの制約にもかかわらず、正確かつ包括的なテキストが実現可能である場合、直感的にも実用的にも有望な選択肢となります。実用的な観点からは、テキストはLLMにとってネイティブな入力ドメインとなります。テキストの使用により、ディープエンベディングとしばしば関連付けられる適応トレーニングの必要性がなくなります。トップパフォーマーのLLMのトレーニングと適応の手間が膨大なコストとなることを考えると、テキストのモジュラーデザインはより多くの可能性を開放します。では、どのようにして画像の正確で包括的なテキスト表現を達成できるのでしょうか？解決策は、古典的なオートエンコーディングのテクニックに頼ることにあります。従来のオートエンコーダーとは異なり、採用されたアプローチでは、デコーダーとして事前トレーニングされたテキストから画像への変換モデルを使用し、テキストを自然な潜在空間として扱います。エンコーダーは入力画像をテキストに変換するためにトレーニングされ、その後、テキストをテキストから画像への変換モデルに入力して元の入力を再構築します。再構築エラーを最小化することを目的としており、潜在的なテキストが入力画像の「ばらばらのキャプション」として組み合わされる場合でも、正確かつ包括的であることが求められます。最近のテキストから画像への生成モデルの進歩により、複雑な文章（10語以上）を非常に詳細なイメージに変換する能力が顕著に示されています。これにより、これらの生成モデルが複雑なテキストを視覚的に整合した出力に処理する能力が備わっていることが示されています。デコーダーとしてこのような生成的なテキストから画像モデルを組み込むことで、最適化されたエンコーダーはテキストの広範な潜在空間を探索し、生成モデルに内包された豊富なビジュアル-言語知識を明らかにします。これらの発見に支えられ、研究者たちはDe-Diffusionというオートエンコーダーを開発し、テキストを堅牢なクロスモーダルインタフェースとして利用しています。そのアーキテクチャの概要は以下のとおりです。 De-Diffusionにはエンコーダーとデコーダーが含まれています。エンコーダーは入力画像を説明的なテキストに変換するためにトレーニングされ、そのテキストは固定された事前トレーニング済みのテキストから画像への拡散デコーダーに供給され、元の入力を再構築します。提案された手法の実験により、De-Diffusionによって生成されたテキストは、画像の意味的な概念を巧みに捉えることができると確認され、テキストプロンプトとして使用する際にさまざまなビジョン-言語アプリケーションを実現できることが示されました。 De-Diffusionテキストは、さまざまなテキストから画像へのツールのプロンプトとして転用可能な汎化能力を持っています。再構築FIDを使用した定量的評価では、De-Diffusionテキストは、人間の注釈付きキャプションに比べて第三者のテキストから画像モデルへのプロンプトとして有意に優れています。さらに、De-Diffusionテキストは、数少ないタスク固有の例をプロンプトとして提供するだけで、オフシェルフのLLMを使用してオープンエンドのビジョン-言語タスクを実行することを容易にします。これらの結果は、De-Diffusionテキストが人間の解釈とさまざまなドメイン間のさまざまなオフシェルフモデルを効果的に結びつけることを示しています。これはDe-Diffusionの要約であり、入力画像を豊かな情報を持つテキストに変換する新しいAI技術です。このテキストはさまざまなモダリティ間で柔軟なインターフェースとして機能し、多様な音声、映像、言語のアプリケーションを可能にします。興味がある場合は、以下に引用されたリンクを参照して詳細を学ぶことができます。

このAI論文は『プライバシー保護MAE-Alignと呼ばれる新しい事前トレーニング戦略を提案し、合成データと人間除去された実データを効果的に組み合わせる』というものです

アクション認識は、ビデオシーケンスから人間の動作を識別・分類するタスクであり、コンピュータビジョンの中で非常に重要な分野です。しかし、このタスクは人々の画像を含む大規模なデータセットに依存しており、プライバシー、倫理、データ保護に関連する重要な課題を引き起こします。これらの問題は、個人属性に基づく個人の特定や、明示的な同意なしでのデータ収集によるものです。さらに、特定のグループが実行する特定の行動に関連するジェンダーや人種などのバイアスは、このようなデータセットで訓練されたモデルの正確性や公平性に影響を与える可能性があります。アクション認識では、大規模なビデオデータセット上での事前学習の進歩が画期的な役割を果たしています。しかし、この進歩には、倫理的な考慮事項、プライバシーの問題、人間イメージのデータセットに固有のバイアスなどの課題が付随しています。これらの課題に対処するための既存のアプローチには、顔のぼかし、ビデオのダウンサンプリング、または合成データの使用が含まれます。しかし、これらの取り組みにもかかわらず、プライバシーを保護する事前学習モデルが学んだ表現が、さまざまなアクション認識タスクへの転移性がどれほど良いかについて、さらなる分析が必要です。最先端のモデルは、バイアスや訓練データの多様性の欠如により、アクションの予測が正確でない場合があります。これらの課題に対処するためには、プライバシーに関する懸念を解決し、学習された表現の転移性を向上させる革新的なアプローチが求められます。プライバシーの懸念や人間中心のデータセットに対するバイアスによる課題を克服するために、最近行われたNeurIPS 2023という有名なカンファレンスで、画期的なアプローチが発表されました。この新たに発表された研究では、仮想人間を含む合成ビデオと人間のいない実世界のビデオを組み合わせてアクション認識モデルを事前学習する方法論が提案されています。この革新的な方法をプライバシー保護MAE-Align（PPMA）と呼びます。この方法は、合成データから時間的なダイナミクスを学習し、人間のいないビデオから文脈特徴を学習することで、個人データに関連するプライバシーや倫理上の懸念に対処します。PPMAは、学習された表現をさまざまなアクション認識タスクに転送する能力を大幅に向上させ、人間中心のデータを使用したモデルとの性能差を縮小します。具体的には、提案されるPPMA手法は以下の主要なステップに従います：プライバシー保護実データ：このプロセスは、Kineticsデータセットを使用し、HATフレームワークを使って人間を除去し、No-Human Kineticsデータセットを作成することから始まります。合成データ追加：SynAPTから合成ビデオを追加し、時間的特徴にフォーカスした仮想人間の動作を提供します。ダウンストリームの評価：6つの異なるタスクでモデルの転移性を評価します。 MAE-Align事前学習：この2段階の戦略は以下のようなものです：ステージ1：MAEトレーニング – ピクセル値の予測を行い、実世界の文脈特徴を学習します。ステージ2：教師ありアライメント – No-Human Kineticsと合成データを使用してアクションラベルに基づくトレーニングを行います。プライバシー保護MAE-Align（PPMA）：ステージ1（No-Human Kineticsで訓練されたMAE）とステージ2（No-Human Kineticsと合成データの両方を使用したアライメント）を組み合わせることで、PPMAはプライバシーを保護しながら頑健な表現学習を実現します。研究チームは、提案手法を評価するために実験を行いました。ImageNetの事前学習を行わずにゼロからトレーニングされたViT-Bモデルを使用し、MAEトレーニング（200エポック）の後に教師ありアライメント（50エポック）を行いました。6つの異なるタスクにおいて、PPMAは他のプライバシー保護手法に比べて、微調整（FT）では2.5％、線形プロービング（LP）では5％の性能向上を達成しました。高いシーン-オブジェクトバイアスのタスクでは多少効果が低かったものの、PPMAは人間中心の実データで訓練されたモデルとの性能差を大幅に縮小し、プライバシーを保護しながら頑健な表現を実現する可能性を示しました。削除実験はMAE事前学習が転移学習においてどれだけ効果的かを示し、さらなる研究の余地を開く文脈と時間的な特徴の組み合わせ、モデルの重みの平均化や動的な学習率の調整などの手法も表現を向上させる可能性を示しました。本記事では、アクション認識モデルに対する新しいプライバシー保護手法PPMAを紹介し、人間中心のデータセットに関連するプライバシー、倫理、バイアスの課題に取り組んでいます。合成データと人間不在の実世界データを活用することで、PPMAは学習された表現を異なるアクション認識タスクに効果的に転送し、人間中心のデータを使用したモデルとの性能差を縮小します。実験結果は、PPMAがプライバシーを保護しながらアクション認識を進化させ、従来のデータセットに関連する倫理的な懸念やバイアスを軽減する能力を示しています。

「GoogleとMITの研究者がStableRepを紹介：合成イメージによるAIトレーニングで機械学習を革新する」

研究者たちは、テキストから画像への変換モデルによって生成される合成画像の潜在能力を探ることで、視覚的な表現を学び、より効率的でバイアスの少ない機械学習の道を開拓しています。MITの研究者によるこの新しい研究では、Stable Diffusionに焦点を当て、合成画像上で自己教師ありの手法を訓練することで、生成モデルが適切に設定されている場合には、実際の画像と同等またはそれ以上の性能を発揮することを示しています。提案された手法であるStableRepは、同じテキストのプロンプトから生成される複数の画像を互いに正として扱うマルチポジティブな対比学習手法を導入しています。StableRepは完全に合成画像のみで訓練され、大規模データセットではSimCLRやCLIPなどの最先端の手法を上回り、言語の指導と組み合わせた場合には5000万枚の実際の画像で訓練されたCLIPよりも優れた精度を達成します。提案されたStableRepアプローチは、キャプション内の不変性を促進する表現学習の新しい方法を導入しています。同じテキストのプロンプトから生成される複数の画像を互いに正として扱うことで、StableRepはマルチポジティブな対比損失を使用します。その結果、StableRepはSimCLRやCLIPなどの他の自己教師あり手法を上回るImageNet上で顕著な線形精度を達成します。この手法の成功は、Stable Diffusionとテキストプロンプトといった要素を活用し、合成データのサンプリングに対してより大きな制御を行う能力に起因しています。また、生成モデルは訓練データを超えて一般化する可能性を持ち、実際のデータのみに比べてより豊かな合成訓練セットを提供します。まとめると、この研究はStable Diffusionによって生成された合成画像上で自己教師あり手法を訓練することの驚くべき効果を示しています。StableRepアプローチは、マルチポジティブな対比学習手法を備えることにより、実際の画像を使用した最先端の手法に比べて表現学習における優れた性能を示しています。この研究は、大規模かつ多様なデータセットの取得に対する費用効果の高い代替手法として、テキストから画像を生成する手法によるデータ収集の簡素化の可能性を提示しています。ただし、合成データにおける意味の不一致やバイアスの課題には取り組む必要があり、未整理のウェブデータを訓練に使用することの潜在的な影響も考慮する必要があります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us