Learn more about Search Results この - Page 17

このAI研究では、SMPLer-Xという名前のモデルを提案していますこれは一般的な基礎モデルであり、モノクル入力から3D/4D人体のモーションキャプチャを行います

アニメーション、ゲーム、ファッションの分野は、単眼写真や動画からの表現的な人体の姿勢と形状推定（EHPS）の画期的な分野から恩恵を受けることがあります。複雑な人体解剖学、顔、手を正確に表現するために、この作業では通常、パラメトリックな人体モデル（SMPL-Xなど）が使用されます。最近の数年間では、ユニークなデータセットが流入し、環境のキャプチャ、位置分布、体の可視性、カメラの視点などの研究の機会が増えました。しかし、最先端のアプローチはまだこれらのデータセットの一部に制約があり、さまざまなシナリオでパフォーマンスのボトルネックとなり、未開拓の地域への一般化を妨げています。 EHPSの信頼性のある、国際的に適用可能なモデルを構築するために、この研究では利用可能なデータセットを徹底的に分析することを目標としています。これを行うために、彼らは32のデータセットを使用したEHPSの最初のシステムベンチマークを作成し、そのパフォーマンスを4つの主要基準に対して評価しました。これにより、ベンチマーク間の重要な不整合が明らかになり、全体的なEHPSの複雑さが強調され、シナリオ間のドメインギャップを解消するためにデータのスケーリングが必要であることが示されました。この詳細な分析は、EHPSのための既存のデータセットの使用を再評価する必要性を示し、より優れた汎化能力を提供するより攻撃的な代替手段への切り替えを主張しています。彼らの研究は、補完的な性質を持つ複数のデータセットを利用する価値を強調しています。また、これらのデータセットの転送性に影響を与える関連する側面を徹底的に調査しています。彼らの研究は将来のデータセット収集に役立つアドバイスを提供します。1) 100,000以上のインスタンスを含む場合、データセットは特に大規模である必要はありません。2) イン・ザ・ワイルド（屋外を含む）の収集が不可能な場合、さまざまな屋内風景が優れた代替手段となります。3) シンセティックデータセットは、検出可能なドメインギャップを持ちながら、驚くほど効果的になっています。4) SMPL-Xのアノテーションがない場合、擬似SMPL-Xラベルは役立ちます。ベンチマークからの情報を使用して、Nanyang Technological University、SenseTime Research、Shanghai AI Laboratory、東京大学、国際デジタル経済アカデミー（IDEA）の研究者たちはSMPLer-Xを作成しました。この汎用基盤モデルはさまざまなデータセットを使用してトレーニングされ、様々な状況でバランスの取れた結果を提供します。この研究は大量の選択されたデータの力を示しています。彼らは、EHPSのための非常に基本的なアーキテクチャを持つSMPLer-Xを開発しました。厳密なアルゴリズムの要素の分析ではなく、SMPLer-Xは大規模なデータとパラメータのスケーリングを許容し、将来のフィールド研究の基盤となるよう設計されています。さまざまなデータの組み合わせやモデルサイズでの実験により、従来のデータセットトレーニングの広く行われている方法に挑戦し、すべてのベンチマーク結果を上回る包括的なモデルを構築しました。彼らの基盤モデルにより、5つの主要なベンチマーク（AGORA、UBody、EgoBody、3DPW、EHF）での平均主要エラーが110ミリメートルを超えて70ミリメートル以下に減少しました。また、RenBodyやARCTICなどの新しいシナリオにも成功して印象的な汎化能力を示しています。さらに、彼らは基盤モデルの最適化の効果を示し、ドメイン固有のエキスパートとして機能して、広範なベンチマークで優れたパフォーマンスを実現しています。 EgoBody、UBody、EHFにおいて最新技術の性能を発揮するために同じデータ選択方法を採用しており、AGORAリーダーボードでも107.2ミリメートルのNMVE（11.0%の改善）を達成し、新たな記録を打ち立てました。彼らは3つの異なる貢献を提供しています。1) EHPSの幅広いデータセットを使用して、信頼性のある、移植可能なEHPSに向けたトレーニングデータのスケーリングに重要な方向性を提供する、最初のシステマティックなベンチマークを構築します。2) データとモデルのスケーリングの両方を調査し、バランスの取れた結果を提供し、未開拓のデータセットに効果的に拡張する汎用基盤モデルを構築します。3) 基盤モデルを改良して、データ選択手法を拡張し、さまざまなベンチマークで強力な専門家となります。

このAI研究は「カンディンスキー1」という新しい手法を発表しました：COCO-30Kで優れたFIDスコアを持つ潜在拡散テキストから画像生成

“` 近年、コンピュータビジョンと生成モデリングは驚異的な進歩を遂げ、テキストから画像を生成する技術の発展につながっています。拡散ベースのモデルを含む様々な生成アーキテクチャが、生成される画像の品質と多様性の向上において重要な役割を果たしています。この記事では、33億のパラメータを持つ強力なモデル、Kandinsky1の原理、特徴、能力を探求し、測定可能な画像生成品質の最高レベルのパフォーマンスを強調します。テキストから画像を生成するモデルは、内容レベルのアーティファクトを持つ自己回帰的なアプローチからDALL-E 2やImagenといった拡散モデルへと進化しました。これらの拡散モデルは、ピクセルレベルと潜在レベルのカテゴリに分類され、信頼性と多様性においてGANを上回る画像生成の能力を持っています。これらのモデルは敵対的なトレーニングなしでテキスト条件を統合し、GLIDEやeDiff-Iなどのモデルによって示されるように、低解像度の画像を生成し、スーパーレゾリューション拡散モデルを使用して拡大します。これらの進展によってテキストから画像を生成する技術は大きく変容しました。 AIRI、Skoltech、およびSber AIの研究者らは、Kandinskyという新しいテキストから画像を生成するモデルを紹介しました。このモデルは、潜在拡散手法と画像事前モデルの組み合わせを特長としています。Kandinskyは、画像オートエンコーダーコンポーネントとして改良されたMoVQの実装を採用し、また、テキスト埋め込みをCLIPの画像埋め込みにマッピングするために画像事前モデルを別途トレーニングします。彼らの手法は、多様な生成モードをサポートし、モデルのソースコードとチェックポイントをリリースするユーザーフレンドリーなデモシステムを提供しています。 Kandinskyは、画像事前モデルと潜在拡散技術を組み合わせたテキストから画像を合成するための潜在拡散アーキテクチャを導入しています。CLIPとXLMRのテキスト埋め込みを使用して、拡散と線形マッピングを組み込んだ画像事前アプローチを採用しています。モデルは、テキストのエンコーディング、埋め込みマッピング（画像事前）、および潜在拡散の3つの主要なステップで構成されます。フルデータセットの統計に基づく視覚埋め込みの要素ごとの正規化は実装されており、拡散プロセスの収束を早めます。 Kandinskyのアーキテクチャは、256×256の解像度でCOCO-30Kバリデーションデータセットにおいて8.03の素晴らしいFIDスコアを達成するなど、テキストから画像を生成する際に強力なパフォーマンスを発揮します。また、線形事前構成は最も優れたFIDスコアを示し、視覚的およびテキストの埋め込み間に潜在的な線形関係が存在する可能性を示しています。彼らのモデルは、一部の猫の画像のサブセットで「猫事前」をトレーニングすることによっても、優れた画像生成能力を発揮します。全体的に、Kandinskyはテキストから画像を生成する最先端モデルと競合しています。 Kandinskyは、拡散ベースのシステムとして、画像生成および処理のタスクにおける最先端のパフォーマーとして浮上しています。彼らの研究は、線形事前が有望であり、視覚的およびテキストの埋め込み間に線形な関係が存在する可能性を示しています。ウェブアプリやTelegramボットなどのユーザーフレンドリーなインターフェースはアクセシビリティを向上させます。今後の研究の方向性としては、高度な画像エンコーダの活用、UNetアーキテクチャの向上、テキストプロンプトの改善、より高解像度の画像の生成、ローカル編集や物理ベースのコントロールなどの機能の探索が挙げられます。研究者らは、望ましくない出力の軽減のためにリアルタイムのモデレーションや頑健な分類器の導入が必要であるとの課題にも言及しています。 “`

このAI研究は「Kosmos-G」という人工知能モデルを提案していますこれは、マルチモデルLLMsの特性を活用して、一般的なビジョン-言語入力から高品質なゼロショット画像生成を行うものです

“`html 最近、テキストの説明から画像を作成したり、テキストと画像を組み合わせて新しい画像を生成したりすることにおいて、大きな進歩がありました。しかし、未開拓の領域として、一つの舞台や複数の物体や人物を含むシーンの説明から画像を生成するというものがあります。Microsoft Research、ニューヨーク大学、ウォータールー大学の研究チームが、この問題に取り組むためにマルチモーダルLLMを活用したモデルであるKOSMOS-Gを提案しました。 KOSMOS-Gは、複雑なテキストと複数の画像の組み合わせから詳細な画像を生成することができます。例えそれがこれまでに見たことのない組み合わせであっても、問題ありません。これまでにないモデルであり、ある説明に基づいてさまざまな物体や事物が写っている画像を生成することができます。KOSMOS-Gは、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術を使用するための新しい可能性を開拓します。 KOSMOS-Gは、テキストと画像から画像を生成するための賢いアプローチを使用しています。まず、テキストと画像を理解することができるマルチモーダルLLMをトレーニングします。次に、テキストを理解することに優れたCLIPテキストエンコーダと整列させます。 KOSMOS-Gにテキストとセグメント化された画像のキャプションを与えると、指示に合った説明を持つ画像を生成するためにトレーニングされます。事前にトレーニングした画像デコーダを使用し、さまざまな状況で正確な画像を生成するために学んだ内容を活用します。 KOSMOS-Gは、指示と入力データに基づいて画像を生成することができます。トレーニングには3つのステージがあります。第一ステージでは、モデルはマルチモーダルコーパスに対してプリトレーニングされます。第二ステージでは、AlignerNetがKOSMOS-Gの出力空間をU-Netの入力空間にCLIPの指示によって整列させるようにトレーニングされます。第三ステージでは、KOSMOS-Gはキュレーションされたデータに基づいた構成生成タスクによって微調整されます。ステージ1では、MLLMのみがトレーニングされます。ステージ2では、MLLMは固定されたままでAlignerNetがトレーニングされます。ステージ3では、AlignerNetとMLLMの両方が共同でトレーニングされます。画像デコーダはすべてのステージで固定されたままです。 KOSMOS-Gは、さまざまな設定でのゼロショット画像生成において本当に優れています。意味を成し、良く見え、異なるカスタマイズが可能な画像を作成することができます。文脈を変えたり、特定のスタイルを加えたり、変更を加えたり、画像に追加の詳細を追加するなどの機能があります。KOSMOS-Gはゼロショット設定でのマルチエンティティVL2Iを実現した最初のモデルです。 KOSMOS-Gは、画像生成システムにおいてCLIPの代わりに簡単に使用することができます。これにより、以前は不可能だったアプリケーションへの新しい可能性が広がります。CLIPの基盤を築くことで、KOSMOS-Gはテキストに基づく画像生成からテキストと視覚情報の組み合わせに基づく画像生成への移行を進め、多くの革新的なアプリケーションのチャンスを提供することが期待されています。要約すると、KOSMOS-Gはテキストと複数の画像から詳細な画像を生成するモデルです。そのトレーニングでは、「指示を行う前に整列する」という独自の戦略が使用されています。KOSMOS-Gは個々のオブジェクトの画像生成に優れており、複数のオブジェクトに対しても同様のことを行う最初のモデルです。また、CLIPの代わりに使用することができ、ControlNetやLoRAなどの他の技術と組み合わせて使用できます。要するに、KOSMOS-Gは画像生成において言語のような画像を作成するための初歩的なステップです。 “`

もし3分しか時間がない場合、このChatGPT Dense Summary Promptはあなたのためです

強力な要約は短く、弱い要約は不必要に長くなります強力な要約にはソースドキュメントからの主要な実体（またはキャラクター）がありますが、弱い要約にはそれらが欠けています強力な要約には優れた...

このAIの論文は、FELM：大規模な言語モデルの事実性評価のベンチマーキングを紹介します

大型言語モデル（LLM）は驚異的な成功を収め、プロンプティングを通じて生成型AIにおけるパラダイムシフトをもたらしました。しかし、LLMに関連する課題の一つは、不正確な情報を生成したり内容を作り出したりする傾向があることであり、その広範な適用には重大な障害となっています。ChatGPTのような最新のLLMでさえ、この問題に対して脆弱性を示しています。大型言語モデル（LLM）によって生成されたテキストの事実性の評価は、LLMの出力の信頼性を向上させ、ユーザーに潜在的なエラーを知らせることを目的とした重要な研究領域として浮上しています。しかし、事実性を評価する評価者は、自身の領域での進歩と発展を測定するために適切な評価ツールも必要としています。残念ながら、この研究の側面は比較的未開拓のままであり、事実性評価者にとって重大な課題を引き起こしています。この研究の著者たちは、この課題に対応するために、Factuality Evaluation of Large Language Models（FELM）と呼ばれる基準を導入しています。上記の画像は、事実性評価システムの例を示しており、LLMからのテキストスパンを強調表示することができます。回答には事実の誤りがある場合には、その誤りを説明し、決定を正当化するための参照を提供することができます。この基準では、LLMによって生成された応答を収集し、事実性のラベルを細かく注釈付けすることが含まれています。これまでの研究とは異なり、FELMでは主にWikipediaなどからの情報源としての世界の知識の事実性を評価することに焦点を当てていたのではなく、一般的な知識から数学的および推論に関連するコンテンツにわたる事実性の評価に重点を置いています。テキストの異なる部分を一つずつ見て理解し、間違いがある可能性のある箇所を特定します。さらに、これらの間違いにラベルを付け、どのような種類の間違いがあるのかを示し、テキストで述べられていることを証明または反証する他の情報へのリンクも提供します。次に、彼らのテストでは、大型言語モデルを使用するさまざまなコンピュータプログラムがテキスト内のこれらの誤りをどれほどうまく見つけることができるかを確認します。通常のプログラムと、より良い考え方や誤りを見つけるための追加ツールで改良されたプログラムをテストします。これらの実験の結果からは、情報の検索機構が事実性評価を支援することができる一方で、現在のLLMは事実の誤りを正確に検出する能力にはまだ不足していることがわかります。全体的には、このアプローチは事実性の評価における理解を深めるだけでなく、テキストにおける事実の誤りを特定するための異なる計算手法の効果に関する貴重な知見を提供し、言語モデルとその応用の信頼性向上への継続的な取り組みに貢献しています。

このAIニュースレターはあなたが必要なものです #68

今週は、マルチモーダルの能力を持つ GPT-4 に対抗する候補として、新しいオープンソースのマルチモーダルモデルである LLaVA v1.5 の登場を目撃しましたそれはシンプルな...

このNVIDIAのAI論文は、検索補完と長い文脈の力を探求しています：どちらが優れているのか、そしてそれらは共存できるのか？

ナビディアの研究者たちは、大規模言語モデル（LLM）のパフォーマンスにおける検索補完とコンテキストウィンドウサイズの影響を比較的な研究で調査しました。その結果、検索補完がコンテキストウィンドウサイズに関係なくLLMのパフォーマンスを一貫して向上させることが示されました。彼らの研究は、様々な応用においてLLMを最適化するための検索メカニズムの効果に光を当てています。研究者は長いコンテキスト言語モデルの領域に深く入り、検索補完とコンテキストウィンドウサイズがさまざまな下流タスクでLLMのパフォーマンスを向上させるかを調査しました。異なる事前学習済みLLMを比較分析し、検索メカニズムがLLMの能力を著しく向上させることを示しました。長いコンテキストLLMは、GPUの進歩とメモリ効率の良い注目方法の進展によりますます重要な存在です。彼らの手法は、リトリーバーから適切なコンテキストを効率的に抽出するためのLLM内で長い文脈を処理するための解決策としてリトリーバルの探求を行います。質問応答や要約などのタスクにおいて、リトリーバル補完と拡張されたコンテキストウィンドウをLLMに比較し、その効果を評価します。研究は、プロプライエタリの43B GPTとLLaMA2-70Bという2つの高度に事前学習されたLLMのパフォーマンス比較を行い、長いコンテキストタスクの文脈でのリトリーバル補完と拡張されたコンテキストウィンドウの効果を調査しました。その結果、32Kのコンテキストウィンドウを持つリトリーバル補完されたLLaMA2-70Bモデルが長いコンテキストタスクで優れたパフォーマンスを発揮することが判明しました。さらに、論文ではさまざまな近似的な注目メカニズムについても説明し、より長いシーケンスを効率的に処理するためのFlashAttentionの有用性を強調しています。研究は、LLMのさまざまなタスクにおけるリトリーバル補完と拡張されたコンテキストウィンドウの効果を調査しました。その結果、リトリーバル補完をした4Kのコンテキストウィンドウは、16KのコンテキストウィンドウLLMのバージョンと位置補間を通じて類似のパフォーマンスを発揮し、計算要件を減らすことができることがわかりました。リトリーバルは、さまざまなコンテキストウィンドウサイズにおいてLLMのパフォーマンスを著しく向上させます。最も優れたモデルであるリトリーバル補完されたLLaMA2-70B-32kは、質問応答や要約などの7つの長いコンテキストタスクで他のモデルを上回りながら、より高速な生成時間を維持します。彼らの研究は、LLMのリトリーバル補完とコンテキストの拡張の選択を支援します。研究は、リトリーバル補完と長いコンテキスト拡張がLLMのパフォーマンスを向上させるための利点を強調します。リトリーバル補完と4Kのコンテキストウィンドウを使用した結果、16KのコンテキストウィンドウLLMと同じパフォーマンスを実現し、計算上の要件を削減します。32Kのコンテキストウィンドウを持つリトリーバル補完されたLLaMA2-70Bモデルは、さまざまな長いコンテキストタスクで優れたパフォーマンスを発揮し、LLMの開発に有望な道を提供します。これらの知見は、実践者がLLMにおいてリトリーバル補完とコンテキストの拡張の選択をする際に役立ちます。将来の研究方向には、多様なタスクとデータセットでのLLMにおけるリトリーバル補完と長いコンテキストの拡張の探求、質問応答や要約タスク以外の自然言語処理の異なる領域での効果の評価、長いコンテキストモデルの計算上の課題に対処するための効率的な注目メカニズムの開発、これらの技術の異なるコンテキストでの相互作用とタスクの最適化のためのファインチューニング戦略の向上などが含まれます。

私たちはどのように大規模な言語モデルをストリーミングアプリケーションで効率的に展開できるのでしょうか？このAI論文では、無限のシーケンス長のためのStreamingLLMフレームワークを紹介しています

大きな言語モデル（LLM）は、コード補完、質問応答、文書要約、対話システムなど自然言語処理アプリケーションのパワーとして、ますます使用されています。事前にトレーニングされたLLMは、正確かつ迅速に拡張シーケンス作成を行う必要があり、その全ての潜在能力を発揮するためには可能な限り大量のシーケンスを処理できる必要があります。例えば、最近の日中のチャットのコンテンツを信頼性を持って編集する理想的なチャットボットヘルパーです。4KのLlama-2など、事前学習されたものよりも大きなシーケンス長に一般化することは、LLMにとって非常に困難です。事前トレーニング中のアテンションウィンドウのため、LLMは制約されます。長い入力に対してこのウィンドウの大きさを拡張し、トレーニングと推論の効果を高めるための取り組みが行われていますが、許容されるシーケンス長はまだ見直す必要があり、永続的な展開を妨げています。MIT、Meta AI、カーネギーメロン大学の研究者らは、この研究で最初にLLMストリーミングアプリケーションのアイデアを検討し、次の質問を提起しています：LLMを無限の入力ストリームに使用する際には、2つの主要な問題が浮かび上がります： 1. TransformerベースのLLMは、デコーディングステージ中にすべての前のトークンのKeyとValueの状態（KV）をキャッシュします（図1(a)参照）。これは、過剰なメモリ使用量とデコードの遅延の増加を引き起こす可能性があります。 2. シーケンスの期間が事前学習中のアテンションウィンドウサイズを超えると、既存のモデルのパフォーマンスが低下します。図1は、StreamingLLMと以前の技術を比較しています。トークンT（T>>L）は、長さLのテキストで事前トレーニングされた言語モデルによって予測されます。（a）密なアテンションはキャッシュ容量が上昇し、時間の複雑さがO（T^2）になります。テキストの長さが事前トレーニングのテキスト長を超えるとパフォーマンスが低下します。（b）ウィンドウアテンションは、キャッシュ中で最新のLトークンのKVを保存します。推論ではパフォーマンスが良いですが、最初のトークンのキーと値が削除されると急速に悪化します。新しいトークンごとに、（c）スライディングウィンドウとリコンピューテーションは、最新のLトークンを使用してKV状態を再構築します。長いテキストの処理には優れていますが、O（T L^2）の計算量と文脈の再計算における二次関数のアテンションのため、非常に遅いです。（d）「ステディなアテンションの計算のため、StreamingLLMは最新のトークンとともに少数の初期トークンをアテンションシンクとして保持します。長いテキストに対して効果的かつ一貫して機能します。Llama-2-13Bモデルは、PG-19テストセットの最初の本（65Kトークン）におけるPerplexityを計算するために使用されます。ウィンドウアテンションは、最新のトークンのKV状態の固定サイズのスライディングウィンドウを保持する明確な戦略です（図1b）。最初のトークンのKVを排除するだけで、シーケンス長がキャッシュ容量を超えると、モデルは崩壊します。キャッシュが最初に一杯になった後も、一貫したメモリ使用量とデコード性能を保証します。さらなる戦略として、再計算を行うスライディングウィンドウ（図1c）があります。このテクニックは、ウィンドウ内の二次関数のアテンション計算により、非常に遅くなりますが、パフォーマンスは良好です。これは、実世界のストリーミングアプリケーションには適していません。ウィンドウアテンションの失敗を説明するための自己回帰LLMの興味深い現象を彼らは発見しました。言語モデリングのタスクと関連性に関係なく、初期トークンに驚くほど高いアテンションスコアが割り当てられています。これらのトークンは「アテンションシンク」と呼ばれ、意味的な価値はほとんどありませんが、重要なアテンションスコアを受け取ります。関連するトークンすべてにおいてアテンションスコアが1になる必要があるソフトマックス処理が原因とされています。そのため、現在のクエリが多くの以前のトークンと良い一致がない場合でも、モデルはこれらの余分なアテンション値を一に加える必要があります。初期トークンは、シンプルな理由で注意の溜め場として使用されます: 自己回帰型言語モデリングの性質により、実質的にすべての後続トークンに対して可視性があり、トレーニングが容易です。前述の発見に基づいて、ストリーミングLLMという直感的で効果的なアーキテクチャを提案しています。これにより、有限な注意ウィンドウで準備されたLLMが、細かな調整なしで無期限のテキストに対応できるようになります。注意の消耗が高いため、StreamingLLMはこの特性を活用して注目度の分布を適度に維持します。StreamingLLMは、スライディングウィンドウのキーバリューと初期トークンの注目計算とモデルの安定性を維持するために使用されます (初期トークンはわずか4つだけ必要です)。 Llama-2-B、MPT-B、Falcon-B、およびPythiaBのようなモデルは、StreamingLLMの助けを借りて4百万トークンを正確に表現できるでしょう、さらに多くの可能性もあります。StreamingLLMは、再計算を伴うスライディングウィンドウとの比較で最大22.2倍の高速化を実現し、LLMのストリーミング使用を実現します。最後に、言語モデルはストリーミング展開に必要な注目の溜め場トークンを単一にすることが事前学習で可能であることを示しています。トレーニングサンプルの開始時に、選択した注目の溜め場を追加の学習可能なトークンとして実装することを提案しています。この単一の溜め場トークンの導入により、1億6000万パラメータからゼロから言語モデルを事前学習することで、ストリーミングインスタンスにおけるモデルのパフォーマンスを維持できます。これは、同じパフォーマンスレベルを維持するために複数の初期トークンを溜め場として再導入する必要があるバニラモデルとは対照的です。

私たちは本当に人工知能AIウォーターマーキングを信頼できるのでしょうか？このAI論文は、現在のディープフェイクの防御方法の脆弱性を暴きます

生成型人工知能の領域における急速な進歩は、デジタルコンテンツの制作の風景に重要な変化をもたらしました。これらのAIアルゴリズムは進化し、より広く利用可能になり、非常に魅力的な偽のデジタルコンテンツを作成することが可能になりました。ディープフェイクは、写真や動画、音声などのハイパーリアルなメディア形式であり、視聴者や聴衆を誤導する可能性があり、誤情報、詐欺、名誉毀損、感情的な苦痛につながる懸念が高まっています。その結果、AIが生成した情報を特定し、そのソースを追跡することは大きな課題となっています。本物のコンテンツとAIが生成した素材を区別することが不可欠となった最近の生成型AIモデルの開発により、本物のコンテンツとAIが生成した素材の違いを見分けるためにウォーターマーキングが一つの手法として開発されました。メリーランド大学コンピューターサイエンス学部の研究者たちによる最近の研究では、ウォーターマーキングや分類器ベースのディープフェイク検出器など、いくつかのAI画像検出器の抵抗性に焦点を当てています。この研究では、微妙な画像の摂動を導入するウォーターマーキング技術に対する拡散浄化攻撃に対する逃避エラー率、つまりウォーターマークがないと検出される割合、とスプーフィングエラー率、つまりウォーターマークがあると検出される割合、の間に基本的なトレードオフが存在することが明らかにされています。偽陰性と偽陽性の防止のバランスについて調査されています。偽陰性とは、AIが生成したのに誤ってAIによるものと認識された実際の画像のことであり、偽陽性とは、実際のものなのにAIが生成したものと誤って検出されたAIが生成した画像のことです。この研究では、微小な摂動を導入するウォーターマーキング技術に対して拡散浄化攻撃が画像からウォーターマークを効果的に除去することができることが経験的に証明されました。ウォーターマーキング技術によって微妙に変化させられた画像は、この攻撃によりより脆弱になります。一方、ウォーターマーキング技術によって画像が大きく変化する場合、拡散浄化攻撃の成功率が低くなります。したがって、研究ではモデルの代替敵対攻撃と呼ばれる、ウォーターマーキングモデルを欺くことでウォーターマークを効果的に除去する方法を提案しています。この研究では、ウォーターマーキング技術がスプーフィング攻撃に対してどれだけ脆弱であるかが強調されています。スプーフィング攻撃では、攻撃者は実際の画像（不適切または露骨なもの）がウォーターマーク付きの画像と誤解されることを望んでいます。研究では、ウォーターマーキング技術へのブラックボックスアクセスのみでウォーターマーク付きノイズ画像を作成することができることを示しています。これは、攻撃者がウォーターマーキング技術の内部動作を知らないことを意味します。このノイズ画像を実際の写真に追加することで、攻撃者は誤って本物の写真をウォーターマーク付きとしてラベル付けすることができ、悪影響を及ぼす可能性があります。この研究の主な貢献は以下のとおりです。本研究では、拡散浄化攻撃に対して画像ウォーターマーキングにおける逃避エラーとスプーフィングエラーの基本的なトレードオフを特定しました。高度な画像ウォーターマーキング手法においてウォーターマークを効果的に除去するためのモデルの代替敵対攻撃が開発されました。ウォーターマーキング手法に対するスプーフィング攻撃が特定され、ウォーターマーキング技術開発者の評判に損害を与える可能性があります。ディープフェイク検出器の堅牢性と信頼性のトレードオフが検知されました。結論として、この研究は、悪意のある攻撃や増え続けるAI生成物に対して、特にウォーターマーキング技術などのAI画像検出器の困難さと弱点を明確にしています。これらの課題に対処し、克服するためには、生成型AI時代において検出方法を創造し、向上させることがいかに重要であるかを強調しています。

ノースウェスタン大学の研究者たちは、最初の人工知能（AI）システムを開発しましたこのシステムは、ゼロからロボットを知的に設計することができます

画期的な成果として、ノースウェスタン大学を率いる研究チームが自律的にロボットを創造しデザインする人工知能（AI）システムを発表しました。この技術の驚異は、数秒で累代の進化過程を圧縮することにより、ロボット工学の領域において飛躍的な進歩を遂げました。このAIの優れた能力は、平らな表面を移動する能力を持つロボットを作成するように指示することで証明されました。自然がこの能力を完成させるために計り知れない時間を要したのに対し、新しいアルゴリズムはわずかな分数で達成し、チームはこれを「瞬間進化」と呼んでいます。このAIの特徴は、一般的なパーソナルコンピュータ上で動作できる能力です。これにより、エネルギーを消費するスーパーコンピューターや大量のデータセットの必要性がなくなります。これに対して、既存のAIシステムはこれらのリソースに頼ることが多く、真の革新なしに過去のデザインを単純に複製しています。ノースウェスタン大学マコーミック工学部のチームは、この開発をパラダイムシフトと見なしています。彼らは、AIによる設計アルゴリズムが通常の進化の経路を迂回し、人間のバイアスを回避することを強調しています。その適応性は、素早く新しい構造を生成することで明らかです。この成果は、研究者の以前の研究の一環として構築されており、彼は生物学的細胞だけで作られたロボットであるキセノボットの開発で注目を集めました。新しいAIは、人工生命の可能性の探求をさらに前進させるものです。現在のロボットは地味ですが、無機材料から構築され、研究者たちはこれを直接世界と対話する能力を持つ新たな時代のAI設計ツールへの前兆と考えています。このAIの創造的なプロセスは本当に素晴らしいものです。動きのない石鹸サイズのブロックを出発点に、システムは設計を反復的に磨きます。各ステップで進捗を評価し、欠陥を特定し、構造を洗練させます。AIは、たった9回の繰り返しで26秒で歩行能力に優れたロボットを作り出します。驚くべきことに、AIは独自に、自然が長い時間をかけて進化した解決策を同じものに辿り着きます：足。ただし、独自のアプローチを考案します。その結果、ロボットは3本の足、背びれ、平らな顔、戦略的に配置された穴を持つ姿となります。これらの穴の目的はまだ謎ですが、研究者たちはこれが重量軽減と柔軟性の向上に貢献し、ロボットの足が歩行するために適度に屈曲できるようにするのではないかと推測しています。 AIのデザインの物理世界での妥当性を検証するため、チームは3Dプリンティング技術を利用しています。彼らは、ロボットの形状周りの空間を捉えるマルドを作成し、それを液状シリコーンゴムで満たします。固化した後、ロボットは柔軟な構造を示します。制御された空気の膨張と収縮により、ロボットは安定した動きを実現し、AIの設計の実現可能性を更に確認します。科学者たちは、このロボットの非伝統的なデザインに魅了され、驚愕しています。人間が設計したロボットとは異なり、AIの創造物は確立された基準に挑戦し、新たな可能性の領域を開拓します。この革命的な進歩は、検索と救助から医療介入までの領域を変革し、イノベーションと問題解決の新たな時代をもたらすことを約束しています。 AIでデザインされたツールの潜在的な応用範囲は広大です。災害現場を航行したり、人体内に進入して診断や治療を行う類似のロボットが存在する未来を思い描いてみてください。これらの可能性を実現する上で唯一の障害は、それらを想像する能力にありますが、AIはこの障害を克服する準備ができているようです。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us