Learn more about Search Results MarkTechPost - Page 143

新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました(75.17% → 91.68%)

最近の技術の進展により、大規模言語モデル(LLM)は複雑で洗練された推論タスクで非常に優れた成績を収めています。これは、デモンストレーションのプロンプトに対して中間の推論ステップを生成することによって実現されます。これはチェーン・オブ・ソート(CoT)プロンプティングとも呼ばれます。しかし、CoTに関する現在の研究のほとんどは言語モダリティに焦点を当てており、マルチモーダルなCoT推論を抽出するために、研究者はしばしばマルチモーダル-CoTパラダイムを使用します。マルチモーダル-CoTは、ビジョンや言語など、さまざまなモダリティの入力がある場合でも、多段階の問題を中間の推論プロセスに分割し、最終的な出力を生成します。マルチモーダル-CoTを実行する最も人気のある方法の1つは、LLMにCoTを実行する前に、複数のモダリティからの入力を単一のモダリティに組み合わせることです。しかし、この方法にはいくつかの欠点があります。1つは、データを1つのモダリティから別のモダリティに変換する際に生じる重要な情報の損失です。マルチモーダルなCoT推論を実現する別の方法は、ビジョンと言語のさまざまな特徴を組み合わせて、小さな言語モデルを微調整することです。 ただし、このアプローチの主な問題は、これらの言語モデルが幻覚的な推論パターンを生成する傾向があることであり、これが回答推論に大きな影響を与えます。そのようなエラーの影響を軽減するために、Amazonの研究者はビジュアル特徴を分離されたトレーニングフレームワークで組み合わせるMultimodal-CoTを提案しました。このフレームワークは、推論プロセスを2つのフェーズに分割します:根拠生成と回答推論。モデルは、ビジョンの側面を両方のステージに取り入れることで、より説得力のある議論を生成し、より正確な回答推論を作成するのに役立ちます。この研究は、異なるモダリティでのCoT推論を研究した最初のものです。Amazonの研究者によって提供された技術は、ScienceQAベンチマークで最先端のパフォーマンスを発揮し、GPT-3.5の正確さを16%上回り、人間のパフォーマンスを上回りました。 マルチモーダル回答CoTの推論と推論生成のステージは、同じモデルアーキテクチャを使用しており、入力と出力の種類が異なります。ビジョン-言語モデルの例を取ると、モデルは根拠生成の段階で視覚と言語の両ドメインのデータを受け取ります。根拠が生成されると、回答推論のステップで初期の言語入力に追加され、次のステージの言語入力のためのデータが作成されます。モデルは、更新されたデータを受け取り、所望の結果を生成するためにトレーニングされます。エンコーディング、インタラクション、デコーディングの3つの主要な機能を実行するトランスフォーマーベースのモデルが基盤となっています。要するに、言語テキストはTransformerエンコーダに供給され、テキスト表現が作成されます。このテキスト表現は、ビジョン表現と組み合わされ、Transformerデコーダに供給されます。 彼らの手法の有効性を評価するために、研究者はScienceQAベンチマークで多くのテストを実施しました。ScienceQAベンチマークは、注釈付き回答が含まれる21,000以上のマルチモーダルな科学の質問からなる大規模なデータセットです。研究者は、その手法がベンチマークで従来の最先端のGPT-3.5モデルを16%上回ると結論付けました。要するに、Amazonの研究者は、マルチモーダル-CoTを実行するためにビジョンと言語の表現を組み合わせるために言語モデルを微調整するという2段階のフレームワークを提案し、情報的な根拠を生成して最終回答を推論するモデルを生成します。モデルのGitHubリポジトリは以下からアクセスできます。

2023年のトップジェネレーティブAI企業

最新の人工知能のブレイクスルーと世界中のデータ量の増加により、テキスト、音楽、画像などの新しいオリジナルコンテンツを、一連の入力データまたはパラメータに基づいて生成することが可能になりました。これは、生成型AIを使用して達成されます。この人工知能は、与えられたデータセット内のパターンや関係性を特定することで、新しい関連コンテンツを作成します。生成型対抗ネットワーク(GAN)、変分オートエンコーダー(VAE)、再帰型ニューラルネットワーク(RNN)などが、生成型AIで利用されるモデルのいくつかです。生成型AIは、創造性やコンテンツ作成についての考え方を根本的に変える可能性があります。この記事では、最高の生成型AI企業のいくつかを紹介します。 Synthetaic Synthetaicは、組織や企業が数分でAIモデルを構築するのを支援します。彼らのRAIC(Rapid Automatic Image Categorization)技術は、モデルを構築するための時間のかかる人間のラベリングを必要としません。RAICは、大規模な非構造化データセットの研究を自動化することで、スケールで何でも迅速かつ自動的に検出します。Synthetaicは、非教示学習と生成型AIをエンドツーエンドのワークフローに統合し、迅速にAIモデルを訓練・展開します。セキュリティ、地理空間AI、ヘルスケアなど、さまざまな分野で使用されています。 Rephrase.ai Rephraseは、実際の人物のデジタルアバターを作成し、ビジネスがステークホルダーと効率的にコミュニケーションを図るためのハイパーソナライズドビデオを大量生産します。彼らの社内生成型AIシステムは、声をビデオにマッピングします。そのエンジンは、一般的なCNN構造内のいくつかの異なるCNNバリエーションとしてジェネレータと識別器を使用する大規模な深層学習モデルです。これは、Eコマース、BFSI、不動産など、さまざまなセクターで広く使用されています。 Synthesis AI Synthesis AIは、手続き型生成、生成型AI、シネマティックVFXレンダリングツールを使用して写真のような画像とビデオを作成します。彼らは、生成型AIを使用して作成されたさまざまな3D人間モデルをビジネスに提供しています。彼らは2つの製品を提供しています。Synthesis humansでは、ユーザーは豊富な注釈を備えたデジタルヒューマンの詳細な画像とビデオを作成することができます。Synthesis Scenariosでは、ユーザーはさまざまな環境で複雑なマルチヒューマンシミュレーションを作成することができます。これらのソリューションは、仮想試着、ドライバーモニタリング、歩行者検出、アバター作成、ID確認などに使用することができます。 Revery AI Revery AIは、開発者やビジネスにスケーラブルな仮想試着ソリューションを提供します。生成型AIと他のAIアルゴリズムを活用して、この技術を実現しています。ユーザーは無料のAPIを使用して体験を個人化したり、約30分で仮想試着室を作成したりすることができます。ユーザーは、さまざまな肌の色合い、体型、民族性を持つモデルに衣類を試着することができます。 Andi Andiは、生成型AIを搭載した対話型検索エンジンです。AIパワードアシスタント付きのチャットボットインターフェースを使用してクエリに回答します。Andiは匿名であり、無料で使用でき、プライベートで広告が表示されません。Andiは、言語モデルと生成型AIを使用して最高のソースからの素材の説明や要約、正確な回答を生成するために、ライブデータと推論を活用しています。 Synthesia AIビデオ作成は、労力と費用のかかる従来のビデオ制作手法に代わる、より迅速かつ手頃な選択肢です。Synthesiaは、プレーンテキストから数分でビデオを生成する合成ビデオ作成ツールです。生成型AIを活用することで、Synthesiaはアイデアと制作の間のギャップを縮めています。トレーニングビデオ、ハウツービデオ、マーケティングビデオの作成などの応用があります。 Mostly AI…

「UTオースティン大学の研究者が、安定した拡散を用いたAI手法「PSLD」を紹介追加のトレーニングなしにすべての線形問題を解決する」

逆問題を解決するためには、2つのアプローチのカテゴリがあります。監督学習の手法では、復元モデルがタスクを完了するために訓練され、非監督学習の手法では、生成モデルが学習した事前知識を利用して復元プロセスを誘導します。 生成モデリングの重要な進歩として、拡散モデルの登場があります。拡散モデルの明白な有効性の結果、研究者は逆問題の解決の可能性を探求し始めました。拡散モデルを使用して(線形および非線形の)逆問題を効率的に解決するために、いくつかの近似アルゴリズムが開発されています。これらの手法では、事前学習済みの拡散モデルをデータ分布の柔軟な事前知識として使用します。 Stable Diffusionなどの最先端の基礎モデルは、Latent Diffusion Models(LDMs)によって駆動されています。これらのモデルは、画像、動画、オーディオ、医療のドメイン分布(MRIおよびタンパク質)など、さまざまなデータモダリティにわたるさまざまなアプリケーションを可能にしました。しかし、現在の逆問題解決アルゴリズムは、Latent Diffusion Modelsとは互換性がありません。逆問題に対しては、各タスクごとにベースモデル(Stable Diffusionなど)を使用するためにファインチューニングを行う必要があります。 テキサス大学オースティン校の研究チームによる最近の研究では、事前学習済みのLatent Diffusion Modelsを使用して一般的な逆問題を解決するための最初のフレームワークを提案しています。追加の勾配更新ステップにより、デコーディング-エンコーディングマップが損失のないサンプルレイテントに向かうように拡散プロセスを誘導します。これはDPSの拡張のための彼らの核心概念です。彼らのアルゴリズムであるPosterior Sampling with Latent Diffusion(PSLD)は、広範な問題に対してアクセス可能な基礎モデルの力を利用して、ファインチューニングなしで従来の手法を上回りました。 研究者たちは、PSLDアプローチを最先端のDPSアルゴリズムと比較して、ランダムインペインティング、ボックスインペインティング、ノイズ除去、ガウシアンデブラー、モーションデブラー、任意のマスキング、およびスーパーレゾリューションなど、さまざまな画像の復元および強化タスクで評価しました。彼らの分析には、LAIONデータセットで訓練されたStable Diffusionが使用されました。結果は最先端のパフォーマンスを示しました。 研究者たちはまた、このデータセットとその基礎モデルの固有のバイアスによってアルゴリズムが無意識に影響を受ける可能性にも気付きました。提案された手法は、どのLDMにも互換性があります。研究チームは、これらの問題が改良されたデータセットで訓練された新しい基礎モデルによって解決されると考えています。また、非線形逆問題の解決に対して潜在ベースの基礎モデルを適用することはまだ調査されていないことを強調しています。アプローチがDPSの近似に基づいているため、これが一般化されることを期待しています。

「一貫性への超克:このAIモデルは、頑強なテキストから3D生成のための拡散モデルの3D認識を教える」

テキストから画像へのモデルは最近急速に成長しており、その進歩のほとんどはテキストから画像へのモデルにあります。これらのモデルは与えられたテキストのプロンプトを使用して写真のようなリアルな画像を生成することができます。 画像生成はこの分野の包括的な研究の一部です。重要な側面ではありますが、さまざまなアプリケーションで重要な役割を果たす他のテキストからXへのモデルも存在します。例えば、テキストからビデオへのモデルは、与えられたテキストのプロンプトに基づいてリアルなビデオを生成することを目指しています。これらのモデルはコンテンツの準備プロセスを劇的に加速することができます。 一方、テキストから3D生成はコンピュータビジョンとグラフィックスの分野で重要な技術として登場しています。まだ初期段階ではありますが、テキスト入力からリアルな3Dモデルを生成する能力は、学術研究者や業界のプロフェッショナルから大きな関心を集めています。この技術はさまざまな産業を革新する潜在能力を持ち、複数の学問領域の専門家がその継続的な開発を注視しています。 Neural Radiance Fields(NeRF)は、一連の2D画像またはまばらな3Dポイントから複雑な3Dシーンの高品質なレンダリングを可能にする最近導入された手法です。テキストから3DモデルとNeRFを組み合わせるためのいくつかの手法が提案されていますが、これらはしばしば歪みやアーティファクトを引き起こし、テキストのプロンプトやランダムシードに対して敏感です。 特に、3Dの非整合性の問題は、レンダリングされた3Dシーンが各視点で前面のビューに属する幾何学的特徴を複数回生成し、重い歪みが生じる一般的な問題です。この問題は、2D拡散モデルが3D情報、特にカメラの位置に関する認識の欠如によるものです。 では、テキストから3DモデルをNeRFの進化と組み合わせてリアルな3Dレンダリングを得る方法があったらどうでしょうか?それが3DFuseです。 3DFuseパイプラインの概要。出典: https://ku-cvlab.github.io/3DFuse/ 3DFuseは、3D認識を持つ事前学習済みの2D拡散モデルを組み合わせる中間的なアプローチであり、3D整合性のあるNeRF最適化に適したものにします。これにより、3D認識が事前学習済みの2D拡散モデルに注入されます。 3DFuseは、生成されたシーンの意味的な特定を高速化するために意味コードのサンプリングから始めます。この意味コードは実際には生成された画像と与えられたテキストのプロンプトです。このステップが完了すると、3DFuseの整合性注入モジュールはこの意味コードを取り入れ、与えられた視点のために粗い3Dジオメトリを投影して視点固有の深度マップを取得します。これには既存のモデルを使用します。深度マップと意味コードは、拡散モデルに3D情報を注入するために使用されます。 3DFuseの概要。出典: https://ku-cvlab.github.io/3DFuse/ ここでの問題は、予測された3Dジオメトリがエラーを起こしやすく、生成された3Dモデルの品質に影響を与える可能性があることです。そのため、パイプラインのさらなる進行前にこれを処理する必要があります。この問題を解決するために、3DFuseは問題のある深度情報を修正する方法を暗黙的に知っている疎な深度インジェクタを導入しています。 3D一貫性のある画像を生成する拡散モデルのスコアを蒸留することにより、3DFuseは視点一貫性のあるテキストから3D生成を安定的に最適化します。このフレームワークは、生成品質と幾何学的一貫性の点で、以前の研究に比べて大幅な改善を実現しています。

「LMQLに出会ってください:大規模言語モデル(LLM)との対話のためのオープンソースプログラミング言語とプラットフォーム」

大規模言語モデルは、人工知能コミュニティに大きな影響を与えています。最近のその影響は、医療、金融、教育、エンターテイメントなど、さまざまな業界に貢献しています。GPT、DALLE、BERTなどのよく知られた大規模言語モデルは、非凡なタスクを実行し、生活を容易にします。DALLE 2は、単純なテキストの説明に応じて画像を作成できますし、GPT-3は優れたエッセイを書いたり、コードを完成させたり、長いテキストの段落を要約したり、人間のように質問に答えたり、短い自然言語のプロンプトだけでコンテンツを生成したりすることができます。これらのモデルは、人工知能と機械学習を急速にパラダイムシフトさせるのに役立っています。 最近、研究チームがLMQLというオープンソースのプログラミング言語とプラットフォームを導入しました。LMQLは、プロンプト、制約、スクリプトを組み合わせることで、大規模言語モデル(LLM)の機能を向上させます。Pythonに基づく宣言的なSQLのような言語であるLMQLは、制御フロー、制約によるデコーディング、ツールの拡張を可能にします。この種のスクリプティングにより、非常に少量のコードで複数のパートからなるプロンプトフローを簡素化することができます。 研究者は、LMQLを使用してLMP(言語モデルプログラミング)を可能にしました。これにより、LMPのプロンプトから制約と制御フローを取り込んで、効率的な推論手順を生成することができます。これらの高度な制約は、生成時に厳密に強制されるいくつかの評価セマンティクスの助けを借りて、トークンマスクに変換されます。 チームは、生成されたテキストの再クエリと検証の高いコストを回避するためにLMQLを導入しました。これにより、LMQLは後続の反復を必要とせずに、最初の試行で望ましい出力に近いテキストを生成することができます。また、LMQLの制約により、ユーザーは生成されたテキストが特定の文法的または構文的なルールに従うこと、あるいは特定の単語やフレーズが回避されていることを確認するなど、テキスト生成プロセスをガイドまたは制御することができます。 研究者は、LMQLが既存のAPIでは実装が難しい対話型フローなど、さまざまな最先端のプロンプト手法をキャプチャできることを示しました。評価によると、LMQLは多数の下流タスクで精度を維持または向上させながら、使用料が発生するAPIの計算やコストを大幅に削減し、13〜85%のコスト削減が実現されています。 LMQLは、ユーザーが一般的なプロンプト技術や高度なプロンプト技術を簡単かつ簡潔に表現できるようにします。Hugging FaceのTransformers、OpenAI API、Langchainと統合されています。同様の開発者リソースはlmql.aiで利用可能であり、ブラウザベースのPlayground IDEも実験用に利用できます。 要約すると、LMQLは効率性と精度を向上させる強力なツールであり、言語モデルプログラミングを容易にする有望な開発です。これにより、ユーザーはより少ないリソースで望ましい結果を達成しやすくなります。

「セマンティック-SAMに会ってください:ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメント化および認識する、万能な画像セグメンテーションモデル」

人工知能は近年大きく進化しています。現在の開発である大規模言語モデルの導入により、その人間をまねた驚くべき能力が注目されています。これらのモデルは、自然言語処理だけでなく、コンピュータビジョンの分野でも成功を収めています。AIシステムが自然言語処理や制御可能な画像生成で成功を収めている一方、ユニバーサルな画像セグメンテーションを含むピクセルレベルの画像理解の分野にはまだ制限があります。 画像セグメンテーションは、画像を異なるセクションに分割する技術であり、大きな進展が見られていますが、異なる粒度のさまざまな画像を処理できる汎用の画像セグメンテーションモデルの作成はまだ議論中です。この分野での進歩のための主な課題は、適切なトレーニングデータの入手可能性とモデル設計の柔軟性の制約です。既存の手法では、異なる粒度でセグメンテーションマスクを予測し、細部のレベルを処理することができない単一入力、単一出力のパイプラインが頻繁に使用されています。また、セマンティックな情報と粒度の知識を兼ね備えたセグメンテーションデータセットの拡大は高コストです。 これらの制限に対処するため、研究チームはSemantic-SAMという汎用の画像セグメンテーションモデルを開発しました。このモデルは、ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメンテーションし、認識します。モデルはオブジェクトとピースの両方にセマンティックなラベルを提供し、ユーザーのクリックに応じて異なる粒度でマスクを予測することができます。Semantic-SAMのデコーダーアーキテクチャには、複数の選択肢学習戦略が組み込まれており、モデルにさまざまな粒度を処理する能力を与えています。各クリックは複数のクエリで表され、それぞれが異なる埋め込みレベルを持ちます。クエリは異なる粒度の正解マスクから学習するようにトレーニングされます。 研究チームは、Semantic-SAMがパーツとオブジェクトのために分離されたカテゴリ化戦略を使用してセマンティックな認識の問題に取り組む方法を共有しています。モデルは、共有のテキストエンコーダを使用してオブジェクトとパーツを個別にエンコードし、入力タイプに応じて損失関数を変更することで、異なるセグメンテーション手法を可能にします。この戦略により、いくつかのカテゴリ化ラベルが欠落しているSAMデータセットのみならず、一般的なセグメンテーションデータからもデータを処理できるようになります。 チームは、セマンティックと粒度を高めるために、SA-1Bデータセット、PASCAL Part、PACO、PartImagenetなどのパートセグメンテーションデータセット、MSCOCO、Objects365などの一般的なセグメンテーションデータセットを含む7つのデータセットを組み合わせました。データ形式はSemantic-SAMのトレーニング目標に準拠するように再配置されました。 評価とテストの結果、Semantic-SAMは既存のモデルと比較して優れたパフォーマンスを示しました。SA-1Bのプロンプト可能なセグメンテーションやCOCOパノプティックセグメンテーションなどの対話型セグメンテーション技術と組み合わせてトレーニングすると、パフォーマンスが大幅に向上します。このモデルは、2.3のボックスAPゲインと1.2のマスクAPゲインを達成しています。また、粒度の完全性に関して、SAMよりも3.4以上の1-IoUで優れたパフォーマンスを発揮します。 Semantic-SAMは、画像セグメンテーションの分野における革新的な進歩です。このモデルは、ユニバーサルな表現、セマンティックな認識、粒度の豊富さを組み合わせることで、ピクセルレベルの画像分析の新たな可能性を創出します。

「AudioGPTをご紹介します:ChatGPTとオーディオファウンデーションモデルを結ぶマルチモーダルAIシステム」

AIコミュニティは、大規模言語モデルの影響を受けており、ChatGPTとGPT-4の導入により、自然言語処理が進化しています。広範なウェブテキストデータと堅牢なアーキテクチャのおかげで、LLM(大規模言語モデル)は人間のように読み書きや会話ができます。テキスト処理や生成における成功事例がある一方、音声モダリティ(音楽、音声、トーキングヘッド)の成功は限定的です。以下の理由から、音声モダリティの成功は非常に有利でありながらも制約があります。1)現実のシナリオでは、人々は日常の会話で話される言語を使用してコミュニケーションを取り、生活をより便利にするために音声アシスタントを使用します。2)人工生成の成功を達成するためには、音声モダリティ情報の処理が必要です。 LLMがより高度なAIシステムに向けて進むための重要なステップは、声、音楽、音声、トーキングヘッドの理解と生成です。音声モダリティの利点にもかかわらず、実際の世界での会話を含む実際の音声データを提供するソースは非常に少なく、人間によるラベル付き音声データの取得は費用と時間がかかります。さらに、広範なウェブテキストデータの対に多言語対話音声データが必要であり、データ量が限られています。また、スクラッチからマルチモーダルLLMをトレーニングするためには、計算リソースが要求され、時間がかかります。 この研究では、浙江大学、北京大学、カーネギーメロン大学、中国の北京大学の研究者らが「AudioGPT」というシステムを提案しています。このシステムは、音声対話における音声モダリティの理解と生成に優れた性能を持つように作られています。具体的には以下のような特徴があります。 マルチモーダルLLMをスクラッチからトレーニングする代わりに、さまざまな音声基盤モデルを使用して複雑な音声情報を処理します。 音声対話のための入出力インターフェースをLLMに接続して、音声言語モデルをトレーニングする代わりに使用します。 LLMを汎用インターフェースとして使用し、AudioGPTがさまざまな音声理解と生成のタスクを解決できるようにします。 音声基盤モデルは既に音声、音楽、音声、トーキングヘッドを理解し生成できるため、ゼロからトレーニングを開始することは無意味です。 入出力インターフェース、ChatGPT、音声言語を使用することで、LLMは音声をテキストに変換することでより効果的にコミュニケーションすることができます。ChatGPTは会話エンジンとプロンプトマネージャを使用して、音声データの処理時にユーザーの意図を判断します。AudioGPTのプロセスは、図1に示すように4つのパートに分かれます。 • モダリティの変換:入出力インターフェース、ChatGPT、音声言語を使用して、LLMは音声をテキストに変換することでより効果的にコミュニケーションすることができます。 • タスクの分析:ChatGPTは会話エンジンとプロンプトマネージャを使用して、音声データの処理時にユーザーの意図を判断します。 • モデルの割り当て:ChatGPTは、抑揚、音色、言語制御のための構造化引数を受け取った後、音声基盤モデルを理解と生成のために割り当てます。 • 応答の設計:音声基盤モデルの実行後、応答を生成し、ユーザーに最終的な回答を提供します。 図1:AudioGPTの概要。モダリティの変換、タスクの分析、モデルの割り当て、応答の生成の4つのプロセスで構成されています。困難な音声のジョブを処理するために、ChatGPTに音声基盤モデルを提供します。また、音声コミュニケーションを可能にするためにモダリティ変換インターフェースに接続します。マルチモーダルLLMの一貫性、容量、堅牢性を評価するための設計ガイドラインを開発しました。 マルチモーダルLLMの効果を評価し、さまざまな基盤モデルの協調をオーケストレーションする能力は、ますます人気のある研究課題となっています。実験結果から、AudioGPTは異なるAIアプリケーションのために複雑な音声データをマルチラウンドの対話で処理することができます。この研究では、AudioGPTの一貫性、容量、堅牢性の設計コンセプトと評価手順について説明しています。 彼らは、高度な音声ジョブに対してChatGPTに音声基盤モデルを提供するAudioGPTを提案しています。これは論文の主要な貢献の1つです。音声コミュニケーションを可能にするために、モダリティ変換インターフェースをChatGPTと組み合わせました。この研究では、マルチモーダルLLMの一貫性、容量、堅牢性を評価し、AudioGPTの理解と生成が効果的に行われます。コードはGitHubでオープンソースとして公開されています。

UCバークレーの研究者たちは、FastRLAPを提案していますこれは、深層強化学習(Deep RL)と自律練習を通じて高速運転を学ぶためのシステムです

カリフォルニア大学バークレー校の研究者たちは、FastrLapというシステムを開発しました。このシステムは機械学習を使用して自動運転車に高速で攻撃的に運転する方法を教えることができます。FastrLapは、自動運転車がレーストラックを素早く効率的にナビゲートし、より速いラップタイムを達成するためのリスクを取ることをサポートするために設計されています。FastrLapは、通常人間のドライバーに教えられない運転戦略を学ぶことができ、自動運転車と人間のドライバーのパフォーマンスを向上させることができます。 FastrLapは、シミュレーション環境を使用してニューラルネットワークを訓練します。これにより、さまざまなシナリオと運転戦略を素早く反復することができます。システムは車のセンサーからデータを取得し、トラックをどのようにナビゲートするかを決定します。研究者たちはカリフォルニアのレーストラックでテストを行い、プロの人間ドライバーよりも速いラップタイムを達成しました。FastrLapは高速でトラックをナビゲートし、急なカーブを曲がり、他の車両との衝突を回避しました。 FastrLapの大きな利点の1つは、自動運転車に攻撃的な運転を教えることができることです。これは通常、人間のドライバーには教えられません。システムはリスクを取り、可能な限りの限界を追求することで、より速いラップタイムを達成することができます。FastrLapはまた、計算されたリスクを取り、可能な限界を追求するように人間のドライバーを訓練するためにも使用することができます。これにより、彼らのレーストラックでのパフォーマンスや日常の運転シーンを向上させるのに役立ちます。 研究者たちは、攻撃的な運転戦略に関連する潜在的な安全上の懸念を認識していますが、自動運転車に攻撃的な運転を教える利点はリスクを上回ると信じています。システムはシミュレーションを通じて自らのミスから学び、運転戦略を継続的に改善し洗練させることができます。 FastrLapの潜在的な応用範囲は非常に広いです。一つの可能な利用例は自律型レーシングです。このシステムの能力を活用することで、自動運転車の競技用レースのためのトレーニングが可能になります。Roboraceなどのイベントが注目を集める中、自律型レーシングは急速に成長しています。 まとめると、FastrLapは自動運転に対する考え方を変える可能性のある革新的なシステムです。自動運転車に攻撃的な運転と計算されたリスクを教えることで、システムは新たなパフォーマンスと効率のレベルを開放することができます。攻撃的な運転戦略に関連する潜在的な安全上の懸念はありますが、特に自律型レーシングにおいては利益がリスクを上回ります。

「DISCOに会おう:人間のダンス生成のための革新的なAI技術」

生成AIは、コンピュータビジョンのコミュニティで大きな関心を集めています。テキストに基づく画像およびビデオ合成の最近の進歩(Text-to-Image(T2I)およびText-to-Video(T2V)など)、拡散モデルの登場により、顕著な忠実度と生成品質が示されました。これらの進歩は、画像およびビデオの合成、編集、アニメーションの潜在能力を示しています。ただし、合成された画像/ビデオは、特に人間中心の人間ダンス合成などの人間ダンス合成の歴史が長いにもかかわらず、合成されたコンテンツと現実世界のダンスシナリオの間には大きなギャップがあります。 Generative Adversarial Networks(GAN)の時代から、研究者は、ソースビデオからターゲット個人にダンス動作を転送するためのビデオからビデオへのスタイル変換を拡張するために、しばしばターゲット人物への人間特有の微調整を必要とします。 最近の一連の研究では、事前にトレーニングされた拡散ベースのT2I/T2Vモデルを使用して、テキストプロンプトに基づいてダンス画像/ビデオを生成することが提案されています。このような粗い制御条件は、ユーザーが予想される主題(人間の外観)やダンスの動き(人間のポーズ)を正確に指定することをほとんど不可能にします。 ControlNetの導入により、ジオメトリヒューマンキーポイントとのポーズ制御を組み合わせることで、この問題が部分的に緩和されますが、テキストプロンプトに依存するため、制御ネットがリファレンスイメージの人間の外観などの豊かな意味の一貫性を確保できるかどうかは明確ではありません。さらに、限られたダンスビデオデータセットでトレーニングされたほとんどすべての既存の手法は、限られた主体属性または極度に単純化されたシーンと背景のいずれかに苦しんでいます。これは、人間の主体、ポーズ、および背景の未知の組成に対するゼロショットの一般化能力が低くなる原因となります。 ユーザー固有のショートビデオコンテンツ生成などの現実のアプリケーションをサポートするためには、人間のダンス生成は実世界のダンスシナリオに準拠する必要があります。したがって、生成モデルは、以下の特性を持つ人間のダンス画像/ビデオを合成することが期待されています:忠実度、一般化能力、および合成性。 生成された画像/ビデオは、参照画像と一貫性のある人間の主体と背景の外観を保持しながら、提供されたポーズを正確に追従することによって、忠実度を示すべきです。モデルはまた、ユーザー固有の微調整を必要とせずに、未知の人間の主体、背景、およびポーズを扱うことによって、一般化能力を示すべきです。最後に、生成された画像/ビデオは、異なる画像/ビデオから取得された人間の主体、背景、およびポーズの任意の組み合わせを可能にする合成性を示すべきです。 この点において、DISCOと呼ばれる画期的なアプローチが提案されています。DISCOのアプローチの概要は、以下の図に示されています。 https://arxiv.org/abs/2307.00040 DISCOは、改善された忠実度と合成性のための分離制御を持つ画期的なモデルアーキテクチャと、より優れた一般化能力のための人間属性事前トレーニングという2つの主要な設計を組み合わせています。DISCOの画期的なモデルアーキテクチャは、生成されたダンス画像/ビデオが望ましい人間の主体、背景、およびポーズを忠実に捉える一方で、これらの要素の柔軟な組み合わせを可能にします。さらに、分離制御は、モデルが忠実な表現を維持し、多様な組成を受け入れる能力を向上させます。さらに、DISCOは、人間属性の事前トレーニング戦略を使用して、モデルの一般化能力を強化します。この事前トレーニング技術により、モデルは未知の人間属性を処理する能力を備えるため、トレーニングデータの制限を超えた高品質のダンスコンテンツを生成することができます。全体として、DISCOは、洗練されたモデルアーキテクチャと革新的な事前トレーニング戦略を組み合わせた包括的なソリューションを提供し、現実のダンスシナリオでの人間のダンス生成の課題に効果的に対処します。 以下に結果を示し、人間のダンス生成の最新技術とDISCOとの比較を行います。 https://arxiv.org/abs/2307.00040 これはDISCOの要約です。DISCOは、人間のダンスを生成するための新しいAI技術です。興味があり、この研究についてもっと詳しく知りたい場合は、以下のリンクをクリックしてさらなる情報を見つけることができます。

「40以上のクールなAIツール(2023年7月)をチェックしてください」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオや画像を作成したい人向けのAIベースのツールです。ビデオ、写真、ミーム、古い映画、GIFなどをリフェイシングして、簡単にコンテンツを作成することができます。このアプリにはコンテンツの制限がないため、ユーザーはどんなコンテンツの素材でもアップロードすることができます。さらに、初めて製品に加入するユーザーは50%オフで購読ユーザーになることができます。 Docktopus AI Docktopusは、100以上のカスタマイズ可能なテンプレートを備えたAIパワードのプレゼンテーションツールで、ユーザーは数秒でプロのプレゼンテーションを作成することができます。 Promptpal AI Promptpal AIは、ChatGPTなどのAIモデルを最大限に活用するための最適なプロンプトを見つけるのに役立ちます。 Quinvio AI Quinvioは、直感的なエディタ、AIによるライティング支援、AIスポークスパーソンの選択オプションを備えたAIビデオ作成ツールです。 Ask your PDF AskYourPdfは、ユーザーが簡単にPDFドキュメントと対話し、洞察を抽出するのに役立つAIチャットボットです。 Supernormal AI Supernormalは、自動的にミーティングのメモを作成するのに役立つAIパワードのツールで、ミーティングごとに5〜10分を節約します。 Suggesty SuggestyはGPT-3によってパワードされ、Googleの検索に人間のような回答を提供します。 ChatGPT Sidebar ChatGPT…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us