Learn more about Search Results この - Page 7

中国からのこのAI論文では、「モンキー」という新しい人工知能のアプローチが紹介されていますこれは、大規模なマルチモーダルモデルで入力の解像度と文脈関連性を向上させるための方法です

大規模なマルチモーダルモデルは、テキストや画像を含むさまざまなデータを処理し分析する能力があるため、ますます人気が高まっています。学界では、画像のラベリング、ビジュアルな質問への回答など、さまざまなマルチモーダルな活動でその知識が認識されています。LLaVA、MiniGPT4、mPLUG-Owl、Qwen-VLなど、最先端のモデルは、この分野での迅速な進歩の例です。ただし、特に複雑なシナリオの取り扱い時には、さまざまな画像解像度の幅広さや、トレーニングデータの品質の必要性など、いくつかの障害があります。画像エンコーダは改善され、大規模なデータセットが使用されて入力解像度を増やすことで、これらの困難を克服するための取り組みがなされています。 さらに、LLaVAは、マルチモーダルな状況での指示調整を革新的に拡張することで、マルチモーダルな指示に従うデータを統合しています。しかし、これらの手法は頻繁に画像の入力サイズを持続可能に管理し、かつ大規模なトレーニングコストに対処するための支援が必要です。データセットが大きくなるにつれて、画像とテキストの関連性の微妙なニュアンスを理解するために、より複雑な画像の説明が必要とされる状況が増えてきます。これは、COYOやLAIONなどのデータセットで見られる簡潔な一文のキャプションで満たされる必要がある条件です。これらの制約により、華中科技大学と金山研究所の研究者らは、Monkeyと呼ばれるLMMパラダイムのコンテキストで入力解像度を高めるためのリソース効率の良い技術を提案しています。既存のLMMを活用することで、時間のかかる事前トレーニングプロセスを回避することができるため、大規模なオープンソースの作業が豊富に存在していることに感謝します。 研究チームは、高解像度の画像をより管理しやすく、局所的な部分に分割するためのスライディングウィンドウアプローチを使用するシンプルかつ効率的なモジュールを提案しています。静的なビジュアルエンコーダ、複数のLoRA修正、および訓練可能なビジュアルリサンプラは、各パッチを個別にエンコードします。その後、言語デコーダには、これらのパッチのエンコーディングとグローバルな画像のエンコーディングが与えられ、より良い画像理解が行われます。また、BLIP2、PPOCR、GRIT、SAM、ChatGPT OpenAIなどの多くのジェネレータからのマルチレベルの手がかりを組み合わせた技術も開発し、豊富で高品質なキャプションデータを提供しています。 まず、彼らのモデルの画像キャプショニングの割り当ては、画像のさまざまなアクセサリやバックドロップの赤い旗など、間違いや抜けがなくほぼすべての側面を正確に説明することができます。キャプションに含まれる茶色のバッグは、写真をよく見ないとすぐには明らかでないかもしれませんが、モデルの説明では強調されています。この小さなヒントにより、モデルは確実に検証することができなくても理に適った結論を導くことができます。これにより、モデルは小さなアイテムにも注意を払い、論理的かつ正確な説明を提供する能力を示しています。ビジュアルの詳細な説明の提供だけでなく、モデルはさまざまな言語とそれらに対応する信号を区別することもできます。 この情報を使用することで、Monkeyによる写真の効用を合理的に予測することができます。写真の水印である “life quotes Tumblr” に “e” が欠けていても、モデルはそれに関する質問に答えることができます。これは、トレーニング後により高い解像度の写真の小さなテキストを読む能力を示しています。さらに、モデルが “October 6, 1966” という日付に関する質問に正しく応答することで、チャートからデータを読み取り、濃密なテキスト素材の中から適切な応答を特定する能力も示されています。この現象は、モデルが特定のテキストとそれに対応する目標の整合性を正確に表現できる能力を示し、濃密であいまいなテキストでもクエリに正確に応答する能力と、目的と全体的な知識の関連性を強調しています。 Monkeyの利点は次のようにまとめられます: 1. コンテキスト内の関連性。研究チームは、説明の生成においてさまざまなターゲット間の関係を理解し、テキスト説明を作成する際に共通の知識をより効果的に探索するためのマルチレベル戦略を提案することで、モデルの能力を向上させています。これにより、より深い洞察と詳細な結果が生み出されます。 2. 事前トレーニングなしで、1344 x 896までの解像度をサポート。LMMに通常使用される448 x…

このAI論文では、「Lightning Cat」というスマート契約の脆弱性検出ツールを紹介していますこれは、深層学習をベースにしたツールです

スマートコントラクトは、分散型アプリケーションの開発においてブロックチェーン技術で重要な役割を果たしています。スマートコントラクトの脆弱性は、潜在的な財務損失やシステムのクラッシュといった重大な脅威をもたらします。静的解析ツールなど従来の脆弱性検出方法は、事前に定義されたルールに依存するため、偽陽性や偽陰性が頻繁に発生します。この問題に対応するため、中国のSalus Securityの研究チームが「Lightning Cat」という新しいAIソリューションを導入し、スマートコントラクトの脆弱性検出に深層学習技術を活用しています。 論文の要点は3つの部分に分けられます。まず、スマートコントラクトの脆弱性検出に深層学習手法を活用したLightning Catソリューションの紹介です。次に、重要なデータ前処理手法が提案されており、CodeBERTを通じた意味的な特徴の抽出に重点が置かれています。最後に、実験結果はOptimised-CodeBERTが他のモデルより優れた性能を示していることを示しています。 研究者たちは、静的解析ツールの制限に取り組み、Lightning Catフレームワーク内に3つの最適化された深層学習モデル(Optimised-CodeBERT、LSTM、CNN)を提案しています。CodeBERTモデルは、スマートコントラクトの脆弱性検出の特定のタスクに対応するためにファインチューニングされた、事前学習済みのトランスフォーマーベースのモデルです。意味解析能力を向上させるために、研究者たちはデータ前処理でCodeBERTを使用し、コードの構文と意味に対するより正確な理解を可能にしています。 実験はSolidiFIベンチマークデータセットを使用して行われました。これには、7つの異なるタイプの脆弱性が含まれた9369の脆弱なコントラクトが注入されています。結果は、Optimised-CodeBERTモデルが優れた93.53%のf1スコアを達成し、脆弱性の特徴を正確に抽出する重要性が示されています。データ前処理におけるCodeBERTの使用は、構文と意味のより正確な把握に貢献しています。 研究者たちは、Lightning Catを静的解析ツールを超えるソリューションと位置付け、深層学習を活用して適応し続けることを強調しています。データ前処理においてCodeBERTが効果的に使用され、構文と意味の両方を捕捉する能力が評価されています。Optimised-CodeBERTモデルの優れたパフォーマンスは、脆弱性の特徴の抽出における精度によります。 結論として、研究者たちはスマートコントラクトの脆弱性検出が財務損失を防止し、ユーザーの信頼を保つ上で重要な役割を果たすことを主張しています。深層学習に基づくアプローチと最適化されたモデルを備えたLightning Catは、精度と適応性の面で既存のツールを凌駕する有望なソリューションとして浮上しています。

「ゲームの名門生(SoG)と呼ばれる、新しいAIシステムをチェックしてみてくださいこのシステムは、様々なゲームで人間に勝つことができ、さらに新しいゲームのプレイ方法を学んでいく能力を持っています」

ゲームを人工知能のパフォーマンス指標として使用する伝統が長くあります。検索と学習ベースのアプローチは、さまざまな完全情報ゲームで高い性能を発揮しましたが、ゲーム理論に基づいた手法はいくつかの不完全情報ポーカーバリエーションで高い性能を発揮しました。EquiLibre Technologies、Sony AI、Amii、MidjourneyとGoogleのDeepMindプロジェクトとの協力により、指向性検索、セルフプレイ学習、ゲーム理論的推論を組み合わせ、従来の努力を統一する汎用アルゴリズムであるStudent of Gamesを提案します。高い経験的パフォーマンスを持つStudent of Gamesは、大規模な完全および不完全情報ゲームにおいて、任意の状況に適用可能な普遍的なアルゴリズムを開発するための重要な一歩です。計算力と近似能力の向上により、Student of Gamesは堅牢であり、最終的には完全なプレーを達成します。Student of Gamesはチェスと碁で強力なパフォーマンスを発揮し、ヘッズアップノーリミットテキサスホールデムポーカーで最強の公開可能なエージェントに勝利し、スコットランドヤードの最新技術のエージェントにも勝利します。この不完全情報ゲームは、誘導検索、学習、ゲーム理論的推論の価値を示しています。 人工知能が進歩したことを示すために、コンピュータにボードゲームをプレイする方法を教え、それを向上させて人間を打ち負かすようになりました。この最新の研究により、チームは人工一般知能の創造に向けて大きな進歩を遂げています。コンピュータは以前は不可能と考えられていたタスクを実行できるようになった場合、人工一般知能が作成されます。 ほとんどのボードゲームをプレイするコンピュータは、チェスなどの1つのゲームをプレイするために設計されています。このようなシステムは制約された人工知能の形を作り出しています。この新しいプロジェクトの研究者たちは、多様な能力を必要とするゲームで競争できるインテリジェントシステムを開発しました。 SoG(”Student Of Games”)とは何ですか? 検索、学習、ゲーム理論的分析を1つのアルゴリズムに組み合わせたSoGは、多くの実用的な応用があります。SoGには、CVPNの学習と音響セルフプレイを含むGT-CFR(Growing-Tree Counterfactual Regret Minimization)技術があります。特に、SoGは最適および非最適情報ゲームに対する信頼性の高いアルゴリズムです:コンピュータリソースが向上するにつれて、SoGは最小最適技術のより良い近似値を生成することが保証されています。この発見は、検索を使用してテスト時の近似の改善につながるので、純粋な強化学習システムでは使用されないLeducポーカーなどで経験的にも証明されています。 なぜSoGは非常に効果的なのですか? SoGは、Growing-Tree Counterfactual Regret…

中国のこのAI研究は、AIの幻覚を探求する:大型言語モデルにおける幻視に深く潜る

大型言語モデルは最近、自然言語処理におけるパラダイムの変化をもたらし、以前には考えられなかった言語の創造、理解、推論の進歩をもたらしました。しかし、LLMの急速な発展と共に共起する懸念すべき傾向は、信憑性があるように思える情報を誘発し、事実の裏付けがないというものです。現在の幻覚の定義は、それらが与えられたソースコンテンツに対して不合理であるかまたは不忠実であると説明しており、以前の研究と一致しています。元の素材との不一致の程度に基づいて、これらの幻覚は内在的な幻覚と外在的な幻覚のカテゴリーにさらに分けられます。 タスク固有のバリアントが存在しますが、このカテゴリはいくつかの自然言語生成の仕事で共有されています。タスク固有のモデルと比較して、LLMはその優れた適応性と優れた性能のため、特にオープンドメインの応用において、幻覚を引き起こす可能性が高いです。LLM内では、幻覚は事実の不正確さに主眼を置いたより広範かつ包括的な概念であり、その幻覚タクソノミーはLLMの進化に合わせて関連性と柔軟性を向上させるために修正する必要があります。中国の哈爾滨工业大学と Huawei の研究チームがこの研究で幻想的なタクソノミーを再分類し、LLMの応用により専門化された基盤を提供しています。 彼らは幻覚を主に2つのカテゴリに分けています:忠実度幻覚と事実性幻覚。事実性の幻覚では、作成されたコンテンツと検証された現実世界の事実との違いに重点が置かれます;これらの違いは通常、でっち上げや事実の不一致として現れます。例えば、図1に示すように、月に初めて足を踏み入れた人物に関する質問に対して、モデルは1951年にチャールズ・リンドバーグがそうしたと自信を持って回答するでしょう。しかし、1969年のアポロ11号のミッションにより、ニール・アームストロングが初めて月に足を踏み入れました。一方、「信頼性の幻想」は生成されたコンテンツがユーザーの指示や入力の文脈からの不一致や離反を表す用語です。 図1に見られるように、ニュースストーリーを説明するように求められた際にイスラエルとハマスの対立に関する出来事の日付を間違ってしまい、2023年10月を2006年10月と誤解するモデルが生成しました。彼らはまた、事実性を検証可能なソースの存在に応じて、事実の不一致と事実のでっち上げの2つのサブカテゴリに細分化しています。彼らはユーザーの視点から不一致を解消することに重点を置き、論理的な、文脈的な、指示的な不一致に分類しています。これにより、現在のLLMの使用方法により一致するようになりました。これはNLGのタスクの文脈で調査されてきましたが、幻覚の根本的な原因は最新のLLMにとって特別な困難をもたらし、さらなる研究が必要です。 図1:LLMの幻覚を自然な形で示したイラスト 彼らの徹底的な調査は、LLMにおける幻覚の特定の原因に焦点を当てており、トレーニングやデータから推論フェーズまで、幅広い関連要素を扱っています。この枠組みの中で、不十分なソースや未活用のリソース、不十分なトレーニング戦略による事前トレーニングやアライメントの幻覚、および推論中の確率的デコーディング手法や不正確な表現に起因する幻覚など、データ関連の原因が考えられます。 さらに、彼らはLLMにおける幻覚を特定するための効率的な検出技術の詳細な説明と、LLMの幻覚の度合いを評価するためのベンチマークの包括的な概要を提供しています。また、幻覚の認識源を軽減するために設計された徹底的な戦術も提供しています。彼らは、この研究がLLMの分野をさらに発展させ、LLMの幻覚に関連する潜在的な利点と困難についての洞察を提供することを期待しています。この調査により、既存のLLMの欠点に対する理解が改善され、さらなる研究とより信頼性のある強力なLLMの作成に向けた重要な方向性も提供されます。

このAI研究では、優れた画像分類のためにランダムスライスデータ拡張(RSMDA)を提案します:ニューラルネットワークの精度と堅牢性を向上させるための新しいアプローチ

データ拡張は深層学習における重要な技術であり、既存のサンプルを変更して新しいトレーニングデータを作成することを含みます。それはトレーニングデータを多様化させ、モデルが新しい未知の例にも適応できる能力を向上させるために不可欠です。既存のサンプルのバリエーションを作成することで、過学習を防ぎ、モデルがより堅牢で適応性のある特徴を学ぶのを助けます。これは実世界のシナリオで正確な予測をするために重要です。 人気のある方法の1つは、イメージ単位のデータ拡張で、画像の一部をランダムに削除したり変更したりする方法です。最先端のデータ拡張技術には、適応的ドロップアウトや空間ドロップアウトなどのドロップアウト手法を含み、過学習を抑制することを目指しています。CutOut、Random Erasing(RE)、Hide and Seek(HS)、GridMaskなどのイメージ単位のアプローチは、個々の画像を変更して堅牢性を高めるためのものであり、重要な特徴を失う可能性があります。MixUp、CutMix、RICAP、IMEDAなどのマルチイメージベースの方法は、データセットを多様化し、モデルのパフォーマンスを向上させるために複数の画像を組み合わせます。 この文脈において、ダブリンシティ大学、UCD、ガルウェイ大学の研究者から提案された「ランダムスライスミキシングデータ拡張(RSMDA)」という新しい技術があります。RSMDAは、異なる方法で画像のスライスを混合することで、単一画像ベースの拡張手法の課題に取り組みます。RSMDAは、1つの画像のスライスを他の画像と組み合わせて第3の画像を生成することで、トレーニングデータセットを多様化します。さらに、この方法では、元の画像のラベルを変更して新しい画像の拡張ラベルを作成し、ラベルのスムージングを通じてトレーニングプロセスを向上させます。 具体的には、RSMDAは5つのステップに従います: トレーニングサンプルの選択:2つの画像とそれに対応するラベルが選ばれます。 画像のブレンド:RSMDAは、これらの画像の一部を組み合わせて新しい画像を作成します。2つの画像からセクションを選択し、バイナリマスクを使用して結合します。 ラベルの調整:組み合わせた画像のラベルも、選択した比率に基づいて調整されます。これにより、ラベルが組み合わせた画像に合うようになります。 スライスと混合:画像の一部を無作為に選択し、結合した画像を形成するために混合します。RSMDAでは、この混合プロセスに3つの戦略があります:行ベース、列ベース、またはその両方の組み合わせ。 拡張サンプルの作成:1つの画像から選択した部分を、選択した混合戦略に従って他の画像に貼り付けます。このプロセスにより、トレーニングに使用する新しい画像-ラベルのペアが生成されます。 RSMDAは、さまざまなデータセットとネットワークアーキテクチャで徹底的に評価されました。実験を通じて、RSMDAはRSMDA(R)として知られる、行ベースの混合を示しています。この特定の戦略、RSMDA(R)は、基準モデルと既存の拡張手法と比較してエラーレートの低下において一貫して優れたパフォーマンスを発揮しました。さらに、RSMDAは、グレースケールとカラーデータセット全般にわたって、伝統的な拡張方法に比べて顕著な耐アドバーサル攻撃性を示しました。クラスアクティベーションマップの可視化により、RSMDAがCutMixなどの高度な拡張手法と同様の識別的な特徴を学習することが確認されました。これらの実験は、RSMDAが深層学習アプリケーションにおけるモデルの性能、堅牢性、特徴学習を向上させる能力を示しています。 本論文では、「ランダムスライスミキシングデータ拡張(RSMDA)」という新しいデータ拡張技術が紹介され、厳密に評価されました。RSMDAは画像の一部を組み合わせて多様なトレーニングサンプルを生成し、単一画像ベースの手法の制限に取り組んでいます。行ベースの混合に焦点を当てた戦略であるRSMDA(R)は、エラーレートの低下において既存の技術を一貫して上回り、さまざまなデータセットに対するアドバーサル攻撃に対して堅牢性を示しました。CutMixなどの高度な拡張手法と類似する特徴学習能力を持つことが、クラスアクティベーションマップによって確認されました。全体として、RSMDAは深層学習アプリケーションにおけるモデルの性能、堅牢性、特徴学習の向上において有望な手法として浮上しています。

このAI論文は、オープンソースライブラリの既存の機能を最大限に活用するために開発された新しい人工知能アプローチ、ML-BENCHを提案しています

LLMモデルは、さまざまなプログラミング関連の活動を実行できる強力な言語エージェントとして、ますます展開されています。これらの驚異的な進展にもかかわらず、静的な実験環境でこれらのモデルが示した能力と、実際のプログラミングシナリオの絶えず変化する要求との間には、相当な隔たりがあります。 標準のコード生成ベンチマークは、LLMがゼロから新しいコードを生成する能力をテストします。しかし、プログラミングの慣行は滅多にすべてのコードコンポーネントをゼロから生成する必要はありません。 実世界のアプリケーションのコードを書く際には、既存の公開されているライブラリを使用することが一般的な慣習です。これらの開発済みライブラリは、さまざまな課題に対する堅牢で実践済みの回答を提供します。そのため、コードLLMの成功は、機能の生成だけでなく、正しいパラメータの使用方法でオープンソースライブラリから派生したコードの実行能力など、さまざまな方法で評価されるべきです。 イェール大学、南京大学、北京大学の新しい研究では、ML-BENCHという現実的で包括的なベンチマークデータセットを提案しています。このデータセットは、LLMの利用者の指示を理解し、GitHubのリポジトリをナビゲートし、実行可能なコードを生成する能力を評価するものです。ML-BENCHは、指示の要件を満たす高品質で指示可能な正解コードを提供しています。ML-BENCHは、130のタスクと14の人気のある機械学習のGitHubリポジトリからなる9,444の例を含んでいます。 研究者たちは、Pass@kとParameter Hit Precisionを調査の指標として使用しています。これらのツールを使用して、彼らはGPT-3.5-16k、GPT-4-32k、Claude 2、およびCodeLlamaがML-BENCH環境での能力を探求します。ML-BENCHはLLMのための新しいテストを提案しています。経験的な結果は、GPTモデルとClaude 2がCodeLlamaを大きく上回っていることを示しています。GPT-4は他のLLMよりも明らかに性能が向上していますが、実験でのタスクのうち39.73%しか完了していません。他のよく知られたLLMは幻覚を経験し、期待通りの成果を上げていません。調査の結果からは、LLMはコードの記述だけでなく、長いドキュメンテーションの理解も必要としていることが示唆されています。その主要な技術的貢献は、彼らのエラー分析を通じて発見された不足点に対処するために設計された自律型の言語エージェントであるML-AGENTの提案です。これらのエージェントは、人間の言語と指示を理解し、効率的なコードを生成し、困難なタスクを遂行する能力を持っています。 ML-BenchとML-Agentは、自動化された機械学習プロセスの最先端の進歩を表しています。研究者たちは、この成果が他の研究者や実務家にも興味を持ってもらえることを期待しています。

このAI論文は、効率的な水素燃焼予測のための画期的な機械学習モデルを紹介しています:「ネガティブデザイン」および反応化学におけるメタダイナミクスを活用しています

ポテンシャルエネルギーサーフェス(PES)は、原子または分子の位置とそれに関連するポテンシャルエネルギーの関係を表します。PESは分子の挙動、化学反応、物質の特性を理解する上で不可欠です。これらのサーフェスは、構成要素の原子または分子の位置が変化するにつれてシステムのポテンシャルエネルギーがどのように変化するかを記述します。これらのサーフェスはしばしば高次元で複雑であり、特に大きな分子またはシステムの場合には正確な計算が難しいです。 機械学習(ML)モデルの信頼性は、特に化学反応系の場合、高エネルギー状態を経験する必要があるため、トレーニングデータの多様性に強く依存します。MLモデルは、既知のトレーニングデータの間を補間しますが、予測はトレーニングセット内の分子や構成と似ていない場合には信頼性が低くなる可能性があります。 特定の反応系のためにバランスの取れた多様なデータセットを作成することは難しいです。機械学習モデルは依然として過学習の問題に苦しむことがあり、元のテストセットでは正確さが高いモデルでも、MDシミュレーションに適用するとエラーが発生する可能性があります。特にエネルギーの構成が非常に多様なガス相化学反応の場合です。 カリフォルニア大学、ローレンスバークレー国立研究所、ペンシルベニア州立大学の研究者は、最初の系統的なサンプル用の共通変数(CV)を用意することで、最初に設計された水素燃焼データセットを拡張するアクティブラーニングALワークフローを構築しました。彼らの研究は、PESのより完全なMLモデルを作成するために負の設計データ収集戦略が必要であることを反映しています。 このアクティブラーニング戦略に従うことで、彼らはより多様かつバランスの取れた最終的な水素燃焼MLモデルを実現しました。MLモデルは再トレーニングなしで正確な力を回復させ、軌道を続けることができました。彼らは水素燃焼における有限温度と圧力での遷移状態の変化と反応機構を予測することができました。 彼らのチームは、アクティブラーニングアプローチをRxn18の例で示しました。この例では、ポテンシャルエネルギーサーフェスが2つの反応座標、CN(O2-O5)とCN(O5-H4)に投影されました。MLモデルのパフォーマンスは、AIMDと正規モード計算から導かれた元のデータポイントを分析することによって追跡されました。アクティブラーニングのラウンドが進むにつれてメタダイナミクスシミュレーションを使用してサンプリングし、エラーが減少しました。 彼らは、メタダイナミクスを不安定な構造の効率的なサンプリングツールとして見つけ、そのようなデータを使用してMLモデルを再トレーニングすることによって、ALワークフローを通じてPESランドスケープの穴を特定するのに役立ちます。メタダイナミクスをサンプリングツールとしてのみ使用することにより、トリッキーなCV選択ステップを回避できます。彼らの将来の仕事には、デルタ学習のような別のアプローチの分析やC-GeMのようなより物理的なモデルでの作業も含まれています。

このAI研究では、ドライブ可能な3Dガウスアバター(D3GA)を提案します:ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです

印象派は匿名の画家、彫刻家、版画家などからなる協会によって19世紀に創設された芸術運動であり、「かろうじて形を伝えることのできる、短く切れた筆使い」が特徴です。最近の研究では、印象派が避けたような写真で人間の主題をできるだけ現実的に描写することが可能になっています。 一眼カメラの技術では正確さに欠けるため、ドライブ可能(新しいコンテンツを生成するためにアニメーション化できる)な写真の人間を写実的に生成するには、現在は広範なマルチビューデータが必要です。さらに、現在の手法では正確な3Dレジストレーションなどの緻密な前処理が必要とされます。しかし、これらのレジストレーションを得るためには、エンドツーエンドのワークフローに容易に組み込むことができない反復プロセスを使用する必要があります。正確なレジストレーションを必要としない他のアプローチは、ニューラル輻射場(NeRFs)に基づいています。これらのアプローチは、特定の例外を除いて衣服のアニメーションを描写するのに苦労するか、リアルタイムの描写にはあまりにも遅すぎます。 Meta Reality Labs Research、Technical University of Darmstadt、Max Planck Institute for Intelligent Systemsの研究者たちは、放射場ではなく、3Dガウスを使用して3D人間の外見と変形を規範的な空間で表現しています。ガウス放射場は、生きている、再配置可能なキャラクターの体形と美的感覚に合うような、クイックな筆使いの代替として使用されます。ガウス放射場では、カメラの光線のサンプリングを含むいかなるハックも必要ありません。ドライブ可能なNeRF内のポイントは、リニアブレンドスキニング(LBS)を使用して観測空間から規範的な空間に変換されることがよくあります。一方、D3GAは、3Dガウス体積を用いてヒトをモデル化し、それゆえにボリュームから規範的な空間へのマッピングが必要です。 研究者たちはLBSの代わりに、ケージという他の確立された変形モデルを使用しており、このモデルはボリューム変換に適しています。ケージの変形勾配は、規範的な空間でのケージの変形によって生成されたものであり、3Dガウス表現に直接適用されます。このアプローチは、胴体、顔、衣服をケージを使用して別々に表現することができる合成構造に基づいて構築されています。ケージの歪みが発生する原因を特定するための残る謎があります。現在のドライブ可能なアバターの最先端は、RGB-D画像やマルチカメラセットアップなどの密な入力信号を要求しており、テレプレゼンスアプリケーションの低帯域幅接続には適さない場合があります。研究チームは、ヒトの姿勢に基づいたより短縮された入力を使用しました。この入力は骨格関節角度と3D顔のキーポイントのクォータニオン表現を含みます。彼らは9つの高品質なマルチビューシーケンスを使用して、どの主題からでも新しいポーズで駆動できる個人固有のモデルを学習しました。さまざまな体形、動き、衣服(きつくフィットする必要はない)をカバーしています。 この手法は高品質の出力を生成し、テスト時にFFDメッシュや画像などのより多くの情報を利用する方法と同等の入力と競合しながら、最先端の状態を上回る成果を挙げています。さらに、提案された技術はデータの処理時間を削減し、幾何学的な領域と外見モデリングにおいて有望な結果を得るために、正確なジオメトリ情報を必要としません。

このフィンランド拠点のAIスタートアップがポロを発表:革命的なオープンソース言語モデルは、ヨーロッパの多言語AI能力を向上させます

ヨーロッパの言語に対して、英語よりもデータが少ない場合に大規模な言語モデルを作成することは、人工知能の世界では困難です。テックワールドの企業たちはこの問題に取り組んでおり、最近、フィンランドのヘルシンキに拠点を置くスタートアップ企業がこの問題に対する新しい解決策を提案しました。 この前までは、いくつかの言語モデルが利用可能でしたが、それらは通常特定の言語に固有で、データが少ない言語に対しては性能が向上できる可能性がありました。問題は、これらのモデルがヨーロッパの各言語の固有の特性、文化、価値基盤を捉える必要があったということです。既存の解決策は限定的であり、より包括的なものが必要でした。 今では、フィンランドのAIスタートアップがPoroというオープンソースのソリューションを開発しました。これは、欧州連合の公用語である24の言語をカバーすることを目指した大規模な言語モデルです。そのアイデアは、ヨーロッパの言語の多様性を理解し表現するモデルの系列を作ることです。このスタートアップは、これがデジタル主権にとって重要であり、これらのモデルによって生み出される価値がヨーロッパにとどまるようにする必要があると考えています。 Poroは、フィンランド語などのデータが少ない言語のための言語モデルのトレーニングの課題に取り組むために設計されています。クロスリンガルトレーニングの手法を使っており、よりデータが豊富な言語(例: 英語)のデータから学び、データが少ない言語におけるパフォーマンスを向上させるのです。 Poro 34Bモデルは、342億のパラメータを持ち、ALiBiエンベッディングと呼ばれるユニークなアーキテクチャであるBLOOM変換子を使用しています。これは、PythonやJavaなどの言語やプログラミング言語をカバーする大規模なマルチリンガルデータセットでトレーニングされます。そのトレーニングは、ヨーロッパで最速のスーパーコンピュータの1つで行われ、膨大な計算能力を提供します。 スタートアップは、モデルのトレーニングプロセス中にチェックポイントをリリースし、進捗状況を示しています。Poroは30%の進捗でも最先端の結果を示しており、テストではフィンランド語において既存のモデルを上回り、英語のパフォーマンスに追いつくかそれを超える見込みです。 まとめると、Poroはヨーロッパの言語にとって、AIにおける一歩前進を意味します。パワフルな言語モデルを作成するだけでなく、オープンで透明性のある方法でこれを行い、ヨーロッパの言語と文化の多様性を尊重することが重要です。成功すれば、Poroは主要なテック企業からの言語モデルに代わる国産の選択肢となり得る可能性があります。 記事「This Finland-Based AI Startup Unveils Poro: A Revolutionary Open Source Language Model Boosting European Multilingual…

このAI論文では、リーマン幾何学を通じて拡散モデルの潜在空間の理解に深入りします

人工知能や機械学習の人気が高まる中で、自然言語処理や自然言語生成などの主要なサブフィールドも高速に進化しています。最近の導入である拡散モデル(DM)により、画像編集、逆問題、テキストから画像への合成など、様々なアプリケーションで優れたパフォーマンスが示されています。これらの生成モデルは多くの評価と成功を受けていますが、彼らの潜在空間とそれが生み出す出力についての知識は少ないです。 完全に拡散した画像は通常、潜在変数と見なされますが、出力を制御するための関連する品質が欠けているため、潜在空間を特定の方向に移動すると予期せず変化します。最近の研究では、拡散カーネル内部に表される字Hで表される中間特徴空間のアイデアが提案されました。他の研究では、クロスアテンションやセルフアテンション操作の特徴マップについてのもので、これらは意味セグメンテーションやサンプルの品質向上、結果の制御の向上に影響を与えることができます。 これらの進展にも関わらず、{xt}の潜在変数を含む空間Xtの構造はまだ探索が必要です。これは、DMのトレーニングの性質に起因するものであり、一般的な分類や類似性などの従来の監視とは異なり、モデルは入力に独立して前方ノイズを予測します。さらに、複数の再帰的な時間ステップ上にわたるいくつかの潜在変数の存在により、研究はさらに複雑になります。 最近の研究では、研究チームが空間Xtとそれに対応する表現Hを調査することで、これらの課題に取り組んでいます。リーマン幾何学の引き戻しメトリックは、研究チームがローカルジオメトリをXtに統合するために提案した方法です。チームは分析のために幾何学的な視点を取り入れ、DMのエンコーディング特徴マップに関連する引き戻しメトリックを使用して、X内のローカル潜在基盤を導出しました。 チームは、この研究を通じて画像変更を可能にするために重要なローカル潜在基盤を発見したと共有しています。これにより、予め定められた時間ステップにおいてベクトル基底方向にDMの潜在空間を操作することが可能になりました。これにより、トレーニングの必要性なしに変更を一度だけ特定の時間ステップtで適用することができます。 チームはまた、異なるテキスト状況での分散の評価とDMの幾何学構造の拡散時間ステップにおける変化の評価も行っています。この分析により、コースからファインな生成の広く認識された現象が再確認され、データセットの複雑さとテキストプロンプトの時間的に変化する効果も明らかになりました。 結論として、この研究は唯一無二であり、追加のトレーニングが必要なく、特定の時間ステップで特定の変更が可能なx空間のトラバーサルによる画像変更を提案しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us