Learn more about Search Results A - Page 61

UC Berkeleyの研究者たちは、ディープラーニングにおいて効率的なデータ圧縮とスパース化を実現するための新しいホワイトボックストランスフォーマーであるCRATEを提案しています

最近、深層学習の実用的な成功は、高次元で多様なデータの処理とモデリングにおけるもので、指数関数的に成長しています。この成果の多くは、ディープネットワークがデータ内に圧縮可能な低次元構造を見つけ、それらの発見を経済的な、つまりコンパクトで構造化された表現に変換する能力に起因しています。このような表現は、ビジョン、分類、認識、セグメンテーション、生成など、後続の多くのタスクを容易にします。 整理された簡潔な表現を学ぶため、カリフォルニア大学バークレー校、トヨタテクノロジカル研究所(シカゴ)、上海科技大学、ジョンズ・ホプキンス大学、イリノイ大学、香港大学の研究者たちは、一つの目標を提案しています:良質な基準の測定です。彼らの研究では、表現学習の最も一般的な目標の一つは、データ(ここではトークンセット)の表現を格納する空間の次元を減らすことであり、それをガウス混合分布に適合させ、非関連な部分空間で補完します。このような表現の良さは、獲得された表現の内部情報ゲインと外部スパース性を同時に最適化する原理的な指標であるスパースレート削減を用いて評価することができます。この指標を最大化するための反復的な手法は、トランスフォーマーなどの一般的なディープネットワーク設計を意味します。具体的には、この目標の異なる側面に対して交互に最適化を行い、トランスフォーマーブロックを導出します。まず、多重自己注意オペレータは、特徴の符号化レートに関する近似的な勾配降下ステップを用いて表現を圧縮し、次に、後続の多層パーセプトロンが特徴を指定します。 これにより、最適化の対象、ネットワークオペレータ、学習された表現がすべて数学的に完全に解釈可能な「ホワイトボックス」として、トランスフォーマーに似たディープネットワーク設計に至りました。彼らは、このタイプのホワイトボックスであるディープアーキテクチャをコーディングレートトランスフォーマーと呼びます。チームはまた、これらの増分写像が分布的意味で逆可能であり、逆演算は同じオペレータファミリーからなることを厳密な数学的証明で示しています。したがって、エンコーダ、デコーダ、およびオートエンコーダは、ほぼ同じクレートデザインを使用して実装することができます。 このフレームワークが理論と実践のギャップを実際に埋めることができるかどうかを示すために、研究者たちは画像とテキストデータの両方で広範な実験を行い、クレートモデルの実践的なパフォーマンスを評価しました。従来のトランスフォーマー(ViT、MAE、DINO、BERT、GPT2など)と比べて、クレートはすべてのタスクと設定でそのブラックボックスの対応物と競争力のあるパフォーマンスを示しました。これには、教師あり学習による画像分類、教師なしの画像や言語データのマスク補完、教師なしの特徴学習などのタスクが含まれます。さらに、クレートモデルは多くの有用な機能を持っています。オブジェクトを背景から容易に分割し、共有パーツに分割することでセマンティックな意味を示します。各層とネットワークオペレータには統計的および幾何学的な意味があります。提案された計算パラダイムは、ディープラーニングの理論と実践をデータ圧縮の統一的な観点から接続することで、大きな約束を示していると考えています。 チームは、限られたリソースで上記のすべてのタスクにおいて最先端のパフォーマンスを目指すわけではなく、重いエンジニアリングや大規模な微調整が必要な場合もなく、現在の産業規模でモデルを構築してテストすることもできません。彼らがこれらの雑用のために開発したソリューションは、一般的に汎用的でタスク固有の柔軟性に欠けるものです。しかし、彼らはこれらの研究が、これらのデータから構築されたホワイトボックスのディープネットワーククレートモデルが普遍的に効果的であり、将来のエンジニアリングの研究開発の堅固な基盤を提供していることを合理的な疑いを越えて証明したと考えています。 大規模な実世界(画像またはテキスト)のデータセットおよびタスク(識別および生成)において、教師あり、教師なし、および自己教師ありの状況で、これらのネットワークはおそらく利用可能なアーキテクチャの中で最もシンプルながら、経験豊富なトランスフォーマーと同等のパフォーマンスを発揮すると考えています。彼らは、この研究が、トランスフォーマーなどのディープネットワークに基づく現在のAIシステムの全ポテンシャルを明らかにする新たな視点を提供していると信じています。

メタリサーチは、システム2アテンション(S2A)を導入します:入力コンテキストの重要な部分を決定するためのAI技術で、優れた応答を生成する能力がございます

大型言語モデル(LLM)は、さまざまな言語タスクにおいて非常に優れた能力を示していますが、非常に単純なミスを犯すことがあります。関連性のない文脈から誤った判断をすることがあったり、シコファンシーと呼ばれる問題を示すこともあります。シコファンシーとは、モデルが入力テキストに同意するものの、それが間違っている場合です。研究者たちは、教師ありトレーニングデータを増やすことや、強化学習の戦略を用いることでこれらの問題に取り組んできました。しかし、より効果的な解決策は、トランスフォーマーのアーキテクチャに潜在的なボトルネックを修正することです、特にアテンションメカニズムです。 トランスフォーマー内のソフトアテンションは、関連のない塊を含む大部分の入力テキストに重要性を付ける傾向があります。さらに、トレーニングの方法により、繰り返されたトークンに重点を置きすぎるため、上記の問題が生じることがあります。Metaの研究チームが紹介したSystem 2 Attention(S2A)という新しい手法は、命令にチューニングされたLLMを利用して、入力コンテキストの最も関連性のある部分を特定・抽出し、不必要な情報の影響を軽減するものです。この方法のさらなる利点は、人間が注意を扱う方法と同様に、LLMの注意の焦点を制御することが可能となることです。 トランスフォーマー内のアテンションメカニズムは、テキスト内の相関関係を特定することを可能にします。これはモデルの次の単語予測能力を向上させますが、同じくらい偽相関に惑わされやすくもなります。テキスト内の繰り返し単語の確率は、各反復で増加し、特定のトピックに固執するような正のフィードバックループを作り出します。S2Aの動作方法は、まずコンテキストから不要な部分を削除し、同じものを再生成し、それを元のテキストの代わりに使用して最終結果を出力することです。 研究者たちは、自身の手法のパフォーマンスをテストするためにさまざまな実験を行いました。以下の結果を得ました: S2Aは、意見のある質問に対する事実性の観点からモデルのパフォーマンスを向上させます。 S2Aは、長文生成における客観性を向上させ、意見に易々と惑わされないことを示しています。 さらに、S2Aは、関連のない文を含む数学の問題においてもモデルのパフォーマンスを向上させます。 研究者たちはまた、S2Aの異なるバリエーション(関連性に焦点を当てることや、不必要な単語を削除した後も元のコンテキストを保持することなど)をテストしました。いくつかの実験では、バリエーションは元の手法ほど優れたパフォーマンスを発揮しなかったことがわかりました。 関連性のない情報をバイパスできる方法であるとしても、それには影響を受ける可能性があります。また、通常のLLM再生成に比べて計算コストが高くなります。ただし、この問題はスピードアップのトリックを用いることで解決できる可能性があり、研究者は将来の作業に回す予定です。全体として、S2Aは、LLMがテキストの重要でない部分に執着するのを防止し、モデルの能力を向上させる方法です。この技術は、意見の促進や関連のない文を含む数学の問題に取り組む際のモデルのパフォーマンスを向上させます。しかし、推論力を向上させるためには、さらなる改善の余地が残されており、代替の方法を探求する余地があります。

「ゲームの名門生(SoG)と呼ばれる、新しいAIシステムをチェックしてみてくださいこのシステムは、様々なゲームで人間に勝つことができ、さらに新しいゲームのプレイ方法を学んでいく能力を持っています」

ゲームを人工知能のパフォーマンス指標として使用する伝統が長くあります。検索と学習ベースのアプローチは、さまざまな完全情報ゲームで高い性能を発揮しましたが、ゲーム理論に基づいた手法はいくつかの不完全情報ポーカーバリエーションで高い性能を発揮しました。EquiLibre Technologies、Sony AI、Amii、MidjourneyとGoogleのDeepMindプロジェクトとの協力により、指向性検索、セルフプレイ学習、ゲーム理論的推論を組み合わせ、従来の努力を統一する汎用アルゴリズムであるStudent of Gamesを提案します。高い経験的パフォーマンスを持つStudent of Gamesは、大規模な完全および不完全情報ゲームにおいて、任意の状況に適用可能な普遍的なアルゴリズムを開発するための重要な一歩です。計算力と近似能力の向上により、Student of Gamesは堅牢であり、最終的には完全なプレーを達成します。Student of Gamesはチェスと碁で強力なパフォーマンスを発揮し、ヘッズアップノーリミットテキサスホールデムポーカーで最強の公開可能なエージェントに勝利し、スコットランドヤードの最新技術のエージェントにも勝利します。この不完全情報ゲームは、誘導検索、学習、ゲーム理論的推論の価値を示しています。 人工知能が進歩したことを示すために、コンピュータにボードゲームをプレイする方法を教え、それを向上させて人間を打ち負かすようになりました。この最新の研究により、チームは人工一般知能の創造に向けて大きな進歩を遂げています。コンピュータは以前は不可能と考えられていたタスクを実行できるようになった場合、人工一般知能が作成されます。 ほとんどのボードゲームをプレイするコンピュータは、チェスなどの1つのゲームをプレイするために設計されています。このようなシステムは制約された人工知能の形を作り出しています。この新しいプロジェクトの研究者たちは、多様な能力を必要とするゲームで競争できるインテリジェントシステムを開発しました。 SoG(”Student Of Games”)とは何ですか? 検索、学習、ゲーム理論的分析を1つのアルゴリズムに組み合わせたSoGは、多くの実用的な応用があります。SoGには、CVPNの学習と音響セルフプレイを含むGT-CFR(Growing-Tree Counterfactual Regret Minimization)技術があります。特に、SoGは最適および非最適情報ゲームに対する信頼性の高いアルゴリズムです:コンピュータリソースが向上するにつれて、SoGは最小最適技術のより良い近似値を生成することが保証されています。この発見は、検索を使用してテスト時の近似の改善につながるので、純粋な強化学習システムでは使用されないLeducポーカーなどで経験的にも証明されています。 なぜSoGは非常に効果的なのですか? SoGは、Growing-Tree Counterfactual Regret…

スタンフォードの研究者たちは、基礎流体力学のための初の大規模な機械学習データセットであるBLASTNetを紹介しました

スタンフォードの研究者たちは、BLASTNetという画期的な開発を紹介し、計算流体力学(CFD)の新たな時代の到来を予感させました。しかしながら、これはまだ機械学習の目的には適していない概念証明でした。同じ研究チームがBLASTNet-2を導入しました。これはAI研究者のチームが丹精込めて編集した画期的なデータセットであり、ロケット推進、海洋学、気候モデリングなど、基本的な流体力学の理解と応用を革新することを約束しています。 数十年にわたり、科学者たちは複雑な流体の振る舞いに取り組んできました。乱流火災から海洋流まで、さまざまな現象を予測・分析するために入り組んだ数学モデルを利用しています。ただし、テキストのためのCommonCrawlや画像のためのImageNetに類似した包括的なデータセットの欠如が、流体力学分野で人工知能の力を活用する進展を妨げてきました。 流体力学の科学的データは非常に高次元であり、テキストや画像とは異なり、通常4次元の構造(3次元の空間次元に時間が結合したもの)を示しています。これにより、解析とモデリングには膨大な計算リソースが必要です。 BLASTNet-2はコミュニティ主導のイニシアチブであり、30以上の異なる設定と約700のサンプルからなる、驚愕の5テラバイトのデータが含まれています。チームは、このデータセットを具現化させるために行われた協力の努力を強調し、フィールドの専門家を結集し、多様なデータを簡単にアクセス可能で機械学習に適した形式に整理したと述べています。 BLASTNet-2の重要性は単なる利便性を超えており、科学コミュニティにおける研究と協力の新たなパラダイムを切り拓いています。流体力学データの中央集権的なプラットフォームを提供することで、BLASTNet-2は流体力学に特化した機械学習モデルの進化を促し、科学者とエンジニアの間で学際的な協力を育んでいます。 BLASTNet-2の応用範囲は、その中に含まれる流体現象と同様に広範囲です。研究者たちは、水素の挙動の解明、再生可能エネルギーのための風力発電所の最適化、乱流モデルの改善、気候モデリングの向上、海洋流の解読、さらには医学や天気予報といった多様な領域にまで影響を及ぼす可能性があるAIモデルのトレーニングにBLASTNet-2を利用することを想定しています。 さらに、BLASTNet-2は学際的な議論のための触媒となり、異なる流体領域の専門家の間での協力を促進します。これに対する科学コミュニティの関心を物語る最近の仮想ワークショップの成功は、革新的なブレイクスルーのためにこのリソースを活用しようとする意欲を象徴しています。 BLASTNet-2が進化し拡大するにつれて、研究者たちは流体力学の未開拓領域に飛び込み、液体や気体の振る舞いについての未知の事象を解明し、AIの力を使って科学的な理解を前進させるための前例のない洞察を得ることを期待しています。 BLASTNet-2の鋳造炉の中で、AIと流体力学の融合が可能性にあふれた未来を呼び込み、包括的な理解と革新的な流体現象への応用に向けた変革の旅が始まります。

中国のこのAI研究は、AIの幻覚を探求する:大型言語モデルにおける幻視に深く潜る

大型言語モデルは最近、自然言語処理におけるパラダイムの変化をもたらし、以前には考えられなかった言語の創造、理解、推論の進歩をもたらしました。しかし、LLMの急速な発展と共に共起する懸念すべき傾向は、信憑性があるように思える情報を誘発し、事実の裏付けがないというものです。現在の幻覚の定義は、それらが与えられたソースコンテンツに対して不合理であるかまたは不忠実であると説明しており、以前の研究と一致しています。元の素材との不一致の程度に基づいて、これらの幻覚は内在的な幻覚と外在的な幻覚のカテゴリーにさらに分けられます。 タスク固有のバリアントが存在しますが、このカテゴリはいくつかの自然言語生成の仕事で共有されています。タスク固有のモデルと比較して、LLMはその優れた適応性と優れた性能のため、特にオープンドメインの応用において、幻覚を引き起こす可能性が高いです。LLM内では、幻覚は事実の不正確さに主眼を置いたより広範かつ包括的な概念であり、その幻覚タクソノミーはLLMの進化に合わせて関連性と柔軟性を向上させるために修正する必要があります。中国の哈爾滨工业大学と Huawei の研究チームがこの研究で幻想的なタクソノミーを再分類し、LLMの応用により専門化された基盤を提供しています。 彼らは幻覚を主に2つのカテゴリに分けています:忠実度幻覚と事実性幻覚。事実性の幻覚では、作成されたコンテンツと検証された現実世界の事実との違いに重点が置かれます;これらの違いは通常、でっち上げや事実の不一致として現れます。例えば、図1に示すように、月に初めて足を踏み入れた人物に関する質問に対して、モデルは1951年にチャールズ・リンドバーグがそうしたと自信を持って回答するでしょう。しかし、1969年のアポロ11号のミッションにより、ニール・アームストロングが初めて月に足を踏み入れました。一方、「信頼性の幻想」は生成されたコンテンツがユーザーの指示や入力の文脈からの不一致や離反を表す用語です。 図1に見られるように、ニュースストーリーを説明するように求められた際にイスラエルとハマスの対立に関する出来事の日付を間違ってしまい、2023年10月を2006年10月と誤解するモデルが生成しました。彼らはまた、事実性を検証可能なソースの存在に応じて、事実の不一致と事実のでっち上げの2つのサブカテゴリに細分化しています。彼らはユーザーの視点から不一致を解消することに重点を置き、論理的な、文脈的な、指示的な不一致に分類しています。これにより、現在のLLMの使用方法により一致するようになりました。これはNLGのタスクの文脈で調査されてきましたが、幻覚の根本的な原因は最新のLLMにとって特別な困難をもたらし、さらなる研究が必要です。 図1:LLMの幻覚を自然な形で示したイラスト 彼らの徹底的な調査は、LLMにおける幻覚の特定の原因に焦点を当てており、トレーニングやデータから推論フェーズまで、幅広い関連要素を扱っています。この枠組みの中で、不十分なソースや未活用のリソース、不十分なトレーニング戦略による事前トレーニングやアライメントの幻覚、および推論中の確率的デコーディング手法や不正確な表現に起因する幻覚など、データ関連の原因が考えられます。 さらに、彼らはLLMにおける幻覚を特定するための効率的な検出技術の詳細な説明と、LLMの幻覚の度合いを評価するためのベンチマークの包括的な概要を提供しています。また、幻覚の認識源を軽減するために設計された徹底的な戦術も提供しています。彼らは、この研究がLLMの分野をさらに発展させ、LLMの幻覚に関連する潜在的な利点と困難についての洞察を提供することを期待しています。この調査により、既存のLLMの欠点に対する理解が改善され、さらなる研究とより信頼性のある強力なLLMの作成に向けた重要な方向性も提供されます。

このAI研究では、優れた画像分類のためにランダムスライスデータ拡張(RSMDA)を提案します:ニューラルネットワークの精度と堅牢性を向上させるための新しいアプローチ

データ拡張は深層学習における重要な技術であり、既存のサンプルを変更して新しいトレーニングデータを作成することを含みます。それはトレーニングデータを多様化させ、モデルが新しい未知の例にも適応できる能力を向上させるために不可欠です。既存のサンプルのバリエーションを作成することで、過学習を防ぎ、モデルがより堅牢で適応性のある特徴を学ぶのを助けます。これは実世界のシナリオで正確な予測をするために重要です。 人気のある方法の1つは、イメージ単位のデータ拡張で、画像の一部をランダムに削除したり変更したりする方法です。最先端のデータ拡張技術には、適応的ドロップアウトや空間ドロップアウトなどのドロップアウト手法を含み、過学習を抑制することを目指しています。CutOut、Random Erasing(RE)、Hide and Seek(HS)、GridMaskなどのイメージ単位のアプローチは、個々の画像を変更して堅牢性を高めるためのものであり、重要な特徴を失う可能性があります。MixUp、CutMix、RICAP、IMEDAなどのマルチイメージベースの方法は、データセットを多様化し、モデルのパフォーマンスを向上させるために複数の画像を組み合わせます。 この文脈において、ダブリンシティ大学、UCD、ガルウェイ大学の研究者から提案された「ランダムスライスミキシングデータ拡張(RSMDA)」という新しい技術があります。RSMDAは、異なる方法で画像のスライスを混合することで、単一画像ベースの拡張手法の課題に取り組みます。RSMDAは、1つの画像のスライスを他の画像と組み合わせて第3の画像を生成することで、トレーニングデータセットを多様化します。さらに、この方法では、元の画像のラベルを変更して新しい画像の拡張ラベルを作成し、ラベルのスムージングを通じてトレーニングプロセスを向上させます。 具体的には、RSMDAは5つのステップに従います: トレーニングサンプルの選択:2つの画像とそれに対応するラベルが選ばれます。 画像のブレンド:RSMDAは、これらの画像の一部を組み合わせて新しい画像を作成します。2つの画像からセクションを選択し、バイナリマスクを使用して結合します。 ラベルの調整:組み合わせた画像のラベルも、選択した比率に基づいて調整されます。これにより、ラベルが組み合わせた画像に合うようになります。 スライスと混合:画像の一部を無作為に選択し、結合した画像を形成するために混合します。RSMDAでは、この混合プロセスに3つの戦略があります:行ベース、列ベース、またはその両方の組み合わせ。 拡張サンプルの作成:1つの画像から選択した部分を、選択した混合戦略に従って他の画像に貼り付けます。このプロセスにより、トレーニングに使用する新しい画像-ラベルのペアが生成されます。 RSMDAは、さまざまなデータセットとネットワークアーキテクチャで徹底的に評価されました。実験を通じて、RSMDAはRSMDA(R)として知られる、行ベースの混合を示しています。この特定の戦略、RSMDA(R)は、基準モデルと既存の拡張手法と比較してエラーレートの低下において一貫して優れたパフォーマンスを発揮しました。さらに、RSMDAは、グレースケールとカラーデータセット全般にわたって、伝統的な拡張方法に比べて顕著な耐アドバーサル攻撃性を示しました。クラスアクティベーションマップの可視化により、RSMDAがCutMixなどの高度な拡張手法と同様の識別的な特徴を学習することが確認されました。これらの実験は、RSMDAが深層学習アプリケーションにおけるモデルの性能、堅牢性、特徴学習を向上させる能力を示しています。 本論文では、「ランダムスライスミキシングデータ拡張(RSMDA)」という新しいデータ拡張技術が紹介され、厳密に評価されました。RSMDAは画像の一部を組み合わせて多様なトレーニングサンプルを生成し、単一画像ベースの手法の制限に取り組んでいます。行ベースの混合に焦点を当てた戦略であるRSMDA(R)は、エラーレートの低下において既存の技術を一貫して上回り、さまざまなデータセットに対するアドバーサル攻撃に対して堅牢性を示しました。CutMixなどの高度な拡張手法と類似する特徴学習能力を持つことが、クラスアクティベーションマップによって確認されました。全体として、RSMDAは深層学習アプリケーションにおけるモデルの性能、堅牢性、特徴学習の向上において有望な手法として浮上しています。

ハイパーヒューマンに会ってください:潜在的な構造拡散を用いたハイパーリアルな人間生成のための新しいAIフレームワーク

ユーザーが指定した条件(テキストやポーズなど)に基づいて超リアルな人間のイメージを生成することは、画像アニメーションやバーチャルな試着など、さまざまなアプリケーションにおいて意義深いものです。コントローラブルな人間の画像生成のタスクを探求するために、さまざまな取り組みが行われてきました。初期の手法は、再構成の方法として変分オートエンコーダ(VAE)に依存するか、生成敵対的ネットワーク(GAN)を介してリアリズムを向上させました。いくつかの手法によって高品質の画像の生成が行われているにもかかわらず、不安定なトレーニングや限られたモデルの容量などの課題があり、小規模なデータセットでのみ動作し、多様性が低いという制約がありました。 拡散モデル(DM)の最近の登場は、現実的な合成において新しいパラダイムを導入し、生成AIにおける主要なアーキテクチャとなりました。しかし、Stable DiffusionやDALL·E 2などのモデルのような模範的なテキストからイメージへのモデルは、腕や足、自然なポーズなどの一貫した解剖学を持つ人間のイメージを作成するのに苦労しています。主な課題は、人間形態の非剛性変形であり、テキストプロンプトだけでは難しく描写するのが難しい構造情報が必要になることです。 ControlNetやT2I-Adapterなどの最近の研究では、学習可能なブランチを導入して事前に学習したDM(Stable Diffusionなど)を適応制御することで、画像生成に対する構造的な制御を可能にしようとしています。ただし、これらの手法はメインブランチと補助ブランチ間の特徴の不一致から悩まされ、制御信号(ポーズマップなど)と生成された画像の一貫性が欠けています。HumanSDは、チャネルごとの連結によって拡散U-Netにボディスケルトンを直接入力することで、この問題に対処します。ただし、この手法は多様性に乏しい芸術的なスタイルの画像の生成にとどまります。また、人間のコンテンツはポーズ制御のみで合成され、深度マップや法線マップなどの他の重要な構造情報は無視されます。 本記事で報告されている研究では、高いリアリズムと多様なレイアウトを持つ野生の人間のイメージを生成するための統一されたフレームワーク「HyperHuman」を提案しています。その概要は以下の図に示されています。 鍵となる洞察は、粗いレベルのボディスケルトンから細かい空間幾何学まで、人間のイメージの本質的な構造的性質を認識することです。明示的な外観と潜在的な構造との間のこのような相関をキャプチャすることは、一貫性のある自然な人間のイメージを生成するために不可欠です。本論文では、HumanVerseと呼ばれる340万枚の野生の人間のイメージと包括的な注釈が含まれた大規模な人間中心のデータセットを作成しました。このデータセットを基に、超リアルなコントロール可能な人間の画像生成のために2つのモジュールが設計されています:潜在的な構造拡散モデルと構造ガイドされたリファイナー。前者は事前に学習された拡散バックボーンにRGB、深度、法線の側面のノイズ除去を同時に行い、ノイズ除去されたテクスチャと構造の間の空間的な整列を保証します。 このような細心の設計により、画像の外観、空間的な関係、およびジオメトリのモデリングが統一されたネットワーク内で共同して行われます。各ブランチはお互いを補完し、構造的な意識とテクスチャの豊かさを組み込んでいます。強化されたノイズスケジュールにより、低周波情報の漏洩がなくなり、ローカル領域の均一な深度と法線値が保たれます。各ブランチに同じタイムステップを使用することで学習を高め、特徴の融合を容易にします。空間的に整列された構造マップにより、構造ガイドされたリファイナーは詳細な高解像度画像の生成に向けた予測された条件を構成します。また、2段階の生成パイプラインにおけるエラー蓄積の影響を軽減するために、ロバストなコンディショニングスキームが設計されています。 次に、最先端の手法との比較結果が以下に報告されています。 各行の最初の4×4グリッドには、HyperHumanによって計算された入力のスケルトン、共同で除去された法線、深度、および粗いRGB(512×512)が含まれています。 これは、高いリアリズムと多様なレイアウトを持つ野生の人間の画像を生成するための革新的なAIフレームワークであるHyperHumanの概要でした。興味があり、さらに詳しく知りたい場合は、以下に引用されているリンクを参照してください。

偽預言者:回帰モデルとMeta’s Prophetの比較

「クロスバリデーションを使用して、カスタムの時系列回帰モデルとメタの予測ツールトラフォードの比較を行うためのビジュアルと強力な指標を作成してください」

「物理的な制約が脳のようなAIの進化を促す」

画期的な研究において、ケンブリッジの科学者たちは人工知能に対して新たなアプローチを取り、物理的な制約がAIシステムの発展にどのように深く影響を与えるかを示しましたこの研究は、人間の脳の発達と運用の制約を思い起こさせ、複雑な神経系の進化に関する新たな洞察を提供しますこれらの制約を統合することにより、[...]

「NVIDIAがAIおよびHPCワークロードに特化したH200 Tensor Core GPUを発表」

先週、NVIDIAはH200 Tensor Core GPUを発表しましたこのGPUは、人工知能と高性能コンピューティング(HPC)のワークロードを活性化するために設計された世界で最もパワフルなGPUとして新たな基準を設定することを目指していますH200はNVIDIA Hopperアーキテクチャに基づいており、GPUにはHBM3eが搭載されており、...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us