Learn more about Search Results フ - Page 15

メタAIは、オープンで創造的なAIモデルを使って倫理的に建設するために、パープルラマをコミュニティの支援として発表しました

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-1024×710.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-150×150.png”/><p>データの増加、モデルサイズ、自己回帰言語モデリングのための計算能力の向上により、対話型AIエージェントは過去数年で驚くべき進化を遂げました。チャットボットは、自然言語処理、推論、ツールの習熟度など、多くの有用なスキルで知られる大規模な言語モデル(LLM)を使用することがよくあります。</p><p>これらの新しいアプリケーションは、潜在的な危険を軽減するために徹底的なテストと慎重な展開が必要です。したがって、生成AIによって動作する製品には、ポリシーに違反する高リスクなコンテンツの生成を防ぐための保護策を実装することが推奨されます。さらに、アドバーサリアルな入力やモデルのジェイルブレイクの試みを防ぐためにも、これらはLlama 2 Responsible Use Guideなどのリソースで確認できます。</p><p>オンラインのコンテンツを管理するためのツールを探している場合、Perspective API1、OpenAI Content Moderation API2、およびAzure Content Safety API3はすべて良い出発点です。ただし、これらのオンラインモデレーション技術は、入出力のガードレールとして使用した場合にはいくつかの理由で失敗します。最初の問題は、ユーザーとAIエージェントの危険性を区別する方法が現在存在しないことです。結局のところ、ユーザーは情報や援助を求めますが、AIエージェントはそれを提供する可能性が高いです。さらに、すべてのツールは設定されたポリシーを強制するため、ユーザーはツールを新しいポリシーに合わせて変更できません。第三に、個々のユースケースに合わせて微調整することは不可能です。最後に、すべての既存のツールは控えめな伝統的なトランスフォーマーモデルに基づいています。より強力なLLMと比較すると、これは彼らのポテンシャルを大幅に制限します。</p><p>新しいメタ研究は、会話型AIエージェントのプロンプトとレスポンスの潜在的な危険を分類するための入出力保護ツールを明らかにします。これにより、LLMを基にしたモデレーションが可能となり、この分野でのニーズを満たします。</p><p>彼らの分類ベースのデータは、ロジスティック回帰に基づく入出力保護モデルであるLlama Guardをファインチューニングするために使用されます。 Llama Guardは関連する分類ベースをモデルの入力として受け取り、指示義務を適用します。ユーザーは、ゼロショットまたはフューショットのプロンプティングを使用してモデルの入力を個別のユーズケースに適した分類ベースでカスタマイズすることができます。推論時間では、複数のファインチューニングされた分類ベースの中から選択し、適切にLlama Guardを適用することができます。</p><p>彼らは、LLMの出力(AIモデルからの応答)とヒューマンリクエスト(LLMへの入力)のラベリングに異なるガイドラインを提案しています。したがって、ユーザーとエージェントの責任の意味差をLlama Guardが捉えることができます。 LLMモデルがコマンドに従うという能力を利用することで、彼らはたった1つのモデルでこれを実現することができます。</p><p>彼らはまた、Purple Llamaを発表しました。将来的には、これはリソースと評価をまとめたプロジェクトとなり、オープンで創造的なAIモデルを倫理的に構築するためのコミュニティを支援します。サイバーセキュリティと入出力保護ツールおよび評価は、最初のリリースの一部となり、さらに多くのツールが追加されます。</p><p>彼らは業界で初めてのLLMのための包括的なサイバーセキュリティ安全評価を提供しています。これらのガイドラインは、セキュリティの専門家と共同で開発され、業界の推奨事項や基準(CWEやMITRE ATT&CKなど)に基づいています。この最初のリリースでは、ホワイトハウスが責任あるAIの創造を約束した中で、以下のような危険を緩和するのに役立つリソースを提供することを目指しています。</p><ul><li>LLMサイバーセキュリティの脅威を数量化するためのメトリック。</li><li>安全でないコード提案の普及を評価するためのツール。</li><li>LLMをより安全に書き換えることやサイバー攻撃の実行を助けるための手段。</li></ul><p>これらのツールにより、LLMが安全でないAI生成コードを提案する頻度を減らすことによって、サイバー攻撃者へのLLMの有用性が低下すると予想されます。彼らの研究では、LLMが安全でないコードを提案したり、悪意のあるリクエストを受け入れたりする場合に、深刻なサイバーセキュリティの懸念があることがわかっています。 </p><p>LLMへのすべての入力と出力は、Llama…

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復するために人々が計画するのに重要な役割を果たしており、気候変動への懸念が高まる中で環境をよりよく理解するために研究者を支援しています。数値天気予報(NWP)モデルは、大気科学者の業務の中核です。これらのモデルは、熱力学と流体力学を説明する微分方程式のシステムを使用し、時間を経て結合されることで将来の予測を作成します。NWPモデルは、放射や雲物理学などの重要な小スケールの物理現象のパラメータ化の誤りなど、いくつかの欠点がありますが、広く使用されています。 大規模な微分方程式の統合の困難さから、数値的なアプローチは特に空間および時間の解像度を高くする場合には計算コストが非常に高くなります。さらに、これらのモデルは気候科学者の知識に依存して方程式、パラメータ化、アルゴリズムを改善するため、NWPの予測精度は追加データによっては改善されません。NWPモデルの問題に対処するため、ますます多くの人々がデータ駆動型、深層学習ベースの天気予測手法に関心を示しています。歴史的データ(ERA5再解析データセットなど)を使用して、深層ニューラルネットワークは将来の天気予測を訓練するために使用されます。これがこの手法の主たる前提です。従来のNWPモデルが数時間かかるのに対し、訓練後は数秒で予測することができます。 この分野の初期の取り組みでは、気象データと自然の画像は似たような空間構造を持つため、ResNetやUNetなどの従来のビジョンアーキテクチャを天気予測に使用しようとしました。しかし、それらのパフォーマンスは数値モデルに劣っていました。しかし、改善されたモデル設計、トレーニングレシピ、データとパワーの増加により、最近では注目すべき進展がありました。最初に実用IFCを上回ったモデルは、0.25°データ(721×1440グリッド)でトレーニングされた3D地球特有のトランスフォーマーモデルであるPangu-Weatherでした。すぐに、Keislerのグラフニューラルネットワーク設計がGraphCastによって0.25°データにスケールアップされ、Pangu-Weatherを上回る結果を示しました。 予測精度は優れているものの、現在の手法では複雑で高度にカスタマイズされたニューラルネットワークのトポロジーがしばしば使用され、抜け穴実験がほとんど行われないため、その効果の正確な要素を特定するのは困難です。たとえば、GraphCastにおける多重メッシュメッセージパッシングが効率にどの程度貢献しているのか、3D地球特有のトランスフォーマーが通常のトランスフォーマーと比べてどのような利点を持っているのかは分かりません。この分野では、これらの現行手法をより良く理解し、できれば簡素化するために統合フレームワークが必要です。また、気候や天候の予測を超える気象基礎モデルを作成することも容易になります。この研究では、適切なトレーニングの公式と組み合わせることで、簡単な設計が先端技術を上回る性能を発揮することを示しています。 UCLA、CMU、Argonne National Laboratory、およびPenn State Universityの研究者は、Stormerと呼ばれる、従来のトランスフォーマーのバックボーンにほとんどの変更を加える必要のないシンプルなトランスフォーマーモデルを提案しています。研究チームは、従来のビジョントランスフォーマー(ViT)アーキテクチャをベースにして、モデルのパフォーマンスに影響を与える3つの要素を詳細に調査しました:モデルは次の3つの要素から構成されます:(1)大気変数間の相互作用をモデル化し、入力データをトークンのシーケンスに変換する天気固有の埋め込み層、(2)モデルをランダムな間隔で天気の動態を予測するようにトレーニングするランダムなダイナミクス予測目標、(3)ロス関数において異なる圧力レベルの変数を重み付けして各圧力レベルの密度を近似する圧力加重ロス。提案されたランダムなダイナミクス予測目標は、モデルがトレーニングされた間隔のさまざまな組み合わせを使用することによって、推論中に特定のリードタイムに対して多くの予測を生成するため、1つのモデルが複数の予測を可能にします。 たとえば、6時間の予測を12回配布するか、12時間の予測を6回配布することで、3日間の予測を得ることができます。これらの予測を組み合わせることにより、特に長期のリードタイムにおいて、大きな性能向上が得られます。研究チームは、データ駆動型の天気予測のための人気のあるベンチマークであるWeatherBench 2を使用して、Stormerという提案手法を評価しました。テスト結果は、Stormerが7日後に先端の予測システムを上回り、1日から7日間の重要な大気変数の予測精度で競争力のある結果を達成していることを示しています。特に、Stormerはほぼ5倍低解像度データおよび数桁少ないGPU時間で訓練されることにより、ベースラインよりも性能が向上しています。さらに、スケーリングの研究により、モデルの容量とデータサイズを増やすとStormerの性能が継続的に向上する可能性があることが証明されました。

Google DeepMindの研究者は、言語モデル(LM)のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code(CoC)」を提案しました

Google DeepMind、スタンフォード大学、およびカリフォルニア大学バークレー校の研究者たちは、言語モデルのコード駆動型の推論能力を向上させる問題に対処するために、Code of Chain(CoC)を開発しました。CoCは、LM(“LMulator”としての言語モデルを示す)でシミュレーションするために、undefinedな動作を明示的にキャッチし、シンタックス上のセマンティックなサブタスクを柔軟な擬似コードとしてフォーマットすることを促すことで、問題に対処します。CoCは、大規模なモデルや小規模なモデルでスケーリングが可能であり、コードで考えることで、LMが正しく答えることができる推論の範囲を広げることができます。 Chain of Thought、最小から最大まで、およびScratchPadのようなワークは、タスクを中間ステップに分解するか、中間結果のトレースを保持することにより、プロンプトを活用して推論能力を向上させています。GithubでトレーニングされたLMは、コードの記述と実行を促すようにプロンプトされ、数値または記号的な推論を含む複雑な問題を解決するのに役立ちます。 CoCは、与えられた問題を解決するために、コード構造内の推論のサブステップを生成します。このコードは、痛みを通して推論するためのフレームワークを提供し、明示的なコード、擬似コード、または自然言語の形式で表される場合があります。CoCは、コードによる表現の利点とLMの優れたセマンティックおよび常識的な知識を組み合わせることで、新たな領域でコードの使用を可能にします。コードで表現が難しいルールを簡単に表現できます(たとえば、果物はどのような食べ物ですか?)。 CoCの主要な貢献は、推論コードの生成だけでなく、その実行方法です。コードが書かれた後、コードはコードインタプリタ(この研究ではPythonが考慮されていますが、アプローチ自体は任意のインタプリタに適用可能です)で実行されようとします。コードが正常に実行される場合、プログラムの状態が更新され、実行が続行されます。コードが実行不可能であるか例外を発生させる場合、言語モデルは代わりに実行のシミュレーションに使用されます。言語モデルの出力がプログラムの状態を更新し、実行が続行されます。 CoCアプローチの全体的なパフォーマンスは、他の方法を上回り、タスク数と全体的な量の両方で人間の基準を超えています。CoCは、いくつかの研究において最先端のパフォーマンスを実現しています。Chain of Thoughtプロンプティングと同様に、モデルのサイズが増えるほど性能が向上します。クロスタスクプロンプティングは、すべての方法においてパフォーマンスが低下しますが、CoCはスケール時にはChain of Thoughtと直接プロンプティングを上回るパフォーマンスを示し、人間の平均パフォーマンスに近づきます。 CoCは、言語モデルを用いた推論をコードの記述とコードの実行により行うアプローチです。コードが実行不可能な場合、インタプリタまたはコードの実行をシミュレーションする言語モデルを使用することができます。CoCは、規制の表現の表現力豊かな構造とその強力なツールの両方を活用できます。さらに、実行不可能なコードのシミュレーションにより、CoCはコードの範囲外の問題(例えば、意味的な推論問題)に適用することができます。

ボードゲームをプレイするためのAIの教育

「最近では、OpenAIの新しいAIモデル、Q*に関する噂があり、特にQ学習において、AI業界の皆さんが強化学習(RL)のスキルを磨いているようです私もその一員であり、…」

Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス

トランスフォーマーは最初に導入され、自然言語処理の主要なアーキテクチャとして急速に台頭しました。最近では、コンピュータビジョンでも非常に人気があります。Dosovitskiyらは、画像をパッチのシーケンスに分割し、それらのパッチを線形に埋め込み、その結果得られる特徴のシーケンスをトランスフォーマーエンコーダに供給することで、CNNベースのアーキテクチャに勝る効果的な画像分類器を作成する方法を示しました。セグメンテーション、検出、および分類などの多くの区別的なビジョンタスクにおいて、このアプローチは現在の標準です。ただし、生成トランスフォーマーデコーダはある事前定義された有限のボキャブラリーから離散的なトークンを消費して予測するため、画像を(非量子化された)特徴ベクトルのシーケンスにマッピングすることは、トランスフォーマーベースの画像生成には適切ではありません。 このような構造は自然言語に自然に適合し、デコーダーモデル単体では、効果的なトレーニングがインストラクターフォースと強力な連続生成モデリングを介して可能です。最近の取り組みでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)を使用して画像を離散トークンのシーケンスにマッピングし、その後、トランスフォーマーデコーダを使用して潜在的な離散トークンの分布をモデル化するための手法を採用しています。このアプローチは、画像を利用した多走的生成モデルも容易にします。しかし、2段階のメソッドは画像とマルチモーダルコンテンツの作成には適していますが、いくつかの問題があります。 VQ-VAE内のボキャブラリーサイズによって、潜在的なモデリングや画像の細部調整の調整が困難になるため、潜在的なコードの情報量が減少します。また、トークンを使用して密度予測や低レベルの区別的なタスクにトークンを使用するアプリケーションの品質にも影響を与えます。ボキャブラリーサイズの拡大はこの問題の解決に役立ちますが、それによってボキャブラリーの使用が不十分になる場合があります。したがって、高品質なVQ-VAEセットアップでは、エントロピー損失やコードブックの分割などの洗練された方法に頼る必要があります。さらに、巨大なボキャブラリーは記憶容量を多く消費する埋め込み行列をもたらし、異なるモダリティのボキャブラリーが混在するマルチモーダルシナリオでは、問題が発生する可能性があります。研究チームは、これらの問題を回避するために、デコーダーモデルを変更して、離散的なトークンと、したがって、固定された有限のボキャブラリーを必要としない連続した実数値のベクトルシーケンスで動作する生成トランスフォーマーデコーダを提案しています。 特に、Google DeepMindとGoogle Researchの研究チームは、実数値のベクトルシーケンスを用いて機能する生成型無限ボキャブラリートランスフォーマー(GIVT)を提案しています。実数値のベクトルは無限ボキャブラリーと見なすことができるため、研究チームはこれをGIVTと呼んでいます。図1に示されているように、研究チームはトランスフォーマーデコーダの設計をわずかに変更しました(合計2つの変更)。1)入力では、研究チームは離散的なトークンの代わりに連続した実数値のベクトルシーケンスを線形に埋め込む。2)出力では、研究チームは有限のボキャブラリー上のカテゴリカル分布のパラメータを予測するのではなく、連続した実数値のベクトル上の連続した分布のパラメータを予測します。研究チームは、教師強制と因果関係注意マスクを使用してこのモデルをトレーニングしました。また、研究チームはMaskGITに類似した高速進行マスクバイダイレクショナルモデリングも調査しました。 図1は、連続した無限ボキャブラリーのバリエーション(右側のGIVT)を典型的な離散トークン生成トランスフォーマー(左側)と比較するための同じデコーダーモデルを使用しています。 GIVTは、入力時に斜めに並んだ連続した実数値ベクトルのシーケンスで離散トークンを置き換えます。有限のボキャブラリー上のカテゴリカル分布を予測する代わりに、GIVTは出力時に連続した実数値ベクトル上の連続した分布のパラメータを予測します。 高解像度の画像を平坦化して生成されるRGBピクセルの系列は、理論的には任意の特徴ベクトルの系列にGIVTを適用することができるものの、直接的にモデル化するのは難しい例です。それは長くて複雑な分布を持っていることもあります。したがって、研究チームはまず、ガウス事前VAEを使用して低次元の潜在空間をトレーニングし、次にGIVTでモデル化します。これは、VQ-VAEと類似した2段階のテクニックに似ています。研究チームはまた、シーケンスモデリングの文献からいくつかの推論戦略(温度サンプリングや分類器フリーガイディングなど)を転用しました。 注目すべきは、実数値トークンだけを使って、これによってVQベースの技術と同等か優れたモデルが生成されることです。以下に彼らの主な貢献を簡潔に述べます: 1. UViMを使用して、研究チームはGIVTが密な予測タスク(セマンティックセグメンテーション、深度推定、ピクチャーシンセシスなど)において、通常の離散トークン変換デコーダーよりも同等または優れたパフォーマンスを達成することを示しています。 2. 研究チームは、連続ケースにおける従来のサンプリング方法の効果(温度サンプリング、ビームサーチ、分類器フリーガイディング)の派生と有効性を導き出し、証明しました。 3. KL項の重み付けを使用して、研究チームはVAE潜在空間の正規化レベルと現れるGIVTの特性との関連性を検討しました。研究チームは、VQ-VAE文献の洗練されたトレーニング方法(潜在表現への補助損失、コードブックの再初期化、専用の最適化アルゴリズムなど)はVAEおよびGIVTのトレーニングでは使用されていないことを強調しており、単純に通常の深層学習ツールボックスのアプローチに依存していると述べています。

機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索

アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生成するためには、通常、視覚知覚を理解してだます必要があります。しかし、新しいアプローチが登場し、これらの魅力的な多視点光学錯視を簡単かつ効果的に生成する方法を提供しています。 視覚錯覚を作成するためのさまざまなアプローチが存在しますが、ほとんどは人間がイメージをどのように理解するかについての特定の仮定に依存しています。これらの仮定はしばしば、われわれの視覚体験の本質をときどき捉えるだけの複雑なモデルにつながります。ミシガン大学の研究者たちは、新しい解決策を提案しています。人間が物事を見る方法に基づいたモデルを構築するのではなく、テキストからイメージへの拡散モデルを使用します。このモデルは人間の知覚について何も仮定しません。データのみから学習します。 この手法は、フリップや回転時に変形するイメージなど、古典的な錯視を生成するための新しい方法を提案しています。さらに、ピクセルを並び替えると外観が変化する「視覚アナグラム」と呼ばれる新しい錯視の領域にも進出しています。これには、フリップ、回転、ジグソーパズルのような複数の解を持つより複雑な変換も含まれます。この手法は、3つや4つの視点にまで拡張され、魅力的な視覚変換の範囲が広がっています。 この手法が機能するための鍵は、ビューを注意深く選択することです。画像に適用される変換は、ノイズの統計的特性を維持する必要があります。なぜなら、このモデルはランダム、独立、同一分布のガウスノイズを仮定してトレーニングされるからです。 この手法では、画像をさまざまな視点からデノイズするために、拡散モデルを利用して複数のノイズの推定値を生成します。これらの推定値は、逆拡散プロセスの1つのステップを容易にするために組み合わされます。 この論文では、これらの視点の効果を支持する経験的根拠が示され、生成される錯視の品質と柔軟性が紹介されています。 結論として、このシンプルでありながら強力な手法は、魅力的な多視点光学錯覚を作成するための新しい可能性を開拓しています。人間の知覚に対する仮定を避け、拡散モデルの機能を活用することで、視覚変換の魅力的な世界への新たなアプローチを提供しています。フリップ、回転、ポリモーフィックジグソーパズルなど、この方法は、視覚理解を魅了し挑戦する錯視を作り出すための多目的なツールを提供します。

機械学習信頼性の向上:異常性がモデルのパフォーマンスと不確実性の定量化を向上させる方法

オブジェクトがそのカテゴリーの他のアイテムに似ている場合、それは典型的と見なされます。例えば、ペンギンは普通でない鳥ですが、ハトやスズメは普通の鳥です。いくつかの認知科学の研究は、典型性がカテゴリーの知識において重要であることを示唆しています。例えば、人間は普通のオブジェクトに対してより速く学習し、思い出し、関連付けるとされています。同様に、類似性ヒューリスティックは、人々が出来事がどれくらい一般的かに基づいて判断する傾向を指します。これは迅速な意思決定に役立つかもしれませんが、不正確な不確実性の評価につながる可能性もあります。例えば、普通の出来事の確率を過大評価したり、珍しい出来事についての判断の不確実性を過小評価したりするかもしれません。 人間の判断の不確実性の度合いを測定することは難しいですが、機械学習の手法は予測において保証を提供します。ただし、信頼性を判断するためには信頼度だけでは十分ではない場合もあります。たとえば、低信頼度の予測は、明示的な不確実性やトレーニング分布においてサンプルの不足から生じる場合があります。同様に、高信頼度の予測は正確であるかもしれないが、誤ったキャリブレーションをしている場合もあります。彼らの主な提案は、トレーニング分布の範囲または予測の予測性を理解するために、モデルが両方の非典型性と信頼度を測定すべきであるということです。ただし、多くの機械学習アプリケーションでは、非典型性の測定ではなく、信頼度のみを提供する事前学習済みモデルが使用されます。 スタンフォード大学とラトガーズ大学の研究チームは、サンプルやクラスの非典型性(稀な存在)とモデルの予測の正確性との関連を調査しています。以下は彼らの貢献です: 1. 予測品質の認識:この研究により、非典型性を考慮した推定子を使用することで、モデルの予測確率が実際の発生確率と一致するかどうかを評価できます。例えば、ロジスティック回帰やニューラルネットワークでも、調整が不正確な場合があります。ここでは、非典型性はモデルの信頼性が信頼できるかどうかに関する情報を提供できます。厳密なテストと理論的な研究によって、非典型性は予測の品質が低下することが示されています。特に、非典型な入力や非典型クラスからのサンプルでは、過度の自信と予測の精度が低下することが研究チームによって実証されました。 2. 精度とキャリブレーションの向上:確率モデルを修正することで、キャリブレーション技術によって誤キャリブレーションを軽減できます。研究チームは、モデルは異常な入力やクラスに基づいてさまざまな補正を必要とし、非典型性が再校正に重要な役割を果たすことを示しました。この調査結果に基づいて、彼らは非典型性を考慮した簡単な手法「非典型性に対する再校正」を提案しています。彼らの再校正技術は簡単に実装でき、入力やクラスの非典型性を考慮に入れます。研究チームは、非典型性を再校正技術に加えることで、予測の精度と不確実性の量子化を向上させることを実証しました。また、スキンレセプトリズムのカテゴリ分類を行う事例研究において、非典型性を意識したことが、複数のスキンタイプの性能向上に寄与することも示しました。 3. 予測セットの向上:ラベルの含まれる可能性が高い予測セットは、不確実性を評価する別の方法です。ここでは、研究チームは既存のアプローチの非典型性を検討し、低信頼度または非典型のサンプルが予測セットの性能を低下させる可能性があることを実証しています。研究チームは非典型性を使用することで予測セットの向上の可能性を示しています。 総じて、研究チームはモデルに非典型性を考慮することを提案し、使用が容易である非典型性推定子が非常に価値があることを実証しています。

メタAIは、リアルタイムに高品質の再照明可能なガウシアンコーデックアバターを構築するための人工知能手法「Relightable Gaussian Codec Avatars」を紹介しますこれにより、新しい表情を生成するためにアニメーションさせることができるハイフィデリティのヘッドアバターが作成されます

“`html 画期的な進展を遂げたMeta AIの研究者たちは、ダイナミックな3Dヘッドアバターの高精細なリライティングを実現するという長年の課題に取り組みました。従来の方法では、特にリアルタイムの応用において効率性が重要となる場合に、表情の複雑な細部を捉えることができるようになるまでに時間がかかることがよくあります。Meta AIの研究チームは、この課題に対処すべく、「リライト可能ガウシアンコーデックアバター」という方法を発表し、アバターのリアリズムの領域を再定義する用意のある手法を作り出しました。 研究チームが取り組んだ中核的な問題は、ダイナミックな顔のシーケンスにおいて、髪の毛や毛穴などのサブミリメートルの詳細をより明確に捉える必要があるということです。目、肌、髪などの人間の頭部の異質な材料を効率的にモデル化しながら、すべて周波数の反射に対応するというのは困難な課題です。既存の手法の制約は、リアリズムとリアルタイムのパフォーマンスをシームレスに組み合わせる革新的な解決策が必要とされています。 リライト可能なアバターに関する既存のアプローチは、リアルタイムのパフォーマンスと忠実度のトレードオフに悩まされてきました。リアルタイムのアプリケーションにおいて、動的な顔の詳細を捉えることができるメソッドが必要とされてきたのです。Meta AIの研究チームは、この課題に目をつけ、「リライト可能ガウシアンコーデックアバター」を革新的な解決策として導入しました。 Meta AIの手法は、3Dガウシアンに基づくジオメトリモデルを導入し、サブミリメートルの精度まで拡張する精密さを提供しています。これは、ダイナミックな顔のシーケンスを捉えるための大幅な進歩であり、髪の毛や毛穴の微妙なニュアンスを含め、アバターが生命的な詳細を示すことを保証します。この革新的な手法の重要な要素であるリライト可能な外観モデルは、学習可能な輝度伝達に基づいています。 https://arxiv.org/abs/2312.03704 これらのアバターの優れた点は、アバターの構築における包括的なアプローチにあります。3Dガウシアンによってパラメータ化されたジオメトリモデルは、アバターのバックボーンを形成し、ガウシアンスプラッティング技術を使用した効率的なレンダリングを可能にします。学習可能な輝度伝達によって駆動される外観モデルは、拡散球面調和関数と反射球面ガウシアンを組み合わせています。この組み合わせにより、アバターは点光源と連続的な照明によるリアルタイムのリライティングを実現できます。 これらの技術的側面を超えて、この手法は表情、視線、ビュー、照明に対する切り離し可能な制御を紹介しています。アバターは、潜在的な表情コード、視線情報、および目標視野方向を利用してダイナミックにアニメーション化することができます。この制御のレベルは、アバターアニメーションにおける重要な進展であり、繊細でインタラクティブなユーザーエクスペリエンスを提供します。 これらのアバターは、単なる理論的な進展ではありません。その手法によって、ヘッドマウントカメラからのライブビデオによるアニメーションが実証されています。この能力により、リアルタイムのビデオ入力がアバターをシームレスに動かすことで、ダイナミックでインタラクティブなコンテンツを作り出すことができます。 総括すると、Meta AIの「リライト可能ガウシアンコーデックアバター」は、複雑な課題に対処するためのイノベーションの力を示すものです。3Dガウシアンに基づくジオメトリモデルと革新的な学習可能な輝度伝達の外観モデルを組み合わせることで、研究チームは既存の手法の制約を超え、アバターのリアリズムに新たな基準を打ち立てました。 “`

「量子コンピューティングのアプローチ、単一の分子をキュビットとして初めて使用」

2つの研究チームは、量子コンピュータがアルゴリズムを実行するために必要な絡み合いを起こすために、カルシウム一フッ化物分子のペアを相互作用させました

このAIサブカルチャーのモットーは、「行く、行く、行く」

「効果的なアクセラレーショニズム」として知られる風変わりなプロテクノロジー運動は、パワフルなAIの束縛を解き放ち、その過程でパーティーを楽しみたいと願っています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us