Learn more about Search Results Yi - Page 27

「PIXART-αに会ってください:画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」

テキストから画像への変換(T2I)生成モデルであるDALLE 2、Imagen、Stable Diffusionの開発により、フォトリアルな画像合成の新時代が始まりました。これは、写真編集、ビデオ制作、3Dアセットの作成などを含む多くの下流アプリケーションに大きな影響を与えています。ただし、これらの洗練されたモデルは大きな処理能力を要求します。たとえば、SDv1.5のトレーニングには6K A100 GPU日が必要で、コストは約$320,000です。より最新の大きなモデルであるRAPHAELの場合、さらに60K A100 GPU日が必要であり、コストは約$3,080,000です。また、トレーニングにより環境に負荷がかかるため、大量のCO2排出物を生み出します。たとえば、RAPHAELのトレーニングでは35トンのCO2排出物が生じます。これは、図1に示すように、一人が7年間に排出するCO2量と同じです。 図1: T2Iの生産者間でのCO2排出量とトレーニングコストの比較がここで示されています。PIXART-αのトレーニングには驚異的な$26,000がかかります。ただし、私たちのCO2排出量とトレーニング費用はRAPHAELよりもわずかに1.1%と0.85%少ないです。 このような高価格は、研究コミュニティや企業の両方におけるこれらのモデルの入手に大きな制約をもたらし、AIGCコミュニティの重要な進展を大幅に妨げています。このような困難に関して重要な問いが提起されています:リソース使用を管理可能なレベルにおいて、高品質の画像生成器を作成できるのでしょうか?華為ノアズアークラボ、大連理工大学、香港大学、香港科技大学の研究者は、PIXART-αを提案しました。それは、最新の最先端画像生成器と競争力のある画像生成品質を保ちながら、トレーニングの計算要件を劇的に低減します。それには、次の3つの主な設計が含まれます: 自然画像のピクセルの分布を学習すること テキストと画像の整合性を学習すること 画像の美的魅力を向上させること 彼らは、最初のサブタスクであるピクセルの分布の学習コストを著しく低減するために、T2Iモデルを低コストのクラス条件モデルで初期化することを提案しています。彼らは、2番目と3番目のサブタスクのための事前トレーニングと微調整で構成されるトレーニングパラダイムを提供します。高い情報密度を持つテキスト-イメージペアデータでの事前トレーニングに続いて、より美的品質の高いデータでの微調整を行い、トレーニングの効果を高めます。その他、T2Iトランスフォーマーという効率的なモデルの提供。彼らは、テキスト条件を注入するためにクロスアテンションモジュールを使用し、計算の要求が高いクラス条件ブランチの単純化をDiffusion Transformer(DiT)に基づいて行います。さらに、変更したテキストから画像へのモデルにオリジナルのクラス条件モデルのパラメータを直接インポートできる再パラメータ化方法を提案しています。 これにより、T2Iトランスフォーマーには受け入れ可能な初期化が可能になり、トレーニングを加速するためにImageNetの自然な画像分布の過去の知識が活用されます。高品質な情報。彼らの研究では、既存のテキスト-イメージペアデータセットに重要な欠陥があることが明らかになっています(例:LAION)。テキストのキャプションは、非常に低頻度で数多くの名詞が現れる重いロングテール効果や、画像内のオブジェクトの一部しか記述していない情報の欠如などの問題を抱えています。これらの欠点は、T2Iモデルのトレーニングの効果を大幅に低下させ、信頼性のあるテキスト-イメージの整合性を得るために何百万回もの反復が必要とされます。彼らは、これらの問題を克服するために、最も先進的なビジョン言語モデルを使用して自動ラベリングパイプラインを提案しています。 SAMデータセットは大きく多様なオブジェクトのコレクションを持つという利点があり、情報密度の高いテキスト-イメージのペアを生成するための理想的なソースです。彼らの巧妙な機能により、モデルのトレーニングは非常に効率的に行われ、675 A100 GPU日と$26,000のみで済みます。図1は、彼らの手法がImagenよりも少ないトレーニングデータ量(0.2% vs Imagen)とトレーニング時間(2% vs RAPHAEL)を使用し、RAPHAELの1%程度のトレーニング費用($3,080,000の代わりに$26,000)を削減する方法を示しています。 世代品質に関しては、PIXART-αは現在のSOTA…

知られていないジュリア魔法のすごさ

プログラミング言語とそのパラダイムに関して言えば、Juliaのアプローチは非常にユニークです現在人気のある他の多范型プログラミング言語と比較しても、Juliaは…

大規模言語モデルにおける文脈の長さの拡張

「コンテキストの長さ」とは、モデルがテキストを生成する際に記憶できるトークンの最大数を指しますより長いコンテキスト窓は、モデルがテキスト内の長距離依存関係をより良く理解できるようにします...

「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です。しかし、2D画像からの3D推論は、深度の曖昧さ、遮蔽、異常な衣服、動きのぼやけなどの要素により、大きな課題を抱えています。最も高度なHPS手法でもエラーが発生し、これらのミスに気づかないことが多いです。 HPSは中間タスクであり、人間の行動や3Dグラフィックスアプリケーションなどの下流タスクによって消費される出力を提供します。これらの下流タスクでは、HPSの結果の正確性を評価するメカニズムが必要であり、その結果、これらの手法はHPSの品質に相関する不確実性(または信頼性)の値を生成しなければなりません。 この不確実性に対処するためのアプローチの一つは、複数のボディを出力することですが、これにも明示的な不確実性の尺度が欠けています。一部の例外では、ボディパラメータの分布を推定することがあります。一つのアプローチは、ボディの分布からサンプルを抽出し、これらのサンプルの標準偏差を計算することです。この方法は有効ですが、複数のフォワードネットワークパスを要するため遅くなり、速度のために正確性を犠牲にします。より多くのサンプルが性能を向上させますが、計算要件が増加します。 最近、これらの課題に対処するために、明示的な監視をスキップしてネットワークを訓練して、ボディパラメータと同時に不確実性を出力する方法が開発されました。セマンティックセグメンテーションに関する研究に基づき、ガウスベースのベース密度関数を使用しますが、ヒューマンポーズのモデリングにはより複雑な分布が必要であることを認識しています。不確実性を直接推定する手法では、基本密度関数とスケールネットワークが一般的に使用されます。既存の手法では、無条件のbDFを使用し、スケールネットワークには画像の特徴のみに頼っています。このアプローチは、サンプルが類似の分布を共有する場合にはうまく機能しますが、頑健な3D HPSモデルに必要な多様なデータセットの処理には不十分です。 著者たちは、これらの課題に対処するための標準HPS手法に適用可能な革新的なフレームワークであるPOCO(“POse and shape estimation with COnfidence”)を紹介しました。POCOは、これらの手法を拡張して不確実性を推定します。単一のフィードフォワードパスで、POCOはSkinned Multi-Person Linear Model(SMPL)のボディパラメータとその回帰不確実性を直接推論し、再構築の品質と強く相関します。このフレームワークの鍵となるイノベーションは、「Dual Conditioning Strategy(DCS)」であり、ベース密度関数とスケールネットワークを強化します。フレームワークの概要は、以下の図に示されています。 従来のアプローチとは異なり、POCOは推定されたポーズエラーのベース密度関数をモデル化するための条件付きベクトル(Cond-bDF)を導入します。単純なワンホットデータソースでのエンコーディングではなく、POCOは画像の特徴を調整するために使用され、多様で複雑な画像データセットでのスケーラブルなトレーニングが可能になります。さらに、POCOの著者は、HPSモデルの不確実性を推定するための改良されたアプローチを紹介しています。彼らは画像の特徴を使用し、ネットワークをSMPLポーズに条件付けることで、ポーズの再構築と不確実性の推定を改善します。彼らの手法は既存のHPSモデルにシームレスに統合することができ、正確性を向上させる一方でデメリットはありません。この研究は、このアプローチがポーズエラーとの不確実性の相関において最先端の手法を上回ることを主張しています。彼らの研究で報告された結果は、以下に示されています。 これは、3D人間ポーズと形状推定のための革新的なAIフレームワークであるPOCOの要約でした。興味があり、それについてもっと学びたい場合は、以下に引用されたリンクを参照してください。

「スカイラインから街並みまで: SHoP Architectsが革新的なデザインを具体化する方法」

ニューヨーク市に拠点を置く建築会社、SHoP Architectsでは、機能する新興技術を取り入れることで業界のプロフェッショナルが視覚的な傑作を創造することを目指しています。 SHoPのビジュアライゼーションディレクターであるFanさんは、建築ビジュアライゼーションとデザインの分野に広範な専門知識を持っています。彼女は都市のスカイラインやストリートシーンにおいて、確定的で画期的で持続性のあるアプローチを取ります。 Fanさんと彼女のチームは、静止画からリアルタイムの歩行シミュレーションまで、様々な建築ビジュアライゼーションプロジェクトに取り組んでいます。彼らはAdobe Photoshop、Autodesk 3ds Max、Autodesk Revit、Epic GamesのUnreal Engineなど、プロジェクトの進行に合わせて複数の創造的なアプリケーションを使用します。SHoPはプロジェクトの開始時に建築家と直接協力し、設計プロセス中の迅速な意思決定を助けるための画像やアニメーションを提供します。 チームは常に新たな技術を統合し、未開拓のイノベーションの機会を追求し、研究開発を推進しています。Fanさんはリアルタイムと伝統的なレンダリング、拡張現実とAIを自身の創造的なワークフローに取り入れることが多いです。 デザインを結集させる詳細なディテールを捉えるために、SHoPはNVIDIA RTX A5500を利用しています。Fanさんはまた、NVIDIA RTXアンバサダープログラムの一員でもあり、RTX技術を使用して多様な業界のプロフェッショナルの業務をより大きくするためにデザイナーやクリエイターとのつながりを生み出しています。最新のRTXの能力を備えているFanさんは、リアルタイムのビジュアライゼーションやAI、デジタルツインアプリケーションの領域での限界突破を続けたいと考えています。 全ての画像はSHoP Architectsの提供です。 創造的な体験の再定義 3Dモデルは真実の唯一の源として重要な役割を果たしており、そのためにSHoPのデザイナーは創造性や生産性の低下を心配せずに詳細なモデルやビジュアライゼーションを作成するための高度な技術が必要です。 以前、チームはCPUベースの製品を使用しており、そのために担当できる仕事や研究開発の範囲が限られていました。しかし、RTXを使用することでデザイナーは複雑なデザインを作成し、他の人との連携を継続しながらコミュニケーションできるようになりました。 RTX A5500を利用することにより、Fanさんは効率と高品質なレンダリングを優先することができ、コンピューティングパワーの制約を気にする必要がありません。 「NVIDIAのプロフェッショナルなRTX GPUは現在、グラフィックスカードソリューションの業界標準として知られています」とFanさんは述べています。「RTXは、ハードウェアの制約を心配することなく上述のすべての作業を行うために私たちにパフォーマンスとパワーを提供してくれます。」…

「DiffPoseTalk(デフポーズトーク)をご紹介:新しい音声対応3Dアニメーション人工知能フレームワーク」

音声による表現アニメーションは、コンピュータグラフィックスと人工知能の交差点で複雑な問題であり、話し言葉の入力に基づいてリアルな顔のアニメーションとヘッドポーズを生成することを意味します。このドメインにおける課題は、話し言葉と顔の表情の複雑な多対多のマッピングから生じます。個々の人は異なる話し方を持っており、同じ文はトーン、強調、および関連する顔の表情の変化によって表現される様々な方法で述べることができます。さらに、人間の顔の動きは非常に複雑で微妙ですので、話し言葉だけから自然なアニメーションを作成することは困難な課題です。 近年、研究者たちによってさまざまな手法が試みられ、音声による表現アニメーションの複雑な課題に取り組まれています。これらの手法は一般的に、音声と顔の表情の複雑なマッピングを学習するための高度なモデルとデータセットに頼っています。重要な進展がなされていますが、人間の表現や話し方の多様性と自然さを捉えるという点では改善の余地がまだあります。 この分野で、DiffPoseTalkは先駆的な解決策として浮上しています。専門の研究チームによって開発されたDiffPoseTalkは、音声による表現アニメーションのフィールドを変革するために拡散モデルの優れた能力を活用しています。既存の手法が多様で自然なアニメーションを生成するのに苦労するのに対し、DiffPoseTalkは直接的にこの課題に取り組むために拡散モデルの力を利用しています。 DiffPoseTalkは拡散ベースのアプローチを採用しています。フォワードプロセスでは、顔の表情やヘッドポーズなどの初期データサンプルにガウスノイズを系統的に導入し、注意深く設計された分散スケジュールに従います。このプロセスは、話し言葉中の人間の顔の動きの固有の変動を模倣しています。 DiffPoseTalkの真の魔法は、逆プロセスで展開されます。フォワードプロセスを支配する分布はデータセット全体に依存するため、不可解ですが、DiffPoseTalkは巧妙にノイズ除去ネットワークを用いてこの分布を近似します。このノイズ除去ネットワークは、ノイズの観測に基づいてクリーンなサンプルを予測するために厳密なトレーニングを受け、拡散プロセスを効果的に逆にします。 生成プロセスを正確に制御するために、DiffPoseTalkには話し方エンコーダが組み込まれています。このエンコーダは、短いビデオクリップから個人の独特な話し方をキャプチャするために設計されたトランスフォーマーベースのアーキテクチャを持っています。モーションパラメータのシーケンスからスタイル特徴を抽出することで、生成されるアニメーションが話者の独自のスタイルを忠実に再現することを保証します。 DiffPoseTalkの最も注目すべき点の一つは、多様性とスタイルを具現化する豊富なスペクトラムの3D顔のアニメーションとヘッドポーズを生成するという固有の能力です。DiffPoseTalkは、拡散モデルの潜在的な能力を活用して多様な形態の分布を再現することで、様々な顔の表情とヘッドの動きを生成することができます。これにより、人間のコミュニケーションの微妙なニュアンスを包括的に表現することができます。 パフォーマンスと評価の観点では、DiffPoseTalkは顕著に際立っています。生成された顔のアニメーションの品質を測定する重要な指標の一つは、各フレームのすべての口の頂点に対する最大L2エラーによるリップシンクです。DiffPoseTalkは常に高度に同期されたアニメーションを提供し、仮想キャラクターの口の動きが話された言葉に合っています。 さらに、DiffPoseTalkは個々の話し方を忠実に再現する能力にも優れています。これにより、生成されるアニメーションがオリジナルの話者の表現や言動を忠実に反映し、アニメーションに真正性の一層を加えることができます。 さらに、DiffPoseTalkによって生成されるアニメーションは、その本来の自然さが特徴です。顔の動きに滑らかさが漂い、人間の表現の微妙なニュアンスを巧みに捉えています。この固有の自然さは、現実的なアニメーション生成における拡散モデルの有効性をより強調しています。 結論として、DiffPoseTalkは、音声による表現アニメーションの画期的な手法として登場し、音声入力を多様なスタイルの顔のアニメーションやヘッドポーズにマッピングするという複雑な課題に取り組んでいます。拡散モデルと専用の話し方スタイルエンコーダを活用することで、DiffPoseTalkは人間のコミュニケーションの数多くの微妙なニュアンスを的確に捉えることができます。AIとコンピュータグラフィックスが進歩する中で、私たちは楽しみにしています。将来的には、仮想のパートナーやキャラクターが人間の表現の微妙さと豊かさを備えて生命を吹き込まれる日が来ることを。

ハスデックスとステーブルディフュージョン:2つのAI画像生成モデルを比較

「HasdxとStable Diffusionは、さまざまなユースケース、コスト、機能などを考慮して、最高のテキストから画像への変換モデルの一部として、どのように優れているのか」

「Googleが最新のVertex AI検索を発表:医療プロバイダに革新をもたらすゲームチェンジャー」

HLTH 2023において画期的な発表がありました。Googleは、健康産業およびライフサイエンスプロバイダー向けに特化したVertex AIの検索機能を導入することにより、医療業界の革命の舞台を設けました。この革新は、患者データへのアクセス方法や医療クエリの回答方法を変革することを約束しています。詳細について探ってみましょう。 医療の検索における新時代 GoogleのVertex AIプラットフォームがこの技術的飛躍の最前線に立ちます。これは、健康産業およびライフサイエンス企業が効率的に患者データを検索できる強力な生成型AI機能を備えています。これには、FHIRデータや臨床ノートなどの重要な臨床情報源も含まれます。また、この革新はGoogleの大規模な医療言語モデル、Med-PaLM 2との統合により、他の革新とは一線を画しています。 【関連記事】GoogleのMed-PaLM 2は最先端の医療AIになるでしょう Vertex AIとMed-PaLMの解説 Vertex AIはカスタマイズ可能な検索エンジンであり、生成型AI対応の検索エンジンの作成を組織に可能にする革新的な技術です。これは、特に医療分野での顧客の検索体験を設計する柔軟性を提供します。 一方、Med-PaLM 2は、Googleの大規模言語モデル(LLMs)の力を活用した生成型AI技術です。このデジタルの驚異は複雑な医療質問に答えることができ、正確かつ効率的な医療ソリューションにとって貴重な資産となります。 【詳細はこちら】医療における生成型AI ホリスティックな医療クエリのアプローチ Vertex AI SearchとMed-PaLM 2の融合により、医療提供者が回答を求める方法にパラダイムシフトがもたらされました。患者特定の医療問い合わせや一般的な医療質問に対して、このダイナミックなデュオがカバーしています。 効率とケアの品質の向上 Google CloudのクラウドAIおよび業界ソリューションのVP兼GMであるBurak…

「創発的AIのためのガードレール構築への責任あるアプローチ」

「私たちは、創発型人工知能にガードレールを築く方法の一部を共有しています」

「不確定性pyと混沌pyを用いた多項式混沌展開による混沌の秩序化」

3年前、イタリアのローマから引っ越して、アメリカのオハイオ州シンシナティに住み始めましたシンシナティ大学からの博士課程のオファーを受けたからです私が懐かしむことがたくさんありました(そして今もあります)...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us