Learn more about Search Results 定義 - Page 11
- You may be interested
- ルーシッドドリーマー:インターバルスコ...
- 「回転行列の解説」
- 車両ルーティング問題 正確な解法とヒュー...
- データサイエンスのキャリアに転身する際...
- メタAIの研究者たちは、大規模な言語モデ...
- 「3つの医療機関が生成型AIを使用している...
- 中国からの新しいAI研究が、RecycleGPTを...
- データサイエンティストやアナリストのた...
- データサイエンス入門:初心者向けガイド
- Google MapsのAir Quality APIから大気汚...
- 「ChatGPTの王座陥落:クロードが新しいAI...
- 「2023年に知っておくべきトップ15のビッ...
- 「データサイエンス、STEM、ビジネス、お...
- 「Amazon Textract、Amazon Bedrock、およ...
- 「脳のように機能するコンピュータビジョ...
Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス
トランスフォーマーは最初に導入され、自然言語処理の主要なアーキテクチャとして急速に台頭しました。最近では、コンピュータビジョンでも非常に人気があります。Dosovitskiyらは、画像をパッチのシーケンスに分割し、それらのパッチを線形に埋め込み、その結果得られる特徴のシーケンスをトランスフォーマーエンコーダに供給することで、CNNベースのアーキテクチャに勝る効果的な画像分類器を作成する方法を示しました。セグメンテーション、検出、および分類などの多くの区別的なビジョンタスクにおいて、このアプローチは現在の標準です。ただし、生成トランスフォーマーデコーダはある事前定義された有限のボキャブラリーから離散的なトークンを消費して予測するため、画像を(非量子化された)特徴ベクトルのシーケンスにマッピングすることは、トランスフォーマーベースの画像生成には適切ではありません。 このような構造は自然言語に自然に適合し、デコーダーモデル単体では、効果的なトレーニングがインストラクターフォースと強力な連続生成モデリングを介して可能です。最近の取り組みでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)を使用して画像を離散トークンのシーケンスにマッピングし、その後、トランスフォーマーデコーダを使用して潜在的な離散トークンの分布をモデル化するための手法を採用しています。このアプローチは、画像を利用した多走的生成モデルも容易にします。しかし、2段階のメソッドは画像とマルチモーダルコンテンツの作成には適していますが、いくつかの問題があります。 VQ-VAE内のボキャブラリーサイズによって、潜在的なモデリングや画像の細部調整の調整が困難になるため、潜在的なコードの情報量が減少します。また、トークンを使用して密度予測や低レベルの区別的なタスクにトークンを使用するアプリケーションの品質にも影響を与えます。ボキャブラリーサイズの拡大はこの問題の解決に役立ちますが、それによってボキャブラリーの使用が不十分になる場合があります。したがって、高品質なVQ-VAEセットアップでは、エントロピー損失やコードブックの分割などの洗練された方法に頼る必要があります。さらに、巨大なボキャブラリーは記憶容量を多く消費する埋め込み行列をもたらし、異なるモダリティのボキャブラリーが混在するマルチモーダルシナリオでは、問題が発生する可能性があります。研究チームは、これらの問題を回避するために、デコーダーモデルを変更して、離散的なトークンと、したがって、固定された有限のボキャブラリーを必要としない連続した実数値のベクトルシーケンスで動作する生成トランスフォーマーデコーダを提案しています。 特に、Google DeepMindとGoogle Researchの研究チームは、実数値のベクトルシーケンスを用いて機能する生成型無限ボキャブラリートランスフォーマー(GIVT)を提案しています。実数値のベクトルは無限ボキャブラリーと見なすことができるため、研究チームはこれをGIVTと呼んでいます。図1に示されているように、研究チームはトランスフォーマーデコーダの設計をわずかに変更しました(合計2つの変更)。1)入力では、研究チームは離散的なトークンの代わりに連続した実数値のベクトルシーケンスを線形に埋め込む。2)出力では、研究チームは有限のボキャブラリー上のカテゴリカル分布のパラメータを予測するのではなく、連続した実数値のベクトル上の連続した分布のパラメータを予測します。研究チームは、教師強制と因果関係注意マスクを使用してこのモデルをトレーニングしました。また、研究チームはMaskGITに類似した高速進行マスクバイダイレクショナルモデリングも調査しました。 図1は、連続した無限ボキャブラリーのバリエーション(右側のGIVT)を典型的な離散トークン生成トランスフォーマー(左側)と比較するための同じデコーダーモデルを使用しています。 GIVTは、入力時に斜めに並んだ連続した実数値ベクトルのシーケンスで離散トークンを置き換えます。有限のボキャブラリー上のカテゴリカル分布を予測する代わりに、GIVTは出力時に連続した実数値ベクトル上の連続した分布のパラメータを予測します。 高解像度の画像を平坦化して生成されるRGBピクセルの系列は、理論的には任意の特徴ベクトルの系列にGIVTを適用することができるものの、直接的にモデル化するのは難しい例です。それは長くて複雑な分布を持っていることもあります。したがって、研究チームはまず、ガウス事前VAEを使用して低次元の潜在空間をトレーニングし、次にGIVTでモデル化します。これは、VQ-VAEと類似した2段階のテクニックに似ています。研究チームはまた、シーケンスモデリングの文献からいくつかの推論戦略(温度サンプリングや分類器フリーガイディングなど)を転用しました。 注目すべきは、実数値トークンだけを使って、これによってVQベースの技術と同等か優れたモデルが生成されることです。以下に彼らの主な貢献を簡潔に述べます: 1. UViMを使用して、研究チームはGIVTが密な予測タスク(セマンティックセグメンテーション、深度推定、ピクチャーシンセシスなど)において、通常の離散トークン変換デコーダーよりも同等または優れたパフォーマンスを達成することを示しています。 2. 研究チームは、連続ケースにおける従来のサンプリング方法の効果(温度サンプリング、ビームサーチ、分類器フリーガイディング)の派生と有効性を導き出し、証明しました。 3. KL項の重み付けを使用して、研究チームはVAE潜在空間の正規化レベルと現れるGIVTの特性との関連性を検討しました。研究チームは、VQ-VAE文献の洗練されたトレーニング方法(潜在表現への補助損失、コードブックの再初期化、専用の最適化アルゴリズムなど)はVAEおよびGIVTのトレーニングでは使用されていないことを強調しており、単純に通常の深層学習ツールボックスのアプローチに依存していると述べています。
メタAIは、リアルタイムに高品質の再照明可能なガウシアンコーデックアバターを構築するための人工知能手法「Relightable Gaussian Codec Avatars」を紹介しますこれにより、新しい表情を生成するためにアニメーションさせることができるハイフィデリティのヘッドアバターが作成されます
“`html 画期的な進展を遂げたMeta AIの研究者たちは、ダイナミックな3Dヘッドアバターの高精細なリライティングを実現するという長年の課題に取り組みました。従来の方法では、特にリアルタイムの応用において効率性が重要となる場合に、表情の複雑な細部を捉えることができるようになるまでに時間がかかることがよくあります。Meta AIの研究チームは、この課題に対処すべく、「リライト可能ガウシアンコーデックアバター」という方法を発表し、アバターのリアリズムの領域を再定義する用意のある手法を作り出しました。 研究チームが取り組んだ中核的な問題は、ダイナミックな顔のシーケンスにおいて、髪の毛や毛穴などのサブミリメートルの詳細をより明確に捉える必要があるということです。目、肌、髪などの人間の頭部の異質な材料を効率的にモデル化しながら、すべて周波数の反射に対応するというのは困難な課題です。既存の手法の制約は、リアリズムとリアルタイムのパフォーマンスをシームレスに組み合わせる革新的な解決策が必要とされています。 リライト可能なアバターに関する既存のアプローチは、リアルタイムのパフォーマンスと忠実度のトレードオフに悩まされてきました。リアルタイムのアプリケーションにおいて、動的な顔の詳細を捉えることができるメソッドが必要とされてきたのです。Meta AIの研究チームは、この課題に目をつけ、「リライト可能ガウシアンコーデックアバター」を革新的な解決策として導入しました。 Meta AIの手法は、3Dガウシアンに基づくジオメトリモデルを導入し、サブミリメートルの精度まで拡張する精密さを提供しています。これは、ダイナミックな顔のシーケンスを捉えるための大幅な進歩であり、髪の毛や毛穴の微妙なニュアンスを含め、アバターが生命的な詳細を示すことを保証します。この革新的な手法の重要な要素であるリライト可能な外観モデルは、学習可能な輝度伝達に基づいています。 https://arxiv.org/abs/2312.03704 これらのアバターの優れた点は、アバターの構築における包括的なアプローチにあります。3Dガウシアンによってパラメータ化されたジオメトリモデルは、アバターのバックボーンを形成し、ガウシアンスプラッティング技術を使用した効率的なレンダリングを可能にします。学習可能な輝度伝達によって駆動される外観モデルは、拡散球面調和関数と反射球面ガウシアンを組み合わせています。この組み合わせにより、アバターは点光源と連続的な照明によるリアルタイムのリライティングを実現できます。 これらの技術的側面を超えて、この手法は表情、視線、ビュー、照明に対する切り離し可能な制御を紹介しています。アバターは、潜在的な表情コード、視線情報、および目標視野方向を利用してダイナミックにアニメーション化することができます。この制御のレベルは、アバターアニメーションにおける重要な進展であり、繊細でインタラクティブなユーザーエクスペリエンスを提供します。 これらのアバターは、単なる理論的な進展ではありません。その手法によって、ヘッドマウントカメラからのライブビデオによるアニメーションが実証されています。この能力により、リアルタイムのビデオ入力がアバターをシームレスに動かすことで、ダイナミックでインタラクティブなコンテンツを作り出すことができます。 総括すると、Meta AIの「リライト可能ガウシアンコーデックアバター」は、複雑な課題に対処するためのイノベーションの力を示すものです。3Dガウシアンに基づくジオメトリモデルと革新的な学習可能な輝度伝達の外観モデルを組み合わせることで、研究チームは既存の手法の制約を超え、アバターのリアリズムに新たな基準を打ち立てました。 “`
「NVIDIAがゲームチェンジャーとマーケットメーカーへの投資でAI革命を推進する方法」
偉大な企業は物語によって繁栄します。NVIDIAのベンチャーキャピタル担当であるシド・サイディックは、これをよく知っています。 サイディックは、最初の仕事のひとつで、投資家のミーティングからプレゼン資料を運び回り、トレーラーでの仕事中に、ドアが開くと「揺れる」トレーラーで、スタートアップのCEOとマネジメントチームが物語を伝えるのを手伝いました。 そのCEOはJensen Huangであり、スタートアップはNVIDIAでした。 サイディックは、投資家と起業家として働いた経験から、顧客やパートナー、従業員や投資家など、会社の物語を早い段階で共有するために適切な人々を見つけることがどれほど重要かを知っています。 この原則こそが、NVIDIAが次世代イノベーションを支援するために取り組んでいる多面的なアプローチの基盤です。この戦略は、NVIDIAの企業開発責任者であるヴィシャル・バグワティも支持しています。 この取り組みは、今年に入ってこれまでに2ダース以上の投資を果たしました。AIと加速コンピューティングのイノベーションのペースが加速するにつれ、さらに加速しています。 AIエコシステムを支援するNVIDIAの三本の戦略 NVIDIAがエコシステムを投資する方法は3つあります。まず、バグワティが監督するNVIDIAの企業投資によるもの。次に、サイディックが率いる私たちのベンチャーキャピタル部門であるNVenturesによるもの。そして最後に、ベンチャーキャピタルとスタートアップを結び付ける私たちのNVIDIA Inceptionです。 PwCによれば、AIだけで2030年までに世界経済に15兆ドル以上の寄与ができる可能性があります。したがって、現在AIと加速コンピューティングに取り組んでいる場合、NVIDIAは手助けする準備ができています。あらゆる業界の開発者が加速コンピューティングアプリケーションを作成しています。そして、まだ始まったばかりです。 その結果、AIの物語を日々進化させている企業のコレクションが生まれました。Cohere、CoreWeave、Hugging Face、Inflection、Inceptiveなどが含まれます。私たちは彼らと一緒にいます。 「NVIDIAと提携することはゲームチェンジャーです」とMachina LabsのCEOであるEd Mehrは言いました。 「彼らの類まれな専門知識が、私たちのAIとシミュレーション能力を飛躍的に向上させます」。 企業投資:エコシステムの成長 NVIDIAの企業投資部門は戦略的な協力に焦点を当てています。これらのパートナーシップは共同イノベーションを促進し、NVIDIAプラットフォームを強化し、エコシステムを拡大します。2023年の始め以来、14件の投資に関する発表が行われています。 これらのターゲット企業には、チップ間の光接続に特化したAyar Labsや、先進的なAIモデルのハブであるHugging Faceなどがあります。 ポートフォリオには、次世代のエンタープライズソリューションも含まれています。Databricksは、機械学習のための業界をリードするデータプラットフォームを提供しており、CohereはAIを通じた企業自動化を提供しています。他の注目すべき企業にはRecursion、Kore.ai、Utilidataなどがあり、それぞれが薬物発見、会話型AI、スマート電力グリッドのユニークなソリューションを提供しています。 消費者サービスも投資の焦点です。Inflectionは、クリエイティブ表現のためのパーソナルAIを作り上げており、Runwayは生成AIを通じたアートと創造性のプラットフォームとして機能しています。…
デジタル変革によって打撃を受ける可能性が低い6つの産業
「急速な技術の進歩やデジタル変革が進む時代において、多くの産業がその業務の風景に根本的な変化を経験していますしかし、変化の波の中で、何部門かは変革の潮流に対して強靭な立ち向かいを見せていますこれらの産業は揺るがぬ基盤を築いており、デジタル変革の荒波からは容易に揺ぎない存在です本記事では、デジタル変革による大激変を免れるであろう6つの産業について解説します」
「ビジネスにスピーチAIを導入する際に考慮すべき5つのポイント」
「退屈な仕事が働く時間の60〜70%を消し去るという世界を想像してくださいMcKinseyの報告によると、自然言語理解の進化により、生成AIがこの夢をすぐに現実化する可能性がありますそれには驚くべきことではありません伝統的な業界でも、ますます多くの企業がこれに取り組んでいるからです...」
‘LLMがデータアナリストを置き換えることはできるのか? LLMを活用したアナリストの構築’
私たちの中の誰もが、昨年の少なくとも1度は、ChatGPTがあなたの役割を置き換えることができるか(いや、むしろいつか)と考えたことがあると思います私も例外ではありません私たちは、最近の...
「Pythonドキュメントの向上:ソースコードのリンク設定のステップバイステップガイド」
「Sphinxを使用してGitHubのソースコードにPythonのドキュメントをリンクさせる方法を学びましょうクリアでインタラクティブなドキュメンテーションを求める開発者のための実践的なガイドです」
「機械学習における確率的要素の本質を明らかにする」
導入 機械学習は、データから学習し知的な判断を行うことを可能にする分野です。様々な概念と技術を含んでいます。そのうちのひとつが「確率的」であり、多くの機械学習アルゴリズムやモデルにおいて重要な役割を果たしています。この記事では、機械学習における確率的の意味について探求し、その応用と学習プロセスの最適化における重要性を理解します。 機械学習における確率的の理解 機械学習の文脈において、確率的とはアルゴリズムやモデルにランダム性や確率性を導入することを指します。これにより、ノイズや不完全なデータを効果的に処理することができます。確率的を取り入れることにより、機械学習アルゴリズムは環境の変化に適応し、堅牢な予測を行うことができます。 機械学習における確率的プロセス 確率的プロセスは、時間にわたってランダム変数の進化を記述する数学モデルです。これらは様々な現象をモデル化し分析するために機械学習で広く使用されています。これらのプロセスはデータの固有のランダム性を捉えるために適しています。 確率的プロセスの定義と特徴 確率的プロセスは、時間や他のパラメータによってインデックス化されたランダム変数の集合です。これはシステムの確率的な振る舞いを記述するための数学的な枠組みを提供します。確率的プロセスは、定常性、独立性、マルコフ性などの特性を持っており、データの複雑な依存関係を捉えることができます。 機械学習における確率的プロセスの応用 確率的プロセスは機械学習の様々な領域で応用されます。過去の観測に基づいて将来の値を予測する時系列解析において有益です。また、金融市場、生物プロセス、自然言語処理などの複雑なシステムのモデリングやシミュレーションにおいても重要な役割を果たします。 確率的勾配降下法(SGD) 確率的勾配降下法(SGD)は、機械学習における人気のある最適化アルゴリズムです。これは従来の勾配降下法の変形であり、パラメータの更新にランダム性を導入します。SGDは特に大規模なデータセットを扱う際に効率的かつスケーラブルな最適化を可能にします。 SGDの概要 SGDでは、データセット全体を使用して勾配を計算する代わりに、ランダムに選択されたデータのサブセット、ミニバッチを使用して勾配を推定します。このランダムサンプリングにより、最適化プロセスに確率性を導入し、ノイズや動的なデータに適応性を持たせます。これらのミニバッチ勾配に基づいてモデルパラメータを反復的に更新することにより、SGDは最適解に収束します。 SGDの利点と欠点 SGDは従来の勾配降下法に比べて収束が速く、メモリを少なく使用し、特に大規模なデータセットに対して計算効率が高いです。ただし、SGDの確率的な性質により、勾配の推定値のノイズにより最適解に収束しない場合があり、学習率の調整が必要です。 機械学習アルゴリズムへのSGDの実装 SGDは線形回帰、ロジスティック回帰、ニューラルネットワークなどの様々な機械学習アルゴリズムに実装することができます。各場合において、アルゴリズムはミニバッチから計算される勾配に基づいてモデルパラメータを更新します。この確率的最適化技術により、モデルは大規模なデータセットから効率的に学習することができます。 機械学習における確率的モデル 確率的モデルは、データの不確実性を捉えて確率分布に基づいて予測する確率モデルです。これらは機械学習において複雑なシステムのモデリングや現実的なサンプルの生成に広く使用されています。 機械学習における確率的モデルのタイプ 機械学習には3つのタイプの確率的モデルがあります:隠れマルコフモデル、ガウス混合モデル、およびベイジアンネットワーク。これらのモデルはランダム性と不確実性を組み込み、現実世界の現象をより正確に表現し予測することが可能です。 これらのモデルの応用について見ていきましょう。 隠れマルコフモデル(HMM)…
「生成型AIアプリケーションのためのプレイブック」
この記事では、Generative AIアプリケーションを実装する際の主要な考慮事項と、ビジョンを行動に変えるために人間の関与が果たす重要な役割について議論しています
「データを素早く可視化するための7つのパンダのプロット関数」
「Pandasのデータフレームでデータを視覚化したいですか?これらの便利なpandasのプロット関数を使用してください」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.