Search Results 3

ETH Zurichの研究者が、推論中に0.3%のニューロンしか使用しないが、同様のBERTモデルと同等の性能を発揮するUltraFastBERTを紹介しました

ETHチューリッヒの研究者によるUltraFastBERTの開発は、推論中に使用するニューロンの数を削減する問題に取り組み、他のモデルと同様のパフォーマンスレベルを維持しながら、高速なフィードフォワードネットワーク（FFF）の導入により、ベースラインの実装と比較して大幅な高速化を実現しました。既存の手法は、ETHチューリッヒの研究者によって提供されたコード、ベンチマーク設定、およびモデルの重みによってサポートされています。また、複数のFFFツリーによる共同計算と、GPT-3などの大規模な言語モデルへの応用の可能性を提案しています。研究では、混合スパーステンソルとデバイス固有の最適化によるさらなる高速化も提案されています。 UltraFastBERTは、推論中の選択的なエンゲージメントによる効率的な言語モデリングを実現しています。従来のモデルのフィードフォワードネットワークを簡略化されたFFFに置き換え、一貫した活性化関数と全ノードの出力重みを使用しながらバイアスを排除しています。複数のFFFツリーで中間層の出力を共同計算することにより、多様なアーキテクチャが可能となります。提供される高レベルのCPUおよびPyTorchの実装により、大幅な高速化が実現され、研究では複数のFFFツリーによる高速化や大規模な言語モデルのフィードフォワードネットワークのFFFへの置換も探求しています。デバイス固有の最適化としては、Intel MKLとNVIDIA cuBLASが提案されています。 UltraFastBERTは、推論中にBERT-baseと比較可能なパフォーマンスを達成し、そのニューロンのわずか0.3％のみを使用しています。1日の単一GPUでトレーニングされ、GLUEの予測パフォーマンスは少なくとも96.0％を維持します。UltraFastBERT-1×11-longは、そのニューロンのわずか0.3％を使用してBERT-baseのパフォーマンスに対応します。より深い高速フィードフォワードネットワークではパフォーマンスが低下しますが、CoLAを除くすべてのUltraFastBERTモデルは少なくとも98.6％の予測パフォーマンスを維持します。クイックフィードフォワードレイヤーによる大幅な高速化が示され、CPUで48倍から78倍、GPUで3.15倍の高速化が実現されており、大規模なモデルの置換の可能性が示唆されています。結論として、UltraFastBERTは、推論中にそのニューロンのわずかな部分しか使用せずに効率的な言語モデリングを実現するBERTの改良版です。提供されるCPUおよびPyTorchの実装により、それぞれ78倍と40倍の高速化が達成されています。研究は、条件付きニューラル実行のプリミティブの実装によるさらなる高速化の可能性を示唆しています。わずか0.3％のニューロンしか使用していないにも関わらず、UltraFastBERTの最良モデルはBERT-baseのパフォーマンスに匹敵し、効率的な言語モデリングの可能性を示しています。UltraFastBERTは、将来のより高速かつリソースフレンドリーなモデルの道を開く効率的な言語モデリングの潜在的な進歩を示しています。今後の研究の提案内には、ハイブリッドベクトルレベルスパーステンソルとデバイス固有の最適化を使用した効率的なFFF推論の実装、条件付きニューラル実行の完全なポテンシャルの探索、大規模な言語モデルのフィードフォワードネットワークをFFFに置換することによる最適化の可能性についての議論が含まれています。将来の作業では、PyTorchやTensorFlowなどの一般的なフレームワークで再現性のある実装と、UltraFastBERTや類似の効率的な言語モデルのパフォーマンスと実用的な影響を評価するための幅広いベンチマークに焦点を当てることができます。

「InVideoレビュー：2023年11月の最高のAIビデオジェネレーター？」

「最も包括的なInVideoのレビューをお探しですか？最高のAIビデオジェネレーターについての情報を入手し、詳細はこちらでご確認ください」

シカゴ大学の研究者が3Dペイントブラシを導入：テキストを入力として使用してメッシュ上にローカルスタイルのテクスチャを生成するためのAIメソッド

3Dのペイントブラシは通常、3Dモデリングやスカルプトアプリケーションで使用され、3Dオブジェクトやモデルを作成および操作するために使用されます。これらのツールを使用すると、ユーザーは直接3D表面に描画し、モデルにテクスチャ、色、詳細を追加することができます。このプロセスは、ゲーム、アニメーション、映画などのさまざまな産業で、リアルなテクスチャの作成、複雑なディテールの追加、3Dオブジェクトに命を吹き込むために基本的なものです。詳細で正確なローカライゼーションは、編集を特定の領域に制約し、対象の編集に関係のない変更を防止するために重要です。通常は、テクスチャマップを持つメッシュという技術が使用されます。テクスチャマップは、色、表面パターン、粗さ、艶などの詳細を提供するために、3Dモデルの表面に巻き付けられた2Dイメージまたはセットです。3Dの構造は、頂点、エッジ、および面からなり、オブジェクトの形を形成します。シカゴ大学とスナップリサーチの研究者は、テキストの説明を介してメッシュ上のローカルセマンティック領域に自動的にテクスチャを付けるための3Dペイントブラシを開発しました。彼らの方法は、メッシュ上で直接操作され、標準のグラフィックスパイプラインにシームレスに統合されるテクスチャマップを生成します。3Dペイントブラシは、直感的で自由形式のテキスト入力を介して制御され、さまざまなメッシュ上でオープンボキャブラリーを使用して編集を説明することができます。彼らはまた、局所的なテクスチャ領域の詳細と解像度を向上させるためにカスケードスコア蒸留（CSD）を開発しました。これを使用して、ローカライゼーション領域を変更し、局所的な領域内のジオメトリを変形することができます。彼らはローカリゼーションとテクスチャマップを表現するためにマルチレイヤーパーセプトロンでエンコードされたニューラルフィールドを使用しました。このローカライセーションは、テクスチャを明示的にマークし、局所的なスタイルをローカライズされた境界に保証します。テクスチャとともにローカライゼーションを明示的に学習することで、編集を局所化することが保証されます。彼らは、3Dペイントブラシのローカライゼーションが既存のモデルが生成するよりも鮮明であると述べています。ユーザーは、そのCSDを使用して、監督のグラニュラリティとグローバル理解を制御し、他のSDSよりも高解像度のテクスチャとローカリゼーションを実現することができます。彼らの方法では、3D表面上で定義されたMLPを使用して、3Dでスムーズに変化する出力を生成するニューラルテクスチャを作成します。これは、2Dテクスチャマップがテクスチャのシームで不連続性を持つ場合にも行うことができます。MLPが提供する滑らかさは、アーティファクトを減少させ、ノイズの少ないテクスチャを生成し、超解像度の機能を組み込んでいます。チームは同時にローカライゼーションとテクスチャ領域を最適化しました。同時最適化により、予測されたローカライゼーション領域に効果的に適合する詳細なテクスチャが生成されました。予測されたローカライゼーション領域は鮮明で入り組んでいます。将来は、テクスチャマップを利用して複数の形状を共有することで、テキスチャリングおよび学習のローカライズされた編集機能を拡張することを目指しています。

「PhysGaussian（フィジカルガウシアン）に会いましょう：物理的に根拠のあるニュートン力学を3Dガウス関数に組み込むことで高品質な新世代モーションシンセシスを生み出す人工知能技術」

最近のニューラル・ラディアンス・フィールド（NeRF）の進歩により、3Dグラフィックスと知覚の進展が示されてきました。さらに、最先端の3Dガウススプラット（GS）フレームワークがこれらの改善を促進しています。いくつかの成功にもかかわらず、新たな動力学を創出するにはさらなる応用が必要です。NeRFのための新しいポーズを作り出す取り組みが存在している一方で、研究チームは主に準静的な形状変化のジョブに焦点を当てており、しばしばテトラヘドラなどの粗いプロキシメッシュ内にメッシュ化または埋め込み視覚ジオメトリを必要とします。ジオメトリの構築、シミュレーションの準備（しばしばテトラヘドラカチオンを使用）、物理モデリング、そしてシーンの表示は、従来の物理ベースの視覚コンテンツ作成プロセスにおいて労力のかかるステップとなっています。その効果はありますが、このシーケンスにはシミュレーションと最終的な表示の間に不一致を引き起こす中間ステップが含まれています。同様の傾向はNeRFのパラダイムでも見られ、シミュレーションジオメトリがレンダリングジオメトリと絡み合っています。この分離は、物質の物理的特性と外観が不可分に結びついている自然界に反します。彼らの一般的な理論は、レンダリングとシミュレーションの両方に使用される材料の単一モデルをサポートすることで、これらの2つの側面を調和させることを目指しています。UCLA、浙江大学、ユタ大学の研究者らは、この目標を達成するために、物理統合型3Dガウス生成ダイナミクスであるPhysGaussianを提供しています。この革新的な手法のおかげで、3Dガウス関数は物理的に正確なニュートン力学を捉えることができ、固体材料特有の現実的な振る舞いや慣性効果を兼ね備えています。具体的には、研究チームは3Dガウス関数に弾性エネルギーや応力、可塑性などの機械的特性、速度やひずみなどの運動学的特性を持たせることで、PhysGaussianを提供しています。この手法は、技術的なオブジェクトのメッシュ化の必要性をなくすことで、モーション作成手順をはるかに簡素化します。さらに、研究チームはさまざまな材料に関して広範な実験とベンチマークを行っています。効果的なMPMシミュレーションとリアルタイムGSレンダリングの助けを借りて、基本的なダイナミクスシナリオでリアルタイムのパフォーマンスを実現しました。要約すると、彼らの貢献は以下の通りです。・3Dガウス運動学の為の連続体力学：研究チームは、3Dガウスカーネルを成長させ、物理的偏微分方程式（PDE）によって制御される変位フィールドで生成される球面調和関数を持つ連続体力学に基づく手法を提供しています。・統合されたシミュレーション-レンダリングプロセス：研究チームは、単一の3Dガウス表現を使って効果的なシミュレーションとレンダリングプロセスを提供しています。明示的なオブジェクトのメッシュ化の必要性を排除することで、モーション作成手順がはるかに簡単になります。・適応可能なベンチマーキングと実験：研究チームはさまざまな材料に対して広範な実験とベンチマークを行っています。効果的なMPMシミュレーションとリアルタイムGSレンダリングのおかげで、基本的なダイナミクスシナリオにおいてリアルタイムのパフォーマンスを実現しました。

このAI研究では、ドライブ可能な3Dガウスアバター（D3GA）を提案します：ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです

印象派は匿名の画家、彫刻家、版画家などからなる協会によって19世紀に創設された芸術運動であり、「かろうじて形を伝えることのできる、短く切れた筆使い」が特徴です。最近の研究では、印象派が避けたような写真で人間の主題をできるだけ現実的に描写することが可能になっています。一眼カメラの技術では正確さに欠けるため、ドライブ可能（新しいコンテンツを生成するためにアニメーション化できる）な写真の人間を写実的に生成するには、現在は広範なマルチビューデータが必要です。さらに、現在の手法では正確な3Dレジストレーションなどの緻密な前処理が必要とされます。しかし、これらのレジストレーションを得るためには、エンドツーエンドのワークフローに容易に組み込むことができない反復プロセスを使用する必要があります。正確なレジストレーションを必要としない他のアプローチは、ニューラル輻射場（NeRFs）に基づいています。これらのアプローチは、特定の例外を除いて衣服のアニメーションを描写するのに苦労するか、リアルタイムの描写にはあまりにも遅すぎます。 Meta Reality Labs Research、Technical University of Darmstadt、Max Planck Institute for Intelligent Systemsの研究者たちは、放射場ではなく、3Dガウスを使用して3D人間の外見と変形を規範的な空間で表現しています。ガウス放射場は、生きている、再配置可能なキャラクターの体形と美的感覚に合うような、クイックな筆使いの代替として使用されます。ガウス放射場では、カメラの光線のサンプリングを含むいかなるハックも必要ありません。ドライブ可能なNeRF内のポイントは、リニアブレンドスキニング（LBS）を使用して観測空間から規範的な空間に変換されることがよくあります。一方、D3GAは、3Dガウス体積を用いてヒトをモデル化し、それゆえにボリュームから規範的な空間へのマッピングが必要です。研究者たちはLBSの代わりに、ケージという他の確立された変形モデルを使用しており、このモデルはボリューム変換に適しています。ケージの変形勾配は、規範的な空間でのケージの変形によって生成されたものであり、3Dガウス表現に直接適用されます。このアプローチは、胴体、顔、衣服をケージを使用して別々に表現することができる合成構造に基づいて構築されています。ケージの歪みが発生する原因を特定するための残る謎があります。現在のドライブ可能なアバターの最先端は、RGB-D画像やマルチカメラセットアップなどの密な入力信号を要求しており、テレプレゼンスアプリケーションの低帯域幅接続には適さない場合があります。研究チームは、ヒトの姿勢に基づいたより短縮された入力を使用しました。この入力は骨格関節角度と3D顔のキーポイントのクォータニオン表現を含みます。彼らは9つの高品質なマルチビューシーケンスを使用して、どの主題からでも新しいポーズで駆動できる個人固有のモデルを学習しました。さまざまな体形、動き、衣服（きつくフィットする必要はない）をカバーしています。この手法は高品質の出力を生成し、テスト時にFFDメッシュや画像などのより多くの情報を利用する方法と同等の入力と競合しながら、最先端の状態を上回る成果を挙げています。さらに、提案された技術はデータの処理時間を削減し、幾何学的な領域と外見モデリングにおいて有望な結果を得るために、正確なジオメトリ情報を必要としません。

Google AIは、オーディオ、ビデオ、テキストの異なるモードにわたる学習のためのマルチモダルオートリグレッシブモデルであるMirasol3Bを発表しました

機械学習の広範な領域では、さまざまなモダリティ（音声、ビデオ、テキスト）に埋め込まれた複雑さを解読することが難しいとされています。時間を合わせたモダリティと非合わせたモダリティの複雑な同期、およびビデオや音声信号の圧倒的なデータ量は、研究者たちに革新的な解決策を模索させました。そこで、Googleの専門チームが作り出した巧妙な多モーダル自己回帰モデルであるMirasol3Bが登場します。このモデルは、異なるモダリティの課題に対処し、より長いビデオ入力の処理に優れています。 Mirasol3Bのイノベーションに入る前に、多モーダル機械学習の複雑さを理解することが重要です。既存の手法では、音声やビデオなどの時間を合わせたモダリティとテキストなどの非合わせたモダリティの同期に苦慮しています。この同期の課題は、ビデオや音声信号に存在する膨大なデータ量によってさらに複雑になり、圧縮が必要なことがしばしばあります。より長いビデオ入力をシームレスに処理することができる効果的なモデルへの緊急の必要性がますます明らかになっています。 Mirasol3Bは、これらの課題に対処するパラダイムシフトを象徴しています。従来のモデルとは異なり、Mirasol3Bは時間を合わせたモダリティ（音声とビデオ）のモデリングと、テキスト情報などの非合わせたモダリティの明確なコンポーネントを含んでいます。これにより、Mirasol3Bは新しい視点をもたらします。 Mirasol3Bの成功は、時間を合わせたモダリティと文脈モダリティの巧妙な調整にかかっています。ビデオ、音声、テキストはそれぞれ異なる特性を持っています。たとえば、ビデオは高いフレームレートを持つ空間時間的な視覚信号であり、音声は高い周波数を持つ一次元の時間信号です。これらのモダリティを結び付けるために、Mirasol3Bはクロスアテンションメカニズムを使用し、時間を合わせたコンポーネント間で情報の交換を容易にしています。これにより、モデルは正確な同期の必要性なしで、異なるモダリティ間の関係を包括的に理解することができます。 Mirasol3Bの革新的な魅力は、時間を合わせたモダリティへの自己回帰モデリングの応用にあります。ビデオ入力は、管理可能なフレーム数で構成される複数のチャンクに賢明に分割されます。コンバイナーという学習モジュールがこれらのチャンクを処理し、共有の音声とビデオの特徴表現を生成します。この自己回帰戦略により、モデルは個々のチャンクとそれらの時間的な関係を把握することができます。これは意味のある理解にとって重要な要素です。コンバイナーは、Mirasol3Bの成功の中心であり、ビデオと音声の信号を効果的に調和させるために設計された学習モジュールです。このモジュールは、小さな数の出力特徴を選択することで、大量のデータの処理の課題に取り組んでいます。コンバイナーは、シンプルなトランスフォーマベースのアプローチから、差分可能なメモリユニットをサポートするトークン・チューリング・マシン（TTM）などのメモリコンバイナーまで、さまざまなスタイルで現れます。両方のスタイルが、モデルが広範なビデオと音声の入力を効率的に処理する能力に貢献しています。 Mirasol3Bのパフォーマンスは、印象的です。このモデルは、MSRVTT-QA、ActivityNet-QA、NeXT-QAなどのさまざまなベンチマークで、最先端の評価手法に常に勝る結果を示しています。80億のパラメータを持つFlamingoなどのはるかに大きなモデルと比較しても、約30億のパラメータを持つMirasol3Bは、優れた能力を示しています。特に、モデルはオープンエンドのテキスト生成設定で優れた性能を発揮し、汎化および正確な応答の生成能力を示しています。結論として、Mirasol3Bはマルチモーダルな機械学習の課題に取り組むための大きな進歩を表しています。自己回帰モデリング、時間に整列したモダリティの戦略的な分割、そして効率的なコンバイナーを組み合わせた革新的なアプローチにより、この分野で新たな基準が確立されました。比較的小型のモデルでパフォーマンスを最適化する能力は、正確さを犠牲にすることなく、Robustなマルチモーダル理解を必要とする実世界のアプリケーションにおいてMirasol3Bを有望な解決策と位置づけています。私たちが世界の複雑さを理解できるAIモデルを求める探求が続く中、Mirasol3Bはマルチモーダルの領域において進歩の光として輝きます。

「AWS reInvent 2023での生成的AIとMLのガイド」

はい、AWS reInventの季節がやってきましたいつものように、場所はラスベガスです！カレンダーに印をつけ、ホテルを予約し、さらには航空券も購入済みですねさて、それでは第12回reInventで開催されるジェネレーティブAIと機械学習（ML）のセッションに参加するためのガイダンスが必要ですジェネレーティブAIは以前のイベントでも登場していましたが、今年はさらなる進化を遂げます基調講演中にはいくつかの注目発表がありますし、私たちのトラックのほとんどのセッションでもジェネレーティブAIを導入していますそのため、私たちのトラックを「ジェネレーティブAIとML」と呼ぶことができますこの記事では、トラックの構成とおすすめのセッションを紹介しますジェネレーティブAIに焦点を当てたトラックではありますが、他のトラックにも関連セッションがありますので、セッションカタログを閲覧する際には「ジェネレーティブAI」のタグを使用してください

Learn more about Search Results 3 - Page 9

ETH Zurichの研究者が、推論中に0.3%のニューロンしか使用しないが、同様のBERTモデルと同等の性能を発揮するUltraFastBERTを紹介しました

「InVideoレビュー：2023年11月の最高のAIビデオジェネレーター？」

シカゴ大学の研究者が3Dペイントブラシを導入：テキストを入力として使用してメッシュ上にローカルスタイルのテクスチャを生成するためのAIメソッド

「PhysGaussian（フィジカルガウシアン）に会いましょう：物理的に根拠のあるニュートン力学を3Dガウス関数に組み込むことで高品質な新世代モーションシンセシスを生み出す人工知能技術」

このAI研究では、ドライブ可能な3Dガウスアバター（D3GA）を提案します：ガウススプラットでレンダリングされた人体のための最初の3Dコントローラブルモデルです

Google AIは、オーディオ、ビデオ、テキストの異なるモードにわたる学習のためのマルチモダルオートリグレッシブモデルであるMirasol3Bを発表しました

「AWS reInvent 2023での生成的AIとMLのガイド」

『検索増強生成（RAG）の評価に向けた3ステップアプローチ』

『Amazon Search M5がAWS Trainiumを使用してLLMトレーニングコストを30%節約しました』

「カスタムレンズを使用して、信頼性のあるよく設計されたIDPソリューションを構築する」シリーズの第3部：信頼性

Find the right Blockchain Investment for you