Search Results この

「トランスフォーマーブロックは、効率を損なうことなく簡素化することはできるのか？このAIの研究論文は、設計の複雑さと性能のバランスを探求しますETHチューリッヒ大学の論文」

ETHチューリッヒの研究者が、ディープトランスフォーマーの設計における単純化を探求し、より堅牢で効率的なものにすることを目指しています。シグナル伝播理論と経験的観察を組み合わせてさまざまな部品を削除するための修正を提案し、訓練速度やパフォーマンスに影響を与えることなく、標準トランスフォーマーブロックから削除することができます。この研究は、ディープニューラルネットワークのトランスフォーマーブロックの単純化に関する研究であり、特に標準的なトランスフォーマーブロックに焦点を当てています。シグナル伝播理論からインスピレーションを受け、アテンションやMLPのサブブロック、スキップ接続や正規化レイヤーを組み込んだ同一のビルディングブロックの配置を探求しています。また、MLPとアテンションのサブブロックを並列に計算するためのパラレルブロックを導入し、効率の向上を図っています。この研究は、ディープニューラルネットワークのトランスフォーマーブロックの単純化を具体的に検討し、特にブロック内のさまざまなコンポーネントの必要性を調査し、訓練速度を損なうことなく削除する可能性を探求しています。単純化の動機は、現代のニューラルネットワークのアーキテクチャの複雑さと、ディープラーニングにおける理論と実践の間のギャップから生じています。この手法では、シグナル伝播理論と経験的観察を組み合わせてトランスフォーマーブロックの単純化のための修正を提案しています。この研究では、自己回帰デコーダ専用のモデルとBERTエンコーダ専用のモデルで実験を行い、単純化されたトランスフォーマーのパフォーマンスを評価しています。さらに、アテンションのサブブロックからスキップ接続を削除した場合の信号変性についても追加の実験と異なる手法の影響を研究しています。研究では、スキップ接続、投射/値パラメータ、シーケンシャルサブブロック、正規化レイヤーを削除することでトランスフォーマーブロックを単純化する修正案を提案しています。これらの修正は、標準的なトランスフォーマーの訓練速度とパフォーマンスを維持しながら、より高速な訓練スループットを実現し、パラメータを少なく利用します。研究はまた、単純化されたトランスフォーマーのパフォーマンスに異なる初期化方法が与える影響を調査しました。提案された単純化されたトランスフォーマーは、標準的なトランスフォーマーと同等のパフォーマンスを実現しながら、パラメータを15%削減し、訓練スループットを15%向上させます。この研究は、大規模トランスフォーマーモデルのコストを削減できる単純化されたディープラーニングアーキテクチャを提供しています。実験結果は、さまざまな設定での単純化の有効性を支持し、最適な結果のための適切な初期化の重要性を強調しています。推奨される将来の研究は、提案された単純化が最大のトランスフォーマーモデルに対してどれほど効果的かを調査することです。この研究では、比較的小さいモデルに焦点を当てているため、包括的なハイパーパラメータの検索を実施し、単純化されたブロックのパフォーマンスを向上させることを提案しています。また、ハードウェア固有の実装を探求し、訓練速度とパフォーマンスをさらに向上させる可能性があります。

新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます

ミックスリアリティシナリオにおける没入型体験の領域では、正確かつ信憑性のある全身アバターの動きを生成することが持続的な課題となっています。既存の解決策は、ヘッドマウントデバイス（HMD）に依存しており、通常はヘッドと手の6自由度（DOF）など、限られた入力信号を利用します。最近の進歩によって、ヘッドと手の信号から全身の動きを生成することで印象的なパフォーマンスが示されましたが、それらは全て共通の制限を共有しています – 手の完全な可視性を前提とするという点です。この前提は、モーションコントローラが関与するシナリオでは妥当ですが、HMDの視野が制限されるため、手の追跡がエゴセントリックセンサに依存する多くのミックスリアリティ体験では、部分的な手の可視性が生じます。イギリスのマイクロソフト・ミックスド・リアリティ＆AIラボの研究者は、画期的な手法であるHMD-NeMo（HMDニューラルモーションモデル）を紹介しました。この統一されたニューラルネットワークは、手が部分的にしか見えていない場合でも信憑性のある正確な全身の動きを生成します。HMD-NeMoはリアルタイムかつオンラインで動作し、ダイナミックなミックスリアリティシナリオに適しています。 HMD-NeMoの核となるのは、時空間エンコーダであり、新しい時間的に適応可能なマスクトークン（TAMT）を備えています。これらのトークンは、手の観測がない場合でも合理的な動きを促進する重要な役割を果たします。この手法では、再帰的ニューラルネットワークを使用して時間的な情報を効率的にキャプチャし、トランスフォーマーを使用して異なる入力信号の複雑な関係をモデル化しています。この論文では、評価のために考慮された2つのシナリオが概説されています。モーションコントローラ（MC）では、手はモーションコントローラで追跡され、ハンドトラッキング（HT）では、ハンドトラッキングセンサを介して手が追跡されます。HMD-NeMoは統一されたフレームワーク内で両方のシナリオを取り扱うことができる初めての手法です。HTのシナリオでは、手が視野外に部分的または完全にある場合、時間的に適応可能なマスクトークンは時間の一貫性を維持する効果を示します。提案された手法は、SE（3）での人間のポーズ再構成におけるデータの正確さ、滑らかさ、および補助的なタスクを考慮した損失関数を使用してトレーニングされます。実験では、人間の動作シーケンスを3D人間メッシュに変換した大規模なAMASSデータセットの評価が行われます。HMD-NeMoのパフォーマンスを評価するために、平均関節位置誤差（MPJPE）や平均関節速度誤差（MPJVE）などのメトリクスが使用されます。モーションコントローラシナリオにおける最先端の手法との比較では、HMD-NeMoは優れた精度とスムーズなモーション生成を実現しています。さらに、モデルの汎化能力は、異なるデータセットでの評価を通じて証明されており、既存の手法を上回る結果を示しています。割合解析研究では、TAMTモジュールが欠落した手の観察を処理する上での効果など、さまざまなコンポーネントの影響について詳しく調査されます。この研究は、HMD-NeMoの設計選択肢がその成功に重要な貢献をしていることを示しています。結論として、HMD-NeMoはミックスリアリティシナリオにおける全身アバターの動きを生成する課題に向けた重大な進歩です。モーションコントローラおよびハンドトラッキングの両方のシナリオを処理する柔軟性と、優れたパフォーマンスメトリクスにより、この手法はその分野で先駆的な解決策と位置づけられます。

「グーグルディープマインドが発表したこのAI論文は、事前学習データの構成と予め訓練された変形器のコンテキスト学習との間のギャップを研究しています」

Google DeepMindの研究者は、大規模な言語モデルであるtransformerのin-context learning (ICL)の能力を探求しました。ただし、彼らの研究はドメイン外のタスクに取り組む必要があり、事前学習の分布を超えた機能の一般化に制約が存在することを明らかにしました。その結果、高容量のシーケンスモデルの印象的なICLの能力は、基本的な一般化に対する組み込みの帰納バイアスよりも事前学習データのカバレッジにより依存していることが示唆されています。この研究は、transformerモデルがICLを使用してfew-shot learningを行う能力を調査しています。事前学習データがモデルのパフォーマンスに及ぼす影響を強調しています。本研究では、transformerが事前学習データに適切にタスクファミリーをカバーしている場合、非監視モデル選択で優れたパフォーマンスを発揮することが示されています。ただし、ドメイン外のタスクに取り組む際には制約や一般化の低下が見られます。結果として、関数クラスの混合で訓練されたモデルは、単一のクラスで訓練されたモデルとほぼ同等のパフォーマンスを示すことが明らかになりました。本研究には、各種の事前学習データ構成におけるモデルのパフォーマンスを示すICL学習曲線も含まれています。この研究は、transformerモデルのICLの能力について掘り下げ、事前学習分布内外のタスクの学習能力に優れていることを強調しています。Transformerは高次元かつ非線形な関数の扱いにおいて優れたfew-shot learningを示します。本研究では、事前学習データがこれらの能力に与える影響を制御された設定で理解することを目的としています。それにより、データソースの構築の影響を把握し、事前学習およびドメイン外の一般化を調査します。パフォーマンス評価には、訓練時には見られなかったタスクや訓練済み関数の極端なバリエーションなども含まれます。制御された研究では、自然言語ではなく(x, f(x))のペアで訓練されたtransformerモデルを使用し、事前学習データがfew-shot learningに与える影響を詳しく調べています。異なる事前学習データの構成を持つモデルを比較することで、研究はさまざまな評価関数に対するモデルのパフォーマンスを評価しています。関数クラスファミリー間のモデル選択とドメイン外の一般化を探求することで、ICL曲線を取り入れ、さまざまな事前学習データ構成での平均二乗誤差を示しています。事前学習分布内外のタスクについての評価では、失敗モードや一般化の低下の経験的証拠が明らかになります。 Transformerモデルは、事前学習データのバリエーションのあるタスクファミリーからほぼ最適な非監視モデル選択を示します。ただし、事前学習データの範囲外のタスクに直面すると、さまざまな失敗モードや一般化の低下が現れます。異なる事前学習データ構成に基づいてモデルを比較すると、関数クラスにのみ事前学習されたモデルとほぼ同等のパフォーマンスを発揮することが明らかになります。この研究では、スパースモデルと密なモデルの間の違いによって正規化された平均二乗誤差の平方差メトリックを導入し、基本的な一般化能力における事前学習データのカバレッジの重要性を強調しています。結論として、事前学習データの構成は、特に自然言語の設定において、transformerモデルの正確なモデル選択において重要な役割を果たします。これらのモデルは明示的なトレーニングなしで新しいタスクを学習できますが、事前学習データを超える充電の扱いには助けが必要となる場合があり、異なる失敗モードや一般化の低下が生じます。したがって、ICLの理解と実現により、これらのモデルの総合的な効果を向上させることが重要です。

MITの研究者たちは、SmartEMというAI技術を開発しましたこの技術は、リアルタイムの機械学習を画像処理にシームレスに統合することで、電子顕微鏡を次のレベルに進化させます

動物の脳の複雑なネットワークを理解することは、特にアルツハイマーのような疾患を研究する際に、科学者にとって大きな課題となっています。従来の方法ではもっと早く、安価に行うことができるかもしれません。 SmartEMの前に、科学者は通常の顕微鏡を使用していましたが、脳の詳細を捉えるのに時間がかかりました。MITとハーバードの研究者が開発したSmartEMは、強力な電子顕微鏡と人工知能（AI）を組み合わせています。SmartEMは撮影しながら脳に関する知識を学びます。シナプスやニューロンなどの脳の微細部分を素早く調べ、理解するのに助けるアシスタントのような役割を果たします。 SmartEMは単なるカメラではありません。物事を見るときと同様に、私たちの目が重要なものに焦点を当てるように、賢明に操作されます。研究者たちは、顕微鏡に特別なコンピュータチップ（GPU）を追加しました。これにより、AIがどこに注目するかを決定することができます。これにより、顕微鏡は困難な領域により多くの時間を費やすことができます。顔を見たり本を読んだりするときに、私たちの目が重要な詳細に焦点を当てるのと同様です。 SmartEMの機能を示すために、SmartEMはタコの脳のスライスで作業しました。これらの薄いスライスの画像を撮影し、詳細な3Dマップに再構築しました。このマップは、さまざまな脳の部分がどのようにつながっているかを科学者に理解させます。大勢の友人のつながりを理解するのと同様です。SmartEMを使用すれば、通常の方法では2週間かかるタスクは、わずか1.5日で行うことができます。 SmartEMを開発したチームは、脳の研究をより迅速かつ費用対効果の高いものにすることを目指しています。彼らは、将来的には異なる場所からのより多くの科学者が巨大な予算を必要とせずに脳研究に参加できることを望んでいます。また、SmartEMを使用して患者の脳の詳細を調べることで、疾患の研究にも活用したいと考えています。その目標は、より効率的な病理学研究のために脳の中で何が起こっているかを迅速に理解することです。まとめると、SmartEMは電子顕微鏡と人工知能を組み合わせた強力なツールであり、より効率的に私たちの脳の謎を探求する科学者を支援します。SmartEMの協力を得て、研究者たちは脳の働きの秘密を解き明かし、それらに影響を及ぼす疾患に対処する方法を見つけることを望んでいます。

このAI論文は、’リラックス：エンドツーエンドの動的機械学習ワークロードの最適化のためのコンパイラの抽象化’を紹介しています

動的な形状を持つ機械学習モデルの最適化は、より優れたパフォーマンスと柔軟性を実現するために重要です。動的な形状とは、モデルがランタイム中に異なる寸法の入力データを処理できる能力を指します。TensorFlowのイーガー実行やPyTorchなど、動的計算グラフをサポートするフレームワークを利用するユーザーは、ランタイム中に可変の入力サイズに適応できるモデルを構築することができます。動的な形状を持つ機械学習モデルを最適化する際には、多くの課題があります。多くの従来の最適化は静的な形状解析に依存しており、動的次元から欠落した情報は、演算子や関数間で実行できる最適化に大きな影響を与える可能性があります。動的な形状を持つモデルでは、異なるバッチサイズを処理する必要があります。異なるバッチサイズに最適化することは、特に本番環境では固定バッチサイズに最適化するよりも難しい場合があります。現在の機械学習（ML）コンパイラは通常、従来のシングルショットの下方向流にプログラムを低レベルの表現に変換し、一つの最適化を適用した後に他の最適化を適用します。このアプローチでは、抽象化レイヤ間で形状と追加情報を失い、境界を越えた増分最適化を行うことが困難になります。研究者たちは、「Relax」を提案しています。これは、エンドツーエンドの動的な機械学習ワークロードを最適化するためのコンパイラ抽象化です。グローバルにプログラム全体で動的な形状計算を追跡するための一級の記号的な形状アノテーションを持ちます。さらに、計算グラフ、ループレベルのテンソルプログラム、およびライブラリ呼び出しを一つの表現にカプセル化するクロスレベルの抽象化を持ちます。これは、動的な形状のモデルを最適化するためのエンドツーエンドのコンパイルフレームワークです。研究者たちは、入力コンポーネントに基づいて式のアノテーションを推論する順方向の推論手法を採用しています。順方向の推論はシンプルでローカルであり、コンパイラのパスにおいて一時変数のアノテーションを取得することができます。また、形状を自動的に推論できない場合、順方向の推論はユーザーが挿入したマッチキャストの結果を使用して後続のアノテーションの推論を続けることができます。研究者たちは、Relaxで行われるすべての最適化は、組み合わせ可能な動的な形状に敏感な変換として行われます。これにより、さまざまなアプローチを使用して計算の一部を増分的に最適化または部分的に低下させることができます。それは他のレベルの解析を考慮し、動的な形状関係を仮定したさらなる最適化を組み込みます。実験結果は、Relaxが多様なハードウェアバックエンドに新たなLLM（生ライブラリモデル）をコンパイルして最適化し、重要な最適化済みのプラットフォーム固有のソリューションに競争力のあるパフォーマンスを提供していることを示しています。さらに、Relaxはモバイル電話、組み込みデバイス、Webブラウザを介してWebAssemblyやWebGPUを使用した幅広いデバイスと環境でLLMをサポートしています。

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手法は、長いシーケンスをGPU間でセグメント化し、各GPUが部分的なセルフアテンション計算を処理します。 LSS Transformerは統合通信とユニークなダブル勾配平均技術を採用し、伝送オーバーヘッドを最小限に抑え、驚異的な高速化とメモリ削減を実現し、他のシーケンス並列手法を凌駕しています。Wikipedia enwik8データセットでの性能評価では、LSS Transformerは複数のGPUでより高速な学習と改善されたメモリ効率を実現し、Nvidiaのシーケンス並列処理を上回りました。セルフアテンションメカニズムで知られるトランスフォーマーは、自然言語処理や画像処理で使用される強力なニューラルネットワークアーキテクチャです。より長いシーケンスでトランスフォーマーを訓練することは、文脈情報の把握と予測精度を高める一方で、メモリと計算量の要求を増加させます。この課題に対応するために、階層的な訓練、アテンションの近似、および分散シーケンス並列処理など、さまざまなアプローチが試されています。 LSS Transformerは、Wikipedia enwik8データセットで144台のNvidia V100 GPUを使用して、従来のシーケンス並列処理を超える、学習速度を5.6倍向上させ、メモリ効率を10.2倍向上させました。さらに、3,456台のGPUで極端なシーケンス長（50,112）を処理し、161%の超線形並列効率と32ペタフロップの高いスループットを達成しました。LSS Transformerは、他のシーケンス並列手法と比較して、大規模なモデル実験（108台のGPUを使用）で高いスケーリング効率とベースライン並列処理との比較における小さなメモリフットプリントを維持しました。LSS Transformerは、144ノードでの50,112のシーケンス長に対して8ペタフロップの計算スループットを提供し、速度とスケーラビリティの面でベースラインのシーケンス並列処理を凌駕しました。 LSS Transformerは、長いシーケンスでトランスフォーマーモデルを訓練する課題に対する画期的な解決策を提供し、通信オーバーヘッドを最小限に抑えながら、驚異的な高速化とメモリ効率を実現する分散学習手法です。この手法はシーケンスをGPU間でセグメント化し、統合通信とダブル勾配平均を利用します。LSS Transformerの超長シーケンストレーニングを促進する能力は、DNAシーケンス解析、長文要約、および画像処理など、多くのトークンの依存性を必要とするアプリケーションにとって貴重なアセットとなります。この研究にはいくつかの制約があります。まず、Nvidiaのシーケンス並列処理に焦点を当て、長いシーケンストレーニングの既存の方法と比較する必要があります。次に、LSS Transformerによって実現される精度と効率のトレードオフを詳しく調査する必要があります。さらに、潜在的な実世界の実装上の課題に対処する必要があります。また、LSS Transformerの性能に対するハイパーパラメータやアーキテクチャの変更の影響を探ることはありません。最後に、計算とメモリ使用の削減に対する近似ベースのアプローチとの包括的な比較がありません。 LSS…

このAI論文は、柔軟なタスクシステムと手順的生成による強化学習を革新するNeural MMO 2.0を紹介しています

MIT、CarperAI、Parametrix.AIの研究者らは、Neural MMO 2.0を導入しました。これは、多様な目的と報酬信号を定義できる柔軟なタスクシステムを強調した、強化学習研究用の大規模マルチエージェント環境です。主な改善点は、未知のタスク、マップ、対戦相手に対応できるエージェントのトレーニングを研究者に課すことです。バージョン2.0は完全なリライトを行い、CleanRLとの互換性を確保し、適応性のあるエージェントのトレーニングに向けた強化機能を提供しています。 2017年から2021年の間に、Neural MMOの開発により、Griddly、NetHack、MineRLなどの影響力のある環境が生まれました。これらは以前の出版物で詳細に比較されました。2021年以降、Melting PotやXLandなどの新しい環境が存在し、マルチエージェント学習と知能評価シナリオの範囲が拡大しました。Neural MMO 2.0は、性能が向上し、多様な目的の定義が可能な柔軟なタスクシステムを搭載しています。 Neural MMO 2.0は、柔軟なタスクシステムを通じて、幅広い目標と報酬信号をユーザーが定義できる高度なマルチエージェント環境です。このプラットフォームは完全なリライトが行われ、複雑なマルチエージェントの相互作用と強化学習のダイナミクスの研究のための動的な空間を提供します。タスクシステムには、GameState、Predicates、Tasksの3つのコアモジュールがあり、構造化されたゲーム状態のアクセスを提供します。Neural MMO 2.0は、マルチエージェントの相互作用と強化学習のダイナミクスを探求するための強力なツールです。 Neural MMO 2.0はPettingZoo ParallelEnv APIを実装し、CleanRLのProximal Policy Optimizationを活用しています。このプラットフォームには、GameState、Predicates、Tasksの3つの相互接続されたタスクシステムモジュールがあります。GameStateモジュールは、ゲーム状態全体をフラットテンソル形式でホストすることでシミュレーション速度を高速化します。25個の組み込み述語を備えることで、研究者は複雑で高レベルな目標を明確に説明でき、イベントデータがタスクシステムの機能を効率的に拡張するための補助データストアも提供します。前バージョンと比べて3倍のパフォーマンス向上を達成したこのプラットフォームは、複雑なマルチエージェントの相互作用、リソース管理、強化学習における競争力の動的な研究空間です。 Neural MMO 2.0は、性能が向上し、CleanRLを含む人気のある強化学習フレームワークとの互換性があることで、重要な進歩を示しています。柔軟なタスクシステムにより、複雑なマルチエージェントの相互作用、リソース管理、競争力のダイナミクスを研究する貴重なツールとなります。Neural MMO…

このAI論文は、大規模言語モデルに対する敵対的攻撃に対する規則遵守の評価のための新しい機械学習フレームワークであるRuLESを紹介しています

現実世界での責任を持つLLMの導入の増加に対応して、UCバークレー、AIセーフティセンター、スタンフォード、キングアブドゥラジズシティ科学技術の研究者グループによって提案されたプログラムフレームワーク「Rule-following Language Evaluation Scenarios (RULES)」があります。RULESは、モデルの振る舞いのための特定のルールを持つ15のテキストシナリオで構成されており、LLMのルール準拠能力の自動評価を可能にします。RULESは、LLMへの制御可能な攻撃に対する研究設定として提示されています。この研究は、言語学とAIの伝統的なルール学習とは異なり、LLM内の外部ユーザー提供のルールへの遵守に焦点を当てています。 LLアシスタントを安全性と使用性の基準に合わせる最近の取り組みや、信頼性を確保するための赤チームの研究にも言及しています。また、LLMの防御についても探求し、インプットのスムージング、検出、およびプラットフォームのセキュリティへの潜在的な脅威を強調しています。また、推論やデータ抽出の攻撃に対する脆弱性を含む、LLM対応アプリケーションのプライバシーに関する考慮事項が強調されています。LLMアプリケーションの信頼性とセキュリティをテストする最近の赤チーム競技会の存在も指摘されています。この研究は、特にインタラクティブAIアシスタントの場合、実世界のアプリケーションにおけるLLMの振る舞いを明確にし、制御することが重要であることを強調しています。LLMアシスタントのルール遵守能力を評価する15のシナリオを含むベンチマークであるRULESを紹介しています。攻撃戦略の特定やテストスイートの作成についても議論しています。LLMのルール違反検出を800以上の手作りのテストケースを使用して評価するゼロショットのバイナリ分類タスクにより、勾配ベースの攻撃下でのモデルの振る舞いの脆弱性を調査しています。 LLM-4やLlama 2などの人気のある専有およびオープンモデルを含むさまざまなLLMにおけるRULESフレームワークのルール遵守能力が評価されていますが、GPT-4を含むすべてのモデルは、ルールに適合する脆弱性があり、多様な手作りの攻撃的なユーザーインプットに対して脆弱性を示しています。勾配ベースの攻撃下でのオープンモデルの重大な脆弱性が特定されていますが、ルールの破棄を検出することは依然として難しいです。モデルの振る舞いに対する攻撃的な接尾辞の影響が強調されており、LLMのルール遵守能力を向上させ、潜在的な攻撃に対抗するためのさらなる研究の必要性を示しています。この研究は、LLMの振る舞いを確実に指定し制約することの重要性を強調しています。RULESフレームワークはLLMのルール遵守能力を評価するためのプログラム的なアプローチを提供しています。GPT-4やLlama 2などの人気のあるモデルを含む評価は、多様な攻撃的なユーザーインプットに対する脆弱性と勾配ベースの攻撃下での重大な脆弱性を明らかにしています。この研究は、LLMの遵守を向上させ、攻撃に対抗するための研究を求めています。研究者たちは、LLMのルール遵守能力を向上させ、その振る舞いに対する手動および自動攻撃に対する効果的な防御策を開発するための継続的な研究を提唱しています。RULESフレームワークは、この目的のための研究設定として提案されています。将来の研究では、更新されたより困難なテストスイートの開発や、手動レビューの制約を克服するための自動評価方法への移行が重要とされます。さまざまな攻撃戦略の影響を探求し、ルール違反の検出能力を調査することが重要です。LLMの責任ある展開のために多様なテストケースを収集することは、継続的な取り組みとして優先されるべきです。

この中国のAI研究は「Consistent4D」を紹介します：未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。この能力は、デジタルコンテンツの制作、自律型車両のシミュレーション、医療画像の解析など、さまざまなアプリケーションにおいて重要です。しかし、一つの単眼のビデオ観察からこのような情報を抽出することは、動的な3D信号の複雑な性質のために困難な課題です。移動オブジェクトを再構築するための既存の多くの手法は、入力として同期したマルチビュー映像が必要であり、カメラをテレポートするなどの手法や準静的なシーンを使用した、効果的なマルチビューキューが豊富なトレーニングデータを前提としています。それにもかかわらず、これらの手法は、カメラレンズによってキャプチャされないシーンの要素を正確に再構築する際に困難に直面します。さらに、同期したカメラセットアップと正確なキャリブレーションに依存することは、これらの手法の現実世界での実用性を制限します。 CASIA、南京大学、および復旦大学による新しい研究は、2Dソースから4Dコンテンツを生成するために設計された画期的な方法であるConsistent 4Dを紹介しています。この手法は、テキストから3Dへの最近の進歩と画像から3Dへの技術向上を参考にしており、テール型のCascade DyNeRFを利用して動くオブジェクトを視覚化し、同時に事前トレーニングされた2D拡散モデルを使用してDyNeRFの最適化プロセスを制御します。その論文の中で述べられているように、主な課題は時間的な一貫性と空間的な一貫性の両方を保持することです。この課題に対処するために、研究者はトレーニングされたビデオ補間モデルに依存するインターポレーション駆動型の一貫性ロス（ICL）を使用し、空間と時間の両方にわたる一貫した監視信号の生成を可能にしています。特に、ICLロスの導入により、4D開発の信頼性が向上するだけでなく、3Dクリエーションにおける一般的な問題を軽減することができます。さらに、彼らは動的なNeRF生成ビデオを後処理するために、シンプルなビデオエンハンサーでトレーニングを行います。綿密なテストによる励ましの結果は、合成および実際のインターネットビデオの両方を含む、ビデオから4Dへの創造の未開拓の領域での有望な進展を示しています。

このAI論文では、「PolyID：高性能バイオベースポリマーの発見における機械学習の先駆者」として、ポリ－ンにおける機械学習を紹介しています

人工知能は生活のあらゆる側面で使用されています。AIは生活のあらゆる方面で使用され、化学やポリマーなどさまざまな分野で役立っています。化学やポリマー科学では、AIは科学者が新たな材料を発見するのに役立ちます。さまざまな化学物質の反応を予測し、新しい素材を作るための最適な組み合わせを提案します。これにより、化学物質やポリマーの開発プロセスがより迅速かつ効率的になります。しかし、21世紀の材料科学者が直面している課題は、より持続可能なポリマーの開発であり、さらに優れた性能基準を持つものです。この課題は、主な資源が石油化学薬品に限定されている場合に特に顕著になります。この課題に対応するためには、創造力と高度な科学的手法の両方が必要であり、持続可能性原則に準拠し、現代の環境に配慮した基準を満たすポリマーの開発が求められます。国立再生可能エネルギー研究所（NREL）の科学者であるBrandon Knottによれば、石油は主に炭素と水素の構成物である炭化水素であるとされています。これらの分子の配置は有益な性質を示し、さまざまな有利な特性の基盤を形成します。Knottの結論は、炭化水素の要素と石油の分子構成を理解することが重要であり、その特殊な特性をさまざまな応用に活用するためです。炭化水素には酸素や窒素などの要素が欠けています。しかし、炭化水素だけでは提供できないより広範な機能を必要とするポリマーを製造する際には、これらの要素が必要です。Knottは、バイオマスや酸素および窒素を豊富に含む廃棄物を原料リストに導入するという解決策を提案しています。とうもろこしの茎、藻、さらにはゴミなどの材料には、追加の化学リンケージが存在し、化学者はポリマー製造プロセスで特定の特性を達成するための柔軟性が増します。このアプローチは、ポリマーの機能性を拡大するだけでなく、より持続可能で資源的な生産方法に貢献します。国立再生可能エネルギー研究所（NREL）は、ポリマーの開発のバランスを促進するために、PolyID（ポリマー逆設計）と呼ばれる高度な機械学習ツールを使用しています。このツールは、分子構造に基づいて材料の特性を予測します。PolyIDを使用することで、研究者は数百万もの潜在的なポリマーデザインを評価し、特定の用途に合わせたショートリストを生成することができます。 PolyIDは、酸素、水素、炭素などの元素の配置と材料の特性の関連性を確立し、弾力性、耐熱性、シーラントの性能などの属性の予測を容易にします。NRELの科学者たちは、高密度ポリエチレン（石油ベースの材料）から成る現代の食品包装フィルムの代替となる生分解性のある材料を探し求めるために、PolyIDを効果的に利用しました。PolyIDは高温耐性や強力な蒸気シーリングなどの重要な特性を優先し、同時に生分解性や温室効果ガス排出量の低減といった環境上望ましい属性を取り入れました。研究者たちはまた、PolyIDの予測の正確さを確認するために実験室でテストを行いました。その結果、7つすべてのポリマーが高温に耐性を示し、ネット温室効果ガス排出量を低下させる能力も示しました。さらに、これらのポリマーは包装された食品の新鮮さを延長させることも示し、PolyIDが環境に優しい高性能なポリマーソリューションを効率的に特定する可能性を示しました。 PolyIDは、ポリマーの分子組成と既知の特性を結びつける広範なデータベースを構築することにより、特定の物理的特性に向けた新しいポリマーの設計を予測する能力を獲得します。研究の主な著者であるNolan Wilsonによれば、このシステムは、以前に経験したことのない新しい構造に対して非常に正確な予測ができるとされています。

Learn more about Search Results この - Page 10