Learn more about Search Results A - Page 224

「ResFieldsをご紹介します:長くて複雑な時間信号を効果的にモデリングするために、時空間ニューラルフィールドの制約を克服する革新的なAIアプローチ」

ニューラル連続空時フィールドを表現するための最も人気のあるニューラルネットワークアーキテクチャは、マルチレイヤーパーセプトロンです。これは、連続信号を任意の次元上でエンコードでき、組み込まれた暗黙的な正則化を持ち、効果的な補間を容易にするスペクトルバイアスを持っているためです。これらの優れた特徴により、MLPは画像合成、アニメーション、テクスチャ作成、革新的な視点合成など、さまざまなアプリケーションで大きな成功を収めています。しかし、スペクトルバイアスのため、細かい特徴の収集と複雑な現実世界の信号の効果的な再現は、いずれも困難です。スペクトルバイアスとは、ニューラルネットワークが低周波数の関数を学習する傾向のことを指します。 スペクトルバイアスを克服するための以前の試みでは、位置エンコーディングやユニークな活性化関数が使用されてきました。しかし、これらのテクニックでも細かい特徴の捉えは困難であり、特に長い映画や動的な3Dシーンなどの大規模な空時データを扱う場合にはさらに困難です。MLPの容量を増やすために、全ニューロンの総数に関してネットワークの複雑さを増すという方法は簡単です。しかし、時間とメモリの複雑さはパラメータの総数に比例するため、このような手法は推論と最適化の遅さ、より高価なGPU RAMをもたらすことになります。 この研究で解決しようとする問題は、MLPニューラルフィールドのアーキテクチャ、入力エンコーディング、活性化関数を損なうことなく、モデルの容量を増やすことです。同時に、ニューラルネットワークの暗黙的な正則化特性を維持し、スペクトルバイアスの低減に既存の手法に追加することも望んでいます。基本的なコンセプトは、MLPレイヤーの一部または複数のレイヤーを、重みWiに加えられる学習可能な残差パラメータWi(t)として置き換えることです。ETH Zurich、Microsoft、University of Zurichの研究者は、このように作成されたニューラルフィールドをResFieldsと呼んでいます。 メタ学習によるMLPの重みと専用の別個のパラメータを維持するという選択肢もありますが、これには写真のようなリアルな再構築にスケールしない長時間のトレーニングが必要です。空時フィールドを分割し、異なる/ローカルなニューラル領域に適合させることは、モデリング能力を向上させるための最も一般的な方法です。しかし、これらのテクニックは、スパースなビューからの放射フィールドの再構築に重要なグリッド構造へのローカルな勾配変化により、グローバルな推論と汎化を妨げます。このモデル容量の増加方法には、3つの主な利点があります。 まず、基礎となるMLPは広がらないため、推論とトレーニングの速度が維持されます。これは、NeRFなどのリアルワールドの下流ニューラルフィールドアプリケーションにとって重要な特性です。NeRFは、ニューラルフィールドを繰り返しクエリすることで逆ボリュームレンダリングに対処することを目指しています。次に、空間の分割を重視する他の手法とは異なり、このモデリングはMLPの暗黙的な正則化と汎化能力を維持します。最後に、ResFieldsは適応性があり、拡張が容易であり、空時データのほとんどのMLPベースのアルゴリズムと互換性があります。ただし、訓練可能なパラメータが非制限されていないため、ResFieldsの単純な実装は補間品質が低下する可能性があります。 彼らは残差パラメータをグローバルな低ランクの基底集合と時変係数のセットとして実装することを提案しており、これはよく研究された低ランク分解層からのインスピレーションを得ています。このモデリングは、汎化能力を向上させ、余分なネットワークパラメータの保存によるメモリフットプリントを大幅に削減します。 彼らの主な貢献は次の通りです: • ResFieldsを導入し、空時フィールドをモデリングするためのアーキテクチャに依存しないビルディングコンポーネントとして示しました。 • 彼らのアプローチが他の既存のアプローチをどのように向上させるかを体系的に示しました。 • スパースなキャリブレートされたRGBおよびRGBDカメラからの動的シーンのニューラル放射フィールド再構築、符号化距離関数を使用した時間的な3D形状モデリング、2Dビデオの近似という4つの難しいタスクにおいて最先端の結果を示しました。コード、モデル、収集されたデータはGitHubから入手できます。

アップルとEquall AIによる新しいAI研究が、トランスフォーマーアーキテクチャの冗長性を明らかにします:フィードフォワードネットワークの最適化が効率と精度を向上させる方法

最近人気を集めているTransformerデザインは、特に機械翻訳(MT)において、自然言語処理(NLP)の標準手法として広く採用されています。このアーキテクチャは、追加のモデルパラメータを増やすことで、さまざまなNLPタスクでより優れたパフォーマンスを発揮するという印象的なスケーリング能力を示しています。多くの研究や調査によって、この観察結果が裏付けられています。Transformerはスケーラビリティに優れている一方で、これらのモデルを現実世界でより効果的に展開できるようにするための並行した取り組みが進んでいます。これには、レイテンシ、メモリ使用量、およびディスクスペースの問題に対処することが含まれます。 研究者は、部分の削減、パラメータの共有、次元削減など、これらの問題に対処する方法を積極的に研究しています。広く利用されているTransformerアーキテクチャは、いくつかの重要な部分で構成されており、そのうち最も重要な部分はフィードフォワードネットワーク(FFN)とアテンションです。 アテンション – アテンションメカニズムにより、モデルは文中の単語の位置に関係なく、単語間の関係や依存関係を捉えることができます。これは、モデルが現在解析している各単語にとって、入力テキストのどの部分が最も関連性が高いかを判断するための仕組みとして機能します。フレーズ内の単語の文脈とつながりを理解するには、これが必要です。 フィードフォワードネットワーク(FFN):FFNは、各入力トークンを非線形に変換する役割を担っています。各単語の表現に対して特定の数学的操作を行うことで、モデルの各単語の理解力に複雑さと表現力を加えます。 最近の研究では、研究チームがTransformerアーキテクチャ内のFFNの役割を調査しています。彼らは、FFNがモデルの大きなコンポーネントであり、多くのパラメータを消費しているにもかかわらず、高度な冗長性を示していることを発見しました。彼らは、パラメータの数を大幅に削減することができ、精度に大きな影響を与えることなく、これを実現しました。これは、デコーダレイヤからFFNを削除し、代わりにエンコーダレイヤ全体で共有される単一のFFNを使用することによって達成されました。 デコーダレイヤ:標準のTransformerモデルの各エンコーダとデコーダには、個別のFFNがあります。研究者は、デコーダレイヤからFFNを削除しました。 エンコーダレイヤ:各エンコーダレイヤごとに個別のFFNを持つ代わりに、すべてのエンコーダレイヤで共有される単一のFFNを使用しました。 このアプローチに伴う利点を研究者は共有しています。 パラメータ削減:FFNコンポーネントを削除し共有することで、モデルのパラメータ数を劇的に減らしました。 パラメータの削減にもかかわらず、モデルの精度はわずかに減少するだけでした。これは、エンコーダの多数のFFNとデコーダのFFNにはある程度の機能的な冗長性があることを示しています。 スケーリングバック:共有されたFFNの隠れ層の次元を拡大することにより、アーキテクチャを以前のサイズに復元すると同時に、モデルの性能を維持または向上させました。これにより、従来の大規模Transformerモデルと比較して、精度とモデルの処理速度(レイテンシ)にかなりの改善がもたらされました。 まとめると、この研究は、Transformerデザインにおけるフィードフォワードネットワーク、特にデコーダレベルで、モデルのパフォーマンスにほとんど影響を与えずに合理化し共有することができることを示しています。これにより、モデルの計算負荷が軽減されるだけでなく、多様なNLPアプリケーションに対する効果と適用性が向上します。

「時を歩く:SceNeRFlowは時間的一貫性を持つNeRFを生成するAIメソッドです」

ニューラル レディアンス フィールド(NeRF)は、最近3D領域で革新的なコンセプトとして浮上しました。それは、3Dオブジェクトの可視化を扱う方法を再構築し、新たな可能性を開拓しました。機械がリアリズムを持ってシーンを再生成することで、デジタルと物理的な現実のギャップを埋めることができます。 コミュニケーション、エンターテイメント、意思決定において視覚が中心的な役割を果たすデジタル時代において、NeRFは機械学習の力が物理世界を想像もつかなかった方法でシミュレートすることの証です。 NeRFを使用すると、仮想環境を歩き回ることができますが、時間は止まっています。つまり、異なる角度から同じシーンを見ることができますが、動きはありません。 もちろん、3DのNeRFに満足せず、時間を考慮に入れたい人々は4Dで取り組み始めました。この新たなフロンティア、4Dシーン再構築が最近浮上しました。ここでは、3Dシーンだけでなく、時間を通じた変化も記録することを目標としています。この現象は、時間を超えた対応関係の複雑な相互作用、いわゆる「時間の一貫性」によって実現されます。 時間の一貫性を保ちながら動的なシーンを再構築するという概念は、数多くの可能性への入り口です。RGB入力から一貫した時間的な方法で一般的な動的オブジェクトを再構築するという課題は比較的未開拓のままですが、その重要性は過小評価できません。それでは、SceNeRFlowに会いましょう。 SceNeRFlowは、マルチビューのビデオから一般的な非剛体シーンを再構築することができます。出典: https://arxiv.org/pdf/2308.08258.pdf SceNeRFlowは、シーンをさまざまな角度から見るだけでなく、その時間的な変化をシームレスに体験することも可能です。視覚データ以上のものを抽出し、シーンの本質、変化、相互作用を包括します。 最大の課題は、対応関係を確立することで、動的なシーンの潜在的な構造を解読するプロセスです。異なる時間ステップでオブジェクトの位置を割り当てるようなものです。 SceNeRFlowは、時間不変の幾何学モデルを使用してこの問題に取り組んでいます。 SceNeRFlowの概要。出典: https://arxiv.org/pdf/2308.08258.pdf SceNeRFlowは、大きな動きと密な3D対応関係における時間の一貫性を探求します。これまでの方法は主に新しい視点合成に焦点を当ててきましたが、SceNeRFlowは新しいアプローチを取ります。シーンとその変形を包括的に理解しようとします。これを実現するために、複雑な技術である逆変形モデリングを使用します。大規模な非剛体運動を扱うための逆変形モデリングを可能にするこのブレイクスルーは、理論と実践のギャップを埋めます。 SceNeRFlowは、一定のカメラから連続したタイムスタンプでキャプチャされたマルチビューRGB画像の系列から始まります。この方法により、シーンの本質を再構築することができます。時間的な整合性を保つことを重視して、SceNeRFlowは、ジオメトリと外観の両方を包括した、時間変化する変形に基づく時間不変のNeRFスタイルのカノニカルモデルを構築します。オンラインで動作するこの方法は、最初のタイムスタンプを基に初期のカノニカルモデルを構築し、その後、時間的な入力シーケンス全体で変化を継続的に追跡します。その結果、流体のような動きと堅牢な一貫性を兼ね備えた、細心の注意を払って再構築されたシーンが得られます。シーンの変化を時間の経過にわたって緻密に描写します。

「衛星データ、山火事、そしてAI:気候の課題に立ち向かうワイン産業の保護」

「オーストラリアは、世界で5番目に大きなワイン輸出国としてランク付けされており、ワインの世界で重要な位置を占めていますハンターバレーは、オーストラリアで最も古いワイン生産地域であり、わずか数時間でアクセスできます...」

「Llama 2内のストップ生成の課題」

メタによるLlama 2の発売は、コミュニティ内で興奮を引き起こし、以前は...を通じてのみアクセス可能だった優れた大規模言語モデルの時代の幕開けを告げています

「LangChainとOpenAIを使用して、自己モデレートされたコメントシステムを作成する」

免責事項として、LangChainツールの動作を示すために作成された例であることをご承知おきください自己調整型のコメントシステムを作成する方法はさまざまあります...

Fast.AIディープラーニングコースからの7つの教訓

「最近、Fast.AIのPractical Deep Learning Courseを修了しましたこれまでに多くの機械学習コースを受講してきましたので、比較することができますこのコースは間違いなく最も実践的でインスピレーションを受けるものの一つですですので…」

「AIを活用してPodcastを要約する:ChatGPTで洞察を抽出する」

「魅力的なテクニカルポッドキャストに夢中になり、スポンジのように知識を吸収している自分に気づいたことはありますか?しかし、エピソードの終わりまでに、重要な概念が抜けてしまったことに気づくことはありませんか…」

「Azure OpenAIを使用して、会社独自の安全でプライベートなChatGPTを展開しましょう」

「今ごろになって、おそらくChatGPTで機密の会社データを使用するのはあまり良い考えではないことに気付いているかもしれません会社の商業秘密や知的財産の漏洩の可能性は、技術界でも大きな懸念です...」

「ChatGPTとScraperを使用して、TripAdvisorのホテルをWebスクレイピングする」

インターネット上には膨大な情報があり、価値ある洞察を見つけるために活用でき、さまざまな問題の解決策につながることがありますスクレイピングは一般的に使用される方法です

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us