Learn more about Search Results 9 - Page 12

ミキストラル-8x7B + GPT-3 + LLAMA2 70B = 勝利者

「誰もがGoogle Geminiのリリースに注目している中、Mixtral-8 x 7 Billionは静かにオープンソースモデルをリリースしましたそこで、この記事では最新のAIについて深く掘り下げていきます...」

このAI論文では、既知のカメラパラメータなしで新しい視点合成を行うために、COLMAP-Free 3D Gaussian Splatting(CF3DGS)を提案しています

ニューラルレンダリングの進歩により、シーンの再構築や新しい視点の生成において重要なブレイクスルーがもたらされました。しかし、その効果はカメラの姿勢の正確な予備計算に大きく依存します。この問題を最小化するために、事前計算されたカメラの姿勢がないNeural Radiance Fields(NeRFs)を訓練するためにさまざまな取り組みが行われています。しかし、NeRFsの暗黙的な表現は、3Dの構造とカメラの姿勢を同時に最適化するのが困難です。 UCサンディエゴ、NVIDIA、UCバークレーの研究者らは、COLMAP-Free 3D Gaussian Splatting(CF-3DGS)を導入しました。これは、ビデオの時間的な連続性と明示的なポイントクラウド表現の2つの重要な要素を高めています。すべてのフレームを一度に最適化するのではなく、CF-3DGSはカメラが移動するにつれてシーンの3Dガウスを連続的な形で「成長させる」一つの構造を構築します。CF-3DGSは各フレームに対してローカルな3Dガウスセットを抽出し、全体のシーンのグローバルな3Dガウスセットを維持します。 https://arxiv.org/abs/2312.07504 リアルな画像を視点から生成するためにさまざまな3Dシーン表現が使用されており、平面、メッシュ、ポイントクラウド、マルチプレーンイメージなどが含まれます。NeRFs(Neural Radiance Fields)は、その写真のようなリアルなレンダリング能力のために、この分野で注目を集めています。3DGS(3D Gaussian Splatting)メソッドは、純粋な明示的な表現と微分を利用したポイントベースのスプラッティング方法を使用して、ビューのリアルタイムレンダリングを可能にします。 CF-3DGSは既知のカメラパラメータを必要としないで合成ビューを実現します。それは3D Gaussian Splatting(3DGS)とカメラの姿勢を同時に最適化します。近くのフレームから相対カメラ姿勢を推定するためにローカルな3DGSメソッドを使用し、未観測のビューから3Dガウスを進行的に展開するためにグローバルな3DGSプロセスを使用しています。CF-3DGSは、明示的なポイントクラウドを使用してシーンを表現し、3DGSの機能とビデオストリームに固有の連続性を活用します。このアプローチは、入力フレームを順次処理し、3Dガウスを進行的に展開してシーンを再構築します。この手法により、トレーニングと推論の速度が高速化されます。 https://arxiv.org/abs/2312.07504 CF-3DGSメソッドは、先行の最先端技術よりもポーズ推定の耐性が高く、新規ビューの合成品質も優れています。この手法は、より複雑で挑戦的なカメラの動きを示すCO3Dビデオで検証され、ビューの合成品質においてNope-NeRFメソッドを上回る結果を示しました。このアプローチは、CO3D V2データセットにおいてすべてのメトリックでNope-NeRFeをしのぎ、特に複雑なカメラの動きがあるシナリオでのカメラの姿勢推定の耐性と精度を示しています。 まとめると、CF-3DGSはビデオの時間的な連続性と明示的なポイントクラウド表現を利用してビューを効果的かつ堅牢に合成する方法です。この方法は、主にビデオストリームや順序付けられた画像コレクションに適しており、Structure-from-Motion(SfM)前処理の必要はありません。また、非順序の画像コレクションに対応するための将来の拡張の可能性もあります。

グーグルのディープマインドリサーチは、FunSearchを紹介します:数学とコンピュータ科学の新しい解決策を検索するための新しい人工知能手法

LLMは、人間のようなテキストの理解と生成に優れており、機械と人間のコミュニケーションを改善するために、人の言語を模倣した応答を理解し生成することができます。これらのモデルは言語翻訳、要約、質問応答、テキスト生成、感情分析など、多様なタスクで柔軟かつ適応性があります。その柔軟性により、さまざまな産業やアプリケーションに展開することが可能です。 ただし、LLMは時に幻覚を見ることがあり、正当ながら誤った主張をすることがあります。GPTモデルのような大規模言語モデルは、言語理解と生成において非常に高度であり、入力やプロンプトが曖昧、矛盾、または誤解を招く場合、モデルは入力の解釈に基づいて幻覚的な応答を生成する可能性があります。 Google DeepMindの研究者は、この制限を克服するために、FunSearchと呼ばれるメソッドを提案しています。これは、事実誤認や誤ったアイデアに対してガードする、事前にトレーニングされたLLMと評価器を組み合わせています。FunSearchは、複数の重要な要素を組み合わせることで、初期のスコアの低いプログラムを高スコアのプログラムに進化させ、新しい知識を発見するプログラムを生成します。 FunSearchは繰り返しのプロセスとして機能し、各サイクルでシステムは現在のプールから特定のプログラムを選択します。これらの選択されたプログラムはLLMによって処理され、革新的に拡張された新鮮なプログラムを生成し、自動評価を受けます。最も有望なプログラムは既存のプログラムのプールに再導入され、自己向上のループが確立されます。 研究者は、性能の良いプログラムをサンプリングし、それらを改善するためにLLMに戻すことでその機能を向上させます。彼らは骨格としての初期プログラムから始め、制御を司る重要なプログラムロジックのみを進化させます。彼らは各ステップに優先関数を配置することで意思決定を行います。彼らは多様なプログラムの大規模なプールを維持するために島ベースの進化的手法を使用します。新しい結果を見つけるために非同期にスケールさせます。 FunSearchは、ビンパッキングと同じ一般的な戦略を使用します。最も容量が少ないビンにしかアイテムを割り当てないのは、アイテムを配置した後に非常にきついフィットがされている場合のみです。この戦略により、埋まらない小さな隙間がなくなります。FunSearchの重要なコンポーネントの一つは、直接的に構成物を検索するのではなく、プログラムの空間で動作することです。これにより、FunSearchは実世界の応用の可能性を持ちます。 もちろん、これはただの初期段階です。FunSearchの進歩は、LLMの広範な進化と自然に一致します。研究者は、社会に存在するさまざまな重要な科学的および技術的な課題に対処するために、その機能を拡張し続けることを約束しています。

MIT研究者が高度なニューラルネットワークモデルを用いて、脳の聴覚接続に関する新たな知見を明らかにする

MAT研究者たちは、革新的な研究で、深層ニューラルネットワークの領域に進出し、人間の聴覚システムの謎を解き明かすことを目指しています。この探究は、学術的な追求だけでなく、補聴器、人工内耳、脳-機械インターフェースなどの技術の発展にも約束を持っています。研究者たちは、聴覚の課題に対して訓練された最大の深層ニューラルネットワークの研究を行い、これらのモデルが生成する内部表現と、似たような聴覚体験の際に人間の脳で観察される神経パターンの興味深い類似点を明らかにしました。 この研究の重要性を理解するためには、まず解決しようとする問題を把握する必要があります。大きなチャレンジは、人間の聴覚皮質の複雑な構造と機能、特に様々な聴覚タスクの際に対して理解することです。この理解は、聴覚障害や他の聴覚課題を持つ個人の生活に重要な影響を与える技術の開発に不可欠です。 この研究の基礎は、以前の研究に基づきます。ニューラルネットワークが特定の聴覚タスク(例:音声信号からの単語の認識)を実行するために訓練されたことがあります。2018年に行われた研究では、MITの研究者たちは、これらのモデルが生成する内部表現が、同じ音を聴取する個人の機能的磁気共鳴画像(fMRI)スキャンで観察される神経パターンと類似していることを示しました。その後、このようなモデルは広範に使用されるようになり、MITの研究チームはより包括的に評価しました。 この研究では、9つの公開されている深層ニューラルネットワークモデルの分析が含まれており、さらに2つの異なるアーキテクチャを基にMITの研究者が作成した追加の14のモデルも導入されました。これらのモデルは、単語認識から話者の識別、環境音、音楽ジャンルの識別など、様々な聴覚タスクのために訓練されました。これらのモデルのうち2つは、複数のタスクを同時に処理できるように設計されています。 この研究の特徴は、これらのモデルが人間の脳で観察される神経表現とどれだけ近いかを詳細に調査していることです。その結果は、これらのモデルが、背景ノイズを含む聴覚入力にさらされた場合に、人間の聴覚皮質で観察されるパターンと密接に一致することを示しています。この発見は重要な意義を持ち、背景ノイズが普遍的に存在する実世界の聴覚状態をより正確に反映するため、ノイズを加えてモデルを訓練することが望ましいことを示唆しています。 提案された手法の複雑さに深く入り込むと、魅力的な旅になります。研究者たちは、モデルをノイズの中で訓練することの重要性を強調し、多様なタスクと背景ノイズを含む聴覚入力にさらされたモデルが、人間の聴覚皮質で観察される活性パターンに似た内部表現を生成することを主張しています。これは、個人がしばしばさまざまなレベルの背景ノイズの中で聴覚刺激に直面する実世界の聴覚シナリオで直感的にも合致します。 この研究はさらに、人間の聴覚皮質内の階層的な組織の考え方を支持しています。要するに、モデルの処理段階は異なる計算機能を反映しており、初期段階では主要聴覚皮質で観察されるパターンに類似しています。処理が進むにつれて、表現は主要皮質を超えて脳の他の領域で見られるパターンにより近くなります。 さらに、異なるタスクに訓練されたモデルは、脳の特定の調整特性を説明する能力があります。例えば、音声関連のタスクに訓練されたモデルは、脳の音声選択領域とより一致しています。このタスク固有の調整特性は、さまざまな聴覚処理の側面を再現するためにモデルを調整する上で貴重な洞察を提供し、脳が異なる聴覚刺激にどのように応答するかを微妙に理解する手助けとなります。 まとめると、MITが行った聴覚タスクのために訓練された深層ニューラルネットワークの包括的な探求は、人間の聴覚処理の秘密を解き明かすための重要な進展となります。ノイズでモデルを訓練する利点と、タスク固有のチューニングを観察することによって、より効果的なモデルの開発の可能性が広がります。これらのモデルは、脳の反応と行動を正確に予測する能力を持ち、補聴器のデザイン、人工内耳、脳-機械インターフェースの革新的な進歩をもたらす可能性を秘めています。MITの先駆的な研究は、聴覚処理の理解を豊かにし、聴覚研究と技術の革新的な応用に向けた道筋を描いています。

アマゾンの研究者は、深層学習を活用して複雑な表形式のデータ分析におけるニューラルネットワークを強化します

ニューラルネットワークは、異質なカラムを持つ表形式のデータに直面するときに、現代計算の驚異として、重要なハードルに直面します。この課題の本質は、ネットワークがこれらのテーブル内の多様なデータ構造を効果的に処理できないことにあります。この問題に対処するため、この論文では、複雑なデータ構造を扱う際にニューラルネットワークの性能を向上させる革新的な手法を探求します。 行と列を持つ表形式のデータは、しばしば直感的に理解されます。しかし、これらのカラムがその性質や統計的特性で著しく異なる場合、複雑さが生じます。従来のニューラルネットワークは、一部の情報タイプに対する固有のバイアスがあり、これらの異質なデータセットを理解し処理するのに苦労します。このバイアスにより、ニューラルネットワークは表形式のデータの多様なカラム内に存在する微妙なニュアンスを識別し解読する能力が制約されます。さらに、ネットワークのスペクトルバイアスにより、高周波成分よりも低周波成分が優先されるため、この課題は複雑なネットワークのエンコードと処理にとって難しい課題となります。 この論文では、Amazonの研究者が表形式の特徴を低周波の表現に変換することで、この課題を克服する革新的なアプローチを提案しています。この変換技術により、ニューラルネットワークのスペクトルバイアスを緩和し、異質な表形式のデータセットに埋め込まれた複雑な情報を理解するために重要な高周波成分をキャプチャすることが可能となります。実験では、表形式データセットと画像データセットのフーリエ成分の徹底した分析により、周波数スペクトルとネットワークの解読能力に関する洞察が提供されます。提案された解決策の重要な点は、周波数を低下させてネットワークの理解力を向上させると同時に、データ表現を変更することによる重要な情報の損失や最適化への逆効果に対する繊細なバランスです。 論文では、周波数を低下させる変換がニューラルネットワークの表形式データ解釈能力に与える影響を包括的に分析しています。図と経験的な証拠は、これらの変換がネットワークの性能を著しく向上させることを示し、特に合成データ内の目標関数の解読において有効です。探求は一般的に使用されるデータ処理方法とその周波数スペクトルへの影響、および後続のネットワーク学習への影響の評価にまで広がります。この入念な検証は、異なるデータセット間でこれらの手法の異なる影響を明らかにし、提案された周波数低下の優れたパフォーマンスと計算効率性を強調しています。 論文からの主なポイント: バイアスとスペクトルの制限による、ニューラルネットワークの異質な表形式データの理解の困難さ。 周波数低下による変換を用いた提案手法により、ニューラルネットワークがこれらのデータセット内の微妙な情報を解読する能力が向上する。 包括的な分析と実験により、提案された手法がネットワークのパフォーマンスと計算効率性を向上させる効果が検証される。

マーク外:AI進捗競争におけるメトリクスゲーミングの落とし穴

「共産主義のネイル工場から資本主義のボット戦まで、この記事では、虚偽の基準や狭視的なハイプサイクルが意味のある進歩を阻害する永遠のリスクに焦点を当てています」

AIの物体認識をどのように進化させることができるのか? このAIの論文は、強化された画像と動画の分析のための普遍的な物体レベルの基礎モデルGLEEを紹介します

画像やビデオの物体認識は、機械に視覚世界を解読する力を与えます。仮想の探偵のように、コンピュータビジョンシステムはピクセルをスキャンし、デジタル体験のキャンバスに描かれた多くの物体を認識、追跡、理解します。このディープラーニングの力による技術的な能力は、自動運転車が都市の風景をナビゲートすることから、視覚的なエンカウンターにより多くの知能を追加する仮想アシスタントまで、変革的な応用の扉を開きます。 中国科学技術大学、字節跳動、ジョンズ・ホプキンズ大学の研究者たちは、画像とビデオの物体認識のための多目的モデルGLEEを紹介しています。GLEEは、物体の位置特定と識別に優れており、タスクに固有の適応なしでさまざまなタスクに対して優れた汎化性能を示します。大規模言語モデルの統合も可能であり、多モーダル研究のための普遍的な物体レベルの情報を提供します。さまざまなデータソースからの知識の取得能力により、効率が向上し、異なる物体認識タスクの処理能力が向上します。 GLEEは、画像エンコーダ、テキストエンコーダ、ビジュアルプロンプタを統合し、多モーダル入力処理と一般化物体表現予測を行います。Objects365、COCO、Visual Genomeなどのさまざまなデータセットで訓練されたGLEEは、オープンワールドのシナリオで物体の検出、セグメンテーション、トラッキング、グラウンディング、識別を行うための統一されたフレームワークを使用します。動的なクラスヘッドを持つMaskDINOに基づいたオブジェクトデコーダは、予測のために類似性計算を使用します。物体検出とインスタンスセグメンテーションでプリトレーニングされた後、結合トレーニングにより、さまざまな下流の画像とビデオのタスクにおいて最先端のパフォーマンスを実現します。 GLEEは、特定のタスクに特化した適応なしで多様な下流のタスクに対応する傑出した汎化性能と拡張性を示しました。物体検出、インスタンスセグメンテーション、グラウンディング、マルチターゲットトラッキング、ビデオインスタンスセグメンテーション、ビデオオブジェクトセグメンテーション、インタラクティブセグメンテーションとトラッキングなど、さまざまな画像とビデオのタスクで優れたパフォーマンスを発揮します。GLEEは他のモデルに統合された場合でも最先端のパフォーマンスを維持し、その表現の多様性と効果的な性能を示します。ゼロショットの汎化性能は、自動的にラベル付けされた大量のデータを組み込むことでさらに向上します。また、GLEEは基盤モデルとしての役割も果たします。 https://arxiv.org/abs/2312.09158 GLEEは、現在のビジュアル基盤モデルの限界を克服し、正確かつ普遍的な物体レベルの情報を提供する画期的な一般物体基盤モデルです。GLEEは多様な物体中心のタスクに堪能であり、ゼロショットの転送シナリオでも特に優れた汎化性能を示します。さまざまなデータソースを使用して一般的な物体表現を組み込むことで、スケーラブルなデータセットの拡張とゼロショットの能力を向上させます。モデルは複数のデータソースをサポートしており、追加の注釈を容易に組み込むことで、さまざまな下流のタスクにおいて最先端のパフォーマンスを実現し、既存のモデルを凌駕します。 これまで行われた研究の範囲と将来の研究の方向は、以下に焦点を当てることができます: 複雑なシナリオや長尾分布を持つチャレンジングなデータセットを扱うGLEEの能力を拡大するための継続的な研究です。 特化したモデルを統合することで、GLEEの普遍的な物体レベル表現を活用し、マルチモーダルなタスクの性能を向上させることを目指しています。 DALL-Eなどのモデルと同様に、広範な画像キャプションのペアをトレーニングすることで、GLEEのテキスト指示に基づいた詳細な画像コンテンツの生成の可能性を探っています。 オブジェクトレベルのタスクへの応用範囲を広げるために、GLEEの物理的な文脈を組み込んだオブジェクトレベルの情報を強化しています。 インタラクティブなセグメンテーションとトラッキングの機能のさらなる開発は、さまざまなビジュアルプロンプトの探索やオブジェクトセグメンテーションのスキルの改善を含みます。

システムデザインシリーズ:ゼロから高性能データストリーミングシステムを構築するための究極のガイド!

「データストリーミング」は非常に複雑な印象を受けますし、「データストリーミングパイプライン」なんてなおさらです専門用語に囚われる前に、まずはその意味について話す前に、理由から始めましょう...

『 ファッションと美容における迅速な思考とゆっくりな思考:PythonとGPT4を用いた統計的変動性』

私たちは物事をすぐにシンプルにする傾向がありますが、複雑さにもゆっくりと向き合うことがあります(望む場合には)ダニエル・カーネマンは彼の著書「思考、早くと遅く」で、私たちの葛藤を説明しています...

フラッシュアテンション:基本原則の解説

フラッシュアテンションは、2022年に提案された効率的かつ正確なTransformerモデルの高速化技術ですメモリの読み書き操作を認識することで、FlashAttentionは実行速度を2〜4倍に高速化します...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us