Learn more about Search Results 22 - Page 14
- You may be interested
- 「人間の労働が機械学習を可能にする方法」
- 「StackOverflowが生成型AIに対応する方法」
- デルタテーブルでのパーティション分割の...
- 「RAGAsを使用したRAGアプリケーションの...
- ロボットが「グリップ」のアップグレード...
- A12研究者は、人工衛星画像から生成された...
- 重要なGANモデルとアプリケーションの概要
- 関数を呼び出す
- 「機械学習、ブロックチェーン技術はフェ...
- ロボットは人間と同じく植物を育てること...
- 2023年10月:オクタが新しいアイデ...
- 「このAI研究は微生物学者が細菌を識別す...
- NLPの就職面接をマスターする
- オレゴン大学とアドビの研究者がCulturaX...
- 「Amazon SageMaker JumpStartでMistral 7...
Google AIとテルアビブ大学の研究者は、テキストから画像への拡散モデルと専門のレンズジオメトリを組み合わせた人工知能フレームワークを提案しています画像のレンダリングに関して、これは画期的なものです
画像生成の最近の進歩は、大規模な拡散モデルを利用した、テキストと画像データのペアで訓練されたもので、多様な条件付け手法を取り入れ、ビジュアル制御を向上させています。これらの手法は、明示的なモデルの条件付けから、新しいモダリティのための事前学習済みアーキテクチャの変更まで様々です。深度などの抽出された画像特徴を使用してテキストによる条件付けモデルを微調整することで、画像の再構築が可能になります。以前の研究者は、オリジナルの解像度情報を利用したGANsフレームワークを紹介し、多解像度および形状一貫性のある画像生成を実現しました。 Google Researchとテルアビブ大学の研究者は、AIフレームワーク(AnyLens)を提案し、専用のレンズジオメトリとテキストから画像への拡散モデルを統合して画像レンダリングを実現しています。この統合により、レンダリングジオメトリの正確な制御が可能になり、単一の拡散モデルを使用して魚眼、パノラマビュー、および球面テクスチャなどの様々な視覚効果の生成が容易になります。 本研究では、テキストから画像への拡散モデルに多様な光学制御を組み込むための新しい手法を提案しています。この手法により、モデルはローカルなレンズジオメトリに基づいて条件付けされ、リアルな画像生成のための複雑な光学効果の再現能力が向上します。従来のキャンバス変換を超えて、手法はピクセルごとの座標条件付けを介してほぼ任意のグリッド変形を可能にします。このイノベーションは、パノラマシーンの生成や球体のテクスチャリングを含むさまざまなアプリケーションをサポートします。計量テンソル条件付けを用いた幾何学的に感知的な画像生成フレームワークを導入して、画像生成の制御と操作の可能性を拡大します。 本研究は、ピクセルごとの座標条件付けを通じてテキストから画像への拡散モデルに特定のレンズジオメトリを統合するフレームワークを紹介しています。この手法は、ランダムなワーピングフィールドを使用して画像を変形させたデータによって事前学習された潜在的な拡散モデルを微調整します。自己注意層のトークン再重み付けが採用されています。この方法は曲率特性の操作を可能にし、魚眼やパノラマビューなどのさまざまな効果をもたらします。画像生成において固定された解像度を超え、計量テンソル条件付けを組み込むことで制御が向上します。このフレームワークは、大規模な画像生成や拡散モデルにおける自己注意スケールの調整といった課題に取り組むことで、画像操作の可能性を拡張します。 このフレームワークは、特定のレンズジオメトリを持つテキストから画像への拡散モデルを正確に統合し、魚眼、パノラマビュー、球面テクスチャなどのさまざまな視覚効果を単一のモデルで実現します。曲率特性とレンダリングジオメトリに対する正確な制御が提供され、リアルで微妙な画像生成が実現されます。大規模なテキスト注釈データセットとピクセルごとのワーピングフィールドで訓練されたこの手法は、目標のジオメトリに密接に合わせ、細やかな歪みのない結果の任意の変形画像を生成することを容易にします。また、球面パノラマをリアルな比率と最小限のアーティファクトで作成することも可能になります。 まとめとして、画像レンダリングにおけるさまざまなレンズジオメトリの組み込みを提供する新しく導入されたフレームワークは、曲率特性と視覚効果に対する制御を向上させます。ピクセルごとの座標および計量条件付けを通じて、レンダリングジオメトリの操作を容易にし、高度なリアルな画像およびジオメトリ操作を可能にします。このフレームワークは、高品質な画像を作成するための貴重なツールとして、イメージ合成における創造性と制御を促進します。 今後の研究では、多様な画像生成を向上させるために、高度な条件付け技術を探求することにより、手法の制限を克服することが求められます。研究者たちは、専門的なレンズによって異なるシーンを捉える結果に近い結果を得るために手法を拡張することを提案しています。より高度な条件付け技術の使用についても言及し、画像生成の向上と機能の拡張を期待しています。
「Pythonで座標からサイトの距離行列を計算する」
現在の記事は、スプリント3が終わったところから旅を続けますここで、スプリント4ではモデリングから少し逸れて、ジオスペーシャル機能を持つクラスを開発しますそれは非常に...
IBMの「Condor」量子コンピュータは1000以上のキュービットを持っています
「IBMは2つの量子コンピュータを発表しました一つはこれまでに作られた中で2番目に大きく、もう一つは同社がこれまでに製造したいかなる量子コンピュータよりもエラーが少ないものです」
「34%高速な整数から文字列への変換アルゴリズム」
コンピュータプログラミングにおいて、与えられた整数を文字列に変換することは一般的な操作ですこれは、例えば整数を画面に表示する前や、テキスト形式の任意の場所に表示する前に行うべきです...
スタビリティAIがアドバーサリアルディフュージョンディスティレーション(ADD)を導入します:最小限のステップでの高精度、リアルタイムイメージ合成の画期的な手法
生成モデリングにおいて、拡散モデル(DM)は、高品質な画像とビデオの合成を進めるための重要な役割を果たしています。拡張性と反復性は、DMの主な利点の2つであり、自由なフォームのテキストの手がかりからの画像の作成など、複雑なタスクを可能にします。残念ながら、反復的な推論プロセスには多くのサンプルステップが必要であり、現在のところDMのリアルタイム使用を妨げています。一方で、生成的対抗ネットワーク(GAN)の単一ステップの構成と固有の速度は、それらを特徴づけます。ただし、サンプルの品質に関しては、大規模データセットへの拡張の取り組みにもかかわらず、GANはしばしばより多くのDMが必要です。 本研究のStability AIの研究者たちは、GANの固有の速度とDMの高いサンプル品質を結びつけることを目指しています。彼らの戦略は概念的にはシンプルです。研究チームはAdversarial Diffusion Distillation(ADD)と呼ばれる汎用的な技術を提案しており、この技術は事前学習済みの拡散モデルの推論ステップを1〜4つのサンプリングステップに削減することで、モデルの全体的なパフォーマンスを向上させる可能性があります。研究チームは2つのトレーニングゴールを組み合わせています:(i)スコア蒸留サンプリング(SDS)に相当する蒸留損失と対抗損失。 各正方向パスでは、対抗損失がモデルが直接実際の画像の多様体上にあるサンプルを生成することを促し、他の蒸留技術でよく見られるぼやけ具合などのアーティファクトを除去します。大規模なDMに見られる高い組成能を保持し、事前学習された(かつ固定された)DMを教師として使用することで、蒸留損失は高い知識を効率的に活用します。彼らの手法は推論中に分類器フリーガイダンスを使用せずにメモリ要件も最小限に抑えています。従来の一ステップGANベースの方法と比べての利点は、研究チームがモデルを繰り返し開発し、結果を向上させることができるということです。 図1は、単一の操作で生成された高精細な写真を示しています。Adversarial Diffusion Distillation(ADD)トレーニングは、各サンプルごとに単一のU-Net評価を作成するために使用されます。 以下は彼らの貢献の要約です: • 研究チームはADDという技術を提案しました。この技術は、事前学習済みの拡散モデルを高品質でリアルタイムの画像ジェネレータに変換するために、わずか1〜4つのサンプリングステップを必要とします。研究チームは、対抗トレーニングとスコア蒸留を組み合わせた独自のアプローチのために、いくつかのデザイン上の決定を慎重に考慮しました。 • 5122 pxの解像度でフォースサンプリングステップを使用したADD-XLは、その教師モデルSDXL-Baseを上回ります。• ADDは、1つの推論ステップで高い現実感を維持しながら、複雑な画像構成を処理できます。• LCM、LCM-XL、および単一ステップGANなどの強力なベースラインを大幅に上回るADD。 結論として、この研究は、事前学習済みの拡散モデルをクイックで少数ステップの画像生成モデルに蒸留するための汎用的な技術、Adversarial Diffusion Distillation(ADD)を紹介しています。研究チームは、識別器を通じて実データを利用し、拡散の教師を通じた構造的な知識を利用しながら、対抗目的とスコア蒸留目的を組み合わせて、公共のStable DiffusionとSDXLモデルを蒸留することを組み合わせています。彼らの分析は、彼らの手法がすべての競合手法を打ち負かすことを示し、1〜2つのステップの超高速サンプリング領域で特に優れて機能することを示しています。また、研究チームはさまざまなプロセスを通じてサンプルを改善することができます。彼らのモデルは、IF、SDXL、およびOpenMUSEなどの人気のある多ステップジェネレータよりも4つのサンプルステップで優れたパフォーマンスを発揮します。彼らの方法論は、一つのステップで高品質の写真を開発することにより、基盤モデルを使用したリアルタイム生成の新たな可能性を開くものです。
「アリババは、量子コンピューティングよりもこれを優先します」
中国のテック巨人であるアリババは最近、量子コンピューティング部門を廃止するという戦略的な重点の大幅な転換を発表しました。この決定は、計画されていたクラウド事業の中止に続くもので、新興技術に再配分することを目指しています。具体的には、生成型人工知能(AI)に特化しています。 量子コンピューティング部門の閉鎖 アリババの量子コンピューティング部門の閉鎖は、研究開発戦略の大きな転換を示しています。約30人の従業員が影響を受ける見込みですが、アリババはこれらの個人をサポートすることに全力を注ぎ、浙江大学での潜在的な機会を示唆しています。この動きは、戦略的な転換の中でも才能の育成にアリババが注力していることを強調しています。 要因 量子コンピューティング部門の閉鎖の具体的な理由は明らかにされていませんが、専門家は中国との半導体取引を禁止する米国の禁輸措置との関連性を推測しています。この禁輸措置により、中国の量子コンピューティング計画は混乱し、他の地域がセクターへの投資を強化しています。アリババは2015年以来、量子コンピューティング研究に1,500万ドル近くを投資しています。 アリババの内部改革 量子コンピューティング部門の閉鎖は、アリババが2022年に行っている幅広い組織改革の一環です。同社は以前、事業を6つの独立したオペレーティングユニットに分割することを発表し、大幅な人員削減につながりました。クラウド事業の中止などにより株価が下落し、リーダーシップの再編が行われました。市場の反応は、戦略的な転換における明確なコミュニケーションと透明性の重要性を強調しました。 生成型人工知能の台頭 内部の課題と組織再編にも関わらず、生成型人工知能はアリババの重点的な焦点となっています。同社の取り組みは、中国当局の法的枠組みに合わせた企業とAI研究者向けのカスタマイズが可能なオープンソースのAIモデルの導入により裏付けられています。生成型人工知能への転換は、アリババが市場のダイナミクスの進化に適応し、テクノロジーの分野でリーダーシップを維持する決意を示しています。 また読む: アリババ、メタに立ち向かうためにAIモデルをオープンソース化して開発者をサポートする計画 私たちの意見 アリババの戦略的な動きは、テック業界のダイナミックな性質を浮き彫りにします。量子コンピューティング部門の閉鎖と生成型人工知能への重点は、新興技術への取り組みを示しています。量子コンピューティングのグローバルな競争の増加により、アリババのリソースの再配分は同社が先駆的な立場を維持することを確認しています。課題の上手な対処は、AIとテクノロジーイノベーションの未来を形作る重要なプレーヤーとしてのアリババを位置付けています。生成型人工知能への重点を置く決定は、同社の先見の明を示しており、イノベーションと適応性を強調しています。
「CMU研究者がニューラルネットワークの挙動における重尾データとネットワークの深層との相互作用が最適化ダイナミクスの形成に与える重要な洞察を発見」
ニューラルネットワーク(NN)の最適化の興味深い性質が次第に増えてきており、これらは最適化の古典的な手法では説明が難しいものです。同様に、研究チームは各性質の力学的な原因についての理解度が異なります。AdamやBatch Normalizationなどの効果的なトレーニングツールについては、多くの努力が行われており、それらの効果を説明するための可能性のある説明が提案されていますが、その証拠は一部にしか説得力がなく、理論的な理解はほとんどありません。グロッキングや安定性の限界などの他の発見は、即座の実用的な示唆を持っていないかもしれませんが、NNの最適化の特徴を研究する新しい方法を提供しています。これらの現象は通常単独で考慮されますが、完全に異なるものとは言えず、それらが共有する具体的な原因はわかっていません。特定の文脈でのNNのトレーニングダイナミクスに関するより良い理解は、アルゴリズムの改善につながる可能性があります。そのため、共通点はさらなる調査のための貴重なツールとなるでしょう。 この研究では、カーネギーメロン大学の研究チームがNN最適化における現象を特定し、これまでの観察に新たな視点を提供することを目指しています。研究チームは完全な説明を提供することを主張していませんが、高いレベルのアイデアに対して強力な定性的および定量的な証拠を提示し、既存の複数の説明に自然に適合し、起源のより一貫した絵を示唆しています。具体的には、研究チームは自然データにおけるペアグループの外れ値の存在を示し、これがネットワークの最適化ダイナミクスに大きな影響を与えることを示しています。これらのグループには、初期化時およびトレーニングのほとんどの段階でネットワークの出力を支配する相対的に大きな特徴が含まれています。これらの特徴のもう一つの特徴は、大きく一貫した逆勾配を提供することです。つまり、一方のグループの損失を減少させるためにそのグループの勾配に従うと、他のグループの損失が同様の量だけ増加します。この構造のため、研究チームはこれらを「対立信号」と呼んでいます。これらの特徴は、目標タスクと非自明な相関関係を共有していますが、通常は「正しい」(例:人間の揃った)信号ではありません。 多くの場合、これらの特徴は「相関と因果関係のジレンマ」を完璧に具体化しています。たとえば、明るい青い空の背景はCIFARの画像のラベルを決定するものではありませんが、ほとんどの場合は飛行機の画像に現れます。その他の特徴としては、トラックや車の画像におけるホイールやヘッドライトの存在、または書かれたテキストにおけるコロンの後には「the」または改行トークンが続くという点などがあります。図1はCIFAR-10でGDを使用してトレーニングしたResNet-18のトレーニング損失と、一部の主要な外れ値グループとそれらの損失を示しています。 図1:対立する信号を持つ外れ値は、ニューラルネットワークのトレーニングダイナミクスに重要な影響を与えます。さらに、GDを使用してCIFAR-10でトレーニングしたResNet-18のトータルロスを持つ一部の代表的な外れ値グループのロスが表示されています。これらのグループは一貫して矛盾した信号を示し(例えば、ホイールとヘッドライトはトラックや車を示唆することがあります)、これらのグループのロスはトレーニングの間に振動し、全体的なロスの突発的なスパイクに対応しており、安定性現象の根本的な原因のようです。 トレーニングの初期段階では、ネットワークは重み空間の狭い谷に入り、対立するグループの勾配を慎重にバランスさせますが、損失のランドスケープのシャープ化により、ネットワークは特定の軸に沿って成長する振幅の大きな振動をするようになり、このバランスが崩れます。空の背景の例に戻ると、あるステップでは、全てのスカイ画像においてクラス「飛行機」により高い確率が与えられ、次のステップでその効果が反転します。要するに、「空=飛行機」のサブネットワークが成長して収縮します。この振動の直接の結果は、スカイが背景にある飛行機の画像におけるネットワークの損失が急激に増加して減少することと、スカイを持たない非飛行機の画像における反対の効果が起こることです。その結果、これらのグループの勾配は方向を交互に変えながら、大きさも増加します。これらのペアはデータの一部を表しているため、この動作は全体のトレーニング損失からはすぐにはわかりませんが、最終的にはトレーニングの進行に伴い、広範な損失のスパイクにつながります。 これらの2つのイベント間には明らかな直接的な対応関係がありますので、研究チームは対立するシグナルが安定性の境界現象を直接引き起こすと推測しています。研究チームはまた、最も影響を与えるシグナルは時間とともに複雑さを増していくようです。研究チームは、視覚アーキテクチャとトレーニングのハイパーパラメータの範囲にわたってこの実験を繰り返しました。正確なグループとその出現順序は変化しますが、パターンは一貫して現れます。研究チームはまた、自然なテキストの次のトークン予測におけるトランスフォーマーと、単純な1D関数に対する小規模なReLU MLPについてもこの動作を検証しました。ただし、研究チームは最も明確な直感を提供するためにイメージを使用しています。彼らの実験のほとんどはこの効果を分離するためにGDを使用しますが、研究チームはSGDでも類似のパターンを観察しました。本論文の主な貢献は、NN最適化中における対立するシグナルの存在、普及性、および大きな影響を示すことです。 さらに、研究チームは、これらのシグナルが観察されるトレーニングダイナミクスの原因についての彼らの現在の最良理解を、支持する実験と共に提示しています。特に、研究チームは深さと最急降下法の方法に起因するものであるという証拠を提供しています。研究チームは、おもちゃの例と簡単なモデル上の2層線形ネットの分析を交えながら、この議論を補完しています。特筆すべきことに、初歩的ではありますが、彼らの説明によってトレーニング中のNNの振る舞いに関する具体的な定性的予測が可能になります。これは、研究チームが実験的に確認しています。また、これはSGDとAdamの比較を通じて研究チームがハイライトした、現代の確率的最適化手法を研究する新しいレンズを提供します。研究チームは、対立するシグナルとさまざまなNN最適化および一般化現象との可能性の接続を見ています。これには、理解、投射/弾き出し、単純さのバイアス、二重降下、およびシャープネス認識最適化などが含まれます。
「データ駆動方程式発見について」という文章です
「実験を通じて検証された分析的な表現を用いて自然を説明することは、特に物理学の基礎的な引力の法則から始まる科学の成功の象徴です...」
ニューヨーク大学とMetaの研究者が、「Dobb-E」という家庭用ロボット操作のためのオープンソースかつ汎用フレームワークを紹介した
NYUとMetaの研究者チームは、DobbEという高度に適応性のあるシステムを開発し、家庭環境におけるロボットの操作学習の課題に取り組みました。DobbEはユーザーのデモンストレーションから学習し、適応することができるシステムです。実験では、システムの効率性が示されましたが、現実の環境でのユニークな課題も浮き彫りにされました。 この研究は、ロボットのデータセットの大量収集に関する最近の進歩を認識し、家庭や第一者のロボットとの相互作用に焦点を当てたデータセットのユニークさを強調しています。iPhoneの機能を活用して、このデータセットは高品質のアクションとレアな深度情報を提供します。既存の自動操作に焦点を当てた表現モデルに比べ、汎用的な表現のためのドメイン内での事前学習が重視されています。さらなる改善のために、ロボット以外の家庭のビデオからのドメイン外情報をデータセットに追加することを提案し、その研究の可能性を認めています。 序文では、包括的な家庭用アシスタントの構築における課題に取り組み、制御された環境から実際の家庭への転換を主張しています。効率性、安全性、ユーザーの快適さが強調され、これらの原則を体現するフレームワークとしてDobbEが紹介されています。大規模なデータと最新の機械学習を利用した効率性、安全性のための人間のデモンストレーション、ユーザーの快適さのためのエルゴノミックなツールを組み合わせて、ハードウェア、モデル、アルゴリズムをHello Robot Stretchの周りに統合しています。ニューヨークの家庭データセット、22の家庭からの多様なデモンストレーション、ビジョンモデルのための自己教師あり学習手法も議論されています。 この研究では、行動複製フレームワークを用いてDobbEを訓練し、人間やエキスパートエージェントの振る舞いを模倣します。設計されたハードウェアセットアップにより、異なる家庭のデータ、iPhoneのオドメトリなどを活用してデモンストレーションの収集とロボットに転送がスムーズに行われます。基礎モデルはこのデータで事前学習されます。訓練されたモデルは実際の家庭でテストされ、視覚表現、必要なデモンストレーション、深度知覚、デモンストレータの専門知識、パラメトリックポリシーの必要性など、システムの異なるコンポーネントを評価するアブレーション実験が行われます。 DobbEは、5分のデモンストレーションと15分のHome Pretrained Representationsモデルの適応のみで、未知の家庭環境で81%の成功率を示しました。10の異なる家庭で30日間にわたって、DobbEは109のタスクのうち102を成功裏に学習し、ビジュアル表現にはResNetモデル、アクション予測には2層ニューラルネットワークなど、シンプルながらパワフルな方法の効果を証明しました。タスクの達成時間と難易度は回帰分析によって分析され、アブレーション実験ではグラフィカル表現やデモンストレータの専門知識など、異なるシステムコンポーネントが評価されました。 結論として、DobbEはさまざまな家庭環境でテストされた費用対効果の高い多目的なロボット操作システムで、驚異的な81%の成功率を示しました。DobbEチームは、システムのソフトウェアスタック、モデル、データ、ハードウェア設計を自由にオープンソース化し、家庭用ロボットの研究の推進とロボット執事の広範な普及を促進しています。DobbEの成功は、行動複製やアクション予測のための2層ニューラルネットワークなど、パワフルでシンプルな手法によるものです。実験はまた、照明条件や影がタスクの実行に影響を与える課題についての示唆も提供しました。
LangChainの発見:ドキュメントとのチャット、チャットボット翻訳、ウィキペディアとのチャット、合成データ生成
「ジェネラティブAIの世界の成長は、重要なPythonライブラリであるLangChainのおかげで可能になっています興味も最近の数ヶ月間で増しており、次のチャートで示されています」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.