Learn more about Search Results EU - Page 6

NTUの研究者が「高級なビデオ」を発表:テキスト指示による潜在的拡散技術による高画質動画の超解像度化

ビデオのスーパーレゾリューションは、低解像度のビデオの品質を高い忠実度に引き上げることを目指し、現実世界のシナリオでよく見られる多様で入り組んだ劣化に対処することの困難さに直面しています。合成または特定のカメラ関連の劣化に焦点を当てた以前のものとは異なり、複数の不明な要素(ダウンサンプリング、ノイズ、ぼやけ、ちらつき、およびビデオ圧縮など)により複雑さが生じます。最近のCNNベースのモデルはこれらの問題を緩和するという約束を示してきましたが、限られた生成能力により現実的なテクスチャの生成には不十分であり、過度に滑らかになります。この研究は拡散モデルを活用してこれらの制限に取り組み、ビデオのスーパーレゾリューションを向上させることに焦点を当てています。 現実世界のビデオエンハンスメントの複雑さは、多様な多面的な劣化に対する従来の手法を超える解決策を求めています。CNNベースのモデルはいくつかの劣化形式を軽減する能力を示していますが、その制約は現実的なテクスチャの生成にあり、しばしば過度に滑らかな出力を生み出します。拡散モデルは高品質の画像やビデオを生成する素晴らしい能力を発揮する光明の存在となっています。ただし、拡散サンプリングにおける固有のランダム性のため、ビデオのスーパーレゾリューションへのこれらのモデルの適応は、低レベルのテクスチャにおける時空的な不連続性とちらつきを引き起こす大きな課題となっています。 これらの課題に対処するため、NTUの研究者はこの研究で、潜在的な拡散フレームワーク内で局所的なグローバルの時空的な一貫性戦略を採用しています。局所的なレベルでは、事前学習されたアップスケーリングモデルが追加の時空間レイヤーで微調整され、3D畳み込みと時空間注意レイヤーを統合します。この微調整により、局所的なシーケンスの構造安定性が大幅に向上し、テクスチャのちらつきなどの問題が軽減されます。同時に、新しいフローガイド再帰的な潜在伝播モジュールがグローバルなレベルで動作し、推論中にフレームごとの伝播と潜在的な融合を行うことで、より長いビデオ全体の安定性を確保します。 図1: AI生成と現実世界のビデオのスーパーレゾリューションの比較。提案されたUpscale-A-Videoは優れたアップスケーリング性能を示しています。適切なテクストキューを用いて、より視覚的なリアリズムとより細かいディテールを実現します。 この研究では、テクストプロンプトを導入してテクスチャの作成を誘導し、モデルがより現実的で高品質な詳細を生成することができるようにしています。さらに、入力にノイズを注入することで、モデルの頑健性を重いまたは未知の劣化に対して強化し、復元と生成のバランスを制御することができます。ノイズのレベルが低い場合は復元能力が優先され、高いレベルではより洗練された詳細の生成が促され、忠実度と品質のトレードオフを実現します。 主な貢献は、潜在的な拡散フレームワーク内での現実世界のビデオのスーパーレゾリューションに対する堅牢なアプローチを考案することであり、時空的な一貫性メカニズムとノイズレベルおよびテキストプロンプトの革新的な制御の統合により、ベンチマークでの最先端のパフォーマンスを実現し、顕著な視覚的なリアリズムと時間的な結束力を示しています。

このAI論文は、「パーシウス」という画期的なフレームワークを紹介していますこれにより、大規模な機械学習やAIモデルのトレーニング時のエネルギー浪費を最大30%削減することが可能です

大きな言語モデル(GPT-3など)は、トレーニングと推論中の計算ニーズにより、相当なエネルギーを必要とします。エネルギー使用量は、モデルのサイズ、タスクの複雑さ、ハードウェアの仕様、および運用時間などの要素によって大きく異なります。 これらのモデルのトレーニングには、高性能なGPUやTPUを使用するなど多くの計算リソースが必要とされ、長期にわたる相当なエネルギー消費を伴います。GPT-3のような大規模な言語モデルのトレーニングには、数日または数週間にわたる複数の家庭の消費電力に相当するエネルギーが使われるとの推定があります。 エネルギー消費の最適化は重要であり、モデルの効率を損なうことなく行われる必要があります。研究者は、大規模な言語モデルのトレーニングにおいてスループットの喪失を伴わない削減可能なエネルギー消費を目指しています。各パイプラインの計算量の問題は、分散実行計画において重要な問題です。ディープニューラルネットワーク(DNN)は、計算量が異なる粗粒度のテンソル操作ですので、すべてのステージをバランス良く調整するのは不可能です。 ミシガン大学とワシントン大学の研究者たちは、トレーニング中に消費されるエネルギーのすべてが直接エンドツーエンドのトレーニングスループットに貢献するわけではなく、トレーニングを遅くすることなく大幅に削減できることを発見しました。彼らはエネルギーの膨張の内的および外的な要因を発見し、Perseusという単一の最適化フレームワークを提案しています。 内的なエネルギーパフォーマンスの喪失は、計算の不均衡性によるものであり、外的なエネルギーパフォーマンスの喪失は、複数のパイプラインが並列で実行され、大量のデータセットでトレーニングをスケールアウトさせるためのものです。遅れているパイプラインよりも早く実行されるパイプラインは速く、全体のトレーニングスループットに影響を与えないエネルギーを無駄に消費します。 Perseusは、通常の運用条件下で内的なエネルギーパフォーマンスの喪失を最小限に抑えるため、イテレーション全体の時間エネルギーを効率的に事前特性化します。さらに、エネルギーを効率的に削減することにより、外的なエネルギーパフォーマンスの喪失を緩和します。非遅れているパイプラインにおいて適切なイテレーションタイミングを見つけることで、パイプライン内の計算を正確に遅くすることができます。 研究者は、ハイブリッド並列処理で大規模なモデルのトレーニングを行い、さまざまな強いスケーリング構成で遅れるパイプラインをシミュレーションしました。エネルギーパフォーマンスの喪失量とPerseusの外的なエネルギー節約を測定しました。他の非遅れるパイプラインは、遅れるパイプラインの計算が完了するまで待つため、外的なエネルギーパフォーマンスの喪失が生じます。各パイプラインイテレーションの開始と終了時にマイクロバッチの数やパイプラインバブルの比率を減らすことで、内的なエネルギーパフォーマンスの喪失を除去し、エネルギーを削減します。 Perseusをトレーニングワークフローに統合することは、AIの開発の将来に強い影響を与える可能性があります。彼らの研究は、LLM(Large Language Models)とGenAIの普及における分散トレーニングの持続可能性を大幅に向上させる可能性があります。

自然言語処理:AIを通じて人間のコミュニケーションの力を解き放つ

この記事では、NLPの理解と進化について取り上げますAIがコミュニケーションの世界にどのように貢献できるかを学びましょう

なぜ私たちはニューラルネットワークを持っているのか?

最近、私は現代のニューラルネットワークのキープロセスについて解説する連載記事を執筆していますニューラルネットワークが非常に強力で人気がある理由の一つは、それらが展示する能力です

このAI論文では、革新的なAIフレームワークを使用したDeWaveが公開単語彙BCIのためのEEGからテキストへの翻訳を革新しています

GrapheneX-UTSヒューマンセントリック人工知能センター(シドニー工科大学(UTS))の研究者たちは、沈黙した思考を解読し、それをテキストに変換することができる優れたシステムを開発しました。この技術は、脳卒中や麻痺などの状態により話すことができない個人のコミュニケーションを支援し、人間と機械の相互作用を向上させる可能性があります。 この研究チームによってニューオーリンズで開催されたNeurIPS会議でスポットライト記事として発表されたこの研究では、携帯可能で非侵襲的なシステムが紹介されました。グラフェンX-UTS HAIセンターのチームは、シドニー工科大学工学部およびIT部門のメンバーと協力して、侵襲的な手順なしで脳信号をテキスト内容に変換する手法を開発しました。 研究中、参加者は特殊なキャップを装着し、脳波活動を電気脳波計(EEG)を通じて記録するための電極を備えたキャップを着用しながら、テキストの文章を沈黙して読みました。記録されたEEGデータは、研究者が開発したAIモデルであるDeWaveを用いて処理され、これらの脳信号を理解可能な単語と文章に変換します。 研究者は、このイノベーションが生のEEG波を言語に直接変換することの重要性を強調し、脳からテキストへの変換プロセスに離散エンコーディング技術を統合することを示しました。このアプローチは、神経科学とAIの領域で新たな可能性を開くものです。 以前の脳インプラントやMRI機器を使用する侵襲的な手順を必要とする技術とは異なり、チームのシステムは非侵襲的で実用的な代替手段を提供します。さらに、視線追跡に頼らないため、日常的な使用に適応しやすい可能性があります。 この研究は、制約がある過去の研究が1人または2人に限定されていたのに対し、29人の参加者を対象にしたもので、強健性と適応性が高いレベルを確保しています。EEG信号を収集するためにキャップを使用することでノイズが発生しますが、本研究では、EEGの変換において非常に優れたパフォーマンスを報告しています。 モデルは、動詞の方が名詞に比べて優れたマッチングを示すことをチームは強調しました。ただし、名詞を解読する際には、システムは厳密な翻訳ではなく同義語のペアに対して傾向を示していました。研究者は、意味的に似た単語が単語処理中に似た脳波パターンを引き起こす可能性があると説明しています。 現在の翻訳の正確性は、BLEU-1スコアで約40%です。研究者は、このスコアを伝統的な言語翻訳や音声認識プログラムと比較可能なレベルまで向上させることを目指しています。これらのプログラムは通常、90%程度の正確性を実現しています。 この研究は、UTSでの脳コンピュータインターフェース技術の先行する進歩を基盤としており、物理的制限によって妨げられていた個人のためのコミュニケーション手段を革新する可能性を示しています。 この研究の結果は、思考を言葉にシームレスに翻訳し、コミュニケーションの壁に直面している個人を支援し、人間と機械の相互作用を向上させるという約束を提供しています。

このAI論文は、デュアル1-Dヒートマップを使用したリアルタイムマルチパーソンポーズ推定の画期的な技術であるRTMOを紹介しています

姿勢推定とは、物体の位置と方向を空間上で決定することを含む分野であり、継続的に新しい手法を開発して精度とパフォーマンスを向上させてきました。清華深圳国際研究大学院、上海AIラボ、南洋理工大学の研究者たちは、最近、新しいRTMOフレームワークを開発することでこの分野に貢献しました。このフレームワークは、姿勢推定の精度と効率を向上させるポテンシャルを持ち、ロボット工学、拡張現実、仮想現実など、さまざまなアプリケーションに大きな影響を与える可能性があります。 RTMOは既存の手法における精度とリアルタイム性のトレードオフを解消するために設計されたワンステージの姿勢推定フレームワークです。RTMOは座標の分類と密な予測モデルを統合し、トップダウンアプローチと同等の精度を実現しながら、高速性を維持することで、他のワンステージの姿勢推定器を凌駕しています。 リアルタイムのマルチパーソン姿勢推定はコンピュータビジョンの課題であり、既存の手法は速度と精度のバランスをとるために支援が必要です。トップダウンアプローチまたはワンステージアプローチのいずれかには、推論時間または精度の制約があります。RTMOはワンステージの姿勢推定フレームワークであり、YOLOアーキテクチャと座標の分類を組み合わせています。RTMOは動的座標分類器と特別な損失関数を用いて課題を解決し、COCOでの高い平均適合度を維持しながら、リアルタイムのパフォーマンスを実現しています。 この研究では、YOLOのようなアーキテクチャを使用し、背骨とハイブリッドエンコーダを持つRTMOというリアルタイムのマルチパーソン姿勢推定フレームワークを提案しています。デュアル畳み込みブロックは各空間レベルでスコアとポーズ特徴を生成します。この手法は動的座標分類器と特別な損失関数を用いて、座標の分類と密な予測モデルの非互換性に対処しています。動的ビンエンコーディングを使用してビンごとの表現を作成し、クラス分類タスクにはガウスラベルスムージングと交差エントロピー損失を用いています。 RTMOは、高い精度とリアルタイム性を備えたワンステージの姿勢推定フレームワークであり、先端のワンステージ姿勢推定器よりも優れた性能を発揮し、同じ背骨を使用しておよそ9倍速く動作します。最大モデルのRTMO-lはCOCO val2017で74.8%のAPを達成し、単一のV100 GPUで秒あたり141フレームを実行します。異なるシナリオで、RTMOシリーズはパフォーマンスと速度で同等の軽量なワンステージ手法を上回り、効率と正確性を示しています。追加のトレーニングデータを使用することで、RTMO-lは最新の81.7の平均適合度を達成します。このフレームワークは、各キーポイントに対して頑強かつコンテキスト感知型の予測を容易にする空間的に正確なヒートマップを生成します。 https://arxiv.org/abs/2312.07526v1 まとめると、この研究の要点は以下の通りです: RTMOは高い精度とリアルタイム性を持つ姿勢推定フレームワークです。 RTMOはYOLOアーキテクチャ内で座標の分類をシームレスに統合しています。 RTMOは、座標ビンを使用した革新的な座標の分類技術を活用し、正確なキーポイントの位置特定を実現しています。 RTMOは、先端のワンステージ姿勢推定器を凌駕し、COCOで高い平均適合度を達成しながらも、大幅に高速です。 RTMOは難しいマルチパーソンのシナリオで優れた性能を発揮し、頑健な、コンテキスト感知型の予測のための空間的に正確なヒートマップを生成します。 RTMOは既存のトップダウンおよびワンステージのマルチパーソン姿勢推定手法のパフォーマンスと速度をバランスさせます。

スタンフォードの研究者たちはPLATOを発表しました:知識グラフに拡張された正則化を用いた高次元、低サンプルの機械学習の過適合に取り組むための斬新なAIアプローチ

ナレッジグラフ(KG)は、ノードとエッジとして情報を格納するグラフベースのデータベースです。一方、マルチレイヤーパーセプトロン(MLP)は、機械学習で使用されるニューラルネットワークの一種です。MLPは、複数の層に配置された相互接続されたノードで構成されています。各ノードは前の層からの入力を受け取り、次の層に出力を送信します。 スタンフォード大学の研究者たちは、KGを活用して補助的なドメイン情報を提供するための新しい機械学習モデルであるPLATOを紹介しました。 PLATOは、KG内の類似したノードがMLPの最初の層の重みベクトルを持つことを保証する帰納的なバイアスを導入することで、MLPを正則化します。この方法は、多くの次元を持つ表形式のデータセットを含むタブラーデータがサンプルよりも多い場合に機械学習モデルが助けが必要な課題に対処します。 PLATOは、特徴の数よりもデータサンプルの数が遥かに多い表形式のデータセットの未開拓シナリオに対処し、NODEやタブラートランスフォーマーなどの他の深層タブラーモデル、およびPCAやLASSOなどの従来のアプローチと異なり、正則化のためのKGを導入します。グラフ正則化方法とは異なり、PLATOはKG内の特徴ノードと非特徴ノードを組み合わせています。これにより、KGを事前情報として異なる表形式のデータセットでの予測に対してMLPモデルの重みを推定します。 機械学習モデルはデータ豊富な環境で優れたパフォーマンスを発揮することが多い一方で、特徴の数がサンプルの数を大幅に上回る表形式のデータセットでは支援が必要です。この差異は特に科学データセットにおいて顕著であり、モデルのパフォーマンスが制限されます。既存の表形式の深層学習手法は主に例が特徴よりも多いシナリオに焦点を当てており、特徴がサンプルよりも多いローデータ領域では従来の統計手法が主流です。これを解決するために、MLPを正則化するための補助KGを活用するPLATOは、高次元の特徴と限られたモデルを持つデータセットにおけるディープラーニングを可能にし、優れたパフォーマンスを発揮します。 補助KGを活用することで、PLATOは各入力特徴をKGノードと関連付け、ノードの類似性に基づいてMLPの最初の層の重みベクトルを推定します。この手法は、メッセージパッシングの複数のラウンドを用いて特徴の埋め込みを洗練します。PLATOはKG内の浅いノード埋め込み手法(TransE、DistMult、ComplEx)において一貫したパフォーマンスを示す消失実験を行います。この革新的な手法は、データに乏しい表形式の設定におけるディープラーニングモデルの改善の可能性を提供します。 高次元の特徴と限られたサンプルを持つ表形式のデータに対するPLATOは、6つのデータセット全体で13の最先端ベースラインを最大10.19%上回ります。パフォーマンスの評価は、モデルごとに500の設定でランダムサーチを行い、予測値と実際の値のピアソン相関の平均と標準偏差を報告して行われます。結果は、PLATOの効果を裏付け、データに乏しい状況での堅牢なパフォーマンスを達成するための補助KGの活用を示しています。多様なベースラインに対する比較分析は、PLATOの優位性を明確にし、表形式のデータセットの予測の向上における有効性を立証しています。 まとめると、以下のポイントで研究内容を要約することができます: PLATOは表形式のデータのためのディープラーニングフレームワークです。 各入力特徴は補助KG内のノードに似ています。 PLATOはMLPを制御し、高次元の特徴と限られたサンプルを持つ表形式のデータで堅牢なパフォーマンスを達成します。 このフレームワークは、KGノードの類似性に基づいて重みベクトルを推定し、類似の入力特徴は類似の重みベクトルを共有するという帰納的なバイアスを捉えます。 PLATOは6つのデータセットで13のベースラインを最大10.19%上回ります。 補助KGの使用は、データが乏しい状況でのパフォーマンス向上を示します。

「UnbodyとAppsmithを使って、10分でGoogle Meet AIアシスタントアプリを作る方法」

「ほぼコードなしで、Google Meetのビデオ録画を処理し、メモを作成し、アクションアイテムをキャプチャするAIのミーティングアシスタントアプリを開発する方法を学びましょう」

ミストラルAIの最新のエキスパート(MoE)8x7Bモデル

ミストラルAIのMoE 8x7Bを発見しましょうこれはMixture of Experts frameworkを用いた「スケールダウンされたGPT-4」ですこのモデルがどのように印象的な多言語対応能力と効率性を実現しているか、さまざまなタスクで競合モデルを上回るかを学んでください

「AGIに向かって:LLMと基礎モデルが人生の学びの革命で果たす役割」

過去10年間、特にディープラーニングの成功を受けて、人工汎用知能(AGI)の構築の可能性について議論が続いています最終目標は...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us