Search Results src

NTUの研究者が「高級なビデオ」を発表：テキスト指示による潜在的拡散技術による高画質動画の超解像度化

ビデオのスーパーレゾリューションは、低解像度のビデオの品質を高い忠実度に引き上げることを目指し、現実世界のシナリオでよく見られる多様で入り組んだ劣化に対処することの困難さに直面しています。合成または特定のカメラ関連の劣化に焦点を当てた以前のものとは異なり、複数の不明な要素（ダウンサンプリング、ノイズ、ぼやけ、ちらつき、およびビデオ圧縮など）により複雑さが生じます。最近のCNNベースのモデルはこれらの問題を緩和するという約束を示してきましたが、限られた生成能力により現実的なテクスチャの生成には不十分であり、過度に滑らかになります。この研究は拡散モデルを活用してこれらの制限に取り組み、ビデオのスーパーレゾリューションを向上させることに焦点を当てています。現実世界のビデオエンハンスメントの複雑さは、多様な多面的な劣化に対する従来の手法を超える解決策を求めています。CNNベースのモデルはいくつかの劣化形式を軽減する能力を示していますが、その制約は現実的なテクスチャの生成にあり、しばしば過度に滑らかな出力を生み出します。拡散モデルは高品質の画像やビデオを生成する素晴らしい能力を発揮する光明の存在となっています。ただし、拡散サンプリングにおける固有のランダム性のため、ビデオのスーパーレゾリューションへのこれらのモデルの適応は、低レベルのテクスチャにおける時空的な不連続性とちらつきを引き起こす大きな課題となっています。これらの課題に対処するため、NTUの研究者はこの研究で、潜在的な拡散フレームワーク内で局所的なグローバルの時空的な一貫性戦略を採用しています。局所的なレベルでは、事前学習されたアップスケーリングモデルが追加の時空間レイヤーで微調整され、3D畳み込みと時空間注意レイヤーを統合します。この微調整により、局所的なシーケンスの構造安定性が大幅に向上し、テクスチャのちらつきなどの問題が軽減されます。同時に、新しいフローガイド再帰的な潜在伝播モジュールがグローバルなレベルで動作し、推論中にフレームごとの伝播と潜在的な融合を行うことで、より長いビデオ全体の安定性を確保します。図1： AI生成と現実世界のビデオのスーパーレゾリューションの比較。提案されたUpscale-A-Videoは優れたアップスケーリング性能を示しています。適切なテクストキューを用いて、より視覚的なリアリズムとより細かいディテールを実現します。この研究では、テクストプロンプトを導入してテクスチャの作成を誘導し、モデルがより現実的で高品質な詳細を生成することができるようにしています。さらに、入力にノイズを注入することで、モデルの頑健性を重いまたは未知の劣化に対して強化し、復元と生成のバランスを制御することができます。ノイズのレベルが低い場合は復元能力が優先され、高いレベルではより洗練された詳細の生成が促され、忠実度と品質のトレードオフを実現します。主な貢献は、潜在的な拡散フレームワーク内での現実世界のビデオのスーパーレゾリューションに対する堅牢なアプローチを考案することであり、時空的な一貫性メカニズムとノイズレベルおよびテキストプロンプトの革新的な制御の統合により、ベンチマークでの最先端のパフォーマンスを実現し、顕著な視覚的なリアリズムと時間的な結束力を示しています。

このAI論文は、「パーシウス」という画期的なフレームワークを紹介していますこれにより、大規模な機械学習やAIモデルのトレーニング時のエネルギー浪費を最大30％削減することが可能です

大きな言語モデル（GPT-3など）は、トレーニングと推論中の計算ニーズにより、相当なエネルギーを必要とします。エネルギー使用量は、モデルのサイズ、タスクの複雑さ、ハードウェアの仕様、および運用時間などの要素によって大きく異なります。これらのモデルのトレーニングには、高性能なGPUやTPUを使用するなど多くの計算リソースが必要とされ、長期にわたる相当なエネルギー消費を伴います。GPT-3のような大規模な言語モデルのトレーニングには、数日または数週間にわたる複数の家庭の消費電力に相当するエネルギーが使われるとの推定があります。エネルギー消費の最適化は重要であり、モデルの効率を損なうことなく行われる必要があります。研究者は、大規模な言語モデルのトレーニングにおいてスループットの喪失を伴わない削減可能なエネルギー消費を目指しています。各パイプラインの計算量の問題は、分散実行計画において重要な問題です。ディープニューラルネットワーク（DNN）は、計算量が異なる粗粒度のテンソル操作ですので、すべてのステージをバランス良く調整するのは不可能です。ミシガン大学とワシントン大学の研究者たちは、トレーニング中に消費されるエネルギーのすべてが直接エンドツーエンドのトレーニングスループットに貢献するわけではなく、トレーニングを遅くすることなく大幅に削減できることを発見しました。彼らはエネルギーの膨張の内的および外的な要因を発見し、Perseusという単一の最適化フレームワークを提案しています。内的なエネルギーパフォーマンスの喪失は、計算の不均衡性によるものであり、外的なエネルギーパフォーマンスの喪失は、複数のパイプラインが並列で実行され、大量のデータセットでトレーニングをスケールアウトさせるためのものです。遅れているパイプラインよりも早く実行されるパイプラインは速く、全体のトレーニングスループットに影響を与えないエネルギーを無駄に消費します。 Perseusは、通常の運用条件下で内的なエネルギーパフォーマンスの喪失を最小限に抑えるため、イテレーション全体の時間エネルギーを効率的に事前特性化します。さらに、エネルギーを効率的に削減することにより、外的なエネルギーパフォーマンスの喪失を緩和します。非遅れているパイプラインにおいて適切なイテレーションタイミングを見つけることで、パイプライン内の計算を正確に遅くすることができます。研究者は、ハイブリッド並列処理で大規模なモデルのトレーニングを行い、さまざまな強いスケーリング構成で遅れるパイプラインをシミュレーションしました。エネルギーパフォーマンスの喪失量とPerseusの外的なエネルギー節約を測定しました。他の非遅れるパイプラインは、遅れるパイプラインの計算が完了するまで待つため、外的なエネルギーパフォーマンスの喪失が生じます。各パイプラインイテレーションの開始と終了時にマイクロバッチの数やパイプラインバブルの比率を減らすことで、内的なエネルギーパフォーマンスの喪失を除去し、エネルギーを削減します。 Perseusをトレーニングワークフローに統合することは、AIの開発の将来に強い影響を与える可能性があります。彼らの研究は、LLM（Large Language Models）とGenAIの普及における分散トレーニングの持続可能性を大幅に向上させる可能性があります。

「転移学習を探求しましょう…」(Ten’i gakushū o tankyū shimashou…)

転移学習については、多くの定義があります基本的には、事前学習済みモデルの知識を活用して新しい問題を解決することを指します転移学習には数多くの利点があります...

「パブリックスピーキングのための5つの最高のAIツール（2023年12月）」

「人工知能の領域において、公の演説にAIツールを応用することは大きな進歩を意味しますこれらのツールは、スピーキングスキルの向上に役立つ実用的なソリューションを提供し、あらゆるレベルのスピーカーが直面する共通の課題に対処しますAI技術を活用することで、これらのツールはスピーチのデリバリー、コンテンツの構成、聴衆の関与に関する貴重な洞察を提供します私たちの探究...」

best of

このAI論文では、ディープラーニングを通じて脳の設計図について探求します：神経科学とsnnTorch Pythonライブラリのチュートリアルから得た知見を活用してニューラルネットワークを進化させる

神経科学と人工知能の交差点では、特に「snnTorch」として知られるオープンソースのPythonライブラリの開発を通じて、顕著な進展が見られています。この革新的なコードは、脳の効率的なデータ処理方法に触発されたスパイキングニューラルネットワークをシミュレートするもので、UCサンタクルーズのチームの努力から生まれています。過去4年間、このチームのPythonライブラリ「snnTorch」は、100,000を超えるダウンロードを誇って大きな注目を集めています。その応用は学術的な範囲を超えており、NASAの衛星追跡事業や半導体会社による人工知能用のチップの最適化など、多様なプロジェクトで有益な役割を果たしています。 IEEEの論文に最近掲載された「snnTorch」のコーディングライブラリは、脳の効率的な情報処理メカニズムを模倣したスパイキングニューラルネットワークの重要性を強調しています。彼らの主な目標は、脳の省電力処理を人工知能の機能性と融合させることで、両者の長所を活用することです。 snnTorchは、パンデミック中にチームのPythonコーディングの探求と電力効率の向上のために始まった情熱的なプロジェクトでした。今日、snnTorchは、衛星追跡からチップ設計までのさまざまなグローバルプログラミングプロジェクトで基礎的なツールとして確立されています。 snnTorchの優れた点は、そのコードとその開発に伴って編集された包括的な教育資料です。チームのドキュメントと対話型コーディング資料は、ニューロモーフィックエンジニアリングとスパイキングニューラルネットワークに関心を持つ個人のための入門点となり、コミュニティで貴重な資産となっています。チームによって著されたIEEE論文は、snnTorchコードに補完される包括的なガイドです。非伝統的なコードブロックと主観的なナラティブを特徴とし、神経モーフィックコンピューティングの不安定な性質を正直に描写しています。これにより、コーディングの決定に不十分に理解された理論的な基盤と格闘する学生たちの苦悩を和らげることを意図しています。教育リソースとしての役割に加えて、論文は、脳の学習メカニズムと従来の深層学習モデルとの隔たりを埋める視点も提供しています。研究者たちは、AIモデルを脳の機能と調整する課題について探究し、ニューラルネットワークでのリアルタイム学習と「一緒に発火して接続される」興味深い概念に重点を置いています。さらに、チームはUCSCのGenomics InstituteのBraingeneersとの共同研究において、脳情報処理の洞察を得るために脳器官モデルを利用しています。この共同研究は、生物学と計算論的パラダイムの融合を象徴し、snnTorchの器官モデルのシミュレーション能力による脳発祥の計算の理解への大きな進歩となっています。研究者の業績は、多様な領域をつなぐ協力的な精神を体現し、脳に触発されたAIを実用的な領域に推進しています。snnTorchの議論に特化した繁栄するDiscordとSlackチャンネルを通じて、この取り組みは産業と学術界の協力関係を促進し、snnTorchに関する熟練を求める求人募集内容にさえ影響を与え続けています。 UCサンタクルーズのチームによる脳に触発されたAIの先駆的な進展は、深層学習、神経科学、計算論的パラダイムのランドスケープを変革する可能性を示しています。

このAIの論文は、マルチビュー映像を使用して3Dシーンダイナミクスをモデリングするための画期的な方法を紹介しています

NVFiは、時間の経過に伴って進化する3Dシーンのダイナミクスを理解し予測するという複雑な課題に取り組んでいます。これは、拡張現実、ゲーム、映画製作などのアプリケーションにとって重要なタスクです。人間はこのようなシーンの物理学と幾何学を容易に理解しますが、既存の計算モデルはマルチビュービデオからこれらの特性を明示的に学習することに苦労しています。これは、ニューラル放射輝度場とその派生物を含む従来の手法が、学習された物理的なルールに基づいて将来の動きを抽出し予測する能力に欠けるためです。NVFiは、これらのギャップを埋めるために、純粋にマルチビュービデオフレームから導かれる分離された速度場を取り入れることで、大胆な目標を掲げています。 3Dシーンの動的な性質は、計算上の深刻な課題を提起します。最近のニューラル放射輝度場の進展により、観測された時間フレーム内でのビュー補間能力が優れていることが示されましたが、物体の速度などの明示的な物理的特性を学習する能力には限界があります。この制限により、将来の動きのパターンを正確に予測する能力も制約されます。物理学をニューラル表現に統合する現在の研究は、シーンのジオメトリ、外観、速度、粘性場を再構築することで有望な結果を示しています。しかし、これらの学習された物理的特性は、しばしば特定のシーン要素と絡み合っているか、補完的な前景セグメンテーションマスクを必要とするため、シーン間の移植性が制限されます。NVFiの画期的な目標は、学習観測を超えた予測能力を育むために、3Dシーン全体の速度場を分離し理解することです。香港理工大学の研究者たちは、NVFiという包括的なフレームワークを導入しています。これは3つの基本的な要素を組み合わせています。第一に、キーフレームダイナミック輝度場は、3D空間のすべてのポイントに対して時間による体積密度と外観を学習するのを容易にします。第二に、フレーム間速度場は、各ポイントの時間による3D速度を捉えます。最後に、物理学に基づいた制約を加えたキーフレームとフレーム間の要素の組み合わせによる共同最適化戦略がトレーニングプロセスを統括します。このフレームワークでは、動的輝度場モデリングのための既存の時間依存NeRFアーキテクチャを採用する柔軟性を提供しながら、速度場のためにMLPなどの比較的単純なニューラルネットワークを使用します。その核心的なイノベーションは、第三の要素にあり、共同最適化戦略と特定の損失関数により、追加のオブジェクト固有の情報やマスクなしで分離された速度場の正確な学習が可能になります。 NVFiの革新的な進歩は、オブジェクト固有のデータやマスクを必要とせずに、マルチビュービデオフレームから3Dシーンの動力学をモデル化する能力に現れています。それは、シーンの運動ダイナミクスを統括する重要な要素である速度場の分離に精密に焦点を当て、数多くの応用の鍵を握っています。複数のデータセットを通して、NVFiは将来のフレームの予測、シーンの意味的な分解、異なるシーン間での速度の転送など、その優れたパフォーマンスと適応性を証明しています。主な貢献と要点：事前のオブジェクト情報なしでマルチビュービデオから動的な3Dシーンモデリングを行うための新しいフレームワークNVFiの導入。効果的なネットワークトレーニングのためのニューラル速度場の設計と実装。将来のフレーム予測、意味的なシーンの分解、シーン間速度の転送など、多様なデータセットでNVFiの能力を成功裏に実証し、優れたパフォーマンスを達成。

がん診断の革命：ディープラーニングが正確に識別し再分類することで、肝臓がんの組み合わせを強化された治療判断につながります

“` 肝臓癌は、肝細胞癌（HCC）と肝内胆管癌（ICCA）を含む原発性肝癌は、それぞれ異なる特徴を持つため、重要な課題を抱えています。肝細胞・胆管細胞癌（cHCC-CCA）の出現により、HCCとICCAの特徴を表す特徴を持ち、診断上の複雑さと臨床管理のジレンマが生じています。この稀な病態が正確な治療戦略の派生を複雑化させ、患者の予後に寄与しています。このジレンマに対処するため、本研究では人工知能（AI）の適用により、cHCC-CCA腫瘍を純粋なHCCまたはICCAとして再分類し、改善された予後予測と分子的な洞察を提供することを目指しています。 cHCC-CCAは、肝癌の稀な変異型であり、肝細胞と胆管細胞の形態の組み合わせにより病理学者を困惑させます。複雑なブレンドは診断を難しくし、臨床管理に曖昧さをもたらします。さらに、共識ガイドラインの欠如が治療の決定を複雑化させます。この複雑性は、HCCとICCAの境界が曖昧であり、cHCC-CCAがこれらの実体に類似した遺伝子プロファイルを示すことから、その分子的なアイデンティティについての論争を引き起こします。本研究は、病理学画像解析の強力なツールであるAIを活用し、cHCC-CCA腫瘍をHCCまたはICCAとして識別および再分類することで、臨床的な予後予測および分子的な遺伝子パターンに対する解釈を明確にすることを目指しています。国際的な研究者チームによるこの研究では、セルフスーパーバイズドフィーチャーエクストラクタと注意機構ベースの集約モデルを組み合わせたAIパイプラインを使用しました。このAIフレームワークは、純粋なHCCとICCAを識別し、発見コホート内で有望な結果を示すことを目指しました。モデルは、クロスバリデーションされた受信者操作特性曲線下の面積（AUROC）が0.99である堅牢な分離能力を示しました。独立したTCGAコホートでの後続の検証では、モデルの有効性が補強され、AUROCが0.94になり、高い汎化能力が示されました。特筆すべきは、AIモデルがICCに似た表現型に近い特徴に強い注目を払っていることであり、微細な組織学的ニュアンスを識別する能力を示しています。 AIモデルの純粋なHCCとICCAの区別能力は、その臨床および分子的な意義の更なる探索を促します。この分割によって、cHCC-CCAと診断された患者に対する治療の効果のギャップを埋めるための正確な予後予測および治療戦略のガイドが可能となります。さらに、ICCに似た特徴への注目は、モデルが異なる組織構造を捉える能力を示しており、cHCC-CCAと既知の肝癌タイプとの病理学的な関連性と一致しています。これらの研究結果は、AIがcHCC-CCAのより正確な診断と予後マーカーの指南において潜在力を持っていることを強調しています。論文の主なポイント: 診断の潜在能力：AIは、cHCC-CCAをHCCまたはICCAの明確なカテゴリに再分類することで、診断の突破口を提供する可能性を示しています。臨床的な意義：AIによる分類は、cHCC-CCA患者の個別化された治療戦略と予後予測において有望な成果をもたらします。分子的な洞察：モデルがICCに似た特徴に注目することは、微細な組織学的構造を捉える能力を示しており、cHCC-CCAと既知の肝癌タイプの間の分子的な類似性に光を当てています。 “`

Google AIがMedLMを導入：医療業界の利用事例に特化したファミリー型基盤モデル

Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Googleの医療と医学における以前の研究であるMed-PaLM 2という医用に調整された大規模言語モデルに基づいて構築されています。MedLMには、別々のエンドポイントを持つ2つのモデルがあり、顧客にさまざまなユースケースに対する柔軟性を提供します。MedLMは、医療の質問応答や要約に優れた性能を発揮します。最初のモデルは大きなバリアントで、複雑なタスクを処理するために設計されています。一方、二番目のVoAGIサイズのモデルは、微調整やさまざまなアプリケーションへのスケーラビリティに対して柔軟性を提供します。特定の医療と生命科学の要件に基づいて設計されたこれらのモデルは、基本的な機能から洗練されたワークフローまで、医療におけるAIの採用を強化することが期待されています。 Googleは、HCA Healthcare、BenchSci、Accenture、およびDeloitteと協力し、既存のプロジェクトでのパフォーマンスと効率を向上させるためにMedLMを活用しています。HCA Healthcareとの協力により、MedLMはAugmedixのプラットフォームに統合されています。MedLMの技術を活用したこのアプリは、自然言語処理を使用してクリニシャンと患者の会話をドラフト医療ノートに変換し、医療規制に準拠します。この自動化は、パフォーマンスを向上させるだけでなく、時間の節約、バーンアウトの軽減、そして患者ケアの向上にも貢献します。 BenchSciは、前臨床の研究開発の領域で、ASCENDプラットフォーム内でMedLMを活用しています。目標は、前臨床研究のスピードと品質を向上させることにより、薬の発見を加速することです。ASCENDは、AIパワーのエビデンスエンジンであり、MedLMと協力してバイオマーカーの識別と分類を強化し、科学的な発見プロセスを効率化しています。 Accentureとの協力により、Googleは生成型AIを活用して患者のアクセス、体験、および結果を向上させることを目指しています。Google CloudのClaims Acceleration SuiteとMedLMを統合することで、医療機関は新しい洞察を発見し、最終的にはより良い患者結果につながることができます。MedLMの機能をパイロット導入することにより、DeloitteとGoogle Cloudは、プロバイダディレクトリや福利厚生文書からの情報の簡素化を図り、さまざまな基準に基づいて適切なプロバイダを特定する際にコンタクトセンターエージェントをサポートしています。これらのプロジェクトすべてが示しているように、MedLMの利用は医療および医学産業におけるAIの成長を支援することができます。Google Researchは、今後数ヶ月間にさらなる機能を提供するために、Geminiベースのモデルを組み込んでMedLMスイートを拡大する予定です。業界のリーダー企業との協力努力は、医療における生成型AIの変革的な可能性を示しています。技術が進化するにつれて、Googleは医療現場の開業医、研究者、および医療組織と緊密に連携し、健康・生命科学における画期的な研究を推進するためにAIの安全かつ責任ある使用を確保することに取り組んでいます。この投稿は、Google AI Introduces MedLM: A Family of Foundation Models Fine-Tuned…

「アウトライア検出手法の比較」

外れ値検出は、与えられたデータセット内の異常値（珍しい観測値）を特定するための教師なしの機械学習タスクですこのタスクは、私たちの利用可能なデータが多い現実世界のケースで役立ちます…

Pythonの地図を使って貿易流をビジュアライズする – 第1部：双方向貿易流マップ

商品やサービスの交換は、それらの対応する価値と引き換えに私たちの日常生活の重要な一部です同様に、国々はさまざまな種類の貿易関係を築いています

Learn more about Search Results src - Page 8