Search Results デモ

「素晴らしいAIアプリケーションのクイックでエレガントなデモを作成する」

このブログシリーズの前のパートでは、YouTubeのビデオURLを入力として受け取り、そのビデオを書き起こし、内容を簡潔かつ一貫性のある形式にまとめるMLアプリケーションの構築方法を示しました

「この男性は誰でもバイラルにすることができます（10か月で21億回の視聴回数）」

「以下は、短編コンテンツで1か月で1億ビューを獲得するための6つのステップのフレームワークです...」

「ネットイース・ヨウダオがEmotiVoiceをオープンソース化：強力でモダンなテキスト読み上げエンジン」というタイトルの記事です

NetEase Youdaoは、「易墨生」というオープンソースのテキスト読み上げ（TTS）エンジンの正式リリースを発表しました。これはGitHubで利用可能です。ウェブおよびスクリプトのインターフェースを提供しており、音色の情感合成を必要とするアプリケーション向けにバッチで結果を生成することが可能です。 Youdaoはこのテキスト読み上げエンジンを作成しました。現在、2000種類以上の音色に対応し、中国語と英語の両方をサポートしています。また、喜び、興奮、悲しみ、怒りなどの感情を生み出す独自の情感合成機能や多様な表現力を備えています。オープンソースのテキスト読み上げエンジンに関しては、EmotiVoiceが一流です。 EmotiVoiceは2000以上のユニークな声を持ち、英語と中国語で会話することができます。最も目立つ機能は情感合成であり、幸福、熱意、悲しみ、怒りなど、幅広い感情で音声を生成することができます。利用しやすいオンラインインターフェースが利用可能です。スクリプトインターフェースを介して結果を一括生成することができます。Dockerイメージを使用してEmotiVoiceを簡単にテストすることができます。NVidiaのグラフィックスプロセッシングユニットを搭載したコンピュータが必要です。LinuxまたはWindows WSL2にまだインストールしていない場合は、NVidiaコンテナツールキットをインストールしてください。現在のシステムでは、プロンプトがユーザーの感情や行動を管理します。性別は重要視せず、調子、テンポ、強度、情熱に重点を置いています。オリジナルのクローズドソース設計のように、スタイル/音色コントローラを比較的簡単に追加することができます。この記事は、NetEase Youdao Open-Sources EmotiVoice：パワフルでモダンなテキスト読み上げエンジンを最初に掲載したMarkTechPostです。

Amazon SageMakerを使用してモデルの精度を向上させるために、ファンデーションモデルを使用します

「住宅の価値を決定することは機械学習（ML）の典型的な例ですこの投稿では、ビジュアル質問応答（VQA）のために特に設計されたオープンソースモデルの使用について説明しますVQAでは、自然言語を使用して写真に質問ができ、質問に対する回答も平易な言葉で受け取ることができますこの投稿での目標は、この技術を使用して何が可能かを皆さんに示し、インスピレーションを与えることです」

新しいMicrosoft AI研究では、HMD-NeMoを提案していますこの新しい手法では、手が部分的にしか見えていない場合でも、信憑性のある正確な全身運動生成に取り組んでいます

ミックスリアリティシナリオにおける没入型体験の領域では、正確かつ信憑性のある全身アバターの動きを生成することが持続的な課題となっています。既存の解決策は、ヘッドマウントデバイス（HMD）に依存しており、通常はヘッドと手の6自由度（DOF）など、限られた入力信号を利用します。最近の進歩によって、ヘッドと手の信号から全身の動きを生成することで印象的なパフォーマンスが示されましたが、それらは全て共通の制限を共有しています – 手の完全な可視性を前提とするという点です。この前提は、モーションコントローラが関与するシナリオでは妥当ですが、HMDの視野が制限されるため、手の追跡がエゴセントリックセンサに依存する多くのミックスリアリティ体験では、部分的な手の可視性が生じます。イギリスのマイクロソフト・ミックスド・リアリティ＆AIラボの研究者は、画期的な手法であるHMD-NeMo（HMDニューラルモーションモデル）を紹介しました。この統一されたニューラルネットワークは、手が部分的にしか見えていない場合でも信憑性のある正確な全身の動きを生成します。HMD-NeMoはリアルタイムかつオンラインで動作し、ダイナミックなミックスリアリティシナリオに適しています。 HMD-NeMoの核となるのは、時空間エンコーダであり、新しい時間的に適応可能なマスクトークン（TAMT）を備えています。これらのトークンは、手の観測がない場合でも合理的な動きを促進する重要な役割を果たします。この手法では、再帰的ニューラルネットワークを使用して時間的な情報を効率的にキャプチャし、トランスフォーマーを使用して異なる入力信号の複雑な関係をモデル化しています。この論文では、評価のために考慮された2つのシナリオが概説されています。モーションコントローラ（MC）では、手はモーションコントローラで追跡され、ハンドトラッキング（HT）では、ハンドトラッキングセンサを介して手が追跡されます。HMD-NeMoは統一されたフレームワーク内で両方のシナリオを取り扱うことができる初めての手法です。HTのシナリオでは、手が視野外に部分的または完全にある場合、時間的に適応可能なマスクトークンは時間の一貫性を維持する効果を示します。提案された手法は、SE（3）での人間のポーズ再構成におけるデータの正確さ、滑らかさ、および補助的なタスクを考慮した損失関数を使用してトレーニングされます。実験では、人間の動作シーケンスを3D人間メッシュに変換した大規模なAMASSデータセットの評価が行われます。HMD-NeMoのパフォーマンスを評価するために、平均関節位置誤差（MPJPE）や平均関節速度誤差（MPJVE）などのメトリクスが使用されます。モーションコントローラシナリオにおける最先端の手法との比較では、HMD-NeMoは優れた精度とスムーズなモーション生成を実現しています。さらに、モデルの汎化能力は、異なるデータセットでの評価を通じて証明されており、既存の手法を上回る結果を示しています。割合解析研究では、TAMTモジュールが欠落した手の観察を処理する上での効果など、さまざまなコンポーネントの影響について詳しく調査されます。この研究は、HMD-NeMoの設計選択肢がその成功に重要な貢献をしていることを示しています。結論として、HMD-NeMoはミックスリアリティシナリオにおける全身アバターの動きを生成する課題に向けた重大な進歩です。モーションコントローラおよびハンドトラッキングの両方のシナリオを処理する柔軟性と、優れたパフォーマンスメトリクスにより、この手法はその分野で先駆的な解決策と位置づけられます。

「マルチプレーナーUNet：すべての3Dセグメンテーションタスクに対応した1つのUNet（データが少ない場合でも）- ローコードアプローチ」

「博士号の取得を開始した後、最初に本物の医療画像セグメンテーションプロジェクトとしてぶつかったのは、膝のMRIセグメンテーションでしたトレーニングと検証に使用するMRI画像はわずか39枚で、20枚...」

「ロンドン帝国大学チーム、少ないデモンストレーションで新たな現実世界のタスクをマスターするための人工知能の方法を開発」

ロボット工学と人工知能の常に進化する分野で、興味深く挑戦的な問題の一つは、完全に異なるオブジェクトでの仕事をロボットに教える方法です。つまり、これまでに見たことも触れたこともないオブジェクトです。この長年にわたる研究者や科学者の関心事でもあるトピックの答えは、ロボット工学を変革する上で重要です。ロボットは、操作タスクを実行するために、操作軌道に沿って二つのオブジェクトを作業特化的な方法で理解し、配置する必要があります。ロボットは、ティーポットからカップにお茶を注ぐときに、ティーポットの注口とカップの口が一致することを確認する必要があります。この一致はタスクを成功裏に完了するためには不可欠です。しかし、同じクラスのオブジェクトは頻繁にわずかに異なる形状をしており、ある特定の活動においてどの部分が正確に一致する必要があるかを把握することが複雑化します。模倣学習の場合、この問題はさらに複雑になります。なぜなら、ロボットはアイテムやそのクラスに関する事前の情報を持たずに示されたデモからタスク固有の配置を推論しなければならないからです。最近の研究チームは、この問題を模倣学習の課題として捉え、オブジェクトグラフ表現の条件付き整列を強調する方法で取り組みました。彼らは、学習プロセスの文脈として機能する少数の例から新しいアイテムの整列と相互作用のスキルをロボットが獲得できる手法を開発しました。彼らはこの手法を条件付き整列と呼び、デモを見た後すぐに新しいオブジェクトのセットでタスクを実行できるようにしました。つまり、追加のトレーニングやオブジェクトクラスの事前知識は必要ありません。研究者たちは、彼らの手法に関して行った試験で、彼らが行った設計上の決定がどれくらい妥当性があるかを調査し、検証しました。これらのテストは、彼らのアプローチがさまざまな一般的な現実世界のタスクにおいて少数のショット学習を達成するためにどれくらい優れているかを示しています。彼らのアプローチは、ベースライン技術よりも優れており、異なるオブジェクトを提供する新しいタスクを習得する際の柔軟性と効果の観点で優位性を示しています。このチームは、ロボットが迅速に新しいアイテムに適応し、さまざまなオブジェクト上に表示されたタスクを実行する問題に取り組むためのユニークな戦略を開発しました。彼らは、グラフ表現と条件付き整列を利用した少数のショット学習において優れたパフォーマンスを発揮する柔軟なフレームワークを開発し、その研究は実証的な証拠を提供しています。プロジェクトの詳細はhttps://www.robot-learning.uk/implicit-graph-alignmentでアクセスできます。プロジェクトのウェブページで利用可能なビデオは、この手法の成功と現実世界での実用性の追加的な証拠として機能しています。

「再トレーニングの必要なしでモデルのメモリを再形成する」

大きな言語モデル（LLMs）は世界中で大流行していますわずか1年足らずでありながら、今や多くのユーザーによって普及し、使用されていますこれらのモデルはしばしば大量のテキストで訓練されます...

「データセンターは冷房を少なくしても同様に機能することができる」

研究者は、データセンターをより高温で運用することで、エネルギー消費を大幅に削減できることがわかった同時に、計算性能を維持することも可能である

このAI論文では、エッジコンピュータ上でも高品質な再構築とリアルタイム性能を実現するためのNeRFベースのマッピング手法が提案されています

この論文では、研究者たちはH2-Mappingと呼ばれるNeRFベースのマッピング手法を紹介しました。この手法は、ロボティクス、AR / VR、デジタルツインなどのリアルタイムアプリケーションでの高品質で密なマップの需要に対応することを目的としています。彼らが取り組んだ主な課題は、リアルタイムで詳細なマップを効率的に生成することであり、特に計算能力に限りがあるエッジコンピュータ上での実現です。彼らは、これまでのマッピング手法がメモリ効率、マッピングの精度、新しい視点合成のバランスを取るのが難しく、一部のアプリケーションには適していないと指摘しています。NeRFベースの手法は、これらの制限を克服するための有望な手法を示していますが、一般的には時間がかかり、強力なエッジコンピュータでも時間がかかります。著者たちは、リアルタイムマッピングの主な要件（適応性、高い詳細度、リアルタイム性、新しい視点合成）を満たすために、新しい階層的なハイブリッド表現を提案しています。提案された手法は、荒いシーンジオメトリのための明示的なオクトリーSDF事前情報と、細部の高解像度のための暗黙的なマルチリゾリューションハッシュ符号化を組み合わせています。この手法により、シーンジオメトリの初期化が高速化され、学習が容易になります。また、マッピング品質を向上させるために、カバレッジを最大化するキーフレーム選択戦略も導入されています。実験の結果は、H2-Mappingが既存のNeRFベースのマッピング手法よりもジオメトリの精度、テクスチャのリアリズム、時間の消費量の面で優れていることを示しています。この論文では、手法のアーキテクチャと性能評価について網羅的な詳細が提示されています。結論として、研究者たちはH2-Mappingを紹介しました。これは、階層的なハイブリッド表現を持つNeRFベースのマッピング手法であり、エッジコンピュータでも高品質なリアルタイムマッピングを実現しています。彼らの手法は既存の手法の制限を解消し、精度と効率の両面で有望な結果を示しています。

Learn more about Search Results デモ