Learn more about Search Results A - Page 253

「AIの利点:NVIDIA Canvas、Blender、TikTok、およびCapCutにおける高度なクリエイティブワークフロー」

編集者の注:この投稿は、NVIDIA Studioシリーズの一部であり、注目されるアーティストを称え、クリエイティブなヒントやトリックを提供し、NVIDIA Studioテクノロジーがクリエイティブなワークフローを改善する方法を示しています。さらに、新しいGeForce RTX 40シリーズGPUの機能、技術、リソースについて詳しく説明し、コンテンツ作成を劇的に高速化する方法について詳しく説明しています。 アートの形態は美しく非凡であるだけでなく、創作の分野においてアーティストにとって提供されるシンプルな喜びと安らぎを忘れることは容易です。 今週のIn the NVIDIA StudioシリーズのテーマであるJanice K. Lee、通称Janice.Journalは、AIを使用して創作プロセスを加速し、インスピレーションを見つけ、繰り返しの作業を自動化するTikTokのセンセーションです。 https://blogs.nvidia.com/wp-content/uploads/2023/08/week72-nvidia-bts-video-1280w-2.mp4   今週も、NVIDIA Studioテクノロジーは最も人気のあるモバイルアプリやデスクトップアプリをパワーアップしており、アスピリングアーティストやクリエイティブプロフェッショナルの創作ワークフローを推進しています。 TikTokとCapCut、NVIDIAとクラウドのパワー 週ごとに、AIはコンテンツ作成においてますます普及しています。 人気のあるソーシャルメディアアプリTikTokを例にとってみましょう。AI Green Screenを含むすべてのモバイルアプリの機能は、クラウド上のGeForce RTX GPUによって高速化されています。TikTokのクリエイターワークフローの他の部分も高速化されており、人気のある生成型AIパワードのビデオ編集アプリであるDescript AIは、最新のNVIDIA…

「Code Llama内部:Meta AIがCode LLMスペースへの参入」

コーディングは、大規模言語モデル(LLM)の最も活発な活動の1つに急速になっていますOpenAIが昨年Codex(現在はGPT-4の一部)を発表して以来、コーディングの革新レベルは...

「最も強力な機械学習モデルの解説(トランスフォーマー、CNN、RNN、GANなど)」

「2023年には、Transformers、CNN、RNN、GANなどの機械学習モデルがAIのイノベーションをリードしていますこのVoAGIの記事でこれらの強力なアルゴリズムを探索してください」

C++ feat. Python 簡単に接続、埋め込み、インストール

WindowsでのC++エンタープライズアプリケーションが、Pythonモジュールを実行します以下は、コードの最初の行からアプリケーションの提供まで、このテックフュージョンのプロセスをたどる私の旅の一部ですPythonのシンプリシティ...

「3つの医療機関が生成型AIを使用している方法」

「Med-PaLM 2および他の生成型AIソリューションを使用するGoogle Cloudのヘルスケア顧客を紹介します」

ChatGPTを始めるための初心者向け7つのプロジェクト

そして、現代の世界においてAIの力を解き放つために

「SynthIDを使ったAI生成画像の識別」

今日は、Google Cloudとの提携により、SynthIDという新しいツールのベータ版をリリースしますSynthIDは、AIによって生成された画像にウォーターマークを付けたり、識別するためのツールですこの技術は、最新のテキストから画像を生成するモデルであるImagenを使用するVertex AIの一部の顧客向けに限定公開されますこの技術は、画像のピクセルにデジタルウォーターマークを埋め込むことで、人間の目には見えないが、識別可能なものです生成型AIは大きな創造力を引き出す一方で、作者が意図的または無意識に誤った情報を広めるという新たなリスクもありますAI生成コンテンツを識別できる能力は、人々に生成メディアとの対話中に自覚を持たせ、誤情報の拡散を防ぐために重要です

推論:可観測性のAI主導の未来?

この記事では、オペラビリティの後続としての推論、AIOpsからの教訓、その成功の不足、および推論ソリューションの新興原則について探求します

UCLとGoogleの研究者が提案する「AudioSlots:オーディオドメインの盲目的なソース分離のためのスロット中心の生成モデル」

最近、集合構造化データ上で動作するアーキテクチャにおけるニューラルネットワークの使用と、非構造化入力から集合構造化出力空間へのマッピングを学習することが注目されています。特に、ビジョン領域でのオブジェクトの識別と非教示的なオブジェクトの発見において、スロット中心型またはオブジェクト中心型のシステムがサポートされています。これらのオブジェクト中心型のアーキテクチャは、順列同変性の内在的な帰納バイアスを持つため、音声の分離に適しています。本論文では、これらのアーキテクチャからのキーコンセプトの応用を通じて、音声ソースを内部情報や混合プロセスに関する情報を持たずに混合音声信号から区別することを目的としています。 図1:アーキテクチャの概要:入力波形を切り取った後、スペクトログラムが作成されます。その後、ニューラルネットワークはスペクトログラムを順列不変なソース埋め込み(s1…n)のセットにエンコードし、それらをデコードして異なるソーススペクトログラムのコレクションを生成します。マッチングベースの順列不変損失関数は、グラウンドトゥルースのソーススペクトログラムを使用してパイプライン全体を監視します。 音の分離は、ソースの順序がランダムであるため、集合ベースの問題です。混合音声スペクトログラムから順序のない一連の別々のソーススペクトログラムへのマッピングが学習され、音の分離の課題は順列不変条件付き生成モデリング問題としてフレーム化されます。彼らの技術であるAudioSlotsを使用することで、音声は各ソースごとに異なる潜在変数に分割され、それらはソース固有のスペクトログラムを提供するためにデコードされます。これはTransformerアーキテクチャに基づくエンコーダーとデコーダー関数を使用して作成されます。これは順列同変性を持ち、ソースの潜在変数の順序に依存しない(「スロット」とも呼ばれる)ため、その独立性を保ちます。彼らは、このようなアーキテクチャの可能性を評価するために、マッチングベースの損失を使用してAudioSlotsをトレーニングし、混合音声入力から独立したソースを生成します。 ロンドン大学とGoogle Researchの研究者は、AudioSlotsというスロット中心の音声スペクトログラムの生成アーキテクチャを提案しています。彼らは、AudioSlotsが音声ソースの分離の問題に構造化生成モデルを利用する可能性を示しています。ただし、高周波特徴の再構築品質が低いなど、AudioSlotsの現在の実装にはいくつかの欠点があります。また、独立した音声ソースを監視する必要があります。これらの問題は解決できる可能性があると自信を持っており、さまざまな研究の可能性のいくつかを示唆しています。 彼らは、Libri2Mixからの簡単な2つのスピーカーボイス分離課題で彼らの手法を実演しています。スロット中心の生成モデルによる音の分離は有望ですが、いくつかの困難も伴います:提示されたモデルのバージョンでは、高周波詳細を生成することが難しく、独立して予測された音声チャンクを縫い合わせるためにヒューリスティックを使用し、トレーニングには依然としてグラウンドトゥルースの参照音声ソースが必要です。彼らの将来の研究では、研究で提供される潜在的なルートについて、これらの困難が克服される可能性があると楽観的です。ただし、彼らの結果は主にこのアイデアの概念実証として役立ちます。 この論文をチェックしてください。最新のAI研究ニュースやクールなAIプロジェクトなどを共有している22k+ ML SubReddit、Discordチャンネル、Emailニュースレターに参加するのを忘れないでください。上記の記事に関する質問や見落としがあれば、お気軽に[email protected]までメールでお問い合わせください。 AI Tools Clubの100以上のAIツールをチェックアウト この記事は、MarkTechPostで最初に表示されました。

「VoAGI 30 for 30 Giveaway with O’Reilly」という文を日本語に訳すと、「VoAGI 30周年記念キャンペーン、O’Reillyとの共同企画」となります

「オライリーの30周年を一緒に祝いましょう!エピックな30 for 30 Back to Study ギブアウェイでデータの輝きを称えましょう」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us