Learn more about Search Results A - Page 203

VoAGIニュース、9月20日:ExcelでのPython:これがデータサイエンスを永遠に変えるでしょう•新しいVoAGI調査!

Python in Excel これがデータサイエンスを永遠に変えるでしょう • VoAGI調査 データサイエンスの支出とトレンドに関して同僚とベンチマークを行う • 最大限の生産性を実現するための5つの最高のAIツール • さらにたくさんの情報があります!

『AIが世界中のニュースルームで変化を生み出している』

「私たちの最新の研究レポート『変化を生み出す』は、ニュースルームが現在AIを活用していることを共有しています」

「ビデオセグメンテーションはよりコスト効果的になることができるのか?アノテーションを節約し、タスク間で一般化するための分離型ビデオセグメンテーションアプローチDEVAに会いましょう」

監視システムがどのように動作し、ビデオのみを使用して個人や車両を識別する方法について考えたことはありますか?また、水中ドキュメンタリーを使用してオルカを識別する方法や、ライブスポーツ分析の方法についても知りたいですか?これらのすべては、ビデオセグメンテーションによって行われます。ビデオセグメンテーションは、オブジェクトの境界、動き、色、テクスチャなど、特定の特徴に基づいてビデオを複数の領域に分割するプロセスです。基本的なアイデアは、ビデオ内の異なるオブジェクトと背景および時間的なイベントを識別し分離し、視覚的なコンテンツのより詳細で構造化された表現を提供することです。 ビデオセグメンテーションのアルゴリズムの利用を拡大することは、多くのデータにラベルを付ける必要があるため、コストがかかる場合があります。特定のタスクごとにアルゴリズムをトレーニングする必要がないように、研究者たちはデカップルドビデオセグメンテーションDEVAを考案しました。DEVAには、個々のフレーム内のオブジェクトを見つけるための専用のパートと、オブジェクトが何であるかに関係なく、時間的なつながりを支援するもう1つのパートがあります。このようにして、DEVAはより柔軟かつ適応性のあるさまざまなビデオセグメンテーションタスクに対応できるようになり、広範なトレーニングデータが必要ありません。 この設計では、興味のある特定のタスクのためのより単純なイメージレベルモデル(トレーニングがより安価)と、一度だけトレーニングする必要がある汎用的な時間伝播モデルを使用します。これら2つのモジュールを効果的に連携させるために、研究者は双方向伝播アプローチを使用します。これにより、異なるフレームからのセグメンテーションの推測をマージし、最終的なセグメンテーションが一貫して見えるようにします。オンラインまたはリアルタイムで行われる場合でも同様です。 上記の画像は、フレームワークの概要を提供しています。研究チームは、まず画像レベルのセグメンテーションをクリップ内の合意に基づいてフィルタリングし、結果を時間的に伝播させます。後の時間ステップで新しい画像セグメンテーションを組み込むために(以前に見たことのないオブジェクト、例えば赤いボックスなど)、伝播された結果をクリップ内の合意と統合します。 この研究で採用されたアプローチは、特定のターゲットタスクへの依存度を減らすために、外部のタスクに関係のないデータを大いに活用しています。これにより、利用可能なデータが限られているタスクに対して、エンドツーエンドの方法と比較してより優れた一般化能力が得られます。さらに、微調整も必要ありません。汎用的な画像セグメンテーションモデルと組み合わせると、このデカップルドパラダイムは最先端のパフォーマンスを示します。それは間違いなく、オープンワールドのコンテキストで最先端の大語彙ビデオセグメンテーションを達成するための初歩的な進歩を表しています!

「セキュアな会話:ChatGPTの使用時にプライバシーとデータを保護する 🛡️」

「情報を探すこと、助けを得ること、またはただおしゃべりすることであっても、ChatGPTのようなAIモデルは私たちの仮想の仲間となりましたこの記事では、安全な世界を見ていきます...」

「教科書で学ぶ教師なし学習:K-Meansクラスタリングの実践」

このチュートリアルでは、K-Meansクラスタリングの主要な概念と実装についての実践的な経験を提供しますK-Meansは人気のある教師なし学習アルゴリズムであり、顧客セグメンテーションやターゲテッド広告のアプリケーションに使用されます

「GANやVAEを超えたNLPにおける拡散モデルの探求」

はじめに 拡散モデルは、特に自然言語処理(NLP)の分野で最近注目されています。データを通じてノイズを拡散させるという概念に基づいて、これらのモデルはさまざまなNLPタスクで優れた能力を示しています。この記事では、拡散モデルについて詳しく掘り下げ、その基本原理を理解し、実際の応用、利点、計算上の考慮事項、多モーダルデータ処理における拡散モデルの関連性、事前学習済み拡散モデルの利用可能性と課題について調べます。また、実世界のシナリオでの効果を示すコードの例も紹介します。 学習目標 確率過程の拡散モデルの理論的基礎とノイズのデータの精緻化における役割を理解する。 拡散モデルのアーキテクチャ、拡散と生成のプロセス、およびそれらがデータの品質を反復的に改善する方法を把握する。 PyTorchなどのディープラーニングフレームワークを使用して拡散モデルを実装する実践的な知識を得る。 この記事は、データサイエンスブログマラソンの一環として公開されました。 拡散モデルの理解 研究者は、拡散モデルを確率過程の理論に根ざし、ノイズのあるデータを反復的に精緻化することで、基礎となるデータ分布を捉えるように設計しています。キーポイントは、入力データのノイズのあるバージョンから始めて、数段階にわたり徐々に改善することです。まるで拡散のように情報が徐々にデータを通じて広がる過程と考えることができます。 このモデルは、データを反復的に変換し、真の基礎となるデータ分布に近づくようにノイズを導入および除去するプロセスと捉えることができます。情報がデータを通じて徐々に広がる拡散のようなプロセスと考えることができます。 拡散モデルでは、通常2つの主要なプロセスがあります: 拡散プロセス:このプロセスでは、ノイズを追加することによる反復的なデータの精緻化が行われます。各ステップで、データにノイズが導入され、ノイズが増えます。その後、モデルはこのノイズを徐々に減少させ、真のデータ分布に近づけることを目指します。 生成プロセス:データが拡散プロセスを経た後に適用される生成プロセスです。このプロセスは、改善された分布に基づいて新たなデータサンプルを生成し、高品質のサンプルを効果的に生成します。 以下の画像は、異なる生成モデルの動作の違いを示しています。 異なる生成モデルの動作:https://lilianweng.github.io/posts/2021-07-11-diffusion-models/ 理論的基礎 1. 確率過程 拡散モデルは、確率過程の基礎に構築されています。確率過程は、時間や空間の中でランダムな変数の進化を記述する数学的な概念です。それは、システムが確率的な方法で時間とともにどのように変化するかをモデル化します。拡散モデルの場合、このプロセスはデータを反復的に精緻化することに関係しています。 2. ノイズ 拡散モデルの核心にあるのは、ノイズの概念です。ノイズは、データのランダムな変動や不確実性を指します。拡散モデルの文脈では、入力データにノイズを導入して、データのノイズのあるバージョンを作成します。 この文脈でのノイズは、粒子の位置のランダムな変動を意味します。それは、測定の不確実性や拡散プロセス自体の固有のランダム性を表します。ノイズは、分布からサンプリングされるランダム変数としてモデル化することができます。単純な拡散プロセスの場合、それはしばしばガウスノイズとしてモデル化されます。 3.…

オーディオSRにお会いください:信じられないほどの48kHzの音質にオーディオをアップサンプリングするためのプラグ&プレイであり、ワンフォーオールのAIソリューション

デジタルオーディオ処理の分野における重要な課題の一つは、オーディオの超解像度です。これは、低解像度のオーディオデータに欠けている高周波成分を予測し取り込むことで、オーディオ信号の品質を向上させることを目指しています。主な目標は、より没入感のある優れた聴覚体験、つまり高い忠実度を提供することです。オーディオの超解像度は、古い録音の復元など、さまざまな用途で重要な技術です。しかし、この分野の従来のアプローチには、4 kHzから8 kHzに制限されることが多い帯域設定の制約や、音楽や音声など特定のオーディオジャンルに狭く集中しているといういくつかの欠点があります。 これらの課題に対処するために、研究チームは最近、拡散ベースの生成モデルに基づく革新的な手法であるAudioSR(オーディオ超解像度)を提案しました。AudioSRは、音声、音楽、効果音など、さまざまな音の範囲に強力なオーディオの超解像度機能を提供します。AudioSRの優れた特徴の一つは、さまざまなオーディオ形式を扱う柔軟性です。2 kHzから16 kHzの帯域を持つオーディオ信号を入力として、AudioSRは一貫した24 kHzの帯域幅と48 kHzのサンプリングレートで高品質のオーディオ出力を生成することができます。 AudioSRは、さまざまなオーディオ形式や帯域設定に効率的にアップスケールすることができるため、さまざまな実世界のシナリオやアプリケーションに非常に適応性があります。 AudioSRは、ニューラルボコーダーがオーディオSRタスクで高周波数成分を再構築するための有用な先行知識を持っていることを示す以前の研究に基づいています。 AudioSRはメルスペクトログラムにオーディオSRを適用し、ニューラルボコーダーを使用してオーディオ信号を生成します。潜在的な拡散モデルは、低解像度のメルスペクトログラムから高解像度のメルスペクトログラムを条件付きで生成するためにトレーニングされます。 実験の結果、AudioSRはさまざまな音声形式(音声、音楽、効果音など)に対して有望な超解像度の結果を提供しました。主観的な分析では、AudioLDMのようなテキストからオーディオへのモデル、MusicGenのようなテキストから音楽へのモデル、Fastspeech2のようなテキストから音声へのモデルの出力が、AudioSRの使用によって大幅に改善されたことが示されています。これは、AudioSRがほとんどのオーディオ生成モデルにプラグアンドプレイモジュールとして簡単に組み込まれ、さまざまなアプリケーションにおける聴取品質を向上させることを意味します。 研究チームは、以下のように貢献をまとめています。 一般的な聴覚可能なオーディオの超解像度:チームは、オーディオSRを導入し、すべての聴覚可能な音の領域でオーディオの超解像度を実現しました。以前のアプローチとは異なり、特定のオーディオカテゴリに特化することが多かったものとは異なり、AudioSRはオーディオ品質を向上させるための柔軟で包括的な解決策を提供します。 柔軟なオーディオ帯域幅の処理:AudioSRは、2 kHzから16 kHzまでの帯域スペクトルを持つオーディオ信号を効率的に処理できるため、非常に柔軟性があります。さらに、信頼性のある24 kHzにこの帯域を拡張すると同時に、高品質な48 kHzのサンプリングレートを維持することもできます。 オーディオ生成モデルとのプラグアンドプレイ統合:AudioSRは、複数のオーディオ生成モデルのオーディオ品質を向上させるためのプラグアンドプレイモジュールとしての価値を示し、オーディオの超解像度の才能を発揮しています。AudioLDM、MusicGen、FastSpeech2などのモデルにAudioSRを追加することで、オーディオの出力品質が向上します。

オラクルクラウドインフラストラクチャは、新たなNVIDIA GPUアクセラレートされたコンピュートインスタンスを提供しています

生成的AIと大規模な言語モデル(LLM)による画期的なイノベーションを実現するために、トレーニングと推論の計算上の要求が急速に増加しています。 これらの現代の生成的AIアプリケーションには、スピードと正確性を持つ大規模なワークロードを処理できる最新のインフラストラクチャが必要です。このニーズに応えるため、Oracle Cloud Infrastructureは、NVIDIA H100 Tensor Core GPUをOCI Computeで一般提供することを発表しました。また、NVIDIA L40S GPUも近日中に一般提供される予定です。 OCIでのNVIDIA H100 Tensor Core GPUインスタンス NVIDIA H100 GPUを搭載したOCI Computeベアメタルインスタンスは、NVIDIA Hopperアーキテクチャを搭載しており、大規模なAIとハイパフォーマンスコンピューティングにおいて大きな飛躍を実現し、あらゆるワークロードに対して前例のないパフォーマンス、拡張性、柔軟性を提供します。 NVIDIA H100 GPUを使用する組織は、NVIDIA…

LLMs(Language Model)と知識グラフ

LLMとは何ですか? Large Language Models (LLMs)は、人間の言語を理解し生成できるAIツールです。これらは、膨大な量のテキストデータでトレーニングされた数十億のパラメータを持つ強力なニューラルネットワークです。これらのモデルの広範なトレーニングにより、人間の言語の構造と意味について深い理解を持っています。 LLMsは、翻訳、感情分析、チャットボットの会話など、さまざまな言語タスクを実行することができます。LLMsは、複雑なテキスト情報を理解し、エンティティとその関係を認識し、繋がりを保ち、文法的に正しいテキストを生成することができます。 ナレッジグラフとは何ですか? ナレッジグラフは、異なるエンティティに関するデータと情報を表し結びつけるデータベースです。これには、オブジェクト、人物、場所を表すノードと、ノード間の関係を定義するエッジが含まれます。これにより、機械はエンティティがどのように関連し、属性を共有し、私たちの周りの世界の異なるものとの関係を把握することができます。 ナレッジグラフは、YouTubeの推奨ビデオ、保険詐欺の検出、小売業での製品推奨、予測モデリングなど、さまざまなアプリケーションで使用することができます。 出典:https://arxiv.org/pdf/2306.08302.pdf | ナレッジグラフの例 LLMsとナレッジグラフ LLMsの主な制限の1つは、「ブラックボックス」であること、つまり、彼らが結論にどのようにたどり着いているかを理解するのが難しいということです。さらに、彼らはしばしば事実情報を把握し取得するのが難しく、幻覚として知られる誤りや不正確さが生じることがあります。 ここで、ナレッジグラフがLLMsを推論するための外部知識を提供することができます。ただし、ナレッジグラフは構築が困難であり、進化している性質を持っています。そのため、LLMsとナレッジグラフを一緒に使用して、それぞれの強みを最大限に活かすことは良いアイデアです。 LLMsは、次の3つのアプローチを使用してナレッジグラフ(KGs)と組み合わせることができます: KGを活用したLLMs:これらは、トレーニング中にKGをLLMsに統合し、より理解力を高めるために使用します。 LLMを拡張したKGs:LLMsは、埋め込み、完了、質問応答など、さまざまなKGタスクを改善することができます。 シナジー効果のあるLLMs + KGs:LLMsとKGsは互いに補完し合い、データと知識に基づいた双方向の推論を促進します。 KGを活用したLLMs LLMsは、広範なテキストデータから学習することによって、さまざまな言語タスクで優れた能力を持つことで知られています。ただし、誤った情報(幻覚)を生成したり、解釈可能性に欠けたりするという批判も受けています。研究者は、これらの問題に対処するために、LLMsをナレッジグラフ(KGs)で拡張することを提案しています。 KGsは構造化された知識を保存しており、それを使用してLLMsの理解を向上させることができます。一部の手法では、LLMの事前トレーニング中にKGsを統合して知識の獲得を支援し、他の手法では推論中にKGsを使用してドメイン固有の知識アクセスを向上させます。KGsは、LLMsの推論と事実の解釈に使用され、透明性を改善します。…

「Reactを使用して、エキサイティングなデータセットに対してインタラクティブなインターフェースを構築する」

私の本業は小さな機械学習会社のCEOですが、趣味は美しいデータの可視化を作ることですウェブ開発とデザインが好きなので、…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us