Learn more about Search Results A - Page 837

グラフの復活:グラフの年ニュースレター2023年春

今日のナレッジグラフ、グラフデータベース、グラフアナリティクス、グラフAIの現在地と今後の方向性に関するニュースと分析を見つける

PythonとRにおける機械学習アルゴリズムの比較

PythonとRで最も一般的に使用される機械学習アルゴリズムのリストは、初心者エンジニアや愛好家が最もよく使用されるアルゴリズムに慣れるのを支援することを目的としています

市民データサイエンティストとは誰で、何をするのでしょうか?

イントロダクション 今日のデータ駆動の世界において、データサイエンティストの役割は不可欠となっています。しかし、広大なデータセットに隠された謎を解くためには、データサイエンスのPh.D.を持つ必要はないと言ったらどうでしょうか?自己研鑽によって、正式な訓練を受けていないにもかかわらず、価値ある洞察を見出すスキルとツールを持つ新しいタイプの人材である「市民データサイエンティスト」の時代が到来しました。市民データサイエンティストは、形式的な訓練を受けていない普通の人々でありながら、データを行動可能な知識に変換する非凡な能力を持っており、組織が意思決定を行う方法を革新しています。本記事では、市民データサイエンティストの台頭、ビジネスへの影響、および彼らがもたらすエキサイティングな可能性について探求します。 市民データサイエンティストとは何か? 市民データサイエンティストとは、正式なデータサイエンスの訓練を受けていない個人でありながら、データを分析し洞察を導き出すスキルとツールを持っています。自己サービス型の分析プラットフォームや直感的なツールを活用して、データを探索し、モデルを構築し、データに基づく意思決定を行うことで、組織内でデータの力を民主化しています。 組織が彼らを雇うべき理由 データサイエンスは組織に著しい利益をもたらす広大な分野であり、市民データサイエンティストはデータの力を活用する上で重要な役割を担っています。以下は、企業が彼らを必要とする理由のいくつかです。 データ分析を簡素化する: 市民データサイエンティストは、さまざまな部門やチームに統合されており、特定のビジネスの課題に取り組み、それに関連するデータを探索することができます。これにより、より深い理解とより良い意思決定が可能になります。 ギャップを埋める: 彼らはドメインの専門知識とデータサイエンスの確固たる理解を持っており、技術的なスキルと業界知識をつなぐことができます。これにより、データ分析に文脈と洞察をもたらすことができます。 リアルタイムの洞察: 彼らはドメインの専門知識と自動分析ツールへのアクセス権を持っているため、リアルタイムでデータを分析し、意思決定者に迅速な洞察を提供することができます。これにより、組織は素早く対応し、機会をつかみ、リスクを効果的に軽減することができます。 フォースマルチプライヤー: 彼らはルーティンのデータ分析タスクを担当することで、データサイエンティストがより複雑な課題や戦略的なイニシアチブに注力できるようになります。彼らはフォースマルチプライヤーとして機能し、複数のチームをサポートし、全体的な生産性を向上させます。 ユニークな視点: 彼らは、データ分析に自分たちの多様な経験と専門知識をもたらし、新鮮な視点や革新的な問題解決アプローチを生み出すことができます。彼らのユニークな洞察は、しばしば新しい発見や改善された意思決定につながります。 アジャイルな実験: 市民データサイエンティストは、さまざまな分析手法を試行し、モデルを修正し、仮説をテストする柔軟性を持っています。彼らの適応力は、異なる分析手法を実験することでイノベーションを促進し、各自の分野での進歩を推進します。 必要な主要なスキル 市民データサイエンティストとして成功するために必要なスキルセットには、以下のような分析技術、技術的スキル、および専門的スキルが含まれます。 市民データサイエンティストは、Tableau、Power BI、またはMatplotlibやSeabornなどのPythonライブラリなどのプログラムを使用して、データを視覚的に解釈し、提示することができるようになっている必要があります。 彼らはデータを扱い、統計的手法を適用し、単純な機械学習モデルを開発するための基本的なプログラミングスキルを持っている必要があります。PythonやRなどのプログラミング言語に精通していることが有利です。 彼らはまた、統計学、データモデリング、データ可視化などのいくつかの分野に精通しており、データを評価・解釈し、より有用で効果的な洞察を生み出すことができます。…

CoDiに会おう:任意対任意合成のための新しいクロスモーダル拡散モデル

ここ数年、テキストからテキスト、画像、音声など、別の情報を生成する堅牢なクロスモーダルモデルが注目されています。注目すべき例としては、入力プロンプトによって期待される結果を説明することで、素晴らしい画像を生成できるStable Diffusionがあります。 実際にリアルな結果を出すにもかかわらず、これらのモデルは複数のモダリティが共存し相互作用する場合には実用上の制限があります。たとえば、「かわいい子犬が革製のソファで寝ている」というテキストの説明から画像を生成したいとしましょう。しかしそれだけでは不十分です。テキストから画像へのモデルから出力画像を受け取った後、子犬がソファで鼾をかいているという状況にどのような音がするかも聞きたいと思うでしょう。この場合、テキストまたは出力された画像を音に変換する別のモデルが必要になります。したがって、多数の特定の生成モデルをマルチステップの生成シナリオで接続することは可能ですが、このアプローチは手間がかかり遅くなる可能性があります。また、独立して生成された単一のストリームは、ビデオとオーディオを同期させるように、後処理的な方法で組み合わせた場合に一貫性とアラインメントが欠けることがあります。 包括的かつ多目的なany-to-anyモデルは、一貫したビデオ、オーディオ、およびテキストの説明を同時に生成し、全体的な体験を向上させ、必要な時間を減らすことができます。 この目標を達成するため、Composable Diffusion(CoDi)が開発され、任意のモダリティの組み合わせを同時に処理し生成することができるようになりました。 アーキテクチャの概要は以下に示されています。 https://arxiv.org/abs/2305.11846 任意のモダリティの混合物を処理し、さまざまな出力の組み合わせを柔軟に生成するモデルをトレーニングすることは、大きな計算量とデータ要件を必要とします。 これは、入力と出力のモダリティの可能性の指数関数的な成長に起因します。さらに、多数のモダリティグループの整列されたトレーニングデータを取得することは非常に限られており、存在しないため、すべての可能な入力-出力の組み合わせを使用してモデルをトレーニングすることは不可能です。この課題に対処するために、入力条件付けと生成散布ステップで複数のモダリティを整列させる戦略が提案されています。さらに、対照的な学習のための「ブリッジアライメント」戦略を導入することで、指数関数的な入力-出力の組み合わせを線形数のトレーニング目的で効率的にモデル化できます。 高品質な生成を維持し、任意の組み合わせを生成する能力を持ったモデルを実現するには、多様なデータリソースを活用した包括的なモデル設計とトレーニングアプローチが必要です。研究者たちは、CoDiを構築するために統合的なアプローチを採用しました。まず、テキスト、画像、ビデオ、音声など、各モダリティのために潜在的な散乱モデル(LDM)をトレーニングします。これらのLDMは、利用可能なモダリティ固有のトレーニングデータを使用して、各個別のモダリティの優れた生成品質を保証するために独立して並列にトレーニングできます。このデータには、1つ以上のモダリティを持つ入力と出力モダリティが含まれます。 音声や言語のプロンプトを使用して画像を生成するなど、モダリティの組み合わせが関わる条件付きクロスモダリティ生成の場合、入力モダリティは共有特徴空間に投影されます。このマルチモーダル調整メカニズムにより、特定の設定の直接トレーニングを必要とせずに、CoDiは任意のモダリティまたはモダリティの組み合わせに対して条件を付けることができます。出力LDMは、結合された入力特徴に注意を払い、クロスモダリティ生成を可能にします。このアプローチにより、CoDiはさまざまなモダリティの組み合わせを効果的に処理し、高品質な出力を生成することができます。 CoDiのトレーニングの第2段階は、多数の多対多生成戦略を処理できるモデルの能力を促進し、異なるLDMからの潜在変数を共有潜在空間に投影する環境エンコーダVと、各散布器にクロスアテンションモジュールを導入することで実現されます。現在の知識の範囲では、CoDiはこの能力を持つ最初のAIモデルとして立ち上がっています。 このステージでは、LDMのパラメーターは固定され、クロスアテンションパラメーターとVのみがトレーニングされます。環境エンコーダーが異なるモダリティの表現を整列させるため、LDMはVを使用して出力表現を補間することで、任意の共同生成モダリティのセットとクロスアテンドできます。このシームレスな統合により、CoDiは可能な生成組み合わせすべてでトレーニングする必要がなく、任意のモダリティの任意の組み合わせを生成できます。その結果、トレーニング目的の数は指数関数から線形関数に削減され、トレーニングプロセスの効率が大幅に向上します。 モデルによって生成されたいくつかの出力サンプルは、各生成タスクについて以下に報告されています。 https://arxiv.org/abs/2305.11846 これがCoDiの概要であり、最先端の品質を持つ任意の生成に対する効率的なクロスモーダル生成モデルです。興味がある場合は、以下のリンクでこの技術について詳しく学ぶことができます。

テキストから画像合成を革新する:UCバークレーの研究者たちは、強化された空間的および常識的推論のために、大規模言語モデルを2段階の生成プロセスで利用しています

テキストから画像を生成する最近の進歩により、高度に現実的で多様な画像を合成できる拡散モデルが登場しました。しかし、その印象的な能力にもかかわらず、Stable Diffusionのような拡散モデルは、空間的または常識的推論を必要とするプロンプトに支援が必要であり、生成された画像に不正確さが生じることがあります。 この課題に対処するため、UCバークレーとUCSFの研究チームは、テキストから画像を生成する際のプロンプト理解を向上させる革新的なLMD接地拡散(LMD)手法を提案しました。彼らは、否定、数値、属性割り当て、空間関係を含むシナリオを特定し、Stable Diffusionに比べてLMDの短所を明らかにしました。 研究者たちは、大規模言語モデル(LLM)と拡散モデルのトレーニングにかかるコストと時間を避けるコスト効率の高い解決策を採用しました。彼らは、オフ・ザ・シェルフの凍結LLMを拡散モデルに統合し、拡散モデルにより強化された空間的および常識的推論能力を提供する2段階の生成プロセスを実現しました。 第1段階では、LLMはコンテキスト学習を通じてテキストによるレイアウトジェネレーターとして機能するように適応されます。画像のプロンプトが与えられると、LLMはバウンディングボックスとそれに対応する説明から構成されるシーンレイアウトを生成します。第2段階では、生成されたレイアウトによって拡散モデルが誘導され、画像を生成します。両段階で、LLMまたは拡散モデルのパラメータ最適化なしに凍結された事前トレーニングモデルが使用されます。 LMDには、プロンプト理解を改善する以外にも、いくつかの利点があります。ダイアログベースのマルチラウンドシーン指定を可能にし、ユーザーが各プロンプトに対して追加の説明や修正を提供できるようにします。さらに、LMDは、基礎となる拡散モデルでサポートされていない言語のプロンプトを処理できます。マルチラウンドのダイアログをサポートするLLMを組み込むことで、初期のレイアウト生成後にLLMにクエリを送信し、追加の画像生成のための更新されたレイアウトを受け取ることができます。これにより、オブジェクトの追加や場所や説明の変更などの要求が容易になります。 さらに、LMDは、コンテキスト学習中に英語のレイアウトと背景説明とともに非英語のプロンプトの例を提供することで、非英語のプロンプトを受け入れることができます。これにより、与えられた言語に対応するサポートがない場合でも、LMDは英語の説明を持つレイアウトを生成できます。 研究者たちは、LMDが利用する基本的な拡散モデルであるStable Diffusion 2.1と比較することで、LMDの優越性を検証しました。より包括的な評価とさらなる比較については、彼らの研究を探索するように読者を招待しています。 要約すると、LMDは、空間的または常識的推論を必要とするプロンプトに正確に従うための拡散モデルの制限に対処する革新的なアプローチを提供します。凍結LLMを組み込み、2段階の生成プロセスを採用することで、LMDはテキストから画像を生成するタスクにおけるプロンプト理解を大幅に強化します。また、ダイアログベースのシーン指定やサポートされていない言語のプロンプトの処理など、追加の機能を提供します。研究チームの業績は、オフ・ザ・シェルフの凍結モデルを統合することで、合成された画像の正確性と多様性を向上させるための新しい可能性を開くものです。

データエンジニアが本当にやっていること?

データ主導の世界では、データエンジニアのような裏方のヒーローたちは、スムーズなデータフローを確保するために重要な役割を果たしています。突然不適切なおすすめを受け取ったオンラインショッパーを想像してみてください。データエンジニアは問題を調査し、電子商取引プラットフォームのデータファンネルに欠陥があることを特定し、スムーズなデータパイプラインを迅速に実装します。データサイエンティストやアナリストに注目が集まる一方で、データエンジニアの執念深い努力によって、組織内の情報に基づく意思決定に必要なアクセスしやすく、よく準備されたデータが保証されています。データエンジニアは具体的に何をするのでしょうか?彼らはどのようにビジネスの成功に貢献しているのでしょうか?彼らの世界に飛び込んで、データエンジニアの職務内容、役割、責任、そしてあなたの燃えるような疑問に答えましょう。 データエンジニアの職務内容 データエンジニアは、生データを貴重な洞察に変換し、ビジネスアナリストやデータサイエンティストが活用できるように、データを収集、管理、変換することで重要な役割を果たします。彼らの主な目的は、データのアクセシビリティを確保し、企業がパフォーマンスを最適化し、情報に基づいた意思決定を行うことを可能にすることです。彼らはアルゴリズムを設計し、統計を分析し、ビジネス目標に応じてデータシステムを整合させ、効率を最大化します。データエンジニアには強力な分析スキル、多様なソースからデータを統合する能力、プログラミング言語の熟練度、および機械学習技術の知識が必要です。データエンジニアの職務内容は広範であり、組織のデータ主導の成功に貢献する多くの役割と責任を包括しています。 データエンジニアの役割と責任 データエンジニアの役割と責任は、要件に基づいて会社によって異なる場合があります。ただし、一般的なデータエンジニアの責任には、以下が含まれます: 完璧なデータパイプライン設計の開発および維持。 手動操作の自動化、データ配信の改善、スケーラビリティの向上のためのインフラ再設計など、内部プロセスの改善を特定し、計画し、実行する。 SQLおよびAWSビッグデータ技術を利用して、幅広いデータソースからの効果的なデータ抽出、変換、およびロードに必要なインフラの作成。 機能的および非機能的なビジネス目標を満たす膨大で複雑なデータセットの作成。 データファンネルを利用した分析ソリューションの構築により、新しい顧客獲得、業務効率改善、およびその他の重要な企業パフォーマンス指標に対する具体的な洞察を提供する。 エグゼクティブ、プロダクト、データ、およびデザインチームなどのステークホルダーがデータインフラ関連の課題に直面した場合に、彼らのデータインフラ要件を満たすために支援する。 複数のデータセンターやAWSリージョンを利用することで、国際境界を越えたデータのプライバシーとセキュリティを維持する。 データおよび分析プロフェッショナルと協力して、データシステムの運用を改善する。 さらに読む:ジョブ比較-データサイエンティストvsデータエンジニアvs統計学者 データエンジニアに必要なスキル データエンジニアになりたい場合、ある程度の技術的およびソフトスキルに精通している必要があります。 技術的スキル 自分たちの役割で優れた成果を出すために、データエンジニアは以下の技術的スキルを持っている必要があります。 コーディング Python、Java、SQL、NoSQL、Ruby、Perl、MatLab、R、SAS、C and C++、Scala、Golangなどのプログラミング言語の熟練度は、ほとんどの企業で高く評価されます。コーディングの堅牢な基盤は、データエンジニアのポジションにおいて不可欠です。 オペレーティングシステムの理解 データエンジニアは、Microsoft…

サリー大学の研究者たちは、機械学習における画像認識を革新するスケッチベースの物体検知ツールを開発しました

旧石器時代から、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストロークフィッティングなどのより新しいアプリケーションまで、スケッチの使用方法を理解するために大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその細かいグレインの対応(FGSBIR)だけが、スケッチの表現力の潜在能力を調査しています。最近のシステムは、すでに商業的に適応するために十分に成熟しており、スケッチの表現力を開発することがどれだけ重要かを示す素晴らしい証拠です。 スケッチは非常に示唆的であり、自動的に微妙で個人的な視覚的手がかりをキャプチャするためです。しかし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの示唆的な力を使用して、ビジョンの最も基本的なタスクであるシーン内のオブジェクトの検出にシステムをトレーニングするようになっています。最終的な製品は、スケッチに基づくオブジェクトの検出フレームワークであり、つまり、群れの中の特定の「シマウマ」(たとえば、草を食べているシマウマ)にピンポイントでアプローチできるようになります。さらに、研究者たちは、モデルが次のようなことなしに成功することを課しています。 (ゼロショット)テストに何らかの結果を期待せずに進むこと。 (完全に教師付きのように)追加の境界ボックスやクラスラベルを必要としないこと。 研究者たちは、スケッチに基づく検出器も、ゼロショットの方法で動作することを要求しており、システムの新規性を高めています。以下のセクションで、彼らはオブジェクト検出を閉じたセットからオープンボキャブ構成に切り替える方法を詳述しています。たとえば、オブジェクトディテクターは、分類ヘッドの代わりにプロトタイプ学習を使用し、エンコードされたクエリスケッチ機能をサポートセットとして使用します。モデルは、ウィークリー教師ありオブジェクト検出(WSOD)環境で、すべての考えられるカテゴリまたはインスタンスのプロトタイプに対する多カテゴリ交差エントロピー損失を使用してトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。これにより、SBIRオブジェクト検出器のトレーニングでは、オブジェクトレベルと画像レベルの特性の間に橋渡しが必要です。 研究者たちの貢献は次のとおりです。 人間のスケッチの表現力を養うことによるオブジェクト検出の改善。 スケッチに基づいたオブジェクト識別フレームワークの構築。スケッチを理解しているものであり、カテゴリレベル、インスタンスレベル、パーツレベルの検出が可能です。 クリップとSBIRを組み合わせた新しいプロンプト学習構成によるスケッチに注意を払った検出器の作成。バウンディングボックスの注釈やクラスラベルなしでゼロショットファッションで機能します。 結果は、ゼロショット設定でSODおよびWSODよりも優れています。 研究者たちは、基礎となるモデル(CLIPなど)と、既にスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルとの直感的なシナジーを実証しました。特に、SBIRモデルのスケッチと写真のブランチで別々のプロンプトを行った後、CLIPの汎化能力を使用して高度に一般化されたスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真の埋め込みと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計します。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、教師あり(SOD)およびウィークリー教師あり(WSOD)オブジェクト検出器をゼロショット設定で上回ります。 まとめ オブジェクト検出を改善するために、研究者たちは、スケッチで人間の表現力を積極的に促進しています。提案されたスケッチに対応したオブジェクト識別フレームワークは、スケッチで何を伝えようとしているかを理解できるインスタンスレベルとパーツレベルのオブジェクト検出器です。そのため、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチに注意を払った検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案します。また、ゼロショットファッションで動作するように指定されています。一方、SBIRは、単一のもののスケッチと写真のペアを使用して教育されます。オブジェクトとイメージのレベルの間のギャップを埋めるために、耐破壊性を高め、語彙外への一般化を増加させるデータ拡張アプローチを使用します。結果として得られるフレームワークは、ゼロショット設定で教師ありおよびウィークリー教師ありオブジェクト検出器を上回ります。

がん検出の革命:サリー大学が機械学習における画像ベースのオブジェクト検出ツールを発表し、ゲームチェンジとなる

先史時代以来、人々はコミュニケーションや文書化のためにスケッチを使用してきました。過去10年間、研究者たちは、分類や合成から視覚的抽象モデリング、スタイル転送、連続ストローク適合などのより新しいアプリケーションに至るまで、スケッチの使用方法について大きな進歩を遂げてきました。しかし、スケッチベースの画像検索(SBIR)とその微細な対応(FGSBIR)のみが、スケッチの表現力の可能性を調査しています。最近のシステムは、すでに商業展開に向けて十分に成熟しており、スケッチ表現力の開発がどのように重要な影響を与えるかについて素晴らしい証拠です。 スケッチは、微妙で個人的な視覚的な手がかりを自動的にキャプチャするため、非常に示唆的です。ただし、人間のスケッチのこれらの固有の特性の研究は、画像検索の分野に限定されてきました。科学者たちは、スケッチの表現力を最も基本的なビジョンのタスクであるシーン内のオブジェクトの検出に使用するようシステムをトレーニングするのに初めて取り組んでいます。最終的な製品は、スケッチに基づいてオブジェクトを検出するためのフレームワークであり、これにより、群れの中の特定の「シマウマ」(たとえば草を食べているもの)に絞り込むことができます。さらに、研究者たちは、モデルが以下のようなものであっても成功するように規定しています。 テストに入る前にどのような結果を期待するかについてのアイデアがない(ゼロショット)。 余分な境界ボックスやクラスラベルが必要ない(完全に監視されたものと同じように)。 研究者たちは、スケッチベースの検出器もまた、ゼロショットで動作するようにして、システムの新規性を高めています。続くセクションでは、彼らはオブジェクト検出をクローズドセットからオープンボキャブ構成に切り替える方法について詳しく説明し、たとえば、分類ヘッドの代わりにプロトタイプ学習を使用することにより、エンコードされたクエリスケッチ機能がサポートセットとして使用されます。モデルは、弱く監視されたオブジェクト検出(WSOD)環境のあらゆる考えられるカテゴリまたはインスタンスのプロトタイプ全体にわたるマルチカテゴリクロスエントロピー損失でトレーニングされます。オブジェクト検出は画像レベルで動作し、一方、SBIRは個々のオブジェクトのスケッチと写真のペアでトレーニングされます。このため、SBIRオブジェクト検出トレーニングには、オブジェクトレベルと画像レベルの特性の橋渡しを必要とします。 研究者たちの貢献は次の通りです。 スケッチングの表現力を育成して、オブジェクト検出に人間の表現力を積極的に促進する。 スケッチをベースにしたオブジェクト識別フレームワークで、何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器。 従来のカテゴリレベルおよびインスタンスおよびパートレベルの検出が可能なオブジェクト検出器。 CLIPとSBIRを組み合わせた新しいプロンプト学習構成により、バウンディングボックス注釈やクラスラベルなしで機能するスケッチ感知検出器を生成する。 その結果は、ゼロショット設定でSODおよびWSODを上回る。 研究者たちは、既に優雅に解決できるスケッチベースの画像検索(SBIR)のために構築された既存のスケッチモデルと基礎モデル(CLIPなど)の直感的なシナジーを示しました。特に、彼らはまず、SBIRモデルのスケッチと写真の枝にそれぞれ別個のプロンプトを実行し、次にCLIPの一般化能力を使用して高度に汎化可能なスケッチと写真のエンコーダーを構築します。検出されたボックスの領域埋め込みがSBIRスケッチと写真のものと一致するようにするために、アイテム検出のために学習されたエンコーダーを調整するためのトレーニングパラダイムを設計しています。このフレームワークは、PASCAL-VOCやMS-COCOなどの業界標準のオブジェクト検出データセットでテストされたとき、監視された(SOD)および弱く監視された(WSOD)オブジェクト検出器をゼロショット設定で上回ります。 まとめ 研究者たちは、オブジェクト検出を改善するために、スケッチングにおける人間の表現力を積極的に促進しています。提案されたスケッチを有効にしたオブジェクト識別フレームワークは、スケッチで何を伝えようとしているのかを理解できるインスタンス感知およびパート感知のオブジェクト検出器です。したがって、バウンディングボックスの注釈やクラスラベルなしで機能するスケッチ感知検出器を教育するために、CLIPとSBIRを組み合わせた革新的なプロンプト学習セットアップを考案しました。検出器は、ゼロショット設定でも動作するように指定されています。一方、SBIRは、個々のオブジェクトのスケッチと写真のペアで教えられます。彼らは、オブジェクトと画像のレベルのギャップを埋めるために、汚染に対する抵抗力を高め、語彙外への一般化を高めるデータ拡張手法を使用します。その結果得られるフレームワークは、ゼロショット設定で監視されたおよび弱く監視されたオブジェクト検出器を上回ります。

MeLoDyとは:音楽合成のための効率的なテキストからオーディオへの拡散モデル

音楽は、調和、メロディ、リズムから成る芸術であり、人生のあらゆる面に浸透しています。深層生成モデルの発展に伴い、音楽生成は近年注目を集めています。言語モデル(LM)は、長期的な文脈にわたる複雑な関係をモデリングする能力において、顕著なクラスの生成モデルとして、音声合成にLMを成功裏に応用することができるAudioLMやその後の作品が登場しています。DPM(拡散確率モデル)は、生成モデルのもう1つの競争力のあるクラスとして、音声、音楽の合成に優れた能力を発揮しています。 しかし、自由形式のテキストから音楽を生成することは依然として課題であり、許容される音楽の記述が多様で、ジャンル、楽器、テンポ、シナリオ、あるいは主観的な感情に関連していることがあります。 従来のテキストから音楽を生成するモデルは、しばしば音声の継続や高速サンプリングなど特定の特性に焦点を当て、一部のモデルは音楽プロデューサーなどの専門家によって実施される堅牢なテストを優先しています。さらに、ほとんどのモデルは大規模な音楽データセットでトレーニングされ、高い忠実度とテキストプロンプトのさまざまな側面への遵守とともに、最先端の生成性能を示しています。 しかし、MusicLMやNoise2Musicなどのこれらの手法の成功は、実用性に重大な影響を与える高い計算コストと引き換えに得られています。比較的、DPMに基づく他の手法は、高品質な音楽の効率的なサンプリングを実現しました。しかしながら、彼らが示したケースは比較的小さく、サンプリング効果が制限されていました。実現可能な音楽作成ツールを目指すにあたり、生成モデルの高い効率性は、人間のフィードバックを考慮に入れたインタラクティブな作成を促進するために不可欠です。 LMとDPMの両方が有望な結果を示しているにもかかわらず、関連する問題は、どちらを好むかではなく、両方の方法の利点を同時に活用できるかどうかです。 上記の動機に基づき、MeLoDyと呼ばれるアプローチが開発されました。戦略の概要は、以下の図に示されています。 MusicLMの成功を分析した後、著者たちは、MusicLMの最高レベルのLMである「意味LM」を活用して、メロディ、リズム、ダイナミクス、音色、テンポの全体的なアレンジメントを決定する音楽の意味構造をモデリングします。この意味LMに条件付けられた上で、非自己回帰性のDPMを活用して、成功したサンプリングの加速技術を用いて、音響を効率的かつ効果的にモデリングします。 さらに、著者たちは、古典的な拡散プロセスを採用する代わりに、デュアルパス拡散(DPD)モデルを提案しています。実際、生データで作業することは、計算費用を指数関数的に増加させることになります。提案された解決策は、生データを低次元の潜在表現に縮小することです。データの次元を減らすことで、操作に対するその影響を阻害し、したがって、モデルの実行時間を短縮することができます。その後、生データは、事前にトレーニングされたオートエンコーダを介して、潜在表現から再構築されることができます。 モデルによって生成されたいくつかの出力サンプルは、以下のリンクから入手できます:https://efficient-melody.github.io/。コードはまだ利用可能ではないため、現時点ではオンラインまたはローカルで試すことはできません。 これは、最先端の品質の音楽オーディオを生成する効率的なLMガイド拡散モデルであるMeLoDyの概要でした。興味がある場合は、以下のリンクでこの技術について詳しく学ぶことができます。

ベイジアンマーケティングミックスモデルの理解:事前仕様に深く入り込む

ベイジアン・マーケティング・ミックス・モデリングは、特にLightweightMMM(Google)やPyMC Marketing(PyMC Labs)などのオープンソースツールの最近のリリースにより、ますます注目を集めています...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us