Learn more about Search Results the Hub - Page 154
- You may be interested
- Pythonを使用してTenacityを使用してリト...
- MeLoDyとは:音楽合成のための効率的なテ...
- 「データサイエンスのスキルを磨くための1...
- 『ODSCのAIウィークリーレビュー:12月15...
- このAI論文では、革新的なAIフレームワー...
- 「エンジニアリングは永遠に変わりました」
- 「Matplotlib チュートリアル:あなたの国...
- 大規模言語モデル:新たなモーアの法則?
- 「AI駆動の洞察:LangChainとPineconeを活...
- In Japanese ゼファー7Bベータ:必要な...
- プレフィックス条件付きの画像キャプショ...
- Hugging Face Hubへ、fastText をようこそ...
- 人間のフィードバックからの強化学習(RLHF)
- 「Jupyter APIを使用してノートブックをス...
- 「クロード2 AIチャットボットの使い方 ...
近接度とコミュニティ:PythonとNetworkXによるソーシャルネットワークの分析—Part 3
PythonとNetworkXを使用して近接中心性を計算し、ネットワークグラフを可視化する方法を学び、社会ネットワーク分析を実施する方法を学びます
ビジュアライゼーションのためにデータを準備する方法
次のデータ可視化プロジェクトを始めたいですか? まずはデータクリーニングに親しんで始めましょうデータクリーニングは、どんなデータパイプラインにおいても重要なステップであり、生の「汚れた」データを変換します...
メタAIのもう一つの革命的な大規模モデル — 画像特徴抽出のためのDINOv2
Mete AIは、画像から自動的に視覚的な特徴を抽出する新しい画像特徴抽出モデルDINOv2の新バージョンを紹介しましたこれはAIの分野でのもう一つの革命的な進歩です...
AIが開発者の生活を簡単にする10の方法
AIは、テストやバグ修正などの繰り返しのタスクを自動化し、開発者がより創造的で戦略的な作業に集中することができるようにします
事前学習済みのViTモデルを使用した画像キャプショニングにおけるVision Transformer(ViT)
はじめに 事前学習済みのViTモデルを使用した画像キャプショニングは、画像の詳細な説明を提供するために画像の下に表示されるテキストまたは書き込みのことを指します。つまり、画像をテキストの説明に翻訳するタスクであり、ビジョン(画像)と言語(テキスト)を接続することで行われます。この記事では、PyTorchバックエンドを使用して、画像のViTを主要な技術として使用して、トランスフォーマーを使用した画像キャプショニングの生成方法を、スクラッチから再トレーニングすることなくトレーニング済みモデルを使用して実現します。 出典: Springer 現在のソーシャルメディアプラットフォームや画像のオンライン利用の流行に対応するため、この技術を学ぶことは、説明、引用、視覚障害者の支援、さらには検索エンジン最適化といった多くの理由で役立ちます。これは、画像を含むプロジェクトにとって非常に便利な技術であります。 学習目標 画像キャプショニングのアイデア ViTを使用した画像キャプチャリング トレーニング済みモデルを使用した画像キャプショニングの実行 Pythonを使用したトランスフォーマーの利用 この記事で使用されたコード全体は、このGitHubリポジトリで見つけることができます。 この記事は、データサイエンスブログマラソンの一環として公開されました。 トランスフォーマーモデルとは何ですか? ViTについて説明する前に、トランスフォーマーについて理解しましょう。Google Brainによって2017年に導入されて以来、トランスフォーマーはNLPの能力において注目を集めています。トランスフォーマーは、入力データの各部分の重要性を異なる重み付けする自己注意を採用して区別されるディープラーニングモデルです。これは、主に自然言語処理(NLP)の分野で使用されています。 トランスフォーマーは、自然言語のようなシーケンシャルな入力データを処理しますが、トランスフォーマーは一度にすべての入力を処理します。注意機構の助けを借りて、入力シーケンスの任意の位置にはコンテキストがあります。この効率性により、より並列化が可能となり、トレーニング時間が短縮され、効率が向上します。 トランスフォーマーアーキテクチャ 次に、トランスフォーマーのアーキテクチャの構成を見てみましょう。トランスフォーマーアーキテクチャは、主にエンコーダー-デコーダー構造から構成されています。トランスフォーマーアーキテクチャのエンコーダー-デコーダー構造は、「Attention Is All You Need」という有名な論文で発表されました。 エンコーダーは、各レイヤーが入力を反復的に処理することを担当し、一方で、デコーダーレイヤーはエンコーダーの出力を受け取り、デコードされた出力を生成します。単純に言えば、エンコーダーは入力シーケンスをシーケンスにマッピングし、それをデコーダーに供給します。デコーダーは、出力シーケンスを生成します。 ビジョン・トランスフォーマーとは何ですか?…
新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する
世界的に有名なオープンソース言語モデル(LLMs)プロバイダーであるMosaicMLは、最新世代のNVIDIA H100アクセラレータを搭載した画期的なMPT-30Bモデル、すなわちBase、Instruct、Chatを発表しました。これらの最新鋭モデルは、元のGPT-3に比べて品質が大幅に向上しています。 また読む: Large Language Models(LLMs)とは何ですか? MPT-7Bの前例のない成功とMPT-30Bへの進化 2023年5月のリリース以来、MPT-7Bモデルは、330万ダウンロードという驚異的な数字を叩き出し、業界を席巻しています。この成功を更に広げるため、MosaicMLは、非常に期待されていたMPT-30Bモデルをリリースしました。これにより、様々なアプリケーションで新しい可能性が開け、更なる高みに到達しました。 MPT-30Bの無比な機能 MPT-30Bの最も注目すべき成果の1つは、たった30億のパラメータで、GPT-3の175億のうちの一部を使用して、GPT-3を超える品質を実現することができたことです。この画期的なパラメータ数の削減により、MPT-30Bは、ローカルハードウェアの導入にもよりアクセスしやすくなり、推論のコストも大幅に削減されます。さらに、MPT-30Bをベースにしたカスタムモデルのトレーニングに関連する費用は、オリジナルのGPT-3をトレーニングする見積もりよりも明らかに低くなっており、企業にとって魅力的な選択肢となっています。 もっと詳しく知る:実際のユースケースに向けたGPT3の大規模言語モデルのカスタマイズ さらに、MPT-30Bのトレーニングには、最大8,000トークンの長いシーケンスが含まれており、データ重視のエンタープライズアプリケーションを処理できるようになっています。これは、NVIDIAのH100 GPUを利用して、優れたスループットと高速なトレーニング時間を実現しています。 また読む:中国の強力なNvidia AIチップの隠された市場 MPT-30Bの無限のアプリケーションを探る 多くのビジョンを持った企業が、MosaicMLのMPTモデルを活用し、AIアプリケーションを革新しています。 先進的なWebベースのIDEであるReplitは、MosaicMLのトレーニングプラットフォームを活用して、優れたコード生成モデルを構築することに成功しました。Replitは、独自のデータを活用することで、コードの品質、スピード、コスト効率を著しく向上させました。 チャットボットの開発に特化した革新的なAIスタートアップであるScatter Labは、MosaicMLの技術を活用して独自のMPTモデルをトレーニングしました。その結果、英語と韓国語の両方を理解できる多言語の生成AIモデルが作成され、広範なユーザーベースのチャット体験を大幅に向上させました。 世界的に有名な旅行費用管理ソフトウェア会社であるNavanは、MPTが提供する堅牢な基盤を活用して、バーチャルトラベルエージェントや会話型ビジネスインテリジェンスエージェントなどの最新アプリケーションにカスタマイズされたLLMsを開発しています。Navanの共同創設者兼CTOであるIlan Twig氏は、MosaicMLの基礎モデルが、際立った効率性とスケールでの推論を提供すると同時に、非常に優れた言語能力を提供していると熱狂的に称賛しています。 もっと詳しく知る:AIの力を活用するビジネスリーダーには、DataHack Summit…
公共関係(PR)における10以上のAIツール(2023年)
ChatGPT 簡単に説明すると、ChatGPTは、AIによる会話型ユーザーインターフェースです。ユーザーからの入力を受け取り、分析して回答を生成します。OpenAIテクノロジーにより、マシンは書かれた言語と口頭言語の両方を理解できます。決められた回答をすることも、ユーザーに空欄を埋めるように要求することもできます。機械学習と自然言語処理を採用しているため、このテクノロジーは消費者と意味のある対話をする可能性があります。システムの柔軟性により、顧客サービス、バーチャルエージェント、チャットボットなど、さまざまな設定に適用できます。ChatGPTは、OpenAIテクノロジーを活用して、ユーザーが要求を理解し、実現するための会話型AIシステムを提供しています。 Midjourney Midjourneyは強力な機能と迅速な画像合成のため、最高の人工知能画像生成ツールの1つです。MidjourneyにSMSコマンドを送信するだけで、あとはMidjourneyが処理します。多くのクリエイティブプロフェッショナルが、Midjourneyを使用して、自分たちの仕事にインスピレーションを与える画像を生成しています。Midjourneyで作成された人工知能作品「Théâtre d’Opéra Spatial」は、20人の他の画家を抑えて、コロラド州の博覧会の美術部門で1位を獲得しました。ただし、現在のMidjourneyのホームはDiscordサーバーです。MidJourney Discordサーバーに参加し、ボットのコマンドを利用して画像を作成する必要があります。ただし、すぐに始めることができます。 Brandwatch メディアモニタリングがクライアントの優先事項である場合、Brandwatchはあなたの人工知能ソーシャルリスニングソリューションです。Brandwatchは、あなたの会社に関する書かれた言及と、ロゴや製品の視覚的表現をモニターするためにAIを使用しています。彼らの洗練されたテキスト分析ツールは、ユーザーがあなたのブランドに関するコメントが好意的、悪い、または中立的かどうかを判断することもでき、これらすべての指標を追跡することが容易になっています。 Cleanup.pictures Cleanup.picturesは、AIを搭載した写真編集アプリケーションで、写真から望ましくないオブジェクト、人、テキスト、欠陥を削除することができます。簡単に学習でき、品質を損なうことなく数秒で写真を修正することができます。写真家、広告会社、不動産業者、オンライン小売業者、テキスト、ロゴ、またはウォーターマークを取り除く必要がある人など、さまざまな人々がこのツールを利用できます。Adobe Photoshopのクローンツールとは異なり、このプログラムは、不要なテキスト、人物、オブジェクトの背後に何があるかを正確に特定することができます。任意の解像度の画像をインポートして編集することができます。無料版ではエクスポート解像度が720pxに制限されていますが、Pro版にはそのような制限はありません。 Looka Lookaは、AIによるブランドアイデンティティプラットフォームを使用して、努力を最小限に抑えて洗練されたロゴとブランドアイデンティティを作成できます。ロゴジョイの再ブランド版であるLookaは、無料で利用できます。プロセスは、人工知能を利用して素早く数百の潜在的なロゴデザインを生成するロゴメーカーから始まります。ユーザーは、レイアウトを自分好みに変更することができます。ブランドキットでは、ロゴ、色、フォントを活用して、数十、場合によっては数百の統一されたプロモーション用品を簡単かつ迅速に作成することができます。名刺、ソーシャルメディアプロファイル、メール署名、その他のサンプルドキュメントがブランドキットに含まれています。人工知能によって動作するプラットフォームであるLookaのユーザーは、YouTube、Twitter、Facebookなど、多くのソーシャルメディアプラットフォーム上のプロフィール画像とカバー画像を変更することができます。 Canva Canvaの無料画像作成ツールを使用することで、製品マネージャーがどのように利益を得ることができるかが簡単に理解できます。ステークホルダーミーティング、製品発売などでプレゼンテーションやデッキ用の関連画像を入手することは常に難しい課題でした。時には、望んでいるものの完璧なビジョンがあるにもかかわらず、作業中のストック画像を修正する必要があります。CanvaのAIによるエディターを使用すると、コンテンツを事前に計画し、アイデアを生成し、入力に応じて完璧なグラフィックを見つけるために検索結果を調整することができます。 TLDR この最新のAI搭載Webツールは、記事、文書、エッセイ、論文などの長文を簡潔で情報量の多い段落に自動的に要約することができます。試験勉強をする学生、素早く記事を要約したい作家、生徒に長いドキュメントや章を要約する必要がある教師、新聞や雑誌の長い記事を要約する必要があるジャーナリストなど、すべての人々がこのツールを利用できます。TLDRは、広告、ポップアップ、グラフィックなどのオンライン上の邪魔な要素を取り除き、テキストの主要なアイデアを選択し、弱い議論、未サポートの推測、派手なフレーズ、無駄な注意をそらすものなど、不要な材料を除去することによって、きれいで焦点の合った読書体験を提供します。 ヒント ヒントは人工知能(A.I.)を活用した生産性ツールで、他のアプリと同期して、やるべきこと、ノート、取引、スケジュールを管理するのに役立ちます。Notion、Obsidian、Trello、ClickUp、Hubspot、Pipedrive、Google Calendar、Jiraなどのサービスが統合できます。Telegram、WhatsApp、SMSなどのお気に入りのメッセージングアプリでヒントを見つけることができます。また、ボイスメールを残すこともできます。様々なサービスに接続することで、飛行中にデータを作成、更新、引き出す能力が可能になり、ビジネスと個人の生活をシングルインターフェイスで効率的に管理することができます。ヒントの多くの潜在的な応用例は、プロジェクト管理、販売、CRM管理、ノート取り、情報管理、個人の整理などです。ヒントは、他の人気のあるサービスと統合し、A.I.を利用して、日常的なタスクの効率を改善することで、時間と労力を節約することを目的としています。 DeepL 信頼性の高い翻訳者が必要な場合は、AIを搭載したDeepL翻訳を利用してください。PDF、Word文書、PowerPointプレゼンテーションなど、31の他の言語にテキストやファイル全体を翻訳することができます。技術が言語を迅速かつ自動的に認識できるため、翻訳プロセスは短く、結果は信頼できます。DeepLには、クイック定義用の辞書や用語集もあります。DeepLは、デスクトップコンピュータ、モバイルデバイス、またはChrome拡張機能からアクセスできるため、外出先の消費者にとっては優れたツールです。DeepLは、毎日何百万人もの人々によって最も広く使用されている翻訳ツールの一つです。 Otter.AI…
データエンジニアが本当にやっていること?
データ主導の世界では、データエンジニアのような裏方のヒーローたちは、スムーズなデータフローを確保するために重要な役割を果たしています。突然不適切なおすすめを受け取ったオンラインショッパーを想像してみてください。データエンジニアは問題を調査し、電子商取引プラットフォームのデータファンネルに欠陥があることを特定し、スムーズなデータパイプラインを迅速に実装します。データサイエンティストやアナリストに注目が集まる一方で、データエンジニアの執念深い努力によって、組織内の情報に基づく意思決定に必要なアクセスしやすく、よく準備されたデータが保証されています。データエンジニアは具体的に何をするのでしょうか?彼らはどのようにビジネスの成功に貢献しているのでしょうか?彼らの世界に飛び込んで、データエンジニアの職務内容、役割、責任、そしてあなたの燃えるような疑問に答えましょう。 データエンジニアの職務内容 データエンジニアは、生データを貴重な洞察に変換し、ビジネスアナリストやデータサイエンティストが活用できるように、データを収集、管理、変換することで重要な役割を果たします。彼らの主な目的は、データのアクセシビリティを確保し、企業がパフォーマンスを最適化し、情報に基づいた意思決定を行うことを可能にすることです。彼らはアルゴリズムを設計し、統計を分析し、ビジネス目標に応じてデータシステムを整合させ、効率を最大化します。データエンジニアには強力な分析スキル、多様なソースからデータを統合する能力、プログラミング言語の熟練度、および機械学習技術の知識が必要です。データエンジニアの職務内容は広範であり、組織のデータ主導の成功に貢献する多くの役割と責任を包括しています。 データエンジニアの役割と責任 データエンジニアの役割と責任は、要件に基づいて会社によって異なる場合があります。ただし、一般的なデータエンジニアの責任には、以下が含まれます: 完璧なデータパイプライン設計の開発および維持。 手動操作の自動化、データ配信の改善、スケーラビリティの向上のためのインフラ再設計など、内部プロセスの改善を特定し、計画し、実行する。 SQLおよびAWSビッグデータ技術を利用して、幅広いデータソースからの効果的なデータ抽出、変換、およびロードに必要なインフラの作成。 機能的および非機能的なビジネス目標を満たす膨大で複雑なデータセットの作成。 データファンネルを利用した分析ソリューションの構築により、新しい顧客獲得、業務効率改善、およびその他の重要な企業パフォーマンス指標に対する具体的な洞察を提供する。 エグゼクティブ、プロダクト、データ、およびデザインチームなどのステークホルダーがデータインフラ関連の課題に直面した場合に、彼らのデータインフラ要件を満たすために支援する。 複数のデータセンターやAWSリージョンを利用することで、国際境界を越えたデータのプライバシーとセキュリティを維持する。 データおよび分析プロフェッショナルと協力して、データシステムの運用を改善する。 さらに読む:ジョブ比較-データサイエンティストvsデータエンジニアvs統計学者 データエンジニアに必要なスキル データエンジニアになりたい場合、ある程度の技術的およびソフトスキルに精通している必要があります。 技術的スキル 自分たちの役割で優れた成果を出すために、データエンジニアは以下の技術的スキルを持っている必要があります。 コーディング Python、Java、SQL、NoSQL、Ruby、Perl、MatLab、R、SAS、C and C++、Scala、Golangなどのプログラミング言語の熟練度は、ほとんどの企業で高く評価されます。コーディングの堅牢な基盤は、データエンジニアのポジションにおいて不可欠です。 オペレーティングシステムの理解 データエンジニアは、Microsoft…
Mr. Pavan氏のデータエンジニアリングの道は、ビジネスの成功を導く
はじめに 私たちは、Pavanさんから学ぶ素晴らしい機会を得ました。彼は問題解決に情熱を持ち、持続的な成長を追求する経験豊富なデータエンジニアです。会話を通じて、Pavanさんは自身の経験、インスピレーション、課題、そして成し遂げたことを共有しています。そのため、データエンジニアリングの分野における貴重な知見を提供してくれます。 Pavanさんの実績を探索する中で、再利用可能なコンポーネントの開発、効率化されたデータパイプラインの作成、グローバルハッカソンの優勝などに誇りを持っていることがわかります。彼は、データエンジニアリングを通じてクライアントのビジネス成長を支援することに情熱を注いでおり、彼の仕事が彼らの成功に与える影響について共有してくれます。さあ、Pavanさんの経験と知恵から学んで、データエンジニアリングの世界に没頭しましょう。 インタビューを始めましょう! AV:自己紹介と経歴について教えてください。 Pavanさん:私は情報技術の学生として学問の道を歩み始めました。当時、この分野での有望な求人が私を駆り立てていました。しかし、私のプログラミングに対する見方はMSハッカソン「Yappon!」に参加した時に変わりました。その経験が私に深い情熱をもたらしました。それは私の人生の転機となり、プログラミングの世界をより深く探求するスパークを生み出しました。 それ以来、私は4つのハッカソンに積極的に参加し、うち3つを優勝するという刺激的な結果を残しました。これらの経験は私の技術的なスキルを磨き、タスクの自動化や効率的な解決策の探求に執念を燃やすようになりました。私はプロセスの効率化や繰り返しタスクの削減に挑戦することで成長しています。 個人的には、私は内向的と外向的のバランスを取るambivertだと考えています。しかし、私は常に自分の快適ゾーンから踏み出して、成長と発展のための新しい機会を受け入れるように自分自身を鼓舞しています。プログラミング以外の私の情熱の1つはトレッキングです。大自然を探索し、自然の美しさに浸ることには魅力的な何かがあります。 私のコンピュータサイエンス愛好家としての旅は、仕事の見通しに対する実用的な見方から始まりました。しかし、ハッカソンに参加することで、プログラミングに対する揺るぎない情熱に変わっていきました。成功したプロジェクトの実績を持ち、自動化の才能を持っていることから、私はスキルを拡大し、コンピュータサイエンス分野での積極的な貢献を続けることを熱望しています。 AV:あなたのキャリアに影響を与えた人物を数名挙げて、どのように影響を受けたか教えてください。 Pavanさん:まず、私は母親と祖母に感謝しています。彼女たちはサンスクリットの格言「Shatkarma Manushya yatnanam, saptakam daiva chintanam.」に象徴される価値観を私に教えてくれました。人間の努力と精神的な瞑想の重要性を強調したこの哲学は、私のキャリアを通じて指導原理となっています。彼女たちの揺るぎないサポートと信念は、私の常に刺激となっています。 また、私のB.Tech時代に教授だったSmriti Agrawal博士にも大きな成長を感じています。彼女はオートマトンとコンパイラ設計を教えながら、その科目についての深い理解を伝え、キャリア開発の重要性を強調しました。「6ヶ月で履歴書に1行も追加できない場合は、成長していない」という彼女の有益なアドバイスは、私のマインドセットを変えるきっかけになりました。このアドバイスは、私に目標を設定し、挑戦的なプロジェクトに取り組み、定期的にスキルセットを更新するよう駆り立て、私を常に成長と学びの機会に導いてくれました。 さらに、私にとって支援的な友人のネットワークを持っていることは幸運なことです。彼らは私のキャリアの旅において重要な役割を果たしています。彼らは、複雑なプログラミングの概念を理解するのを手伝ってくれたり、私をハッカソンに参加させてスキルを磨いたりすることで、私を引っ張り出し、最高の自分を引き出すのに欠かせない存在となっています。彼らの指導と励ましは、私を常に限界を超えて、最高の自分を引き出すのに不可欠であり、私の今までの進歩に欠かせません。 AV:なぜデータと一緒に働くことに興味を持ち、データエンジニアとしての役割の中で最もエキサイティングなことは何ですか? Pavanさん:私がデータと一緒に働くことに惹かれたのは、データが今日の世界であらゆるものを動かしていることを認識したからです。データは、意思決定の基盤であり、戦略の策定、革新の源泉です。データを生のままから意味のある洞察に変換し、それらの洞察を顧客やビジネスの成功につなげることが、私がデータと一緒に働くことに情熱を持つようになった原動力となりました。 データエンジニアとして私が最も興奮するのは、データ革命の最前線に立つ機会です。膨大な量の情報を効率的に収集、処理、分析するデータシステムを設計・実装する複雑なプロセスに魅了されています。データの膨大な量と複雑さは、創造的な問題解決と継続的な学習を必要とする刺激的な課題を提供します。 データエンジニアとして最もエキサイティングな側面の1つは、データの潜在的な可能性を引き出すことができることです。堅牢なパイプラインを構築し、高度な分析を実装し、最新技術を活用することで、情報を収集し、意思決定を支援し、変革につながる貴重な洞察を明らかにすることができます。データ駆動型のソリューションが直接顧客体験を改善し、業務効率を向上させ、ビジネス成長を促進する様子を見ることは、非常にやりがいを感じます。 また、この分野のダイナミックな性質は私を引っ張っていきます。データエンジニアリング技術と技法の急速な進歩は、常に新しいイノベーションの機会を提供してくれます。これらの進歩の最前線に立ち、継続的に学習し、スキルを磨き、複雑なデータ課題を解決するために適用することは、知的好奇心を刺激し、専門的にもやりがいを感じさせます。…
MeLoDyとは:音楽合成のための効率的なテキストからオーディオへの拡散モデル
音楽は、調和、メロディ、リズムから成る芸術であり、人生のあらゆる面に浸透しています。深層生成モデルの発展に伴い、音楽生成は近年注目を集めています。言語モデル(LM)は、長期的な文脈にわたる複雑な関係をモデリングする能力において、顕著なクラスの生成モデルとして、音声合成にLMを成功裏に応用することができるAudioLMやその後の作品が登場しています。DPM(拡散確率モデル)は、生成モデルのもう1つの競争力のあるクラスとして、音声、音楽の合成に優れた能力を発揮しています。 しかし、自由形式のテキストから音楽を生成することは依然として課題であり、許容される音楽の記述が多様で、ジャンル、楽器、テンポ、シナリオ、あるいは主観的な感情に関連していることがあります。 従来のテキストから音楽を生成するモデルは、しばしば音声の継続や高速サンプリングなど特定の特性に焦点を当て、一部のモデルは音楽プロデューサーなどの専門家によって実施される堅牢なテストを優先しています。さらに、ほとんどのモデルは大規模な音楽データセットでトレーニングされ、高い忠実度とテキストプロンプトのさまざまな側面への遵守とともに、最先端の生成性能を示しています。 しかし、MusicLMやNoise2Musicなどのこれらの手法の成功は、実用性に重大な影響を与える高い計算コストと引き換えに得られています。比較的、DPMに基づく他の手法は、高品質な音楽の効率的なサンプリングを実現しました。しかしながら、彼らが示したケースは比較的小さく、サンプリング効果が制限されていました。実現可能な音楽作成ツールを目指すにあたり、生成モデルの高い効率性は、人間のフィードバックを考慮に入れたインタラクティブな作成を促進するために不可欠です。 LMとDPMの両方が有望な結果を示しているにもかかわらず、関連する問題は、どちらを好むかではなく、両方の方法の利点を同時に活用できるかどうかです。 上記の動機に基づき、MeLoDyと呼ばれるアプローチが開発されました。戦略の概要は、以下の図に示されています。 MusicLMの成功を分析した後、著者たちは、MusicLMの最高レベルのLMである「意味LM」を活用して、メロディ、リズム、ダイナミクス、音色、テンポの全体的なアレンジメントを決定する音楽の意味構造をモデリングします。この意味LMに条件付けられた上で、非自己回帰性のDPMを活用して、成功したサンプリングの加速技術を用いて、音響を効率的かつ効果的にモデリングします。 さらに、著者たちは、古典的な拡散プロセスを採用する代わりに、デュアルパス拡散(DPD)モデルを提案しています。実際、生データで作業することは、計算費用を指数関数的に増加させることになります。提案された解決策は、生データを低次元の潜在表現に縮小することです。データの次元を減らすことで、操作に対するその影響を阻害し、したがって、モデルの実行時間を短縮することができます。その後、生データは、事前にトレーニングされたオートエンコーダを介して、潜在表現から再構築されることができます。 モデルによって生成されたいくつかの出力サンプルは、以下のリンクから入手できます:https://efficient-melody.github.io/。コードはまだ利用可能ではないため、現時点ではオンラインまたはローカルで試すことはできません。 これは、最先端の品質の音楽オーディオを生成する効率的なLMガイド拡散モデルであるMeLoDyの概要でした。興味がある場合は、以下のリンクでこの技術について詳しく学ぶことができます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.