Search Results arXiv

「アドベクティブ拡散トランスフォーマーによる位相一般化」というタイトルです

この投稿は、傅棋天さんと楊晨曉さんと共著であり、傅棋天さんらの論文「グラフ学習における位相一般化のためのアドベクティブ拡散トランスフォーマー」（2023年）に基づいています...

「マスク言語モデリングタスクのBERTトレーニング方法」

「最近、大規模言語モデル（LLM）は、機械学習コミュニティ全体の注目を浴びていますLLMが登場する前には、さまざまな言語モデリングに関する重要な研究フェーズがありました...」

テキストをベクトルに変換する：TSDAEによる強化埋め込みの非教示アプローチ

TSDAEの事前学習を対象ドメインで行い、汎用コーパスでの教師付き微調整と組み合わせることで、特化ドメインの埋め込みの品質を向上させる埋め込みはテキストをエンコードする...

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか？UniAudioに出会ってください：新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます増えています。たとえば、テキストから音声や音楽を生成する技術は、音声合成（TTS）、音声変換（VC）、歌声合成（SVS）、音声変換（VC）に基づいて、人間の要求に基づいて音声を生成します。オーディオ制作の過去の取り組みの多くは、タスクに特化した設計であり、主にドメインの専門知識に依存し、固定構成でのみ使用可能でした。この研究の目的は、各個別のタスクを個別に処理するのではなく、数多くの音声生成ジョブを1つの統一モデルで処理する万能音声生成を作成することです。万能音声生成モデルは、さまざまなオーディオを生成するために、オーディオおよび関連するモダリティの十分な過去の知識を蓄積し、さまざまなオーディオを作成するための直感的で効率的なソリューションを提供できると予想されています。テキスト生成ジョブにおけるLarge Language Model（LLM）テクノロジーの優れたパフォーマンスは、いくつかのLLMベースの音声生成モデルにインスピレーションを与えました。これらの研究の中で、LLMのテキスト読み上げ（TTS）や音楽制作への独立性が研究され、競争力があるとされています。ただし、LLMが数多くのジョブを処理する潜在能力をより活用するために、音声生成の研究ではまだ十分に調査されていません。彼らは、LLMのパラダイムはオーディオ制作における普遍性と多様性に希望を持つが、徹底的に調査されていないと主張しています。この研究では、香港中文大学、カーネギーメロン大学、マイクロソフトリサーチアジア、浙江大学からの研究者は、音素のシーケンス、テキストの説明、および音声自体を含む複数の入力モダリティに基づいて、音声（音声、ノイズ、音楽、歌声）のさまざまなジャンルを生成するためにLLMアプローチを使用したUniAudioを紹介しています。計画されたUniAudioの主な機能は次のとおりです。すべてのオーディオ形式と入力モダリティは、まず離散的なシーケンスとしてトークン化されます。オーディオ形式に関係なくオーディオをトークン化するために、汎用ニューラルコーデックモデルが開発され、さまざまな入力モダリティをトークン化するためにいくつかのトークナイザが使用されます。 https://arxiv.org/abs/2310.00704 その後、UniAudioによってソースとターゲットのペアが単一のシーケンスに組み合わされます。最後に、UniAudioはLLMを使用して次のトークンの予測を行います。トークン化技術は、ニューラルコーデックに基づく残差ベクトル量子化を使用し、LLMが効果的に解析できないほど長くなるトークンシーケンス（1フレームがいくつかのトークンに相当）を生成します。インターフレームおよびイントラフレームの相関は、計算の複雑さを減らすために独立してモデル化されたマルチスケールトランスフォーマーアーキテクチャで行われます。特に、グローバルトランスフォーマーモジュールはフレーム間の相関を表します（たとえば、意味レベルで）。一方、ローカルトランスフォーマーモジュールはフレーム内の相関をモデル化します（たとえば、音響レベルで）。UniAudioの構築には、新しいプロジェクトへの拡張性を示すために2つのステップが含まれます。まず、提案されたUniAudioは、複数の音声生成タスクで同時にトレーニングされ、オーディオの固有の特性とオーディオと他の入力モダリティとの関係についてのモデルの十分な事前知識を提供します。次に、わずかな調整で、トレーニングされたモデルは見えないさらなる音声生成活動に対応できるようになります。UniAudioは、音声生成の新たな需要に持続的に対応できるため、万能音声生成の基本モデルとなる可能性があります。彼らのUniAudioは、実験的に11の音声生成タスクをサポートしています：トレーニング段階では7つの音声生成ジョブをカバーし、ファインチューニングステップでは4つのタスクを追加します。音声と1Bのパラメータに合計165k時間のオーディオを収めるために、UniAudioの構築方法は拡大されました。 UniAudioは、客観的および主観的基準に基づく11のタスク全体で競争力のあるパフォーマンスを一貫して達成します。ほとんどのタスクでは現代の成果が達成されています。さらなる研究では、トレーニングステージで複数の活動を同時に行うことがすべての含まれるタスクに利益をもたらすことが示されています。さらに、UniAudioは非常に優れており、タスク固有のモデルを大きく上回り、新しい音声生成のワークロードに迅速に適応できます。結論として、彼らの研究は、普遍的な音声生成モデルの開発が重要であり、希望に満ち、有益であることを示しています。以下は、この研究の主な貢献の概要です：（1）11の音声生成タスクに対して単一のソリューションとして与えられるUniAudioは、過去のすべての取り組みよりも多岐にわたります。 (2) 技術に関しては、UniAudioは（i）音声およびその他の入力モダリティの連続的な表現、（ii）LLMベースの音声制作タスクの一貫した定式化、および（iii）音声生成のために特に作成された効果的なモデルアーキテクチャの新しいアイデアを提供しています。 (3) 幅広いテスト結果はUniAudioの総合的なパフォーマンスを検証し、柔軟な音声生成パラダイムの利点を示しています。 (4) UniAudioのデモとソースコードは公開されており、将来の研究で新たな音声制作の基礎モデルとして役立つことを願っています。

「Llama2が搭載されたチャットボットはCPUで訓練できるのか？」

地元のモデルの登場は、独自のカスタムLLMアプリケーションを構築したいと考えている企業に歓迎されていますこれにより、開発者はオフラインで実行でき、彼らの基準に従うソリューションを構築することができます

ランチェーン 101：パート2d. 人間のフィードバックでLLMの微調整

これは、LangChain 101コースのモデルセクションの2Dパートであり、最後のパートですこの記事の文脈をより理解するために、最初の2つのパートを確認することを強くお勧めしますRLHF...

「注意シンクとキャッシュの配置場所 – ストリーミングLLM実装のビジュアルガイド」

最新のAI論文の一つは、テキストのための効率的で無制限の大きさのコンテキストウィンドウを可能にする、Generative Pre-training Transformer（GPT）モデルアーキテクチャのための技術です

ボイジャーAGIニュース、10月11日：仕事を得るための3つのデータサイエンスプロジェクト • NLPマスタリングの7つのステップ

今週のテーマ：どの３つのデータサイエンスプロジェクトを選ぶことで、仕事を確保できるか？ • 機械学習とPythonの基礎から、トランスフォーマー、最新の自然言語処理の進歩などに進むための７ステップガイド

NEWS

「エンベッドチェーンの実践」

「おそらく、無数の記事で知識豊富なチャットボットの作成について議論されていることでしょうこれらの中には、人気のあるベクトルデータベースを利用してデータ、文書、リンクを振り分ける賢いチャットボットの作成について言及しているものもありますその中でも、Langchainは…」

スタンフォード大学の研究者たちは、MLAgentBenchを提案しました：AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた状態で、人間の研究者は未知の領域を探索し、その過程で画期的な発見をします。今では、同様の能力を持つAI研究エージェントを構築することが可能かどうかが研究されています。オープンエンドの意思決定と環境との自由な相互作用は、パフォーマンス評価に困難をもたらします。これらのプロセスは時間がかかる、リソースを消費する、量化が難しいといった特徴を持っています。自由な形式の意思決定能力を持つAI研究エージェントを評価するために、スタンフォード大学の研究者らはMLAgentBenchを提案しています。MLAgentBenchの核となるアイデアは、よく範囲のある実行可能な研究課題において、研究エージェントを自動的に評価するための一般的なフレームワークを提供することです。具体的には、各研究課題にはタスクの説明と必要なファイルのリストが与えられます。これらを持つ研究エージェントは、読み書きやコード実行などのタスクを人間の研究者と同様に実行することができます。エージェントの行動と作業スペースの仮間スナップショットは、評価のための相互作用トレースの一部として収集されます。研究チームは、研究エージェントの以下の3つの観点で評価しています。1) 目標達成能力（成功率や平均改善量など）、2) 推論と研究プロセス（結果の達成方法やミス）、3) 効率性（目標達成に必要な時間や努力など）。チームは、さまざまな分野をカバーする15のMLエンジニアリングプロジェクトのコレクションを用意し、実行が簡単でコストが低い実験を行いました。エージェントが有効な提出を行えるように、これらの活動のいくつかのための単純な初期プログラムを提供しています。例えば、CIFAR10データセットで畳み込みニューラルネットワーク（CNN）モデルのパフォーマンスを10％以上向上させるといったチャレンジがあります。研究エージェントの汎化能力をテストするために、CIFAR10などのよく知られたデータセットだけでなく、数か月前のKaggleチャレンジや新しい研究データセットも含まれています。彼らの長期目標は、現在のタスクコレクションにさまざまな分野の科学的な研究課題を含めることです。最近の大規模な言語モデル（LLM）に基づく生成エージェントの進化を考慮して、チームは簡単なLLMベースの研究エージェントを設計しました。このエージェントは研究計画を自動的に作成し、スクリプトを読み書きし、実験を行い、結果を解釈し、次の実験に進むことができます。テキスト以外の行動やリアクションからもわかるように、LLMは日常的な常識から特定の科学領域まで幅広い前提知識を持ち、優れた推論とツール使用能力を持っています。高いレベルでは、利用可能な情報や前のステップに基づいて自動的に生成されるプロンプトを使って次のアクションをLLMに尋ねるだけです。このプロンプトのデザインは、目標達成のための他のLLMベースの生成エージェントの作成方法（推論、反省、ステップバイステップの計画、研究ログの管理など）から大いに影響を受けています。チームはまた、AI研究エージェントの信頼性と正確性を高めるために、階層的な行動と事実チェックのステージを使用しています。MLAgentBenchでAI研究エージェントをテストした結果、GPT-4を基にして高い解釈可能性の動的な研究計画を作成し、多くのタスクで優れたMLモデルを構築できることがわかりましたが、いくつかの欠点もまだあります。例えば、ogbn-arxivデータセット上でのモデルの改良など、確立されたタスクでは基準予測に対して平均48.18％の改善を達成しています。ただし、チームはKaggleチャレンジやBabyLMに対して研究エージェントの成功率が0〜30％に過ぎないことに注目しています。その後、他の変更が加えられたエージェントとの比較で研究エージェントのパフォーマンスを評価しました。結果は、記憶ストリームを継続することが単純なタスクのパフォーマンスを阻害する可能性があることを示しています。これは、それが気を散らされる要因となり、複雑な変更を探求するエージェントを奨励しているためかもしれません。

Learn more about Search Results arXiv - Page 7