Search Results A

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか？UniAudioに出会ってください：新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます増えています。たとえば、テキストから音声や音楽を生成する技術は、音声合成（TTS）、音声変換（VC）、歌声合成（SVS）、音声変換（VC）に基づいて、人間の要求に基づいて音声を生成します。オーディオ制作の過去の取り組みの多くは、タスクに特化した設計であり、主にドメインの専門知識に依存し、固定構成でのみ使用可能でした。この研究の目的は、各個別のタスクを個別に処理するのではなく、数多くの音声生成ジョブを1つの統一モデルで処理する万能音声生成を作成することです。万能音声生成モデルは、さまざまなオーディオを生成するために、オーディオおよび関連するモダリティの十分な過去の知識を蓄積し、さまざまなオーディオを作成するための直感的で効率的なソリューションを提供できると予想されています。テキスト生成ジョブにおけるLarge Language Model（LLM）テクノロジーの優れたパフォーマンスは、いくつかのLLMベースの音声生成モデルにインスピレーションを与えました。これらの研究の中で、LLMのテキスト読み上げ（TTS）や音楽制作への独立性が研究され、競争力があるとされています。ただし、LLMが数多くのジョブを処理する潜在能力をより活用するために、音声生成の研究ではまだ十分に調査されていません。彼らは、LLMのパラダイムはオーディオ制作における普遍性と多様性に希望を持つが、徹底的に調査されていないと主張しています。この研究では、香港中文大学、カーネギーメロン大学、マイクロソフトリサーチアジア、浙江大学からの研究者は、音素のシーケンス、テキストの説明、および音声自体を含む複数の入力モダリティに基づいて、音声（音声、ノイズ、音楽、歌声）のさまざまなジャンルを生成するためにLLMアプローチを使用したUniAudioを紹介しています。計画されたUniAudioの主な機能は次のとおりです。すべてのオーディオ形式と入力モダリティは、まず離散的なシーケンスとしてトークン化されます。オーディオ形式に関係なくオーディオをトークン化するために、汎用ニューラルコーデックモデルが開発され、さまざまな入力モダリティをトークン化するためにいくつかのトークナイザが使用されます。 https://arxiv.org/abs/2310.00704 その後、UniAudioによってソースとターゲットのペアが単一のシーケンスに組み合わされます。最後に、UniAudioはLLMを使用して次のトークンの予測を行います。トークン化技術は、ニューラルコーデックに基づく残差ベクトル量子化を使用し、LLMが効果的に解析できないほど長くなるトークンシーケンス（1フレームがいくつかのトークンに相当）を生成します。インターフレームおよびイントラフレームの相関は、計算の複雑さを減らすために独立してモデル化されたマルチスケールトランスフォーマーアーキテクチャで行われます。特に、グローバルトランスフォーマーモジュールはフレーム間の相関を表します（たとえば、意味レベルで）。一方、ローカルトランスフォーマーモジュールはフレーム内の相関をモデル化します（たとえば、音響レベルで）。UniAudioの構築には、新しいプロジェクトへの拡張性を示すために2つのステップが含まれます。まず、提案されたUniAudioは、複数の音声生成タスクで同時にトレーニングされ、オーディオの固有の特性とオーディオと他の入力モダリティとの関係についてのモデルの十分な事前知識を提供します。次に、わずかな調整で、トレーニングされたモデルは見えないさらなる音声生成活動に対応できるようになります。UniAudioは、音声生成の新たな需要に持続的に対応できるため、万能音声生成の基本モデルとなる可能性があります。彼らのUniAudioは、実験的に11の音声生成タスクをサポートしています：トレーニング段階では7つの音声生成ジョブをカバーし、ファインチューニングステップでは4つのタスクを追加します。音声と1Bのパラメータに合計165k時間のオーディオを収めるために、UniAudioの構築方法は拡大されました。 UniAudioは、客観的および主観的基準に基づく11のタスク全体で競争力のあるパフォーマンスを一貫して達成します。ほとんどのタスクでは現代の成果が達成されています。さらなる研究では、トレーニングステージで複数の活動を同時に行うことがすべての含まれるタスクに利益をもたらすことが示されています。さらに、UniAudioは非常に優れており、タスク固有のモデルを大きく上回り、新しい音声生成のワークロードに迅速に適応できます。結論として、彼らの研究は、普遍的な音声生成モデルの開発が重要であり、希望に満ち、有益であることを示しています。以下は、この研究の主な貢献の概要です：（1）11の音声生成タスクに対して単一のソリューションとして与えられるUniAudioは、過去のすべての取り組みよりも多岐にわたります。 (2) 技術に関しては、UniAudioは（i）音声およびその他の入力モダリティの連続的な表現、（ii）LLMベースの音声制作タスクの一貫した定式化、および（iii）音声生成のために特に作成された効果的なモデルアーキテクチャの新しいアイデアを提供しています。 (3) 幅広いテスト結果はUniAudioの総合的なパフォーマンスを検証し、柔軟な音声生成パラダイムの利点を示しています。 (4) UniAudioのデモとソースコードは公開されており、将来の研究で新たな音声制作の基礎モデルとして役立つことを願っています。

マイクロソフトの研究者が「SpaceEvo」を紹介：現実世界のデバイスに対して超効率的で量子化されたニューラルネットワークを設計する画期的なゲームチェンジャー

ディープラーニングの領域では、高性能と最小の遅延を組み合わせた効率的なディープニューラルネットワーク（DNN）モデルを、さまざまなデバイスで開発するという課題が残っています。既存のアプローチでは、特定のハードウェアセットアップに対してモデル設計を自動化するために、ハードウェアに対応したニューラルアーキテクチャサーチ（NAS）が使用されており、あらかじめ定義されたサーチスペースとサーチアルゴリズムが含まれています。しかし、このアプローチではサーチスペースの最適化を見落としてしまう傾向があります。この課題に対応するため、研究チームは「SpaceEvo」という新しい手法を導入しました。この手法は、特定のハードウェアプラットフォームで効率的なINT8推論を実現するために、専用のサーチスペースを自動的に作成するものです。SpaceEvoの特徴は、この設計プロセスを自動的に行う能力であり、ハードウェア固有の、量子化に適したNASのサーチスペースを実現します。 SpaceEvoの軽量な設計は実用的で、ハードウェア固有のソリューションを作成するためにわずか25時間のGPU時間しか必要としません。これはコスト効果的です。この専用のサーチスペースは、ハードウェアに適したオペレータと構成を持ち、低いINT8遅延を持つより効率的なモデルの探索を可能にし、既存の代替手法を常に上回ります。研究者たちは、広く使用されている2つのデバイス上でINT8量子化された遅延要因について詳細な分析を行い、オペレータの種類と構成の選択がINT8遅延に大きく影響することを明らかにしました。SpaceEvoはこれらの結果を考慮に入れ、サーチスペース内で正確かつINT8遅延に優れたアーキテクチャの多様な集団を作成します。進化的なサーチアルゴリズム、メトリックとしてのQ-Tスコア、再設計されたサーチアルゴリズム、ブロック単位のサーチスペース量子化スキームを組み込んでいます。 2段階のNASプロセスにより、候補モデルは個別の微調整や量子化なしにも比較可能な量子化精度を達成することができます。現実世界のエッジデバイスとImageNetでの幅広い実験により、SpaceEvoは手動で設計されたサーチスペースを常に上回り、INT8量子化の精度と遅延のトレードオフにおいて新たな基準を設定します。まとめると、SpaceEvoは多様な現実世界のエッジデバイス向け効率的なディープラーニングモデルの追求において、重要な進展を示しています。量子化に適したサーチスペースの自動設計は、エッジコンピューティングソリューションの持続可能性を向上させる可能性があります。研究者たちは、これらの手法を変換器などのさまざまなモデルアーキテクチャに適応し、ディープラーニングモデルの設計と効率的な展開の役割をさらに拡大する予定です。

Uncategorized

In Japanese 「GTE-tinyに会いましょう：ダウンストリームタスクのためのパワフルなテキスト埋め込み人工知能モデル」(GTE-tiny ni aimashou Daunsutori-mu tasuku no tame no pawafuru na tekisuto umekomi jōchū nō moeru) Note Please keep in mind that this translation is accurate, but it may be adjusted to fit

“` アリババのDAMOアカデミーのGTE-tinyは、軽量で高速なテキスト埋め込みモデルです。BERTフレームワークを使用し、様々な領域とユースケースを網羅する関連テキストペアの大規模なコーパスで訓練されています。GTE-smallから半分のレイヤーを削除し、多少性能は劣りますが（または全MiniLM-L6-v2システムと同じサイズでありながら性能が優れている可能性もあります）、ONNXオプションも用意されています。これは文を変換するモデルであり、文の意味を持つベクトル空間（384次元）に変換するために使用されます。オリジナルのthenlper/gte-smallのサイズと性能が半分に縮小されています。 GTE-tinyは、単語や文の間の意味的な関連性を学習する能力により、下流プロセスの多くの異なるタスクに使用することができます：データの検索と取得異なるテキストでの同じ意味テキストの再構成クエリへの応答テキストの要約機械翻訳 GTE-tinyは、コンパクトで高速なモデルから最大限の利益を得られる下流操作で優れた選択肢です。モバイルデバイス向けのテキスト埋め込みモデルやリアルタイム検索エンジンの開発など、さまざまなアプリケーションに適用できます。 GTE-tinyのいくつかの応用例：検索エンジンは、GTE-tinyを使用してユーザーのクエリとドキュメントを共有ベクトル空間に埋め込み、関連素材を効果的に取得できます。 GTE-tinyは、質問とパッセージを共有ベクトル空間にエンコードして、与えられたクエリに最も適した回答パッセージを迅速に特定する質疑応答システムに活用できます。テキスト要約システムは、GTE-tinyを使用して長文ドキュメントから要約を生成することができます。機械学習モデル向けの著名なオープンソースリポジトリであるHugging Faceは、GTE-tinyをダウンロードできるよう提供しています。さらに、新しいソフトウェアや既存のソフトウェアでの実装も簡単です。GTE-tinyは新しいモデルですが、既にいくつかの下流アプリケーションで成功を収めています。アリババのDAMOアカデミーは、GTE-tinyのパフォーマンスを最適化するために開発中でもあります。テキスト埋め込みモデルや関連する下流タスクを作成する研究者や開発者にとって、GTE-tinyは貴重なツールです。 GTE-tinyは、多くの異なるアプリケーションに適用できる堅牢で柔軟なテキスト埋め込みモデルです。コンパクトで高速なモデルが最も効果的に利用される用途には優れた選択肢となります。 “`

「先進的なマルチモーダル生成AIの探求」

イントロダクションテクノロジーの進歩する現代において、興奮すべき展開が現れています – 高度なマルチモーダルジェネレーティブAI。この最先端技術は、コンピューターをより革新的かつ優れたものにし、コンテンツの生成と理解を促進するものです。テキスト、画像、音声とシームレスに連携し、情報を生成するデジタルアシスタントを想像してみてください。この記事では、この技術がリアルタイム／実用的な応用や例でどのように機能するかを見ていき、さらには簡単なコードスニペットを提供して理解可能な形で説明します。それでは、進んで高度なマルチモーダルジェネレーティブAIの世界にダイブしましょう。出典- Microsoft 次のセクションでは、入力から融合、そして出力というマルチモーダルAIのコアモジュールを解き明かし、この技術がシームレスに機能する仕組みについて明確な理解を得ましょう。さらに、その能力と実世界での使用例を示す実用的なコード例も探求します。マルチモーダルAIは、私たちが想像してきた方法で機械が理解し、コミュニケーションするようになる、よりインタラクティブでクリエイティブかつ効率的なデジタル時代への飛躍です。学習目標シンプルな用語で高度なマルチモーダルジェネレーティブAIの基礎を理解する。入力、融合、出力モジュールを通じてマルチモーダルAIがどのように機能するかを探求する。実際のコード例を通じてマルチモーダルAIの内部機能を理解する。実世界の使用例についてマルチモーダルAIの実際のアプリケーションを探求する。シングルモーダルAIとマルチモーダルAIの違いとそれらの能力を区別する。実際のシナリオでマルチモーダルAIを展開する際に考慮すべき要素に深入りする。この記事はデータサイエンスブログマラソンの一環として公開されました。高度なマルチモーダルジェネレーティブAIの理解出典- LinkedIn あなたが信じられないほど賢く、さまざまな方法であなたを理解するロボットの友達、ロビーがいると想像してみてください。ビーチでの楽しい一日の面白い話をロビーに伝えたい場合、話しかける、アート/絵を描く、写真を見せるなど、さまざまな方法で彼とコミュニケーションすることができます。そして、ロビーはあなたの言葉、画像、その他を理解/ゲットすることができます。異なる方法でコミュニケーションし理解する能力が「マルチモーダル」の本質です。マルチモーダルAIはどのように機能するのか？マルチモーダルAIは、テキスト、画像、音声など、さまざまなデータモードでコンテンツを理解し生成するように設計されています。これを実現するために、次の3つの主要なモジュールを使用します。出典- Daffodil 入力モジュール…

ハスデックスとステーブルディフュージョン：2つのAI画像生成モデルを比較

「HasdxとStable Diffusionは、さまざまなユースケース、コスト、機能などを考慮して、最高のテキストから画像への変換モデルの一部として、どのように優れているのか」

「中国、新たな規制提案でAIデータのセキュリティに目を向ける」

データセキュリティは特に人工知能（AI）のような影響力のある分野で最も重要ですこれを認識し、中国は新たな草案規制を提示し、AIモデルトレーニングプロセスにおけるデータセキュリティの重要性を強調しています10月11日に公表されたこの草案は、単一の組織から生じたものではなく、 [...]

「Googleは、ヘルスケアとライフサイエンスの機能を備えたVertex AI検索をアップデートしました」

ヘルスケアの領域において、人工知能（AI）の登場は効率と精度の新時代を予感させる光明塔となっています。Google Cloudは、医療のリーダーと連携し、AI技術の進歩を牽引しており、ヘルスケアとライフサイエンスの景色を変える準備が整っています。業務の効率化から医療研究の加速まで、この驚異的な技術の可能性は無限であり、より健康的で充実した人生を約束しています。ヘルスケアにおけるgen AIの最も直接的な適用の1つは、重要な情報にアクセスし、洞察を得る能力を個人に与えることです。Google CloudのVertex AI検索を介して、医療従事者は今や医療に特化したAIの力を活かして、FHIRデータ、臨床ノート、電子健康記録（EHR）などのさまざまなソースから正確な臨床情報を効率的に抽出することができます。この検索機能の進歩は、医療従事者が重要な情報を見落とす可能性のある構造化および非構造化の大量のデータを処理するという課題に対応しています。ライフサイエンス企業にとっても、gen AIは業務改善の原動力となり、プレシジョンメディシンの進化を支えます。Vertex AI検索のGoogle CloudヘルスケアAPIとヘルスケアデータエンジンとの統合により、この進歩がさらに強化され、保険便宜性および責任法（HIPAA）の厳しい要件に準拠することが保証されます。ヘルスケアの先駆者であるHighmark Healthは、ヘルスケアの体験がトップティアの小売業者から期待されるシームレスな関与を反映する未来を見据えています。彼らのLiving Healthモデルを通じて、Highmark Healthは生成AIを活用して内部の生産性や情報の利便性、医療従事者およびメンバーの総合的な体験を向上させることを目指しています。Vertex AIと大規模言語モデル（LLM）の統合は、前例のないスケールでメンバーマテリアルやその他の一般公開情報を個別化することを約束しています。ヘルスケア部門の重要な存在であるHackensack Meridian Healthは、重要なデータ、アプリケーション、およびリソースをGoogle Cloudに移行することで、ITの近代化に大きな進展を遂げています。この移行によって、柔軟性と信頼性、セキュリティが強化され、多様なデータソースからの洞察が解き放たれ、発見とイノベーションが加速されます。このパートナーシップは、Hackensack Meridian HealthとGoogle Cloudの幅広い協力関係を築き上げており、AIの活用、データ分析、生産性ソフトウェアなどに及んでいます。看護師や医療従事者の疲弊と人手不足という全国的な課題に応えるため、care.aiは生成AIに基づく解決策を提供しています。Googleの大規模言語モデルを活用した彼らのSmart Care…

メタ AI 研究者たちは、非侵襲的な脳記録から音声知覚のデコーディングを探求するための機械学習モデルを紹介します

脳活動からの音声の解読は、医療や神経科学の分野で長い間の目標であり、侵襲的な装置を用いた研究によって最近進展しています。侵襲的な録音に基づいて訓練された深層学習アルゴリズムは、基本的な言語要素を解読することができます。しかし、これを自然な音声や非侵襲的な脳活動の録音にまで拡張することは困難です。Metaの研究者は、自然な音声を非侵襲的な録音から解読するために対照的学習を用いた機械学習モデルを紹介しています。彼らの手法は4つのデータセットを組み合わせ、有望な結果を達成し、侵襲的な手順なしで脳活動からの言語解読の可能性を提供しています。これには医療や神経科学への影響があります。研究者は、侵襲的な装置による言語要素の解析の成功を基に、非侵襲的な脳活動の録音から音声を解読することを探究しています。その手法は、自己教師あり音声表現の解読に対して対照的学習モデルを紹介しています。侵襲的な研究との比較によって彼らの方法はより広範な語彙を示し、音声制作への応用の可能性についても議論されています。健康な成人ボランティアのデータセットについて倫理的承認が得られています。非侵襲的な脳活動の録音からの音声の解読は、医療や神経科学において重要な課題です。侵襲的な装置が進展している一方で、自然な音声にまで拡張することは困難です。彼らの手法は、非侵襲的なデータから自己教師あり音声表現を解読するための対照的学習モデルを紹介しています。彼らの進歩は、侵襲的な手続きなしで脳活動からの言語解読の可能性を示しています。彼らの手法は、非侵襲的な脳活動の録音から知覚された音声を解読するためのニューラルデコーディングタスクを紹介しています。このモデルは、MEGまたはEEGで物語を聞きながら記録された175人のボランティアからのデータを使用して訓練および評価されています。一般的な畳み込みアーキテクチャを使用し、複数の参加者に対して同時に訓練されています。基準との比較は、対照的な目的および事前訓練された音声表現の重要性を強調しています。また、デコーダーの予測は主に語彙的および文脈的な意味表現に依存しています。解読の精度は参加者やデータセットによって異なります。単語レベルの予測では、正しい単語の識別と負の候補からの識別が正確であることが示されました。基準との比較により、対照的な目的、事前訓練された音声表現、共有畳み込みアーキテクチャの重要性が強調され、解読の精度が向上しています。デコーダーの予測は主に語彙的および文脈的な意味表現に依存しています。研究者は、非侵襲的な脳活動の録音から知覚された音声を解読するための対照的学習モデルを紹介しています。彼らのモデルは、音声セグメントの識別において平均精度が最大41％、最も優れた参加者において最大80％の精度を達成し、有望な結果を示しています。基準との比較により、対照的な目的、事前訓練された音声表現、共有畳み込みアーキテクチャの重要性が強調されています。デコーダーの予測は主に語彙的および文脈的な意味表現に依存しています。彼らの研究は、医療や神経科学の応用における非侵襲的な言語解読の可能性を持っています。今後の研究では、参加者やデータセットにおける解読の精度のばらつきに寄与する要因を明らかにする必要があります。より複雑な言語属性やリアルタイムの音声認識シナリオを解決するためのモデルのパフォーマンスを調査することが不可欠です。さまざまな脳活動の録音または画像化技術へのモデルの汎用性を評価することも重要です。韻律や音声学的な特徴を捉える能力を探究することにより、音声解読について包括的な理解を提供することができます。

「Googleが最新のVertex AI検索を発表：医療プロバイダに革新をもたらすゲームチェンジャー」

HLTH 2023において画期的な発表がありました。Googleは、健康産業およびライフサイエンスプロバイダー向けに特化したVertex AIの検索機能を導入することにより、医療業界の革命の舞台を設けました。この革新は、患者データへのアクセス方法や医療クエリの回答方法を変革することを約束しています。詳細について探ってみましょう。医療の検索における新時代 GoogleのVertex AIプラットフォームがこの技術的飛躍の最前線に立ちます。これは、健康産業およびライフサイエンス企業が効率的に患者データを検索できる強力な生成型AI機能を備えています。これには、FHIRデータや臨床ノートなどの重要な臨床情報源も含まれます。また、この革新はGoogleの大規模な医療言語モデル、Med-PaLM 2との統合により、他の革新とは一線を画しています。【関連記事】GoogleのMed-PaLM 2は最先端の医療AIになるでしょう Vertex AIとMed-PaLMの解説 Vertex AIはカスタマイズ可能な検索エンジンであり、生成型AI対応の検索エンジンの作成を組織に可能にする革新的な技術です。これは、特に医療分野での顧客の検索体験を設計する柔軟性を提供します。一方、Med-PaLM 2は、Googleの大規模言語モデル（LLMs）の力を活用した生成型AI技術です。このデジタルの驚異は複雑な医療質問に答えることができ、正確かつ効率的な医療ソリューションにとって貴重な資産となります。【詳細はこちら】医療における生成型AI ホリスティックな医療クエリのアプローチ Vertex AI SearchとMed-PaLM 2の融合により、医療提供者が回答を求める方法にパラダイムシフトがもたらされました。患者特定の医療問い合わせや一般的な医療質問に対して、このダイナミックなデュオがカバーしています。効率とケアの品質の向上 Google CloudのクラウドAIおよび業界ソリューションのVP兼GMであるBurak…

「比喩的に言えば、ChatGPTは生きている」

ChatGPTの成長は年々劇的に進んできました最近、OpenAIはChatGPTが聞くこと、見ること、話すことができるようになったことを発表しましたOpenAIのChatGPTがインターネット上に登場しましたその２か月後には、さらに…

Learn more about Search Results A - Page 159