Learn more about Search Results 22 - Page 156
- You may be interested
- 「AI時代における学術的誠実性の再考:Cha...
- 「生物カメラは画像を保存します」
- 「クラスタリング解放:K-Meansクラスタリ...
- 「Feature Store Summit 2023 プロダクシ...
- パンダのプレイブック:7つの必須の包括的...
- データアナリストのリアルライフでの確率...
- Informerを使用した多変量確率時系列予測
- 「ReactとChatGPT APIを使用して独自のAI...
- 機械学習モデルにおけるデータ過剰適合を...
- 「StackOverflowが生成型AIに対応する方法」
- Hugging Faceを使用してWav2Vec2を英語音...
- CommonCanvasをご紹介します:クリエイテ...
- 最高のウイルス対策ソフトウェア2023年
- あなたのAIカウンシルChatGPTプラグイン:...
- 「Pythonデコレータ:包括的なガイド」
宇宙からの詳細な画像は、植物に対する干ばつの影響をより明確に示します
J-WAFSの研究者たちは、遠隔センシング観測を利用して、干ばつを監視するための高解像度システムを構築しています
Pythonで絶対に犯してはいけない10の失敗
Pythonを学び始めると、多くの場合、悪い習慣に遭遇することがありますこの記事では、Python開発者としてのレベルを上げるためのベストプラクティスを学びます私が覚えているのは、私が...
I/O 2023 で発表した100のこと
Google I/O 2023はニュースとローンチで満ち溢れていましたここではI/Oで発表された100のことを紹介します
洪水予測により、より多くの人々が安全に過ごせるよう支援する
AIを活用した洪水ハブは、世界約80カ国に拡大しています
特定のデータロールに適したプログラミング言語
特定のデータロールに必要なプログラミング言語は何ですか?
FLOPsとMACsを使用して、Deep Learningモデルの計算効率を計算する
この記事では、その定義、違い、およびPythonパッケージを使用してFLOPsとMACsを計算する方法について学びます
連邦政府、自動車メーカーに対し、マサチューセッツ州の「修理の権利」法に従わないよう指示
州の修理権法は、テレマティクスサービスへのオープンアクセスを求めています
Python におけるカテゴリカル変数の扱い方ガイド
データサイエンスまたは機械学習プロジェクトでのカテゴリ変数の扱いは容易な仕事ではありませんこの種の作業には、アプリケーションの分野の深い知識と幅広い理解が必要です...
非教師あり学習シリーズ:階層クラスタリングの探索
前回の「教師なし学習シリーズ」の投稿では、最も有名なクラスタリング手法の1つであるK平均法クラスタリングについて探究しました今回の投稿では、別の手法の背後にある方法について説明します...
多言語での音声合成の評価には、SQuIdを使用する
Googleの研究科学者Thibault Sellamです。 以前、私たちは1000言語イニシアチブとUniversal Speech Modelを紹介しました。これらのプロジェクトは、世界中の何十億人ものユーザーに音声および言語技術を提供することを目的としています。この取り組みの一部は、多様な言語を話すユーザー向けにVDTTSやAudioLMなどのプロジェクトをベースにした高品質の音声合成技術を開発することにあります。 新しいモデルを開発した後は、生成された音声が正確で自然であるかどうかを評価する必要があります。コンテンツはタスクに関連し、発音は正確で、トーンは適切で、クラックや信号相関ノイズなどの音響アーティファクトはない必要があります。このような評価は、多言語音声システムの開発において大きなボトルネックとなります。 音声合成モデルの品質を評価する最も一般的な方法は、人間の評価です。テキストから音声(TTS)エンジニアが最新のモデルから数千の発話を生成し、数日後に結果を受け取ります。この評価フェーズには、聴取テストが含まれることが一般的で、何十もの注釈者が一つずつ発話を聴取して、自然な音に聞こえるかどうかを判断します。人間はテキストが自然かどうかを検出することでまだ敵わないことがありますが、このプロセスは実用的ではない場合があります。特に研究プロジェクトの早い段階では、エンジニアがアプローチをテストして再戦略化するために迅速なフィードバックが必要な場合があります。人間の評価は費用がかかり、時間がかかり、対象言語の評価者の可用性によって制限される場合があります。 進展を妨げる別の障壁は、異なるプロジェクトや機関が通常、異なる評価、プラットフォーム、およびプロトコルを使用するため、apple-to-applesの比較が不可能であることです。この点で、音声合成技術はテキスト生成に遅れを取っており、研究者らが人間の評価をBLEUや最近ではBLEURTなどの自動評価指標と補完して長年にわたって利用してきたテキスト生成から大きく遅れています。 「SQuId: Measuring Speech Naturalness in Many Languages」でICASSP 2023に発表する予定です。SQuId(Speech Quality Identification)という600Mパラメーターの回帰モデルを紹介します。このモデルは、音声がどの程度自然かを示します。SQuIdは、Googleによって開発された事前学習された音声テキストモデルであるmSLAMをベースにしており、42言語で100万件以上の品質評価をファインチューニングし、65言語でテストされました。SQuIdが多言語の評価において人間の評価を補完するためにどのように使用できるかを示します。これは、今までに行われた最大の公開努力です。 SQuIdによるTTSの評価 SQuIdの主な仮説は、以前に収集された評価に基づいて回帰モデルをトレーニングすることで、TTSモデルの品質を評価するための低コストな方法を提供できるということです。このモデルは、TTS研究者の評価ツールボックスに貴重な追加となり、人間の評価に比べて正確性は劣るものの、ほぼ即時に提供されます。 SQuIdは、発話を入力とし、オプションのロケールタグ(つまり、”Brazilian Portuguese”や”British English”などのローカライズされた言語のバリアント)を指定することができます。SQuIdは、音声波形がどの程度自然に聞こえるかを示す1から5までのスコアを返します。スコアが高いほど、より自然な波形を示します。 内部的には、モデルには3つのコンポーネントが含まれています:(1)エンコーダー、(2)プーリング/回帰層、および(3)完全接続層。最初に、エンコーダーはスペクトログラムを入力として受け取り、1,024サイズの3,200ベクトルを含む小さな2D行列に埋め込みます。各ベクトルは、時間ステップをエンコードします。プーリング/回帰層は、ベクトルを集約し、ロケールタグを追加し、スコアを返す完全接続層に入力します。最後に、アプリケーション固有の事後処理を適用して、スコアを再スケーリングまたは正規化して、自然な評価の範囲である[1、5]の範囲内に収まるようにします。回帰損失で全モデルをエンドツーエンドでトレーニングします。…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.