Learn more about Search Results リソース - Page 2

「3年間の経験から厳選された130の機械学習のテクニックとリソース(さらに無料のeBookも含む)」

データサイエンスと機械学習には2つのタイプのトリックがあります:まれで非常にクールなトリックと、あなたの注意を引くために設計されていますが、最終的には使用しないでしょうなぜなら、それらの使用例は...

「データ分析の最先端にいるための私のインスピレーションを与える学習リソース5選」

「スキルと専門知識を伸ばすための10のインスピレーションを与える学習リソース」

🤗 Transformersを使用して、低リソースASRのためにXLSR-Wav2Vec2を微調整する

新着(11/2021):このブログ投稿は、XLSRの後継であるXLS-Rを紹介するように更新されました。 Wav2Vec2は、自動音声認識(ASR)のための事前学習モデルであり、Alexei Baevski、Michael Auli、Alex Conneauによって2020年9月にリリースされました。Wav2Vec2の優れた性能が、ASRの最も人気のある英語データセットであるLibriSpeechで示されるとすぐに、Facebook AIはWav2Vec2の多言語版であるXLSRを発表しました。XLSRはクロスリンガル音声表現を意味し、モデルが複数の言語で有用な音声表現を学習できる能力を指します。 XLSRの後継であるXLS-R(「音声用のXLM-R」という意味)は、Arun Babu、Changhan Wang、Andros Tjandraなどによって2021年11月にリリースされました。XLS-Rは、自己教師付き事前学習のために128の言語で約500,000時間のオーディオデータを使用し、パラメータ数が30億から200億までのサイズで提供されています。事前学習済みのチェックポイントは、🤗 Hubで見つけることができます: Wav2Vec2-XLS-R-300M Wav2Vec2-XLS-R-1B Wav2Vec2-XLS-R-2B BERTのマスクされた言語モデリング目的と同様に、XLS-Rは自己教師付き事前学習中に特徴ベクトルをランダムにマスクしてからトランスフォーマーネットワークに渡すことで、文脈化された音声表現を学習します(左側の図)。 ファインチューニングでは、事前学習済みネットワークの上に単一の線形層が追加され、音声認識、音声翻訳、音声分類などのラベル付きデータでモデルをトレーニングします(右側の図)。 XLS-Rは、公式論文のTable 3-6、Table 7-10、Table 11-12で、以前の最先端の結果に比べて音声認識、音声翻訳、話者/言語識別の両方で印象的な改善を示しています。 セットアップ このブログでは、XLS-R(具体的には事前学習済みチェックポイントWav2Vec2-XLS-R-300M)をASRのためにファインチューニングする方法について詳しく説明します。 デモンストレーションの目的で、我々は低リソースなASRデータセットのCommon Voiceでモデルをファインチューニングします。このデータセットには検証済みのトレーニングデータが約4時間しか含まれていません。…

米国AI国家研究リソース暫定報告書に関するコメント

2022年6月下旬、Hugging Faceは、米国大統領府科学技術政策局と国立科学財団の「国家人工知能研究リソース(NAIRR)タスクフォースの中間報告結果を実装するためのロードマップ」に関する情報提供依頼に回答しました。私たちは、機械学習を民主化し、あらゆるバックグラウンドがAIに貢献できるようにすることを目指すプラットフォームとして、NAIRRの取り組みを強く支持しています。 私たちの回答では、タスクフォースに以下の点を提案しています: 技術的および倫理的な専門家をアドバイザーとして指名すること 倫理的なイノベーションの実績を持つ技術的専門家をアドバイザーとして優先的に指名するべきです。彼らはNAIRRが技術的に実現可能で実施可能であり、AIシステムに必要なだけでなく、有害なバイアスや他の悪意のあるAIシステムの使用を悪化させない方法について調整することができます。Margaret Mitchell博士は、AI分野で最も優れた技術的専門家および倫理の実践者の一人であり、Hugging FaceのChief Ethics Scientistです。 リソース(モデルおよびデータ)のドキュメンテーション基準 NAIRRが提供するシステムおよびデータセットのドキュメンテーションの基準とテンプレートは、アクセシビリティを向上させ、チェックリストとして機能します。この標準化により、さまざまな対象者やバックグラウンド間での読みやすさが確保されるべきです。モデルカードは、AIモデルのドキュメンテーションのための広く採用されている構造であり、強力なテンプレートとなる可能性があります。 異分野の非技術的な専門家に対して機械学習を利用可能にすること NAIRRは、AIモデルのトレーニングなどの複雑なタスクを実行するための教育リソース、理解しやすいインターフェース、低コードまたはノーコードのツールを提供するべきです。例えば、Hugging FaceのAutoTrainは、技術的なスキルに関係なく、自然言語処理(NLP)モデルのトレーニング、評価、展開を行うことができるようにします。 悪用および悪意のある使用の可能性のあるオープンソースおよびオープンサイエンスの監視 NAIRRとアドバイザーによって被害が定義され、継続的に更新されるべきですが、それは顕著な有害なバイアス、政治的なディスインフォメーション、ヘイトスピーチを含むべきです。NAIRRはまた、リソースの誤用が発生した場合に対策を講じるために法的な専門知識に投資するべきです。 多様な研究者の視点をアクセス可能なツールとリソースによって強化すること ツールとリソースは、異なる学問分野だけでなく、責任あるイノベーションを推進するために必要な多言語と多様な視点に対して利用可能でアクセス可能でなければなりません。これは、少なくとも最も話されている言語に基づいて複数の言語でのリソース提供を意味します。Hugging Faceとフランス政府が主催する異なる学問分野からの1000人以上の研究者からなるコミュニティであるBigScience Research Workshopは、最も強力なオープンソースの多言語言語モデルの構築のために60以上の国からの視点を取り入れる良い例です。 私たちのメモは、各提案についてさらに詳細に説明しています。私たちは、責任ある方法でAIを幅広く利用できるように、さらなるリソースに熱心に取り組んでいます。

低リソースASRのためのMMSアダプターモデルの微調整

新しい(06/2023):このブログ記事は、「多言語ASRでのXLS-Rの微調整」に強く触発され、それの改良版として見なされるものです。 Wav2Vec2は、自動音声認識(ASR)のための事前学習モデルであり、Alexei Baevski、Michael Auli、およびAlex Conneauによって2020年9月にリリースされました。Wav2Vec2の強力なパフォーマンスが、ASRの最も人気のある英語データセットであるLibriSpeechで示された直後、Facebook AIはWav2Vec2の2つのマルチリンガルバージョンであるXLSRとXLM-Rを発表しました。これらのモデルは128の言語で音声を認識することができます。XLSRはクロスリンガル音声表現を意味し、モデルが複数の言語で有用な音声表現を学習する能力を指します。 Meta AIの最新リリースであるMassive Multilingual Speech(MMS)(Vineel Pratap、Andros Tjandra、Bowen Shiなどによる)は、マルチリンガル音声表現を新たなレベルに引き上げています。1,100以上の話されている言語が識別、転写、生成され、さまざまな言語識別、音声認識、テキスト読み上げのチェックポイントがリリースされます。 このブログ記事では、MMSのアダプタートレーニングが、わずか10〜20分の微調整後でも驚くほど低い単語エラーレートを達成する方法を示します。 低リソース言語の場合、私たちは「多言語ASRでのXLS-Rの微調整」と同様にモデル全体を微調整するのではなく、MMSのアダプタートレーニングの使用を強くお勧めします。 私たちの実験では、MMSのアダプタートレーニングはメモリ効率がよく、より堅牢であり、低リソース言語に対してはより優れたパフォーマンスを発揮することがわかりました。ただし、VoAGIから高リソース言語への場合は、Adapterレイヤーの代わりにモデル全体のチェックポイントを微調整する方が依然として有利です。 世界の言語多様性の保存 https://www.ethnologue.com/によると、約3000の「生きている」言語のうち、40%、つまり約1200の言語が、話者が減少しているために危機に瀕しています。このトレンドはますますグローバル化する世界で続くでしょう。 MMSは、アリ語やカイビ語など、絶滅危惧種である多くの言語を転写することができます。将来的には、MMSは、残された話者が母国語での記録作成やコミュニケーションをサポートすることで、言語を生き続けるために重要な役割を果たすことができます。 1000以上の異なる語彙に適応するために、MMSはアダプターを使用します。アダプターレイヤーは言語間の知識を活用し、モデルが別の言語を解読する際に役立つ役割を果たします。 MMSの微調整 MMSの非監視チェックポイントは、1400以上の言語で300万〜10億のパラメータを持つ、50万時間以上のオーディオで事前学習されました。 事前学習のためのモデルサイズ(300Mおよび1B)の事前学習のみのチェックポイントは、🤗 Hubで見つけることができます:…

7月号 データサイエンティストのための気候リソース

多くの人にとって、夏の訪れは以前は単純な興奮の原因でした:学校が終わる、仕事のスケジュールは少し忙しくないことが多い、ビーチでののんびりした午後や...

学校でのAI教育の台頭:現実と未来の可能性のバランス

多くの野心的なティーンエイジャーたちは、AIについて学ぶ機会をより充実させるよう学校に提唱しています

チャットボットは学校での不正行為を助長しているのか?最新の研究結果が驚くべき結果を明らかにしています

「スタンフォード大学の研究者によると、ChatGPTなどのA.I.ツールの使用は高校での不正行為の増加にはつながらなかったということが分かりましたこの結果は、この種のツールの効果的かつ倫理的な使用を証明する上で非常に価値があります」

安定した拡散:インテリアデザインの芸術をマスターする

この速い世界で、パンデミックの後、私たちの多くは、現実から逃れるための心地よい環境を持つことがどれだけ貴重で、追求すべき目標であるかを実感しましたそれが家であろうと、外であろうと、私たちの日常生活において居心地の良い場所を作り出すことは、心の安息であり、幸福感を与えてくれるのです

「MongoDBの時系列コレクションとAmazon SageMaker Canvasで洞察力の向上を加速する」

これは、MongoDBのBabu Srinivasanと共同執筆したゲスト投稿です現在の急速に変化するビジネスの風景では、リアルタイムの予測を行う能力の欠如は、正確かつタイムリーな洞察に重要な依存をする産業にとって、重要な課題をもたらしますさまざまな産業におけるリアルタイムの予測の欠如は、意思決定に重要な影響を与える切迫したビジネスの課題を提起します

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us