Search Results BART

Mozilla Common Voiceでの音声言語認識-第II部：モデル

これはMozilla Common Voiceデータセットに基づく音声認識に関する2番目の記事です最初の部分ではデータの選択と最適な埋め込みの選択について議論しましたさて、いくつかのトレーニングを行いましょう...

「Hugging Face Transformersライブラリを解剖する」

これは、実践的に大規模言語モデル（LLM）を使用するシリーズの3番目の記事ですここでは、Hugging Face Transformersライブラリについて初心者向けのガイドを提供しますこのライブラリは、簡単で...

「ソースフリーなドメイン適応の汎用的な方法を探求する」

Google の研究科学者であるエレニ・トリアンタフィルーと学生研究員であるマリック・ブディアフによって投稿されました。ディープラーニングは、最近多くの問題とアプリケーションで著しい進歩を遂げていますが、モデルは未知のドメインや分布で展開された場合に予測不能に失敗することがよくあります。ソースフリーなドメイン適応（SFDA）は、事前にトレーニングされたモデル（「ソースドメイン」でトレーニングされたもの）を新しい「ターゲットドメイン」に適応させるための方法を、後者の非ラベルデータのみを使用して設計するための研究分野です。ディープモデルに対する適応方法の設計は、重要な研究分野です。モデルとトレーニングデータセットの規模の増加が彼らの成功の鍵要素である一方で、この傾向の否定的な結果は、このようなモデルのトレーニングがますます計算コストがかかるということであり、一部の場合では大規模なモデルのトレーニングがアクセスしにくくなり、不必要に炭素フットプリントを増加させることになります。この問題を緩和する方法の一つは、既にトレーニングされたモデルを活用して新しいタスクに対処したり、新しいドメインに一般化するための技術を設計することです。実際、モデルを新しいタスクに適応することは、転移学習の枠組みの下で広く研究されています。 SFDAは、適応が望まれるいくつかの実世界のアプリケーションにおいて、ターゲットドメインからのラベル付きの例が利用できないという問題に直面しています。実際、SFDAは増加している注目を集めています[1, 2, 3, 4]。しかし、野心的な目標に基づいているものの、ほとんどのSFDAの研究は非常に狭い枠組みに基づいており、画像分類タスクでの単純な分布シフトのみを考慮しています。この傾向から大きく逸脱し、私たちはバイオアコースティクスの分野に注目し、自然発生的な分布シフトが広く存在し、しばしばターゲットドメインのラベル付きデータが不十分で、実践者にとって障害となっていることに着目します。このアプリケーションにおけるSFDAの研究は、既存の方法の一般化可能性を学術界に知らせ、オープンな研究方向を特定するだけでなく、フィールドの実践者に直接的な利益をもたらし、私たちの世紀の最大の課題の一つである生物多様性保全に寄与することができます。この投稿では、「ソースフリーなドメイン適応の汎用的な手法を探る」と題したICML 2023で発表される論文を紹介します。私たちは、バイオアコースティクスにおける現実的な分布シフトに直面した場合、最先端のSFDAの手法が性能を発揮しない場合や崩壊する場合があることを示します。さらに、既存の手法は、ビジョンベンチマークで観察されるのとは異なる相対的なパフォーマンスを発揮し、驚くべきことに、時には適応なしよりも悪い結果を示す場合もあります。また、私たちはNOTELAという新しいシンプルな手法を提案し、これらのシフトで既存の手法を凌駕しながら、さまざまなビジョンデータセットで強力なパフォーマンスを発揮することを示します。全体として、私たちは、一般に使用されるデータセットと分布シフトのみでSFDAの手法を評価すると、相対的なパフォーマンスと汎化性能について狭視野な視点になると結論付けます。彼らの約束を果たすためには、SFDAの手法はより広範な分布シフトでテストされる必要があり、高い影響を持つアプリケーションに利益をもたらす自然発生的なシフトを考慮することを提唱します。バイオアコースティクスにおける分布シフトバイオアコースティクスでは、自然発生的な分布シフトが広く存在します。鳥の鳴き声のための最大のラベル付きデータセットはXeno-Canto（XC）であり、世界中の野生鳥のユーザー投稿の録音のコレクションです。XCの録音は「焦点化」されており、自然環境で捕獲された個体を対象としており、識別された鳥の鳴き声が前景にあります。しかし、連続的なモニタリングや追跡の目的では、実践者はしばしば全周マイクを介して得られる「サウンドスケープ」における鳥の識別に関心を持っています。これは非常に困難であることを最近の研究が示しているよく文書化された問題です。この現実的なアプリケーションに着想を得て、私たちはバイオアコースティクスでSFDAを研究し、ソースモデルとしてXCで事前にトレーニングされた鳥種分類器を使用し、さまざまな地理的位置からの「サウンドスケープ」（シエラネバダ（S.ネバダ）、パウダーミル・ネイチャーリザーブ（ペンシルベニア州、米国）、ハワイ、カプレス・ウォーターシェッド（カリフォルニア州、米国）、サプサッカー・ウッズ（ニューヨーク州、米国）、コロンビア）をターゲットドメインとして使用します。この焦点化から受動化への変化は大きいです。後者の録音では、しばしば信号対雑音比が低く、複数の鳥が同時に鳴いており、雨や風などの多くの鳥や環境の雑音もあります。さらに、異なるサウンドスケープは異なる地理的位置から発生しており、XCの種の非常に小さな部分しか表示されないため、非常に極端なラベルのシフトを引き起こします。さらに、現実のデータでは、ソースドメインとターゲットドメインの両方が顕著なクラスの不均衡を持っているため、いくつかの種は他の種よりも著しく一般的です。さらに、SFDAが通常研究される標準的な単一ラベルの画像分類シナリオとは異なり、各録音内で複数の鳥が識別される可能性があるため、私たちはマルチラベル分類問題も考慮しています。「フォーカス→サウンドスケープ」のシフトのイラストです。フォーカスされた領域では、録音は通常、シグナル対雑音比（SNR）が高い、単一の鳥の鳴き声が前景に捉えられていますが、背景には他の鳥の鳴き声がある場合もあります。一方、サウンドスケープには全方位マイクロフォンからの録音が含まれ、同時に複数の鳥が鳴き、昆虫や雨、車、飛行機などの環境音も含まれることがあります。オーディオファイルフォーカス領域サウンドスケープ領域1 スペクトログラム画像フォーカス領域（左）からサウンドスケープ領域（右）への分布の変化を、各データセットからの代表的な録音のオーディオファイル（上）とスペクトログラム画像（下）で示したものです。2つ目のオーディオクリップでは、鳥の鳴き声が非常にかすかです。これは、サウンドスケープ録音では鳥の鳴き声が「前景」にないことが一般的な特徴です。クレジット：左：Sue…

Acoustic Modeling

「会話型AIのLLM：よりスマートなチャットボットとアシスタントの構築」

イントロダクション言語モデルは、技術と人間が自然な会話を行う魅力的なConversational AIの世界で中心的な役割を果たしています。最近、Large Language Models（LLMs）という注目すべきブレークスルーがありました。OpenAIの印象的なGPT-3のように、LLMsは人間のようなテキストを理解し生成するという非凡な能力を示しています。これらの素晴らしいモデルは、特によりスマートなチャットボットやバーチャルアシスタントの作成において、ゲームチェンジャーとなりました。このブログでは、LLMsがConversational AIにどのように貢献しているかを探求し、その潜在能力を示すための理解しやすいコード例を提供します。さあ、LLMsが仮想的なインタラクションをより魅力的で直感的にする方法を見てみましょう。学習目標 Large Language Models（LLMs）の概念と、Conversational AIの能力向上における重要性を理解する。 LLMsがチャットボットやバーチャルアシスタントが人間のようなテキストを理解し生成することを可能にする方法を学ぶ。プロンプトエンジニアリングの役割を探求し、LLMベースのチャットボットの動作をガイドする。伝統的な方法に比べてLLMsの優位性を認識し、チャットボットの応答を改善する。 LLMsを活用したConversational AIの実用的な応用を発見する。この記事はData Science Blogathonの一部として公開されました。 Conversational AIの理解 Conversational AIは、人工知能の革新的な分野であり、自然で人間らしい方法で人間の言語を理解し応答する技術の開発に焦点を当てています。自然言語処理や機械学習などの高度な技術を使用して、Conversational…

「ICML 2023でのGoogle」

Cat Armatoさんによる投稿、Googleのプログラムマネージャー Googleは、言語、音楽、視覚処理、アルゴリズム開発などの領域で、機械学習（ML）の研究に積極的に取り組んでいます。私たちはMLシステムを構築し、言語、音楽、視覚処理、アルゴリズム開発など、さまざまな分野の深い科学的および技術的な課題を解決しています。私たちは、ツールやデータセットのオープンソース化、研究成果の公開、学会への積極的な参加を通じて、より協力的なエコシステムを広範なML研究コミュニティと構築することを目指しています。 Googleは、40回目の国際機械学習会議（ICML 2023）のダイヤモンドスポンサーとして誇りに思っています。この年次の一流学会は、この週にハワイのホノルルで開催されています。ML研究のリーダーであるGoogleは、今年の学会で120以上の採択論文を持ち、ワークショップやチュートリアルに積極的に参加しています。Googleは、LatinX in AIとWomen in Machine Learningの両ワークショップのプラチナスポンサーでもあることを誇りに思っています。私たちは、広範なML研究コミュニティとのパートナーシップを拡大し、私たちの幅広いML研究の一部を共有することを楽しみにしています。 ICML 2023に登録しましたか？私たちは、Googleブースを訪れて、この分野で最も興味深い課題の一部を解決するために行われるエキサイティングな取り組み、創造性、楽しさについてさらに詳しく知ることを願っています。 GoogleAIのTwitterアカウントを訪れて、Googleブースの活動（デモやQ&Aセッションなど）について詳しく知ることができます。Google DeepMindのブログでは、ICML 2023での技術的な活動について学ぶことができます。以下をご覧いただき、ICML 2023で発表されるGoogleの研究についてさらに詳しくお知りください（Googleの関連性は太字で表示されます）。理事会および組織委員会理事会メンバーには、Corinna Cortes、Hugo Larochelleが含まれます。チュートリアルの議長には、Hanie Sedghiが含まれます。 Google…

「犯罪者がWormGPT（ダークウェブのChatGPT）を利用する恐ろしい4つの方法」

「WormGPTは、倫理的な制約や制限を持たないダークウェブ上のAIパワードチャットボットです」

「Prompt Diffusionを紹介する：拡散ベースの生成モデルにおけるコンテキスト内学習を可能にするAIフレームワーク」

最新の大規模言語モデル（LLM）であるBERT、GPT-2、BART、T5、GPT-3、およびGPT-4は、機械学習の最近の進歩、特に自然言語処理（NLP）の領域での進歩により開発されました。これらのモデルは、テキスト生成、機械翻訳、感情分析、質問応答などのさまざまなタスクに効果的に使用されています。コンテキストから学習する能力、つまりコンテキスト学習は、これらのLLMの新興動作の1つです。モデルパラメータを最適化せずに、GPT-3のようなコンテキスト学習能力を持つLLMは、入力-出力のサンプルと新鮮なクエリ入力に基づいてジョブを完了することができます。多くの言語タスクの事前トレーニングをコンテキスト学習と適切なプロンプト構造と組み合わせることで、LLMは未経験の活動にも成功裏に一般化することができます。コンテキスト学習はNLPで広く研究されていますが、コンピュータビジョンの応用はほとんど存在しません。コンテキスト学習の実用性と将来性を優れたビジョンアプリケーションの標準的な手法として示すためには、2つの重要な困難があります: 1) ビジョンプロンプトを効果的に作成することは、言語活動のプロンプトを作成するよりも困難です。なぜなら、ドメイン固有の入出力ペアを例として、画像検索を基準とする必要があるからです。 2) コンピュータビジョンでは、テキストから画像生成、クラス条件付き生成、セグメンテーション、検出、分類などの特化されたタスクのために大規模なモデルがしばしばトレーニングされます。これらの大規模ビジョンモデルは、新しいタスクに適応するために柔軟性を持たせる必要があり、コンテキスト学習のために構築されていません。最近のいくつかの試みでは、NLPの回答を使用してこれらの問題に取り組んでいます。具体的には、サンプル写真、クエリ画像、出力画像を1つの巨大な具現化体に統合することによって基本的な視覚的手がかりを作成し、Transformerベースの画像補完モデルをトレーニングして、マスクされた出力画像を予測します。しかし、巨大な写真へのステッチングは、特に高解像度の場合には計算負荷を大幅に増加させます。この作業では、テキストガイドの拡散ベースの生成モデルのコンテキスト学習の潜在能力に取り組むことで、これらの2つの問題に対処します。幅広いビジョン言語アクティビティを扱うことができるビジョン言語プロンプトの下でコンテキスト学習を実行するために、MicrosoftとUT Austinの研究者はPrompt Diffusionという新しいモデルアーキテクチャを提案しています。Prompt Diffusionは、6つの個別のビジョン言語タスクを同時に実行します。具体的には、彼らはビジョン言語プロンプトを使用して一般的なビジョン言語タスクを説明します。そして、Stable DiffusionとControlNetの設計を参考にして、ビジョン言語プロンプトを入力として使用するPrompt Diffusionを構築します。Prompt Diffusionをテキストガイドの拡散モデルのコンテキスト学習の能力を可能にする第一歩として提案しています。その後、この知識を使用して、クエリ画像に接続を再マッピングし、言語の指示を含めることで、出力画像を作成することができます。さらに重要なことに、多くのタスクを学習することにより、Prompt Diffusionはコンテキスト学習の能力を持つモデルになります。Prompt Diffusionは、まだ観察されていないいくつかの新しい機能に対しても成功裏に一般化することができます。これは、トレーニング中に6つのタスクで優れたパフォーマンスを発揮することに加えてです。実証的には、Prompt Diffusionはコンテキスト学習に関する既知および未知のタスクで優れたパフォーマンスを発揮します。Prompt Diffusionの有効性は、拡散ベースのコンテキストビジュアル学習に対するより多くの研究を促進することが期待されています。以下は、彼らの主な貢献の概要です: • 複数のビジョン言語アクティビティを効果的に統合することを可能にするビジョン言語プロンプトの最新の設計。 • プロンプト拡散モデルを使用した学習済みおよび新しい未知のタスクにおける高品質なコンテキスト生成。これは、コンテキスト学習が可能な最初の拡散ベースの適応型ビジョン言語基盤モデルです。 •…

「鳩の中に猫を投げ込む？大規模言語モデルによる人間の計算の補完」

「語源学には常に魅了されてきました多くの場合、言葉やフレーズが私たちが非常に馴染んでいる意味を獲得する過程には、興味深いストーリーがあります変化を経て…」

マイクロソフトとコロンビア大学の研究者が提案する「LLM-AUGMENTER」は、ブラックボックスLLMに一連のプラグアンドプレイモジュールを追加するAIシステムです

大規模言語モデル（LLM）の例としてGPT-3は、広範な世界知識を持つため、一貫性のある情報豊かな自然言語テキストを生成する能力について広く認識されています。しかし、LLMにこの知識をエンコードすることは情報の損失を伴い、メモリの歪曲を引き起こし、使命遂行上重要なタスクに悪影響を及ぼす幻覚を引き起こすことがあります。さらに、一部のアプリケーションにはLLMが必要な情報をすべてエンコードすることができず、ニュースの質問応答のような時間的に敏感なタスクには適していません。外部の知識を使用してLLMを強化するためのさまざまな手法が提案されてきましたが、これらは通常、LLMパラメータの微調整を必要とするため、高額な費用がかかることがあります。そのため、使命遂行上のタスクでパフォーマンスを向上させるために固定のLLMに追加できるプラグアンドプレイモジュールが必要です。本論文では、大規模言語モデル（LLM）を使命遂行上のアプリケーションに適用する課題に取り組むためのLLM-AUGMENTERというシステムを提案しています。このシステムは、タスク固有のデータベースに格納された外部の知識を用いてブラックボックスLLMを拡張するためのプラグアンドプレイモジュールを備えています。また、LLMが生成した応答の信憑性スコアを向上させるために、ユーティリティ関数によって生成されるフィードバックを用いた反復的なプロンプトの修正も含まれています。このシステムの有効性は、タスク指向の対話およびオープンドメインの質問応答シナリオで経験的に検証されており、幻覚を大幅に減らす一方で反応の流暢さと情報量を損なうことなく改善しています。システムのソースコードとモデルは公開されています。 LLM-Augmenterのプロセスは、主に3つのステップで構成されています。まず、ユーザーのクエリが与えられると、ウェブ検索やタスク固有のデータベースなどの外部の知識源から証拠を取得します。また、取得した生の証拠を関連するコンテキストに結び付け、結合して「証拠の連鎖」を作成することもできます。次に、LLM-Augmenterは、統合された証拠を使用してChatGPTなどの固定LLMにプロンプトを与え、証拠に基づいた応答を生成します。最後に、LLM-Augmenterは生成された応答をチェックし、対応するフィードバックメッセージを作成します。このフィードバックメッセージは、候補の応答が検証要件を満たすまでChatGPTのクエリを修正して反復します。本研究で示されている作業は、LLMとユーザーとの相互作用に関連する外部の知識をブラックボックスLLMに効果的に追加するLLM-Augmenterアプローチを示しています。この拡張により、LLMによって生成される応答の流暢さと情報の質を損なうことなく、幻覚の問題を大幅に軽減することができます。 LLM-AUGMENTERのパフォーマンスは、情報検索対話タスクにおいて自動評価と人間の評価を使用して評価されました。モデルの出力と人間の応答の真の値との重複や、データセット収集時に参照として使用された人間の知識との重複を評価するために、Knowledge F1（KF1）やBLEU-4などの一般的に使用されるメトリックが使用されました。さらに、DSTC9およびDSTC11のカスタマーサポートタスクにおいて人間の判断と最も相関するこれらのメトリックも含まれています。また、対話のテキスト生成において最も優れたパフォーマンスを発揮するBLEURT、BERTScore、chrF、BARTScoreなどの他のメトリックも考慮されました。

「Gensimを使ったWord2Vecのステップバイステップガイド」

はじめに数か月前、Office Peopleで働き始めた当初、私は言語モデル、特にWord2Vecに興味を持ちました。ネイティブのPythonユーザーとして、私は自然にGensimのWord2Vecの実装に集中し、論文やオンラインのチュートリアルを探しました。私は複数の情報源から直接コードの断片を適用し、複製しました。私はさらに深く探求し、自分の方法がどこで間違っているのかを理解しようとしました。Stackoverflowの会話、GensimのGoogleグループ、およびライブラリのドキュメントを読みました。しかし、私は常にWord2Vecモデルを作成する上で最も重要な要素の一つが欠けていると考えていました。私の実験の中で、文をレンマ化することやフレーズ/バイグラムを探すことが結果とモデルのパフォーマンスに重要な影響を与えることを発見しました。前処理の影響はデータセットやアプリケーションによって異なりますが、この記事ではデータの準備手順を含め、素晴らしいspaCyライブラリを使って処理することにしました。これらの問題のいくつかは私をイライラさせるので、自分自身の記事を書くことにしました。完璧だったり、Word2Vecを実装する最良の方法だったりすることは約束しませんが、他の多くの情報源よりも良いと思います。学習目標単語の埋め込みと意味的な関係の捉え方を理解する。 GensimやTensorFlowなどの人気のあるライブラリを使用してWord2Vecモデルを実装する。 Word2Vecの埋め込みを使用して単語の類似度を計測し、距離を算出する。 Word2Vecによって捉えられる単語の類推や意味的関係を探索する。 Word2Vecを感情分析や機械翻訳などのさまざまな自然言語処理のタスクに適用する。特定のタスクやドメインに対してWord2Vecモデルを微調整するための技術を学ぶ。サブワード情報や事前学習された埋め込みを使用して未知語を処理する。 Word2Vecの制約やトレードオフ、単語の意味の曖昧さや文レベルの意味について理解する。サブワード埋め込みやWord2Vecのモデル最適化など、高度なトピックについて掘り下げる。この記事はData Science Blogathonの一部として公開されました。 Word2Vecについての概要 Googleの研究チームは2013年9月から10月にかけて2つの論文でWord2Vecを紹介しました。研究者たちは論文とともにCの実装も公開しました。Gensimは最初の論文の後すぐにPythonの実装を完了しました。 Word2Vecの基本的な仮定は、文脈が似ている2つの単語は似た意味を持ち、モデルからは似たベクトル表現が得られるというものです。例えば、「犬」、「子犬」、「子犬」は似た文脈で頻繁に使用され、同様の周囲の単語（「良い」、「ふわふわ」、「かわいい」など）と共に使用されるため、Word2Vecによると似たベクトル表現を持ちます。この仮定に基づいて、Word2Vecはデータセット内の単語間の関係を発見し、類似度を計算したり、それらの単語のベクトル表現をテキスト分類やクラスタリングなどの他のアプリケーションの入力として使用することができます。 Word2vecの実装 Word2Vecのアイデアは非常にシンプルです。単語の意味は、それが関連する単語と共に存在することによって推測できるという仮定をしています。これは「友だちを見せて、君が誰かを教えてあげよう」という言葉に似ています。以下はword2vecの実装例です。…

Learn more about Search Results BART - Page 4