Learn more about Search Results このスクリプト - Page 6

低リソースASRのためのMMSアダプターモデルの微調整

新しい(06/2023):このブログ記事は、「多言語ASRでのXLS-Rの微調整」に強く触発され、それの改良版として見なされるものです。 Wav2Vec2は、自動音声認識(ASR)のための事前学習モデルであり、Alexei Baevski、Michael Auli、およびAlex Conneauによって2020年9月にリリースされました。Wav2Vec2の強力なパフォーマンスが、ASRの最も人気のある英語データセットであるLibriSpeechで示された直後、Facebook AIはWav2Vec2の2つのマルチリンガルバージョンであるXLSRとXLM-Rを発表しました。これらのモデルは128の言語で音声を認識することができます。XLSRはクロスリンガル音声表現を意味し、モデルが複数の言語で有用な音声表現を学習する能力を指します。 Meta AIの最新リリースであるMassive Multilingual Speech(MMS)(Vineel Pratap、Andros Tjandra、Bowen Shiなどによる)は、マルチリンガル音声表現を新たなレベルに引き上げています。1,100以上の話されている言語が識別、転写、生成され、さまざまな言語識別、音声認識、テキスト読み上げのチェックポイントがリリースされます。 このブログ記事では、MMSのアダプタートレーニングが、わずか10〜20分の微調整後でも驚くほど低い単語エラーレートを達成する方法を示します。 低リソース言語の場合、私たちは「多言語ASRでのXLS-Rの微調整」と同様にモデル全体を微調整するのではなく、MMSのアダプタートレーニングの使用を強くお勧めします。 私たちの実験では、MMSのアダプタートレーニングはメモリ効率がよく、より堅牢であり、低リソース言語に対してはより優れたパフォーマンスを発揮することがわかりました。ただし、VoAGIから高リソース言語への場合は、Adapterレイヤーの代わりにモデル全体のチェックポイントを微調整する方が依然として有利です。 世界の言語多様性の保存 https://www.ethnologue.com/によると、約3000の「生きている」言語のうち、40%、つまり約1200の言語が、話者が減少しているために危機に瀕しています。このトレンドはますますグローバル化する世界で続くでしょう。 MMSは、アリ語やカイビ語など、絶滅危惧種である多くの言語を転写することができます。将来的には、MMSは、残された話者が母国語での記録作成やコミュニケーションをサポートすることで、言語を生き続けるために重要な役割を果たすことができます。 1000以上の異なる語彙に適応するために、MMSはアダプターを使用します。アダプターレイヤーは言語間の知識を活用し、モデルが別の言語を解読する際に役立つ役割を果たします。 MMSの微調整 MMSの非監視チェックポイントは、1400以上の言語で300万〜10億のパラメータを持つ、50万時間以上のオーディオで事前学習されました。 事前学習のためのモデルサイズ(300Mおよび1B)の事前学習のみのチェックポイントは、🤗 Hubで見つけることができます:…

トロント大学の研究者たちは、3300万以上の細胞リポジトリ上で生成事前学習トランスフォーマーに基づいたシングルセル生物学のための基礎モデルであるscGPTを紹介しました

自然言語処理とコンピュータビジョンは、生成学習済みモデルが驚異的に成功した分野の例の一部です。特に、基盤モデルを構築するための実行可能な戦略は、様々な大規模データセットを事前学習されたトランスフォーマーと組み合わせることです。この研究では、言語と生物構造(テキストが遺伝子を構成し、それぞれ単語と細胞を特徴付ける)の関連性を引き出すことで、基盤モデルが細胞生物学と遺伝学のさらなる研究を促進する可能性を調査しています。研究者たちは、シングルセル配列データの増加するデータベースを横断する生成学習済みトランスフォーマーに基づくシングルセル生物学のための基盤モデルであるscGPTを構築する最前線にいます。結果は、事前学習された生成トランスフォーマーであるscGPTが、遺伝子と細胞に関連する重要な生物学的洞察を効率的に抽出することを示しています。転移学習を新たな方法で使用することで、スクリプトはさまざまなアプリケーションで改善することができます。これらの課題には、遺伝子ネットワークの推論、遺伝子の変異予測、およびマルチバッチ統合が含まれます。scGPTのソースコードを表示する。 一つ一つの細胞の詳細な特性を容易にし、疾患の発症機序の理解、特異的な細胞系譜の追跡、病原性の解明、および患者固有の治療アプローチの開発に貢献するシングルセルRNAシーケンシング(scRNA-seq)は、細胞性の異質性の調査、系譜の追跡、病原性の解明、および患者固有の治療アプローチの開発への道を切り拓きます。 シーケンシングデータの指数関数的な増加を考慮すると、これらの新しいトレンドを効果的に活用し、適応する方法を作成することが急務です。基盤モデルの生成学習は、この困難を克服するための効果的な戦略です。大規模なデータセットから学習する生成学習は、最近さまざまなドメインで驚異的な成功を収めています。人気のある用途には、自然言語生成(NLG)とコンピュータビジョンがあります。これらのベースラインモデルには、DALL-E2やGPT-4などがあります。これらは大規模な異種データセットでトランスフォーマーを事前学習し、特定の下流タスクとシナリオに簡単に適応できるという原則に基づいています。さらに、これらの事前学習された生成モデルは常にカスタムトレーニングされたモデルよりも優れた性能を発揮します。 研究者たちは、NLGの自己教師あり事前学習手法からヒントを得て、大量のシングルセルシーケンシングデータのモデリングを改善しています。自己注意トランスフォーマーは、テキストの入力トークンをモデリングするための有用で効率的なフレームワークであることが証明されています。 100万以上の細胞で生成学習を行うことにより、これらの科学者たちは、シングルセル基盤モデルであるscGPTを構築する初めての試みを提供しています。彼らは、方法論とエンジニアリングの問題の両方に対処し、大量のシングルセルオミックスデータの事前学習を行うための新しいアプローチを示しています。彼らは、数百のデータセットを格納するためのクイックアクセスを持つインメモリデータ構造を使用して、大量のデータに対処することができます。彼らはトランスフォーマーアーキテクチャを修正して、細胞と遺伝子の表現を同時に学習し、非順序のオミックスデータに適した統一された生成学習アプローチを構築します。また、事前学習モデルをさまざまな下流タスクで使用できるようにするために、モデルの微調整用にタスク固有の目的を持つ標準パイプラインも提供します。 これらの3つのコンポーネントを通じて、scGPTモデルはシングルセル基盤コンセプトの革新的なポテンシャルを示しています。それは、scGPTから始まる、さまざまな下流活動への転移学習をサポートする最初の大規模な生成基盤モデルです。彼らは、細胞型注釈、遺伝子変異予測、バッチ補正、およびマルチオミックス統合において最先端のパフォーマンスを達成することで、シングルセルオミクスの計算アプリケーションに対する「普遍的な事前学習、オンデマンドでの微調整」アプローチの有効性を実証しています。 特に、scGPTはscATAC-seqデータや他のシングルセルオミクスを組み込むことができる唯一のベースモデルです。第二に、scGPTは、洗練されたモデルと生の事前学習モデルの遺伝子の埋め込みと注意の重みを比較することで、特定の条件下での遺伝子間相互作用に関する重要な生物学的洞察を明らかにします。第三に、結果はスケーリングの法則を示しており、事前学習フェーズでより多くのデータを使用することにより、より良い事前学習埋め込みとより高い下流タスクのパフォーマンスが得られます。この発見は、基盤モデルが研究コミュニティに利用可能なシーケンシングデータがますます利用可能になるにつれて着実に改善する可能性を強調しています。これらの結果を踏まえて、彼らは、事前学習された基盤モデルを使用することで細胞生物学の知識を大幅に増やし、この分野の将来の進歩の基礎を築くことができるという仮説を立てています。scGPTモデルとワークフローを一般に公開することで、これらおよび関連する分野の研究が強化され、加速されます。 このスクリプトは、研究者によって説明されたように、大量のシングルセルデータを理解するために事前学習されたトランスフォーマーを使用する新しい生成学習済み基盤モデルです。chatGPTやGPT4などの言語モデルで、自己教師あり事前学習が効果的であることが証明されています。シングルセルの研究では、彼らは同じ戦略を使って複雑な生物学的な関係を解読しました。細胞の異なる側面をよりよくモデリングするために、scGPTはトランスフォーマーを使用して遺伝子と細胞の埋め込みを同時に学習します。シングルセルGPT(scGPT)は、トランスフォーマーの注意機構を使用して、シングルセルレベルでの遺伝子間相互作用を捉え、新しい解釈可能性の次元を追加します。 研究者は、ゼロショットとファインチューニングのシナリオでの包括的な研究を行い、事前トレーニングの価値を証明しました。訓練されたモデルは、任意のデータセットの特徴抽出器として既に機能します。ゼロショットの研究では、顕著な細胞塊が表示される印象的な外挿能力が示されました。さらに、scGPTの学習済み遺伝子ネットワークと以前に確立された機能関係の間には高い一致度があります。私たちは、遺伝子間相互作用を捉え、既知の生物学的情報を効果的に反映するモデルの適切な発見能力を信じています。また、いくつかのファインチューニングを行うことで、事前トレーニングされたモデルによって学習された情報をさまざまな後続タスクに活用することができます。最適化されたscGPTモデルは、セルタイプの注釈、マルチバッチ、マルチオミック統合といったタスクで、スクラッチからトレーニングされたモデルを定期的に上回ります。これにより、事前トレーニングされたモデルが精度と生物学的関連性を向上させることで、後続タスクへの利益が示されます。全体的に、テストはscGPTの事前トレーニングの有用性を示し、一般化能力、遺伝子ネットワークの把握、転移学習を活用した後続タスクの性能向上の能力を示しています。 主な特徴 ジェネラリスト戦略により、シングルセル研究において統合されたマルチオミック解析とパーティクル予測を単一のモデルで実行することができます。 学習済みの注意重みと遺伝子埋め込みを使用して、特定の条件下での遺伝子間相互作用を特定することができます。 データ量の増加とともにモデルの性能が持続的に向上するスケーリング則を特定しました。 scGPTモデルゾーには、さまざまな実質的な臓器用の多くの事前トレーニング済み基礎モデル(GitHub参照)と包括的なパンガンサーモデルがあります。最適な出発点モデルを使用してデータを探索を開始してください。 事前トレーニングは、マルチオミックデータ、空間オミックス、さまざまな疾患状態を含むより大規模なデータセットで行われることが期待されています。モデルは、パーティクルと時間軸データが事前トレーニングフェーズに含まれる場合、因果関係を学習し、遺伝子や細胞が時間経過に応答する方法を推定することができます。事前トレーニングモデルの学習内容をより理解し解釈するためには、広範な生物学的に有意なタスクでモデルを検証することが理想的です。さらに、単一細胞データのための文脈に関する知識を調査することを目指しています。事前トレーニングされたモデルは、ゼロショット構成で追加のファインチューニングなしで新しいジョブや環境に適応する必要があります。さまざまな研究の微妙さとユニークなニーズを理解するように教育することで、scGPTの有用性と適用範囲を多くの研究コンテキストで向上させることができます。事前トレーニングパラダイムは、シングルセル研究で容易に実装できると期待されており、急速に拡大するセルアトラスの蓄積された知識を活用するための基盤を築くものとなるでしょう。

Pythonを使用したウェブサイトモニタリングによるリアルタイムインサイトの強化

イントロダクション このプロジェクトの目的は、複数のウェブサイトの変更をモニタリングし、追跡するプロセスを自動化するPythonプログラムを開発することです。Pythonを活用して、ウェブベースのコンテンツの変更を検出し、文書化する繊細な作業を効率化することを目指しています。リアルタイムのニュース追跡、即時の製品更新、競合分析を行うために、この能力は非常に貴重です。デジタルの世界が急速に変化する中で、ウェブサイトの変更を特定することは、持続的な認識と理解を保つために不可欠です。 学習目標 このプロジェクトの学習目標は、以下のコンポーネントをカバーすることです: BeautifulSoupやScrapyなどのPythonライブラリを使用したウェブスクレイピングの方法に関する知識を向上させる。効率的にウェブサイトから価値のあるデータを抽出し、HTMLの構造をナビゲートし、特定の要素を特定し、さまざまなコンテンツタイプを処理することを目指します。 ウェブサイトのコンテンツの微妙な変化を特定するスキルを向上させる。新しくスクレイピングされたデータを既存の参照と比較して、挿入、削除、または変更を検出するための技術を学ぶことを目指します。また、これらの比較中に遭遇するさまざまなデータ形式と構造を処理することも目指します。 ウェブサイトの更新を追跡するためにPythonの自動化機能を活用する。cronジョブやPythonのスケジューリングライブラリなどのスケジューリングメカニズムを使用して、データ収集を強化し、繰り返しのタスクを排除する予定です。 HTMLのアーキテクチャについて包括的な理解を開発する。HTMLドキュメントを効率的にナビゲートし、データ抽出中に重要な要素を特定し、ウェブサイトのレイアウトと構造の変更を効果的に管理することを目指します。 データ操作技術を探索することにより、テキスト処理のスキルを向上させる。抽出したデータをクリーンアップし、洗練させ、データエンコーディングの複雑さに対処し、洞察に基づいた分析と多目的なレポートのためにデータを操作する方法を学びます。 この記事は、データサイエンスのブログマラソンの一環として公開されました。 プロジェクトの説明 このプロジェクトでは、特定のウェブサイトの変更を監視し、カタログ化するためのPythonアプリケーションを作成することを目指しています。このアプリケーションには、以下の機能が組み込まれます: ウェブサイトのチェック:特定のコンテンツやセクションの更新を検出するために、割り当てられたウェブサイトを一貫して評価します。 データの取得:ウェブスクレイピングの方法を使用して、テキスト、グラフィック、または関連データなど、必要な詳細をウェブサイトから抽出します。 変更の特定:新しくスクレイピングされたデータを以前に保存されたデータと比較し、違いや変更箇所を特定します。 通知メカニズム:変更が検出された場合にユーザーをリアルタイムに通知するアラートメカニズムを実装します。 ログ記録:変更の詳細な記録を時間スタンプや変更の情報とともに保持します。このアプリケーションは、ユーザーの設定に基づいて、任意のウェブサイトと特定のコンテンツを監視するようにカスタマイズできます。期待される結果には、ウェブサイトの変更に関する直ちにアラートが含まれ、変更の性質とタイミングを理解するための包括的な変更記録が含まれます。 問題の定義 このプロジェクトの主な目的は、特定のウェブサイトの監視プロセスを効率化することです。Pythonアプリケーションを作成することで、興味のあるウェブサイトの変更を追跡し、カタログ化します。このツールは、ニュース記事、製品リスト、その他のウェブベースのコンテンツの最新の変更について、タイムリーな更新情報を提供します。この追跡プロセスを自動化することで、時間の節約とウェブサイトへの変更や追加に対する即時の認識が確保されます。 アプローチ このプロジェクトを成功裏に実装するために、以下の手順に従う高レベルのアプローチを取ります: プロジェクトでは、BeautifulSoupやScrapyなどの強力なPythonライブラリを使用します。これらのライブラリを使用すると、ウェブサイトから情報を収集し、HTMLコンテンツを取捨選択することが容易になります。 始めに、ウェブサイトから情報を取得してベースラインを作成します。このベンチマークデータは、後で変更を特定するのに役立ちます。 入力データを設定されたベンチマークと照合して、新しい追加や変更を追跡することができます。テキストの比較やHTML構造の違いの分析など、さまざまな技術を使用する場合があります。…

言語学習モデルにおけるOpenAIの関数呼び出しの力:包括的なガイド

OpenAIの関数呼び出し機能を使用したデータパイプラインの変換:PostgreSQLとFastAPIを使用した電子メール送信ワークフローの実装

GitHubトピックススクレイパー | PythonによるWebスクレイピング

「GitHub Topics Scraper」このプロジェクトは、GitHub Topicsページから情報を取得し、リポジトリ名と詳細を抽出することを目的としています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us