Search Results spaCy

「固有表現とニュース」

「オランダのニュース記事のデータセットに対して適用された固有表現認識を用いた実験による自動要約、推薦、およびその他の洞察の結果」

夏は公式に終わり、この数か月はHugging Faceでかなり忙しかったです。Hubの新機能や研究、オープンソースの開発など、私たちのチームはオープンで協力的な技術を通じてコミュニティを支援するために一生懸命取り組んできました。このブログ投稿では、6月、7月、8月のHugging Faceで起こったすべてのことをお伝えします！この投稿では、私たちのチームが取り組んでいるさまざまな分野について取り上げていますので、最も興味のある部分にスキップすることを躊躇しないでください 🤗 新機能コミュニティオープンソースソリューション研究新機能ここ数か月で、Hubは10,000以上のパブリックモデルリポジトリから16,000以上のモデルに増えました！コミュニティの皆さんが世界と共有するために素晴らしいモデルをたくさん共有してくれたおかげです。そして、数字の背後には、あなたと共有するためのたくさんのクールな新機能があります！ Spaces Beta ( hf.co/spaces ) Spacesは、ユーザープロファイルまたは組織hf.coプロファイルに直接機械学習デモアプリケーションをホストするためのシンプルで無料のソリューションです。GradioとStreamlitの2つの素晴らしいSDKをサポートしており、Pythonで簡単にクールなアプリを構築することができます。数分でアプリをデプロイしてコミュニティと共有することができます！ 🚀 Spacesでは、シークレットの設定、カスタム要件の許可、さらにはGitHubリポジトリから直接管理することもできます。ベータ版にはhf.co/spacesでサインアップできます。以下はいくつかのお気に入りです！ Chef Transformerの助けを借りてレシピを作成 HuBERTを使用して音声をテキストに変換…

Gradioを使用して、Spacesで自分のプロジェクトをショーケースしましょう

Gradioを利用することで、機械学習プロジェクトを簡単にデモンストレーションすることができます。このブログ記事では、以下の内容について説明します：最近のGradioの統合により、Inference APIを活用してHubからモデルをシームレスにデモンストレーションする方法 Hugging Face Spacesを使用して、独自のモデルのデモをホストする方法 GradioでのHugging Face Hub統合 Hubでモデルを簡単にデモンストレーションすることができます。以下を含むインターフェースを定義するだけでOKです：推論を行いたいモデルのリポジトリID 説明とタイトルオーディエンスをガイドするための入力例インターフェースを定義したら、.launch()を呼び出すだけでデモが開始されます。これはColabで行うこともできますが、コミュニティと共有する場合はSpacesを使用するのがおすすめです！ SpacesはPythonでMLデモアプリを簡単にホストするための無料の方法です。Spacesを使用するには、https://huggingface.co/new-space にリポジトリを作成し、SDKとしてGradioを選択します。作業が完了すると、app.pyというファイルを作成し、下のコードをコピーするだけで、数秒でアプリを起動できます！ import gradio as gr description = "GPT-2によるストーリー生成"…

AutoNLPとProdigyを使用したアクティブラーニング

機械学習の文脈におけるアクティブラーニングは、ラベル付きデータを反復的に追加し、モデルを再トレーニングしてエンドユーザーに提供するプロセスです。これは終わりのないプロセスであり、データのラベリング/作成には人間の介入が必要です。この記事では、AutoNLPとProdigyを使用してアクティブラーニングパイプラインを構築する方法について説明します。 AutoNLP AutoNLPは、Hugging Faceが作成したフレームワークであり、ほとんどコーディングを行わずに独自のデータセット上で最先端のディープラーニングモデルを構築するのに役立ちます。AutoNLPは、Hugging Faceのtransformers、datasets、inference-apiなどのツールに基づいて構築されています。 AutoNLPを使用すると、独自のカスタムデータセットでSOTAトランスフォーマーモデルをトレーニングし、それらを微調整（自動的に）してエンドユーザーに提供することができます。AutoNLPでトレーニングされたすべてのモデルは最先端でプロダクションに対応しています。この記事の執筆時点では、AutoNLPはバイナリ分類、回帰、マルチクラス分類、トークン分類（固有表現認識や品詞など）、質問応答、要約などのタスクをサポートしています。すべてのサポートされているタスクのリストはこちらで確認できます。AutoNLPは、英語、フランス語、ドイツ語、スペイン語、ヒンディー語、オランダ語、スウェーデン語などの言語をサポートしています。AutoNLPでは、カスタムトークナイザーを使用したカスタムモデルもサポートされています（AutoNLPでサポートされていない場合）。 Prodigy Prodigyは、spaCyの開発元であるExplosionによって開発された注釈ツールです。これはリアルタイムでデータを注釈付けするためのWebベースのツールです。Prodigyは、固有表現認識（NER）やテキスト分類などのNLPタスクをサポートしていますが、NLPに限定されません！コンピュータビジョンのタスクや独自のタスクの作成もサポートしています！Prodigyのデモはこちらでお試しいただけます。 Prodigyは商用ツールですので、詳細についてはこちらでご確認ください。私たちは、データのラベリングに最も人気のあるツールの1つであり、無限にカスタマイズ可能なProdigyを選びました。また、セットアップや使用も非常に簡単です。データセットさあ、この記事の最も興味深い部分が始まります。さまざまなデータセットや問題の種類を調査した後、私たちはKaggleのBBCニュース分類データセットに出くわしました。このデータセットは、クラス内競技で使用され、こちらでアクセスできます。このデータセットを見てみましょう：このデータセットは分類データセットです。ニュース記事のテキストであるText列と、記事のクラスであるCategory列があります。全体として、5つの異なるクラスがあります：business、entertainment、politics、sport、tech。 AutoNLPを使用してこのデータセットでマルチクラス分類モデルをトレーニングするのは簡単です。ステップ1：データセットをダウンロードします。ステップ2：AutoNLPを開き、新しいプロジェクトを作成します。ステップ3：トレーニングデータセットをアップロードし、自動分割を選択します。ステップ4：価格を承認し、モデルをトレーニングします。上記の例では、15種類の異なるマルチクラス分類モデルをトレーニングしています。AutoNLPの価格は1つあたり10ドル以下になることもあります。AutoNLPは最適なモデルを選択し、ハイパーパラメータの調整を自動で行います。したがって、今すぐ座って結果を待つだけです。約15分後、すべてのモデルのトレーニングが完了し、結果が利用可能になりました。最も優れたモデルの精度は98.67％のようです！したがって、このデータセットの記事を98.67％の精度で分類することができます！しかし、アクティブラーニングとProdigyについて話していましたが、それらはどうなったのでしょうか？🤔 すでにProdigyを使用したことを確認します。私たちは、このデータセットを固有表現認識のタスクのためにラベル付けするためにProdigyを使用しました。ラベリングの部分を始める前に、ニュース記事のエンティティを検出するだけでなく、それらを分類するプロジェクトを持つことがクールだと思いました。そのため、既存のラベルでこの分類モデルを構築しました。…

プライベートハブのご紹介：機械学習を活用した新しいビルド方法

機械学習は、企業が技術を構築する方法を変えつつあります。革新的な新製品のパワーを供給し、私たちが使い慣れて愛している既知のアプリケーションにスマートな機能を提供することから、MLは開発プロセスの中心にあります。しかし、すべての技術の変化には新たな課題が伴います。機械学習モデルの約90%が本番環境に到達しないとされています。馴染みのないツールや非標準的なワークフローがMLの開発を遅くしています。モデルやデータセットが内部で共有されないため、同じような成果物がチーム間で常にゼロから作成されます。データサイエンティストは、ビジネスステークホルダーに技術的な作業を示すのが難しく、正確でタイムリーなフィードバックを共有するのに苦労しています。そして、機械学習チームはDocker/Kubernetesや本番環境向けのモデル最適化に時間を浪費しています。これらを考慮して、私たちはPrivate Hub（PH）を立ち上げました。機械学習の構築方法を革新する新しい方法です。研究から本番環境まで、セキュアかつコンプライアンスを確保しながら、機械学習ライフサイクルの各ステップを加速するための統合されたツールセットを提供します。PHはさまざまなMLツールを一つにまとめることで、機械学習の協力をよりシンプルで楽しく、生産的にします。このブログ投稿では、Private Hubとは何か、なぜ役立つのか、そしてどのようにお客様がそれを使用してMLのロードマップを加速しているのかについて詳しく説明します。一緒に読んでいただくか、興味を引くセクションにジャンプしてください 🌟: ハグフェースハブとは何ですか？プライベートハブとは何ですか？企業はプライベートハブをどのように使用してMLのロードマップを加速しているのでしょうか？さあ、始めましょう！ 🚀 1. ハグフェースハブとは何ですか？プライベートハブについて詳しく説明する前に、まずハグフェースハブについて見てみましょう。これはPHの中心的な要素です。ハグフェースハブは、オープンソースで公開されているオンラインプラットフォームで、人々が簡単に協力してMLを構築できる場所です。ハブは、機械学習と一緒に技術を探求し、実験し、協力し、構築するための中心的な場所として機能します。ハグフェースハブでは、次のようなMLアセットを作成または発見することができます：モデル：NLP、コンピュータビジョン、音声、時系列、生物学、強化学習、化学などの最新の最先端モデルをホスティング。データセット：さまざまなドメイン、モダリティ、言語に対応したデータの幅広いバリエーション。スペース：ブラウザ内で直接MLモデルをショーケースするインタラクティブなアプリ。ハブにアップロードされた各モデル、データセット、またはスペースは、Gitベースのリポジトリです。これはすべてのファイルを含むバージョン管理された場所で、従来のgitコマンドを使用してファイルをプル、プッシュ、クローン、操作することができます。モデル、データセット、およびスペースのコミット履歴を表示し、誰がいつ何を行ったかを確認することができます。モデルのコミット履歴…

複雑なテキスト分類のユースケースにおいて、Hugging Faceを活用する

Hugging Faceエキスパートアクセラレーションプログラムとのウィティワークスの成功物語 MLソリューションの迅速な構築に興味がある場合は、エキスパートアクセラレーションプログラムのランディングページをご覧いただき、こちらからお問い合わせください！ビジネスコンテキスト ITが進化し、世界を変え続ける中、業界内でより多様で包括的な環境を作り上げることが重要です。ウィティワークスは、この課題に取り組むために2018年に設立されました。最初は多様性を高めるための組織へのコンサルティング企業としてスタートし、ウィティワークスはまず、包括的な言語を使用した求人広告の作成において彼らを支援しました。この取り組みを拡大するため、2019年には英語、フランス語、ドイツ語で包括的な求人広告の作成を支援するWebアプリを開発しました。そして、その後、ブラウザ拡張機能として機能するライティングアシスタントを追加し、メール、LinkedInの投稿、求人広告などで潜在的なバイアスを自動的に修正し、説明するようにしました。目的は、ハイライトされた単語やフレーズの潜在的なバイアスを説明するマイクロラーニングの手法を提供することで、内部および外部のコミュニケーションにおける文化的変革を促進することでした。ライティングアシスタントによる提案の例最初の実験ウィティワークスは最初に、アシスタントをゼロから構築するために基本的な機械学習アプローチを選びました。事前学習済みのspaCyモデルを使用した転移学習を行い、アシスタントは次のことができました：テキストを分析し、単語をレンマに変換する言語分析を実行するテキストから言語的な特徴を抽出する（複数形と単数形、性別）、品詞タグ（代名詞、動詞、名詞、形容詞など）、単語の依存関係ラベル、名前付きエンティティの認識など言語的な特徴に基づいて単語を検出・フィルタリングし、アシスタントは非包括的な単語をリアルタイムでハイライトし、代替案を提案することができました。課題語彙には約2300の非包括的な単語やイディオムがあり、それに対して基本的なアプローチは語彙の85％に対してうまく機能しましたが、文脈に依存する単語には失敗しました。そのため、課題は文脈に依存した非包括的な単語の分類器を構築することでした。このような課題（言語的な特徴を認識するのではなく、文脈を理解すること）は、Hugging Face transformersの使用につながりました。文脈に依存した非包括的な単語の例：化石燃料は再生可能な資源ではありません。Vs 彼は古い化石です。柔軟なスケジュールを持っています。Vs スケジュールを柔軟に保つ必要があります。 Hugging Faceエキスパートが提供するソリューション適切なMLアプローチを決定するためのガイダンスを受ける。…

LLMを活用したアプリケーションの設計と構築

この研究論文では、LLM（Language Model-based Learning）を用いたアプリケーションの設計と構築のプロセスについて探求しています

機械学習によるストレス検出の洞察を開示

イントロダクションストレスとは、身体や心が要求や挑戦的な状況に対して自然に反応することです。外部の圧力や内部の思考や感情に対する身体の反応です。仕事に関するプレッシャーや財政的な困難、人間関係の問題、健康上の問題、または重要な人生の出来事など、様々な要因によってストレスが引き起こされることがあります。データサイエンスと機械学習によるストレス検知インサイトは、個人や集団のストレスレベルを予測することを目的としています。生理学的な測定、行動データ、環境要因などの様々なデータソースを分析することで、予測モデルはストレスに関連するパターンやリスク要因を特定することができます。この予防的アプローチにより、タイムリーな介入と適切なサポートが可能になります。ストレス予測は、健康管理において早期発見と個別化介入、職場環境の最適化に役立ちます。また、公衆衛生プログラムや政策決定にも貢献します。ストレスを予測する能力により、これらのモデルは個人やコミュニティの健康増進と回復力の向上に貢献する貴重な情報を提供します。この記事は、データサイエンスブログマラソンの一部として公開されました。機械学習を用いたストレス検知の概要機械学習を用いたストレス検知は、データの収集、クリーニング、前処理を含みます。特徴量エンジニアリング技術を適用して、ストレスに関連するパターンを捉えることができる意味のある情報を抽出したり、新しい特徴を作成したりすることができます。これには、統計的な測定、周波数領域解析、または時間系列解析などが含まれ、ストレスの生理学的または行動的指標を捉えることができます。関連する特徴量を抽出またはエンジニアリングすることで、パフォーマンスを向上させることができます。研究者は、ロジスティック回帰、SVM、決定木、ランダムフォレスト、またはニューラルネットワークなどの機械学習モデルを、ストレスレベルを分類するためのラベル付きデータを使用してトレーニングします。彼らは、正解率、適合率、再現率、F1スコアなどの指標を使用してモデルのパフォーマンスを評価します。トレーニングされたモデルを実世界のアプリケーションに統合することで、リアルタイムのストレス監視が可能になります。継続的なモニタリング、更新、およびユーザーフィードバックは、精度向上に重要です。ストレスに関連する個人情報の扱いには、倫理的な問題やプライバシーの懸念を考慮することが重要です。個人のプライバシーや権利を保護するために、適切なインフォームドコンセント、データの匿名化、セキュアなデータストレージ手順に従う必要があります。倫理的な考慮事項、プライバシー、およびデータセキュリティは、全体のプロセスにおいて重要です。機械学習に基づくストレス検知は、早期介入、個別化ストレス管理、および健康増進に役立ちます。データの説明「ストレス」データセットには、ストレスレベルに関する情報が含まれています。データセットの特定の構造や列を持たない場合でも、パーセンタイルのためのデータ説明の一般的な概要を提供できます。データセットには、年齢、血圧、心拍数、またはスケールで測定されたストレスレベルなど、数量的な測定を表す数値変数が含まれる場合があります。また、性別、職業カテゴリ、または異なるカテゴリ（低、VoAGI、高）に分類されたストレスレベルなど、定性的な特徴を表すカテゴリカル変数も含まれる場合があります。 # Array import numpy as np # Dataframe import pandas as pd #Visualization…

NLPとAIを利用したPythonにおけるテンプレートベースの文書生成の力

Pythonを利用したテンプレートベースの文書生成の機能をNLPやAIの機能と融合させ、その力を活用してください文書生成の作業フローを簡素化し、革新を促進します

Learn more about Search Results spaCy - Page 4