Hugging Face Hubへ、fastText をようこそお迎えください

'Hugging Face Hubへようこそ、fastTextをお迎えします'

fastTextは、テキストの表現と分類の効率的な学習のためのライブラリです。Meta AIによって2016年にオープンソース化され、fastTextは過去数十年間の自然言語処理と機械学習において影響力のあるキーワードを統合しています。具体的には、文を単語の袋とn-gramの袋を使用して表現し、サブワード情報を利用し、クラス間で情報を共有するための隠れた表現を使用します。

計算を高速化するために、fastTextはクラスの不均衡な分布を活用した階層的なソフトマックスを使用します。これらの技術により、ユーザーはテキストの表現と分類のためのスケーラブルなソリューションを提供します。

Hugging Faceは、現在、157か国のすべての言語と最新の言語識別モデルの公式ミラーをホストしています。これは、Hugging Faceを使用することで、数回のコマンドでモデルを簡単にダウンロードして使用できることを意味します。

モデルの検索

157か国の言語の単語ベクトルと言語識別モデルは、Meta AIのorgで見つけることができます。例えば、こちらで英語の単語ベクトルのモデルページを見つけることができます。また、こちらで言語識別モデルを見つけることができます。

ウィジェット

この統合には、テキスト分類と特徴抽出のウィジェットのサポートが含まれています。こちらで言語識別ウィジェットを試してみることができます。また、こちらで特徴抽出ウィジェットを試してみることができます。

使用方法

以下は、事前学習済みのベクトルを読み込んで使用する方法です:

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

>>> model_path = hf_hub_download(repo_id="facebook/fasttext-en-vectors", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.words

['the', 'of', 'and', 'to', 'in', 'a', 'that', 'is', ...]

>>> len(model.words)

145940

>>> model['bread']

array([ 4.89417791e-01,  1.60882145e-01, -2.25947708e-01, -2.94273376e-01,
       -1.04577184e-01,  1.17962055e-01,  1.34821936e-01, -2.41778508e-01, ...])

以下は、このモデルを使用して英単語ベクトルの最も近い隣接単語をクエリする方法です:

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

>>> model_path = hf_hub_download(repo_id="facebook/fasttext-en-nearest-neighbors", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.get_nearest_neighbors("bread", k=5)

[(0.5641006231307983, 'butter'), 
 (0.48875734210014343, 'loaf'), 
 (0.4491206705570221, 'eat'), 
 (0.42444291710853577, 'food'), 
 (0.4229326844215393, 'cheese')]

以下は、このモデルを使用して与えられたテキストの言語を検出する方法です:

>>> import fasttext
>>> from huggingface_hub import hf_hub_download

>>> model_path = hf_hub_download(repo_id="facebook/fasttext-language-identification", filename="model.bin")
>>> model = fasttext.load_model(model_path)
>>> model.predict("Hello, world!")

(('__label__eng_Latn',), array([0.81148803]))

>>> model.predict("Hello, world!", k=5)

(('__label__eng_Latn', '__label__vie_Latn', '__label__nld_Latn', '__label__pol_Latn', '__label__deu_Latn'), 
 array([0.61224753, 0.21323682, 0.09696738, 0.01359863, 0.01319415]))

ライブラリをHubに統合しますか？

この統合は、Meta AIとhuggingface_hubライブラリとの協力によって可能になりました。この統合により、すべてのウィジェットとサポートされているすべてのライブラリのAPIを提供することができます。もし、あなたのライブラリをHubに統合したい場合は、ガイドがあります！

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Hugging Face Hubへ、fastText をようこそお迎えください

モデルの検索

ウィジェット

使用方法

ライブラリをHubに統合しますか？

Was this article helpful?

DuckDB Hugging Face Hubに保存されている50,000以上のデータセットを分析する

ファルコンはHugging Faceのエコシステムに着陸しました

人工知能

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

「パクストンAIの共同創業者兼CEO、タングイ・シャウ - インタビューシリーズ」

「マーク・A・レムリー教授による生成AIと法律について」

「リオール・ハキム、Hour Oneの共同創設者兼CTO - インタビューシリーズ」