「TfidfVectorizerを使用してテキストを数値形式に変換する:ステップバイステップガイド」

「美容とファッションの専門家が解説する:鮮やかで活気のあるビューティーアートとファッションの世界」

モハメッド・ノハッシの写真、Unsplash

Tfidf値の手動計算とsklearnを使った計算方法

TFIDFは、テキストを数値形式に変換するための機械学習やAIモデルの手法です。つまり、TFIDFはテキストから特徴を抽出する手法です。これは私が前回の記事で説明したCountVectorizer()よりも洗練された手法です。

TFIDF手法は、各単語にスコアを与え、その単語の有用性や関連性を表します。それは文書内におけるその単語の使用状況を他の単語と比較して測定します。

この記事では、TFIDFスコアを手動で計算することで、TFIDFの概念を明確に理解することができます。最後に、sklearnライブラリのTFIDFベクトライザーの使用方法を見てみましょう。

それはTFとIDFの2つのパートで構成されています。それぞれのパートがどのように機能するか見てみましょう。

TF

TFは「用語の頻度 (Term Frequency)」として説明されます。TFは次のように計算することができます:

TF = 文書中の単語の出現回数

または

TF = (文書中の出現回数) / (文書中の単語数)

例を試してみましょう。この文書の各単語のTFを求めます:

私の名前はリリーです

各式の例を見てみましょう。

TF = 文書中の単語の出現回数

ここで最初の式を取ると、単語の出現回数だけを単純に数える場合、「私」のTFは1です。

同様に、単語のTFは

「名前」= 1、「は」= 1、「リリー」= 1

次に、2つ目の式を使ってみましょう。

TF = (文書中の出現回数) / (文書中の単語数)

2つ目の式を取る場合、式の最初の部分(文書中の出現回数)は1であり、2番目の部分(文書中の単語数)は4です。

したがって、「私」のTFは1/4または0.25です。

同様に、単語のTFは

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more