Pythonでの機械学習のためのテキストの前処理−自然言語処理

自然言語処理のためのPythonによるテキスト前処理と機械学習

キリル・ドブレフによる写真

一部の一般的なテキスト前処理の技術Pythonの例とともに

このソーシャルメディアとオンラインビジネスの時代では、テキストデータが様々な場所から来ます。 しかし、テキストデータの取り扱いはトリッキーです。 生のテキストにはあらゆる種類の不純物、不要なノイズ、綴りの間違いなどが含まれる場合があります。 そのため、テキストデータのモデリングに入る前に、適切な前処理を行う必要があります。

この記事では、テキストデータを機械学習向けに準備するための一般的なテキスト前処理の手法に取り組みます。

数値の削除

テキスト中の数値は、機械学習モデルにとって欺瞞的な場合があります。 なぜなら、結局のところ、テキストは数値として変換する必要があるからです。 各テキストは数字として変換されます。 テキストに再び数値が含まれている場合、それらの数値には不必要に干渉する可能性があります。 そのため、数値の削除は役に立ちます。

ここでは、正規表現を使用して数値を削除しました。 そのため、まず ‘re’をインポートする必要がありました。

 import re  text = "クラスAには35人の学生がいます。 クラスBには29人の学生がいますが、全員が数学が得意です。"res = re.sub(r'\ d + '、 ''、 text)res 

出力:

 'クラスAには学生がいます。 クラスBには学生がいますが、全員が数学が得意です。' 

すべての数値がテキストからなくなりました。

余分なスペースの削除

これはまた別の面白い問題です。 時には、生データに先頭や末尾に余分なスペースが入ってくることがありますが、問題には見えません。 しかし、問題を引き起こす可能性があります。 余分なスペースがある場合、同じ単語が2つの異なる単語として表示される場合があります。 たとえば、モデルを開発する際に単語「曲」の先頭に余分なスペースを追加すると、スペースのみの違いから「音楽」だけでなく別の単語と見なされる可能性があり、モデルのパフォーマンスに悪影響を与えるかもしれません。

 st = "結果は素晴らしかった "st.strip() 

出力:

 '結果は素晴らしかった' 

先頭と末尾のスペースがなくなりました。

私はKaggleからtwitter.csvデータを使用しました…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

がん診断の革命:ディープラーニングが正確に識別し再分類することで、肝臓がんの組み合わせを強化された治療判断につながります

“` 肝臓癌は、肝細胞癌(HCC)と肝内胆管癌(ICCA)を含む原発性肝癌は、それぞれ異なる特徴を持つため、重要な課題を...

AIニュース

ChatGPTのようなChatBot Zhinaoは、何を言うべきか、何を言うべきでないかを知っています

生成型人工知能(AI)はテック界隈で中心的な役割を果たしていますが、綿密に制御されたインターネット環境での運用はほとん...

AIニュース

オープンAIのファンクションコーリング入門

Forbesによると、AI市場は2030年までに$1,811.8 billionに到達すると予想されています。Davinci、GPT Turbo、GPT Turbo 3.5、...

人工知能

AIの世界で生き残るにはどうすればいいですか?あなたの仕事は危険にさらされていますか?

あなたの仕事は危険にさらされていますか?これは多くの労働者が悩む質問ですが、最近の解雇の文脈ではありません私が言って...

人工知能

Midjourney v5.2の新しいズームアウト機能の使い方(最良の例)

Midjourney v5.2がリリースされ、期待を裏切りませんでしたズームアウト機能は素晴らしいです

機械学習

Google AIがSpectronを導入:スペクトログラムを入力および出力として直接処理する、最初のスポークンランゲージAIモデルとしてエンドツーエンドでトレーニングされたものです

音声継続および質疑応答型のLLMsは、さまざまなタスクや産業に適用できる多才なツールであり、生産性の向上、ユーザーエクス...