Pythonでの機械学習のためのテキストの前処理−自然言語処理
自然言語処理のためのPythonによるテキスト前処理と機械学習
一部の一般的なテキスト前処理の技術Pythonの例とともに
このソーシャルメディアとオンラインビジネスの時代では、テキストデータが様々な場所から来ます。 しかし、テキストデータの取り扱いはトリッキーです。 生のテキストにはあらゆる種類の不純物、不要なノイズ、綴りの間違いなどが含まれる場合があります。 そのため、テキストデータのモデリングに入る前に、適切な前処理を行う必要があります。
この記事では、テキストデータを機械学習向けに準備するための一般的なテキスト前処理の手法に取り組みます。
数値の削除
テキスト中の数値は、機械学習モデルにとって欺瞞的な場合があります。 なぜなら、結局のところ、テキストは数値として変換する必要があるからです。 各テキストは数字として変換されます。 テキストに再び数値が含まれている場合、それらの数値には不必要に干渉する可能性があります。 そのため、数値の削除は役に立ちます。
ここでは、正規表現を使用して数値を削除しました。 そのため、まず ‘re’をインポートする必要がありました。
- 「Xenovaのテキスト読み上げクライアントツール:自然な音声合成を実現する頑強で柔軟なAIプラットフォーム」
- 「機械学習手法を用いたJava静的解析ツールレポートのトリアージに関する研究」
- 「Inside LlaVA GPT-4Vのオープンソースの最初の代替案」
import re text = "クラスAには35人の学生がいます。 クラスBには29人の学生がいますが、全員が数学が得意です。"res = re.sub(r'\ d + '、 ''、 text)res
出力:
'クラスAには学生がいます。 クラスBには学生がいますが、全員が数学が得意です。'
すべての数値がテキストからなくなりました。
余分なスペースの削除
これはまた別の面白い問題です。 時には、生データに先頭や末尾に余分なスペースが入ってくることがありますが、問題には見えません。 しかし、問題を引き起こす可能性があります。 余分なスペースがある場合、同じ単語が2つの異なる単語として表示される場合があります。 たとえば、モデルを開発する際に単語「曲」の先頭に余分なスペースを追加すると、スペースのみの違いから「音楽」だけでなく別の単語と見なされる可能性があり、モデルのパフォーマンスに悪影響を与えるかもしれません。
st = "結果は素晴らしかった "st.strip()
出力:
'結果は素晴らしかった'
先頭と末尾のスペースがなくなりました。
私はKaggleからtwitter.csvデータを使用しました…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「50以上の最新の最先端人工知能(AI)ツール(2023年11月)」
- 「思考伝搬:大規模言語モデルを用いた複雑な推論の類推的手法」
- このAI論文は、深層学習を用いて大規模な記録の神経活動を解読する人工知能フレームワーク、POYO-1を紹介しています
- 「GROOTに会おう:オブジェクト中心の3D先行条件と適応ポリシー汎化を備えたビジョンベースの操作のための堅牢な模倣学習フレームワーク」
- 「AutoMixを使用した計算コストの最適化 クラウドからの大規模言語モデルの活用に向けたAI戦略的アプローチ」
- 「総合的な指標を通じて深層生成モデルのエンジニアリング設計評価を向上させる」
- ユリーカに会ってください:大規模な言語モデルでパワードされた人間レベルの報酬設計アルゴリズム