「PythonによるLong Short-Term Memoryのマスタリング:NLPでのLSTMの力を解き放つ」
「美しさとファッションのプロが語る:魅力的なビューティーワールドとファッションのトレンド」
Pythonで自然言語処理のためのLSTMレイヤーを理解し、実装する包括的なガイド
この作品は私のRNNとPythonによるNLPの記事の続きです。単純な再帰レイヤーを使用したディープラーニングネットワークから、ディープラーニングネットワークにLong Short Term Memory(略してLSTM)レイヤーに進むことは自然な進化です。
RNNとNLPと同様に、LSTMレイヤーを詳細に説明し、レイヤーの順方向パスをゼロからコーディングしようとします。
すべてのコードはこちらでご覧いただけます:https://github.com/Eligijus112/NLP-python
前の記事と同じデータセット¹で作業します:
- クラウドファーストデータサイエンス:データの分析とモデリングのための現代的なアプローチ
- 「Amazon SageMaker Canvasを使用したノーコードでSalesforce Data CloudでのMLの民主化」
- 「Amazon SageMaker Data Wranglerを使用して、生成型AIのデータ準備をシンプルにする」
# データ整理import pandas as pd# データの読み込み d = pd.read_csv('input/Tweets.csv', header=None)# カラムの追加 d.columns = ['INDEX', 'GAME', "SENTIMENT", 'TEXT']# ポジティブとネガティブの評価のみを残す d = d[d['SENTIMENT'].isin(['Positive', 'Negative'])]# ポジティブを0、ネガティブを1としてエンコード d['SENTIMENT'] = d['SENTIMENT'].apply(lambda x: 0 if x == 'Positive' else 1)# 欠損値を削除 d = d.dropna()
SENTIMENT=1はネガティブの評価であり、SENTIMENT=0はポジティブの評価です。
テキストデータを整数のシーケンスに変換する必要があります。ただし、前の記事とは異なり、単語ではなく個々の文字のシーケンスを作成します。
たとえば、「Nice Game」というテキストは、次の例のベクトルに変換できます:
[1, 2, 3, 4, 5, 6, 7, 8, 3]
空白や句読点を含む個々の文字はインデックスを持ちます。
def create_word_index( x: str, shift_for_padding: bool = False, char_level: bool = False) -> Tuple[dict, dict]: """ ターゲットになるテキストをスキャンし、以下の2つの辞書を作成する関数です: - word2idx: 単語から整数への辞書マッピング...-
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles