NLPの探求- NLPのキックスタート(ステップ#4)

NLPの探求- NLPのキックスタート(ステップ#4)

私の「NLPの探求」シリーズが初めての方は、こちらの紹介記事をご覧ください。

NLPの探求と習得 – 深淵への旅

こんにちは、私はディープティ・スダルサンと申します。私は人工知能の学士課程3年生です。既に私は…

VoAGI.com

おかえりなさい!今回のシリーズでは、(主に)POSタギングについての私のノートを共有します。特に、この学期私にこのコースを提供してくださったアムリタ・コインバトール校のCENのサチン・クマールS先生に感謝申し上げます。ここに集められた情報や画像の一部は、彼が提供または作成したリソースや教材から得られたものです。

POS(品詞)タギング:

これは構文解析の最も基本的なレベルです。単語に品詞タグを割り当てる作業です。

このようなシーケンスラベリングは、ゲノム解析で遺伝子配列にラベルを付ける際にも見られます。

例えば、文「It looks like chocolate」という文に対して、POSタグは次のようになります:

PRPは人称代名詞、VBは動詞、INは前置詞または従属接続詞、Nは名詞を表します。

開放クラスと閉じたクラス:

開放クラスは新しい単語が頻繁に追加されるクラスです。例えば、名詞、動詞などです。一方、閉じたクラスは、そのクラスに属する予め定義された単語のセットを持っています。例えば、冠詞などです。

POSタギングでは、単語には複数のPOSタグが割り当てられるという曖昧さの問題があります。例えば、「like」はINタグとVBタグの両方が割り当てられる可能性があります。

タグの種類には、粗い粒度と細かい粒度の2つのタイプがあります。

  1. 粗い粒度のタグの例:名詞、動詞、形容詞など

2. 細かい粒度のタグの例:特定の名詞、過去形の動詞、単純な形容詞など

POSタグの見つけ方:

  1. ポイント予測 – クラシファイアを使用して各トークンのタグを個別に予測する
  2. 生成型シーケンスモデル – 隠れマルコフモデル(HMM)を使用する
  3. 識別型シーケンスモデル – 条件付きランダムフィールド(CRF)、構造化予測など

POSタギングのためのHMM:

観測可能な状態 – 与えられた単語のシーケンス/文に含まれる単語

隠れ/観測できない状態 – POSタグ

HMMでは、特定のタグのシーケンスに関連付けられた確率を計算するために、遷移確率と発射確率が使用されます。

  1. 遷移は、1つの隠れ状態から別の隠れ状態への移行を意味し、遷移確率として知られる確率が関連付けられます。
  2. 発射は、隠れ状態からトークンを生成することを意味します。特定の隠れ状態には、トークンを生成するための確率が関連付けられます。

HMMでの仮定:

ブルートフォース:

ランダムなPOSタグで文をタグ付けしましょう。例えば、「It/PRP looks/N like/PRP chocolate/VB」とします。次に、シーケンスの確率を計算しましょう。

正しいPOSタグで文をタグ付けしましょう。例えば、「It/PRP looks/VB like/IN chocolate/N」とします。次に、シーケンスの確率を計算しましょう。

Viterbiアルゴリズム:

Viterbiアルゴリズムは、最も確率の高いタグまたは隠れた状態のシーケンスを見つけるための動的計画法の一種です。これは、HMMを最も確率の高い隠れた状態を見つけるために最適化する方法です。

与えられた文「It looks like Chocolate」では、トークン「like」にはVBとINの2つのPOSタグがあります。最も確率の低いパスが削除され、逆方向のパスがパスまたはシーケンスを与えます。

この例では、シーケンス<S> PRP VB VB N <E>の確率は0になります。

Here is a snippet from the code that I had written for Viterbi. Will post the code here soon.

参考文献:

  1. https://universaldependencies.org/docsv1/en/pos/all.html#al-en-pos/ADJ
  2. https://universaldependencies.org/u/pos/
  3. https://youtu.be/IqXdjdOgXPM
  4. https://www.freecodecamp.org/news/an-introduction-to-part-of-speech-tagging-and-the-hidden-markov-model-953d45338f24/
  5. https://www.mygreatlearning.com/blog/pos-tagging/
  6. Speech and Language, Jurafsky

このシリーズの以前のパート:

パート1:https://medium.com/@deepthi.sudharsan/exploring-nlp-kickstarting-nlp-step-1-e4ad0029694f

パート2:https://medium.com/@deepthi.sudharsan/exploring-nlp-kickstarting-nlp-step-2-157a6c0b308b

パート3:https://medium.com/@deepthi.sudharsan/exploring-nlp-kickstarting-nlp-step-3-e6ea6963679d

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Microsoft Azureは、企業向けAIのためのChatGPTをリリースしました」

マイクロソフトAzureは、ChatGPTを導入することにより、エンタープライズAIの大きな飛躍を遂げています。Azure OpenAI Servic...

機械学習

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」

人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施す...

データサイエンス

「線形代数からディープラーニングまで 7冊の本(2023年冬のアップデート)」

「Towards Data Science」への初めての投稿では、私は線形代数から現代のディープラーニングまで、あらゆる内容をカバーする...

機械学習

PyTorchモデルのパフォーマンス分析と最適化—Part2

これは、GPU上で実行されるPyTorchモデルの分析と最適化に関する一連の投稿の第二部です最初の投稿では、プロセスとその重要...

機械学習

「PyTorchモデルのパフォーマンス分析と最適化 - パート3」

これは、PyTorch ProfilerとTensorBoardを使用してPyTorchモデルの分析と最適化を行うトピックに関するシリーズ投稿の3部目で...

データサイエンス

「ニューラルネットワークとディープラーニングの基礎の理解」

この記事は、ニューラルネットワークとディープラーニングの基礎について詳細な概要を提供することを目的としています