NLPの探求- NLPのキックスタート（ステップ＃4）

私の「NLPの探求」シリーズが初めての方は、こちらの紹介記事をご覧ください。

NLPの探求と習得 – 深淵への旅

こんにちは、私はディープティ・スダルサンと申します。私は人工知能の学士課程3年生です。既に私は…

VoAGI.com

おかえりなさい！今回のシリーズでは、（主に）POSタギングについての私のノートを共有します。特に、この学期私にこのコースを提供してくださったアムリタ・コインバトール校のCENのサチン・クマールS先生に感謝申し上げます。ここに集められた情報や画像の一部は、彼が提供または作成したリソースや教材から得られたものです。

POS（品詞）タギング：

これは構文解析の最も基本的なレベルです。単語に品詞タグを割り当てる作業です。

このようなシーケンスラベリングは、ゲノム解析で遺伝子配列にラベルを付ける際にも見られます。

例えば、文「It looks like chocolate」という文に対して、POSタグは次のようになります：

PRPは人称代名詞、VBは動詞、INは前置詞または従属接続詞、Nは名詞を表します。

開放クラスと閉じたクラス：

開放クラスは新しい単語が頻繁に追加されるクラスです。例えば、名詞、動詞などです。一方、閉じたクラスは、そのクラスに属する予め定義された単語のセットを持っています。例えば、冠詞などです。

POSタギングでは、単語には複数のPOSタグが割り当てられるという曖昧さの問題があります。例えば、「like」はINタグとVBタグの両方が割り当てられる可能性があります。

タグの種類には、粗い粒度と細かい粒度の2つのタイプがあります。

粗い粒度のタグの例：名詞、動詞、形容詞など

2. 細かい粒度のタグの例：特定の名詞、過去形の動詞、単純な形容詞など

POSタグの見つけ方：

ポイント予測 – クラシファイアを使用して各トークンのタグを個別に予測する
生成型シーケンスモデル – 隠れマルコフモデル（HMM）を使用する
識別型シーケンスモデル – 条件付きランダムフィールド（CRF）、構造化予測など

POSタギングのためのHMM：

観測可能な状態 – 与えられた単語のシーケンス/文に含まれる単語

隠れ/観測できない状態 – POSタグ

HMMでは、特定のタグのシーケンスに関連付けられた確率を計算するために、遷移確率と発射確率が使用されます。

遷移は、1つの隠れ状態から別の隠れ状態への移行を意味し、遷移確率として知られる確率が関連付けられます。
発射は、隠れ状態からトークンを生成することを意味します。特定の隠れ状態には、トークンを生成するための確率が関連付けられます。

HMMでの仮定：

ブルートフォース：

ランダムなPOSタグで文をタグ付けしましょう。例えば、「It/PRP looks/N like/PRP chocolate/VB」とします。次に、シーケンスの確率を計算しましょう。

正しいPOSタグで文をタグ付けしましょう。例えば、「It/PRP looks/VB like/IN chocolate/N」とします。次に、シーケンスの確率を計算しましょう。

Viterbiアルゴリズム：

Viterbiアルゴリズムは、最も確率の高いタグまたは隠れた状態のシーケンスを見つけるための動的計画法の一種です。これは、HMMを最も確率の高い隠れた状態を見つけるために最適化する方法です。

与えられた文「It looks like Chocolate」では、トークン「like」にはVBとINの2つのPOSタグがあります。最も確率の低いパスが削除され、逆方向のパスがパスまたはシーケンスを与えます。

この例では、シーケンス<S> PRP VB VB N <E>の確率は0になります。

Here is a snippet from the code that I had written for Viterbi. Will post the code here soon. — ここには、Viterbiのために書いたコードの一部があります。コードは近日中にここに投稿されます。

参考文献：

https://universaldependencies.org/docsv1/en/pos/all.html#al-en-pos/ADJ
https://universaldependencies.org/u/pos/
https://youtu.be/IqXdjdOgXPM
https://www.freecodecamp.org/news/an-introduction-to-part-of-speech-tagging-and-the-hidden-markov-model-953d45338f24/
https://www.mygreatlearning.com/blog/pos-tagging/
Speech and Language, Jurafsky

このシリーズの以前のパート：

パート1：https://medium.com/@deepthi.sudharsan/exploring-nlp-kickstarting-nlp-step-1-e4ad0029694f

パート2：https://medium.com/@deepthi.sudharsan/exploring-nlp-kickstarting-nlp-step-2-157a6c0b308b

パート3：https://medium.com/@deepthi.sudharsan/exploring-nlp-kickstarting-nlp-step-3-e6ea6963679d

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceMachine learningNaturallanguageprocessingNLPPos Tagging

Was this article helpful?

93 out of 132 found this helpful

NLPの探求- NLPのキックスタート（ステップ＃4）

NLPの探求と習得 – 深淵への旅

こんにちは、私はディープティ・スダルサンと申します。私は人工知能の学士課程3年生です。既に私は…

POS（品詞）タギング：

POSタギングのためのHMM：

ブルートフォース：

Viterbiアルゴリズム：

参考文献：

このシリーズの以前のパート：

Was this article helpful?

「カルロス・アルカラス vs. ビッグ3」

NLPの探求 – NLPのキックスタート（ステップ＃3）

機械学習

Field Programmable Gate Array（FPGA）とは何ですか：人工知能（AI）におけるFPGA vs. GPU

ビッグテックと生成AI：ビッグテックが生成AIを制御するのか？

「AIを活用して国連の持続可能な開発目標に取り組む15のプロジェクト」

「AIのための機会の議題」

Adobe Illustratorの「Generative Recolor」AIであなたの画像を変換しましょう

「AIがウクライナの戦場に参戦を望む！」