NLPの探究- NLPの立ち上げ(ステップ#2)を探る
NLPの探究- NLPの立ち上げ(ステップ#2)を探る' Condensed 'NLPの探究- NLPの立ち上げ(ステップ#2)を探る
私の「自然言語処理の探求」シリーズに初めて参加する方は、こちらの紹介記事をご確認ください。
自然言語処理の探求とマスタリング — 深淵への旅
こんにちは、私はディープティ・スダルシャンです。人工知能の学士号を取得する3年生の学生です。既に…
VoAGI.com
最近、面接過程の一環として、2つの質問を探求するよう求められ、その過程でいくつかの新しい概念を学びました。以下は、2つの質問に対する私のまとめです。
質問1:
- NLPの探求 – NLPのキックスタート(ステップ#3)
- NLPの探求- NLPのキックスタート(ステップ#4)
- Mentatと出会ってください:コマンドラインからのあらゆるコーディングタスクを支援するAIツールで、複数のファイルでの編集を調整することができます
ヒンディー語と英語でラベル付けされたデータがあります。他の言語のコンテンツに対してどのようにラベルを取得できるか知りたいです。例を見てみましょう。
ヒンディー語と英語で特集されているトピックを見てください。 「エンターテイメント」、「ガバナンス」、「ヘルス」などのカテゴリがあります。これらの多くは(一部は手作業で、一部はディープニューラルクラシファイアで)分類されています。ですから、英語でラベル付けされたデータがあるとして、たとえばタミル語やカンナダ語のエンターテイメント関連のコンテンツを見つけるためにそれをトレーニングに使用できるでしょうか?マルチリンガルモデルはどのように役立ちますか?
例えば、私はヒンディー語と英語の多くのデータを持っているとしましょう。それをどのように扱えば、他の言語(たとえばタミル語、カンナダ語、テルグ語など)のラベルの理解に役立つでしょうか?ヒンディー語/英語でラベル付けされたデータを取り、それをタミル語に翻訳します。Kooで英語の元のラベルは「エンターテイメント」と言い、それをタミル語に翻訳します。そして、プラットフォーム上にこのコンテンツは書かれていないとしましょうが、関連するコンテンツはありますか?Kooから翻訳したバージョンを取ると役に立ちますか?このタミル語のラベルにはコンテンツがありませんが、関連するコンテンツはあるかもしれませんか?それは本当に可能なのでしょうか?
私の学びと研究:
既に存在しないカテゴリ「பொழுதுபோக்கு」(タミル語で「エンターテイメント」)に関連するコンテンツを見つけることは可能です。
BERTのようなマルチリンガルモデルを利用することができます。機械翻訳を行い、データにラベルを付け、ゼロショット学習などの技術を利用することもできます(トレーニングデータが1つもない場合、これを使用してデータにラベルを付けることが可能です。これはGoogle翻訳が一つの言語から別の言語に文を翻訳するために使用する技術です)。例えば、タミル語の文章をアフリカの言語に翻訳したい場合、タミル語の文章とそのアフリカの言語への対応する翻訳が含まれるデータセットを決して見つけることはできません。しかし、ゼロショット学習の技術を使用することで、Google翻訳が翻訳を行うことができます。したがって、マルチリンガルモデルがあれば、ゼロショット学習などの技術を使用して他の言語のデータにラベルを付けることができます。
関連するコンテンツを見つけるために、単語埋め込み(分散アプローチ、Word2vecなどの大型コーパスから単語の関連性を学習することができるアプローチ、GloVeなど)を使用することができます。インディック言語コーパスの単語埋め込みを見つけるために、fastText、iNLTK、indicBERTなどの事前学習済みの単語埋め込みモデルを使用することができます。HuggingFaceなどのライブラリから事前学習済みの単語埋め込みモデルを使用することもできます。BERTはその一例であり、文脈に基づいた類似性の概念を利用しています。これにより、関連するカテゴリやコンテンツを見つけることができます。
質問2:
ヒンディー語のコンテンツを英語に翻訳し、それを名前付きエンティティ認識器で実行するとします。しかし、iNLTKのように、インダク言語用の独自の名前付きエンティティ認識器を開発する必要があります。インダク言語用の名前付きエンティティ認識器を使用して、人名、場所、その他のエンティティを識別します。タミル語の分類と名前付きエンティティ認識(NER)を例に挙げます。
私の学びと研究:
NERは、テキストの一部から固有名詞を識別し、ドメイン(一般、サイバーセキュリティなど)に応じて適切なカテゴリに分類するために使用されます。全ての名前付きエンティティが固有名詞である必要はありません。集合的エンティティ、金額、日付などのエンティティも存在します。NERを使用して「固有名詞」を識別することには、設計と開発中に解決する必要があるいくつかの欠点があります。
1つは、1文あたりの固有名詞の数が非常に限られているという問題です。したがって、大規模なデータセットを使用する場合、固有名詞の数は圧倒的に少なくなるため、「その他」のカテゴリに属する単語の数が固有名詞よりも多くなり、データの不均衡が生じます。不均衡は、コスト感度学習などを使用して対処することができます(非常に大きなコーパスに対してのオーバーサンプリングは実行不可能です)。
次に、曖昧さの問題があります。ワシントンは場所または人の名前であるかもしれません。しかし、これは文脈を理解することによっても処理できます。この目的のために、双方向RNN、LSTM、HMM、条件付きランダムフィールドなどを使用することができます。バイダイレクショナルな文脈/情報を捉えることができるBERTなどのトランスフォーマーを使用することもできます。前処理には、POSタガーを使用してから、前処理が完了した後に分類に移行することができます。
インダク言語(たとえばドラヴィダ語)向けのNERの開発の問題について考えると、そのプロセスを妨げる1つの問題は、ドラヴィダ語のゴールドまたはシルバースタンダードデータの不足です。ドラヴィダ語の語彙は英語よりも豊富であり、言語は形態的に豊かです。言語の複雑さにより、正確なNERの開発が困難であり、その開発は進行中のプロセスとなっています。
他の言語のテキストを英語に変換してNERを通過させることはできますが、その翻訳が十分に正確である場合に限ります。名前などのエンティティは言語に関係なく同じです。タミル語と英語の両方で「カレー」は「カレー」です。したがって、タミル語のテキストを正確に英語に翻訳してNERを通過させる必要があります。このプロセスでは、メガバイトサイズのコーパスに対して正確な結果が保証されない言語に対して、事前学習済みの多言語テキスト翻訳モデルを使用することができます。したがって、ゴールドスタンダードデータを収集し、多義語の使用法を効率的に翻訳して正確に理解することができれば、インダク言語向けに効率的にNERを開発することができます。
このシリーズの以前のパート:
Part #1 : https://medium.com/@deepthi.sudharsan/exploring-nlp-kickstarting-nlp-step-1-e4ad0029694f
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles