テキストから類義語（似た言葉）を抽出する方法：BERTとNMSLIBの活用🔥

テキストから類義語を抽出する方法：BERTとNMSLIBの活用🔥

BERT＆NMSLIBを使用して複数のテキスト行内の類似/同義語を抽出するアプローチ

Illustration by Kamil Sypień — Kamil Sypieńによるイラスト

単語ごとにテキストをトークナイズして、単語単位の出力を行います。次に、BERT（文の変換器）を使用して最も一般的な単語を埋め込み、NMBLIBを使用してそれぞれに最も近いマッチを取得します。Twitterからのツイートデータセットを使用して、それら内で類似する単語を見つけます。

注意 – この記事では、データセット全体から類似する単語/同義語を探しています。したがって、すべての行を取り、名詞である最も一般的な単語を抽出し、それらをまとめて処理します。行の概念はありません。また、結果の単語は必ずしも完全に置き換え可能な同義語ではなく、単に似たような単語である場合があります。例えば、「excellence」と「quality」、「soundcloud」と「spotify」のようなものが得られます。

ツイートのクリーニング

まず、データをクリーニングします。ストップワードと数字を削除し、テキストを小文字にします。

テキストのクリーニングのコード

すべてのツイートからの単語リストの作成

各ツイートをクリーニングした後、各ツイートを単語にトークナイズし、リストを作成します。

単語リストの縮小

多くの単語を扱う必要があるため、すべての単語に対して類似する単語を見つけることは意味がありません。そのため、最も頻出の単語（上位10,000）を取り、それらから名詞のみをさらにフィルタリングしました。

単語リストの作成

単語埋め込みの作成

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

「トルコ地震ツイートに対する感情分析」

PyTorch LSTMCell — 入力、隠れ状態、セル状態、および出力の形状

人工知能

人工知能

人工知能の世界とその変革の可能性を探ります

Discover more

人工知能

「Ami Hever、UVeyeの共同創設者兼CEO - インタビューシリーズ」

עמיר חבר הוא המנכל והמייסד של UVeye, סטארט-אפ ראיה ממוחשבת בלמידה עמוקה, המציבה את התקן הגלובלי לבדיקת רכבים עם זיהוי...

人工知能

ギル・ジェロン、Orca SecurityのCEO＆共同創設者-インタビューシリーズ

ギル・ゲロンは、オルカ・セキュリティのCEO兼共同設立者ですギルは20年以上にわたりサイバーセキュリティ製品をリードし、提...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda（以前はContinuum Analyticsとして知られる）を設立する前は、ピー...

AIニュース

OpenAIのCEOであるSam Altman氏：AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

機械学習

3つの質問：大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

Want to read more? Go here

Web Analytics