テキストから類義語(似た言葉)を抽出する方法:BERTとNMSLIBの活用🔥

テキストから類義語を抽出する方法:BERTとNMSLIBの活用🔥

BERT&NMSLIBを使用して複数のテキスト行内の類似/同義語を抽出するアプローチ

Illustration by Kamil Sypień

単語ごとにテキストをトークナイズして、単語単位の出力を行います。次に、BERT(文の変換器)を使用して最も一般的な単語を埋め込み、NMBLIBを使用してそれぞれに最も近いマッチを取得します。Twitterからのツイートデータセットを使用して、それら内で類似する単語を見つけます。

注意 – この記事では、データセット全体から類似する単語/同義語を探しています。したがって、すべての行を取り、名詞である最も一般的な単語を抽出し、それらをまとめて処理します。行の概念はありません。また、結果の単語は必ずしも完全に置き換え可能な同義語ではなく、単に似たような単語である場合があります。例えば、「excellence」と「quality」、「soundcloud」と「spotify」のようなものが得られます。

ツイートのクリーニング

まず、データをクリーニングします。ストップワードと数字を削除し、テキストを小文字にします。

テキストのクリーニングのコード

すべてのツイートからの単語リストの作成

各ツイートをクリーニングした後、各ツイートを単語にトークナイズし、リストを作成します。

単語リストの縮小

多くの単語を扱う必要があるため、すべての単語に対して類似する単語を見つけることは意味がありません。そのため、最も頻出の単語(上位10,000)を取り、それらから名詞のみをさらにフィルタリングしました。

単語リストの作成

単語埋め込みの作成

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...