テキストから類義語(似た言葉)を抽出する方法:BERTとNMSLIBの活用🔥

テキストから類義語を抽出する方法:BERTとNMSLIBの活用🔥

BERT&NMSLIBを使用して複数のテキスト行内の類似/同義語を抽出するアプローチ

Illustration by Kamil Sypień

単語ごとにテキストをトークナイズして、単語単位の出力を行います。次に、BERT(文の変換器)を使用して最も一般的な単語を埋め込み、NMBLIBを使用してそれぞれに最も近いマッチを取得します。Twitterからのツイートデータセットを使用して、それら内で類似する単語を見つけます。

注意 – この記事では、データセット全体から類似する単語/同義語を探しています。したがって、すべての行を取り、名詞である最も一般的な単語を抽出し、それらをまとめて処理します。行の概念はありません。また、結果の単語は必ずしも完全に置き換え可能な同義語ではなく、単に似たような単語である場合があります。例えば、「excellence」と「quality」、「soundcloud」と「spotify」のようなものが得られます。

ツイートのクリーニング

まず、データをクリーニングします。ストップワードと数字を削除し、テキストを小文字にします。

テキストのクリーニングのコード

すべてのツイートからの単語リストの作成

各ツイートをクリーニングした後、各ツイートを単語にトークナイズし、リストを作成します。

単語リストの縮小

多くの単語を扱う必要があるため、すべての単語に対して類似する単語を見つけることは意味がありません。そのため、最も頻出の単語(上位10,000)を取り、それらから名詞のみをさらにフィルタリングしました。

単語リストの作成

単語埋め込みの作成

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

ガイ・イハイアヴ氏は、ビジネスの成功に最も重要な資産を保護するためにインターネット・オブ・シングス(IoT)の力を活用す...

人工知能

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ゲイリー・ヒュースティス氏は、パワーハウスフォレンジックスのオーナー兼ディレクターであり、ライセンスを持つ私立探偵、...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

人工知能

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

アミール・ヘヴァーは、UVeyeのCEO兼共同創設者であり、高速かつ正確な異常検出により、自動車およびセキュリティ産業に直面...

人工知能

「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 - インタビューシリーズ」

ソフトウェアエンジニアリングの副社長として、DougはCornelis Networksのソフトウェアスタック全体、Omni-Path Architecture...