テキストから類義語(似た言葉)を抽出する方法:BERTとNMSLIBの活用🔥

テキストから類義語を抽出する方法:BERTとNMSLIBの活用🔥

BERT&NMSLIBを使用して複数のテキスト行内の類似/同義語を抽出するアプローチ

Illustration by Kamil Sypień

単語ごとにテキストをトークナイズして、単語単位の出力を行います。次に、BERT(文の変換器)を使用して最も一般的な単語を埋め込み、NMBLIBを使用してそれぞれに最も近いマッチを取得します。Twitterからのツイートデータセットを使用して、それら内で類似する単語を見つけます。

注意 – この記事では、データセット全体から類似する単語/同義語を探しています。したがって、すべての行を取り、名詞である最も一般的な単語を抽出し、それらをまとめて処理します。行の概念はありません。また、結果の単語は必ずしも完全に置き換え可能な同義語ではなく、単に似たような単語である場合があります。例えば、「excellence」と「quality」、「soundcloud」と「spotify」のようなものが得られます。

ツイートのクリーニング

まず、データをクリーニングします。ストップワードと数字を削除し、テキストを小文字にします。

テキストのクリーニングのコード

すべてのツイートからの単語リストの作成

各ツイートをクリーニングした後、各ツイートを単語にトークナイズし、リストを作成します。

単語リストの縮小

多くの単語を扱う必要があるため、すべての単語に対して類似する単語を見つけることは意味がありません。そのため、最も頻出の単語(上位10,000)を取り、それらから名詞のみをさらにフィルタリングしました。

単語リストの作成

単語埋め込みの作成

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「パクストンAIの共同創業者兼CEO、タングイ・シャウ - インタビューシリーズ」

タングイ・ショウは、Paxton AIの共同創設者兼CEOであり、法的研究と起草の負担を軽減するためにGenerative AIを使用するプラ...

人工知能

「コーネリスネットワークスのソフトウェアエンジニアリング担当副社長、ダグ・フラーラー氏 - インタビューシリーズ」

ソフトウェアエンジニアリングの副社長として、DougはCornelis Networksのソフトウェアスタック全体、Omni-Path Architecture...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

人工知能

「リオール・ハキム、Hour Oneの共同創設者兼CTO - インタビューシリーズ」

「Hour Oneの共同創設者兼最高技術責任者であるリオール・ハキムは、専門的なビデオコミュニケーションのためのバーチャルヒ...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...