「Pythonによる言語の指紋認識」

Pythonの言語の指紋認識

句読点ヒートマップを使った著者の特定

青いセミコロンの黄色い色調の一本指紋(DALL-E2と著者による画像)

スタイロメトリーは、計算的なテキスト分析を通じて文体の量的研究です。これは、私たちが書く際に独自で一貫性のある、識別可能な文体を持っているという考えに基づいています。これには、語彙、句読点の使用、単語と文の平均長さなどが含まれます。

スタイロメトリーの典型的な応用は、著者の特定です。これは、盗作の調査や歴史的な文書の起源に関する紛争の解決など、文書の著者を特定するプロセスです。

このQuick Success Data Scienceプロジェクトでは、Python、seaborn、Natural Language Toolkit(NLTK)を使用して、シャーロック・ホームズシリーズで知られるシャーロック・ホームズシリーズの著者であるシャーロック・ホームズシリーズの著者であるサー・アーサー・コナン・ドイルが彼の小説「失われた世界」に言語的な指紋を残したかどうかを調べます。具体的には、セミコロンを使用して、サー・アーサー・コナン・ドイルか彼の同時代人であるH.G.ウェルズがこの本の著者である可能性を判断します。

ハウンド、戦争、失われた世界

サー・アーサー・コナン・ドイル(1859年-1930年)は、シャーロック・ホームズシリーズで最もよく知られています。H.G.ウェルズ(1866年-1946年)は、The Invisible Manなどいくつかの画期的なSF小説で有名です。

1912年、Strand Magazineは、科学小説の連載版である「失われた世界」を発表しました。その著者はわかっていますが、紛争中であると仮定し、私たちの仕事はその謎を解決することです。専門家たちは、ドイルとウェルズの2人の著者に絞り込みました。ウェルズは、The Lost Worldが科学小説であり、彼の1895年の作品「The Time Machine」に似たトログロディートが含まれているため、わずかに有利です。

この問題を解決するために、各著者の代表作が必要です。ドイルの場合、1901年に発表された「バスカヴィル家の犬」を使用します。ウェルズの場合、1898年に発表された「宇宙戦争」を使用します。

私たちにとって幸いなことに、これらの3つの小説はパブリックドメインであり、Project Gutenbergを通じて入手することができます。便宜上、私はそれらをこのGistにダウンロードし、ライセンス情報を取り除きました。

プロセス

著者の特定には自然言語処理(NLP)の適用が必要です。NLPは…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

ジェイ・ミシュラは、急速に成長しているエンタープライズ向けデータソリューションの提供企業であるAstera Softwareの最高執...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

人工知能

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2016年に設立されたSatisfi Labsは、会話型AI企業のリーディングカンパニーです早期の成功は、ニューヨーク・メッツ、メイシ...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...

データサイエンス

「2023年にデータサイエンスFAANGの仕事をゲットする方法は?」

データサイエンスは非常に求められる分野となり、FAANG(Facebook、Amazon、Apple、Netflix、Google)企業での就職は大きな成...

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...