「Pythonによる言語の指紋認識」

Pythonの言語の指紋認識

句読点ヒートマップを使った著者の特定

青いセミコロンの黄色い色調の一本指紋(DALL-E2と著者による画像)

スタイロメトリーは、計算的なテキスト分析を通じて文体の量的研究です。これは、私たちが書く際に独自で一貫性のある、識別可能な文体を持っているという考えに基づいています。これには、語彙、句読点の使用、単語と文の平均長さなどが含まれます。

スタイロメトリーの典型的な応用は、著者の特定です。これは、盗作の調査や歴史的な文書の起源に関する紛争の解決など、文書の著者を特定するプロセスです。

このQuick Success Data Scienceプロジェクトでは、Python、seaborn、Natural Language Toolkit(NLTK)を使用して、シャーロック・ホームズシリーズで知られるシャーロック・ホームズシリーズの著者であるシャーロック・ホームズシリーズの著者であるサー・アーサー・コナン・ドイルが彼の小説「失われた世界」に言語的な指紋を残したかどうかを調べます。具体的には、セミコロンを使用して、サー・アーサー・コナン・ドイルか彼の同時代人であるH.G.ウェルズがこの本の著者である可能性を判断します。

ハウンド、戦争、失われた世界

サー・アーサー・コナン・ドイル(1859年-1930年)は、シャーロック・ホームズシリーズで最もよく知られています。H.G.ウェルズ(1866年-1946年)は、The Invisible Manなどいくつかの画期的なSF小説で有名です。

1912年、Strand Magazineは、科学小説の連載版である「失われた世界」を発表しました。その著者はわかっていますが、紛争中であると仮定し、私たちの仕事はその謎を解決することです。専門家たちは、ドイルとウェルズの2人の著者に絞り込みました。ウェルズは、The Lost Worldが科学小説であり、彼の1895年の作品「The Time Machine」に似たトログロディートが含まれているため、わずかに有利です。

この問題を解決するために、各著者の代表作が必要です。ドイルの場合、1901年に発表された「バスカヴィル家の犬」を使用します。ウェルズの場合、1898年に発表された「宇宙戦争」を使用します。

私たちにとって幸いなことに、これらの3つの小説はパブリックドメインであり、Project Gutenbergを通じて入手することができます。便宜上、私はそれらをこのGistにダウンロードし、ライセンス情報を取り除きました。

プロセス

著者の特定には自然言語処理(NLP)の適用が必要です。NLPは…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

セラフィム・バツォグルはSeerのチーフデータオフィサーですSeerに加わる前は、セラフィムはInsitroのチーフデータオフィサー...

人工知能

Diginiのスマートセンスの社長、ガイ・イエヒアブによるインタビューシリーズ

ガイ・イハイアヴ氏は、ビジネスの成功に最も重要な資産を保護するためにインターネット・オブ・シングス(IoT)の力を活用す...

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...