「Pythonによる言語の指紋認識」
Pythonの言語の指紋認識
句読点ヒートマップを使った著者の特定
スタイロメトリーは、計算的なテキスト分析を通じて文体の量的研究です。これは、私たちが書く際に独自で一貫性のある、識別可能な文体を持っているという考えに基づいています。これには、語彙、句読点の使用、単語と文の平均長さなどが含まれます。
スタイロメトリーの典型的な応用は、著者の特定です。これは、盗作の調査や歴史的な文書の起源に関する紛争の解決など、文書の著者を特定するプロセスです。
このQuick Success Data Scienceプロジェクトでは、Python、seaborn、Natural Language Toolkit(NLTK)を使用して、シャーロック・ホームズシリーズで知られるシャーロック・ホームズシリーズの著者であるシャーロック・ホームズシリーズの著者であるサー・アーサー・コナン・ドイルが彼の小説「失われた世界」に言語的な指紋を残したかどうかを調べます。具体的には、セミコロンを使用して、サー・アーサー・コナン・ドイルか彼の同時代人であるH.G.ウェルズがこの本の著者である可能性を判断します。
ハウンド、戦争、失われた世界
サー・アーサー・コナン・ドイル(1859年-1930年)は、シャーロック・ホームズシリーズで最もよく知られています。H.G.ウェルズ(1866年-1946年)は、The Invisible Manなどいくつかの画期的なSF小説で有名です。
- 「2023年8月の10の最高のAIフェイススワップツール」
- 「ODSC West Bootcampプログラムから期待できること」
- 「ストリーミング巨人Netflix、ライターストライキ継続中にAIジョブを$900,000でリストアップ」
1912年、Strand Magazineは、科学小説の連載版である「失われた世界」を発表しました。その著者はわかっていますが、紛争中であると仮定し、私たちの仕事はその謎を解決することです。専門家たちは、ドイルとウェルズの2人の著者に絞り込みました。ウェルズは、The Lost Worldが科学小説であり、彼の1895年の作品「The Time Machine」に似たトログロディートが含まれているため、わずかに有利です。
この問題を解決するために、各著者の代表作が必要です。ドイルの場合、1901年に発表された「バスカヴィル家の犬」を使用します。ウェルズの場合、1898年に発表された「宇宙戦争」を使用します。
私たちにとって幸いなことに、これらの3つの小説はパブリックドメインであり、Project Gutenbergを通じて入手することができます。便宜上、私はそれらをこのGistにダウンロードし、ライセンス情報を取り除きました。
プロセス
著者の特定には自然言語処理(NLP)の適用が必要です。NLPは…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles