「Pythonによる言語の指紋認識」

Pythonの言語の指紋認識

句読点ヒートマップを使った著者の特定

青いセミコロンの黄色い色調の一本指紋(DALL-E2と著者による画像)

スタイロメトリーは、計算的なテキスト分析を通じて文体の量的研究です。これは、私たちが書く際に独自で一貫性のある、識別可能な文体を持っているという考えに基づいています。これには、語彙、句読点の使用、単語と文の平均長さなどが含まれます。

スタイロメトリーの典型的な応用は、著者の特定です。これは、盗作の調査や歴史的な文書の起源に関する紛争の解決など、文書の著者を特定するプロセスです。

このQuick Success Data Scienceプロジェクトでは、Python、seaborn、Natural Language Toolkit(NLTK)を使用して、シャーロック・ホームズシリーズで知られるシャーロック・ホームズシリーズの著者であるシャーロック・ホームズシリーズの著者であるサー・アーサー・コナン・ドイルが彼の小説「失われた世界」に言語的な指紋を残したかどうかを調べます。具体的には、セミコロンを使用して、サー・アーサー・コナン・ドイルか彼の同時代人であるH.G.ウェルズがこの本の著者である可能性を判断します。

ハウンド、戦争、失われた世界

サー・アーサー・コナン・ドイル(1859年-1930年)は、シャーロック・ホームズシリーズで最もよく知られています。H.G.ウェルズ(1866年-1946年)は、The Invisible Manなどいくつかの画期的なSF小説で有名です。

1912年、Strand Magazineは、科学小説の連載版である「失われた世界」を発表しました。その著者はわかっていますが、紛争中であると仮定し、私たちの仕事はその謎を解決することです。専門家たちは、ドイルとウェルズの2人の著者に絞り込みました。ウェルズは、The Lost Worldが科学小説であり、彼の1895年の作品「The Time Machine」に似たトログロディートが含まれているため、わずかに有利です。

この問題を解決するために、各著者の代表作が必要です。ドイルの場合、1901年に発表された「バスカヴィル家の犬」を使用します。ウェルズの場合、1898年に発表された「宇宙戦争」を使用します。

私たちにとって幸いなことに、これらの3つの小説はパブリックドメインであり、Project Gutenbergを通じて入手することができます。便宜上、私はそれらをこのGistにダウンロードし、ライセンス情報を取り除きました。

プロセス

著者の特定には自然言語処理(NLP)の適用が必要です。NLPは…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ

ジョナサン・ダムブロットは、Cranium AIのCEO兼共同創業者ですCranium AIは、サイバーセキュリティおよびデータサイエンスチ...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

人工知能

「ナレ・ヴァンダニャン、Ntropyの共同創設者兼CEO- インタビューシリーズ」

Ntropyの共同創設者兼CEOであるナレ・ヴァンダニアンは、開発者が100ミリ秒未満で超人的な精度で金融取引を解析することを可...