アイザカと共に過去を予測する

'Predicting the past with Izaka'

AIと歴史家の協力による古代のテキストの復元、配置、および年代付け

人類の執筆の誕生は、歴史の夜明けを告げるものであり、過去の文明と私たちが今日生きる世界を理解する上で重要です。たとえば、約2,500年前、ギリシャ人は石、陶器、金属に書き込みを始め、賃貸契約や法律、カレンダーや神託など、地中海地域に関する詳細な情報を記録しました。残念ながら、それは不完全な記録です。保存されている多くの碑文は、数世紀にわたって損傷を受けたり、元の位置から移動されたりしています。さらに、放射性炭素年代測定法などの現代の年代測定技術は、これらの材料には使用できないため、碑文の解釈は困難で時間がかかるものとなっています。

DeepMindは、知能を解決して科学と人類を前進させるというミッションに基づいて、ヴェネツィアのカ・フォスカリ大学人文学部、オックスフォード大学クラシックス学部、アテネ経済・ビジネス大学情報学部と共同で、機械学習が歴史家によるこれらの碑文の解釈を支援する方法を探索しました。これにより、古代の歴史のより豊かな理解が得られ、AIと歴史家の協力の可能性が開かれました。

本日Natureに掲載された論文では、私たちは共同でIthacaを紹介しています。これは、損傷した碑文の欠損テキストを復元し、元の位置を特定し、作成された日付を推定することができる最初のディープニューラルネットワークです。Ithacaは、ホメロスのオデュッセイアに登場するギリシャの島にちなんで名付けられ、以前のテキスト復元システムであるPythiaを拡張しました。評価の結果、Ithacaは損傷したテキストの復元において62%の精度、元の位置の特定において71%の精度を達成し、テキストの推定日付を正解の日付範囲から30年以内に特定することができます。歴史家はこのツールを使用して、ギリシャの歴史の重要な時期を再評価しています。

私たちの研究を研究者、教育者、博物館のスタッフなど、幅広い人々に提供するために、Google CloudとGoogle Arts & Cultureと提携してIthacaの無料インタラクティブバージョンを公開しました。さらなる研究を支援するために、私たちはコード、事前学習モデル、および対話型のColaboratoryノートブックもオープンソース化しました。

図1. この復元された碑文（IG I3 4B）は、アテネのアクロポリスに関する布告を記録し、紀元前485/4年のものです。（CC BY-SA 3.0、WikiMedia）

図2. Ithacaのアーキテクチャ。テキストの損傷部分はダッシュ「-」で表されます。ここでは、文字「δημ.」を人工的に破損させました。これらの入力が与えられると、Ithacaはテキストを復元し、テキストが書かれた時間と場所を特定します。

共同作業ツール

Ithacaは、Packard Humanities Instituteのギリシャ碑文の最大のデジタルデータセットでトレーニングされています。自然言語処理モデルは、単語を使用して一般的にトレーニングされます。なぜなら、それらが文中でどのように現れ、それらの間の関係が追加の文脈と意味を提供するからです。たとえば、「昔々」は、個々の文字や単語を別々に見るよりも意味があります。しかし、歴史家がIthacaで分析したい碑文の多くは損傷しており、しばしばテキストの一部が欠落しています。これに対応するために、私たちは単語と個々の文字の両方を入力として使用してモデルをトレーニングしました。モデルの中核となる疎な自己注意メカニズムは、これらの2つの入力を並列に評価することで、必要に応じて碑文を評価することができるようにしています。