「ペンの向こう側:視覚的な原型からの手書きテキスト生成におけるAIの芸術性」

AI's artistic expression in hand-written text generation from visual prototypes Beyond the pen

個々の作家の独自の書道スタイルを再現する手書きテキスト生成(HTG)という新興の分野は、手書きテキスト認識(HTR)モデルのための高品質なトレーニングデータを生成することから、身体的な障害を持つ個人のための手書きのノートを自動的に生成するなど、さまざまな実用的なアプリケーションを持っています。また、この目的のために設計されたモデルから得られる独特のスタイル表現は、ライターの識別、署名の検証、および筆跡スタイルの操作など、他のタスクでも有用です。

スタイル付き手書き生成に取り組む際、スタイル転送に頼るだけでは限界があります。なぜなら、特定の作家の書道を模倣することは、背景やインクの色といったテクスチャの考慮にとどまらず、筆幅や傾き、斜め具合、丸み、個々の文字の形状や合字といった複雑なディテールを含んでいるからです。これらの視覚的要素を正確に扱うことは、小さな余分なストロークや欠けたストロークなど、内容を誤って変更する可能性があるアーティファクトを防ぐために重要です。

このため、HTGのために特化した手法が考案されています。一つのアプローチは、手書きを個々のストロークから成る軌跡として扱うことです。また、手書きをその視覚的特徴を捉えた画像として扱うこともできます。

前者の手法は、オンラインHTG戦略を採用しており、ペンの軌跡の予測を点ごとに行います。一方、後者の手法は、直接完全なテキストイメージを生成するオフラインHTGモデルで構成されます。この記事で紹介されている研究は、その有利な属性を持つため、オフラインHTGパラダイムに焦点を当てています。オンラインアプローチとは異なり、高価なペン記録トレーニングデータを必要としません。そのため、歴史的なデータなど、著者のオンライン手書きに関する情報が利用できないシナリオでも適用することができます。さらに、オフラインパラダイムは勾配消失の問題などを回避できるため、トレーニングが容易です。

本研究で使用されているVATr(Visual Archetypes-based Transformer)というアーキテクチャは、Few-Shotスタイルオフライン手書きテキスト生成(HTG)に革新的なアプローチを導入しています。提案手法の概要は、以下の図に示されています。

https://arxiv.org/abs/2303.15269

この手法は、文字を連続変数として表現し、生成プロセスにおいてTransformerデコーダ内のクエリコンテンツベクトルとして利用することで特筆されます。プロセスは文字の表現から始まります。文字は連続変数に変換され、それがTransformerデコーダ内のクエリとして使用されます。このデコーダは、提供されたコンテンツに基づいてスタイル化されたテキストイメージを生成するための重要なコンポーネントです。

この手法の注目すべき利点の一つは、トレーニングデータであまり出現しない文字(数字、大文字、句読点など)の生成を容易にする能力です。これは、レアなシンボルと一般的に出現するシンボルとの潜在空間上の近接性を活用することで実現されます。

アーキテクチャはGNU Unifontフォントを使用して文字を16×16のバイナリイメージとして描画し、各文字の視覚的本質を効果的に捉えます。これらの文字イメージの密なエンコーディングは、事前にトレーニングされたTransformerエンコーダによって抽出されたスタイルベクトルへのクエリとしてTransformerデコーダに組み込まれます。

さらに、この手法は、最初に書道スタイル属性を強調した広範な合成データセットでトレーニングされた事前トレーニドバックボーンを活用しています。この技術はHTGの文脈ではしばしば無視されますが、それは見たことのないスタイルに対して特に堅牢なスタイル表現を生み出すことが示されています。

VATrアーキテクチャは、最新の最先端の生成手法との広範な実験的比較を通じて検証されています。いくつかの結果と最先端の手法との比較を以下に報告します。

https://arxiv.org/abs/2303.15269

これは、視覚的な原型から手書きテキストを生成するための新しいAIフレームワークであるVATrの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

I/O 2023 で発表した100のこと

Google I/O 2023はニュースとローンチで満ち溢れていましたここではI/Oで発表された100のことを紹介します

機械学習

「人物再識別入門」

「人物再識別」は、異なる非重複カメラビューに現れる個人を識別するプロセスですこのプロセスは、顔認識に頼らずに、服装を...

AIニュース

人工知能によって設計された薬剤が、人間の試験のために準備ができました

中国の複合企業フォン・グループとプライベートエクイティ企業ウォルバーグ・ピンカスに支援されたバイオテック企業Insilico ...

人工知能

Taplio LinkedInの成長に最適なAIツール

Taplioは、LinkedIn上で個人ブランドを成長させるのをサポートするために設計されたAIツールです

AIニュース

Googleは、AIを搭載したブラウザベースの開発者の楽園である「Project IDX」を発表しました

AIのイノベーションを推進し、その限界を打ち破るために、Googleは最新プロジェクト「Project IDX」を発表しました。この野心...

AIニュース

Google Cloudがマッコーリー銀行のAIバンキング機能を強化するのを支援します

マッコーリーのバンキング&金融サービスグループは、人工知能(AI)と機械学習(ML)の力を結集し、銀行業界を変革するため...