「ペンの向こう側:視覚的な原型からの手書きテキスト生成におけるAIの芸術性」

AI's artistic expression in hand-written text generation from visual prototypes Beyond the pen

個々の作家の独自の書道スタイルを再現する手書きテキスト生成(HTG)という新興の分野は、手書きテキスト認識(HTR)モデルのための高品質なトレーニングデータを生成することから、身体的な障害を持つ個人のための手書きのノートを自動的に生成するなど、さまざまな実用的なアプリケーションを持っています。また、この目的のために設計されたモデルから得られる独特のスタイル表現は、ライターの識別、署名の検証、および筆跡スタイルの操作など、他のタスクでも有用です。

スタイル付き手書き生成に取り組む際、スタイル転送に頼るだけでは限界があります。なぜなら、特定の作家の書道を模倣することは、背景やインクの色といったテクスチャの考慮にとどまらず、筆幅や傾き、斜め具合、丸み、個々の文字の形状や合字といった複雑なディテールを含んでいるからです。これらの視覚的要素を正確に扱うことは、小さな余分なストロークや欠けたストロークなど、内容を誤って変更する可能性があるアーティファクトを防ぐために重要です。

このため、HTGのために特化した手法が考案されています。一つのアプローチは、手書きを個々のストロークから成る軌跡として扱うことです。また、手書きをその視覚的特徴を捉えた画像として扱うこともできます。

前者の手法は、オンラインHTG戦略を採用しており、ペンの軌跡の予測を点ごとに行います。一方、後者の手法は、直接完全なテキストイメージを生成するオフラインHTGモデルで構成されます。この記事で紹介されている研究は、その有利な属性を持つため、オフラインHTGパラダイムに焦点を当てています。オンラインアプローチとは異なり、高価なペン記録トレーニングデータを必要としません。そのため、歴史的なデータなど、著者のオンライン手書きに関する情報が利用できないシナリオでも適用することができます。さらに、オフラインパラダイムは勾配消失の問題などを回避できるため、トレーニングが容易です。

本研究で使用されているVATr(Visual Archetypes-based Transformer)というアーキテクチャは、Few-Shotスタイルオフライン手書きテキスト生成(HTG)に革新的なアプローチを導入しています。提案手法の概要は、以下の図に示されています。

https://arxiv.org/abs/2303.15269

この手法は、文字を連続変数として表現し、生成プロセスにおいてTransformerデコーダ内のクエリコンテンツベクトルとして利用することで特筆されます。プロセスは文字の表現から始まります。文字は連続変数に変換され、それがTransformerデコーダ内のクエリとして使用されます。このデコーダは、提供されたコンテンツに基づいてスタイル化されたテキストイメージを生成するための重要なコンポーネントです。

この手法の注目すべき利点の一つは、トレーニングデータであまり出現しない文字(数字、大文字、句読点など)の生成を容易にする能力です。これは、レアなシンボルと一般的に出現するシンボルとの潜在空間上の近接性を活用することで実現されます。

アーキテクチャはGNU Unifontフォントを使用して文字を16×16のバイナリイメージとして描画し、各文字の視覚的本質を効果的に捉えます。これらの文字イメージの密なエンコーディングは、事前にトレーニングされたTransformerエンコーダによって抽出されたスタイルベクトルへのクエリとしてTransformerデコーダに組み込まれます。

さらに、この手法は、最初に書道スタイル属性を強調した広範な合成データセットでトレーニングされた事前トレーニドバックボーンを活用しています。この技術はHTGの文脈ではしばしば無視されますが、それは見たことのないスタイルに対して特に堅牢なスタイル表現を生み出すことが示されています。

VATrアーキテクチャは、最新の最先端の生成手法との広範な実験的比較を通じて検証されています。いくつかの結果と最先端の手法との比較を以下に報告します。

https://arxiv.org/abs/2303.15269

これは、視覚的な原型から手書きテキストを生成するための新しいAIフレームワークであるVATrの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「画像のためのモダンなセマンティック検索」

「数年前の「あの一枚の写真」を見つけたいんですね場面に関するいくつかの具体的な情報を覚えているんですが、Apple Photos...

データサイエンス

生成AIのアシストを使用して複雑なSQLクエリを作成する

イントロダクション ChatGPTの登場は、AIの歴史において前例のない瞬間を迎えました。ChatGPTや他の多くの生成型AIツールは、...

機械学習

ビジュアルキャプション:大規模言語モデルを使用して、動的なビジュアルを備えたビデオ会議を補完する

Google Augmented Realityのリサーチサイエンティスト、Ruofei DuとシニアスタッフリサーチサイエンティストのAlex Olwalが投...

人工知能

Segmind APIとPostmanを使用した簡単なGenAIアプリの統合

はじめに 人工知能(AI)をアプリケーションに統合することは、ビジネス競争力を維持するためにますます必要になっています。...

機械学習

「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」

大規模言語モデル(LLM)は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にない...