「テキストを科学的なベクトルグラフィックスに変換することはできるのか?このAI論文では、AutomaTikZを紹介し、TikZのパワーを説明しています」

「テキストを科学的なベクトルグラフィックスに変換することはできるのか?AutomaTikZの力を解説するAI論文」

テキストから画像の生成の最新の進歩により、直感的な自然言語記述から詳細なグラフィックの作成が可能になりました。Stable DiffusionやDALL-Eなどのモデルを使用すると、頻繁に人間によって作成された実際の画像や芸術作品に似た結果が得られます。しかし、これらのモデルは科学的な図においては最良のラスター画像を生成しません。科学的な図は複雑な概念の説明や重要な発見の伝達を研究者が支援するために重要です。ラスターグラフィックスは高い幾何学的精度と小さな文字でも読めるテキストが必要ですから、これらの領域で改善する必要があります。その結果、データを幾何学的な形状に分割し、テキストの検索が可能であり、ファイルサイズが小さくなることが多いベクトルグラフィックスが、多くの学術会議で推奨されています。

自動ベクトルグラフィックスの作成の分野も拡大していますが、利用可能な手法にはそれぞれ欠点があります。主に拡張性のあるベクトルグラフィックス(SVG)形式の低レベルのパスコンポーネントを生成しますが、正確な幾何学的関係を保持せず、単一のアイコンや書体の文字などの複雑度が低い出力を生成することが多いです。ビーレフェルト大学、ハンブルク大学、マンハイム大学とビーレフェルト大学の研究者たちは、下位レベルのベクトルグラフィックス形式から抽象化を行うビジュアル言語の使用方法を調査し、これらの制限を解決するために高レベルの構造を提供します。

言語モデルはこれらの言語を習得し、それらを使用して単純なタスクを達成することができることを示唆しています。しかし、科学的な図をどの程度生成できるかはまだ判明していません。この研究では、その表現力と科学への重視から、GPT-4やClaude 2などの汎用の言語モデルと比較して、この作業でTikZというグラフィックス言語に焦点を当てています。テキストから画像の生成と同様に、言語モデルが画像キャプションに基づいて科学的な図を自動生成し、TikZのニュアンスを捉えることができるかどうかを知りたいと考えています。これにより、生産性が向上し、包括性が促進されます(社会科学者などのプログラミングのような言語に慣れていない学者にも助けとなる)。また、カスタマイズされたTikZの例を生成することで、教育の改善にもつながる可能性があります。TEX Stack Exchangeはこの使用例の一つであり、おおよそ10%の問い合わせがTikZに関するものです。

彼らの主な貢献は以下の通りです:

(i) AutomaTikZプロジェクトの一環として、約120,000のTikZの図とキャプションのペアを持つDaTikZが開発され、これは最初の大規模なTikZデータセットとなります。

(ii) 大規模言語モデル(LLM)LLaMAがDaTikZに合わせて調整され、そのパフォーマンスが汎用のLLM、特にGPT-4とClaude 2と比較されます。自動と人間による評価により、調整されたLLaMAによって生成される科学的な図は人間によって作成された図により類似していることがわかりました。

(iii) 彼らはLLaMAを拡張したCLiMAに取り組んでおり、これにはマルチモーダルのCLIP埋め込みが含まれています。この改善により、CLiMAはより簡単に入力キャプションを理解することができ、テキストと画像の整合性を高めます。さらに、写真を追加の入力として使用することが可能になり、さらなる速度向上が図れます。

(iv) また、すべてのモデルが独自の結果を提供し、メモリ関連の問題はほとんどありません。LLaMAとCLiMAは、入力キャプションを出力画像へ過度に複製することでテキストと画像の類似性を最大化する退化した解を頻繁に提供する一方、GPT-4とClaude 2はよりシンプルな出力を生成することがよくあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIがYouTubeの多言語吹替を開始します

世界最大の動画共有プラットフォームであるYouTubeは、AI技術の統合により、コンテンツクリエイターが世界中の観客と接触する...

機械学習

Learning to build—Towards AI コミュニティニュースレター第1号

私たちは最新のニュースレターをお知らせすることをとても楽しみにしています!それは私たちの共同体についてのすべてですコ...

人工知能

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAI...

人工知能

「Img2Prompt AI モデルを使用して画像をプロンプトに変換する方法:ステップバイステップガイド」

「シンプルなAPI呼び出しと少しのNode.jsで画像からプロンプトを収集します」

機械学習

NVIDIA CEO:クリエイターは生成的AIによって「スーパーチャージ」されるでしょう

ジェンスン・ファウンダー兼CEOは、フランスのリビエラ地方で開催されたカンヌライオンズフェスティバルで、ジェンスン・ファ...

人工知能

クリエイティブ性を高めるためのChatGPTプロンプト

「良いアイデアが思いつかない? あなたの創造力をChatGPTにアウトソースしましょう」