このAI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します

AI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します

LLMの成長に伴い、LLMのあらゆる側面について徹底的な研究が行われてきました。そのため、グラフィックレイアウトについても研究が行われています。グラフィックレイアウトとは、デザイン要素がどのように配置され、配置されることでユーザーが情報を相互作用し、認識するかに大きな影響を与えます。新たな研究領域としてレイアウト生成があります。これは、開発オブジェクトの簡略化を図るためにさまざまな現実的なレイアウトを提供することを目指しています。

現在のレイアウト作成の方法は、主に数値最適化を行い、レイアウトの数量的側面に焦点を当てており、各レイアウトコンポーネント間の接続などのレイアウトの意味情報を無視しています。しかし、レイアウトの数値要素(位置やサイズなど)を収集することに重点を置くため、各数値の属性などの意味情報を省いてしまうため、この方法ではレイアウトを数値のタプルとして表現する必要があるかもしれません。

レイアウトはその部分間の論理リンクを特徴とするため、プログラミング言語はレイアウトに適したオプションです。コード言語を使用して各レイアウトを説明する整理されたシーケンスを開発することができます。これらのプログラミング言語は、論理的な概念と情報や意味を組み合わせることで、現行のアプローチとより徹底的な表現の需要とのギャップを埋めることができます。

その結果、研究者たちはLayoutNUWAを開発しました。この最初のモデルは、レイアウトの開発をコード生成の問題としてアプローチし、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用し、意味情報を向上させることを目指しています。

コードインストラクトチューニング(CIT)は、3つの相互に連結したコンポーネントで構成されています。コード初期化(CI)モジュールは、数値的な状況を定量化し、それをHTMLコードに変換します。このHTMLコードには、レイアウトの可読性と統一性を向上させるために特定の位置に配置されたマスクが含まれています。次に、HTMLコードのマスクされた領域を埋めるために、コード補完(CC)モジュールは、大規模言語モデル(LLM)のフォーマットに関するノウハウを使用します。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。最後に、コードレンダリング(CR)モジュールはコードを最終的なレイアウト出力にレンダリングします。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。

Magazine、PubLayNet、RICOの3つの頻繁に使用される公開データセットを使用してモデルのパフォーマンスを評価しました。RICOデータセットは、約66,000個のUIレイアウトを含み、25の要素種類に分けられており、モバイルアプリケーションのユーザーインターフェースデザインに焦点を当てています。一方、PubLayNetは360,000以上のレイアウトを含む大規模なライブラリで、数多くのドキュメントに分類され、5つの要素グループに分けられています。マガジンデータセットは雑誌のレイアウト研究のための低リソースリソースであり、6つの主要な要素クラスに分けられた4,000以上の注釈付きレイアウトを含んでいます。これらの3つのデータセットは、LayoutDMフレームワークを使用して一貫性を保つために前処理され、調整されました。これにより、元の検証データセットはテストセットとして指定され、25以上のコンポーネントを持つレイアウトはフィルタリングされ、洗練されたデータセットはトレーニングセットと新しい検証セットに分割され、データセットの95%が前者に、5%が後者に割り当てられました。

彼らはコードと数値表現を使用してモデルの結果を徹底的に評価するために実験を行いました。数値の出力形式に特化したコードインフィリングタスクを開発しました。このタスクでは、完全なコードシーケンスを予測するのではなく、大規模言語モデル(LLM)に対して数列内の隠れた値のみを予測するように求めました。その結果、数値形式で生成された場合、モデルのパフォーマンスが著しく低下し、モデル開発の試行の失敗率が上昇することがわかりました。例えば、この方法では場合によっては繰り返しの結果が生じました。この効率の低下は、条件付きレイアウト生成タスクが一貫したレイアウトの作成を目指していることに起因するとされています。

研究者はまた、マスクされたビットの予測にのみ注目すると、別々で論理的でない数値が生成される可能性があると述べています。さらに、これらの傾向は、より多くの非表示値を持つレイアウトを示す場合に特にモデルがデータを生成できない可能性を増加させるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

機械学習

感情の解読:EmoTXによる感情と心の状態の明らかにする、新しいTransformer-Powered AIフレームワーク

映画は物語や感情の中でも最も芸術的な表現の一つです。たとえば、「ハッピネスの追求」では、主人公が別れやホームレスなど...

AI研究

不確実な現実世界の状況においてマシンを効果的にトレーニングするための方法

研究者たちは、自己学習すべき時と、教師に従うべき時を判断するアルゴリズムを開発しました

データサイエンス

「LLMの幻覚の理解と軽減」

最近、大型言語モデル(LLM)は、ユーザーのプロンプトに対して非常に流暢で説得力のある応答を生成するなど、印象的かつ増大...

AI研究

テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています

テキストから画像への拡散モデルは、入力テキストの説明に基づいて多様で高品質な画像を生成することで印象的な成功を収めて...

AI研究

GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします:拡散モデルの制限を克服する

高品質で多様な効果を生み出すことにより、大規模データで訓練されたテキストから画像への変換モデルは、生成タスクを大幅に...

機械学習

勾配消失問題:原因、結果、および解決策

このブログ投稿は、消失勾配問題を説明し、シグモイド関数の使用がそれにつながった理由を説明することを目的としています