このAI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル（LLM）の隠れたレイアウトの専門知識を活用します

AI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル（LLM）の隠れたレイアウトの専門知識を活用します

LLMの成長に伴い、LLMのあらゆる側面について徹底的な研究が行われてきました。そのため、グラフィックレイアウトについても研究が行われています。グラフィックレイアウトとは、デザイン要素がどのように配置され、配置されることでユーザーが情報を相互作用し、認識するかに大きな影響を与えます。新たな研究領域としてレイアウト生成があります。これは、開発オブジェクトの簡略化を図るためにさまざまな現実的なレイアウトを提供することを目指しています。

現在のレイアウト作成の方法は、主に数値最適化を行い、レイアウトの数量的側面に焦点を当てており、各レイアウトコンポーネント間の接続などのレイアウトの意味情報を無視しています。しかし、レイアウトの数値要素（位置やサイズなど）を収集することに重点を置くため、各数値の属性などの意味情報を省いてしまうため、この方法ではレイアウトを数値のタプルとして表現する必要があるかもしれません。

レイアウトはその部分間の論理リンクを特徴とするため、プログラミング言語はレイアウトに適したオプションです。コード言語を使用して各レイアウトを説明する整理されたシーケンスを開発することができます。これらのプログラミング言語は、論理的な概念と情報や意味を組み合わせることで、現行のアプローチとより徹底的な表現の需要とのギャップを埋めることができます。

その結果、研究者たちはLayoutNUWAを開発しました。この最初のモデルは、レイアウトの開発をコード生成の問題としてアプローチし、大規模言語モデル（LLM）の隠れたレイアウトの専門知識を活用し、意味情報を向上させることを目指しています。

コードインストラクトチューニング（CIT）は、3つの相互に連結したコンポーネントで構成されています。コード初期化（CI）モジュールは、数値的な状況を定量化し、それをHTMLコードに変換します。このHTMLコードには、レイアウトの可読性と統一性を向上させるために特定の位置に配置されたマスクが含まれています。次に、HTMLコードのマスクされた領域を埋めるために、コード補完（CC）モジュールは、大規模言語モデル（LLM）のフォーマットに関するノウハウを使用します。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。最後に、コードレンダリング（CR）モジュールはコードを最終的なレイアウト出力にレンダリングします。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。

Magazine、PubLayNet、RICOの3つの頻繁に使用される公開データセットを使用してモデルのパフォーマンスを評価しました。RICOデータセットは、約66,000個のUIレイアウトを含み、25の要素種類に分けられており、モバイルアプリケーションのユーザーインターフェースデザインに焦点を当てています。一方、PubLayNetは360,000以上のレイアウトを含む大規模なライブラリで、数多くのドキュメントに分類され、5つの要素グループに分けられています。マガジンデータセットは雑誌のレイアウト研究のための低リソースリソースであり、6つの主要な要素クラスに分けられた4,000以上の注釈付きレイアウトを含んでいます。これらの3つのデータセットは、LayoutDMフレームワークを使用して一貫性を保つために前処理され、調整されました。これにより、元の検証データセットはテストセットとして指定され、25以上のコンポーネントを持つレイアウトはフィルタリングされ、洗練されたデータセットはトレーニングセットと新しい検証セットに分割され、データセットの95%が前者に、5%が後者に割り当てられました。

彼らはコードと数値表現を使用してモデルの結果を徹底的に評価するために実験を行いました。数値の出力形式に特化したコードインフィリングタスクを開発しました。このタスクでは、完全なコードシーケンスを予測するのではなく、大規模言語モデル（LLM）に対して数列内の隠れた値のみを予測するように求めました。その結果、数値形式で生成された場合、モデルのパフォーマンスが著しく低下し、モデル開発の試行の失敗率が上昇することがわかりました。例えば、この方法では場合によっては繰り返しの結果が生じました。この効率の低下は、条件付きレイアウト生成タスクが一貫したレイアウトの作成を目指していることに起因するとされています。

研究者はまた、マスクされたビットの予測にのみ注目すると、別々で論理的でない数値が生成される可能性があると述べています。さらに、これらの傾向は、より多くの非表示値を持つレイアウトを示す場合に特にモデルがデータを生成できない可能性を増加させるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Was this article helpful?

「HeyGenレビュー：ビジネス向けの最高のAIビデオ生成ツール？」

「AIセキュリティへの6つのステップ」

AI研究

感情の解読：EmoTXによる感情と心の状態の明らかにする、新しいTransformer-Powered AIフレームワーク

不確実な現実世界の状況においてマシンを効果的にトレーニングするための方法

「LLMの幻覚の理解と軽減」

テルアビブとコペンハーゲン大学からの新しいAI研究は、識別信号を使用して、テキストから画像への拡散モデルを迅速に微調整するための「プラグアンドプレイ」アプローチを紹介しています

GoogleとJohns Hopkins Universityの研究者は、テキストから画像生成のためのより速く効率的な蒸留方法を明らかにします：拡散モデルの制限を克服する

勾配消失問題：原因、結果、および解決策