このAI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します

AI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します

LLMの成長に伴い、LLMのあらゆる側面について徹底的な研究が行われてきました。そのため、グラフィックレイアウトについても研究が行われています。グラフィックレイアウトとは、デザイン要素がどのように配置され、配置されることでユーザーが情報を相互作用し、認識するかに大きな影響を与えます。新たな研究領域としてレイアウト生成があります。これは、開発オブジェクトの簡略化を図るためにさまざまな現実的なレイアウトを提供することを目指しています。

現在のレイアウト作成の方法は、主に数値最適化を行い、レイアウトの数量的側面に焦点を当てており、各レイアウトコンポーネント間の接続などのレイアウトの意味情報を無視しています。しかし、レイアウトの数値要素(位置やサイズなど)を収集することに重点を置くため、各数値の属性などの意味情報を省いてしまうため、この方法ではレイアウトを数値のタプルとして表現する必要があるかもしれません。

レイアウトはその部分間の論理リンクを特徴とするため、プログラミング言語はレイアウトに適したオプションです。コード言語を使用して各レイアウトを説明する整理されたシーケンスを開発することができます。これらのプログラミング言語は、論理的な概念と情報や意味を組み合わせることで、現行のアプローチとより徹底的な表現の需要とのギャップを埋めることができます。

その結果、研究者たちはLayoutNUWAを開発しました。この最初のモデルは、レイアウトの開発をコード生成の問題としてアプローチし、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用し、意味情報を向上させることを目指しています。

コードインストラクトチューニング(CIT)は、3つの相互に連結したコンポーネントで構成されています。コード初期化(CI)モジュールは、数値的な状況を定量化し、それをHTMLコードに変換します。このHTMLコードには、レイアウトの可読性と統一性を向上させるために特定の位置に配置されたマスクが含まれています。次に、HTMLコードのマスクされた領域を埋めるために、コード補完(CC)モジュールは、大規模言語モデル(LLM)のフォーマットに関するノウハウを使用します。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。最後に、コードレンダリング(CR)モジュールはコードを最終的なレイアウト出力にレンダリングします。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。

Magazine、PubLayNet、RICOの3つの頻繁に使用される公開データセットを使用してモデルのパフォーマンスを評価しました。RICOデータセットは、約66,000個のUIレイアウトを含み、25の要素種類に分けられており、モバイルアプリケーションのユーザーインターフェースデザインに焦点を当てています。一方、PubLayNetは360,000以上のレイアウトを含む大規模なライブラリで、数多くのドキュメントに分類され、5つの要素グループに分けられています。マガジンデータセットは雑誌のレイアウト研究のための低リソースリソースであり、6つの主要な要素クラスに分けられた4,000以上の注釈付きレイアウトを含んでいます。これらの3つのデータセットは、LayoutDMフレームワークを使用して一貫性を保つために前処理され、調整されました。これにより、元の検証データセットはテストセットとして指定され、25以上のコンポーネントを持つレイアウトはフィルタリングされ、洗練されたデータセットはトレーニングセットと新しい検証セットに分割され、データセットの95%が前者に、5%が後者に割り当てられました。

彼らはコードと数値表現を使用してモデルの結果を徹底的に評価するために実験を行いました。数値の出力形式に特化したコードインフィリングタスクを開発しました。このタスクでは、完全なコードシーケンスを予測するのではなく、大規模言語モデル(LLM)に対して数列内の隠れた値のみを予測するように求めました。その結果、数値形式で生成された場合、モデルのパフォーマンスが著しく低下し、モデル開発の試行の失敗率が上昇することがわかりました。例えば、この方法では場合によっては繰り返しの結果が生じました。この効率の低下は、条件付きレイアウト生成タスクが一貫したレイアウトの作成を目指していることに起因するとされています。

研究者はまた、マスクされたビットの予測にのみ注目すると、別々で論理的でない数値が生成される可能性があると述べています。さらに、これらの傾向は、より多くの非表示値を持つレイアウトを示す場合に特にモデルがデータを生成できない可能性を増加させるかもしれません。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

Discover more

AIニュース

「ジェミニに会おう:チャットGPTに対するGoogleの答え」

人工知能の進化する世界において、Googleは最新作のGemini AIにより画期的な飛躍を遂げました。Googleによると、異なるサイズ...

機械学習

時系列分析 VARMAX-As-A-Service

VARMAX-As-A-Serviceは、統計モデルと機械学習モデルの展開パイプラインの統一と再利用のためのMLOpsアプローチです

機械学習

「GPT-4V(ビジョン)のコンセプトを理解する:新しい人工知能のトレンド」

OpenAIはAIの最新の進歩において、GPTやDALLEといった非常に優れたモデルを有しています。GPT-3のリリースは、テキストの要約...

AIニュース

「最高のAI音楽生成器(2023年9月)」

人工知能(AI)音楽生成器は、音楽を作成するコンピュータプログラムです。これは、ニューラルネットワークを利用して完全に...

AIニュース

「無人運転車は子供や肌の色の濃い人を見つけるのに苦労するかもしれません」

「科学者たちは、自動運転車の研究で使用される8つの人工知能ベースの歩行者検出器を評価し、それらが子供や肌の色の濃い人を...

データサイエンス

「分析的に成熟した組織(AMO)の構築」

組織の分析の成熟度を理解することは、データ関連のプロとして強力な競争力を持つことができますそれにより、「非分析的」な...