Learn more about Search Results ML - Page 259

このAI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します

LLMの成長に伴い、LLMのあらゆる側面について徹底的な研究が行われてきました。そのため、グラフィックレイアウトについても研究が行われています。グラフィックレイアウトとは、デザイン要素がどのように配置され、配置されることでユーザーが情報を相互作用し、認識するかに大きな影響を与えます。新たな研究領域としてレイアウト生成があります。これは、開発オブジェクトの簡略化を図るためにさまざまな現実的なレイアウトを提供することを目指しています。 現在のレイアウト作成の方法は、主に数値最適化を行い、レイアウトの数量的側面に焦点を当てており、各レイアウトコンポーネント間の接続などのレイアウトの意味情報を無視しています。しかし、レイアウトの数値要素(位置やサイズなど)を収集することに重点を置くため、各数値の属性などの意味情報を省いてしまうため、この方法ではレイアウトを数値のタプルとして表現する必要があるかもしれません。 レイアウトはその部分間の論理リンクを特徴とするため、プログラミング言語はレイアウトに適したオプションです。コード言語を使用して各レイアウトを説明する整理されたシーケンスを開発することができます。これらのプログラミング言語は、論理的な概念と情報や意味を組み合わせることで、現行のアプローチとより徹底的な表現の需要とのギャップを埋めることができます。 その結果、研究者たちはLayoutNUWAを開発しました。この最初のモデルは、レイアウトの開発をコード生成の問題としてアプローチし、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用し、意味情報を向上させることを目指しています。 コードインストラクトチューニング(CIT)は、3つの相互に連結したコンポーネントで構成されています。コード初期化(CI)モジュールは、数値的な状況を定量化し、それをHTMLコードに変換します。このHTMLコードには、レイアウトの可読性と統一性を向上させるために特定の位置に配置されたマスクが含まれています。次に、HTMLコードのマスクされた領域を埋めるために、コード補完(CC)モジュールは、大規模言語モデル(LLM)のフォーマットに関するノウハウを使用します。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。最後に、コードレンダリング(CR)モジュールはコードを最終的なレイアウト出力にレンダリングします。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。 Magazine、PubLayNet、RICOの3つの頻繁に使用される公開データセットを使用してモデルのパフォーマンスを評価しました。RICOデータセットは、約66,000個のUIレイアウトを含み、25の要素種類に分けられており、モバイルアプリケーションのユーザーインターフェースデザインに焦点を当てています。一方、PubLayNetは360,000以上のレイアウトを含む大規模なライブラリで、数多くのドキュメントに分類され、5つの要素グループに分けられています。マガジンデータセットは雑誌のレイアウト研究のための低リソースリソースであり、6つの主要な要素クラスに分けられた4,000以上の注釈付きレイアウトを含んでいます。これらの3つのデータセットは、LayoutDMフレームワークを使用して一貫性を保つために前処理され、調整されました。これにより、元の検証データセットはテストセットとして指定され、25以上のコンポーネントを持つレイアウトはフィルタリングされ、洗練されたデータセットはトレーニングセットと新しい検証セットに分割され、データセットの95%が前者に、5%が後者に割り当てられました。 彼らはコードと数値表現を使用してモデルの結果を徹底的に評価するために実験を行いました。数値の出力形式に特化したコードインフィリングタスクを開発しました。このタスクでは、完全なコードシーケンスを予測するのではなく、大規模言語モデル(LLM)に対して数列内の隠れた値のみを予測するように求めました。その結果、数値形式で生成された場合、モデルのパフォーマンスが著しく低下し、モデル開発の試行の失敗率が上昇することがわかりました。例えば、この方法では場合によっては繰り返しの結果が生じました。この効率の低下は、条件付きレイアウト生成タスクが一貫したレイアウトの作成を目指していることに起因するとされています。 研究者はまた、マスクされたビットの予測にのみ注目すると、別々で論理的でない数値が生成される可能性があると述べています。さらに、これらの傾向は、より多くの非表示値を持つレイアウトを示す場合に特にモデルがデータを生成できない可能性を増加させるかもしれません。

「AIブーム:小規模ビジネスのための生成AI実践ガイド」

近年、世界は人工知能(AI)の分野で驚くべき急速な発展を目撃していますこれは単なるテクノロジートレンドではなく、技術革命であり、再構築を行っています...

「インダストリー4.0 メタバースの解放:AR/VR、AI、および3Dテクノロジーが次世代産業革命を推進する方法」

没入型のミックスリアリティおよび拡張現実技術は、仮想現実(VR)と拡張現実(AR)で構成されており、ビジネスのイノベーションと拡大の主要な要因となっています企業の運営方法、顧客との対話、目標の達成方法を変革することにより、この技術的なソリューションはさまざまな産業に大きな影響を与えています[...]

「AGENTS内部 半自律LLMエージェントを構築するための新しいオープンソースフレームワーク」

「自律エージェントは、ファウンデーションモデルエコシステムで最も人気のあるトピックの一つですAutoGPTやBabyAGIなどのプロジェクトの初期の試みは、開発者の想像力をかき立てました...」

「2023年に行うべきトップ10のウェブスクレイピングプロジェクト」

Webスクレイピングとは、ボットの助けを借りてウェブサイトからコンテンツと情報を生成するプロセスです。データベースに保存されているデータとともに、全体のHTMLコードを抽出します。Webスクレイピングは、大規模なビジネス組織にとってさまざまな用途があります。それによって、彼らのターゲット市場の正確な連絡先情報を生成することができ、それがさらにこれらの企業のリードと売上を増やすのに役立ちます。Webスクレイピングは、市場で新興のスキルと技術です。Webスクレイピングプロジェクトに取り組むことは、個人にとってスキルを磨く上で非常に有益であり、彼らが働いている会社にとっても貴重な資産となります。以下は、2023年に行う必要のあるトップ10のWebスクレイピングプロジェクトのリストです。 また読む:ソースコード付きの10の最高のデータ分析プロジェクト 求人市場分析 求職者にとって、オンラインの求人検索がどれだけ重要かを知っています。求職者の多様なニーズに対応し、求職者が簡単に求人を見つけるのを助けるWebスクレイピングプロジェクトを作成することは、非常に価値のあるツールです。 求人検索サイト(Indeed、Glassdoor、LinkedInなど)から求人情報を収集し、これらのウェブサイトからデータをスクレイピングし、焦点を当てるべきキーパラメータを把握します。求人市場分析では、求人の説明、求人の場所、必要なスキル、必要な経験、そして最も重要なのは給与などの主要なメトリックに焦点を当てます。 求人需要のトレンドを分析します。トレンドとなっている求人の場所を分析します。どの求人の役割がどのくらいの経験を必要とし、特定の求人に必要な重要なスキルは何かを調べます。たとえば、ソフトウェアエンジニアの求人をスクレイピングする場合、必要なスキルはコーディング言語の習熟度、データベースのメンテナンスのための実践などです。 これらの洞察が十分に生成され、分析された後は、求職者がプロジェクトを進める際に理解しやすいようにデータを提示することが重要です。 また読む:リサーチアナリストになるには? 説明、スキル、給与 Eコマース価格トラッカー オンラインショッピングは、年々進化しています。電子商取引のウェブサイトが提供する快適さと利便性が非常に人気を集めています。Eコマースのウェブスクレイピングプロジェクトを作成し、価格を追跡する価値のあるツールを構築することができます。AmazonやFlipkartなどのスクレイピングしたいウェブサイトを選択します。 リストされているすべての商品、その説明、およびその他の重要な情報の価格を追跡します。Webスクレイピングプロジェクトを作成し、価格がユーザーが定義したしきい値以下になった場合に生成されたリードの顧客にアラートを送信します。 さまざまなオンライン小売業者の商品の価格を比較して、最良の価格を提供し、最も効率的なWebスクレイピングプロジェクトとして機能します。 ニュースアグリゲーター ニュースを読むことに熱中し、最新の情報を得ることに興味を持っている人々は、あらゆる分野のニュースを提供するプラットフォームを探しています。ニュースアグリゲーターのWebスクレイピングプロジェクトを開発することは、情報としてだけでなく、貴重なツールとなります。Times of India、Hindustan Times、Economic Timesなどの複数のニュースウェブサイトからニュース記事を収集するWebスクレイピングツールを作成します。 収集したニュースを特定のトピックとキーワードで分類し、ユーザー向けにパーソナライズされたニュースフィードを作成します。これにより、ニュースをカテゴリ別に分類することが容易になります。 不動産市場分析 Pythonプロジェクトを使用して不動産リスト(物件の詳細、価格、場所など)を収集するWebスクレイピングプロジェクトを作成します。不動産市場分析を行うための必須ツールとなります。市場のトレンド、物件の価値上昇率、賃貸収入の可能性を分析し、効率的なシステムを作成します。異なる不動産ウェブサイトから収集したこのデータを可視化し、投資家や家購入者が情報をもとに適切な判断を下すのに役立つツールを作成します。 天気データダッシュボード 楽しい活動やビジネスディールに出かける前に、天気の更新情報を確認することは非常に重要です。PythonのWebスクレイピングプロジェクトは、天気データダッシュボードの開発の例として考えられます。異なる天気解析ツールからデータを収集し、予測や過去のデータなどの天気情報を表示するダッシュボードを作成します。天気アラートや場所に基づいたおすすめなどの機能を含め、プロジェクトをパーソナライズします。…

マイクロソフトの研究者は、テキスト重視の画像の機械読み取りのためのマルチモーダルリテラシーモデルであるKosmos-2.5を紹介しました

近年、大規模言語モデル(LLM)が人工知能の中で注目を浴びていますが、これまで主にテキストに焦点を当て、視覚的な内容の理解に苦労してきました。多モーダル大規模言語モデル(MLLM)は、このギャップを埋めるために登場しました。MLLMは、ビジュアルとテキストの情報を単一のTransformerベースのモデルで組み合わせ、両方のモダリティからコンテンツを学習・生成することができるため、AIの能力の大幅な向上をもたらします。 KOSMOS-2.5は、統一されたフレームワーク内で2つの密接に関連する転写タスクを処理するために設計された多モーダルモデルです。最初のタスクは、空間認識を持つテキストブロックを生成し、テキストリッチな画像内のテキスト行に空間座標を割り当てることです。2番目のタスクは、さまざまなスタイルと構造を捉えたマークダウン形式の構造化されたテキスト出力を生成することに焦点を当てています。 両方のタスクは、共有のTransformerアーキテクチャ、タスク固有のプロンプト、および適応可能なテキスト表現を利用した単一のシステムで管理されています。モデルのアーキテクチャは、ViT(Vision Transformer)に基づくビジョンエンコーダと、Transformerアーキテクチャに基づく言語デコーダを組み合わせ、リサンプラモジュールを介して接続されています。 このモデルを訓練するためには、テキストが多い画像の大規模なデータセットで事前トレーニングを行います。このデータセットには、境界ボックス付きのテキスト行とプレーンなマークダウンテキストが含まれています。このデュアルタスクトレーニングのアプローチにより、KOSMOS-2.5の全体的な多モーダルリテラシー能力が向上します。 上記の画像は、KOSMOS-2.5のモデルアーキテクチャを示しています。KOSMOS-2.5の性能は、エンドツーエンドのドキュメントレベルのテキスト認識と、マークダウン形式の画像からのテキスト生成の2つの主要なタスクで評価されます。実験結果は、テキスト集中の画像タスクの理解力における強力なパフォーマンスを示しています。さらに、KOSMOS-2.5は、フューショットおよびゼロショット学習を含むシナリオで有望な能力を発揮し、テキストリッチな画像を扱う実世界のアプリケーションにおいて、多目的なツールとなります。 これらの有望な結果にもかかわらず、現在のモデルにはいくつかの制限があり、貴重な将来の研究方向を提供しています。たとえば、KOSMOS-2.5は現在、テキストの空間座標を入力と出力として事前トレーニングしているにもかかわらず、自然言語の指示を使用してドキュメント要素の位置を細かく制御することはサポートしていません。広範な研究領域では、モデルのスケーリング能力の開発をさらに進めるという重要な方向性があります。

「ハックからハーモニーへ:レコメンデーションでの製品ルールの構造化」

今日のデータ駆動のランドスケープでは、推薦システムがソーシャルメディアのフィードから電子商取引まで、すべてを支えています機械学習アルゴリズムがすべての重要な作業を行っていると考えるのは誘惑されるかもしれませんが、…

「Now You See Me (CME) 概念ベースのモデル抽出」

CIKMカンファレンスで発表されたAIMLAIワークショップの論文から:「Now You See Me(CME):概念ベースのモデル抽出」(GitHub)問題—深層ニューラルネットワークモデルはブラックボックスであり、...

「Matplotlibのマスタリング:データ可視化の包括的なガイド」

こんにちは、データ愛好家👋 データはビジュアライゼーションを通じてより理解しやすくなることを知っていますそれは洞察を得るのに役立つだけでなく、ビジュアライゼーションはクライアントに洞察を説明するのも簡単にします...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us