Learn more about Search Results この - Page 18

このAI論文は、概念関連伝播(CRP)を用いて、「どこ」や「何」を解き明かすための深層学習モデルの理解に新たなアプローチを提案しています

“`html 機械学習と人工知能の分野は非常に重要になっています。日々進歩している新たな技術があります。この領域はあらゆる分野に影響を与えています。洗練されたニューラルネットワークアーキテクチャを利用することで、各セクターで非常に高い精度を誇るモデルがあります。 その正確な性能にもかかわらず、これらのニューラルネットワークの動作を完全に理解する必要があります。これらのモデル内で属性選択と予測を司るメカニズムを知り、結果を観察および解釈する必要があります。 ディープニューラルネットワーク(DNN)の複雑で非線形な性質は、望ましくない特徴にバイアスを示す可能性のある結論につながることがしばしばあります。彼らの論理の固有の不透明性は、さまざまな関連するアプリケーション領域で機械学習モデルを適用することが困難になります。AIシステムがどのように意思決定を行うかを理解するのは簡単ではありません。 そのため、Thomas Wiegand教授(Fraunhofer HHI、BIFOLD)、Wojciech Samek教授(Fraunhofer HHI、BIFOLD)、Sebastian Lapuschkin博士(Fraunhofer HHI)は、論文で関連性伝播(CRP)の概念を紹介しました。この革新的な手法は、属性マップから人間に理解可能な説明までの経路を提供し、AIの個々の意思決定を人間が理解できる概念を通じて解明することを可能にします。 彼らはCRPを、既存の説明モデルを補完し豊かにするディープニューラルネットワークの高度な説明手法として強調しています。CRPは、個々の予測に関する「どこで」と「何を」の質問に答えるためのローカルとグローバルな視点を統合することで、AIのアイデアを使用し、それらが入力に与える影響を考慮する個別のニューラルネットワークセグメントを明らかにします。 その結果、CRPは人々が理解できる言葉でAIによる意思決定を説明します。 研究者たちは、この説明可能性のアプローチがAIの入力から出力までの予測プロセスを調査することを強調しています。研究グループは、AIアルゴリズムが判断を下す方法を示すためにヒートマップを使用する技術をすでに開発しています。 Fraunhofer HHIのExplainable Artificial Intelligence研究グループの責任者であるSebastian Lapuschkin博士は、新しい技術について詳しく説明しています。彼は、CRPが説明を、全てのピクセルの存在する入力空間(イメージがある場所)から、ネットワークの上位層によって形成された意味豊かな概念空間へ転送すると説明しました。 研究者たちはさらに、CRPとして知られるAIの説明可能性の次の段階が、AIモデルの研究、評価、パフォーマンスの向上のための新しい機会を開拓していると述べています。 CRPベースの研究を使用して、モデルの設計とアプリケーションドメインを探求することによって、モデル内のアイデアの表現と構成の洞察と、予測におけるそれらの影響の定量的評価を取得することができます。これらの調査は、CRPの力を活用してモデルの複雑なレイヤーに入り込み、概念の景色を解明し、さまざまなアイデアが予測的な結果に与える定量的影響を評価します。 “`

このAI論文では、COVEメソッドを紹介しています自己検証を通じて言語モデルの幻覚に取り組むための革新的なAIアプローチです

大量のテキストドキュメントからなるコーパスは、大規模な言語モデル(LLM)を訓練するために使用され、モデルのパラメータ数が増えるにつれて、閉じられたブックQAなどのタスクのパフォーマンスが向上することが示されています。さらに、大きなモデルはより正確な事実の声明を生成できます。訓練コーパスでは比較的まれに現れる最大のモデルでも、よりよく知られていない胴体や尾の分布の事実では、失敗することがあります。モデルに欠陥がある場合、彼らは一般的に現実的に見える代替の回答を生成します。 単に未来の単語を予測するだけでなく、最近の言語モデリングの研究は、推論力にどれだけ優れているかに集中しています。自己批評を通じて最初に内部の思考や推論の連鎖を構築し、それから元の応答を変えることで、推論の課題でのパフォーマンスを向上させることができます。 Meta AIとETH Zurichの研究者は、この論文で提示された作業中の幻覚を軽減するために、言語モデルに基づいた推論がいつ、どのように適用されるかを調査しています。彼らは”Chain-of-Verification(CoVe)”という方法を作成し、初期のドラフト回答が与えられた場合、まずその効果を評価するために検証の質問を計画し、それからその質問に順番に答えて改善された回答を生成します。研究は、独立した検証の質問に提供される事実が通常は初期の長文応答よりも正確であることを示し、全体の回答の正確さを向上させています。 チームは、リストベースのクエリ、閉じられたブックQA、および長文コンテンツの作成を含むさまざまな活動について、この方法の変種を探求しています。基準の言語モデルの代わりに、彼らはまず左から右にフルな検証チェーンを作成する組み合わせた方法を提供し、パフォーマンスを向上させ、幻覚を減らす効果があります。一方、彼らの生成において現在の幻覚に意識を払うモデルは、頻繁に幻覚を繰り返します。 研究者は、状況に応じて検証チェーンのステージを最適化するために、要素分解の変種を導入しています。結果は、これらの要素分解の変種が検討対象の3つのタスクでさらなるパフォーマンスの向上を示しています。 チームはまた、検証質問に答える際にモデルが前回の回答に注意を払わないようにすること(分解CoVe)により、同じ幻覚を繰り返す可能性を減らすことを示しました。全体として、このアプローチは元の言語モデルの応答に比べて、同じモデルに自分自身について考えるように求めるだけで非常に優れたパフォーマンスの向上を提供します。検証実行ステップでの取得の拡張などのツールの適用能力をCoVeに与えることは、さらなる利点につながる、この研究の論理的な拡張です。

モデルマージングとは、複数のモデルを統合して1つのモデルにすることを指しますこのプロセスでは、異なるモデルを組み合わせることにより、新しいモデルを作成することができますモデルマージングにより、異なる特徴やスキルを持つモデルを統合し、より多様な表現を可能にすることができますまた、モデルマージングは、異なるデザインやスタイルのモデルを結びつけるためにも使用されますモデルマージングは、ファッション業界や美容業界でよく使用される技術であり、新しいトレンドやスタイルの創造に役立ちます

モデルのマージングとは、追加のトレーニングを必要とせずに、個別のタスクを実行したり異なる問題を解決するために設計された複数の異なるモデルを統合し、単一の統合モデルを作成するプロセスを指します。具体的な技術や目標によって、モデルのマージングはアンサンブル学習、モデルのブレンディング、またはモデルのスタッキングとも呼ばれることもあります。この技術は、同時にさまざまなタスクを処理できるより多目的で包括的な機械学習モデルを作成することを目指しています。 LLMの文脈では、モデルのマージングは、初期化、アーキテクチャ、または異なるタスクでのトレーニングに基づいてLLMを組み合わせることを含む場合があります。主な目標は、個々のモデルの長所を活かし、より広範なタスクに対応できるマルチタスクLLMを作成することです。このアプローチにより、各構成モデルの知識と機能を利用することで、パフォーマンスと効率を大幅に向上させることができます。 なぜMLモデルをマージするのか? 機械学習モデルを統合することには、予測のばらつきやバイアスを異なるモデルの平均化や投票を通じて減らすなど、いくつかの利点があります。さまざまなデータソースとモデルから複雑なパターンと特徴を活用することで、予測の正確性と適応性を向上させることができます。さらに、モデルのマージングにより、単一のデータセットやアルゴリズムへの依存を減らすことで、予測の多様性と信頼性を向上させることもできます。 モデルのマージングにより、パフォーマンスが向上し、効率が改善され、より広範な適用が可能となります。これにより、追加のトレーニングが必要なく、異なるAIモデルの強みを活用するための貴重な戦略となります。 LLMの結合戦略 一般的なアプローチの1つは、モデルの重みまたはパラメータを平均化して結合することです。これにより、元の各モデルに埋め込まれた知識や専門知識を活用した融合モデルが得られます。モデルのマージングには、各モデルからの特徴の統合も含まれる場合があります。これは、モデルが個別のタスクに対して学習した特定の特徴が、マージモデルの全体的なパフォーマンスに貢献する場合に特に有用です。 一部のモデルのマージング技術では、指定した層までモデルを結合することができるため、マルチヘッドモデルが作成できます。これは、異なるモデルがタスクの異なる側面に特化している場合に有益です。 モデルマージに関する最近の研究論文 トレーニング済みモデルの融合による改良 この研究では、トレーニング済みモデルが自然言語処理のタスクの起点として広く使用されていますが、作成には高コストがかかることを認識しています。著者らは、既存の複数の微調整済みモデルを統合し、その重みの平均値を使用して1つの融合モデルを作成する新しいアプローチを提案しています。この融合モデルは、トレーニング済みモデルよりも一貫して優れたパフォーマンスを発揮し、ベースモデルを別のタスクで微調整するインタートレーニングよりも優れています。この融合プロセスは、ターゲットタスクに依存せずに効果的であり、重み減衰を考慮してもコスト効果の高いリソース効率の良いNLPモデル初期化の改善方法を提供します。 モデルのマージ時の干渉の解消 ダウンストリームタスクのためにトレーニング済みモデルをさらに微調整する転移学習は、パフォーマンスの向上、収束の速さ、およびサンプル効率性を提供します。ただし、タスク固有の微調整済みモデルはしばしば効果的に共同作業することができません。モデルのマージング方法が登場していますが、異なるモデルのパラメータ間の干渉を頻繁に無視し、パフォーマンスの低下を引き起こすことがあります。このため、著者らは、パラメータのリセット、符号の衝突の解決、および互換性のあるパラメータののみのマージングを行うことで干渉の問題を解決するTIES-MERGINGを提案しています。TIES-MERGINGは、多様な設定で既存の方法を凌駕し、性能と多様性を向上させるために、モデルのマージングにおける干渉の解消の重要性を強調しています。 トレーニングなしで異なるタスクのモデルをマージするZipIt!  この研究では、別々のタスクに対してトレーニングされた異なる初期化のモデルを、追加のトレーニングを必要とせずに1つのマルチタスクモデルに統合する際の課題に取り組んでいます。従来のモデルのマージング方法は、同じタスクでトレーニングされたモデルに対してのみ機能しますが、異なるタスクのためにトレーニングされたモデルの統合ではうまくいきません。著者らは、「ZipIt」と呼ばれる任意のアーキテクチャに基づくモデルのマージングのための一般的な方法を提案しています。ZipItは、最初に、共有されていない特徴量を考慮するために各モデル内で特徴量を結合することを可能にし、そして第二に、特定の層までの部分的な結合をサポートし、マルチヘッドモデルを作成します。これらのイノベーションにより、従来の方法に比べて20〜60%の大幅な改善が実現され、異なるタスクでトレーニングされたモデルを効果的にマージすることが可能になります。

このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対して、NLPコミュニティでは最近、Transformerの代わりになりうるデザインであるRetentive Network(RetNet)に非常に興味を持っています。中国の研究者は、RetNetのコンセプトをビジョンに適用することによって同様に印象的なパフォーマンスが得られるのか疑問に思っています。この問題を解決するために、彼らはRetNetとTransformerのハイブリッドであるRMTを提案しています。RetNetの影響を受けたRMTは、ビジョンバックボーンに明示的な減衰を追加し、ビジョンモデルが空間距離に関する以前の知識を使用できるようにします。この距離に関連した空間事前知識により、各トークンの知覚帯域を正確に調整することが可能です。また、モデリングプロセスを画像の2つの座標軸に沿って分解することで、グローバルモデリングの計算コストを低下させる助けとなります。 広範な実験により、RMTがさまざまなコンピュータビジョンのタスクで優れた成果を上げていることが示されました。たとえば、4.5G FLOPSのみで、RMTはImageNet-1kで84.1%のTop1-accを達成します。モデルがほぼ同じサイズであり、同じ技術を使用してトレーニングされている場合、RMTは常に最高のTop1-accを生み出します。オブジェクト検出、インスタンスセグメンテーション、意味論的セグメンテーションなどの下流のタスクでは、RMTは既存のビジョンバックボーンを大幅に上回ります。 提案された戦略が機能することを示す広範な実験が行われており、研究者は主張を裏付けています。RMTは、最先端のモデルに比べて画像分類タスクで劇的に優れた結果を収めます。モデルは、オブジェクト検出やインスタンスセグメンテーションなどのさまざまなタスクで競合モデルを上回っています。 以下の人々が貢献しています: 研究者は、ビジョンモデルに距離に関する空間事前知識を取り入れ、Retentive Networkの主要プロセスである保持を2次元の設定にもたらしています。Retentive SelfAttention(ReSA)という名前の新しいメカニズムです。 計算を簡素化するため、研究者はReSAを2つの画像軸に沿って分解しています。この分解戦略により、必要な計算努力を効率的に削減することができます。 広範なテストにより、RMTの優れたパフォーマンスが証明されています。RMTは特にオブジェクト検出やインスタンスセグメンテーションなどの下流タスクで大きな利点を示しています。 要するに、研究者たちはRetentive NetworkとVision Transformerを組み合わせたビジョンバックボーンであるRMTを提案しています。RMTでは、空間事前知識が距離に関連した明示的な減衰の形で視覚モデルに導入されます。頭字語ReSAは、改良されたメモリ保持の新しいプロセスを説明しています。RMTはまた、モデルを簡素化するためにReSAを2つの軸に分解する技術を使用しています。広範な実験により、RMTの効率性が確認されており、特にRMTはオブジェクト検出などの下流タスクで注目すべき利点を示しています。

「マイクロソフトのこのAI論文では、生物医学、ファイナンス、法律のパフォーマンス向上のため、人間の読解能力を模倣した言語モデルのトレーニングに新しいアプローチが紹介されています」

特定のドメインにおいて、汎用の大規模言語モデル(LLM)が飽和したため、ドメイン固有の大規模言語モデルが登場しました。既存の手法は3つの主要なカテゴリに分類することができます。最初の手法では、汎用のコーパスとドメイン固有のコーパスの組み合わせを使用してモデルをゼロから構築します。これによりドメイン固有のLLMが自然に生成されますが、大量の計算とデータが必要となり、深刻な問題が発生します。2番目の手法はより経済的であり、監督付きデータセットを使用して言語モデルを改善します。しかし、すべてのドメイン固有の活動に利用できるドメイン知識を適切に調整されたLLMがどれほど理解できるかが問題となります。3番目の手法では、回復したドメイン情報を用いて一般的な言語モデルに動機付けを与え、直接的な改善ではなくLLMそのものの応用と見なすことができます。 マイクロソフトの研究者は、特定のドメインのコーパスに対してドメイン適応型の事前学習、またはドメイン固有の自然言語処理モデルをカスタマイズするための継続的な事前学習が有用であると考えています。ドメイン固有の知識と広範な能力を組み合わせることで、この手法はドメイン固有の活動に利益をもたらし、同時にコストを削減します。これは、継続的な事前学習が広範な生成モデルにとっても同様に有利かどうかを調査する彼らの研究を推進しています。バイオロジー、ファイナンス、法律の3つのドメインで予備実験を行い、生のコーパスへのさらなるトレーニングがプロンプトの性能を大幅に低下させつつ、微調整評価と知識探索テストに対する利益を維持することを発見しました。これにより、ドメイン適応型の生のコーパスを使用した事前学習は、LLMにドメインに関する知識を教える一方で、プロンプトの能力を損なう結果となります。 図1は読解テキストの簡略な例を示しています。生のテキストの後には、サマリー(紫)、単語からテキスト(青)、自然言語推論(赤)、常識的な推論(青緑)、類似文検出(黄)、テキスト補完(緑)など、それに基づいて構築された複数のタスクが続きます。 彼らは、大量の生のコーパスを読解テキストに変換するための明快なアプローチを提供し、ドメイン固有の知識を利用してプロンプトの性能を向上させます。図1に示されているように、各生のテキストには、トピックに関連するいくつかのタスクが付属しています。これらの演習は、元のテキストのコンテキストに応じて、モデルが自然言語でのクエリに対応する能力を継続的にサポートすることを目的としています。さらにプロンプト能力を向上させるために、彼らは読解テキストに対してさまざまな一般的な指示を提供します。彼らのバイオロジー、経済学、法律におけるテストは、彼らの手法がさまざまなドメイン固有のタスクにおけるモデルの性能をどれほど向上させるかを示しています。彼らは最終モデルをAdapted Large Language Model(AdaptLLM)と呼びます。将来的には、このプロセスを拡大し、新たなドメイン全体のジョブの拡大するキャンバスに追加することを計画しています。 結論として、彼らの貢献は次のとおりです: ・大規模言語モデルに対する継続的な事前学習に関する調査において、ドメイン固有の生のコーパスでモデルをトレーニングを続けることにより、ドメイン知識を提供する一方で、プロンプトの能力が著しく低下することが分かりました。 ・プロンプトの能力を維持しながらドメイン知識を効率的に学ぶために、彼らは大規模な生のコーパスを読解テキストに自動的に変換する明快な手法を提案します。彼らのテストは、バイオロジー、ファイナンス、法律の3つの異なる分野でモデルのパフォーマンスを定期的に向上させることを示しています。

『9月は「セプテムクエイク」? Rを使ったメキシコの地震活動データの分析と可視化』

「RとRStudioを使用してSSN(国立地震学サービス)のデータを使ってメキシコの地震の歴史を分析し、視覚化する方法」

このAIニュースレターは、あなたが必要とするすべてです #66

AIの今週のトピックスでは、OpenAIが再び注目を浴びましたChatGPTに新たな音声と画像の機能を追加する計画が発表されたからですまた、LLMレースも熱を帯び続けており、Amazon...

「このAppleのAI研究は、ジェンダーステレオタイプに関するLLMsの振る舞いの既知の問題を調査します」

大規模言語モデル(LLM)は、ここ数ヶ月で非常に進歩し、さまざまな分野で最先端のベンチマークを押し上げてきました。大規模言語モデル(LLM)の使用と研究が、特に自然言語処理(NLP)の分野で急速に増加しています。SATやLSAT、医学校の試験、IQテストなどのテストに合格し、さらには優れた成績を収めるだけでなく、これらのモデルは幅広い自然言語タスクで最先端(SOTA)を大幅に上回っています。これらの驚くべき進展により、医療アドバイスからセキュリティアプリケーション、作業アイテムの分類まで、日常のタスクにおいてこのようなモデルを採用し、頼りにすることについて広範な議論が起こっています。 Appleの研究者グループによって提案された新しいテストパラダイムの1つは、現在LLMが使用しているトレーニングデータから排除される可能性のある表現を使用しています。彼らはLLMの意思決定の正当化を調べ、LLMがステレオタイプ自体について明示的な声明をすることが頻繁にあることを発見しました。さらに、文構造や文法に関する主張は、より詳細な調査に耐えないこともあります。LLMの行動は、少なくともLLMの訓練に使用されるデータで符号化された西洋文明の集合知に一致しています。この行動パターンを見つけ、その原因を特定し、解決策を提案することが重要です。 言語習得アルゴリズムのジェンダーバイアス 言語モデルのジェンダーバイアスは、広範に研究され、文化の先入観を反映し、悪化させることが文献で示されています。また、オートキャプション、感情分析、有害性検出、機械翻訳などのNLPタスクだけでなく、さまざまなモデルでジェンダーバイアスが存在することが示されています。ジェンダーは、この偏見の影響を受ける社会的カテゴリーに限定されたものではありません。宗教、肌の色、国籍、障害、職業なども含まれます。 文の理解における無意識のバイアス 人間の文処理の文献でも、いくつかの実験的手法を使用してジェンダーバイアスが広範に文献化されています。要約すると、研究は、テキスト内の名詞のジェンダーカテゴリを知ることが理解を助けること、代名詞が通常被験者を主語として参照することが示されています。そのため、より少ない可能性のシナリオでは文のスコアが低下し、読解速度が低下し、アイ・トラッキング実験での逆行などの予期しない効果が生じる可能性があります。 女性に対する社会的バイアス 今日の文化におけるジェンダーに関する先入観やバイアスの存在と普及を考慮すると、言語モデルの出力にもバイアスが現れることは驚くべきことではないかもしれません。ジェンダーバイアスは、医学や経済学、教育や法律などのさまざまな分野で文献化されていますが、これらの研究結果の完全な調査は本稿の範囲外です。たとえば、さまざまな科目や教育環境でバイアスが見つかったという研究があります。就学前の幼児からもステレオタイプの悪影響を受ける可能性があり、これは自己認識、学業および職業選択、発達の他の領域に持続的な影響を与える可能性があります。 デザイン 研究者は、WinoBiasとは異なるがジェンダーバイアスを調査するための枠組みを考案しました。各研究アイテムには、男性に関連付けられるステレオタイプな職業と女性に関連付けられる職業のペア、および男性的または女性的な代名詞が含まれています。戦略によっては、さまざまな反応が予想されます。また、文の前提条件と関連付けられる語彙要素によって、文によって戦略が異なる場合もあります。 研究者は、WinoBiasの文が複数のLLMのトレーニングデータの一部であると考えているため、自分たちの研究ではそれらを使用しないようにしています。代わりに、前述のパターンに従って15文のスキーマを作成します。また、WinoBiasとは異なり、名詞の選択は米国労働省のデータに基づくのではなく、英語話者の特定の職業を示す名詞が男性寄りまたは女性寄りと見なされる程度についての研究に基づいています。 2023年、研究者は一般に公開されている4つのLLMを調査しました。モデルの設定オプションが多い場合、彼らは工場のデフォルトを使用しました。彼らは代名詞とキャリア選択の関連性について対照的な結果と解釈を提供しています。 研究者は、LLMの動作(ジェンダーニュートラルな代名詞(例:theyや新しい代名詞)の使用(および非使用)など)がトランスジェンダーの個人の現実を反映し、影響する可能性について考慮していません。バイナリのパラダイムの中でこれらの知見が得られたことと、以前の研究からのデータがないことを考慮すると、より多様なジェンダーを含めることがLLMのパフォーマンスにより暗いイメージを描く可能性があると推測されます。ここでは、これらの単純なジェンダーの概念に収まらないマージナライズされた人々に悪影響を及ぼす可能性があるとしながらも、将来の研究がこれらの微妙な関係に焦点を当て、新たな光を当てることに楽観的な姿勢を表明しています。 まとめると 既存の大規模言語モデルが性別バイアスを示しているかどうかを判断するために、研究者は単純なシナリオを考案しました。WinoBiasは、既存のLLMのトレーニングデータに含まれることが期待されている人気のある性別バイアスのデータセットであり、パラダイムはそのデータセットを拡張し、異なるものです。研究者は2023年第1四半期にリリースされた4つのLLMを調査しました。彼らはモデル間で一貫した結果を発見し、彼らの発見が市場に出回っている他のLLMにも適用される可能性があることを示しました。彼らは、LLMが男性と女性についての性差別的な仮定をし、特に人々の男性と女性の職業に関する概念に合致するものであり、実際の状況に基づくものではないことを、米国労働統計局のデータによって明らかにしました。一つの重要な発見は – (a) LLMは、どの代名詞がどの性別を指している可能性が最も高いかを決定する際に、性別のステレオタイプを使用しました。例えば、LLMは男性を指すために「彼」を使用し、女性を指すために「彼女」を使用しました。 (b) LLMは、女性に関する性別に基づく先入観を男性に比べてより強調しました。LLMは、特に具体的なプロンプトが与えられた場合にこの観察をすることが一般的でしたが、自分自身に任された場合にはあまりしなかったです。 (d) LLMは、自分たちの決定に対して見せかけの正当化をし、それがしばしば間違っており、予測の真の動機を隠している可能性がありました。 これらのモデルのもう一つの重要な特徴が明らかにされました:LLMはバイアスのあるデータで訓練されているため、人間のフィードバックを用いた強化学習を行っていても、そのバイアスを反映し悪化させる傾向があります。研究者は、他の社会的バイアスの形態と同様に、弱者やグループの保護と公平な取り扱いがLLMの開発と教育の中心に置かれるべきだと主張しています。

「大規模な言語モデルは本当に複雑な構造化データを生成するのに優れているのか?このAI論文では、Struc-Benchを紹介し、LLMの能力を評価し、構造に注意したFine-Tuningの解決策を提案します」

大規模言語モデル(LLM)は、他の自然言語処理のタスクとともに、テキスト生成のタスクで重要な進展を遂げています。生成能力の基本的な要素である、構造化データの生成能力は、以前の研究で大いに注目されてきました。しかし、LLMは、複雑な構造化出力を生成する能力において、依然として苦労しています。これは、自動レポート作成からコーディング支援まで、さまざまなアプリケーションにおいて重要なスキルです。さらに、LLMの構造化出力の能力を評価するための研究は、比較的少ないです。LLMの評価のほとんどは、自発的なテキストやコードの開発に焦点を当てています。これは、LLMがどれだけ複雑な構造化データを生成できるのかという問題を提起します。 イェール大学、浙江大学、ニューヨーク大学、ETHチューリッヒの研究者たちは、このようなオープンな問いについて徹底的な分析を行い、それに取り組むことを目指しています。まず、LLMの複雑な構造化データの生成能力に関するより包括的な研究が必要です。これまでのLLMの評価は、関係の抽出、イベントの認識、名前付きエンティティの識別など、単純な情報抽出(IE)タスクに焦点を当てたものが主でした。この場合、IEタスクの目的は、抽出されたデータを整理された形で収集することです。以前の研究は、LLMに比べてタスク中心のアプローチでした。テキストからデータを生成するBARTやT5などの事前学習モデルを使用し、主な焦点はテキストからデータへの問題でした。次に、LLMのパフォーマンスを包括的に評価するための評価基準やメトリックが必要です。 既存のベンチマークは、単語の重複などの単純な客観的メトリックを使用して、機械が生成したコンテンツが情報を適切に分類できるかどうかを評価しています。LLMが構造化された出力を提供できるかどうかを判断するためには、情報の形式も考慮すべきです。さらに、現在のLLMは、人間の自然言語の入力に正確に従い、正確な形式とエラーのないコンテンツを提供することができるのでしょうか?この研究は、文献のこれらのギャップを埋め、LLMが構造化された出力を生成するためのトレーニングデータセットと評価基準を向上させることを試みています。 以下は、彼らの貢献のリストです:(1) 彼らはSTRUCBENCHと呼ばれるベンチマークを作成しました。このベンチマークは、生のテキスト、HTML、LaTeX形式の構造化テキストの生成に焦点を当てています。彼らはまた、有名なLLMの能力を注意深く評価し、内容の正確さ、フォーマット、数値推論、長いテーブルの管理の問題を特定しました。(2) 彼らは、構造化テキスト生成のベンチマークで有名なLLMを実証評価し、注目すべきデータセットを組み込み、さまざまな領域に拡大しました。これにより、一般的な誤りの種類と欠陥の次元についてより深い理解が得られました。彼らの結果は、GPT-3.5とGPT-4が正確な出力を提供するための支援が必要であり、問題は主に誤ったコンテンツ、不十分なフォーマット、数値推論スキルの不足、長いテーブルの管理能力の欠如によるものです。(3) 彼らは、これらの問題を解決するために、構造認識の指示調整を使用し、ChatGPTを使用してフォーマットの指示を作成した後、LLaMAモデルをトレーニングしてこれらのフォーマットに従うようにしました。視覚的および隠れたデータ上の良好な結果は、これがLLMの構造化された出力を提供する能力を大幅に向上させる可能性があることを示しています。

このAI研究では、LayoutNUWAというAIモデルを提案していますこのモデルは、レイアウト生成をコード生成のタスクとして扱い、セマンティック情報を向上させ、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用します

LLMの成長に伴い、LLMのあらゆる側面について徹底的な研究が行われてきました。そのため、グラフィックレイアウトについても研究が行われています。グラフィックレイアウトとは、デザイン要素がどのように配置され、配置されることでユーザーが情報を相互作用し、認識するかに大きな影響を与えます。新たな研究領域としてレイアウト生成があります。これは、開発オブジェクトの簡略化を図るためにさまざまな現実的なレイアウトを提供することを目指しています。 現在のレイアウト作成の方法は、主に数値最適化を行い、レイアウトの数量的側面に焦点を当てており、各レイアウトコンポーネント間の接続などのレイアウトの意味情報を無視しています。しかし、レイアウトの数値要素(位置やサイズなど)を収集することに重点を置くため、各数値の属性などの意味情報を省いてしまうため、この方法ではレイアウトを数値のタプルとして表現する必要があるかもしれません。 レイアウトはその部分間の論理リンクを特徴とするため、プログラミング言語はレイアウトに適したオプションです。コード言語を使用して各レイアウトを説明する整理されたシーケンスを開発することができます。これらのプログラミング言語は、論理的な概念と情報や意味を組み合わせることで、現行のアプローチとより徹底的な表現の需要とのギャップを埋めることができます。 その結果、研究者たちはLayoutNUWAを開発しました。この最初のモデルは、レイアウトの開発をコード生成の問題としてアプローチし、大規模言語モデル(LLM)の隠れたレイアウトの専門知識を活用し、意味情報を向上させることを目指しています。 コードインストラクトチューニング(CIT)は、3つの相互に連結したコンポーネントで構成されています。コード初期化(CI)モジュールは、数値的な状況を定量化し、それをHTMLコードに変換します。このHTMLコードには、レイアウトの可読性と統一性を向上させるために特定の位置に配置されたマスクが含まれています。次に、HTMLコードのマスクされた領域を埋めるために、コード補完(CC)モジュールは、大規模言語モデル(LLM)のフォーマットに関するノウハウを使用します。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。最後に、コードレンダリング(CR)モジュールはコードを最終的なレイアウト出力にレンダリングします。生成されたレイアウトの精度と一貫性を向上させるために、これにはLLMが使用されます。 Magazine、PubLayNet、RICOの3つの頻繁に使用される公開データセットを使用してモデルのパフォーマンスを評価しました。RICOデータセットは、約66,000個のUIレイアウトを含み、25の要素種類に分けられており、モバイルアプリケーションのユーザーインターフェースデザインに焦点を当てています。一方、PubLayNetは360,000以上のレイアウトを含む大規模なライブラリで、数多くのドキュメントに分類され、5つの要素グループに分けられています。マガジンデータセットは雑誌のレイアウト研究のための低リソースリソースであり、6つの主要な要素クラスに分けられた4,000以上の注釈付きレイアウトを含んでいます。これらの3つのデータセットは、LayoutDMフレームワークを使用して一貫性を保つために前処理され、調整されました。これにより、元の検証データセットはテストセットとして指定され、25以上のコンポーネントを持つレイアウトはフィルタリングされ、洗練されたデータセットはトレーニングセットと新しい検証セットに分割され、データセットの95%が前者に、5%が後者に割り当てられました。 彼らはコードと数値表現を使用してモデルの結果を徹底的に評価するために実験を行いました。数値の出力形式に特化したコードインフィリングタスクを開発しました。このタスクでは、完全なコードシーケンスを予測するのではなく、大規模言語モデル(LLM)に対して数列内の隠れた値のみを予測するように求めました。その結果、数値形式で生成された場合、モデルのパフォーマンスが著しく低下し、モデル開発の試行の失敗率が上昇することがわかりました。例えば、この方法では場合によっては繰り返しの結果が生じました。この効率の低下は、条件付きレイアウト生成タスクが一貫したレイアウトの作成を目指していることに起因するとされています。 研究者はまた、マスクされたビットの予測にのみ注目すると、別々で論理的でない数値が生成される可能性があると述べています。さらに、これらの傾向は、より多くの非表示値を持つレイアウトを示す場合に特にモデルがデータを生成できない可能性を増加させるかもしれません。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us