Learn more about Search Results MarkTechPost - Page 153
- You may be interested
- マイクロソフトリサーチがAIコンパイラの...
- 拡散モデルの利点と制約
- 「決定木は回帰問題をどのように解決する...
- GPT-1からGPT-4まで:OpenAIの進化する言...
- Amazon SageMaker Canvasを使用して、ノー...
- 「アノテーターのように考える:データセ...
- なぜすべての企業がAI画像生成器を使用す...
- 「国連機関がロボットのグループを組織し...
- Matplotlibを使用した六角形の地図を作成...
- 「OpenAIキーなしでPDFおよび記事のための...
- アマゾンがベッドロックを展開:AIモデル...
- Sixty AIは、デジタルライフを整理し、喜...
- 開発者の皆さんへ:ダイアグラムはそんな...
- 「Google Chromeは、努力を要さずに読むこ...
- AIの環境負荷軽減:アプリを持続可能にす...
CMUの研究者がFROMAGeを紹介:凍結された大規模言語モデル(LLM)を効率的に起動し、画像と交錯した自由形式のテキストを生成するAIモデル
巨大な言語モデル(LLM)は、大規模なテキストコーパスでスケールに基づいて訓練されているため、人間のような話し言葉を生成したり、複雑な問いに応答したりするなど魅力的なスキルを発揮することができます。これらのモデルは非常に素晴らしいものですが、ほとんどの先端的なLLMはインターネットからダウンロードしたテキストデータのみで訓練されています。そのため、豊富な視覚的手がかりに触れる必要があるため、実世界に基づく概念を吸収することができません。その結果、現在使用されているほとんどの言語モデルは、視覚的な推論や基盤を必要とするタスクに制約があり、また視覚的な要素を生成することができません。本記事では、凍結されたLLMの能力をマルチモーダル(画像とテキスト)の入力と出力に効果的に使用する方法を示しています。 彼らは、言語モデルを訓練して、画像の代わりになる[RET]トークンを学習させ、コントラスティブラーニングを使用して[RET]の埋め込みを、それに関連する画像の視覚的な埋め込みに近づける線形マッピングも行っています。訓練中には、線形層と[RET]トークンの埋め込みの重みのみが更新され、モデルの大部分は凍結されたままです。そのため、彼らの提案手法はメモリと計算効率が非常に高いです。訓練が完了すると、モデルはいくつかのスキルを示します。元のテキストのみのLLMがテキストを生成する能力に加えて、新たなマルチモーダルの会話と推論のスキルを持っています。彼らの提案手法はモデルに依存せず、より強力なまたは大きなLLMの将来のリリースの基盤として使用することができます。 言語モデルは、画像を表す新しい[RET]トークンを学習し、コントラスティブラーニングを使用して、キャプションの[RET]の埋め込みを対応する画像の視覚的な埋め込みに近づける線形マッピングを行います。訓練中には、線形層と[RET]トークンの埋め込みの重みのみが更新され、モデルの大部分は固定されたままです。その結果、彼らの提案手法はメモリと計算効率が非常に高いです。訓練が完了すると、彼らのモデルはいくつかのスキルを示します。元のテキストのみのLLMがテキストを生成する能力に加えて、新たなマルチモーダルの会話と推論のスキルを持っています。彼らの提案手法はモデルに依存せず、より強力なまたは大きなLLMの将来のリリースの基盤として使用することができます。 オートリグレッシブLLMによるテキストから画像への検索の感度の向上を示しています。彼らの主な貢献の一つは、凍結された検索を使用したマルチモーダルデータに対するオートリグレッシブジェネレーション(FROMAGe)モデルであり、画像キャプションとコントラスティブラーニングを通じてLLMを視覚的に固定することが効果的に訓練されています。以前のアルゴリズムはウェブスケールの画像テキストデータが必要でしたが、FROMAGeは画像キャプションのペアだけから強力なフューショットのマルチモーダル能力を開発しています。彼らの手法は、以前のモデルよりも長く複雑な自由形式のテキストに対してより正確です。視覚的な入力を必要とするタスクにおいて、事前に訓練されたテキストのみのLLMの現在のスキル、コンテキストでの学習、入力の感度、会話の作成などを活用する方法を示しています。 彼らは以下を示しています:(1) 画像とテキストが交互に並ぶシーケンスからの文脈に基づいた画像の検索、(2) ビジュアルな会話におけるゼロショットの優れたパフォーマンス、および(3) 画像の検索における強化された対話文脈の感度。彼らの結果は、マルチモーダルなシーケンスの学習と生成を可能にするモデルの可能性を示しています。また、視覚に基づくタスクでの事前に訓練されたテキストのみのLLMの能力も強調しています。より多くの研究開発を促進するために、彼らのコードと事前訓練モデルは近々一般に公開される予定です。 このアプローチを使用することで、言語モデルは視覚領域に基づいて固定され、任意の画像テキスト入力を処理し、一貫した画像テキスト出力を生成することができます。緑の吹き出しはモデルによって作成され、グレーの吹き出しは入力プロンプトを表します。
Field Programmable Gate Array(FPGA)とは何ですか:人工知能(AI)におけるFPGA vs. GPU
フィールドプログラマブルゲートアレイ(FPGA)は、製造後に設定とカスタマイズが可能な集積回路です。これらのチップはこの能力によって「フィールドプログラマブル」と呼ばれます。プログラム可能なロジックブロックから構成され、幅広い機能を実行したり、論理ゲートとして機能したりすることができます。これにより、回路の動作方法に対してユーザーに大きな柔軟性が提供されます。 フィールドプログラマブルゲートアレイ(FPGA)は、設定可能なロジックブロック(CLB)とプログラマブルなインターコネクトで構成される半導体デバイスです。これらのブロックは、シンプルから複雑な操作を行い、フリップフロップやメモリブロックなどのメモリコンポーネントを含むことができます。 FPGAは、プログラマブルな読み取り専用メモリチップと似ていますが、より多くのゲートを収容し、ASIC(特定のタスク用に設計された集積回路)とは異なり再プログラム可能です。これらは特定の用途に合わせてマイクロプロセッサをカスタマイズするために使用され、ワイヤレス通信、データセンター、自動車、医療、航空宇宙など、さまざまな業界で人気があります。FPGAの再プログラム可能な性質により、必要に応じて柔軟性とデザインの更新が可能になります。 出典: https://allaboutfpga.com/fpga-architecture/ 出典: https://blog.samtec.com/post/new-intel-fpga-platform-features-samtec-interconnect/ FPGAの応用 FPGAは、さまざまな業界で利用され、多様な実装領域があります。主な利用領域のいくつかは以下の通りです。 エネルギー産業 FPGAは、効率的な電力ネットワークが最適な運用のために必要な送電および配電(T&D)変電所などのスマート電力網技術において、パフォーマンスとスケーラビリティを向上させながら消費電力を低減する重要な役割を果たすことができます。 向上した自動車体験 MicrosemiのFPGAは、クルーズコントロール、死角警告、衝突回避などの新しい自動車の安全アプリケーションをOEM(自動車メーカー)およびサプライヤーが作成することを可能にします。これらのFPGAは、情報保証、改ざん防止、ハードウェアセキュリティなどのサイバーセキュリティ機能、エラーコレクションメモリや低静的電力などの信頼性機能を提供します。 航空宇宙と防衛 産業用製造会社は、パフォーマンス、信頼性、寿命要件を満たすために、しばしば宇宙グレードのラジエーションハードおよびラジエーショントレラントなFPGAを提供しています。これらのFPGAは、従来のASIC実装よりも柔軟性があり、処理集約型の宇宙システムに特に適しています。 コンピュータビジョンシステム 現代の世界では、ビデオ監視カメラ、ロボット、およびその他のデバイスなど、さまざまなガジェットでコンピュータビジョンシステムが広く使用されています。これらのガジェットが位置、周囲、および顔認識の能力に基づいて適切に人と対話するためには、しばしばFPGAベースのシステムを使用する必要があります。 データセンター インターネット・オブ・シングスとビッグデータは、取得および処理されるデータ量の著しい増加をもたらしています。深層学習技術の使用により、低遅延、柔軟性、および安全な計算能力が求められます。スペースコストの上昇により、より多くのサーバーを追加してもこの需要には応えられません。FPGAは、処理の高速化、設計の柔軟性、ソフトウェアの脆弱性に対するハードウェアベースのセキュリティの面でデータセンターでの受け入れが増えています。 リアルタイムシステム 従来のCPUは応答時間が予測困難であり、トリガーが正確に発火するタイミングを予測するのが困難なため、応答時間が重要なリアルタイムシステムでFPGAが使用されています。 ASICの設計 回路のアーキテクチャを作成することが最初のステップであり、それからFPGAを使用してプロトタイプを構築し、テストすることでエラーを修正することができます。プロトタイプが予想通りの動作をすると、ASICプロジェクトが開発されます。このアプローチにより、統合回路の作成は手間がかかり複雑な作業であるため、時間を節約することができます。 FPGAベースのアクセラレーションサービス…
Google AIは、MediaPipe Diffusionプラグインを導入しましたこれにより、デバイス上で制御可能なテキストから画像生成が可能になります
最近、拡散モデルはテキストから画像を生成する際に非常に成功を収め、画像の品質、推論のパフォーマンス、および創造的な可能性の範囲の大幅な向上をもたらしています。しかし、効果的な生成管理は、特に言葉で定義しにくい条件下では依然として課題となっています。 Googleの研究者によって開発されたMediaPipe拡散プラグインにより、ユーザーの制御下でデバイス内でのテキストから画像の生成が可能になります。本研究では、デバイスそのもの上で大規模な生成モデルのGPU推論に関する以前の研究を拡張し、既存の拡散モデルおよびそのLow-Rank Adaptation(LoRA)のバリエーションに統合できるプログラマブルなテキストから画像の生成の低コストなソリューションを提供します。 拡散モデルでは、イテレーションごとに画像の生成が行われます。拡散モデルの各イテレーションは、ノイズが混入した画像から目標の画像までを生成することで始まります。テキストのプロンプトを通じた言語理解は、画像生成プロセスを大幅に向上させています。テキストの埋め込みは、テキストから画像の生成のためのモデルにリンクされ、クロスアテンション層を介して結びつけられます。ただし、物体の位置や姿勢などの詳細は、テキストのプロンプトを使用して伝えるのがより困難な例です。研究者は、条件画像からの制御情報を拡散に追加することで、拡散を利用して制御を導入します。 Plug-and-Play、ControlNet、およびT2Iアダプターの方法は、制御されたテキストから画像を生成するためによく使用されます。Plug-and-Playは、入力画像から状態をエンコードするために、拡散モデル(Stable Diffusion 1.5用の860Mパラメータ)のコピーと、広く使用されているノイズ除去拡散暗黙モデル(DDIM)逆推定手法を使用します。これにより、入力画像から初期ノイズ入力を導出します。コピーされた拡散からは、自己注意の空間特徴が抽出され、Plug-and-Playを使用してテキストから画像への拡散に注入されます。ControlNetは、拡散モデルのエンコーダーの訓練可能な複製を構築し、ゼロで初期化されたパラメータを持つ畳み込み層を介して接続し、条件情報をエンコードし、それをデコーダーレイヤーに渡します。残念ながら、これによりサイズが大幅に増加し、Stable Diffusion 1.5では約450Mパラメータとなり、拡散モデル自体の半分となります。T2I Adapterは、より小さなネットワーク(77Mパラメータ)であるにもかかわらず、制御された生成で同等の結果を提供します。条件画像のみがT2I Adapterに入力され、その結果がすべての後続の拡散サイクルで使用されます。ただし、このスタイルのアダプターはモバイルデバイス向けではありません。 MediaPipe拡散プラグインは、効果的かつ柔軟性があり、拡張性のある条件付き生成を実現するために開発されたスタンドアロンネットワークです。 訓練済みのベースラインモデルに簡単に接続できる、プラグインのようなものです。 オリジナルモデルからの重みを使用しないゼロベースのトレーニングです。 モバイルデバイス上でほとんど追加費用なしにベースモデルとは独立して実行可能なため、ポータブルです。 プラグインはそのネットワーク自体であり、その結果はテキストから画像への変換モデルに統合されます。拡散モデル(青)に対応するダウンサンプリング層は、プラグインから取得した特徴を受け取ります。 テキストから画像の生成のためのモバイルデバイス上でのポータブルなオンデバイスパラダイムであるMediaPipe拡散プラグインは、無料でダウンロードできます。条件付きの画像を取り込み、多スケールの特徴抽出を使用して、拡散モデルのエンコーダーに適切なスケールで特徴を追加します。テキストから画像への拡散モデルと組み合わせると、プラグインモデルは画像生成に条件信号を追加します。プラグインネットワークは、相対的にシンプルなモデルであるため、パラメータはわずか6Mとなっています。モバイルデバイスでの高速推論を実現するために、MobileNetv2は深度方向の畳み込みと逆ボトルネックを使用しています。 基本的な特徴 自己サービス機械学習のための理解しやすい抽象化。低コードAPIまたはノーコードスタジオを使用してアプリケーションを修正、テスト、プロトタイプ化、リリースするために使用します。 Googleの機械学習(ML)ノウハウを使用して開発された、一般的な問題に対する革新的なMLアプローチ。 ハードウェアアクセラレーションを含む完全な最適化でありながら、バッテリー駆動のスマートフォン上でスムーズに実行するために十分に小さく効率的です。
新しいAI研究がAttrPromptを紹介します:ゼロショット学習における新しいパラダイムのためのLLM-as-Training-Data-Generator
大規模な言語モデル(LLM)のパフォーマンスは、多くの自然言語処理(NLP)アプリケーションで印象的でした。最近の研究では、LLMはタスク固有のトレーニングデータジェネレータとして提案され、特にテキスト分類においてタスク固有のデータと注釈の必要性を低減するために使用されています。これらの取り組みは、LLMをデータ生成者としての有用性を示していますが、生成されたデータがタスク固有のモデルのトレーニングに使用される場合、上流のデータ作成プロセスは無視されています。LLMをクエリするための主要な方法は、単一のクラス条件付きのプロンプトを使用するものですが、これにより提供されるデータの多様性が低下し、LLMの固有のシステムバイアスが持続する可能性があります。 ジョージア工科大学、ワシントン大学、UIUC、Google Researchによる新しい研究は、さまざまなドメインからの大規模な枢軸分類タスクを分析します。高品質で人間らしい言語を書く能力のためにLLMをChatGPTに固定します。チームは主にデータ属性を使用して、作成されたトレーニングセット内のバイアスと多様性のレベルを評価します。具体的には、データ属性は複数の属性次元とさまざまな属性値から構成されており、それぞれが属性自体の可能な実現を表しています。 研究者たちは、SimPromptで生成されたデータセットにおける属性のバイアスを分析するために訓練された属性分類器を使用しました。さまざまな属性がモデルの最終結果にどのように影響するかを調査します。属性付きデータを生成するために、ChatGPTを使用し、必要な特性に対して特定の値を持つ質問に制約を加えます。研究者たちは、ランダムな特性を持つデータセットでトレーニングされたモデルのパフォーマンスが、特定の属性を持つデータセットでトレーニングされたモデルよりも有意に優れていることを発見しました。この結果は、生成されたデータの属性の多様性の重要性を示しています。 チームは、属性のバイアスを減らし、生成されたデータの属性の多様性を増やすために、多様な属性を持つプロンプトを使用してデータを生成することを提案しています。LLMを使用したインタラクティブな半自動プロセスを最初に使用して、与えられた分類タスクに適切な属性次元と値を決定します。LLMデータクエリの標準的なクラス条件付きプロンプトは、ランダムに組み合わされたプロパティによって生成されたより複雑な問い合わせに置き換えられます。彼らはこれらのさまざまな属性トリガーを説明するために「AttrPrompt」という用語を作り出しました。 研究者たちは、4つの分類タスクで作成したデータセットを、次の2つのシナリオでトレーニングされたモデルの結果を比較することによって実証的に評価しました:1)生成されたデータセットのみでトレーニングされたモデルと2)本物のトレーニングセットと生成されたセットを含む統合されたデータセットでトレーニングされたモデル。AttrPromptを使用して作成されたデータセットは、両方の場合においてSimPromptで作成されたデータセットよりも優れたパフォーマンスを発揮します。さらに、彼らの結果は、AttrPromptがデータ/予算の効率性、およびさまざまなモデルサイズとLLMとしてのトレーニングデータジェネレータ戦略の幅広さにおいて、SimPromptに比べて優れていることを示しています。 AttrPromptは、SimPromptが必要とするChatGPTのクエリコストの5%しか必要とせずに、SimPromptと同じパフォーマンスを提供するために注目されています。最後に、彼らはLLMをより困難なマルチラベル分類問題に適用することによって、AttrPromptがSimPromptをすべての評価基準で上回ることを初めて示しています。
SalesforceはXGen-7Bを導入:1.5Tトークンのために8Kシーケンス長でトレーニングされた新しい7B LLMを紹介します
最近の人工知能の技術的なブレークスルーにより、Large Language Models(LLMs)はますます一般的になっています。過去数年間、研究者たちは、これらのモデルを膨大な量のデータでトレーニングして、複雑な言語関連のタスクを解決するための急速な進歩を遂げてきました。これには、複雑な言語パターンの理解、連続した回答の生成などが含まれます。特に研究者や開発者の関心を引いている研究の1つは、LLMsの長文コンテンツの取り扱いにおける応用です。これらのタスクの例は、テキストの要約やコードの生成などの比較的単純なタスクから、タンパク質の構造予測や情報検索などのより複雑な問題の記述まで様々です。長いテキストのシーケンスには、段落、表、画像などさまざまな形式の情報が含まれているため、LLMsはこれらの要素を処理し理解するためにトレーニングされなければなりません。さらに、長距離の構造的依存関係を効果的に考慮することで、LLMsはテキストの異なる部分間の関連性を特定し、最も関連性の高い情報を抽出することができます。したがって、より広範な知識に触れることで、LLMsはユーザーのクエリにより正確で文脈に即した回答を提供することができます。 しかし、数多くの潜在的なユースケースにもかかわらず、MetaのLLaMAからMosaicMLのMPT LLMモデルに至るまで、ほとんどのオープンソースのLLMsは、最大2Kトークンのシーケンスでトレーニングされています。この制限は、より長いシーケンスのモデリングにおいて大きな課題を提起します。さらに、モデルのスケーリングに関する以前の研究は、固定された計算予算が与えられた場合、トークン数が多いほど小さなモデルの方が大きなモデルよりも優れたパフォーマンスを発揮することを示しています。したがって、現在の進歩と課題に着想を受けて、Salesforce ResearchはXGen-7Bを導入し、1.5兆トークンの8Kシーケンス長でトレーニングされた一連の7B LLMsにおいて画期的な成果を上げました。このモデルシリーズには、4Kシーケンス長に対応するXGen-7B-4K-Base、8Kシーケンス長に対応するXGen-7B-8K-Base、および公開用の教育データでファインチューニングされたXGen-7B-8k-Instが含まれています(研究目的のみで公開されています)。これらのLLMsの注目すべき特徴は、XGenがMPT、Falcon、LLaMAなどといった同様のサイズの最先端のLLMsと比較して、標準のNLPベンチマークで同等または優れた結果を達成することです。 この研究で使用されたXGen-7bモデルは、Salesforceの独自のライブラリJaxFormerを使用してトレーニングされました。このライブラリは、TPU-v4ハードウェアに最適化されたデータとモデルの並列処理を利用した、効率的なLLMのトレーニングを可能にします。トレーニングプロセスはLLaMAのガイドラインに従い、さらに2つの追加の調査を行いました。最初の調査は「損失スパイク」の理解に焦点を当てました。これは、トレーニング中に損失が突然一時的に増加する現象であり、明確な原因がない状態です。これらのスパイクの原因はまだ不明ですが、研究者は「順次回路の並列化」、「swish-GLUの使用」、「RMS-Normの使用」などがトレーニングの不安定性に寄与する可能性があると特定しました。2つ目の調査はシーケンス長に関連しています。自己注意の二次の計算量のため、より長いシーケンスでのトレーニングは計算コストが著しく増加するため、段階的なトレーニングアプローチが採用されました。トレーニングは最初にシーケンス長2kの800Bトークンから始まり、次にシーケンス長4kの400Bトークン、最後にシーケンス長8kの300Bトークンを対象としました。 XGen-7b 8kモデルの長い文脈の理解能力を評価するために、研究者たちは3つの主要なタスクで評価を行いました。それらのタスクは、長い対話生成、テキストの要約、および質問応答です。研究者は、対象のタスクの難しさに基づいて、インストラクションに調整されたモデルを使用しました。長い対話生成に関しては、AMIミーティングの要約、ForeverDreaming、およびTVMegaSiteの脚本の要約の3つのタスクを評価に使用しました。すべての指標において、XGen-7B-instモデルは他のいくつかのインストラクションに調整されたモデルと比較して最高のスコアを達成し、優れたパフォーマンスを示しました。 長文の質問応答に関しては、研究者は物理学、工学、歴史、エンターテイメントなどさまざまなトピックをカバーするウィキペディアのドキュメントを基にChatGPTを使用して質問を生成しました。質問と元の文書の関連性、構成、および関連性に基づいて、256トークンのLLM生成された回答をGPT-4で評価しました。このシナリオでは、2kトークンに制限されたベースラインモデルに比べて、XGen-7B-8k-Instモデルのパフォーマンスが優れていることが示されました。テキストの要約に関しては、研究者は会議の会話と政府の報告書という2つの異なるドメインのデータセットを使用してXGen-7bモデルを評価しました。その結果、XGen-7bモデルはこれらのタスクで他のベースラインモデルを大幅に上回り、テキストの要約でも優れたパフォーマンスを発揮することが示されました。 評価により、XGen-7bモデルは、長い文脈を理解する能力に優れており、長い対話生成、質問応答、テキスト要約など、さまざまなタスクで優れた性能を発揮しました。その性能は、他の指示に調整されたモデルやベースラインモデルを上回り、広範なテキスト文脈での理解力と連続した応答生成能力を示しています。ただし、その効果的さにもかかわらず、XGenモデルには制約があることが研究者によって認識されており、バイアスが免除されず、有害な応答を生成する可能性があります。これは、他の多くのAIモデルと共有する特徴です。Salesforce Researchはまた、コードをオープンソース化して、コミュニティが研究内容を探求できるようにしています。 SF BlogとGithub Linkをチェックしてください。最新のAI研究ニュース、素晴らしいAIプロジェクトなどを共有している25k+ ML SubReddit、Discord Channel、Email Newsletterにもぜひ参加してください。上記の記事に関する質問や見落としがある場合は、お気軽に[email protected]までメールでお問い合わせください。
AIの相互作用を変革する:LLaVARは視覚とテキストベースの理解において優れた性能を発揮し、マルチモーダルな指示従属モデルの新時代を切り開く
<img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-1024×662.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-150×150.png”/><p>複数のアクティビティを1つの命令に組み合わせることで、命令のチューニングは新しいタスクへの一般化を向上させます。このようなオープンエンドの質問に対応する能力は、ChatGPT 2以降のチャットボットの急増に貢献しています。CLIP-ViTのようなビジュアルエンコーダは、ビジュアル命令チューニングモデルの一部として最近会話エージェントに追加され、画像に基づいた人間とエージェントの対話を可能にします。しかし、彼らは画像内のテキストを理解するのに助けが必要です。おそらく、訓練データが自然なイメージ(例:Conceptual CaptionsとCOCO)の優勢であるためです。しかし、読解力は人間の日常的な視覚知覚にとって重要です。幸いにも、OCR技術により、写真から単語を認識することが可能になりました。</p><p>(より大きなコンテキスト長の)計算は、ビジュアル命令チューニングモデルの入力に認識されたテキストを追加することで(単純に)増加しますが、ビジュアルエンコーダのエンコーディング能力を完全に活用することはありません。これを実現するために、彼らは写真内の単語の理解が必要な命令に従うデータを収集することを提案しています。OCRの結果をOCR結果と組み合わせて、テキストリッチな画像を使用して422Kのノイズのある命令に従うデータを最初に収集します。</p><p>これらの大量のノイズのある対応データは、言語デコーダとビジュアル特徴の機能の整列を大幅に向上させます。さらに、テキストのみのGPT-4にOCRの結果と画像キャプションを使用して16Kの会話を生成するように依頼します。各会話には多くの質問と回答のペアが含まれる場合があります。このアプローチでは、GPT-4がOCRデータをノイズ除去し、ユニークな質問を作成する必要があります(図1)。彼らは取得されたデータの効果を評価するために、ノイズのあるデータと高品質の例を前処理および微調整の段階に補足的に使用します。</p><figure><img src=”https://lh4.googleusercontent.com/-AXzLZLUIIpwSBRrWQKqlBzz-EXf5cVHWCylLOuSOPcA9WR0VCjfJiLH4csuBmwvInV2RO3SWrP530DFQKr1IZt76lZJmdGw9YJN0gRbNqq3y8e1YwIyymtzK7DxvMkmTSkIefCHXn4wZqv8rUtXvsQ”/><figcaption><strong>図1</strong>は、命令に従う統計情報がどのように収集されるかを示しています。 | https://arxiv.org/pdf/2306.17107.pdf</figcaption></figure><p>ジョージア工科大学、アドビリサーチ、スタンフォード大学の研究者が開発したLLaVAR(Large Language and Vision Assistant that Can Read)は、視覚とテキストの両方の理解力で優れたパフォーマンスを発揮します。オリジナルのLLaVAと比較して、入力解像度を2242から3362に拡大することで、細かいテキストの特徴をより良くエンコードする実験を行いました。評価手法によると、彼らはScienceQAの微調整結果とともに、4つのテキストベースのVQAデータセットの結果を示しています。また、GPT-4に基づいた命令に従う評価には、LAIONからの50のテキストリッチな画像とCOCOからの30の自然画像も使用しています。さらに、ポスターやウェブサイトのスクリーンショット、ツイートなど、より洗練された命令に従う能力を測定するための定性的な分析も行っています。</p><p>まとめると、彼らの貢献は以下の通りです:</p><p>• 高品質な16Kとノイズのある422Kの命令に従うデータを収集しました。どちらもビジュアル命令チューニングを改善することが示されています。改善された能力により、彼らのモデルLLaVARは、テキストと画像を含む多様なオンライン素材に基づいたエンドツーエンドの対話を提供することができますが、モデルのパフォーマンスは自然な写真においてわずかに向上しています。</p><p>• トレーニングおよび評価データ、およびモデルのマイルストーンは公開されています。</p><p>この記事はMarkTechPostで最初に公開されました。</p>
MITが革新的なAIツールを発表:すべての能力レベルのユーザーに対して適応可能で詳細豊富なキャプションを使用して、チャートの解釈とアクセシビリティを向上させる
複雑なグラフや図のアクセシビリティと理解を向上させるための重要な一歩として、MITの研究チームがVisTextと呼ばれる画期的なデータセットを作成しました。このデータセットは、機械学習モデルを訓練して、データの傾向や複雑なパターンを正確に説明する精緻で意味のあるキャプションを生成することで、自動グラフキャプションシステムを革新することを目指しています。 グラフのキャプション付けは労力を要するプロセスであり、追加の文脈情報を提供する必要がある場合があります。自動キャプション技術は、理解を向上させる認知的な特徴を取り入れることに苦労してきました。しかし、MITの研究者たちは、VisTextデータセットを使用して訓練された機械学習モデルが、他の自動キャプションシステムのそれを常に上回るキャプションを一貫して生成することを発見しました。生成されたキャプションは正確であり、複雑さと内容の異なるさまざまなユーザーのニーズに応えるものでした。 VisTextのインスピレーションは、MITのVisualization Group内で行われた以前の研究から生まれました。この研究では、良いチャートキャプションの要素について探求しました。彼らの研究によれば、視覚のあるユーザーと視覚障害や低視力を持つ人々は、キャプション内の意味的な内容の複雑さに対して異なる好みを示しました。このヒューマンセンタードな分析に基づいて、研究者たちはVisTextデータセットを構築しました。このデータセットには、データテーブル、画像、シーングラフ、およびそれに対応するキャプションとして表される12,000以上のチャートが含まれています。 効果的な自動キャプションシステムの開発には、さまざまな課題がありました。既存の機械学習手法は、グラフキャプションを画像キャプションと同様の方法でアプローチしましたが、自然画像の解釈はチャートの読み方とは大きく異なります。代替手法では視覚的なコンテンツを完全に無視し、チャートの公開後にはしばしば利用できないデータテーブルのみに頼っていました。これらの制限を克服するために、研究者たちはチャート画像から抽出されたシーングラフを表現として利用しました。シーングラフは包括的な情報を含んでいる一方で、現代の大規模言語モデルとも互換性があり、よりアクセスしやすくなりました。 研究者たちはVisTextを使用して自動キャプションのために5つの機械学習モデルを訓練し、画像、データテーブル、シーングラフなどの異なる表現を探索しました。彼らは、シーングラフで訓練されたモデルがデータテーブルで訓練されたモデルと同等か、それ以上に性能が良かったことを発見しました。また、低レベルと高レベルのキャプションを別々に訓練することで、研究者たちは生成されるキャプションの複雑さに適応するようモデルを設定しました。 研究者たちは、最も性能の良い手法が犯す一般的なエラーを分類する詳細な定性分析を行い、モデルの正確性と信頼性を確保しました。この調査は、モデルの微妙なニュアンスや制限を理解する上で重要であり、自動キャプションシステムの開発に関連する倫理的な考慮事項に光を当てました。生成型の機械学習モデルは効果的な自動キャプションツールを提供しますが、キャプションが誤って生成されると情報の誤情報が広まる可能性があります。この懸念に対処するため、研究者たちは自動キャプションシステムを作者ツールとして提供し、ユーザーがキャプションを編集して検証できるようにし、潜在的なエラーや倫理的な問題を軽減することを提案しました。 今後、研究チームは一般的なエラーを減らすためにモデルを改善することに専念します。彼らは、スタックバーまたは複数の線があるようなさらに多様で複雑なチャートを含めたVisTextデータセットを拡充することを目指しています。さらに、自動キャプションモデルの学習プロセスに関する洞察を得て、チャートデータの理解を深めることを目指しています。 VisTextデータセットの開発は、自動グラフキャプションにおける重要なブレイクスルーを表しています。継続的な進化と研究により、機械学習によって支えられた自動キャプションシステムは、視覚障害を持つ人々にとって重要な情報を包括的かつアクセス可能にし、グラフのアクセシビリティと理解を革新することを約束しています。
LLM(Large Language Models)は、厳密に検証可能な数学的証明を生成できるのでしょうか?LeanDojoにご参加ください:Lean Proof Assistantで形式的な定理を証明するためのツールキット、ベンチマーク、およびモデルを備えたオープンソースのAIプレイグラウンド
人工知能と機械学習は、現代のトレンドとなっています。AIの進歩により、新たなイノベーションが人間と機械の相互作用を変革しています。人間の知性の推論は人工知能の重要な部分です。自動定理証明(ATP)など、数多くの定理証明アプローチが研究されてきました。ATPは、形式論理で述べられる定理に対して自動的に証明を生成するプロセスです。ATPは巨大な探索空間のために困難であるため、人間の専門家が証明補助ツールと呼ばれるソフトウェアツールと対話することで証明を構築する対話型定理証明(ITP)が代替のパラダイムとして登場しました。 大規模な言語モデル(LLM)は、驚くべきコード生成能力を示していますが、事実性の欠陥や幻想により、定理証明においても困難に直面しています。これらの制約を克服するために、Caltech、NVIDIA、MIT、UC Santa Barbara、UT Austinの研究者チームは、LLMベースの定理証明のためのオープンソースツールキットであるLeanDojoを開発しました。LeanDojoは、数学者に人気のあるLean証明補助ツールを中心に構築されています。Leanとの作業やデータの抽出に関するリソースを提供しています。 データの抽出では、証明木や元のLeanコードでは直接明らかではない中間の証明状態からトレーニングデータを収集します。LeanDojoは、モデルがLeanとプログラム的に通信できるようになっています。これにより、モデルは証明状態を見たり、証明アクションやタクティクスを実行したり、Leanからフィードバックを受けたりすることができます。オープンソースのLeanプレイグラウンドは、ツールキット、データ、モデル、ベンチマークなど、プログラム的な証明環境とLeanからデータを抽出するための多数の要素で構成されています。 LeanDojoは、証明における前提条件の詳細な注釈を提供し、定理証明における重要なボトルネックである前提選択に貴重な情報を提供します。LeanDojoのデータ抽出機能を使用することで、研究者たちは、大規模な数学ライブラリから前提を選択するために検索を補完する初のLLMベースの証明補助プログラムであるReProverを開発しました。従来の方法とは異なり、ReProverは大量の計算リソースを必要とするプライベートデータセットに依存せず、よりアクセスしやすく、コスト効果が高いように設計されています。ReProverは、わずか1週間で1つのGPUでトレーニングすることができ、コンピューティングパワーの要件も少ないです。 LeanDojoのプログラム分析能力は、ReProverの検索メカニズムによってアクセス可能な前提条件を見つけ出し、何が間違っているかの具体的な例を示すのに使用されます。その結果、証明補助プログラムのパフォーマンスが向上し、検索手順もより効果的になります。評価とさらなる研究のために、チームはLeanの数学ライブラリから抽出した96,962の定理と証明からなる新しいベンチマークデータセットを開発しました。このベンチマークデータセットは、訓練中に使用されなかった新しい前提に依存する定理に汎化するために、チャレンジングなデータ分割を特徴としています。実験結果は、このベンチマークデータセットを使用してトレーニングと評価を行う際、ReProverが非検索ベースラインやGPT-4と比較して優れたパフォーマンスを発揮することを示しています。 結論として、LLMベースの定理証明のためのこのオープンソースソリューションは、将来において有望です。プライベートコード、データ、大規模な計算要件の障壁を、アクセス可能なツールキット、データ、モデル、ベンチマークを提供することで克服しています。
百度Ernie 3.5が中国語AIのチャンピオンとして登場:しかし、ChatGPTより本当に優れているのか?
中国語AI市場における興奮すべきブレークスルーとして、有名な検索エンジンプロバイダであるBaiduが最新モデルであるErnie 3.5を発表しました。この大型中国語モデルは、ChatGPT3やさらにはBaiduのGPT4をも凌駕すると主張されており、さまざまな中国語能力やユースケースにおいて優れているとされています。Baiduのこの動きにより、同社は国内のAI競争の最前線に立ち、業界でのこの分野におけるリーダーとしての地位を確固たるものとしました。Baiduの主張は、中国科学日報が実施したErnie 3.5のAGIevalやC-EVALなどの標準データセットを使用した詳細な評価によって裏付けられています。この注目すべき成果は、アリババグループやテンセントホールディングスなどの国内主要プレーヤーに刺激を与え、この急速に変化する分野での競争を引き起こしました。 Ernie 3.5は、訓練と評価の効率性の著しい改善を主張し、以前のバージョンよりも最適な推論時間とリソースの使用量を実現しています。多くの異なる情報源が、Baiduが提案した以前のモデルからほぼ50%の改善を報告しています。この創造物は、効率性とコスト効果の高さがAI市場で非常に求められる特徴であるため、再び重要です。BaiduはErnie 3.5のために計画を練っています。彼らは、既存のモデルの機能を強化し、要約や質問応答などの特定のタスクで作業する能力を向上させる外部プラグインサポート機能を導入する予定です。ChatGPTも今年に入ってプラグインサポートを導入し、市場での専門化されたAIへの需要の増加を正しく認識しました。 Baiduの主張は、名門科学ジャーナルの2つの包括的なテストによって強化されています。最初のテストでは、Ernie 3.5が一般的に大学や法科学校の入学試験や資格試験でChatGPTを上回りました。中国語での優れたパフォーマンスは、その高度な言語能力を示しています。2番目のテストでは、Ernie 3.5を広範囲な科目をカバーする13,000以上の多肢選択問題に評価しました。再び、Ernie 3.5は競合他社よりも高いスコアを獲得し、中国語AIモデルのトップを固めました。 Huaweiは高い期待を込めて高度なPangu AIモデルのアップグレードを7月7日に発表する準備が整っています。中国語AI市場における競争はより激しくなり、新たな高みに達することが予想されています。中国企業間の激しい競争は、彼らの根気と最先端のAIモデルを提供するための献身を示しています。この言語処理と理解の進歩は、教育、カスタマーサービス、コンテンツ作成など、さまざまなセクターを革命する可能性があります。 米国による制裁により、中国企業がリソースを縮小し、拡張可能な代替手段を見つける方法、および成長する競争の中で支配を達成し維持する方法については、興味深い展開となるでしょう。
ToolQAとは 外部ツールを使用した質問応答のための大規模言語モデル(LLM)の能力を評価する新しいデータセット
大規模言語モデル(LLM)は、自然言語処理(NLP)と自然言語理解(NLU)の分野で非常に効果的であることが証明されています。有名なLLMの例として、GPT、BERT、PaLMなどがあり、これらは教育やソーシャルメディアから金融や医療まで、あらゆる領域で研究者によって解決策を提供するために使用されています。これらのLLMは、膨大な量のデータセットで訓練されており、膨大な知識を獲得しています。LLMは、チューニングを通じた質問応答、コンテンツ生成、テキスト要約、言語の翻訳など、さまざまな能力を持っています。最近では、LLMは印象的な能力を示していますが、根拠のない情報や数値的な推論の弱点を伴わずに、合理的な情報を生成することには困難があります。 最近の研究では、検索補完、数学ツール、コードインタプリタなどの外部ツールをLLMに組み込むことが、上記の課題に対するより良いアプローチであることが示されています。これらの外部ツールの有効性を評価することは困難であり、現在の評価方法では、モデルが事前に学習された情報を単に思い出しているのか、本当に外部ツールを利用して問題解決に役立てているのかを確定するための支援が必要です。これらの制約を克服するために、ジョージア工科大学のコンピューティング学部とアトランタの研究者チームが、外部リソースの利用能力を評価するためのベンチマークであるToolQAを開発しました。 ToolQAは、8つのドメインからのデータを含み、外部参照コーパスから情報を取得することができる13種類のツールを定義しています。ToolQAの各インスタンスには、質問、回答、参照コーパス、利用可能なツールのリストが含まれています。ToolQAの独自性は、すべての質問が適切なツールを使用して参照コーパスから情報を抽出することでのみ回答できるようになっており、これによりLLMが内部の知識に基づいてのみ質問に回答する可能性を最小限に抑え、ツールの利用能力を忠実に評価することができます。 ToolQAは、参照データ収集、人間による質問生成、プログラムによる回答生成の3つの自動化されたフェーズで構成されています。第1フェーズでは、テキスト、表、グラフなど、さまざまなタイプの公開コーパスが異なるドメインから収集され、ツールベースの質問応答のための参照コーパスとして使用されます。第2フェーズでは、ツールではなく参照コーパスに頼らない方法で解決できる質問が生成されます。これは、テンプレートベースの質問生成メソッドを通じて達成されます。このメソッドには、ツールの属性と人間によるテンプレートの作成と検証が含まれます。第3フェーズでは、生成された質問に対して正確な回答が生成され、ツールに対応する演算子が実装され、参照コーパスからプログラムによって回答が得られます。 チームは、ToolQA内の質問に対して、標準LLMとツールを組み込んだLLMの両方を使用して実験を行いました。その結果、ChatGPTやChain-of-thoughts promptingなど、内部の知識にのみ依存するLLMの成功率は、簡単な質問で約5%、難しい質問で約2%と低かったことが示されました。一方、ChameleonやReActなどのツールを組み込んだLLMは、外部ツールを使用することでより良いパフォーマンスを発揮し、簡単な質問では最高のパフォーマンスが43.15%、難しい質問では8.2%となりました。 結果とエラー分析からわかるように、ToolQAは現在のツールを組み込んだLLMアプローチにとって難しいベンチマークであり、より複雑なツールの構成的推論を必要とする難しい問題に対して特に難しいです。これはAIの発展における有望な進展です。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.