Search Results arXiv

「セマンティックカーネルへのPythonistaのイントロ」

ChatGPTのリリース以来、大規模言語モデル（LLM）は産業界とメディアの両方で非常に注目されており、これによりLLMを活用しようとする前例のない需要が生まれました...

「マルチタスクアーキテクチャ：包括的なガイド」

多くのタスクを実行するためにニューラルネットワークを訓練することは、マルチタスク学習として知られていますこの投稿では、複数の密な計算ビジョンタスクを実行するモデルを訓練します

「物理学と流体力学に応用されたディープラーニング」

数値シミュレーションは、物理システムの挙動を理解するために何年も使用されてきました流体が構造物と相互作用する方法、応力下で幾何学が変形する方法、または熱の挙動などを理解するために使用されます

初心者のための2023年の機械学習論文の読み方

「私は数十の機械学習の論文を読み、論文の勉強方法がだいたい分かってきましたまず最初に、特定の論文を読む目的を理解することが重要です！私は...」

「このGSAi中国のAI論文は、LLMベースの自律エージェントの包括的な研究を提案しています」

自律エージェントは、さまざまな程度の独立性を示す自己操作システムを表します。最近の研究では、広範なトレーニングデータセットと多数のモデルパラメータの組み合わせによって、LLMが人間の知能を模倣する驚異的な能力を持っていることが強調されています。この研究論文では、LLMを利用した自律エージェントのアーキテクチャの側面、構築技術、評価方法、および関連する課題について包括的な研究を提供しています。 https://arxiv.org/abs/2308.11432v1 LLMは、人間の意思決定プロセスを再現し、人工知能システムを強化するための中核的なオーケストレータとして使用されています。上記の画像は、LLMを基盤とした自律エージェントの成長トレンドを示しています。3番目のポイント以降、X軸が年から月に切り替わることに注目すると興味深いです。これらのLLMベースのエージェントは、受動的な言語システムから積極的で目標志向の推論能力を持つエージェントへと進化していることがわかります。 LLMベースの自律エージェントの構築人間のような能力を効果的に示すために、次の2つの重要な側面に注意する必要があります：アーキテクチャ設計：最適なアーキテクチャを選択することは、LLMの能力を最適に活用するために重要です。既存の研究は体系的に統合され、包括的かつ統一的なフレームワークの開発につながりました。学習パラメータの最適化：アーキテクチャの性能を向上させるために、次の3つの広く採用されている戦略が登場しました：例から学習：注意深く選ばれたデータセットを使用してモデルを微調整する方法です。環境フィードバックから学習：リアルタイムの相互作用と観察を活用してモデルの能力を向上させる方法です。人間のフィードバックから学習：モデルの応答を改善するために人間の専門知識と介入を活用する方法です。 LLMベースの自律エージェントの応用さまざまな分野でのLLMベースの自律エージェントの応用は、問題解決、意思決定、およびイノベーションのアプローチに根本的な変化をもたらします。これらのエージェントは、言語理解、推論、適応性を持ち、優れた洞察力、サポート、および解決策を提供することにより、大きな影響を与えます。このセクションでは、LLMベースの自律エージェントが社会科学、自然科学、およびエンジニアリングの3つの異なる領域でどのように変革的な影響を与えているかについて詳しく説明します。 LLMベースの自律エージェントの評価 LLMベースの自律エージェントの効果を評価するために、主観的評価と客観的評価の2つの評価戦略が導入されました。主観的評価：エージェントの知能やユーザビリティなどの潜在的な特性は、定量的なメトリックでは測定できません。したがって、主観的評価は現在の研究において不可欠です。客観的評価：客観的評価を利用することには、人間の評価と比較して多くの利点があります。定量的なメトリックは、さまざまなアプローチの簡単な比較や時間の経過による進歩のモニタリングを容易にします。包括的な自動テストの実施の実現可能性により、わずかな数ではなく、多くのタスクの評価が可能となります。最後に、これまでの研究は多くの有望な方向性を示してきましたが、この分野はまだ初期段階にあり、役割プレイ能力、一般化された人間の調整、プロンプトの堅牢性などのさまざまな課題が存在しています。結論として、この調査はLLMベースの自律エージェントに関するすべての知識を詳細に研究し、体系的なまとめを提供します。

CMU（カーネギーメロン大学）と清華大学の研究者が提案した「Prompt2Model：自然言語の指示から展開可能なAIモデルを生成する汎用メソッド」

与えられた問題を解決するためにNLPモデルを構築したいと考えたとします。まず、タスクの範囲を定義し、その後、意図したシステムの振る舞いを特定するデータを見つけるか作成し、適切なモデルのアーキテクチャを選択し、モデルをトレーニングし、評価を通じて性能を評価し、最後に実世界での使用のために展開します。研究者たちは、このような包括的なNLPモデルを1行のコードでプロトタイプ化することが可能になりました！ https://arxiv.org/abs/2308.12261 Prompt2Modelは、シンプルなプロンプトを使用してシステムの振る舞いを指定でき、同時にすべての利点を保持した展開可能な特殊な目的のモデルを提供するシステムです。上の図は、Prompt2Modelの動作アーキテクチャを示しています。基本的には、ユーザープロンプトからタスクに関する必要な詳細を抽出し、タスク関連の情報を収集し結合し、以下の異なるチャネルを使用して展開する自動パイプラインとして機能します。データセットの取得：プロンプトが与えられた場合、最初のタスクは、ユーザーのタスクの説明をサポートする既存の手動注釈付きデータを見つけることです。データセットの生成：幅広いタスクをサポートするために、ユーザーの特定の要件に従って合成トレーニングデータを生成するためのデータセットジェネレータが存在します。プロンプトパーサーによって解析されたユーザー固有の要件には、コンテキスト学習を備えたLLMが含まれており、OpenAIのgpt-3.5-turbo-0613を使用してユーザープロンプトをセグメント化するために使用されます。モデルの取得：提供されたプロンプトを使用して、ユーザーの目標に適した事前学習済み言語モデルが選択されます。この選択されたモデルは学生モデルとして機能し、生成および取得したデータを用いてさらに微調整および評価されます。 Webアプリ：最後に、訓練されたモデルと対話するための使いやすいグラフィカルユーザーインターフェースが存在します。このGradioを使用して作成されたWebアプリケーションは、簡単にサーバー上に公開されることができます。結論として、Prompt2Modelは、小規模で競争力のあるNLPシステムを迅速に構築するためのツールです。手動のデータ注釈やアーキテクチャなしに、数時間でLLMを上回るタスク固有のモデルを直接生成することができます。拡張性のある設計を持つモデルは、モデルの蒸留、データセットの生成、合成評価、データセットの取得、モデルの取得といった新しい技術の探索のためのプラットフォームを提供することができます。将来を見据えると、Prompt2Modelは協力的なイノベーションの触媒となることができます。異なる課題を提案することで、研究者は将来のフレームワークの各コンポーネントにおける多様な実装と改善の発展を促すことを目指しています。

プロンプトエンジニアリング：AIを騙して問題を解決する方法

「これは、実践的な大規模言語モデル（LLM）の使用に関するシリーズの第4回目の記事ですここでは、プロンプトエンジニアリング（PE）について説明し、それを使用してLLM対応のアプリケーションを構築する方法について話しますまずは、...」

「GPT-4 8つのモデルを1つに統合、秘密が明かされる」

「GPT4は競争を避けるためにモデルを秘密にしていましたが、今はその秘密が明らかになっています！」

Artificial Intelligence

「NTU SingaporeのこのAI論文は、モーション表現を用いたビデオセグメンテーションのための大規模ベンチマーク、MeVISを紹介しています」

言語にガイドされたビデオセグメンテーションは、自然言語の記述を使用してビデオ内の特定のオブジェクトをセグメント化およびトラッキングすることに焦点を当てた発展途上の領域です。ビデオオブジェクトを参照するための現行のデータセットは通常、目立つオブジェクトに重点を置き、多くの静的属性を持つ言語表現に依存しています。これらの属性により、対象のオブジェクトを単一のフレームで特定することができます。しかし、これらのデータセットは、言語にガイドされたビデオオブジェクトセグメンテーションにおける動きの重要性を見落としています。 https://arxiv.org/abs/2308.08544 研究者は、私たちの調査を支援するために、Motion Expression Video Segmentation（MeViS）と呼ばれる新しい大規模データセットであるMeVISを紹介しました。 MeViSデータセットは2,006のビデオ、8,171のオブジェクト、および28,570のモーション表現で構成されています。上記の画像は、MeViSの表現を表示しており、これらの表現は主にモーションの属性に焦点を当てており、単一のフレームだけで対象のオブジェクトを特定することはできません。たとえば、最初の例では似たような外観を持つ3羽のオウムが特徴であり、対象のオブジェクトは「飛び去る鳥」と特定されます。このオブジェクトは、ビデオ全体のモーションをキャプチャすることでのみ認識できます。 MeVISデータセットがビデオの時間的なモーションに重点を置くようにするために、いくつかの手順があります。まず、静的属性だけで説明できる孤立したオブジェクトを持つビデオを除外し、モーションと共存する複数のオブジェクトを含むビデオコンテンツを注意深く選択します。次に、ターゲットオブジェクトをモーションの単語のみで曖昧さなく説明できる場合、カテゴリ名やオブジェクトの色などの静的な手がかりを含まない言語表現を優先します。 MeViSデータセットの提案に加えて、研究者はこのデータセットがもたらす課題に対処するためのベースラインアプローチであるLanguage-guided Motion Perception and Matching（LMPM）を提案しています。彼らのアプローチでは、言語によるクエリの生成を行い、ビデオ内の潜在的な対象オブジェクトを識別します。これらのオブジェクトはオブジェクト埋め込みを使用して表現され、オブジェクトの特徴マップと比較してより堅牢で計算効率の良いものです。研究者はこれらのオブジェクト埋め込みに対してMotion Perceptionを適用し、ビデオのモーションダイナミクスの時間的な文脈を捉え、ビデオ内の瞬間的なモーションと持続的なモーションの両方を把握することができます。 https://arxiv.org/abs/2308.08544 上記の画像はLMLPのアーキテクチャを表示しています。彼らはTransformerデコーダを使用して、モーションに影響を受けた組み合わせられたオブジェクト埋め込みから言語を解釈し、オブジェクトの移動を予測するのに役立ちます。それから、言語特徴を投影されたオブジェクトの動きと比較して、表現で言及されるターゲットオブジェクトを見つけます。この革新的な方法は、言語理解とモーション評価を統合して、複雑なデータセットの課題を効果的に処理します。この研究は、より高度な言語にガイドされたビデオセグメンテーションアルゴリズムの開発の基盤を提供しました。さらに、以下のようなより困難な方向に向けた道を開拓しました。視覚的および言語的モダリティにおけるより良いモーション理解とモデリングのための新しい技術の探索。冗長な検出されたオブジェクトの数を減らすより効率的なモデルの作成。言語と視覚信号の相補的な情報を活用するための効果的なクロスモーダル融合手法の設計。複数のオブジェクトと表現がある複雑なシーンを処理できる高度なモデルの開発。これらの課題に取り組むには、言語によるビデオセグメンテーションの現在の最先端を推進するための研究が必要です。

「言葉から世界へ：AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」

言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲーションを使用して特定の場所に導くなど、情報を伝達するための効果的なチャネルとしても機能します。視覚障がいのある人々の場合、映画を聴覚的な解説で体験することができます。前者は言語が他の感覚モードを向上させる方法を示し、後者は言語が異なるモダリティで最大限の情報を伝える能力を強調しています。多様なモダリティ間の言語との関係を確立するための現代の取り組みでは、画像や動画のキャプション付け、画像や動画からのテキスト表現の生成、テキストによってガイドされた視覚的なコンテンツの操作などのタスクが含まれます。しかし、これらの取り組みでは、言語は主に他の感覚入力に関する情報を補完する役割を果たしています。その結果、これらの取り組みは異なる感覚モード間の情報の複雑な交換を包括的に描写することができません。これらは主に1文のキャプションなどの単純な言語要素に焦点を当てています。これらのキャプションは短く、主要なエンティティやアクションを説明することしかできません。そのため、これらのキャプションを通じて伝えられる情報は、他の感覚モダリティに存在する情報の豊富さに比べてかなり限定的です。この差異により、他の感覚領域から情報を言語に翻訳しようとする際に情報の大幅な損失が生じます。この研究では、研究者たちは言語をマルチモーダルモデリングで情報を共有する手段として捉えています。彼らは「Fine-grained Audible Video Description（FAVD）」という新しいタスクを作成しました。通常、動画の短いキャプションは主要な部分を指しますが、FAVDではモデルにより人々が行うように動画を説明するよう要求し、短い概要から徐々に詳細な情報を追加していきます。このアプローチにより、言語のフレームワーク内にビデオ情報のより確かな部分が保持されます。ビデオは視覚的および聴覚的な信号を含んでいるため、FAVDタスクではオーディオの説明も総合的な描写を向上させるために組み込まれています。このタスクの実行をサポートするために、Fine-grained Audible Video Description Benchmark（FAVDBench）という新しいベンチマークが構築されました。FAVDBenchはYouTubeから収集された11,000以上のビデオクリップで構成されており、70以上の実生活のカテゴリをカバーしています。注釈には簡潔な1文の概要と、ビジュアル要素に関する4〜6文の詳細なセンテンス、オーディオに関する1〜2文のセンテンスが含まれており、包括的なデータセットとなっています。 FAVDタスクを効果的に評価するために、2つの新しいメトリックが考案されました。最初のメトリックであるEntityScoreは、ビデオから説明文への情報の伝達を評価し、視覚的な説明文内のエンティティの包括性を測定します。2番目のメトリックであるAudioScoreは、事前学習済みのオーディオ・ビジュアル・言語モデルの特徴空間内でオーディオの説明の品質を定量化します。研究者たちは、新しく導入されたタスクのための基礎モデルを提供しています。このモデルは、確立されたエンドツーエンドのビデオキャプションフレームワークを基にしており、さらにオーディオブランチが追加されています。さらに、ビジュアル言語トランスフォーマーからオーディオ・ビジュアル・言語トランスフォーマー（AVLFormer）への拡張も行われています。AVLFormerは、以下に示すようなエンコーダ・デコーダ構造の形式です。 https://arxiv.org/abs/2303.15616 ビデオクリップとオーディオをそれぞれ処理するために、ビジュアルエンコーダとオーディオエンコーダが適応され、マルチモーダルトークンの結合が可能となっています。ビジュアルエンコーダはビデオスウィン・トランスフォーマーを使用し、オーディオエンコーダはパッチアウトオーディオトランスフォーマーを利用しています。これらのコンポーネントは、ビデオフレームとオーディオデータからビジュアルとオーディオの特徴を抽出します。トレーニング中には、マスクされた言語モデリングや自己回帰言語モデリングなどの他のコンポーネントも組み込まれます。AVLFormerは、以前のビデオキャプションモデルからのインスピレーションを得て、テキストの記述も入力として使用します。テキストを特定のフォーマットに変換するために、ワードトークナイザと線形埋め込みが使用されます。トランスフォーマーはこのマルチモーダル情報を処理し、入力として与えられたビデオの詳細な説明を出力します。以下には、定性的な結果のいくつかの例と最新の手法との比較が報告されています。 https://arxiv.org/abs/2303.15616 結論として、研究者たちは、細かい音声付きビデオの説明のための新しいビデオキャプションタスクFAVDと、教師付きトレーニングのための新しいベンチマークFAVDBenchを提案しています。さらに、彼らはFAVDタスクに対処するための新しいトランスフォーマーベースのベースラインモデルAVLFormerを設計しました。興味があり、詳細を知りたい場合は、以下に引用されたリンクを参照してください。

Learn more about Search Results arXiv - Page 12