Search Results Loom

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル（LLM）の一部の例です。インコンテキスト学習、コード作成、常識的な推論といった新しいスキルが表示されます。最近の取り組みは、LLMを視覚と言語のデータを同時に処理できるようにトレーニングすることです。GPT4、Flamingo、PALIは、VLMの3つの優れた例です。それらは、ピクチャーキャプショニング、ビジュアルクエスチョンアンサリング、オープンボキャブラリ認識などの多くのタスクにおいて新たな基準を確立しました。最先端のLLMは、テキスト情報検索に関するタスクで人間よりも優れた成績を収めますが、最先端のVLMは、Infoseek、Oven、OK-VQAなどの視覚情報検索データセットに苦戦しています。さまざまな理由から、現在の最先端のビジョン言語モデル（VLM）は、そのような問い合わせに十分な応答をすることは困難です。子供たちは、画像の細かいカテゴリや詳細を認識することを学ぶ必要があります。第二に、彼らの推論はより堅牢でなければなりません、なぜなら彼らは最新の大規模言語モデル（LLM）よりも小さい言語モデルを使用しているからです。最後に、彼らは画像検索エンジンとは異なり、さまざまなメタデータでタグ付けされた大量の画像コーパスとクエリ画像を調べません。この研究では、カリフォルニア大学ロサンゼルス校（UCLA）とGoogleの研究者が、LLMと3つの異なるタイプのツールを統合することで、視覚情報検索のタスクで最先端のパフォーマンスを実現する新しいアプローチを提供しています。視覚情報抽出を支援するコンピュータプログラムには、オブジェクト検出器、光学文字認識ソフトウェア、ピクチャーキャプショニングモデル、視覚品質評価ソフトウェアが含まれます。外部の世界に関するデータと情報を発見するためのオンラインリソース視覚的に関連する画像のメタデータをマイニングして、画像検索の関連結果を見つける方法。この手法では、LLMによって駆動されるプランナーが、必要なツールとそれに送信するクエリを動的に決定するために使用されます。さらに、研究者は、LLMによって結果を調べ、関連するデータを引き出すためにLLMによって駆動されるリーズナーを使用します。まず、LLMはクエリを戦略、プログラム、または一連の命令に単純化します。その後、適切なAPIを活性化してデータを収集します。このアプローチは、単純な視覚言語の課題では有望ですが、より複雑な現実のシナリオでは改訂が必要です。このような初期のクエリから包括的な戦略を決定することはできません。代わりに、進行中のデータに応じて継続的な反復を必要とします。現場での意思決定能力が提案された戦略の主要なイノベーションです。視覚情報を必要とする質問の計画は、課題の複雑さのため、複数のステップで行われます。プランナーは、各段階でどのAPIを使用するか、どのクエリを提出するかを決定する必要があります。画像検索などの高度なAPIの回答の有用性を予測することしかできず、それらを呼び出した後の出力を予測することしかできません。したがって、研究者は、アップフロントのプロセス段階とAPI呼び出しの計画を含む従来の方法ではなく、ダイナミックな戦略を選択します。研究者は、APIとのやり取りで人々がどのように選択を行うかを理解するためのユーザースタディを実施します。この情報を体系的なフレームワークにまとめることで、大規模言語モデル（LLM）がAPIの選択とクエリの作成を決定するための根拠を提供します。収集されたユーザーデータがシステムにもたらす2つの主な利点があります。まず、ユーザーアクションの順序を推論して遷移グラフを構築します。このグラフは、状態間の境界と各状態で実行できる手順を定義します。第二に、プランナーとリーズナーに有用なユーザーの意思決定の具体例を提供します。主な貢献チームは革新的なビジュアルクエスチョンアンサリングフレームワークを提案し、大規模言語モデル（LLM）を使用して外部ツールの動的な戦略立案とその出力の調査を行うことで、質問に対する回答を提供するために必要な知識を学習します。チームは人々が意思決定を行う方法に関するユーザースタディからの知見を活用して、体系的な計画を作成します。このフレームワークは、大規模言語モデル（LLM）に、APIの選択とクエリの構築において人間の意思決定を模倣するよう指示します。この戦略は、知識ベースのビジュアルクエスチョンアンサリングの2つのベンチマークであるInfoseekとOK-VQAで、最先端のソリューションを上回っています。特に、PALIのInfoseek（未知のエンティティ分割）データセットでの16.0％の正答率に対して、私たちの結果は50.7％と大幅に高いです。 APIとその他のツール AVIS（Autonomous Visual Information Seeking with Large Language Models）は、適切な詳細な情報検索を必要とする視覚的な問い合わせに応えるために、堅牢なリソースセットが必要です。画像キャプションモデル視覚的な質問応答モデル物体検出…

大規模言語モデルのコード解読：Databricksが教えてくれたこと

「ファインチューニング、フラッシュアテンション、LoRa、AliBi、PEFTなどの技術を使用して、カスタムモデルを開発することにより、自分自身のエンドツーエンドのプロダクションレディなLLMワークフローの構築を学びましょう」

「大規模な言語モデルの探索-パート3」

「この記事は主に自己学習のために書かれていますしたがって、広く深く展開されています興味のあるセクションをスキップしたり、自分が興味を持っている分野を探求するために、自由に進めてください以下にはいくつかの...」

学生と機関のためのChatGPTプラグインで学習を向上させる

イントロダクション ChatGPTは、最も高度な会話型AIモデルの一つとして急速に注目を集めており、多様なトピックにわたって人間らしいテキストを生成する能力でユーザーを魅了しています。無料版のChatGPTは人気がありますが、学生や機関向けのChatGPTプラグインを利用することで、ユーザーは自分の体験をカスタマイズし、ウェブを閲覧し、特定の産業や興味に合わせた専門知識モジュールにアクセスすることができます。 ChatGPTプラグインは、大学や機関で学生の教育体験を向上させるためのプラットフォームを提供します。これらのプラグインは、専門ツールやリソースを取り入れることで、チャットボットの応答を特定の学術的要求に合わせることができます。プラグインによって、メインモデルの機能が拡張され、言語翻訳サービス、特定の科目に関する洞察、または難解な数学の問題の解決などが可能となります。さらに、学習の好みも異なるため、新しい改良された学習方法を促進することができます。学習目標 ChatGPTプラグインの基本的な利用例を理解する。学生や教育機関向けの人気で影響力のあるChatGPTプラグインのキュレートされたリストに深入りする。学生が新しい概念を学び、問題を理解し、分析し、解決するためにこれらのプラグインを使用できる現実世界の利用例を分析する。 ChatGPTプラグインを使用したデータ分析のためのコードベースの入力と出力生成に深入りする。この記事は、データサイエンスブログマラソンの一環として公開されました。生成型AIとChatGPTプラグイン生成型AIは、与えられた入力から新しい出力を生成することで、デジタルでの作成、分析、および対話を革新しました。ChatGPTは、一貫した文脈に基づいた応答を生成する能力で人気のあるプラットフォームとなっていますが、プラグインの統合により、より専門的な機能、他のソフトウェアとのシームレスな統合、そして教育機関や学生を含むさまざまな産業に対応したユーザーエクスペリエンスを提供することができます。学生向け人気のあるChatGPTプラグイン学生向けの人気のあるChatGPTプラグインの一部は以下の通りです：ダイアグラム：ChatGPT-4のダイアグラムプラグインは、ダイアグラムを使った視覚的な説明を容易にします。Mermaid、GraphViz、PlantUMLなどの異なる構文をサポートしています。ユーザーは説明や既存のダイアグラムへの変更を処理することができます。 ScholarAI：ScholarAIは、査読付きの学術論文や研究論文にアクセスするために使用できるプラグインです。このプラグインを使用することで、学生は関連する査読付きの研究を迅速にクエリでき、科学的な研究の改善や洞察を得るための信頼性のあるデータを確保することができます。 PDFでチャット：チャットウィズPDFは、ChatGPTを通じてインターネットからPDFファイルにアクセスし、クエリを行うことができるユーティリティです。この堅牢なユーティリティを使用すると、リンクを指定するだけでPDFから洞察を得るプロセスが簡素化されます。学生は文書の内容から質問をしたり、特定の詳細を求めることができます。ウルフラム：ウルフラムプラグインは、ChatGPTの機能を強化し、計算ツール、数学関数、整理された情報、最新のデータ、視覚化機能に接続することで、数学の処理やデータの計算を含むさまざまな操作を行うことができます。これは、ダイアグラムなどの入力ダイアグラムから取得したデータを使用して数学を読み取り、処理、計算するといった操作と組み合わせることも可能です。ビデオインサイト：ビデオインサイトプラグインは、リアルタイムでビデオコンテンツを分析し、価値ある洞察を得るのに役立ちます。学生は、長い講義ビデオからキーポイントの復習や要約を迅速に行い、メモを作成するためにこのプラグインを使用することができます。オープンレクチャー：オープンレクチャープラグインは、大学レベルのコンテンツや講義にアクセスするために使用することができます。ポケットに大学の講義、書籍、学習ノートのデジタルアーカイブを所有することを目的としています。コードインタプリタ：コードインタプリタは、AIチャットボットのデータのアップロード、コードの記述と編集、さまざまな操作と分析を行う能力を向上させるマルチ機能プラグインです。ChatGPTにデータの分析、チャートの作成、ファイルの編集、数学の計算を依頼することができます。データ分析などに使用することもできます。ダイアグラムプラグイン Diagram Pluginとその使用方法について詳しく見てみましょう。Diagram Pluginは、複雑なアイデアやプロセスを表現するための可視化を作成するために使用できます。その機能を活用することで、学生はそれらを説明してデジタルダイアグラムを描くことができます。…

AIの生成体験を向上させる Amazon SageMakerホスティングでのストリーミングサポートの導入

「Amazon SageMakerリアルタイム推論を通じたレスポンスストリーミングの提供を発表し、大変興奮していますこれにより、チャットボット、仮想アシスタント、音楽ジェネレータなどの生成型AIアプリケーションのインタラクティブな体験を構築する際に、SageMakerリアルタイム推論を使用してクライアントに連続的に推論レスポンスをストリーミングできるようになりましたこの新機能により、レスポンス全体が生成されるのを待つのではなく、利用可能な場合にすぐにレスポンスをストリーミング開始できますこれにより、生成型AIアプリケーションの最初のバイトまでの時間を短縮できますこの記事では、インタラクティブなチャットのユースケースに対して、新しいレスポンスストリーミング機能を使用したSageMakerリアルタイムエンドポイントを使用してストリーミングWebアプリケーションを構築する方法を紹介しますサンプルデモアプリケーションのUIにはStreamlitを使用しています」

「ロボタクシーがサンフランシスコを回るにつれて敵を作り出している」

サンフランシスコでのロボタクシーサービスの拡大について最近承認を受けたにもかかわらず、WaymoとCruiseは交通と安全に関する懸念に直面し続けています

「生成AIゴールドラッシュで誰がお金を稼ぐのか？」

「創発型AIのゴールドラッシュに備えよ！ビッグテックはピックとシャベルで支配するのか？どのスタートアップが成功するのか？「Xのための共同運転者」が黄金を手にするビジネス戦略になるのか？他の探鉱者を遠ざけるための堀をスタートアップが掘る方法は？そして、再びアメリカは…」

Artificial Intelligence

Learn more about Search Results Loom - Page 9

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

大規模言語モデルのコード解読：Databricksが教えてくれたこと

「大規模な言語モデルの探索-パート3」

学生と機関のためのChatGPTプラグインで学習を向上させる

AIの生成体験を向上させる Amazon SageMakerホスティングでのストリーミングサポートの導入

「ロボタクシーがサンフランシスコを回るにつれて敵を作り出している」

「生成AIゴールドラッシュで誰がお金を稼ぐのか？」

オープンAIによって、大規模な企業向けにChatGPT Enterpriseがリリースされます

「OpenAIが大企業向けのChatGPTバージョンをリリース予定」

ドメイン特化の大規模言語モデルの6つの例

Find the right Blockchain Investment for you