Learn more about Search Results 子供 - Page 10

「AIを活用して国連の持続可能な開発目標に取り組む15のプロジェクト」

「Google.orgは、AIを活用して国連の持続可能な開発目標に進展をもたらすための15のプロジェクトを資金提供しています」

マルコフとビネメ・シェビシェフの不等式

「2つの境界の意味と、その発見につながる魅力的で風変わりな出来事を理解する」

「AIに関する新しい公聴会を議会が開催する」

来週はAIと議会にとって熱い週になるでしょうなぜなら、議会は人工知能に関する3つの公聴会を開催する予定であり、そのうち1つにはテック巨大企業のマイクロソフトも参加しますロイターによると、公聴会にはブラッド・スミス社長とNvidiaの主任科学者ウィリアム・デイリーも出席する予定ですこれらの公聴会の目的は、...

遺伝的アルゴリズムを使用して特徴セットを最適化する方法

遺伝的アルゴリズムを使用して特徴の最適化の世界に深く潜り込み、機械学習モデルに最も関連性のある特徴を特定するのにどのように役立つかを探求してください

データサイエンスの誕生:史上初の仮説検定とPythonの洞察

18世紀の洗練されたロンドンの雰囲気の中で、先駆的な個人たちが、データと統計の理解を永遠に変える探求に乗り出しましたジョン・アーバスノットは、優れた…

「データサイエンスのベストプラクティス、パート1 – クエリをテストする」

データサイエンスの領域は、数学と統計学、そしてコンピュータサイエンスにそのルーツを持っています過去数十年間でかなり進化してきましたが、過去10〜15年間で初めて...

UCLAとGoogleの研究者が、AVISという画像質問応答の自律情報検索のための画期的なAIフレームワークを提案しています

GPT3、LaMDA、PALM、BLOOM、LLaMAは、膨大な情報を保存し適用する能力を示した大規模言語モデル(LLM)の一部の例です。インコンテキスト学習、コード作成、常識的な推論といった新しいスキルが表示されます。最近の取り組みは、LLMを視覚と言語のデータを同時に処理できるようにトレーニングすることです。GPT4、Flamingo、PALIは、VLMの3つの優れた例です。それらは、ピクチャーキャプショニング、ビジュアルクエスチョンアンサリング、オープンボキャブラリ認識などの多くのタスクにおいて新たな基準を確立しました。最先端のLLMは、テキスト情報検索に関するタスクで人間よりも優れた成績を収めますが、最先端のVLMは、Infoseek、Oven、OK-VQAなどの視覚情報検索データセットに苦戦しています。 さまざまな理由から、現在の最先端のビジョン言語モデル(VLM)は、そのような問い合わせに十分な応答をすることは困難です。子供たちは、画像の細かいカテゴリや詳細を認識することを学ぶ必要があります。第二に、彼らの推論はより堅牢でなければなりません、なぜなら彼らは最新の大規模言語モデル(LLM)よりも小さい言語モデルを使用しているからです。最後に、彼らは画像検索エンジンとは異なり、さまざまなメタデータでタグ付けされた大量の画像コーパスとクエリ画像を調べません。この研究では、カリフォルニア大学ロサンゼルス校(UCLA)とGoogleの研究者が、LLMと3つの異なるタイプのツールを統合することで、視覚情報検索のタスクで最先端のパフォーマンスを実現する新しいアプローチを提供しています。 視覚情報抽出を支援するコンピュータプログラムには、オブジェクト検出器、光学文字認識ソフトウェア、ピクチャーキャプショニングモデル、視覚品質評価ソフトウェアが含まれます。 外部の世界に関するデータと情報を発見するためのオンラインリソース 視覚的に関連する画像のメタデータをマイニングして、画像検索の関連結果を見つける方法。 この手法では、LLMによって駆動されるプランナーが、必要なツールとそれに送信するクエリを動的に決定するために使用されます。さらに、研究者は、LLMによって結果を調べ、関連するデータを引き出すためにLLMによって駆動されるリーズナーを使用します。 まず、LLMはクエリを戦略、プログラム、または一連の命令に単純化します。その後、適切なAPIを活性化してデータを収集します。このアプローチは、単純な視覚言語の課題では有望ですが、より複雑な現実のシナリオでは改訂が必要です。このような初期のクエリから包括的な戦略を決定することはできません。代わりに、進行中のデータに応じて継続的な反復を必要とします。現場での意思決定能力が提案された戦略の主要なイノベーションです。視覚情報を必要とする質問の計画は、課題の複雑さのため、複数のステップで行われます。プランナーは、各段階でどのAPIを使用するか、どのクエリを提出するかを決定する必要があります。画像検索などの高度なAPIの回答の有用性を予測することしかできず、それらを呼び出した後の出力を予測することしかできません。したがって、研究者は、アップフロントのプロセス段階とAPI呼び出しの計画を含む従来の方法ではなく、ダイナミックな戦略を選択します。 研究者は、APIとのやり取りで人々がどのように選択を行うかを理解するためのユーザースタディを実施します。この情報を体系的なフレームワークにまとめることで、大規模言語モデル(LLM)がAPIの選択とクエリの作成を決定するための根拠を提供します。収集されたユーザーデータがシステムにもたらす2つの主な利点があります。まず、ユーザーアクションの順序を推論して遷移グラフを構築します。このグラフは、状態間の境界と各状態で実行できる手順を定義します。第二に、プランナーとリーズナーに有用なユーザーの意思決定の具体例を提供します。 主な貢献 チームは革新的なビジュアルクエスチョンアンサリングフレームワークを提案し、大規模言語モデル(LLM)を使用して外部ツールの動的な戦略立案とその出力の調査を行うことで、質問に対する回答を提供するために必要な知識を学習します。 チームは人々が意思決定を行う方法に関するユーザースタディからの知見を活用して、体系的な計画を作成します。このフレームワークは、大規模言語モデル(LLM)に、APIの選択とクエリの構築において人間の意思決定を模倣するよう指示します。 この戦略は、知識ベースのビジュアルクエスチョンアンサリングの2つのベンチマークであるInfoseekとOK-VQAで、最先端のソリューションを上回っています。特に、PALIのInfoseek(未知のエンティティ分割)データセットでの16.0%の正答率に対して、私たちの結果は50.7%と大幅に高いです。 APIとその他のツール AVIS(Autonomous Visual Information Seeking with Large Language Models)は、適切な詳細な情報検索を必要とする視覚的な問い合わせに応えるために、堅牢なリソースセットが必要です。 画像キャプションモデル 視覚的な質問応答モデル 物体検出…

「質問、肩をすくめること、そして次は何か:変化の25年」

「Googleが設立されて以来、私たちは難しい質問に答えるために取り組み、人々が自分の質問に答えを得るのを助け、世界のためにテクノロジーを進化させるために取り組んできました」

「データサイエンスブートキャンプの成功法:完全ガイド」

「私は2021年5月にオフラインのブートキャンプを卒業しました今はITでほぼ2年間働いていますさらに、私はまだブートキャンプのさまざまなイベントや活動に参加するよう招かれています」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us