Learn more about Search Results こちら - Page 103

線形回帰と勾配降下法

線形回帰は機械学習に存在する基本アルゴリズムの1つですその内部ワークフローを理解することは、データサイエンスの他のアルゴリズムの主要な概念を把握するのに役立ちます...

チャートの推論に基づくモデルの基盤

グーグルリサーチのリサーチソフトウェアエンジニア、ジュリアン・アイゼンシュロスによる投稿 ビジュアル言語は、情報を伝えるためにテキスト以外の絵文字を使用するコミュニケーション形式です。アイコノグラフィ、情報グラフィック、表、プロット、チャートなどの形でデジタルライフで普及しており、道路標識、コミックブック、食品ラベルなどの現実世界にも広がっています。このようなメディアをコンピュータがより理解できるようにすることは、科学的コミュニケーションと発見、アクセシビリティ、データの透過性に役立ちます。 ImageNetの登場以来、学習ベースのソリューションを使用してコンピュータビジョンモデルは大きな進歩を遂げてきましたが、焦点は自然画像にあり、分類、ビジュアルクエスチョンアンサリング(VQA)、キャプション、検出、セグメンテーションなどのさまざまなタスクが定義され、研究され、いくつかの場合には人間の性能に達成されています。しかし、ビジュアル言語は同じレベルの注目を集めていません。これは、この分野における大規模なトレーニングセットの不足のためかもしれません。しかし、PlotQA、InfographicsVQA、ChartQAなどの視覚言語イメージにおける質問応答システムの評価を目的とした新しい学術データセットが、ここ数年で作成されています。 ChartQAからの例。質問に答えるには、情報を読み取り、合計と差を計算する必要があります。 これらのタスクに対して構築された既存のモデルは、光学的文字認識(OCR)情報とその座標を大規模なパイプラインに統合することに頼っていましたが、プロセスはエラーが発生しやすく、遅く、一般化が悪いです。既存の畳み込みニューラルネットワーク(CNN)またはトランスフォーマーに基づくエンドツーエンドのコンピュータビジョンモデルは、自然画像で事前にトレーニングされたモデルを簡単にビジュアル言語に適応させることができなかったため、これらの方法が広く使用されていました。しかし、既存のモデルは、棒グラフの相対高さや円グラフのスライスの角度を読み取り、軸のスケールを理解し、色、サイズ、テクスチャでピクトグラムを伝説値に正しくマッピングし、抽出された数字で数値演算を実行するなど、チャートの質問に対する課題には準備ができていません。 これらの課題に対応するために、「MatCha:数学推論とチャートディレンダリングを活用したビジュアル言語の事前トレーニングの強化」という提案を行います。 MatChaは数学とチャートを表す言葉であり、2つの補完的なタスクでトレーニングされたピクセルからテキストへの基礎モデル(複数のアプリケーションでファインチューニングできる組み込み帰納バイアスを備えた事前トレーニングモデル)です。1つはチャートディレンダリングであり、プロットまたはチャートが与えられた場合、画像からテキストモデルはその基礎となるデータテーブルまたはレンダリングに使用されるコードを生成する必要があります。数学推論の事前トレーニングでは、テキストベースの数値推論データセットを選択し、入力を画像にレンダリングし、画像からテキストモデルが回答をデコードする必要があります。また、「DePlot:プロットからテーブルへの翻訳によるワンショットビジュアル言語推論」という、テーブルへの翻訳を介したチャートのワンショット推論にMatChaの上に構築されたモデルを提案します。これらの方法により、ChartQAの以前の最高記録を20%以上超え、パラメータが1000倍多い最高の要約システムに達成します。両方の論文はACL2023で発表されます。 チャートディレンダリング プロットやチャートは、基礎となるデータテーブルとコードによって通常生成されます。コードは、図の全体的なレイアウト(タイプ、方向、色/形状スキームなど)を定義し、基礎となるデータテーブルは実際の数字とそのグループ化を確立します。データとコードの両方がコンパイラ/レンダリングエンジンに送信され、最終的な画像が作成されます。チャートを理解するには、イメージ内の視覚パターンを発見し、効果的に解析してグループ化し、主要な情報を抽出する必要があります。プロットレンダリングプロセスを逆転するには、すべてのこのような機能が必要であり、したがって理想的な事前トレーニングタスクとして機能することができます。 ランダムなプロットオプションを使用して、Airbus A380 Wikipediaページの表から作成されたチャートです。MatChaの事前トレーニングタスクは、イメージからソーステーブルまたはソースコードを回復することです。 チャート、その基礎となるデータテーブル、およびそのレンダリングコードを同時に取得することは、実践的には困難です。事前トレーニングデータを十分に収集するために、[chart、code]および[chart、table]のペアを独立して蓄積します。[chart、code]の場合、適切なライセンスを持つすべてのGitHub IPythonノートブックをクロールし、図を含むブロックを抽出します。図とそれに直前にあるコードブロックは、[chart、code]ペアとして保存されます。[chart、table]のペアについては、2つのソースを調査しました。最初のソースは、合成データで、TaPasコードベースからWebクロールされたWikipediaテーブルを手動でコードに変換します。列のタイプに応じて、いくつかのプロットオプションをサンプリングして組み合わせます。さらに、事前トレーニングコーパスを多様化するために、PlotQAで生成された[chart、table]ペアも追加します。2番目のソースはWebクロールされた[chart、table]ペアです。Statista、Pew、Our World in Data、OECDの4つのWebサイトから合計約20,000ペアを含むChartQAトレーニングセットでクロールされた[chart、table]ペアを直接使用します。 数学的推論 MatChaに数値推論知識を組み込むために、テキスト数学データセットから数学的推論スキルを学習します。事前トレーニングには、MATHとDROPの2つの既存のテキスト数学推論データセットを使用します。MATHは合成的に作成され、各モジュール(タイプ)の質問ごとに200万のトレーニング例を含んでいます。DROPは読解型のQAデータセットで、入力はパラグラフのコンテキストと質問です。 DROPでの質問を解決するには、モデルがパラグラフを読み、関連する数字を抽出し、数値計算を実行する必要があります。私たちは、両方のデータセットが補完的であることを発見しました。MATHには、異なるカテゴリーにわたる多数の質問が含まれており、モデルに明示的に注入する必要がある数学的操作を特定するのに役立ちます。DROPの読解形式は、モデルが情報抽出と推論を同時に実行する典型的なQA形式に似ています。実際には、両方のデータセットの入力を画像にレンダリングします。モデルは答えをデコードするように訓練されます。 MATHとDROPからの例をMatChaの事前トレーニング目的に取り込むことにより、MatChaの数学的推論スキルを向上させます。入力テキストを画像としてレンダリングします。 エンドツーエンドの結果 Webサイト理解に特化した画像からテキストへの変換トランスフォーマーであるPix2Structモデルバックボーンを使用し、上記の2つのタスクで事前トレーニングを行います。MatChaの強みを示すために、表の基礎にアクセスできない質問応答や要約のためのチャートやプロットを含むいくつかの視覚言語タスクで微調整します。MatChaは、以前のモデルの性能を大幅に上回り、基礎となるテーブルにアクセスできると仮定する以前の最先端も上回ります。 以下の図では、チャートと作業するための標準的なアプローチであったOCRパイプラインから情報を取り込んだ2つのベースラインモデルを最初に評価します。最初のものはT5に基づき、2番目のものはVisionTaPasに基づきます。また、PaLI-17BとPix2Structのモデル結果を報告します。PaLI-17Bは、多様なタスクでトレーニングされた大型(他のモデルの約1000倍)のイメージプラステキスト・トゥ・テキスト・トランスフォーマーですが、テキストやその他の視覚言語の読み取り能力に限界があります。最後に、Pix2StructとMatChaのモデル結果を報告します。…

人間の注意力を予測するモデルを通じて、心地よいユーザーエクスペリエンスを実現する

Google Researchのシニアリサーチサイエンティスト、Junfeng He氏とスタッフリサーチサイエンティスト、Kai Kohlhoff氏による記事です。 人間は、驚くほど多くの情報を取り入れる能力を持っています(網膜に入る情報は秒間約10 10ビット)。そして、タスクに関連し、興味深い領域に選択的に注目し、さらに処理する能力を持っています(例:記憶、理解、行動)。人間の注意(その結果として得られるものはしばしば注目モデルと呼ばれます)をモデル化することは、神経科学、心理学、人間コンピュータインタラクション(HCI)、コンピュータビジョンの分野で興味を持たれてきました。どの領域でも、どの領域でも、注目が集まる可能性が高い領域を予測する能力には、グラフィックス、写真、画像圧縮および処理、視覚品質の測定など、多数の重要な応用があります。 以前、機械学習とスマートフォンベースの注視推定を使用して、以前は1台あたり3万ドルにも及ぶ専門的なハードウェアが必要だった視線移動の研究を加速する可能性について説明しました。関連する研究には、「Look to Speak」というアクセシビリティニーズ(ALSのある人など)を持つユーザーが目でコミュニケーションするのを支援するものと、「Differentially private heatmaps」という、ユーザーのプライバシーを保護しながら注目のようなヒートマップを計算する技術が最近発表されました。 このブログでは、私たちはCVPR 2022からの1つの論文と、CVPR 2023での採用が決定したもう1つの論文、「Deep Saliency Prior for Reducing Visual Distraction」と「Learning from Unique Perspectives: User-aware…

魚の養殖スタートアップ、AIを投入して水産養殖をより効率的かつ持続可能にする

海洋生物学の学生だったJosef Melchnerは、イルカ、クジラ、魚を探すために毎日海をクルーズすることを常に夢見ていましたが、「実際的で、世界に利益をもたらすことができるものがしたかった」と述べています。キャリアを選ぶ時、彼は水産養殖に飛び込みました。 彼は現在、AIと機械学習を利用して魚の養殖をより効率的で持続可能なものにするイスラエルのGoSmartのCEOです。 NVIDIA MetropolisビジョンAIパートナーエコシステムと、最先端のスタートアップ向けのNVIDIA InceptionプログラムのメンバーであるGoSmartは、完全に自律的で省エネのシステムを提供しています。これらは、水産養殖のカゴ、池、またはタンクに取り付けることができる、ソーダボトル程度の大きさです。 エッジAIのためのNVIDIA Jetsonプラットフォームによって動力を供給され、これらのシステムは、環境内の魚の平均体重と人口分布、および温度と酸素レベルを分析します。 この情報は、GoSmartのソフトウェア・サービスを通じてユーザーに提供され、リアルタイムで魚の餌の量と収穫の最適なタイミングをより正確かつ効率的に決定するのに役立ちます。 「GoSmartシステムが分析するパラメータは、魚の餌の量の管理に不可欠です。適切な魚の餌の量の管理により、農家は多額のお金を節約し、水中の余分なデブリから有機物を減らすことができます。」とMelchner氏は述べています。 GoSmartシステムは、世界最大の魚の餌生産業者であるSkrettingによって採用され、南ヨーロッパの8か国で生産パイプラインを持続可能に拡大し、農家にパーソナライズされたデジタル化された情報を提供する取り組みの一環として使用されています。 持続可能なための精密農業 2020年に設立されたGoSmartは、環境保護に焦点を当てているため、魚の養殖に焦点を当てています。 「世界はタンパク質不足に直面していますが、海産タンパク質はしばしば漁船が漁網や長い針で獲得する方法で取得されます。一方、牛、豚、鶏などの代替タンパク質はほぼ常に養殖されますが、海産物の半分はまだ野生から取得されています。」とMelchner氏は述べています。 このような過剰漁獲は惑星に悪影響を及ぼします。 「これは私たち全員に影響を与える可能性のある重要な問題です。藻類は世界で最も大きな炭素の貯蔵庫の一つです。大気から炭素を消費し、酸素を放出しますが、過剰な漁獲は海洋の藻類のレベルに影響を与えます。」とMelchner氏は述べています。 これを理解することがMelchner氏を水産養殖に人生をささげるように導いたと彼は言います。 GoSmartシステムは、太陽光パネルで充電されたリチウムイオンバッテリーを使用し、自己の電源管理ソフトウェアが搭載されているため、自律的にスリープモードに入り、シャットダウン、起動し、必要に応じて作業を行うことができます。 AIによる農業の効率向上 GoSmartシステムは、AIをエッジで実行するために必要なセンサ、カメラ、およびNVIDIA Jetsonモジュールで構築されています。これにより、魚の餌や成長、健康、福祉に影響を与える環境要因、および効率的または正確でない操作による水中の過剰な有機物の環境汚染を分析することができます。 「私たちは、エッジAIで最高のパフォーマンスを発揮するAI用の最高のプロセッサを、水産養殖業者に手頃な価格で提供できるシステムであるコンパクトで水中に潜水可能なシステムに使用することを望んでいました。それがJetsonシリーズを選んだ理由です。」とMelchner氏は述べています。 GoSmartは現在、魚の行動や病気の指標を分析するシステムをトレーニングしています。Jetsonは複数のAIアルゴリズムを並列に実行できるため、これらの特性を同時にリアルタイムで分析できます。 同社は、高性能なディープラーニング推論には、NVIDIA…

NVIDIAとHexagonが、産業のデジタル化を加速するためのソリューションスイートを提供します

産業企業がデジタル化の次のレベルに到達するためには、物理システムの正確なバーチャルな表現を作成する必要があります。 NVIDIAは、ストックホルムに拠点を置くデジタルリアリティソリューションのグローバルリーダーであるHexagonと協力し、AI対応のデジタルツインを構築するために必要なツールとソリューションを企業に提供しています。これにより、物理的に正確で完全に同期されたデジタルツインを作成し、組織を変革することができます。 Hexagonは、HxDRリアリティキャプチャとNexus製造プラットフォームからNVIDIA Omniverseに統合を構築しています。Omniverseは、Universal Scene Description(「OpenUSD」)プラグインを介して産業メタバースアプリケーションを開発および運用するためのオープンプラットフォームです。NVIDIA AIテクノロジーによって駆動される接続されたプラットフォームは、農業、自律移動、建物、都市、防衛、インフラ、製造、鉱業を含むHexagonの主要なエコシステム全体に利益をもたらします。 これらのソリューションにより、統一されたビューを通じてシームレスなコラボレーションプランニングが実現し、産業顧客はワークフローを最適化し、スケールを拡大することができます。プロフェッショナルや開発者は、リアリティキャプチャ、デジタルツイン、AI、シミュレーション、可視化の高度な機能を利用して、仮想プロトタイピングからデジタル工場まで最も複雑なグラフィックスワークフローを強化することができます。 物理世界とデジタル世界を融合した現実 製造業は、新製品を設計・開発する数百万の工場を世界中に有している46兆ドルの産業です。デジタル化により、製造業者はより効率的かつ生産的な方法で最も複雑なエンジニアリング問題に取り組むことができます。また、産業企業はワークフローを自動化し、ソフトウェアによってサービスを変革することで、オペレーショナル効率を向上させ、ソフトウェア定義化に近づくことができます。 HxGN LIVE Globalイベントでは、HexagonとNVIDIAが統合提供を通じてデジタル化の旅を加速する方法を紹介しました。下のデモを見て、設計者、エンジニア、その他の人々がOmniverseプラットフォームを使用して、HexagonのHxDRおよびNexusプラットフォームから超複雑なデータを迅速に集約およびシミュレーションする方法をご覧ください。 Hexagonは、OmniverseをベースにしたAI対応のWebアプリケーションを開発しており、デジタルツインと物理世界のリアルタイム比較ができるようになります。これにより、意思決定を加速し、計画とオペレーションを最適化することができます。このソリューションにより、エンタープライズは、チーム全体で迅速な反復を実現し、より協力的なワークフローを実現することができます。 この発表により、Omniverseエコシステムは、Hexagonのジオスペーシャルリアリティキャプチャ、センサー、ソフトウェア、自律技術の専門知識を活用することができ、企業はこれまで以上に迅速かつ正確に仮想世界を構築、シミュレーション、運用、最適化することができます。 NVIDIA Omniverseについて詳しくはこちらをご覧ください。Hexagonの最新発表を読んで、HxGN LIVE Global 2023での最新のデモや展示を見てください。

進め、GOを通過し、もっと多くのゲームを収集:Xbox Game PassがGeForce NOWにやってくる

Xbox Game PassのサポートがGeForce NOWにやってきます。 メンバーは間もなく、NVIDIAのクラウドゲームサーバーを通じてXbox Game PassカタログからサポートされたPCゲームをプレイできるようになります。Game PassおよびMicrosoft Storeのサポートが今後数ヶ月で展開される方法について詳しくはこちら。 さらに、Age of Empires IV:Anniversary Editionは、世界で最も人気のあるリアルタイムストラテジーフランチャイズの最初のタイトルとしてGeForce NOWに登場します。 Game Pass-tic Partnership 先週末発表されたところによると、Game Passメンバーは間もなく、GeForce NOWでGame PassカタログのサポートされたPCゲームをプレイできるようになります。 来る数ヶ月で、@XboxGamePassPCのゲームをNVIDIA GeForce…

Rによるディープラーニング

このチュートリアルでは、Rで深層学習タスクを実行する方法を学びます

データサイエンスチームの協力のための5つのベストプラクティス

データサイエンスチームがより効果的に協力し、プロジェクトが実際のビジネス価値を提供するようにするための5つの方法

機械学習モデルのための高度な特徴選択技術

特徴選択のマスタリング:教師あり・教師なし機械学習モデルの高度な技術の探求

GPT4Allは、あなたのドキュメント用のローカルChatGPTであり、無料です!

あなたのラップトップにGPT4Allをインストールし、AIにあなた自身のドメイン知識(あなたのドキュメント)について尋ねる方法... そして、それはCPUのみで動作します!

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us