Learn more about Search Results A - Page 588

「LLMの幻覚の理解と軽減」

最近、大型言語モデル(LLM)は、ユーザーのプロンプトに対して非常に流暢で説得力のある応答を生成するなど、印象的かつ増大する能力を示していますただし、LLMは...

PyTorchEdgeはExecuTorchを発表しました:モバイルおよびエッジデバイス向けのオンデバイスでの推論をエンパワーメント

画期的な取り組みとして、PyTorch Edgeは新しいコンポーネント、ExecuTorchを導入しました。これはモバイルおよびエッジデバイスのオンデバイス推論能力を革新する革新的なソリューションであり、Arm、Apple、およびQualcomm Innovation Centerを含む業界の重鎮からの支持を集め、ExecuTorchはオンデバイスAIの分野で先駆的な力となっています。 ExecuTorchはオンデバイスAIエコシステム内の断片化に対処するための重要な一歩です。緻密に設計されたデザインは、シームレスなサードパーティ統合のための拡張ポイントを提供し、この革新により、機械学習(ML)モデルの専門ハードウェア上での実行を加速します。著名なパートナーは、それぞれのハードウェアプラットフォームでモデルの推論実行を最適化するために独自のデリゲート実装を提供しており、ExecuTorchの効果をさらに高めています。 ExecuTorchの作者は以下を用意しています: 詳細なドキュメント。 アーキテクチャの詳細な洞察。 ハイレベルコンポーネント。 プラットフォーム上で実行される模範的なMLモデル。 さらに、包括的なエンドツーエンドのチュートリアルが利用でき、さまざまなハードウェアデバイス上でモデルのエクスポートと実行のプロセスをユーザーがガイドします。 PyTorch Edgeコミュニティは、独創的なExecuTorchの応用が確実に現れることを熱望しています。 ExecuTorchのコアは、軽量なオペレータレジストリを特徴とするコンパクトなランタイムで構成されています。このランタイムは、モバイル電話から組み込みハードウェアまでのさまざまなエッジデバイス上でPyTorchプログラムを実行するための効率的なパスを提供します。 ExecuTorchには、ML開発者向けのソフトウェア開発キット(SDK)とツールチェーンが付属しており、ML開発者にとって直感的なユーザーエクスペリエンスを提供します。このシームレスなワークフローにより、開発者はモデルの作成からトレーニング、そしてデバイスデリゲーションまで、一つのPyTorch環境内でシームレスに移行することができます。ツールスイートはまた、オンデバイスモデルのプロファイリングを可能にし、元のPyTorchモデルのデバッグ方法を改善します。 ExecuTorchは、組み合わせ可能なアーキテクチャから構築されており、ML開発者は利用するコンポーネントに関する確信を持つための情報を提供し、必要に応じて拡張のためのエントリーポイントを提供します。この設計は、ポータビリティの向上、生産性の向上、優れたパフォーマンスなど、MLコミュニティにいくつかの利益をもたらします。このプラットフォームは、ハイエンドのモバイル電話からリソース制約のある組み込みシステムやマイクロコントローラまで、さまざまなコンピューティングプラットフォームで互換性があります。 PyTorch Edgeは、研究とプロダクション環境のギャップを埋めることを目指しています。PyTorchの能力を活用することで、MLエンジニアはサーバ、モバイルデバイス、組み込みハードウェアなどのダイナミックかつ進化する環境にわたってモデルを作成および展開することが可能となります。この包括的なアプローチは、拡張現実(AR)、仮想現実(VR)、ミックスドリアリティ(MR)、モバイル、IoTなどのドメインでのオンデバイスソリューションへの需要の増加に対応しています。 PyTorch Edgeは、多様なエッジデバイスに対応する能力を備えた多様なMLモデルのデプロイメントを可能にする繁栄するエコシステムの道を切り開きます。プラットフォームのコアコンポーネントは、様々なハードウェア構成とパフォーマンス能力を持つデバイス間での互換性を確保しています。PyTorch Edgeは、明確なエントリーポイントと表現を開発者に提供することで、オンデバイスAIの領域での成長するエコシステムへの道を切り開きます。 結論として、ExecuTorchはPyTorch EdgeがオンデバイスAIの推進に取り組んでいることを物語っています。業界のリーダーの支援と先見の明あるアプローチを持つこのプラットフォームは、モバイルおよびエッジデバイスのオンデバイス推論能力の新たな時代を告げ、AIの分野での革新的なブレイクスルーを約束します。

『BOSSと出会ってください:新しい環境で新しい課題を解決するためにエージェントをトレーニングする強化学習(RL)フレームワーク、LLMガイダンス』

BOSS(Bootstrapping your own SkillS)をご紹介します。これは、大規模な言語モデルを活用して多様なスキルライブラリを自律的に構築し、複雑なタスクを最小限のガイダンスで解決する画期的な手法です。従来の非教示スキル習得技術や単純なブートストラップ手法と比較して、BOSSは未知の環境での見慣れないタスクの実行において優れた性能を発揮します。このイノベーションは自律的なスキル習得と応用における重要な進歩を示しています。 強化学習は、マルコフ決定過程において期待値の最大化を目指すためのポリシーの最適化を目指します。従来の研究では複雑なタスクのために事前学習された再利用可能なスキルが強化学習でパラメータ化されました。非教示強化学習は、好奇心、制御可能性、多様性を重視し、人間の介入なしにスキルを学習しました。言語はスキルのパラメータ化とオープンループの計画に使用されました。BOSSは大規模な言語モデルと共にスキルレパートリーを拡張し、探索をガイドし、スキルチェーンの完遂を報酬として与えることにより、長期的なタスクの実行においてより高い成功率を実現します。 従来のロボット学習は、監督が非常に重要ですが、人間は独自に複雑なタスクを学習することに優れています。研究者はBOSSをフレームワークとして導入し、最小限の人間介入で多様な長期的なスキルを自律的に習得するために使用しました。スキルのブートストラップによってガイドされ、大規模な言語モデル(LLM)の支援を受けて、BOSSは複雑なタスクを処理するためのスキルを進行的に構築し組み合わせます。非教示的な環境の相互作用により、新しい環境での困難なタスクの解決におけるポリシーの堅牢性が向上します。 BOSSは2つのフェーズからなるフレームワークを導入しています。第1フェーズでは、非教示強化学習の目標を使用して基礎的なスキルセットを習得します。第2フェーズでは、スキルチェーンのガイドとスキルの完了に基づく報酬によってスキルのブートストラップが行われます。このアプローチにより、エージェントは基本的なスキルから複雑な行動を構築することができます。家庭環境での実験では、LLMによるガイド付きブートストラッピングが、単純なブートストラッピングや従来の非教示的な方法よりも、新しい設定での見慣れない長期的なタスクの実行において優れた性能を発揮することが示されています。 実験の結果は、LLMによるガイド付きのBOSSは、新しい設定での拡張された家庭のタスクの解決において優れた性能を発揮し、従来のLLMベースの計画と非教示的な探索方法を上回ります。結果は、ALFRED評価におけるタスクの長さの異なるオラクル正規化されたリターンとオラクル正規化された成功率の四分位平均と標準偏差を示しています。LLMによるガイド付きのBOSSによるブートストラップトレーニングされたエージェントは、単純なブートストラッピングや以前の非教示的な方法を上回ります。BOSSは、基本的なスキルから多様な複雑な行動を自律的に習得することができ、エキスパートでないロボットのスキル習得の可能性を示しています。 LLMによってガイドされたBOSSフレームワークは、エキスパートのガイダンスなしで複雑なタスクを自律的に解決することに優れています。新しい環境で見慣れない機能を実行する際には、LLMによるガイド付きのブートストラッピングトレーニングされたエージェントが、単純なブートストラッピングや以前の非教示的な方法を上回ります。現実的な家庭での実験により、BOSSは基本的なスキルから多様な複雑な行動を習得する能力を示し、自律型ロボットスキル習得の可能性を強調しています。BOSSはまた、強化学習と自然言語理解を結びつける新たな可能性を示しており、ガイド付き学習のために事前学習された言語モデルを利用しています。 今後の研究の方向性には以下のものが含まれます: 自律スキル学習のためのリセットフリー強化学習の調査。 BOSSのスキルチェーンアプローチによる長期的なタスクの分解の提案。 低レベルなスキル習得のための非教示強化学習の拡張。 強化学習と自然言語理解の統合をBOSSフレームワークでさらに強化することも有望なアプローチです。BOSSをさまざまなドメインに適用し、さまざまな環境やタスクコンテキストでのパフォーマンスを評価することにより、さらなる探求の可能性を提供します。

「ニューラルネットワークにおける記憶の解読イメージ分類のベンチマークにおけるモデルサイズ、記憶、および一般化への深い探求」

統計を学ぶためには、訓練データの暗記とテストサンプルへの転送をバランスさせる必要があります。しかし、過パラメータ化されたニューラルモデルの成功は、この理論に疑問を投げかけます。これらのモデルは暗記することができ、それでも一般化がうまく行くことができます。たとえば、ランダムなラベルを正しく一致させる能力がそれを示しています。このようなモデルは、分類の完全な正確さを達成するために、つまり訓練セットを補完するために一般的に使用されます。これは、これらのモデルの一般化可能性を調査するための多数の研究を引き起こしました。 フェルドマンは最近、一定の文脈で一般化には暗記が必要かもしれないことを示しました。ここでは、「暗記」とは、理論的な基盤を持つ安定性に基づく用語で定義されます。高い暗記事例とは、モデルが訓練セットに含まれていないと正しく分類できない事例のことです。実際のニューラルネットワークでは、この用語によって訓練サンプルの暗記度を推定することができます。フェルドマンとチャンは、業界標準の基準を使用して画像を分類するためにResNetの暗記プロファイルを調査しました。 これは実際のモデルが何を覚えているかについて興味深い初期の調査ですが、根本的な問題が残っています。より大きなニューラルモデルはより多くのことを覚えますか?ニューヨークに拠点を置くGoogleの研究者たちは、このテーマについて経験的に答えを出し、画像分類の標準を完全に調査しています。彼らは、モデルサイズによって異なる暗記の軌跡を示すトレーニングサンプルの驚くべき多様性を発見しました。一部のサンプルはキャップ状の暗記を示し、他のサンプルはより大きなモデルでは暗記が減少することが明らかになっています。 さまざまなサイズの高品質なモデルを生成するために、実務家は知識の蒸留という体系的なプロセスを使用しています。具体的には、高性能な大規模(先生)モデルからガイダンスを受けて高品質な小さな(生徒)モデルを作成します。 フェルドマンの暗記の概念は、モデルサイズの範囲にわたって暗記と一般化の関係を理論的に調査するために使用されています。制御実験の結果に基づいて、彼らの貢献は次のとおりです: 画像分類子のモデルの複雑さ(ResNetの深さや幅など)と暗記の関係について、定量的な調査結果を提示します。主な結果は、モデルの複雑さが増すにつれて、暗記の分布がますますバイモーダルになることを示しています。また、他の計算上実行可能な暗記評価方法や、たとえば難易度評価方法などがこの重要な傾向を捉えられないことにも言及しています。 モデルサイズによって異なる暗記スコアの軌跡を示す例を提供し、さらなるバイモーダル暗記の傾向を調査するために、4つの最も頻繁な軌跡タイプを特定します。特に、あいまいで間違ったラベル付けされた事例がこのパターンに従うことが分かりました。 1つのホット(つまり非蒸留)生徒が暗記するサンプルに関して、研究者たちは暗記が蒸留によって妨げられる傾向を数量的な研究結果として示しています。興味深いことに、モデルサイズが増加すると暗記が改善する場合には、蒸留が主に一般化を助けることが分かります。この結果から、蒸留は難しい例の多くを暗記する必要を減らすことによって一般化を改善していると結論付けることができます。 研究者たちは、モデル複雑さ(画像分類に使用するResNetの深さと幅)と暗記の関係を定量的に分析し始めます。彼らは、2つのよく知られたデータセット(CIFAR-100とImageNet)でのResNetの深さと暗記スコアとの関係をグラフィカルに示しています。その調査結果は、彼らの初期の信念とは異なり、深さが20に達した後に暗記スコアが減少することを明らかにしました。 研究者たちは、モデル複雑さが増すにつれて、さまざまな例にわたって暗記のバイモーダル分布が増えることを結論付けています。また、暗記と例の難易度を評価する現在の計算上実行可能な手法に問題があることを示し、これらの方法がこの重要なパターンを捉えられないことを指摘しています。 研究グループは、さまざまなモデルサイズにわたる異なる暗記スコアの軌跡を持つ例を示し、バイモーダル暗記パターンをさらに掘り下げました。暗記がモデルの複雑さとともに改善するというパターンに従う不明瞭なケースと、間違ったラベルが付けられたケースが特に見つかりました。 研究は、知識を大きなインストラクターモデルからより小さな生徒モデルに転送する蒸留プロセスが暗記の減少と関連していることを数量的な分析で結論付けます。暗記されたサンプルによって暗記された一ホットの非蒸留生徒モデルの場合、このブロックは特に目立ちます。蒸留は、モデルサイズが増加するにつれて暗記が増加する場合に特に一般化を促進することを示しています。これらの証拠に基づいて、蒸留は難しい例を多く暗記する必要を減らすことによって一般化を改善すると結論付けることができます。 結論: Googleの研究者による発見は、実用的な意味合いや将来の研究方向に大きな影響を与えるものです。まず第一に、プロキシだけを使用して特定のデータを記憶する際には注意が必要です。従来の出版物では、モデルトレーニングやモデル推論を基準としたさまざまなメトリックが、記憶スコアと効果的な代理指標として提案されています。これらの代理指標は、記憶スコアとの高い一致率を示します。しかし、研究者はこれらの代理指標が分布に大きく異なり、現実のモデルの記憶行動の重要な特徴を表現できないことを発見しました。これは、効果的に計算可能な記憶スコアの代理指標を見つけるための道筋を示唆しています。以前は、例の複雑さはあらかじめ決定されたモデルサイズに分類されていました。調査結果は、例を特徴づける際にいくつかのモデルサイズを考慮することの価値を示しています。例えば、Feldmanはデータセットのロングテール例を、あるアーキテクチャに対する最高の記憶スコアを持つものと定義しています。その結果、一つのモデルサイズで記憶された情報が別のモデルサイズに当てはまらないことが示されています。

「未来のコンピュータから秘密を守る競争」

中国、ロシア、そしてアメリカは、将来の量子コンピューターによる長年支持されてきた暗号化プロトコルの解読を防止する方法を探るために競争しています

ストリートビューが救いの手を差し伸べる:ディープラーニングが安全な建物への道を開拓

Googleストリートビューなどで使用される画像は、フロリダ大学の人工知能助教授Chaofeng Wang氏の手によって新たな目的を持つようになっています。 彼は深層学習とともにこれらの画像を使用し、都市建物の評価を自動化する研究プロジェクトに取り組んでいます。このプロジェクトは、政府が自然災害の被害を軽減するために必要な情報を提供し、建物の構造を強化したり、災後の復旧を行ったりする意思決定者に必要な情報を提供することを目的としています。 地震などの自然災害が発生した後、地方自治体は建物の状態をチェックして評価するためのチームを派遣します。手作業の場合、都市の全ての建物をチェックするには数ヶ月かかることもあります。 Wang氏のプロジェクトでは、AIを使用して評価プロセスを加速させることを目指しており、所要時間を数時間に短縮します。AIモデルは、Googleストリートビューや地方自治体から得られた画像を使用して、壁材料、構造タイプ、建物の年代などの要素に基づいて建物にスコアを割り当てるために、連邦緊急事態管理局(FEMA)のP-154基準を活用してトレーニングされます。Wang氏はまた、画像を収集し注釈付けを行うために、世界銀行のグローバル・プログラム・フォー・レジリエント・ハウジングと協力しました。 収集された画像はデータリポジトリに配置されます。AIモデルはリポジトリを読み取り、画像に対して推論を行います。このプロセスは、NVIDIA DGX A100システムによって高速化されます。 「NVIDIAのGPUがなければ、私たちはこれを実現することはできませんでした。GPUはプロセスを大幅に加速し、タイムリーな結果を保証します」とWang氏は述べています。 Wang氏は、University of FloridaのスパコンであるHiPerGatorでDGX A100ノードを使用しました。HiPerGatorは、産業界や政府機関によって採用されたNVIDIA-acceleratedアプリケーションの展開を通じて実世界に影響を与える可能性のある研究プロジェクトを支援しているNVIDIAの創設者であり、UFの卒業生であるChris Malachowsky氏の支援、NVIDIAのハードウェア、ソフトウェア、トレーニング、サービスを活用して700ペタフロップのAIパフォーマンスを提供します。 AIモデルの出力はデータベースにまとめられ、マップベースの形式で安全評価スコア、建物の種類、屋根や壁材料などの情報を表示するWebポータルに供給されます。 Wang氏の研究は、商業および政府機関によって採用されたNVIDIA-acceleratedアプリケーションの展開を通じて実世界に影響を与える可能性のある研究プロジェクトを支援するNVIDIA Applied Research Accelerator Programの資金提供を受けました。 助ける目 Wang氏は、このポータルは使用ケースによって異なるニーズを満たすことができると述べています。自然災害に備えるために、政府はストリートビューの画像だけから予測を行うことができます。 「それらは静止画像です。例えば、Googleストリートビューの画像がありますが、数年ごとに更新されます」と彼は言います。「しかし、情報を収集し、特定の統計について一般的な理解を得るには十分です」 しかし、ストリートビューの画像が利用できないか、頻繁に更新されない農村地域や開発途上地域では、政府が自ら画像を収集することができます。NVIDIAのGPUのパワーにより、建物の評価結果のタイムリーな提供は分析を加速させるのに役立ちます。…

「ロボット義足の足首は、自然な運動と安定性を向上させる」

「研究者たちは、神経インパルス駆動型のロボット義足が切断者により自然で安定した動きを可能にすることを示しました」

「LLMsでテキストデータの力を解き放つ」

「顧客レビュー、社員調査、そしてソーシャルメディアの投稿は、特定の製品やサービスに対する人々の態度を明らかにする上で非常に効果的ですしかし、ほとんどのデータアナリストはほとんど何も行いません...」 (Kokyaku rebyū, shain chōsa, sosharu media no tōkō wa, tokutei no seihin ya sābisu ni taisuru hitobito no taido o akiraka ni suru…

脳波キャップが脳卒中を特定することで命を救う

オランダの研究者によって設計されたStrokePointerブレインウェーブキャップは、患者が救急車にいる間に大血管閉塞(LVO)脳梗塞を診断することができます

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us