Search Results ML

「GAN（生成敵対ネットワーク）はおそらくご存知ですが、それを訓練する方法を知っていますか？」

「GAN（敵対的生成ネットワーク）は画像生成に革命をもたらしましたが、それらをトレーニングすることは難しい場合もありますこのガイドでは、判別器モデルと生成器モデルのトレーニング方法から始まり、GANのトレーニングをステップバイステップで説明します...」

「ONNX Runtimeを使用して130,000以上のHugging Faceモデルを高速化する」

ONNX Runtimeとは? ONNXランタイムは、ONNXをサポートするモデルを特に高速化するために使用できる、クロスプラットフォームの機械学習ツールです。 Hugging Face ONNX Runtimeサポート Hugging Faceは、オープンソースのコミュニティであり、ユーザーが数千の公開可能な機械学習モデルを構築、訓練、展開できるようにする場所です。Hugging Face上には、13万以上のONNXサポートモデルがあります。これらのONNXサポートモデルには、ますます人気のある大規模言語モデル（LLM）やクラウドモデルも含まれます。これらのモデルは、ONNXランタイムを活用してパフォーマンスを向上させることができます。例えば、whisper-tinyモデルを加速するためにONNXランタイムを使用すると、PyTorchに比べて推論ごとの平均レイテンシーが最大74.30%向上します。ONNXランタイムは、Hugging Faceと緊密に連携しており、サイト上で最も人気のあるモデルをサポートするようになっています。総計で、ONNXランタイムによって90以上のHugging Faceモデルアーキテクチャがサポートされており、その中には11の最も人気のあるアーキテクチャも含まれています（人気度は、対応するモデルがHugging Face Hubにアップロードされた回数によって決まります）。さらに詳しく Hugging FaceモデルをONNXランタイムで高速化する方法について詳しく知りたい場合は、Microsoftオープンソースブログで最近の記事をご覧ください。

「AWS Step Functionsで機械学習パイプラインをオーケストレーションする」

この記事では、AWS Step Functionsを使用して機械学習パイプラインを作成し、オーケストレーションする方法、およびインフラストラクチャとしてコードを使用してそれらを展開する方法について説明していますこの記事は、データとML Opsエンジニアを対象としています

In this translation, Notes is translated to メモ (memo), CLIP remains as CLIP, Connecting is translated to 連結 (renketsu), Text is translated to テキスト (tekisuto), and Images is translated to 画像 (gazo).

上記論文の著者たちは、最小限またはほとんど監督を必要とせずに、さまざまなタスクに使用できる画像の良い表現（特徴）を生成することを目指しています画像によって生成された使い勝手の良い特徴...

「ゲームを一段と盛り上げる：スタートアップのスポーツビジョンAIが世界中にアスレチックを放送」

Pixellotは、ビジョンAIによって得点を稼いでおり、各国の視聴者にリアルタイムのスポーツ放送と分析を提供する組織にとって容易になりました。テルアビブ近郊に拠点を置くNVIDIA MetropolisビジョンAIパートナーエコシステムのメンバーであるこの会社は、スポーツイベントのキャプチャ、ストリーミング、分析を自動化するAIパワードプラットフォームを提供しています。それは、バスケットボールやサッカーだけでなく、ラグビーやハンドボールなど、約20種類のさまざまなスポーツのファン、コーチ、プレイヤーにゲームを提供し、その分析を70以上の国の30,000以上の会場から提供しています。米国では、Pixellotはストリーミングおよびオンデマンドのハイスクールスポーツを提供するリーダーであるNFHSネットワークとのパートナーシップを通じて、毎年100万試合以上の放送を実施しています。 NFHSネットワーク、MLBなどの放送パートナーを通じて、Pixellotはジャージー番号ごとのショットチャートやヒートマップを使ったプロの分析、試合後の詳細な分析、ハイライトを提供します。これにより、学校やプロのアスリートがムーブを研究し、ゲームのレベルアップを図るために特に役立ちます。また、ユーザーにはビューフレームの操作や独自のハイライトの作成など、インタラクティブな体験も可能です。最近、南アフリカのケープタウンに拠点を置くSuperSport Schoolsは、Pixellotプラットフォームを活用して、全国に学生のスポーツを放送するアプリを展開しました。南アフリカでは、1,500以上の高校がスポーツ活動に参加しています。「私たちの目標は、AIと自動化の助けを借りて、スポーツの報道を民主化することです」とPixellotのマーケティングを担当しているYossi Tarablusは語ります。Pixellotは、新進気鋭のスタートアップの一員であるNVIDIA Inceptionプログラムのメンバーです。「エッジAIのためのNVIDIA Jetsonプラットフォームを使用することで、Pixellotは強力なテクノロジーを提供し、世界最遠隔地にもスポーツの放送と分析をもたらします。」 Pixellotの動作原理 Tarablusによれば、ピーク時のスポーツシーズンには、月間約20万試合がPixellotプラットフォームを通じて全世界で放送されています。 NVIDIA Jetsonによってパワードされた軽量のPixellotカメラは、ゲームや試合、さらに練習の高品質なビデオをキャプチャし、リアルタイムで高精細な映像をオーバーレイされたスコアボード、ライブスタッツ、解説などを通じてアプリを介してユーザーにライブストリーミングします。このプラットフォームは、カメラオペレータをシミュレートする自動ビューフレームを作成し、NVIDIA RTXのレイトレーシング技術を使用して映像を最適化し、シーンの照明を補正します。さらに、このプラットフォームは、スポーツの収益化と視聴者へのアクセス性向上を支援し、オーバー・ザ・トップ（OTT）ストリーミングを可能にします。OTTストリーミングとは、従来のケーブルや衛星テレビプロバイダーを必要とせず、インターネットを介して直接ストリーミングを行うものです。すべてのカメラセットアップにおいて、このMetropolisメンバーは、AIパワードのビデオストリーミング分析のためのNVIDIA DeepStreamソフトウェア開発キットを実行しています。また、高性能なディープラーニング推論には、NVIDIA TensorRT SDKに頼っています。 Pixellotの共同創設者で最高技術責任者のGal Ozは、「NVIDIA…

AIガバナンス：専門家との深い探求

皆さん、こんにちはルイスですThe What's AI ポッドキャストのもう1つのエキサイティングなエピソードにおいて、私はAuxane Bochさんと素晴らしい対話をする機会をいただきました彼女は倫理学の専門家であり、PhD候補です...

黄さんの法則に留意する：エンジニアたちがどのように速度向上を進めているかを示すビデオ

話の中で、NVIDIAのチーフサイエンティストであるビル・ダリー氏が、モーアの法則時代後のコンピュータパフォーマンスの提供方法における大きな変革を説明しました。オンラインでご覧いただけます。彼は、新しいプロセッサは、新鮮な要素の発明と検証に工夫と努力が必要であり、チップとシステムエンジニアの毎年の集まりであるHot Chipsでの最近の基調講演で述べています。それは、エンジニアが本質的にはますます小型かつ高速なチップの物理に頼る一世代前とは根本的に異なります。 NVIDIA Researchのリーダーであるダリー氏が率いる300人以上のチームは、過去10年間に単一のGPUパフォーマンスでAI推論を1000倍向上させるのに貢献しました（以下のグラフを参照）。その驚異的な増加は、NVIDIAの創設者兼CEOであるジェンセン・ファン氏にちなんでIEEE Spectrumが最初に「ファンの法則」と名付け、後にウォールストリートジャーナルのコラムによって一般化されました。この進歩は、年々桁違いに成長している大規模な言語モデル（生成AIに使用される）の驚異的な上昇に対応したものです。「それは私たちにとってハードウェア業界でのペースメーカーとなっているものです」とダリー氏は述べました。彼の話の中で、ダリー氏は1000倍の利益をもたらした要素について詳細に説明しました。その中で最も大きなものである16倍の利益は、コンピュータが計算を行う際に使用する数値をよりシンプルに表現する方法を見つけることから生まれました。新しい数学最新のNVIDIA Hopperアーキテクチャーは、Transformer Engineを使用し、8ビットおよび16ビットの浮動小数点および整数演算の動的な組み合わせを行います。これは、今日の生成AIモデルのニーズに合わせてカスタマイズされています。ダリー氏は、新しい数学がもたらすパフォーマンスの向上とエネルギーの節約について詳細を示しました。別途、彼のチームは、GPUが自身の作業をどのように組織するかを伝える高度な命令を作成することによって12.5倍の飛躍を達成しました。これらの複雑なコマンドは、より少ないエネルギーでより多くの作業を実行するのに役立ちます。結果として、コンピュータは「専用アクセラレータと同じ効率性を持ちながら、GPUのすべてのプログラム可能性を保持することができる」と彼は述べました。さらに、NVIDIA Ampereアーキテクチャーには、AIモデルの重みを単純化する革新的な方法である構造的疎結合性が追加されました。この技術により、さらに2倍のパフォーマンス向上がもたらされ、将来的な進歩も約束されています。ダリー氏は、システム内のGPU間のNVLink相互接続とシステム間のNVIDIAネットワーキングが、単一のGPUパフォーマンスの1000倍の利益をもたらすことを説明しました。タダ飯はないただし、ダリー氏は、10年間にわたってNVIDIAが28nmから5nmの半導体ノードにGPUを移行したとしても、その技術は総利益のうち2.5倍しか占めていないと指摘しています。これは、コンピュータデザインがモーアの法則の下で一世代前に行われたときの大きな変化です。モーアの法則は、チップがますます小型かつ高速になるにつれ、パフォーマンスが2年ごとに倍増するという観察結果でした。…

「メーカーに会うロボット学生がNVIDIA Jetsonを搭載した自律型車椅子を発表する」

AIの助けを借りて、ロボット、トラクターやベビーカー、さらにはスケートパークさえも自律化しています。Kabilan KBという開発者は、障害を持つ人々の移動性を向上させるため、車椅子に自律航行機能を組み込んでいます。このインドのコーヤンバトールのカルニヤ工科大学の学部生は、エッジAIとロボティクスのためにNVIDIA Jetsonプラットフォームを使用して、自律車椅子プロジェクトを進めています。この自律型電動車椅子には、デプスセンサーやLiDARセンサー、さらにはUSBカメラが接続されており、環境を認識し、ユーザーの目的地への障害物のない経路を計画することができます。 “自動車椅子を使用する人は、移動先の場所を指示することができます。それは自律航法システムにすでにプログラムされているか、割り当てられた数値とともに経路が計画されているかもしれません。たとえば、キッチンに移動したい場合は「1」を押し、寝室に移動したい場合は「2」を押せば、自律型車椅子がそこに連れて行ってくれます。”とKBは述べています。 NVIDIA Jetson Nano Developer Kitは、カメラやセンサーからのデータをリアルタイムで処理します。そして、深層学習ベースのコンピュータビジョンモデルを使用して、環境中の障害物を検出します。この開発キットは自律システムの脳として機能し、周囲の2Dマップを生成し、目的地への衝突のない経路を計画し、途中で安全なナビゲーションを確保するために、電動車椅子に更新された信号を送信します。メーカーについて KBは機械工学の経験を持っており、パンデミック中にAIとロボットに魅了されました。その際、彼は自由な時間を使って教育的なYouTube動画を検索しました。現在、彼はカルニヤ工科大学でロボットとオートメーションの学士号を取得するための勉学に励み、将来的にはロボットのスタートアップを立ち上げたいと考えています。自己教育の支持者と自称するKBは、NVIDIA Deep Learning Instituteから「Jetson Nanoでエッジ上のビデオAIアプリケーションを構築する」や「Omniverseで拡張可能な開発、カスタマイズ、公開をする」など多くの認証を受けています。ロボット技術の基礎を学んだ後、彼はNVIDIA Omniverseでシミュレーションを試み始めました。NVIDIA Omniverseは、OpenUSDフレームワークに基づいて3Dツールやアプリケーションを構築・運用するためのプラットフォームです。 “シミュレーションのためにOmniverseを使用すると、ロボットのプロトタイプモデルの大規模な投資をする必要がありません。代わりに、合成データ生成を使用することができます。それは将来のソフトウェアです。”と彼は話しています。…

驚愕のブレイクスルー：オープンエンドAIエージェントバルジャーが自律的に「マインクラフト」をプレイ

NVIDIAシニアAI科学者ジム・ファンにとって、ビデオゲームのMinecraftはオープンエンドのAIエージェントの研究において「完璧な原始スープ」となりました。最新のAI Podcastエピソードでは、ホストのノア・クラビッツが、大規模な言語モデルを使用してAIエージェントを作成する方法についてファンと対談しました。具体的には、Chat GPT-4を使用して構築されたAIボットであるVoyagerを作成するために使用しています。このVoyagerは、自律的にMinecraftをプレイすることができます。ファンによれば、AIエージェントは「積極的に行動を起こし、その後世界を知覚し、行動の結果を見て、自己を改善する」という特性を持っています。多くの現在のAIエージェントは、ゲームをできるだけ早くクリアするか、質問に答えるという特定の目標を達成するようにプログラムされています。彼らは特定の出力を目指して自律的に作業することができますが、より広範な意思決定の機構を欠いています。ファンは、「任意の自然言語のプロンプトによって、オープンエンドで創造的なことをする真にオープンエンドのエージェント」を持つことは可能かどうか疑問に思いました。しかし、この可能性をテストするための柔軟なプレイグラウンドが必要でした。彼は言います。「だから、私たちはMinecraftがオープンエンドのエージェントが出現するためのほぼ完璧な原始スープであることに気付いたのです。なぜなら、それは環境を非常にうまく設定しているからです」と。結局のところ、Minecraftはプレイヤーに生き残り、自由に探索するという具体的な目標を設定していません。それがファンのプロジェクトであるMineDojoの出発点となり、最終的にAIボットのVoyagerの作成につながりました。ファンは説明します。「Voyagerは、Chat GPT-4のパワーを活用してJavascriptでコードを書き、ゲーム内で実行します。GPT-4は出力を見て、JavaScriptのエラーや環境からのフィードバックがあれば、自己反映を行い、コードをデバッグしようとします」。このボットは失敗から学び、正しく実装されたプログラムをスキルライブラリに保存して将来の利用のために保持し、「生涯学習」を可能にします。ゲーム内では、Voyagerは必要に応じて環境に基づいて自律的に数時間探索を行い、モンスターと戦い、食べ物を見つけるためのスキルを開発しています。ファンは言います。「これらの行動はすべて、Voyagerのセットアップ、スキルライブラリ、およびコーディングメカニズムから発生したものです。これらの行動のいずれも事前にプログラムされていませんでした」。彼はその後、LLMの台頭と軌跡について一般的に話しました。彼はソフトウェア、ゲーム、ロボット工学などでの強力な応用と、AIの安全性に関するますます重要な議論を予想しています。ファンは、LLMに関与して働きたいと思っている人々に対して、「何かをやってみる」と勧めています。オンラインリソースを使用したり、初心者向けのCPUベースのAIモデルを試したりすることを意味します。 The AI PodcastNVIDIAのジム・ファンが大規模な言語モデルとその産業への影響について語る – Ep. 204 おすすめ記事 Jules…

The AI Podcast

オペレーションの頭脳：人工知能とデジタルツインで手術の未来を地図化するアトラスメディテック

アスリートが試合のためにトレーニングし、俳優が公演のためにリハーサルするように、外科医も手術の前に準備をします。今、Atlas Meditechは、AIと物理的に正確なシミュレーションを使用して、脳外科医が手術前の準備で新たなレベルのリアリズムを体験できるようにしています。脳外科インテリジェンスプラットフォームであるAtlas Meditechは、MONAI医療画像フレームワークとNVIDIA Omniverse 3D開発プラットフォームを含むツールを採用し、AIによる意思決定サポートと高精度の手術リハーサルプラットフォームを構築しています。その使命は、手術結果と患者の安全性の向上です。「Atlasは、脳外科医のためのマルチメディアツールのコレクションを提供し、彼らが実際の手術の前の夜に手術を精神的にリハーサルできるようにします」と、Atlas Meditechおよびその非営利団体であるNeurosurgical Atlasの創設者であるDr. Aaron Cohen-Gadolは言います。「高速計算とデジタルツインを活用して、この精神的なリハーサルを高度にリアルなシミュレーションリハーサルに変えたいと考えています。」 Neurosurgical Atlasは、脳の症例研究、手術ビデオ、および3Dモデルを100万以上のオンラインユーザーに提供しています。Atlas Meditechの創設者であり、インディアナ大学医学部の神経外科の教授でもあるDr. Cohen-Gadolによれば、米国の脳外科手術トレーニングプログラムの90％以上、および他の国の数万人の神経外科医が、レジデンシーや手術キャリア初期において、Atlasを主要なリソースとして利用しています。 Atlas MeditechのPathfinderソフトウェアは、専門家が脳内のレッションに到達するための安全な手術経路を提案できるAIアルゴリズムを統合しています。 NVIDIA Omniverseは、カスタムの3Dパイプラインとメタバースアプリケーションを接続および構築するためのプラットフォームであり、チームは手術リハーサルのために個々の患者の脳のカスタム仮想表現を作成することを目指しています。人間の脳のカスタム3Dモデル Atlas Meditechの高度なシミュレーション（画面上または没入型仮想現実）の主な利点は、シミュレーションをカスタマイズできることです。これにより、外科医は、患者の脳のサイズ、形状、および病変の位置に一致する仮想脳で練習できます。「すべての患者の解剖学は少し異なります」とDr.…

Learn more about Search Results ML - Page 244