Search Results ML

「短期予測を改善したいですか？デマンドセンシングを試してみてください」

従来の予測手法の精度が頭打ちになった場合、AI/MLを使用して顧客注文のパターンをモデリングすることで、さらなる予測の改善を推進します

「場所の言語：生成AIのジオコーディング能力の評価」

「現代のジオコーディングAPIと比較したLLMsのパフォーマンスに関する応用プロジェクトの詳細」

「今秋のAiXビジネスサミットの第一弾スピーカーを発表します」

最近、私たちは正式に発表しました今年の10月31日と11月1日にODSC Westと同時開催されるAi X Business and Innovation Summitでは、通常行っているものとは異なる形式に変更する予定です今年は、現在のAIのトレンドを活用するだけでなく、...ということに焦点を当てる予定です

West 2023

VoAGIニュース、9月13日：5つのステップでSQLを始める • データサイエンスにおけるデータベース入門

「5つのステップでSQLを始める • データサイエンスにおけるデータベースの紹介 • Time 100 AI 最も影響力のあるもの？」

NEWS

「ヘルスケア業界における生成型AIは、説明可能性の一撃を必要としている」

テキストベースの生成AIツールが高度な執筆やコミュニケーションのタスクを素早く完了することにより、企業や消費者の共感を引き起こしていますしかし、これらの印象的な機能を実現するために行われる裏側のプロセスは、保険、金融、医療などの機密性の高い、政府規制のある産業にとってはリスクを伴う可能性があります

クローズドソース対オープンソース画像注釈

このブログでは、オープンソースとクローズドソースの画像注釈ツールを比較し、それがAIモデル開発者の生活を簡単かつ便利にする方法について述べています

Computer Vision

TensorRT-LLMとは、NVIDIA Tensor Core GPU上の最新のLLMにおいて推論パフォーマンスを高速化し最適化するためのオープンソースライブラリです

人工知能（AI）の大規模言語モデル（LLM）は、テキストを生成したり、言語を翻訳したり、さまざまな形式の創造的な素材を書いたり、質問に役立つ回答を提供したりすることができます。ただし、LLMにはいくつかの問題があります。例えば、バイアスが含まれる可能性のある大規模なテキストやコードのデータセットで訓練されていることです。LLMが生成する結果には、これらの偏見が反映され、否定的なステレオタイプを強化し、誤った情報を広める可能性があります。時には、LLMは現実に基づかない文章を生成することもあります。これらの体験を幻覚と呼びます。幻覚的なテキストを読むことで、誤解や誤った推論が生じる可能性があります。LLMの内部の動作原理を理解するには、作業が必要です。そのため、医療や金融など、オープンさと責任が重要な文脈で問題が生じる可能性があります。LLMのトレーニングと展開には、大量の計算能力が必要です。これにより、多くの中小企業や非営利団体にはアクセスできなくなる可能性があります。スパム、フィッシングメール、フェイクニュースなど、悪情報がLLMを使用して生成されることがあります。これによってユーザーや企業が危険にさらされる可能性があります。 NVIDIAの研究者は、Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML（現在はDatabricksの一部）、OctoML、Tabnine、Together AIなどの業界のリーダーと協力し、LLMの推論の高速化とパーフェクト化に取り組んでいます。これらの改善は、近日公開予定のオープンソースNVIDIA TensorRT-LLMソフトウェアバージョンに含まれます。TensorRT-LLMは、NVIDIAのGPUを利用して最適化されたカーネル、前処理および後処理フェーズ、およびマルチGPU／マルチノード通信プリミティブを提供するディープラーニングコンパイラです。開発者は、C++やNVIDIA CUDAの詳しい知識を必要とせずに、新しいLLMを試行することができ、優れたパフォーマンスと迅速なカスタマイズオプションを提供します。オープンソースのモジュラーなPython APIを備えたTensorRT-LLMは、LLMの開発において新しいアーキテクチャや改良を定義、最適化、実行することを容易にします。 NVIDIAの最新のデータセンターGPUを活用することで、TensorRT-LLMはLLMのスループットを大幅に向上させながら、経費を削減することを目指しています。プロダクションにおける推論のためのLLMの作成、最適化、実行には、TensorRT Deep Learning Compiler、FasterTransformerからの最適化されたカーネル、前処理および後処理、マルチGPU／マルチノード通信をカプセル化した、わかりやすいオープンソースのPython APIが提供されます。 TensorRT-LLMにより、より多様なLLMアプリケーションが可能になります。MetaのLlama 2やFalcon 180Bなどの700億パラメータのモデルが登場した現在、定型的なアプローチはもはや実用的ではありません。このようなモデルのリアルタイムパフォーマンスは、通常、マルチGPUの構成や複雑な調整に依存しています。TensorRT-LLMは、重み行列をデバイス間で分散させるテンソル並列処理を提供することで、このプロセスを効率化し、開発者が手動で断片化や再配置を行う必要をなくします。また、LLMアプリケーションには非常に変動するワークロードが特徴であるため、フライト中のバッチ最適化は効果的に管理するための注目すべき機能です。この機能により、質問応答型チャットボットや文書要約などのタスクにおいて、動的な並列実行が可能となり、GPUの利用率を最大限に引き出すことができます。AIの実装の規模と範囲の拡大を考慮すると、企業は所有コストの削減を期待できます。性能面でも驚異的な結果が出ています。TensorRT-LLMを使用した場合、TensorRT-LLMを使用しない場合やA100と比較した場合、NVIDIA H100を使用した場合の記事要約などのタスクで、8倍の性能向上が見られます。図1. GPT-J-6B A100とTensorRT-LLMを使用したH100の比較 | テキスト要約、可変長の入出力、CNN /…

マイクロソフトの研究者が「InstructDiffusion：コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffusionを発表しました。この革新的なフレームワークは、多様なビジョンタスクに統一されたインターフェースを提供することで、コンピュータビジョンの領域を革命化します。論文「InstructDiffusion: A Generalist Modeling Interface for Vision Tasks」では、さまざまなビジョンアプリケーションをシームレスに処理するモデルが紹介されています。 InstructDiffusionの核心には、直感的な画像操作プロセスとしてのビジョンタスクの形成があります。カテゴリや座標などの事前定義された出力空間に依存する従来の方法とは異なり、InstructDiffusionは柔軟なピクセル空間で操作を行い、人間の知覚により近づけます。このモデルは、ユーザーが提供するテキスト指示に基づいて入力画像を変更するように設計されています。たとえば、「男性の右目を赤で囲んでください」という指示は、キーポイント検出などのタスクにおいてモデルを強化します。同時に、「右側の犬に青いマスクを適用してください」という指示はセグメンテーションの目的に役立ちます。このフレームワークの基礎となるのは、ピクセル出力を生成するデノイジング拡散確率モデル（DDPM）です。トレーニングデータは、指示、ソース画像、目標出力画像の三つ組で構成されます。このモデルは、RGB画像、バイナリマスク、キーポイントという3つの主な出力タイプに対応しています。これには、セグメンテーション、キーポイント検出、画像編集、および強化など、さまざまなビジョンタスクが含まれます。キーポイント検出 a) クジラの右目に黄色い円を作成します。(b) 車のロゴに青い円を付けます。セグメンテーション a) 鏡の中の猫のピクセルを青くし、他の部分は変更しません。(b) 影のピクセルを青くし、他のピクセルの現在の外観を維持します。画像編集モデルによって生成された画像の結果低レベルタスク InstructDiffusionは、画像のぼやけ除去、ノイズ除去、ウォーターマークの削除などの低レベルのビジョンタスクにも適用できます。実験により、InstructDiffusionは個々のタスクで専門的なモデルを凌駕する能力を示しました。しかし、真の驚異は、一部のタスクにおいてトレーニング中に遭遇しなかったタスクにも適応する能力です。これは、人工一般知能（AGI）にしばしば関連付けられる特徴であり、コンピュータビジョンのための統一された柔軟なフレームワークに向けた重要な進展です。…

PyTorch FSDPを使用してLlama 2 70Bのファインチューニング

はじめにこのブログ記事では、PyTorch FSDPと関連するベストプラクティスを使用して、Llama 2 70Bを微調整する方法について説明します。Hugging Face Transformers、Accelerate、およびTRLを活用します。また、AccelerateをSLURMと一緒に使用する方法も学びます。 Fully Sharded Data Parallelism（FSDP）は、オプティマイザの状態、勾配、およびパラメータをデバイス間でシャードするパラダイムです。フォワードパスでは、各FSDPユニットが完全な重みを取得するための全ギャザー操作を実行し、計算が行われた後に他のデバイスからのシャードを破棄します。フォワードパスの後、ロスが計算され、バックワードパスが行われます。バックワードパスでは、各FSDPユニットが完全な重みを取得するための全ギャザー操作を実行し、ローカルな勾配を取得するための計算が行われます。これらのローカルな勾配は平均化され、リダクション-スキャッタ操作を介してデバイス間でシャードされるため、各デバイスは自身のシャードのパラメータを更新することができます。PyTorch FSDPの詳細については、次のブログ記事を参照してください：PyTorch Fully Sharded Data Parallelを使用した大規模モデルトレーニングの加速。 (出典: リンク) 使用されたハードウェアノード数：2。最小要件は1です。ノードあたりのGPU数：8。GPUタイプ：A100。GPUメモリ：80GB。ノード内接続：NVLink。ノードあたりのRAM：1TB。ノードあたりのCPUコア数：96。ノード間接続：Elastic Fabric Adapter。 LLaMa 70Bの微調整における課題…

「低コスト四足ロボットはパルクールをマスターできるのか？アジャイルなロボット運動のための革命的な学習システムを公開する」

複雑な物理的タスク、例えば困難な環境でのナビゲーションなどをロボットに実行させるという課題は、ロボティクスにおいて長年の課題となっています。この領域で最も困難なタスクのひとつは、パルクールです。パルクールは、障害物をスピードと敏捷性を持って乗り越えるスポーツであり、登攀、飛び越え、這いつくばり、傾くといったスキルの組み合わせが必要です。しかし、ロボットにとっては正確な調整、知覚、意思決定が必要であるため、特に困難です。この論文と記事が解決しようとする主要な問題は、ロボットにこれらの敏捷なパルクールのスキルを効率的に教える方法であり、それによってロボットが多様な現実世界のシナリオをナビゲートできるようにすることです。提案された解決策に入る前に、現在のロボティックスの動きの最新状況を理解することが重要です。従来の方法では、制御戦略を手動で設計することが一般的であり、これは非常に労力を要し、さまざまなシナリオに対してより適応性が必要です。強化学習（RL）は、ロボットに複雑なタスクを教えるための有望な手法となっています。しかし、RLの手法は、探索やシミュレーションから実世界への学習済みスキルの転送に関連する課題に直面しています。さて、研究チームがこれらの課題に取り組むために導入した革新的な手法を探ってみましょう。研究者たちは、ロボットにパルクールのスキルを効果的に教えるために開発された2段階のRL手法を開発しました。彼らの手法のユニークさは、初期のトレーニングフェーズ中に「ソフトダイナミクスの制約」を統合することにあり、これは効率的なスキル獲得に不可欠です。研究者たちの手法は、その効果を高めるいくつかの要素から成り立っています。 1. 特化したスキルポリシー：この手法の基盤は、パルクールに不可欠な特化したスキルポリシーの構築です。これらのポリシーは、再帰型ニューラルネットワーク（GRU）と多層パーセプトロン（MLP）を組み合わせて関節位置を出力することで作成されます。これらのポリシーは、深度画像、プロプリオセプション（体の位置を認識する能力）、前のアクションなど、さまざまなセンサー入力を考慮に入れています。これらの入力の組み合わせにより、ロボットは環境に基づいた情報に基づいて的確な判断を行うことができます。 2. ソフトダイナミクスの制約：この手法の革新的な側面は、初期のトレーニングフェーズ中に「ソフトダイナミクスの制約」を使用することです。これらの制約は、ロボットに環境に関する重要な情報を提供することで学習プロセスをガイドします。ソフトダイナミクスの制約を導入することで、研究者たちはロボットが効率的にパルクールのスキルを探索し、学習することを保証します。これにより、学習が速くなり、パフォーマンスが向上します。 3. シミュレートされた環境：研究者たちはIsaacGymを使用して作成されたシミュレートされた環境を特化したスキルポリシーのトレーニングに使用しています。これらの環境には40のトラックがあり、それぞれに20の難易度の異なる障害物が含まれています。障害物の特性（高さ、幅、奥行きなど）は、トラックごとに線形的に複雑さが増しています。このセットアップにより、ロボットは徐々に難しいパルクールのスキルを学習することができます。 4. 報酬構造：強化学習において報酬構造は重要です。研究者たちは、それぞれの特化したスキルポリシーに対して報酬項目を細かく定義しています。これらの報酬項目は、速度、エネルギー保存、貫通深度、貫通ボリュームなどの具体的な目標と一致しています。報酬構造は、望ましい行動を奨励し、望ましくない行動を抑制するように注意深く設計されています。 5. ドメイン適応：シミュレーションで学習したスキルを実世界に転送することは、ロボティクスにおいて重要な課題です。研究者たちは、このギャップを埋めるためにドメイン適応技術を使用しています。ロボットは、シミュレートされた環境で獲得したパルクールの能力を実践的な状況に適応させることができます。 6. ビジョンの重要性：ビジョンは、ロボットが敏捷にパルクールを実行するための重要な役割を果たします。深度カメラなどのビジョンセンサーは、ロボットに周囲の重要な情報を提供します。この視覚的な認識により、ロボットは障害物の特性を感知し、敏捷な操作に備え、障害物に接近する際に的確な判断を行うことができます。 7. パフォーマンス：…

Learn more about Search Results ML - Page 270