Search Results D2L

リトリーバルオーグメンテッドジェネレーション（RAG）推論エンジンは、CPU上でLangChainを使用しています

「リトリーバル増強生成（RAG）は広範にカバーされており、特にチャットベースのLLMへの応用については詳しく語られていますが、本記事では異なる視点からそれを見て、その分析を行うことを目指しています...」

最適な会議スケジューリング

「重複のないスケジュール調整は複雑な作業であり、特に多くの参加者や多数のミーティングを抱える場合はさらに困難ですミーティングのスケジュール調整は行うことができます…」

学校はサイバー保護のために政府に頼るべきですか？

連邦政府は、K-12の学校とその生徒をサイバー攻撃から守ることができるのでしょうか？

「POCOと出会う：3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

写真や動画から3D人体のポーズと形状（HPS）を推定することは、現実世界の設定で人間のアクションを再構築するために必要です。しかし、2D画像からの3D推論は、深度の曖昧さ、遮蔽、異常な衣服、動きのぼやけなどの要素により、大きな課題を抱えています。最も高度なHPS手法でもエラーが発生し、これらのミスに気づかないことが多いです。 HPSは中間タスクであり、人間の行動や3Dグラフィックスアプリケーションなどの下流タスクによって消費される出力を提供します。これらの下流タスクでは、HPSの結果の正確性を評価するメカニズムが必要であり、その結果、これらの手法はHPSの品質に相関する不確実性（または信頼性）の値を生成しなければなりません。この不確実性に対処するためのアプローチの一つは、複数のボディを出力することですが、これにも明示的な不確実性の尺度が欠けています。一部の例外では、ボディパラメータの分布を推定することがあります。一つのアプローチは、ボディの分布からサンプルを抽出し、これらのサンプルの標準偏差を計算することです。この方法は有効ですが、複数のフォワードネットワークパスを要するため遅くなり、速度のために正確性を犠牲にします。より多くのサンプルが性能を向上させますが、計算要件が増加します。最近、これらの課題に対処するために、明示的な監視をスキップしてネットワークを訓練して、ボディパラメータと同時に不確実性を出力する方法が開発されました。セマンティックセグメンテーションに関する研究に基づき、ガウスベースのベース密度関数を使用しますが、ヒューマンポーズのモデリングにはより複雑な分布が必要であることを認識しています。不確実性を直接推定する手法では、基本密度関数とスケールネットワークが一般的に使用されます。既存の手法では、無条件のbDFを使用し、スケールネットワークには画像の特徴のみに頼っています。このアプローチは、サンプルが類似の分布を共有する場合にはうまく機能しますが、頑健な3D HPSモデルに必要な多様なデータセットの処理には不十分です。著者たちは、これらの課題に対処するための標準HPS手法に適用可能な革新的なフレームワークであるPOCO（“POse and shape estimation with COnfidence”）を紹介しました。POCOは、これらの手法を拡張して不確実性を推定します。単一のフィードフォワードパスで、POCOはSkinned Multi-Person Linear Model（SMPL）のボディパラメータとその回帰不確実性を直接推論し、再構築の品質と強く相関します。このフレームワークの鍵となるイノベーションは、「Dual Conditioning Strategy（DCS）」であり、ベース密度関数とスケールネットワークを強化します。フレームワークの概要は、以下の図に示されています。従来のアプローチとは異なり、POCOは推定されたポーズエラーのベース密度関数をモデル化するための条件付きベクトル（Cond-bDF）を導入します。単純なワンホットデータソースでのエンコーディングではなく、POCOは画像の特徴を調整するために使用され、多様で複雑な画像データセットでのスケーラブルなトレーニングが可能になります。さらに、POCOの著者は、HPSモデルの不確実性を推定するための改良されたアプローチを紹介しています。彼らは画像の特徴を使用し、ネットワークをSMPLポーズに条件付けることで、ポーズの再構築と不確実性の推定を改善します。彼らの手法は既存のHPSモデルにシームレスに統合することができ、正確性を向上させる一方でデメリットはありません。この研究は、このアプローチがポーズエラーとの不確実性の相関において最先端の手法を上回ることを主張しています。彼らの研究で報告された結果は、以下に示されています。これは、3D人間ポーズと形状推定のための革新的なAIフレームワークであるPOCOの要約でした。興味があり、それについてもっと学びたい場合は、以下に引用されたリンクを参照してください。

「CodiumAIに会ってください：開発者のための究極のAIベースのテストアシスタント」

ソフトウェア開発の快速な世界では、テストの作成はしばしば実際のコーディングから時間を奪う面倒な作業と見なされます。CodiumAIをご紹介します。CodiumAIは、IDE内で意味のあるテストを生成することで、あなたの生活をより簡単にする革命的なツールです。小さなスクリプトから大規模なプロジェクトまで、CodiumAIがサポートします。ほぼすべてのプログラミング言語をサポートしており、スマートにコードを作成し、変更をプッシュする際に自信を持つことができます。CodiumAIを使えば、本当に意図した通りにコーディングできます。 CodiumAIの主な機能テストスイートの生成 CodiumAIはただのテストツールではありません。自動化されたテストアシスタントです。クラス、関数、小さなスニペットなど、さまざまなタイプのコードに対して包括的なテストスイートを生成することができます。自動化プロセスは時間と労力を節約し、あなたが最も得意なこと、つまりコーディングに集中できるように設計されています。特定のクラス、関数、またはコードの一部をテストしたい場合、CodiumAIは意味のあるテストケースを生成する機能を提供しています。これらのテストは、コードの品質と信頼性を確保し、開発プロセスを効率化します。コード解析品質はテストに合格するだけでなく、コードの基本的な構造と動作を理解することでもあります。CodiumAIには、表面を超えた詳細なコード解析機能が備わっています。テストスイートが生成される間、CodiumAIのTestGPTモデルはコードを上から下まで分析し、貴重なインサイトを簡単なテキスト出力で提供します。コード提案 CodiumAIは、「コード提案」機能によりさらに進化します。この高度なツールは、コードを分析し、改善のための貴重なインサイトを提供します。TestGPTによって強化されたこの機能は、パフォーマンスの最適化からベストプラクティスまで、コード品質のさまざまな側面に対してその専門知識を提供します。テストの実行包括的なテストスイートが生成されたら、テストの実行は簡単です。CodiumAIは、パネルを通じてシームレスな体験を提供し、テストを実行して合格または不合格のステータスを確認できます。これにより、問題を素早く特定し、必要な調整を行うことができます。開発環境を離れる必要はありません。コードの動作異なる条件下でコードがどのように動作するかを理解することは、どんな開発者にとっても重要です。CodiumAIを使用すると、生成されたテストを実行し、コードがさまざまな入力や条件にどのように応答するかを観察することができます。この機能はデバッグだけでなく、コード全体の品質向上にも役立ちます。 Codium AIの無料拡張機能のダウンロード方法最良の部分は何でしょうか？CodiumAIをすぐに始めることができます。無料のVSCode拡張機能と/またはJetBrainsプラグインをダウンロードするだけです。CodiumAIは個人開発者向けに無料で提供されており、オープンソース版の公開も計画されています。まとめ CodiumAIは単なるテストツール以上のものであり、高品質なコードを作成することを目指す開発者向けの包括的なソリューションです。意味のあるテストの生成から貴重なコードの提案まで、CodiumAIは究極のテスト補助ツールとして設計されています。なぜ待つ必要があるでしょうか？今日からCodiumAIを開発プロセスに統合し、意図した通りにコードを書きましょう。

TensorRT-LLMとは、NVIDIA Tensor Core GPU上の最新のLLMにおいて推論パフォーマンスを高速化し最適化するためのオープンソースライブラリです

人工知能（AI）の大規模言語モデル（LLM）は、テキストを生成したり、言語を翻訳したり、さまざまな形式の創造的な素材を書いたり、質問に役立つ回答を提供したりすることができます。ただし、LLMにはいくつかの問題があります。例えば、バイアスが含まれる可能性のある大規模なテキストやコードのデータセットで訓練されていることです。LLMが生成する結果には、これらの偏見が反映され、否定的なステレオタイプを強化し、誤った情報を広める可能性があります。時には、LLMは現実に基づかない文章を生成することもあります。これらの体験を幻覚と呼びます。幻覚的なテキストを読むことで、誤解や誤った推論が生じる可能性があります。LLMの内部の動作原理を理解するには、作業が必要です。そのため、医療や金融など、オープンさと責任が重要な文脈で問題が生じる可能性があります。LLMのトレーニングと展開には、大量の計算能力が必要です。これにより、多くの中小企業や非営利団体にはアクセスできなくなる可能性があります。スパム、フィッシングメール、フェイクニュースなど、悪情報がLLMを使用して生成されることがあります。これによってユーザーや企業が危険にさらされる可能性があります。 NVIDIAの研究者は、Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML（現在はDatabricksの一部）、OctoML、Tabnine、Together AIなどの業界のリーダーと協力し、LLMの推論の高速化とパーフェクト化に取り組んでいます。これらの改善は、近日公開予定のオープンソースNVIDIA TensorRT-LLMソフトウェアバージョンに含まれます。TensorRT-LLMは、NVIDIAのGPUを利用して最適化されたカーネル、前処理および後処理フェーズ、およびマルチGPU／マルチノード通信プリミティブを提供するディープラーニングコンパイラです。開発者は、C++やNVIDIA CUDAの詳しい知識を必要とせずに、新しいLLMを試行することができ、優れたパフォーマンスと迅速なカスタマイズオプションを提供します。オープンソースのモジュラーなPython APIを備えたTensorRT-LLMは、LLMの開発において新しいアーキテクチャや改良を定義、最適化、実行することを容易にします。 NVIDIAの最新のデータセンターGPUを活用することで、TensorRT-LLMはLLMのスループットを大幅に向上させながら、経費を削減することを目指しています。プロダクションにおける推論のためのLLMの作成、最適化、実行には、TensorRT Deep Learning Compiler、FasterTransformerからの最適化されたカーネル、前処理および後処理、マルチGPU／マルチノード通信をカプセル化した、わかりやすいオープンソースのPython APIが提供されます。 TensorRT-LLMにより、より多様なLLMアプリケーションが可能になります。MetaのLlama 2やFalcon 180Bなどの700億パラメータのモデルが登場した現在、定型的なアプローチはもはや実用的ではありません。このようなモデルのリアルタイムパフォーマンスは、通常、マルチGPUの構成や複雑な調整に依存しています。TensorRT-LLMは、重み行列をデバイス間で分散させるテンソル並列処理を提供することで、このプロセスを効率化し、開発者が手動で断片化や再配置を行う必要をなくします。また、LLMアプリケーションには非常に変動するワークロードが特徴であるため、フライト中のバッチ最適化は効果的に管理するための注目すべき機能です。この機能により、質問応答型チャットボットや文書要約などのタスクにおいて、動的な並列実行が可能となり、GPUの利用率を最大限に引き出すことができます。AIの実装の規模と範囲の拡大を考慮すると、企業は所有コストの削減を期待できます。性能面でも驚異的な結果が出ています。TensorRT-LLMを使用した場合、TensorRT-LLMを使用しない場合やA100と比較した場合、NVIDIA H100を使用した場合の記事要約などのタスクで、8倍の性能向上が見られます。図1. GPT-J-6B A100とTensorRT-LLMを使用したH100の比較 | テキスト要約、可変長の入出力、CNN /…

大規模言語モデル（LLM）の微調整

この投稿では、事前学習されたLLMをファインチューニング（FT）する方法について説明しますまず、FTの重要な概念を紹介し、具体的な例を示して終わります

「ブラックボックスの解除：ディープニューラルネットワークにおけるデータ処理の理解のための定量的法則」

人工知能の魅力は、特に深層学習の神秘的な領域で長く謎に包まれてきました。これらの複雑なニューラルネットワークは、複雑なプロセスと隠れた層を持ち、内部の動作を隠しつつ、研究者や実践者を魅了してきました。しかし、最近のブレイクスルーにより、この不明瞭な領域の中にある道を照らすことが約束されています。 Hangfeng HeとWeijie J. Su率いる研究チームが、深層ニューラルネットワークのトレーニング中に展開する組織化されたカオスに光を当てる画期的な経験則「等分離の法則」を発表しました。この発見により、トレーニングプロセスの神秘さが解明され、アーキテクチャの設計、モデルの堅牢性、予測の解釈に対する洞察が得られるようになります。この課題の核心は、深層ニューラルネットワークの固有の複雑さにあります。これらのモデルは、多数の層と相互接続されたノードを特徴とし、カオス的で予測不可能なデータ変換を行います。この複雑さにより、内部の動作をより深く理解する必要性が生じ、特に重要なアプリケーションにおいては、アーキテクチャの設計と意思決定の解釈の進展を妨げてきました。等分離の法則は、深層ニューラルネットワーク内にある秩序を明らかにし、見かけのカオスを切り抜けます。この法則の核心は、各層でのクラスメンバーシップに基づいてデータを分類する方法を定量化することです。この法則は一貫したパターンを明らかにします：各層内でデータの分離が一定の割合で幾何学的に改善していきます。これは、乱れたトレーニングの概念に挑戦し、ネットワークの層内に構造化された予測可能なプロセスを示しています。この経験則は、量的な関係を確立します：各層の分離の曖昧さは一定の割合で幾何学的に改善します。各層を通過するデータによって、この法則は異なるクラスの分離の徐々の向上を保証します。この法則は、様々なネットワークアーキテクチャやデータセットに適用され、深層学習の振る舞いの理解を豊かにする基礎的なフレームワークを提供します。分離の曖昧さを規定する式は次のようになります： D(l)=ρ^l * D(0) ここで、D(l)はl番目の層の分離の曖昧さを示し、ρは減衰率を表し、D(0)は初期層の分離の曖昧さを示します。 20層のフィードフォワードニューラルネットワークがFashion-MNISTでトレーニングされています。等分離の法則は、エポック100から観察されます。x軸は層のインデックスを示し、y軸は分離の曖昧さを示します。この発見は重要な意味を持ちます。従来の深層学習は、しばしばヒューリスティックやトリックに依存しており、時には最適な結果やリソースの消費が大きい計算を導くこともありました。等分離の法則は、アーキテクチャの設計のための指針を提供し、ネットワークが最適な性能を実現するためには深さを持つ必要があることを示唆しています。ただし、過度に深いネットワークは収益の減少をもたらす可能性があることも示唆しています。さらに、この法則の影響はトレーニング戦略とモデルの堅牢性にも及びます。トレーニング中にこの法則が現れると、モデルの性能と耐久性が向上します。法則に従うネットワークは、外部の干渉に対する抵抗力が高まり、現実世界のシナリオでの信頼性が向上します。この耐久性は、法則によって明らかにされる組織化されたデータの分離プロセスから直接生じ、ネットワークの汎化能力をトレーニングデータを超えて高めます。深層学習モデルの解釈は、そのブラックボックス性のために常に課題となっており、重要な意思決定の文脈での利用性を制限してきました。等分離の法則は新たな解釈の視点を提供します。各ネットワーク層はモジュールとして機能し、分類プロセスに均等に貢献します。この視点は従来の層ごとの分析に挑戦し、ネットワーク内のすべての層の集合的な振る舞いを考慮することの重要性を強調しています。凍結された右のネットワークとは異なり、左のネットワークは均等分離の法則を示しています。似たようなトレーニングパフォーマンスにも関わらず、左のネットワークはより高いテスト精度を誇っています（右のネットワークの19.67%に対して左のネットワークは23.85%です）。結論として、均等分離の経験則は、深層学習において変革的な発見です。これにより、深層ニューラルネットワークが不透明なブラックボックスではなく、予測可能で幾何学的に構造化されたプロセスによって駆動される組織的なシステムであるという私たちの認識が変わります。研究者や実践者がアーキテクチャの複雑さ、トレーニング戦略、モデルの解釈に取り組む中で、この法則はガイドとなり、さまざまな領域で深層学習の真のポテンシャルを開放するための手助けとなります。透明性とAIへの洞察を求める世界において、均等分離の法則は複雑な深層ニューラルネットワークを導くビーコンとして浮かび上がっています。

画像中のテーブルの行と列をトランスフォーマーを使用して検出する

はじめに非構造化データを扱ったことがあり、ドキュメント内のテーブルの存在を検出する方法を考えたことはありますか？ドキュメントを迅速に処理するための方法を提供しますか？この記事では、トランスフォーマーを使用して、テーブルの存在だけでなく、テーブルの構造を画像から認識する方法を見ていきます。これは、2つの異なるモデルによって実現されます。1つはドキュメント内のテーブルの検出のためのもので、もう1つはテーブル内の個々の行と列を認識するためのものです。学習目標画像上のテーブルの行と列を検出する方法 Table TransformersとDetection Transformer（DETR）の概要 PubTables-1Mデータセットについて Table Transformerでの推論の実行方法ドキュメント、記事、PDFファイルは、しばしば重要なデータを伝えるテーブルを含む貴重な情報源です。これらのテーブルから情報を効率的に抽出することは、異なるフォーマットや表現の間の課題により複雑になる場合があります。これらのテーブルを手動でコピーまたは再作成するのは時間がかかり、ストレスがかかることがあります。PubTables-1Mデータセットでトレーニングされたテーブルトランスフォーマーは、テーブルの検出、構造の認識、および機能分析の問題に対処します。この記事はData Science Blogathonの一環として公開されました。この方法はどのように実現されたのですか？これは、PubTables-1Mという名前の大規模な注釈付きデータセットを使用して、記事などのドキュメントや画像を検出するためのトランスフォーマーモデルであるTable Transformerによって実現されました。このデータセットには約100万のパラメータが含まれており、いくつかの手法を用いて実装されており、モデルに最先端の感触を与えています。効率性は、不完全な注釈、空間的な整列の問題、およびテーブルの構造の一貫性の課題に取り組むことで達成されました。モデルとともに公開された研究論文では、テーブルの構造認識（TSR）と機能分析（FA）のジョイントモデリングにDetection Transformer（DETR）モデルを活用しています。したがって、DETRモデルは、Microsoft Researchが開発したTable Transformerが実行されるバックボーンです。DETRについてもう少し詳しく見てみましょう。 DEtection TRansformer（DETR）前述のように、DETRはDEtection TRansformerの略であり、エンコーダーデコーダートランスフォーマーを使用したResNetアーキテクチャなどの畳み込みバックボーンから構成されています。これにより、オブジェクト検出のタスクを実行する潜在能力を持っています。DETRは、領域提案、非最大値抑制、アンカー生成などの複雑なモデル（Faster…

スウィン・トランスフォーマー | モダンなコンピュータビジョンタスク

イントロダクション Swin Transformerは、ビジョントランスフォーマーの分野における重要なイノベーションです。トランスフォーマーは、様々なタスクで優れたパフォーマンスを発揮してきました。その中でも、Swin Transformerはコンピュータビジョンのバックボーンとして優れた柔軟性と拡張性を提供し、現代のディープラーニングモデルの要求に応える能力を持っています。このトランスフォーマーのフルポテンシャルを引き出し、その印象的な能力を目の当たりにしましょう。学習目標この記事では、強力な階層的なビジョントランスフォーマーであるSwin Transformerを紹介します。この記事を読み終えることで、以下のことが理解できるようになるでしょう： Swin Transformerの主な特徴コンピュータビジョンモデルのバックボーンとしての応用画像分類、物体検出、インスタンスセグメンテーションなどの様々なコンピュータビジョンタスクにおけるSwin Transformerの利点この記事は、データサイエンスブログマラソンの一環として公開されました。 Swin Transformerの理解 2021年の論文「Swin Transformer: Hierarchical Vision Transformer using Shifted Windows」で、Ze Liu、Yutong…

Learn more about Search Results D2L