Learn more about Search Results リポジトリ - Page 15

「ラフと共にパイソンのコーディングスタイルを高める」

速度向上のため、Rustで再実装されたRuffの700以上の組み込みリントルールは、クリーンで一貫性のあるPythonコードを強制し、包括的なリントとフォーマットを提供します

エクスラマV2:LLMを実行するための最速のライブラリ

ExLlamaV2は、GPTQからさらに高いパフォーマンスを引き出すために設計されたライブラリです新しいカーネルのおかげで、(超高速の)速い推論に最適化されています

LLM SaaSのためのFastAPIテンプレート パート1 — Authとファイルのアップロード

最近、FastAPIはPythonバックエンド開発者コミュニティで注目を集めていますそのシンプルさ、非同期性、ネイティブのSwagger UIのおかげですこれらの人気のあるLLMオープンソースの中で...

『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』

最近の人工知能の人気を受けて、自動音声認識(ASR)の分野は非常に進歩しました。これによって音声認識技術や人間とコンピュータのインタラクションが大きく変わりました。ASRでは、機械が話された言語をテキストに変換することができます。これは仮想アシスタントや音声文字起こしサービスなど、さまざまなアプリケーションに不可欠です。より正確で効果的なASRシステムのために、研究者たちは潜在的なアルゴリズムを探求しています。 NVIDIAの最近の研究では、研究チームがConnectionist Temporal Classification(CTC)モデルの欠点について調査しました。ASRパイプラインでは、CTCモデルが高い精度を達成するための一流の手法となっています。これらのモデルは、時間的な連続性を解釈する能力が非常に優れており、話された言語の微妙なニュアンスにも対応することができます。しかし、従来のCPUベースのビーム探索デコーディング方法では、CTCモデルの性能が制限されてしまいます。 ビーム探索デコーディングは、話された単語を正確に書き起こすための重要な段階です。従来の方法である貪欲探索法では、各時間ステップでどの出力トークンが最も選ばれる可能性が高いかを音響モデルで決定します。この手法には、コンテキストのバイアスや外部データの処理に伴うさまざまな課題が存在します。 これらの課題を解決するために、研究チームはGPUを利用したWeighted Finite State Transducer(WFST)ビーム探索デコーダーを提案しました。このアプローチは、現在のCTCモデルとの統合をスムーズに行うことを目的として導入されました。このGPUを利用したデコーダーにより、ASRパイプラインのパフォーマンスが向上し、スループットやレイテンシ、発話固有の単語ブースティングなどの機能のサポートも可能になります。提案されたGPUアクセラレーションデコーダーは、パイプラインのスループットが向上し、レイテンシが低いため、ストリーミング推論に特に適しています。 研究チームは、このアプローチをオフラインおよびオンラインの環境でデコーダーをテストすることで評価しました。オフラインのシナリオでは、最新のCPUデコーダーと比較して、GPUアクセラレーションデコーダーは最大7倍のスループットが向上しました。オンラインストリーミングのシナリオでは、GPUアクセラレーションデコーダーは従来と同じまたはさらに高い単語エラーレートを維持しながら、8倍以上のレイテンシの低下を実現しました。これらの結果から、提案されたGPUアクセラレーションWFSTビーム探索デコーダーをCTCモデルと組み合わせることで、効率と精度が大幅に向上することが示されています。 結論として、CTCモデルのCPUベースのビーム探索デコーディングのパフォーマンス制約を克服するために、このアプローチは非常に優れた効果を発揮することができます。提案されたGPUアクセラレーションデコーダーは、オフラインおよびオンラインの両方の状況でCTCモデルのための最速のビーム探索デコーダーです。なぜなら、スループットが向上し、レイテンシが低下し、先進的な機能をサポートするからです。デコーダーをPythonベースの機械学習フレームワークと統合するために、研究チームはGitHubで事前構築されたDLPackベースのPythonバインディングを提供しています。この作業により、提案されたソリューションをPython開発者とMLフレームワークにとって使いやすく、アクセスしやすくすることができます。カーネルウェーブフィールドトランスデューサーデコーダーはC++とPythonのライブラリであり、コードリポジトリはhttps://github.com/nvidia-riva/riva-asrlib-decoderからアクセスできます。

LangChain、Amazon SageMaker JumpStart、およびMongoDB Atlasの意味検索を利用した検索増強生成

生成AIモデルは、企業の業務を革命化する可能性がありますが、企業はデータの保護やAI生成コンテンツの品質を確保しながら、そのパワーを活用する方法を慎重に考慮する必要があります検索強化生成(RAG)フレームワークは、ドキュメントリポジトリ、データベース、APIなど、複数のソースからの外部データをプロンプトに追加することで、アイデアの生成を支援します

「Amazon Bedrock のエージェント付きカスタマーサービスボットの基盤モデル(FM)を構築する」

会話エクスペリエンスの向上からエージェントのサポートまで、生成型人工知能(AI)と基盤モデル(FMs)は、より速く、より良いサポートを提供するためのさまざまな方法があります FMsの利用可能性と多様性が増しているため、最新のモデルバージョンで実験を行い、最新情報を追いつくのは困難です Amazon Bedrockは完全管理されたサービスであり、[…]

「Amazon Rekognitionを使用して、Amazon IVSライブストリームを適度に制御する」

「アマゾン インタラクティブ ビデオ サービス(Amazon IVS)は、迅速かつ簡単なセットアップを提供するために設計されたマネージド型のライブストリーミングソリューションであり、インタラクティブなビデオ体験の構築や、インジェスションから配信までのインタラクティブなビデオコンテンツを処理しますライブストリーミングの利用が増えるにつれて、効果的なコンテンツモデレーションの必要性もますます重要になります[…]」

LLMWareは、複雑なビジネスドキュメントを含む企業ワークフローに適した、生産用の微調整済みモデルであるRAG-Specialized 7BパラメータLLMを発表しました

先月、Ai BloksはエンタープライズグレードのLLMベースのワークフローアプリケーションを構築するための開発フレームワーク、llmwareのオープンソース発表を行いました。今日、Ai BloksはDRAGONシリーズ(Delivering RAG on …)として知られる7BパラメータLLMのリリースと共に、次世代のRAGフレームワークの提供に向けてさらなる大きな進展を遂げました。これらのLLMは、複雑なビジネスおよび法的文書に基づく事実に基づく質問応答の特定の目的で細かく調整され、ビジネスワークフロー向けに設計されています。 より多くの企業が自社独自の情報を使用してスケーラブルなRAGシステムを展開することを目指すにつれて、以下の複数のニーズが認識されています: LLMモデルを周囲のワークフロー機能(ドキュメントの解析、埋め込み、プロンプト管理、ソースの検証、監査追跡など)と統合する統一されたフレームワーク。 事実に基づく質問応答とビジネスワークフローに最適化された、高品質で小型の特化LLM。 オープンソースで費用対効果の高い、カスタマイズのための柔軟性とオプションを備えたプライベート展開。 これらのニーズに応えるため、LLMWareは、そのLLMWareのDRAGONモデルの7つをオープンソースで提供します。これらのモデルは、Hugging Faceリポジトリーにあり、すべてがエンタープライズ用のRAGワークフローにおいて強力なプロダクショングレードの準備が整ったリーディングの基本モデルをベースに細かく調整されています。 全てのDRAGONモデルは、llmware rag-instruct-benchmarkを用いて評価され、その完全なテスト結果と方法論はリポジトリ内のモデルと共に提供されています。それぞれのDRAGONモデルは、100のコアテスト質問の幅広いセットに対して中から高い精度を実現し、幻覚を防ぐための強い根拠を持ち、パッセージから質問に対する答えが得られない場合(「見つからない」分類など)を特定することができます。 DRAGONモデルファミリーは、他の2つのLLMWare RAGモデルコレクションであるBLINGとIndustry-BERTに加わります。 BLINGモデルは、開発者のノートパソコンで動作することが可能なGPU非必須のRAG専門の小型LLMモデル(1B〜3B)です。トレーニングの方法論が非常に似ているため、開発者はローカルのBLINGモデルから始め、本番でパフォーマンスを向上させるためにシームレスにDRAGONモデルに切り替えることができます。DRAGONモデルは、単一のエンタープライズグレードのGPUサーバー上でのプライベート展開を目的としており、企業は自社のセキュリティゾーンで安全かつプライベートにエンドツーエンドのRAGシステムを展開することができます。 このオープンソースのRAG専門モデルのスイートは、コアとなるLLMWare開発フレームワークとMilvusおよびMongo DBのオープンソースプライベートクラウドインスタンスとの統合を備えたエンドツーエンドのRAGソリューションを提供します。数行のコードで、開発者は数千のドキュメントの取り込みと解析、埋め込みベクトルのアタッチ、最新のLLMベースの生成推論の実行、証拠とソースの検証を自動化し、プライベートクラウドで実行することができます。場合によっては、単一の開発者のノートパソコンからさえ実行することができます。 AIブロックスのCEOであるダレン・オーベルストは、「私たちの信念は、LLM(低レイヤーマテリアル)が企業において新たな自動化ワークフローを可能にするということであり、私たちが提供するLLMWareのビジョンは、専門モデル、データパイプライン、すべての有効なコンポーネントを統合したオープンソースのフレームワークを通じて、企業が迅速にカスタマイズし、規模展開するためのLLMベースの自動化を実現することです。」と述べています。 詳細については、llmwareのgithubリポジトリを参照してください:www.github.com/llmware-ai/llmware.git。 モデルへの直接アクセスについては、llmwareのHuggingface組織ページをご覧ください:www.huggingface.co/llmware。

このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標となってきました。最近では、新しいマルチモーダルな理解とオープンワールドの課題における生成スキルを持つ基礎モデルの創造に関心が高まっています。自然言語タスクのための汎用アシスタントを生成する大規模言語モデル(LLMs)の有効性にもかかわらず、コンピュータビジョンとビジョン言語の活動に対するマルチモーダルで汎用性の高いアシスタントの作成方法はまだ見つかっていません。 マルチモーダルなエージェントを作成する現在の取り組みは、一般に2つのグループに分けることができます: (i) LLMを使用したエンドツーエンドのトレーニング。これにより、ビジュアル情報を解釈するためのLLMのトレーニングが連続的に行われ、画像テキストデータとマルチモーダルな命令実行データを使用して大規模なマルチモーダルモデル(LMMs)が作成されます。LLaVAやMiniGPT-4などのオープンソースのモデル、およびFlamingoやマルチモーダルGPT-4などの非公開のモデルは、印象的なビジュアル理解と推論スキルを示しています。これらのエンドツーエンドのトレーニングのアプローチは、LMMが状況に応じた学習などの新たなスキルを獲得するのには適していますが、実際の世界のマルチモーダルアプリケーションに不可欠な画像セグメンテーションや生成などの幅広い能力をシームレスに統合できる一貫したアーキテクチャを作成することはまだ難しい課題です。 (ii) LLMを使用したツールチェイン。これにより、LLMがトレーニングされたビジョンモデルなどのさまざまなツールを呼び出して必要な(サブ)タスクを実行することができるように、適切に設計されたプロンプトを使用します。VisProg、ViperGPT、Visual ChatGPT、X-GPT、MM-REACTなどがよく知られています。これらのアプローチの強みは、(新しい)ツールを安価に開発しAIエージェントに統合することで、さまざまなビジュアルタスクを処理できる能力です。ただし、プロンプトの柔軟性と信頼性を向上させる必要があります。広範で多様なツールセットから適切なツールを信頼性高く選択し、アクティブ化して最終的なマルチモーダルタスクの解決策を提供できるようにするためです。 図1:LLaVA-Plusが習得したスキルを活用した可能性を示すグラフィカルな表現。 清華大学、マイクロソフトリサーチ、ウィスコンシン大学マディソン校、香港科技大学、およびIDEA Researchの研究者は、この論文で、LLaVA-Plus(大規模な言語とビジョンアシスタント)を紹介しています。このマルチモーダルアシスタントは、視覚的な指示の微調整を通じてLMMの能力を体系的に強化するエンドツーエンドのトレーニング手法を用いてツールの使用スキルを獲得します。これまでに説明されたツールチェインとエンドツーエンドのトレーニングの利点を組み合わせる試みとして、これが初めて文書化された試みであると述べています。LLaVA-Plusに付属するスキルリポジトリには、多様なビジョンとビジョン言語のツールが豊富に用意されています。この設計は、「心の社会」という理論の例であり、個々のツールは特定のタスクのために作成され、それ単体では限定的な利用が可能ですが、これらのツールが組み合わさると、より高い知性を示す新たなスキルが生まれます。 例えば、LLaVA-Plusはユーザーのマルチモーダルな入力に応じて、新しいワークフローを即座に作成し、スキルライブラリから適切なツールを選択してアクティブ化し、その実行結果を組み立てて、モデルトレーニング中には見えない様々な実世界のタスクを完了することができます。指示の微調整により、LLaVA-Plusは時間の経過とともに追加の機能やインストゥルメントを獲得することが可能です。特定のユースケースや機能のために作成された新しいマルチモーダルツールを考えてみてください。調整のための指示実行データを作成するために、このツールを必要とする関連するユーザー指示とその実行結果または後続結果を収集します。指示の微調整後、LLaVA-Plusはこの新しいツールを使用して以前には不可能だったジョブを達成する方法を学習し、より多くの機能を獲得します。 “` さらに、LLaVA-Plusは、マルチモーダルツールと組み合わせて視覚的な手がかりのみを使用することによって、これまでのLLMのツール使用トレーニングに関する研究とは異なるアプローチを取っています。一方、LLaVA-Plusは、すべての人間-AI接触セッションで未処理の視覚信号を使用することにより、LMMの計画と推論の能力を向上させます。要約すると、彼らの論文の貢献は以下の通りです: • 新しいマルチモーダルの指示従属ツールに関するデータの使用。ChatGPTとGPT-4をラベリングツールとして使用し、人間-AIインタラクションセッションでのツールとして使用するための視覚言語の指示従属データの選択のための新しいパイプラインを説明しています。 • 新しい大規模なマルチモーダルヘルパー。彼らはLLaVAを補完する広範で多様な外部ツールの統合を含む、多くの用途を持つLLaVA-Plusを作成しました。図1は、LLMの可能性を大幅に拡張するLLaVA-Plusの様子を示しています。彼らの実証調査は、特に幅広い実世界の活動におけるVisiT-Benchでの新しいSoTAのより良い結果を一貫して示すことにより、LLaVA-Plusの有効性を確認しています。 • ソースフリー。彼らが公開する資料には、生成されたマルチモーダルの指示データ、コードベース、LLaVA-Plusのチェックポイント、およびビジュアルチャットデモが含まれます。

If you have any further questions or need assistance with anything else, feel free to ask!

多目的データキット(VDK)は、データ管理の複雑さを簡素化するために設計されたオープンソースのデータインジェスチョンおよび処理フレームワークですVDKは、さまざまなデータ統合タスクを処理できますが、以下に示すような...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us