Learn more about Search Results 16 - Page 18
- You may be interested
- 「Gartner Market Guideに掲載されているD...
- Google研究者がAudioPaLMを導入:音声技術...
- 「機械学習における10種類のクラスタリン...
- 「たった1行のコードで、Optimum-NVIDIAが...
- Amazon SageMakerのHugging Face LLM推論...
- マイクロソフトの研究者たちは「エモーシ...
- 「IBMの「脳のような」AIチップが、環境に...
- 「Apache CassandraとApache Pulsarを使用...
- 「生産性を最大化するための5つの最高のAI...
- 「GPTの内部- I:テキスト生成の理解」
- PoisonGPTとは:それ以外は信頼されたLLM...
- 『Amazon SageMaker Clarifyを使用して、...
- マウス用のVRゴーグルは、脳研究のために...
- 合成データ生成のマスタリング:応用とベ...
- 「安全で安心なAIに対する取り組みに基づ...
意図しない漏洩から敏感なデータを保護するための8つのツール
今日のデジタルな広大でつながった世界では、私たちが作成、保存、共有するデータの量は膨大ですデータの保護においては、長い道のりを歩んできましたが、しばしば見落とされるプライベートデータがソースコードに漏洩するという、ひっそりとしたが深刻な問題がありますこの地味だけど深刻な問題は、、、
注釈の習得:LabelImgとのシームレスなDetectron統合
イントロダクション コンピュータビジョンの大局において、画像のラベリングや写真の注釈付けは困難でありました。私たちの調査は、LabelImgとDetectronのチームワークに深く入り込んでおり、正確な注釈付けと効率的なモデル構築を組み合わせた強力なデュオです。簡単で正確なLabelImgは、注意深い注釈付けでリーダーシップを発揮し、明確なオブジェクト検出のための堅固な基盤を築きます。 LabelImgを試行し、境界ボックスの描画についてのスキルを向上させると、Detectronにシームレスに移行します。この堅牢なフレームワークは、マークされたデータを整理し、高度なモデルのトレーニングに役立ちます。LabelImgとDetectronは、初心者からエキスパートまで、誰にでも簡単にオブジェクト検出を可能にします。マークされた各画像が視覚情報のフルパワーを解き放つのをお手伝いいたします。 学習目標 LabelImgの使い方を学ぶ。 環境のセットアップとLabelImgのインストール。 LabelImgの理解と機能。 VOCまたはPascalデータをCOCO形式に変換してオブジェクト検出する。 この記事はData Science Blogathonの一環として発表されました。 フローチャート 環境のセットアップ 1. 仮想環境の作成: conda create -p ./venv python=3.8 -y このコマンドはPythonバージョン3.8を使用して、「venv」という名前の仮想環境を作成します。 2. 仮想環境のアクティブ化:…
Zephyr LLM アライメントの直接蒸留
近年、小さなオープン大規模言語モデルの能力とパフォーマンスは大幅に向上しており、初期のGPT-2モデルからよりコンパクトで正確かつ効果的なLLMフレームワークへの進歩を目撃してきましたこれらのフレームワークは、Chinchillaスケーリングが推奨する「計算最適」トークン量よりもはるかに多くのトークンを使用しています
「OpenAIモデルに対するオープンソースの代替手段の探索」
序文 AIの領域では、11月はドラマチックな展開がありました。GPTストアやGPT-4-turboのローンチ、そしてOpenAIの騒動まで、まさに忙しい一ヶ月でした。しかし、ここで重要な問題が浮かび上がります:クローズドモデルとその背後にいる人々はどれだけ信頼できるのでしょうか?自分が実際に運用しているモデルが内部の企業ドラマに巻き込まれて動作停止するのは快適な体験とは言えません。これはオープンソースモデルでは起こらない問題です。展開するモデルには完全な管理権限があります。データとモデルの両方に対して主権を持っています。しかし、OSモデルをGPTと置き換えることは可能でしょうか?幸いなことに、既に多くのオープンソースモデルが、GPT-3.5モデル以上の性能を発揮しています。本記事では、オープンソースのLLM(Large Language Models)およびLMM(Large Multi-modal Models)の最高の代替品をいくつか紹介します。 学習目標 オープンソースの大規模言語モデルについての議論。 最新のオープンソース言語モデルとマルチモーダルモデルについての探求。 大規模言語モデルを量子化するための簡易な導入。 LLMをローカルおよびクラウド上で実行するためのツールやサービスについて学ぶ。 この記事は、データサイエンスブログマラソンの一環として公開されました。 オープンソースモデルとは何ですか モデルがオープンソースと呼ばれるのは、モデルの重みとアーキテクチャが自由に利用できる状態にあるからです。これらの重みは、例えばMeta’s Llamaのような大規模言語モデルの事前訓練パラメータです。これらは通常、ファインチューニングされていないベースモデルやバニラモデルです。誰でもこれらのモデルを使用し、カスタムデータでファインチューニングして下流のアクションを実行することができます。 しかし、それらはオープンなのでしょうか?データはどうなっているのでしょうか?多くの研究所は、著作権に関する懸念やデータの機密性の問題などの理由から、ベースモデルの訓練データを公開しません。これはまた、モデルのライセンスに関する部分にも関連しています。すべてのオープンソースモデルは、他のオープンソースソフトウェアと同様のライセンスが付属しています。Llama-1などの多くのベースモデルは非商用ライセンスとなっており、これらのモデルを利用して収益を上げることはできません。しかし、Mistral7BやZephyr7Bなどのモデルは、Apache-2.0やMITライセンスが付属しており、どこでも問題なく使用することができます。 オープンソースの代替品 Llamaのローンチ以来、オープンソースの領域ではOpenAIモデルに追いつこうとする競争が繰り広げられています。そしてその結果は今までにないものでした。GPT-3.5のローンチからわずか1年で、より少ないパラメータでGPT-3.5と同等またはそれ以上のパフォーマンスを発揮するモデルが登場しました。しかし、GPT-4は依然として理性や数学からコード生成までの一般的なタスクには最も優れたモデルです。オープンソースモデルのイノベーションと資金調達のペースを見ると、GPT-4のパフォーマンスに近づくモデルが間もなく登場するでしょう。とりあえず、これらのモデルの素晴らしいオープンソースの代替品について話しましょう。 Meta’s Llama 2 Metaは今年7月にLlama-2という彼らの最高のモデルをリリースし、その印象的な能力により一瞬で人気を集めました。MetaはLlama-7b、Llama-13b、Llama-34b、Llama-70bの4つの異なるパラメータサイズのLlama-2モデルをリリースしました。これらのモデルは、それぞれのカテゴリにおいて他のオープンモデルを上回る性能を発揮しました。しかし、現在ではmistral-7bやZephyr-7bのような複数のモデルが、多くのベンチマークで小さなLlamaモデルを上回る性能を発揮しています。Llama-2 70bはまだそのカテゴリーで最高のモデルの一つであり、要約や機械翻訳などのタスクにおいてGPT-4の代替モデルとして価値があります。 Llama-2はGPT-3.5よりも多くのベンチマークで優れたパフォーマンスを発揮し、GPT-4に迫ることもできました。以下のグラフは、AnyscaleによるLlamaとGPTモデルのパフォーマンス比較です。…
「スタンフォード大学と一緒に無料でコンピュータ科学における確率を学びましょう」
確率はコンピュータサイエンスの基礎要素の一つです一部のブートキャンプではこのトピックを省略することもありますが、それはあなたのコンピュータサイエンスの知識にとって不可欠です
「中国のAI研究は、GS-SLAMを導入し、高度な3Dマッピングと位置特定のための新しい手法を紹介します」
上海AI研究所、復旦大学、西北工業大学、香港科技大学の研究者たちは、GS-SLAMという3Dガウス表現ベースの同時位置推定と地図作成(SLAM)システムを開発しました。この計画の目標は、精度と効率のバランスを実現することです。GS-SLAMはリアルタイムの微分可能なスプラッティングレンダリングパイプライン、適応的な拡張戦略、およびコーストゥファインの技術を使用して、姿勢追跡を改善し、ランタイムを短縮し、より堅牢な推定を実現します。このシステムは、ReplicaとTUM-RGBDのデータセットで競争力のあるパフォーマンスを発揮し、他のリアルタイム手法を上回っています。 この研究では、手作業の特徴ベース、ディープラーニング埋め込み、およびNeRFベースのアプローチに基づく既存のリアルタイム密なビジュアルSLAMシステムについて検討しました。GS-SLAMの導入まで、カメラ姿勢推定とリアルタイムマッピングに3Dガウスモデルを使用した研究が不足していることを強調しています。GS-SLAMは、リアルタイムの微分可能なスプラッティングレンダリングパイプラインと適応的な拡張戦略を組み合わせ、効率的なシーン再構築を実現する革新的な3Dガウス表現を採用しています。確立されたリアルタイムSLAM手法と比較して、この手法はReplicaとTUM-RGBDのデータセットで競争力のあるパフォーマンスを示しています。 この研究では、従来のSLAM手法が細かい密な地図を作成する上で直面する課題に取り組み、GS-SLAMという新しいRGB-D密なSLAM手法を紹介しました。GS-SLAMは、3Dガウスシーン表現とリアルタイムの微分可能なスプラッティングレンダリングパイプラインを活用して、速度と精度のトレードオフを向上させています。提案された適応的な拡張戦略は新たに観測されたシーンジオメトリの効率的な再構築を実現し、コーストゥファインの技術はカメラ姿勢推定を向上させます。GS-SLAMは、追跡、マッピング、およびレンダリングのパフォーマンスを改善し、ロボット、仮想現実、拡張現実の応用における密なSLAM機能の重要な進歩を提供します。 GS-SLAMは、マッピングとRGB-D再レンダリングのために3Dガウス表現とリアルタイムの微分可能なスプラッティングレンダリングパイプラインを使用しています。シーンジオメトリの再構築とマッピングの向上には、適応的な拡張戦略が特徴として採用されています。カメラトラッキングでは、コーストゥファインの技術が信頼性のある3Dガウス表現の選択に使用され、ランタイムが短縮され、堅牢な推定が確保されます。GS-SLAMは、ReplicaとTUM-RGBDのデータセットで最先端のリアルタイム手法に対して競争力のあるパフォーマンスを発揮し、同時位置推定と地図作成の効率的かつ正確なソリューションを提供します。 GS-SLAMはReplicaとTUM-RGBDのデータセットでNICE-SLAM、Vox-Fusion、およびiMAPを上回ります。さまざまなメトリックでCoSLAMと同等の結果を達成します。GS-SLAMは構築されたメッシュに明確な境界と詳細を表示し、優れた再構築パフォーマンスを示します。トラッキングに関しては、Point-SLAM、NICE-SLAM、Vox-Fusion、ESLAM、およびCoSLAMを上回ります。GS-SLAMは約5FPSの実行速度でリアルタイムアプリケーションに適しています。 GS-SLAMの効果は、高品質な深度情報の入手可能性に依存しており、3Dガウスの初期化と更新のために深度センサーの読み取りに頼っています。この手法は大規模なシーンにおいてメモリ使用量が増加する傾向があり、今後の課題としてこの制限をニューラルシーン表現の統合を通じて緩和することを計画しています。この研究はこれらの制約を認識していますが、適応的な拡張戦略とコーストゥファインのカメラトラッキング技術の潜在的な制約についてのさらなる洞察が必要です。そのコントロールを包括的に評価するためには、さらなる分析が必要です。 まとめると、GS-SLAMは速度と精度のバランスを提供する密なビジュアルSLAMタスクの有望なソリューションです。適応的な3Dガウスの拡張戦略とコーストゥファインのカメラトラッキングにより、ダイナミックで詳細なマップの再構築と堅牢なカメラ姿勢推定が実現されます。高品質な深度情報への依存と大規模なシーンでの高メモリ使用量にもかかわらず、GS-SLAMは競争力のあるパフォーマンスと優れたレンダリング品質を示しています、特に詳細なエッジ領域において。今後の改善にはニューラルシーン表現の統合が計画されています。
メタAIの研究者がスタイルテーラリングを紹介する:高い視覚的品質を持つ特定のドメインにおいて潜在的な拡散モデル(LDMs)を調整するためのテキストからステッカーのレシピ
GenAI、Metaの研究者チームは、ステッカー画像生成のための潜在拡散モデル(LDM)の微調整方法であるStyle Tailoringを紹介し、視覚の品質向上、プロンプトの整列、シーンの多様性の向上を図っています。彼らの研究は、Emuのようなテキストから画像へのモデルを使い、フォトリアリスティックなモデルに頼っているとステッカー生成において整列や多様性において問題が生じることを発見しました。Style Tailoringには以下の要素が含まれます: ステッカー風の画像の微調整。 整列とスタイルのためのヒューマンインザループのデータセット。 トレードオフの対応。 コンテンツとスタイル分布の同時フィッティング。 この研究では、LDMを利用したテキストから画像の生成の進歩を振り返り、その特徴として、高品質の画像を自然言語の記述から生成できることを強調しています。テキストから画像のタスクのためにLDMを微調整する際のプロンプトとスタイルの整列のトレードオフに対応した前の研究には、特定のスタイルやユーザーが提供した画像に基づいて事前学習された拡散モデルを整列させるなど、さまざまな微調整戦略が含まれています。報酬重み付けされた尤度最大化およびヒューマンの選択に基づいてImageRewardモデルを訓練することで、プロンプトとファッションの整列の課題に取り組んでいます。Style Tailoringは、推論時の遅延なしでスタイルとテキストの信頼性のトレードオフをバランスさせることを目指しています。 この研究では、拡散ベースのテキストから画像へのモデルの進歩について探求し、オプティマルな結果を得るための戦略的な順序での微調整の重要性を強調しています。視覚的に魅力的なステッカーを生成するために、Style Tailoringの導入は迅速な整列、視覚的多様性、技術的一致性を最適化することを目指しています。この手法には、弱く整列した画像とヒューマンインザループ、専門家インザループの段階を含んでいます。また、生成されたステッカーにおける透明性とシーンの多様性の重要性にも強調が置かれています。 この手法は、ドメインの整列、プロンプトの改善のためのヒューマンインザループの整列、スタイルの向上のための専門家インザループの整列を含む、テキストからステッカーの生成のためのマルチステージの微調整手法を提案しています。ドメインの整列には弱く教師ありのステッカー風の画像が使用されます。提案されたStyle Tailoringの方法は、コンテンツとスタイルの分布の最適化を共同で行い、プロンプトとファッションの整列のバランスを取ることができます。評価には、視覚の品質、迅速な整列、スタイルの整列、生成されたステッカーのシーンの多様性などの人間の評価とメトリックが含まれます。 Style Tailoringの方法は、ステッカーの生成を大幅に向上させ、視覚の品質を14%、プロンプトの整列を16.2%、シーンの多様性を15.3%向上させ、ベースのEmuモデルに比べて優れた性能を発揮しています。さまざまなグラフィックスタイルにおいて汎化性能も備えています。ベースラインモデルとの比較により、この手法の有効性が示され、主要な評価メトリックでその優位性が確立されています。 この研究では、ステッカー生成においてフォトリアリスティックなモデルの迅速なエンジニアリングに頼ることで、プロンプトの整列とシーンの多様性に制約が生じることを認識しています。Style tailoringはプロンプトとスタイルの整列を改善しますが、トレードオフのバランスを取ることは依然として難しいです。また、この研究はステッカーに焦点を当てており、他のドメインへの汎化能力の調査は限定されています。より大規模なモデルへの拡張性、網羅的な比較、データセットの制約、倫理的な考慮点は、今後の研究の注目すべき領域です。より充実した評価とテキストから画像生成における広範な応用と潜在的なバイアスについての議論が有益です。 総括すると、Style TailoringはLDMによって生成されたステッカー画像の視覚的品質、プロンプトの整列、シーンの多様性を効果的に向上させます。ベースのEmuモデルと比較して、それぞれ14%、16.2%、15.3%の向上を実現しました。この手法は複数のスタイルに適用可能で、低遅延を維持します。最適な結果を得るために、戦略的な順序での微調整ステップの重要性を重視しています。
大規模な言語モデル:DeBERTa — デコーディング強化BERTと解釈された注意力
最近、BERTは多くの自然言語処理の課題で第一のツールとなりました情報の処理と理解、高品質の単語埋め込みの構築能力に優れています…
NVIDIAのGPUはAWS上でOmniverse Isaac Simにおいて2倍のシミュレーションの進化を提供し、スマートなロボットの加速を実現します
クラウド上でよりインテリジェントなロボットを開発することが、スピードの倍増をもたらします。 NVIDIA Isaac SimとNVIDIA L40S GPUsがAmazon Web Servicesに導入され、開発者はクラウド上で加速されたロボットアプリケーションを構築および展開することができます。 AI対応ロボット用の拡張可能なシミュレータであるIsaac Simは、NVIDIA Omniverse開発プラットフォーム上に構築され、OpenUSDアプリケーションの構築と接続を可能にします。 AIコンピューティングの強力さとグラフィックスおよびメディアの高速化を組み合わせると、L40S GPUは次世代のデータセンターワークロードのパワーになります。 Ada Lovelaceアーキテクチャに基づいたL40Sは、過去の世代と比較してOmniverseに対して最大3.8倍の性能向上をもたらし、エンジニアリングおよびロボティクスチームの性能を向上させます。 加速による世代間の飛躍により、Isaac Simを使用した幅広いロボットシミュレーションタスクにおいて、L40S GPUはA40 GPUと比較して2倍の高速パフォーマンスを実現します。 L40S GPUは、言語モデルの微調整から画像へのテキスト変換やチャットアプリケーションへのリアルタイム推論など、生成的AIのワークロードでも活用することができます。 NVIDIA L40Sの新しいAmazon Machine…
「変革を受け入れる:AWSとNVIDIAが創発的なAIとクラウドイノベーションを進める」
Amazon Web ServicesとNVIDIAは、最新の生成AI技術を世界中の企業にもたらします。 AIとクラウドコンピューティングを結び付けることで、NVIDIAの創設者兼CEOであるジェンセン・ファングとAWSのCEOであるアダム・セリプスキーが火曜日にラスベガスのヴェネチアンエキスポセンターで開催されたAWS re:Invent 2023のステージで合流しました。 セリプスキーは、「AWSとNVIDIAのパートナーシップの拡大を発表できることに「興奮している」と述べ、高度なグラフィックス、機械学習、生成AIインフラストラクチャを提供する新しい製品を提供する予定です。 2社は、AWSが最新のNVIDIA GH200 NVL32 Grace Hopper Superchipと新しいマルチノードNVLinkテクノロジーを採用する最初のクラウドプロバイダであること、AWSがNVIDIA DGX CloudをAWSに導入していること、また、AWSがNVIDIAの人気のあるソフトウェアライブラリを一部統合していることを発表しました。 ファングは、NVIDIAの主要なライブラリがAWSと統合されていることを強調し、データ処理、量子コンピューティング、デジタルバイオロジーなどの領域に対応するNVIDIA AI EnterpriseからcuQuantum、BioNeMoまでの範囲が補完されていることを説明しました。 このパートナーシップにより、AWSは数百万人の開発者とこれらのライブラリを使用している約40,000社の企業にアクセスが開放されるとファングは述べ、AWSがNVIDIAの新しいL4、L40S、そしてまもなくH200 GPUも含めたクラウドインスタンスの提供を拡大していることを喜んでいると付け加えました。 その後、セリプスキーは、AWSデビューとなるNVIDIA GH200 Grace Hopper…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.