Learn more about Search Results A - Page 103

機能データの異常検出のための密度カーネル深度’ (Kinō dēta no ijō kenshutsu no tame no mitsudo kāneru shinshitsu)

密度カーネル深度(DKD)法は、機能データの異常値を検出するための微妙なアプローチを提供し、複雑なデータセットでの明確さを確保し、データの品質を保証しますデータの風景がますます複雑になる中で、その適用は重要となります

このAI研究は、高品質なビデオ生成のための2つの拡散モデル、テキストからビデオ(T2V)モデルと画像からビデオ(I2V)モデルを紹介します

“`html 香港の研究者チームが、高品質な動画生成のための2つのオープンソース拡散モデルを紹介しました。テキストからビデオ(T2V)モデルは、他のオープンソースのT2Vモデルよりも優れたパフォーマンスでシネマクオリティのビデオを生成します。一方、画像からビデオ(I2V)モデルは、参照画像をビデオに変換しながらコンテンツ、構造、スタイルを保持します。これらのモデルは、研究者やエンジニアにとって貴重なリソースを提供し、学術界や産業界のビデオ生成技術を進歩させることが期待されています。 拡散モデル(DM)は、テキストから画像やビデオの生成を含むコンテンツ生成において優れた実績を残しています。Make-A-Video、Imagen Videoなどのビデオ拡散モデル(VDM)は、オープンソースのT2Vモデルにおいて時間的一貫性を確保するためにStable Diffusion(SD)フレームワークを拡張しました。しかし、これらのモデルには解像度、品質、構成上の制約があります。これらのモデルは、コミュニティ内の既存のオープンソースのT2Vモデルよりも優れたパフォーマンスを発揮し、技術の進歩をもたらします。 生成モデル、特に拡散モデルは、画像とビデオの生成を進化させてきました。オープンソースのテキストから画像(T2I)モデルは存在しますが、T2Vモデルは限定的です。T2Vには時間的アテンションレイヤーと一貫性のための共同学習が含まれており、I2Vは画像のコンテンツと構造を保持します。研究者はこれらのモデルを共有することで、オープンソースコミュニティを強化し、ビデオ生成技術を前進させることを目指しています。 研究では、T2VおよびI2Vの2つの拡散モデルを提案しています。T2Vは、3D U-Netアーキテクチャを使用し、空間・時間ブロック、畳み込み層、空間・時間トランスフォーマー、およびデュアルクロスアテンションレイヤーを備え、テキストと画像のエンベッディングを整列させます。I2Vは画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。両モデルは学習可能なプロジェクションネットワークを使用してトレーニングされます。評価は、ビデオの品質とテキストとビデオ間の整合性に関するメトリックを使用します。 提案されたT2VおよびI2Vモデルは、他のオープンソースモデルよりも優れたビデオ品質とテキスト-ビデオの整合性を発揮します。T2Vはノイズ除去3D U-Netアーキテクチャを使用しており、生成されたビデオにおいて高い視覚的忠実度を提供します。I2Vは効果的に画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。Gen-2、Pika Labs、ModelScopeなどのモデルとの比較分析では、視覚品質、テキスト-ビデオの整合性、時間的一貫性、モーション品質のすぐれたパフォーマンスが示されました。 まとめると、ビデオ生成のための最近のT2VおよびI2Vモデルの導入は、コミュニティの技術的進歩を推進する上で大きなポテンシャルを示しています。これらのモデルはビデオ品質とテキスト-ビデオの整合性の面で優れたパフォーマンスを発揮していますが、生成されたビデオの持続時間、解像度、モーション品質などの領域で将来の改善が必要です。しかし、これらのオープンソースモデルの開発により、研究者はこの分野におけるさらなる改善が可能と信じています。 将来的には、フレームの追加やフレーム補間モデルの作成を検討することで、モデルの持続時間を2秒以上に延長することができるでしょう。解像度を向上させるために、ScaleCrafterとの協力や空間的アップスケーリングの使用を検討することができます。モーションと視覚品質を向上させるために、より高品質なデータとの協力を検討することも有益です。画像プロンプトの追加や画像条件付きブランチの研究なども、拡散モデルを使用した視覚的忠実度の向上とともにダイナミックなコンテンツの生成を創造するためのポテンシャルがあります。 “` “`html 香港の研究者チームが高品質な動画生成のための2つのオープンソース拡散モデルを紹介しました。テキスト入力から映画のような品質のビデオを生成するテキストからビデオ(T2V)モデルは、他のオープンソースのT2Vモデルを凌駕する性能を誇ります。一方、参照画像をコンテンツ、構造、スタイルを保持しながらビデオに変換する画像からビデオ(I2V)モデルもあります。これらのモデルは、学術界や産業界でのビデオ生成技術の進歩に貢献し、研究者やエンジニアにとって貴重なリソースとなることでしょう。 拡散モデル(DM)は、テキストから画像やビデオの生成などのコンテンツ生成において優れた成果を上げてきました。Make-A-VideoやImagen Videoなどのビデオ拡散モデル(VDM)では、オープンソースのT2Vモデルに時間的な一貫性を確保するためにStable Diffusion(SD)フレームワークが拡張されています。しかし、これらのモデルには解像度や品質、構成の制限があります。これらのモデルは既存のオープンソースのT2Vモデルを上回り、コミュニティのテクノロジーの進歩を促進することが期待されています。 生成モデル、特に拡散モデルは、画像やビデオの生成において進歩を遂げてきました。オープンソースのテキストから画像(T2I)モデルは存在しますが、T2Vモデルは限られています。T2Vモデルには時間的なアテンションレイヤーや一貫性のための共同トレーニングが含まれており、I2Vモデルには画像のコンテンツと構造を保持する機能があります。研究者たちはこれらのモデルを共有することで、オープンソースコミュニティを支援し、ビデオ生成技術を前進させようとしています。 この研究では、T2VモデルとI2Vモデルの2つの拡散モデルが提案されています。T2Vモデルは、3D U-Netアーキテクチャ、空間・時間ブロック、畳み込み層、空間・時間トランスフォーマー、デュアルクロスアテンション層を使用して、テキストと画像の埋め込みを整列させます。I2Vモデルは画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。両モデルは学習可能なプロジェクションネットワークを使用してトレーニングされます。評価では、ビデオの品質とテキストとビデオの整合性のためのメトリックが使用されます。 提案されたT2VモデルとI2Vモデルは、他のオープンソースモデルを上回るビデオの品質とテキストとビデオの整合性を発揮しています。T2Vモデルは、ノイズリダクション3D U-Netアーキテクチャを使用して、生成されたビデオの高い視覚的忠実度を提供します。I2Vモデルは画像をビデオクリップに変換し、コンテンツ、構造、スタイルを保持します。Gen-2やPika…

「チャットGPTとAIを使ってオンラインでお金を稼いでいる方法」

過去の1年間で、私はオンラインコンテンツを拡大し、10万以上の読者に届けることができましたさらに、最初のUdemyコースを作成し、YouTubeチャンネルを開設し、初めての電子書籍を出版する作業も進行中です私はすべてに心を注いでいます

このAI研究は、「Atom」という低ビット量子化技術を導入し、効率的かつ正確な大規模言語モデル(LLM)の提供を行っています

大規模言語モデル(LLM)は、最近の人工知能コミュニティで最新の導入であり、世界中で大きな話題となっています。これらのモデルは、その驚異的な能力により、研究者、科学者、学生など、誰もが利用しています。これらのモデルは、質問に答える、コンテンツを生成する、テキストを要約する、コードを完成させるなど、人間を模倣する潜在能力を持つため、非常に進歩してきました。 LLMは、感情分析、インテリジェントなチャットボット、コンテンツ作成など、多くのドメインで必要とされています。これらのモデルは、多くの計算リソースを使用するため、GPUリソースを効果的に利用してスループットを増加させます。これは、複数のユーザリクエストをバッチ処理することによって行われ、さらにメモリ効率と計算能力を向上させるために、LLMの量子化技術が使用されています。ただし、8ビットのウェイト-アクティベーションの量子化など、既存の量子化手法では、新しいGPUの可能性を十分に活用していません。これらのGPU上の整数演算子は4ビットですので、現在の量子化技術は最大の効率を追求した設計ではありません。 この問題を解決するために、研究者たちはAtomという新しい方法を導入しました。Atomは、精度を犠牲にせずにスループットを大幅に増加させるために作成されたロービットの量子化技術です。これを達成するために、低ビットの演算子と低ビットの量子化を使用してメモリ使用量を削減します。Atomは細粒度と混合精度の量子化の特別な組み合わせを使用して優れた精度を維持します。 研究チームは、Atomが具体的なセットアップでの最大スループットを保ちながら、4ビットのウェイト-アクティベーションの量子化構成で評価されたことを共有しました。その結果、Atomは従来の16ビット浮動小数点(FP16)アプローチと比較してエンドツーエンドのスループットを最大7.73倍向上させ、8ビットの整数(INT8)量子化と比較して2.53倍向上させることが示されました。これにより、Atomは彼らのサービスへの需要の増加に対応するための実用的な解決策となり、望ましい応答時間を維持しながらLLMがリクエストを処理する速度を大幅に向上させます。 研究者たちは、主な貢献を以下のようにまとめました。 研究のパフォーマンス分析の一環として、LLMの提供が徹底的に分析されました。低ビットのウェイト-アクティベーションの量子化手法を使用することによる重要なパフォーマンスの利点が特定されました。 Atomというユニークで正確なロービットのウェイト-アクティベーションの量子化手法が提示されました。 研究チームは、ピークパフォーマンスを保証するためにさまざまな戦略を採用していることを共有しました。混合精度を使用し、主要なアクティベーションとウェイトは精度を保ったまま、残りの部分は低精度を使用しています。細かいグループの量子化は、量子化プロセス中のエラーを減らすために使用されています。 Atomは動的アクティベーションの量子化を使用し、各入力の一意の分布に合わせて量子化エラーを減らします。さらに全体のパフォーマンスを向上させるために、この方法はキーバリューキャッシュの量子化にも対応しています。 研究では、長期管理(LLM)の提供のための統合フレームワークも提案されています。研究チームは効果的な推論システムを共同設計し、Atomの実際の環境での有用なエンドツーエンドのスループットと待ち時間を示しています。 Atomのパフォーマンスは徹底的に評価され、Atomはわずかな精度の損失を伴う可能な最大スループットの向上を実現することが示されています。

この中国のAIモデル、Baichuan2-192kモデルはChatGPTやClaude2を超えることができるのか? 最長のコンテキストモデルを持つBaichuan Intelligentが公開した、この中国のスタートアップ「Baichuan Intelligent」のモデルに会いましょう

AIの優位性を争う中で、中国のAIスタートアップ、百川インテリジェントが最新の大容量言語モデル、百川2-192Kを発表し、長文プロンプトの処理において新たな基準を設定しました。この開発は、中国がグローバルなAIのランドスケープにおいて先駆者としての地位を確立する意気込みを示しています。 小説や法的文書、財務報告書など、大量のテキストプロンプトを扱うAIモデルへの需要が高まっています。従来のモデルは長文に苦戦することが多く、各業界でより強力で効率的な解決策が求められています。 現在、AIのランドスケープはOpenAIやMetaなどの西洋の巨大企業によって支配されており、彼らは絶えず革新的で洗練されたモデルをリリースしています。百川インテリジェントの新作、百川2-192Kは、これらの確立されたプレイヤーに挑戦します。 百川インテリジェントは、搜狗の創設者である王小川が起業した会社であり、画期的な大容量言語モデルである百川2-192Kを紹介しました。このモデルは、「コンテキストウィンドウ」という素晴らしい機能を搭載しており、一度に約35万文字の中国語の処理が可能です。比較すると、OpenAIのGPT-4-32kを14倍、AmazonがバックアップするAnthropicのClaude 2を4.4倍上回り、長文プロンプトの取り扱いに強力なツールとなっています。 百川2-192Kの主な革新点は、広範なテキストをシームレスに処理できる能力にあります。このモデルは小説の要約や品質の高い応答、長文の理解などに優れており、カリフォルニア大学バークレー校などの米国の機関が主導するプロジェクトであるLongEvalのテスト結果によって実証されています。このモデルの素晴らしいコンテキストの長さは、パフォーマンスを損なうことなく、動的な位置エンコーディングと分散トレーニングフレームワークの技術的な革新によって実現されています。百川2-192Kの優れた能力は、法律、メディア、金融などの産業において不可欠なツールとなっています。長文の処理および生成能力は、これらのセクターにおいて重要です。ただし、より多くの情報を処理できる能力が必ずしも他のモデルよりも優れているとは限らないことに留意することも重要です。これに関しては、スタンフォード大学とUCバークレーの共同研究でも指摘されています。 百川インテリジェントのAIセクターでの急速な台頭は、設立からわずか6か月でユニコーンクラブへの参加を果たすなど、中国がAI技術の可能性を広げることへの取り組みを示しています。現在、アメリカの企業がAIハードウェアとソフトウェアでリードを占めていますが、百川の積極的な戦略と技術革新は、AIの進化するランドスケープを示しています。百川2-192Kの発表は、AIの優位性を争う競争が終わりを告げたわけではなく、中国が西洋の巨大企業の支配に挑戦する意欲を示しています。百川2-192Kは、特に長文プロンプトの取り扱いにおいてAI技術の可能性の限界を押し上げる画期的なモデルです。その優れたコンテキストの長さと品質の高い応答は、さまざまな産業にとって貴重なツールとなります。

サムスンは、「Gauss」という新しいAI言語モデルを発表し、ChatGPTの支配に挑む

サムスンは、Gaussという新しい人工知能(AI)言語モデルを発表しました。これはOpenAIのChatGPTと競合するものとして注目されています。Gaussは、自然言語処理(NLP)、機械翻訳、テキスト生成などさまざまなタスクに使用できる生成型事前学習トランスフォーマーモデルです。 Gaussの主な特徴 Gaussは、サムスンが開発した新しいAIアーキテクチャに基づいています。このアーキテクチャは、以前のアーキテクチャよりも効率的でスケーラブルに設計されており、Gaussが情報をより迅速かつ正確に処理できるようにしています。 Gaussは、他のモデルが見つけることができないデータのパターンを認識し、利用することができるため、新しいデータからより迅速に学習することも可能です。 Gaussは何ができるのか? Gaussは、次のようなさまざまなタスクに使用できます: 自然言語処理(NLP):Gaussは、人間の言語を理解し生成するために使用できます。これには、機械翻訳、テキスト要約、質問応答などのタスクが含まれます。 機械翻訳:Gaussは、テキストを別の言語に翻訳するために使用できます。英語、フランス語、スペイン語、中国語、日本語などの言語が含まれます。 テキスト生成:Gaussは、新しいテキストを生成するために使用できます。クリエイティブなコンテンツの作成、コードの生成、音楽の作曲などのタスクが含まれます。 サムスンのGaussへの目標 サムスンは、Gaussが新しい革新的なAIパワード製品やサービスの開発に活用されることを期待しています。同社は、Gaussがコンピュータとのインタラクションの方法を革新する可能性を信じています。 主なポイント サムスンは、OpenAIのChatGPTと競合する新しいAI言語モデル「Gauss」を発表しました。 Gaussは、NLP、機械翻訳、テキスト生成などさまざまなタスクに使用できる生成型事前学習トランスフォーマーモデルです。 Gaussは、サムスンが開発した新しいAIアーキテクチャに基づいています。 Gaussは、以前のAIモデルよりも新しいデータからより迅速に学習することができます。 Gaussは、NLP、機械翻訳、テキスト生成などさまざまなタスクに使用できます。 サムスンは、Gaussを活用して新しい革新的なAIパワード製品やサービスの開発を目指しています。 参考文献: https://me.mashable.com/tech/34602/samsung-unveils-chatgpt-alternative-gauss-heres-what-all-it-can-do#google_vignette https://www.ithome.com/0/730/847.htm https://www.hayo.com/article/654aee5ccf78634039cd63d3 この記事の投稿元:Samsung Introduces…

このAI研究により、チップデザインに適した言語モデルの独自な手法が紹介されています

ChipNeMoは、市販のLLMに頼らずに、ドメイン適応技術を用いた産業用チップデザインにおけるLLMの利用を探求しています。これらの技術には、カスタムのトークナイゼーション、ドメイン適応の事前学習、ドメイン特化のガイダンスを用いた教師付き微調整、およびドメイン適応型の検索モデルが含まれます。この研究では、チップデザインにおけるこれらの手法を3つのLLMの応用によって評価し、一般的なモデルと比較して注目すべき性能向上をもたらしました。これにより、さまざまな設計タスクにおいてモデルサイズを大幅に削減し、同等または改善されたパフォーマンスを実現するとともに、ドメイン適応型LLMのさらなる改良の可能性を示しました。 この研究では、LLMのドメイン特化応用に焦点を当てながら、さまざまなドメインにおける特許データの存在を強調しています。知識集約型の自然言語処理(NLP)とコード生成タスクの向上を目指し、疎な検索および密な検索手法を組み合わせた検索拡張型生成に探求します。従来のチップデザインの研究では、Verilogコード生成などのタスクにおいてドメイン特化のデータにオープンソースのLLMを微調整することでパフォーマンスが向上しています。また、チップデザインにおけるドメイン適応型LLMアプローチのさらなる探求と改善を呼びかけています。 電子設計自動化(EDA)ツールは、チップデザインの生産性を向上させていますが、いくつかの時間を要する言語関連のタスクはまだ完了する必要があります。LLMは、チップデザインにおけるコード生成、エンジニアリング応答、分析、およびバグトライアージを自動化することができます。以前の研究では、LLMを使用したRTLおよびEDAスクリプトの生成について探求されています。ドメイン特化のLLMは、ドメイン特化のチップデザインタスクにおいて優れたパフォーマンスを発揮します。目標は、モデルのサイズを減らしながらLLMのパフォーマンスを向上させることです。 チップデザインのデータは、カスタムトークナイザを通じて処理され、分析に適した状態に最適化されました。ドメイン適応型の継続的事前学習手順は、プリトレーニングされた基礎モデルを微調整し、チップデザインのドメインに合わせるために行われました。教師付き微調整は、ドメイン特化と一般的なチャットインストラクションデータセットを活用してモデルのパフォーマンスを改善しました。ドメイン適応型の検索モデルは、TF-IDFとBM25などの疎な検索手法、および事前学習モデルを使用した密な検索手法を包括し、情報検索と生成を向上させるために活用されました。 ChipNeMoにおけるドメイン適応技術は、エンジニアリングチャットボット、EDAスクリプト生成、およびバグ分析などのチップデザインのLLMにおいて注目すべき性能向上をもたらしました。これらの手法はモデルサイズを大幅に削減するだけでなく、さまざまな設計課題でパフォーマンスを維持または向上させました。ドメイン適応型の検索モデルは、一般的なモデルを凌駕し、注目すべき改善を示しました。教師なしモデルと比較して2倍の改善を達成し、Sentence Transformerモデルと比較して30倍のパフォーマンス向上を示しました。マルチチョイスのクエリとコード生成の評価基準により、モデルの正確性と効果を数値化した洗練された評価が提供されました。 まとめとして、カスタムトークナイゼーション、ドメイン適応型の事前学習、ドメイン特化の教師付き微調整、およびドメイン適応型の検索モデルなどのドメイン適応型技術は、チップデザインのLLMのパフォーマンスを大幅に向上させるものです。ChipNeMoモデル(ChipNeMo-13B-Chatなど)は、エンジニアアシスタントチャットボット、EDAスクリプト生成、およびバグ分析のタスクにおいてベースモデルと比較して同等または優れた結果を示し、より強力なLLaMA2 70Bモデルとのパフォーマンス差を縮めています。

「VoAGIニュース、11月8日:Python、SQL、Scikit-learn、PyTorch&Google Cloudをマスターするための5つの簡単なステップ•データ可視化のためのSQL」

今週のVoAGIでは、Python、SQL、Scikit-learn、PyTorch、Google Cloud Platformのマスターを助けるためのVoAGI Back to Basics Getting Started in 5 Stepsシリーズに参加してください•データ可視化でSQLのパワーを解放しましょう:インパクトのあるチャートやグラフのためのデータ準備の技術をマスターしましょう•そして…

「Matplotlibを使用したプロットのスタイリング方法」

数十年前、母親はクリスマスプレゼントとして私にマルーンのベロアのトラックスーツをくれましたそれはひどいものでしたが、私はそれが現代的なスタイルではないと返答しました彼女は嘲笑的に鼻で笑って言いました、「あなたが…」(An approximate translation)

「アマゾン対アリババ:会話型AI巨大企業の戦い」

テクノロジーの絶え間ない進化の中で、2つのグローバル企業が会話型AIの領域で真っ向勝負を繰り広げる。eコマースの巨人であるAmazonと、中国のテクノロジータイタンであるAlibabaは、AIパワードインタラクションの風景を作り変える準備を整えている。このブログでは、これらの進展に関するキーポイントと、会話型AI市場を制覇するために彼らの努力がもたらす影響について掘り下げていく。 Amazonのオリンパス – 挑戦者 Amazonは革新には慣れており、会話型AIの領域への最新の進出は、その卓越性への執念の証拠である。彼らの新しい大規模言語モデルであるオリンパスは、OpenAIやMicrosoftなどの業界リーダーとの競争に挑むために作られている。オンライン小売プラットフォームの強化だけではなく、オリンパスはAlexa音声アシスタント内の機能を駆動し、Echoなどのデバイスを豊かにし、Amazon Web Services(AWS)を強化することを目指している。舞台は用意され、Amazonは挑戦に備えている。 タイタンの挑戦 Amazonがオリンパスを前進させる一方、AWSの以前の提供であるタイタンは、OpenAIのChatGPTの言語モデル技術とのパフォーマンスの比較についての懸念から遅れている。オリンパスの完成と展開の正確なタイムラインは未確定ではあるが、Amazonは頑健な会話型AIソリューションを市場に提供することを決意している。企業の顧客が高度なAI技術を求める中、オリンパスと競合他社との戦いは激しいものになるだろう。 Alibabaの統一千問2.0 – 中国の挑戦者 引けを取らないように、クラウドコンピューティングとeコマースの大手であるAlibabaは、会話型AIの領域で進歩を遂げている。最近、彼らは最新の大規模言語モデルである統一千問2.0を発表した。AIの大局において、大規模言語モデルはOpenAIが開発したChatGPTと同様に、生成型AIアプリケーションの基盤として機能する。Alibabaの統一千問2.0は、前身よりも大幅に進化したとされており、AmazonやMicrosoftなどの米国のテクノロジーカウンターパートと競争しようとしていることを示している。 グローバル対決 AmazonとAlibabaの両社がAIの優位性を目指していることで、会話型AI市場はグローバルな対決に向けて準備が整っている。これらのテック巨人は資源、専門知識、決意を持ってAIパワードシステムとの相互作用方法を再定義しようとしている。企業の顧客がますます高度な会話型AIソリューションを求める中、これらの産業の重鎮間の競争は疑いなくこの新興分野の未来を形作るだろう。 我々の意見 AmazonのオリンパスとAlibabaの統一千問2.0の出現は、会話型AIの世界における激しい競争を浮き彫りにしている。消費者と企業の両者がますます洗練されたAIアプリケーションの恩恵を受ける中、技術の未来は動的でエキサイティングなものとなると予想される。これらの巨人の戦いが繰り広げられる間、会話型AIにおける革新と進歩が私たちのデジタルインタラクションを大きく形作っていくことは明らかだ。これらの驚くべきAIの進化を目撃することを楽しみにしている。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us