Learn more about Search Results コンポーネント - Page 13
- You may be interested
- これらの4つのパッケージで、あなたの探索...
- 2023年の練習のためのトップ18のPower BI...
- 「10000 DALL-Eのクレジットでは買えない...
- 「見えないものを拡大する:この人工知能A...
- AIにおける継続的学習の現状について
- 「コマンドバーの創設者兼CEO、ジェームズ...
- 機械をより人間らしく学習させるトレーニング
- アーティスの創設者兼CEO、ウィリアム・ウ...
- この秋登場予定:NVIDIA DLSS 3.5 が Chao...
- ランダムウォークタスクにおける時差0(Tem...
- NLP、NN、時系列:Google Trendsのデータ...
- SiMa.aiが世界最強のAIチップをインドに持...
- 画像拡張のための生成的対立ネットワーク...
- ChatGPT モデレーション API 入力/出力制御
- ハギングフェイスがSafeCoderを導入:エン...
リアルタイムで命を救うビッグデータ:IoVデータ分析が事故を予防するのを助ける
この投稿では、IoVデータ分析で注意が必要な点について説明し、リアルタイム分析プラットフォームと実際のリアルタイム分析プラットフォームの違いを実世界の例を使って示します
クラウド移行のマスタリング:成功させるためのベストプラクティス
「クラウド移行のプロセスはどれも同じではありません各システムには独自の要件があります始めるには、この記事をチェックして、試行された実践方法を確認してください」
LMQL — 言語モデル用のSQL
「SQLについて聞いたことがあるか、あるいはスキルを習得したことがあるはずですSQL(Structured Query Language)はデータベースデータの操作に広く利用される宣言型言語です年次のStackOverflow調査によると...」
ダイナミックなチャットアプリケーションの構築:FastAPIでChatGPTの設定とReactJSでの会話の表示
このブログでは、FastAPIバックエンドでChatGPTをセットアップし、ReactJSフロントエンドとシームレスに統合するプロセスを案内します
エンタープライズAIプラットフォームは、Amazon Bedrockを利用したものです
さまざまな基礎モデルを使用したAmazon Bedrockの解説と、エンタープライズGen AIプラットフォームの構築方法についてのガイド
アプリケーションの近代化における生成AIの活用
「生成AIは、極度の自動化の時代において、アプリケーションの近代化プログラムを加速させるための強力なエンエーブラーとなっています」
バイトダンス(ByteDance)は、画像やテキストの指示を組み合わせた、拡散モデルに基づく画期的なビデオ生成手法「PixelDance」を紹介しました
ByteDance Researchの研究チームがPixelDanceを紹介しました。PixelDanceはテキストと画像の指示を利用して、多様かつ複雑な動きを持つビデオを作成するための手法です。この手法により、研究者は複雑なシーンやアクションを特長とするビデオを合成し、ビデオ生成の分野で新たな基準を設定しています。PixelDanceは、制限された動きしかない既存のモデルを超越して、複雑な設定とアクティビティを持つビデオを合成することに優れています。このモデルは、さまざまな画像の指示を取り入れ、時空的に一貫したビデオクリップを組み合わせて合成写真を生成します。 従来のシーンに特化したテキストからビデオを生成するモデルとは異なり、PixelDanceは初めと最後のフレームの画像指示を利用してビデオの複雑さを高め、より長いクリップを生成することができます。この革新は、特にドメイン外のコンテンツに見られる運動やディテールの制限を克服しています。画像指示の利点を強調することにより、PixelDanceは複雑なシーン、ダイナミックなアクション、複雑なカメラの動きを持つ高ダイナミックなビデオを生成するソリューションとして確立されています。 PixelDanceのアーキテクチャは、拡散モデルと変分オートエンコーダを組み合わせて、画像指示を入力空間にエンコードします。トレーニングと推論の技術は、公開されているビデオデータを利用してビデオのダイナミクスを学習します。PixelDanceは、セマンティックマップ、スケッチ、ポーズ、バウンディングボックスなど、さまざまな画像指示に拡張されます。質的分析は、テキスト、最初のフレーム、最後のフレームの指示が生成されたビデオの品質に与える影響を評価します。 PixelDanceは、MSR-VTTとUCF-101のデータセットに基づいて、FVDおよびCLIPSIMの指標に基づいて、これまでのモデルを上回る結果を示しました。UCF-101での抜粋研究では、PixelDanceのテキストと最後のフレームの指示のようなコンポーネントの連続クリップ生成への効果を示しています。この手法は、高品質なビデオデータのトレーニング、ドメイン固有の微調整、モデルのスケーリングなど、改善の道筋を示唆しています。PixelDanceはゼロショットのビデオ編集を実現し、それを画像編集のタスクに変換します。MSR-VTTおよびUCF-101のデータセットで、テキストプロンプトと一致する高品質で複雑なビデオを生成する印象的な定量評価結果を達成しています。 PixelDanceは、複雑なシーンとアクションを持つ高品質なビデオを合成することに優れており、最先端のモデルを超越しています。テキストプロンプトとの関連性により、ビデオ生成の進化の可能性を見せています。ドメイン固有の微調整やモデルのスケーリングなどの改善点が明確にされています。PixelDanceはゼロショットのビデオ編集を導入し、それを画像編集のタスクに変換して、時空的に一貫したビデオを安定して生成します。定量的な評価によって、テキストプロンプトに基づいて高品質で複雑なビデオを生成する能力が確認されています。 PixelDanceは、明示的な画像とテキストの指示に依存するため、未知のシナリオへの一般化が制限される可能性があります。評価は主に定量的な指標に焦点を当てており、より主観的な品質評価が必要です。トレーニングデータソースの影響や潜在的なバイアスについては、十分に探求されていません。スケーラビリティ、計算要件、効率性についても十分に議論される必要があります。特定のビデオコンテンツタイプの取り扱いに制限があるモデルの制約については、明確化が必要です。例外を除いて、多様なドメインや例外を超えたビデオ編集タスクへの汎化性を十分に考慮する必要があります。
「LQ-LoRAに会ってください:効率的な言語モデルの微調整のための低ランク量子化行列分解を可能にするLoRAの派生版」
人工知能の急速な進化の時代において、大規模言語モデル(LLM)の導入は、機械と人間の相互作用のあり方を変革しました。最近の数ヶ月間には、信じられないほどの能力と超高度なアルゴリズムを持つ、数多くのLLMが開発されています。GPT 3.5、GPT 4、LLaMa、PaLMなどのモデルは、自然言語理解(NLU)、処理、翻訳、要約、さらにはコンテンツ生成において、いくつかの例外的な人間の模倣能力を発揮しています。 これらのLLMは、膨大な量のデータで訓練されています。しかし、これらのモデルが新しいデータセットに適応する際には課題があります。これらの大規模なLLMを新しいデータセットに適応させる際には、フルファインチューニングには多額の費用とメモリの要件がかかります。LLMのファインチューニングにおけるメモリ効率の問題に対処するために、最近では、研究チームがパラメータ効率の高いファインチューニング手法のアイデアを発表しました。 元の事前学習済みモデルに対して小さなファインチューニング拡張を学習することにより、これらの技術はファインチューニングに必要なメモリ量を減らすことができます。低ランク適応(LoRA)は、効果的なLLM適応のための人気のある戦略であり、事前学習済みモデルの重み行列を再パラメータ化し、そのうちの2つの要素(L1とL2)のみをファインチューニングします。残りの要素は変更されません。 研究者たちは、LoRAのメモリ効率を向上させるために、量子化された事前学習済みモデルに適用しました。メモリの節約のために、量子化はモデルのパラメータの精度を低下させますが、量子化が大きい場合はゼロ初期化が最適ではありません。量子化エラーを克服するために、チームはLQ-LoRAと呼ばれるLoRAの一つのバリエーションを導入しました。 LQ-LoRAは、主成分分析(PCA)に影響を受けた反復技術を使用して、重み行列を量子化コンポーネントQと低ランクコンポーネントL1L2に分解します。LQ-LoRAでは、L1とL2は適応中に改良され、初期の重み行列の高分散部分空間をキャプチャします。 この研究では、整数線形計画法を使用して、すべてのレイヤーに同じ量子化構成を適用する問題を解決するための混合量子化方式を見つけ出しています。全体の目標ビットレートが与えられた場合、この技術では各行列にビットとブロックサイズを含むさまざまな構成を割り当てることができます。 チームは、LQ-LoRAを使用して、RoBERTaとLLaMA-2のサイズが異なるモデル、7Bと70Bを改変しました。その結果、LQ-LoRAはGPTQ-LoRAや強力なQLoRAのベースラインよりも優れたパフォーマンスを示しました。OpenAssistantベンチマークで4ビットのQLoRAを使用したモデルと競合する2.5ビットのLLaMA-2モデルをトレーニングする能力は、提案された手法がより積極的な量子化を可能にすることを示しています。 LQ-LoRAは、データセット校正言語モデルに調整された後のモデル圧縮においても優れたパフォーマンスを示しました。ビットレートが低下したにもかかわらず、チームは完全な精度で元のモデルと競合する2.75ビットのLLaMA-2-70Bモデルを作成することができました。これは、提案された方法が特定の活動の機能性を犠牲にすることなく、大規模な言語モデルのメモリ要件を劇的に低下させる可能性があることを示しています。 まとめると、LQ-LoRAは言語モデルの開発において重要な転換点です。メモリ効率の高い適応方法やデータを考慮した機構、そして動的な量子化パラメータの調整により、人工知能の分野でパラダイムシフトを起こす可能性があります。
「新時代のAI/MLのためのソフトウェア/ハードウェアアーキテクチャをどのように共同設計するか?」
最新の生成AI技術は、コンピュータビジョン、自然言語処理などで爆発的な成長を遂げ、画期的なモデルアーキテクチャの研究によるブレイクスルーが続々と生まれています
アレクサ・ゴルディッチとともにAIキャリアを築く
In this episode of Leading with Data, we have Aleksa Gordić with us. He is a self-taught enthusiast who transitioned from electrical engineering to…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.