Learn more about Search Results A - Page 58

人間とAIの協力

「AIと人間の知能の関係を探求する中で、最近のGenAIの出現は、その人間の知能を超越する能力について疑問を投げかけています」

「10 種類の最高の AI ファッションデザイナーツール」

「常に進化するファッションの世界では、創造性とテクノロジーの融合がデザイナーに前例のない可能性を開拓しています最新の革命は人工知能(AI)によるもので、ファッションの考え方、創り方、カスタマイズの方法を変えていますAIは単なるツールではなく、大胆に挑戦する人々に無限の可能性を提供する創造的なパートナーなのです […]」

「OpenAIアシスタントAPIを使用してPDFとチャットしましょう」

アシスタントAPIを使用すると、独自のアプリケーション内にAIアシスタントを構築することができますアシスタントには指示があり、ユーザーのクエリに応えるためにモデル、ツール、知識を活用することができます

「LLM SaaSのためのFastAPIテンプレートPart 2 — CeleryとPg-vector」

このブログ投稿は、LLM SaaSシリーズのFastAPI + Supabaseテンプレートの一部であり、Part 1(Auth and File Upload)で紹介された概念を拡張しています以下のイラストは、Celeryワーカーの動作を示しています...

このAI論文では、「Lightning Cat」というスマート契約の脆弱性検出ツールを紹介していますこれは、深層学習をベースにしたツールです

スマートコントラクトは、分散型アプリケーションの開発においてブロックチェーン技術で重要な役割を果たしています。スマートコントラクトの脆弱性は、潜在的な財務損失やシステムのクラッシュといった重大な脅威をもたらします。静的解析ツールなど従来の脆弱性検出方法は、事前に定義されたルールに依存するため、偽陽性や偽陰性が頻繁に発生します。この問題に対応するため、中国のSalus Securityの研究チームが「Lightning Cat」という新しいAIソリューションを導入し、スマートコントラクトの脆弱性検出に深層学習技術を活用しています。 論文の要点は3つの部分に分けられます。まず、スマートコントラクトの脆弱性検出に深層学習手法を活用したLightning Catソリューションの紹介です。次に、重要なデータ前処理手法が提案されており、CodeBERTを通じた意味的な特徴の抽出に重点が置かれています。最後に、実験結果はOptimised-CodeBERTが他のモデルより優れた性能を示していることを示しています。 研究者たちは、静的解析ツールの制限に取り組み、Lightning Catフレームワーク内に3つの最適化された深層学習モデル(Optimised-CodeBERT、LSTM、CNN)を提案しています。CodeBERTモデルは、スマートコントラクトの脆弱性検出の特定のタスクに対応するためにファインチューニングされた、事前学習済みのトランスフォーマーベースのモデルです。意味解析能力を向上させるために、研究者たちはデータ前処理でCodeBERTを使用し、コードの構文と意味に対するより正確な理解を可能にしています。 実験はSolidiFIベンチマークデータセットを使用して行われました。これには、7つの異なるタイプの脆弱性が含まれた9369の脆弱なコントラクトが注入されています。結果は、Optimised-CodeBERTモデルが優れた93.53%のf1スコアを達成し、脆弱性の特徴を正確に抽出する重要性が示されています。データ前処理におけるCodeBERTの使用は、構文と意味のより正確な把握に貢献しています。 研究者たちは、Lightning Catを静的解析ツールを超えるソリューションと位置付け、深層学習を活用して適応し続けることを強調しています。データ前処理においてCodeBERTが効果的に使用され、構文と意味の両方を捕捉する能力が評価されています。Optimised-CodeBERTモデルの優れたパフォーマンスは、脆弱性の特徴の抽出における精度によります。 結論として、研究者たちはスマートコントラクトの脆弱性検出が財務損失を防止し、ユーザーの信頼を保つ上で重要な役割を果たすことを主張しています。深層学習に基づくアプローチと最適化されたモデルを備えたLightning Catは、精度と適応性の面で既存のツールを凌駕する有望なソリューションとして浮上しています。

バイトダンス(ByteDance)は、画像やテキストの指示を組み合わせた、拡散モデルに基づく画期的なビデオ生成手法「PixelDance」を紹介しました

ByteDance Researchの研究チームがPixelDanceを紹介しました。PixelDanceはテキストと画像の指示を利用して、多様かつ複雑な動きを持つビデオを作成するための手法です。この手法により、研究者は複雑なシーンやアクションを特長とするビデオを合成し、ビデオ生成の分野で新たな基準を設定しています。PixelDanceは、制限された動きしかない既存のモデルを超越して、複雑な設定とアクティビティを持つビデオを合成することに優れています。このモデルは、さまざまな画像の指示を取り入れ、時空的に一貫したビデオクリップを組み合わせて合成写真を生成します。 従来のシーンに特化したテキストからビデオを生成するモデルとは異なり、PixelDanceは初めと最後のフレームの画像指示を利用してビデオの複雑さを高め、より長いクリップを生成することができます。この革新は、特にドメイン外のコンテンツに見られる運動やディテールの制限を克服しています。画像指示の利点を強調することにより、PixelDanceは複雑なシーン、ダイナミックなアクション、複雑なカメラの動きを持つ高ダイナミックなビデオを生成するソリューションとして確立されています。 PixelDanceのアーキテクチャは、拡散モデルと変分オートエンコーダを組み合わせて、画像指示を入力空間にエンコードします。トレーニングと推論の技術は、公開されているビデオデータを利用してビデオのダイナミクスを学習します。PixelDanceは、セマンティックマップ、スケッチ、ポーズ、バウンディングボックスなど、さまざまな画像指示に拡張されます。質的分析は、テキスト、最初のフレーム、最後のフレームの指示が生成されたビデオの品質に与える影響を評価します。 PixelDanceは、MSR-VTTとUCF-101のデータセットに基づいて、FVDおよびCLIPSIMの指標に基づいて、これまでのモデルを上回る結果を示しました。UCF-101での抜粋研究では、PixelDanceのテキストと最後のフレームの指示のようなコンポーネントの連続クリップ生成への効果を示しています。この手法は、高品質なビデオデータのトレーニング、ドメイン固有の微調整、モデルのスケーリングなど、改善の道筋を示唆しています。PixelDanceはゼロショットのビデオ編集を実現し、それを画像編集のタスクに変換します。MSR-VTTおよびUCF-101のデータセットで、テキストプロンプトと一致する高品質で複雑なビデオを生成する印象的な定量評価結果を達成しています。 PixelDanceは、複雑なシーンとアクションを持つ高品質なビデオを合成することに優れており、最先端のモデルを超越しています。テキストプロンプトとの関連性により、ビデオ生成の進化の可能性を見せています。ドメイン固有の微調整やモデルのスケーリングなどの改善点が明確にされています。PixelDanceはゼロショットのビデオ編集を導入し、それを画像編集のタスクに変換して、時空的に一貫したビデオを安定して生成します。定量的な評価によって、テキストプロンプトに基づいて高品質で複雑なビデオを生成する能力が確認されています。 PixelDanceは、明示的な画像とテキストの指示に依存するため、未知のシナリオへの一般化が制限される可能性があります。評価は主に定量的な指標に焦点を当てており、より主観的な品質評価が必要です。トレーニングデータソースの影響や潜在的なバイアスについては、十分に探求されていません。スケーラビリティ、計算要件、効率性についても十分に議論される必要があります。特定のビデオコンテンツタイプの取り扱いに制限があるモデルの制約については、明確化が必要です。例外を除いて、多様なドメインや例外を超えたビデオ編集タスクへの汎化性を十分に考慮する必要があります。

中国の研究者が、ビデオ・LLaVAを紹介します:シンプルでパワフルな大規模ビジュアル言語ベースラインモデル

北京大学、彭城实验室、北京大学深圳研究生院和中山大学的研究人员引入了大规模视觉语言模型(LVLM)方法,即Video-LLaVA,将视觉表示统一到语言特征空间中。与现有的将图像和视频分别编码的方法不同,Video-LLaVA通过解决投影过程中的错位问题实现了统一的LVLM。这个简单而强大的模型在九个图像数据集上超越了基准,在五个数据集和四个工具包上的图像问答中表现出色。 Video-LLaVA将图像和视频集成到一个特征空间中,改进了多模态交互。它在各种图像基准测试中优于Video-ChatGPT,并在图像问答方面表现出色。在视频理解方面,Video-LLaVA始终超过Video-ChatGPT,并且在多个视频数据集上表现出色,超过了最先进的Chat-UniVi。利用LLM的推理能力,Video-LLaVA使用来自LanguageBind和ViT-L14的Vicuna-7B v1.5和视觉编码器进行训练。 为解决现有方法中将图像和视频分别编码的错位挑战,引入了Video-LLaVA,一种统一的视觉语言模型。该模型在投影之前使图像和视频的视觉表示对齐,减轻了LLMs学习多模态交互的问题。Video-LLaVA在各种图像和视频基准测试中超过了先进的LVLMs和Video-ChatGPT,展示了在理解和回应人类提供的指令方面的改进性能。该方法强调了在投影之前将视觉特征对齐到统一空间的好处,以增强多模态交互学习。 Video-LLaVA在投影之前将图像和视频的视觉表示对齐到一个统一的特征空间。它使用Vicuna-7B v1.5作为语言模型,使用来自LanguageBind的视觉编码器,由ViT-L14初始化。训练过程涉及将图像调整大小和裁剪为224×224。利用来自CC3M的55.8万个LAION-CC-SBU图像文本对于预训练。指导数据集来自各个地方,包括LLaVA v1.5的66.5万个图像文本指导数据集和Video-ChatGPT的10万个视频文本指导数据集。 Video-LLaVA在九个图像基准测试中表现出色,分别超过了Video-ChatGPT在MSRVTT、MSVD、TGIF和ActivityNet上的性能,并分别提高了5.8%、9.9%、18.6%和10.1%。它在89个图像基准测试中进行了评测,并在图像问答方面超越了InstructBLIP-7B。与更强大的LVLMs相竞争,它在VisWiz上超过了InstructBLIP-13B的14.7。Video-LLaVA显著提高了四个数据集上的视频问答能力,展示了通过统一的视觉表示理解和学习图像和视频的能力。 总之,Video-LLaVA是一种非常大的视觉语言模型,能够有效解决错位问题,并在不同的图像基准测试上表现更好。它对图像和视频进行联合训练,提高了其能力,使其能够超越专门为图像或视频设计的专家模型。该模型在统一的视觉概念理解和图像问答基准测试中表现出色,展示了其卓越的能力。 未来的研究可以探索在投影之前的高级对齐技术,以增强多模态交互中的LVLMs。应该研究更多种对图像和视频进行统一分词的替代方法,以解决错位挑战。通过对附加基准测试和数据集上的Video-LLaVA进行评估可以评估其可泛化性。与更大的语言模型进行比较可以阐明可扩展性和潜在增强的可能性。提高Video-LLaVA的计算效率,并研究联合训练对LVLM性能的影响,是进一步探索的方向。

Amazon Lexの新しい生成AI機能で、セルフサービスアシスタントを向上させましょう

この投稿では、生成AIが会話型AI業界を変えて、新しい顧客とボットビルダーの体験を提供し、これらの進歩を活用するアマゾンレックスの新機能についてお話しします会話型AIの需要がさらに高まる中、開発者は人間のような対話体験を持つチャットボットを向上させる方法を求めています

なぜハイプが重要なのか:AIについて現実的な考え方が必要

ELIZAはChatGPTにいくつかの類似点を持つ初期のチャットボットでしたなぜこの興奮が重要なのでしょうか?船を発明すると、船難も起こります

「LQ-LoRAに会ってください:効率的な言語モデルの微調整のための低ランク量子化行列分解を可能にするLoRAの派生版」

人工知能の急速な進化の時代において、大規模言語モデル(LLM)の導入は、機械と人間の相互作用のあり方を変革しました。最近の数ヶ月間には、信じられないほどの能力と超高度なアルゴリズムを持つ、数多くのLLMが開発されています。GPT 3.5、GPT 4、LLaMa、PaLMなどのモデルは、自然言語理解(NLU)、処理、翻訳、要約、さらにはコンテンツ生成において、いくつかの例外的な人間の模倣能力を発揮しています。 これらのLLMは、膨大な量のデータで訓練されています。しかし、これらのモデルが新しいデータセットに適応する際には課題があります。これらの大規模なLLMを新しいデータセットに適応させる際には、フルファインチューニングには多額の費用とメモリの要件がかかります。LLMのファインチューニングにおけるメモリ効率の問題に対処するために、最近では、研究チームがパラメータ効率の高いファインチューニング手法のアイデアを発表しました。 元の事前学習済みモデルに対して小さなファインチューニング拡張を学習することにより、これらの技術はファインチューニングに必要なメモリ量を減らすことができます。低ランク適応(LoRA)は、効果的なLLM適応のための人気のある戦略であり、事前学習済みモデルの重み行列を再パラメータ化し、そのうちの2つの要素(L1とL2)のみをファインチューニングします。残りの要素は変更されません。 研究者たちは、LoRAのメモリ効率を向上させるために、量子化された事前学習済みモデルに適用しました。メモリの節約のために、量子化はモデルのパラメータの精度を低下させますが、量子化が大きい場合はゼロ初期化が最適ではありません。量子化エラーを克服するために、チームはLQ-LoRAと呼ばれるLoRAの一つのバリエーションを導入しました。 LQ-LoRAは、主成分分析(PCA)に影響を受けた反復技術を使用して、重み行列を量子化コンポーネントQと低ランクコンポーネントL1L2に分解します。LQ-LoRAでは、L1とL2は適応中に改良され、初期の重み行列の高分散部分空間をキャプチャします。 この研究では、整数線形計画法を使用して、すべてのレイヤーに同じ量子化構成を適用する問題を解決するための混合量子化方式を見つけ出しています。全体の目標ビットレートが与えられた場合、この技術では各行列にビットとブロックサイズを含むさまざまな構成を割り当てることができます。 チームは、LQ-LoRAを使用して、RoBERTaとLLaMA-2のサイズが異なるモデル、7Bと70Bを改変しました。その結果、LQ-LoRAはGPTQ-LoRAや強力なQLoRAのベースラインよりも優れたパフォーマンスを示しました。OpenAssistantベンチマークで4ビットのQLoRAを使用したモデルと競合する2.5ビットのLLaMA-2モデルをトレーニングする能力は、提案された手法がより積極的な量子化を可能にすることを示しています。 LQ-LoRAは、データセット校正言語モデルに調整された後のモデル圧縮においても優れたパフォーマンスを示しました。ビットレートが低下したにもかかわらず、チームは完全な精度で元のモデルと競合する2.75ビットのLLaMA-2-70Bモデルを作成することができました。これは、提案された方法が特定の活動の機能性を犠牲にすることなく、大規模な言語モデルのメモリ要件を劇的に低下させる可能性があることを示しています。 まとめると、LQ-LoRAは言語モデルの開発において重要な転換点です。メモリ効率の高い適応方法やデータを考慮した機構、そして動的な量子化パラメータの調整により、人工知能の分野でパラダイムシフトを起こす可能性があります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us