Learn more about Search Results MarkTechPost - Page 24

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けます。 GPT-3、GPT-4、およびPaLM-2はいくつかの例です。これらのモデルは、テキスト生成、会話の相互作用、および質問応答を含む複雑な言語タスクを実行します。これらはさまざまなドメインで使用され、チャットボット、コーディング、ウェブ検索、顧客サポート、コンテンツ制作などのユーザーエクスペリエンスを向上させています。 しかし、AIコミュニティが小型モデルの広大な領域に没頭するなかで、マイクロソフトはOrcaの次のバージョンであるOrca 2を紹介しました。これはコンパクトなAIモデルの能力を高めるために設計されています。 Orca 1は、詳細な説明、トレースの統合によって、BigBench HardやAGIEvalなどのベンチマークで伝統的な教示チューニングモデルを上回る性能を発揮します。 Orca 2はより洗練されたトレーニングシグナルの潜在能力にも取り組んでいます。 模倣学習は、小型言語モデルの改善における一般的なアプローチです。これらの小型モデルは、教師と同様の方法でコンテンツを生成できるとはいえ、推論力や理解力の向上が必要です。模倣学習にはいくつかの利点がありますが、特定の問題やモデルの能力に最適な解決策を使用できなくする欠点もあります。これらのモデルはしばしばより大きなモデルとの推論力や理解力のマッチングに助けが必要であり、その結果、その真の潜在能力が妨げられる場合があります。 単に模倣するのではなく、Orcaはさまざまな推論手法でモデルに指示を与えます。これには、ステップバイステップの処理、リコールして生成、リコール-推論-生成、および直接回答が含まれます。この目的は、特定のタスクの微妙なニュアンスに適した最も効果的な解決策戦略を識別する能力をモデルに伝えることです。 Orca 2のゼロショット推論能力は、より小さなニューラルネットワークの改善の可能性を示しています。マイクロソフトは、Orca 2に使用されるような特殊なトレーニング手法は新しい有用なアプリケーションを明らかにする可能性があると引き続き信じています。この手法は、これらのニューラルネットワークの展開の効果を向上させることを目指しています。 最も重要なことは、Orca 2はトレーニングフェーズで特定の行動を引き起こした初期の手がかりから保護されています。Orca 2は、革新的なプロンプトの削除技術を使用して慎重な推論者に変身します。この方法は、盲目的な模倣ではなく、より大きなモデルを行動の源として使用し、特定のタスクに最適なものを選択します。 研究者たちはOrca 2を包括的なベンチマークでテストしました。それによると、言語理解、常識的な推論、多段階の数学問題、読解、要約などに関連する他の同等のモデルよりも優れたパフォーマンスを発揮しました。例えば、ゼロショットの推論タスクでは、Orca 2-13Bは他の13Bモデルよりも25%以上の高い精度を達成し、70Bモデルと同等の性能を発揮します。 Orca 2は、小型言語モデルの進化における重要な進歩を示しています。従来の模倣学習からの脱却と、多様な推論手法に焦点を当てることによって、コンパクトなAIモデルのポテンシャルを引き出す新しいアプローチを示しています。

このAI論文では、「Lightning Cat」というスマート契約の脆弱性検出ツールを紹介していますこれは、深層学習をベースにしたツールです

スマートコントラクトは、分散型アプリケーションの開発においてブロックチェーン技術で重要な役割を果たしています。スマートコントラクトの脆弱性は、潜在的な財務損失やシステムのクラッシュといった重大な脅威をもたらします。静的解析ツールなど従来の脆弱性検出方法は、事前に定義されたルールに依存するため、偽陽性や偽陰性が頻繁に発生します。この問題に対応するため、中国のSalus Securityの研究チームが「Lightning Cat」という新しいAIソリューションを導入し、スマートコントラクトの脆弱性検出に深層学習技術を活用しています。 論文の要点は3つの部分に分けられます。まず、スマートコントラクトの脆弱性検出に深層学習手法を活用したLightning Catソリューションの紹介です。次に、重要なデータ前処理手法が提案されており、CodeBERTを通じた意味的な特徴の抽出に重点が置かれています。最後に、実験結果はOptimised-CodeBERTが他のモデルより優れた性能を示していることを示しています。 研究者たちは、静的解析ツールの制限に取り組み、Lightning Catフレームワーク内に3つの最適化された深層学習モデル(Optimised-CodeBERT、LSTM、CNN)を提案しています。CodeBERTモデルは、スマートコントラクトの脆弱性検出の特定のタスクに対応するためにファインチューニングされた、事前学習済みのトランスフォーマーベースのモデルです。意味解析能力を向上させるために、研究者たちはデータ前処理でCodeBERTを使用し、コードの構文と意味に対するより正確な理解を可能にしています。 実験はSolidiFIベンチマークデータセットを使用して行われました。これには、7つの異なるタイプの脆弱性が含まれた9369の脆弱なコントラクトが注入されています。結果は、Optimised-CodeBERTモデルが優れた93.53%のf1スコアを達成し、脆弱性の特徴を正確に抽出する重要性が示されています。データ前処理におけるCodeBERTの使用は、構文と意味のより正確な把握に貢献しています。 研究者たちは、Lightning Catを静的解析ツールを超えるソリューションと位置付け、深層学習を活用して適応し続けることを強調しています。データ前処理においてCodeBERTが効果的に使用され、構文と意味の両方を捕捉する能力が評価されています。Optimised-CodeBERTモデルの優れたパフォーマンスは、脆弱性の特徴の抽出における精度によります。 結論として、研究者たちはスマートコントラクトの脆弱性検出が財務損失を防止し、ユーザーの信頼を保つ上で重要な役割を果たすことを主張しています。深層学習に基づくアプローチと最適化されたモデルを備えたLightning Catは、精度と適応性の面で既存のツールを凌駕する有望なソリューションとして浮上しています。

バイトダンス(ByteDance)は、画像やテキストの指示を組み合わせた、拡散モデルに基づく画期的なビデオ生成手法「PixelDance」を紹介しました

ByteDance Researchの研究チームがPixelDanceを紹介しました。PixelDanceはテキストと画像の指示を利用して、多様かつ複雑な動きを持つビデオを作成するための手法です。この手法により、研究者は複雑なシーンやアクションを特長とするビデオを合成し、ビデオ生成の分野で新たな基準を設定しています。PixelDanceは、制限された動きしかない既存のモデルを超越して、複雑な設定とアクティビティを持つビデオを合成することに優れています。このモデルは、さまざまな画像の指示を取り入れ、時空的に一貫したビデオクリップを組み合わせて合成写真を生成します。 従来のシーンに特化したテキストからビデオを生成するモデルとは異なり、PixelDanceは初めと最後のフレームの画像指示を利用してビデオの複雑さを高め、より長いクリップを生成することができます。この革新は、特にドメイン外のコンテンツに見られる運動やディテールの制限を克服しています。画像指示の利点を強調することにより、PixelDanceは複雑なシーン、ダイナミックなアクション、複雑なカメラの動きを持つ高ダイナミックなビデオを生成するソリューションとして確立されています。 PixelDanceのアーキテクチャは、拡散モデルと変分オートエンコーダを組み合わせて、画像指示を入力空間にエンコードします。トレーニングと推論の技術は、公開されているビデオデータを利用してビデオのダイナミクスを学習します。PixelDanceは、セマンティックマップ、スケッチ、ポーズ、バウンディングボックスなど、さまざまな画像指示に拡張されます。質的分析は、テキスト、最初のフレーム、最後のフレームの指示が生成されたビデオの品質に与える影響を評価します。 PixelDanceは、MSR-VTTとUCF-101のデータセットに基づいて、FVDおよびCLIPSIMの指標に基づいて、これまでのモデルを上回る結果を示しました。UCF-101での抜粋研究では、PixelDanceのテキストと最後のフレームの指示のようなコンポーネントの連続クリップ生成への効果を示しています。この手法は、高品質なビデオデータのトレーニング、ドメイン固有の微調整、モデルのスケーリングなど、改善の道筋を示唆しています。PixelDanceはゼロショットのビデオ編集を実現し、それを画像編集のタスクに変換します。MSR-VTTおよびUCF-101のデータセットで、テキストプロンプトと一致する高品質で複雑なビデオを生成する印象的な定量評価結果を達成しています。 PixelDanceは、複雑なシーンとアクションを持つ高品質なビデオを合成することに優れており、最先端のモデルを超越しています。テキストプロンプトとの関連性により、ビデオ生成の進化の可能性を見せています。ドメイン固有の微調整やモデルのスケーリングなどの改善点が明確にされています。PixelDanceはゼロショットのビデオ編集を導入し、それを画像編集のタスクに変換して、時空的に一貫したビデオを安定して生成します。定量的な評価によって、テキストプロンプトに基づいて高品質で複雑なビデオを生成する能力が確認されています。 PixelDanceは、明示的な画像とテキストの指示に依存するため、未知のシナリオへの一般化が制限される可能性があります。評価は主に定量的な指標に焦点を当てており、より主観的な品質評価が必要です。トレーニングデータソースの影響や潜在的なバイアスについては、十分に探求されていません。スケーラビリティ、計算要件、効率性についても十分に議論される必要があります。特定のビデオコンテンツタイプの取り扱いに制限があるモデルの制約については、明確化が必要です。例外を除いて、多様なドメインや例外を超えたビデオ編集タスクへの汎化性を十分に考慮する必要があります。

「Googleバードは、YouTubeの動画を要約することができるようになりました」

Googleのチャットボット「Bard」は、画期的な「YouTubeエクステンション」を導入することで、その能力の飛躍的な向上を遂げました。この新機能により、ユーザーは簡単な質問をBardに投げかけることで、YouTubeの動画の詳細や情報を探求することができます。この進歩は、Bardが視覚メディアを理解する能力を示し、従来のテキストベースのインタラクションを超えたオンラインコンテンツの利用方法を変革しています。 BardのYouTubeエクステンションの発表は、YouTubeコンテンツとのより没入感と洞察力を求めるユーザーの要望によって引き起こされました。Googleは、Bardに動画の分析と重要な情報の抽出を可能にすることで、ユーザーのクエリを驚くほど正確に満たす能力を与えました。 Bardの機能強化の実地テストでは、動画の内容を要約する際に迅速かつ正確であることがわかりました。例えば、AI研究者のIlya Sutskeverの最近のTEDトークについてクエリした場合、Bardは迅速にトークのキーポイントを簡潔に提供しました。驚くべきことに、Bardはビデオを再視聴する必要なく、プレゼンテーション内の詳細に関する具体的な追加の質問にも滑らかに答える能力を示し、ビデオコンテンツを理解し保持する力を備えています。 この新たな能力により、BardはOpenAIのChatGPTやAnthropicのClaudeなどのAIランドスケープの他のチャットボットとは一線を画します。Bardが示す多様性は、教育ビデオアシスタントからポッドキャストの要約など、さまざまなドメインでの有望な潜在能力を持っています。 Bardのビデオ分析能力の影響は、YouTubeコンテンツとのより豊かな関与を超えて広がっています。視覚メディアを理解するAIの能力は、多くの可能性を開くものです。Bardは、教育現場で貴重なアシスタントとして機能し、マルチメディアの検索を支援し、ポッドキャストの関与を大幅に向上させるなど、さまざまな応用に役立つことができます。 ただし、Bardの進化に伴い、コンテンツクリエイターとその報酬に関して重要な問題が浮上しています。Bardのようなツールはコンテンツをトレーニングに利用するため、これらのAIの進歩を支えるコンテンツの制作者に対する公正な報酬と認識を確保するという議論が続いています。 Googleは、Bardの発売以来、その能力と有用性を向上させるための取り組みを継続して改善することで、自社のコミットメントを示しています。この最新のアップグレードにより、GoogleはBardを求めて情報と関与を求める個人にとってますます多機能なツールにすることに対する前向きなアプローチを示しています。 Bardのビデオ理解機能という形で示されるAIの進化は、人間らしいAIとの対話が一般的なものになる未来に私たちをさらに近づけています。ただし、Googleなどのビッグテック企業によるこのような強力なAIの責任ある実装は、特にこれらのシステムがより強力で洗練されていく中で、重要な懸念事項となります。 まとめると、Google Bardの新しいYouTubeエクステンションは、視覚メディアを理解し関与するAIの能力における重要なマイルストーンを示しています。その影響はコンテンツの関与を超え、コンテンツクリエイターへの公正な報酬や責任あるAIの展開について重要な問題を提起しています。AIの進展と共に、Bardは人間とAIの相互作用のより没入型でインタラクティブな未来を切り拓く最前線に立っています。 The post Google Bard Can Now Summarize Youtube Videos For You appeared first…

中国の研究者が、ビデオ・LLaVAを紹介します:シンプルでパワフルな大規模ビジュアル言語ベースラインモデル

北京大学、彭城实验室、北京大学深圳研究生院和中山大学的研究人员引入了大规模视觉语言模型(LVLM)方法,即Video-LLaVA,将视觉表示统一到语言特征空间中。与现有的将图像和视频分别编码的方法不同,Video-LLaVA通过解决投影过程中的错位问题实现了统一的LVLM。这个简单而强大的模型在九个图像数据集上超越了基准,在五个数据集和四个工具包上的图像问答中表现出色。 Video-LLaVA将图像和视频集成到一个特征空间中,改进了多模态交互。它在各种图像基准测试中优于Video-ChatGPT,并在图像问答方面表现出色。在视频理解方面,Video-LLaVA始终超过Video-ChatGPT,并且在多个视频数据集上表现出色,超过了最先进的Chat-UniVi。利用LLM的推理能力,Video-LLaVA使用来自LanguageBind和ViT-L14的Vicuna-7B v1.5和视觉编码器进行训练。 为解决现有方法中将图像和视频分别编码的错位挑战,引入了Video-LLaVA,一种统一的视觉语言模型。该模型在投影之前使图像和视频的视觉表示对齐,减轻了LLMs学习多模态交互的问题。Video-LLaVA在各种图像和视频基准测试中超过了先进的LVLMs和Video-ChatGPT,展示了在理解和回应人类提供的指令方面的改进性能。该方法强调了在投影之前将视觉特征对齐到统一空间的好处,以增强多模态交互学习。 Video-LLaVA在投影之前将图像和视频的视觉表示对齐到一个统一的特征空间。它使用Vicuna-7B v1.5作为语言模型,使用来自LanguageBind的视觉编码器,由ViT-L14初始化。训练过程涉及将图像调整大小和裁剪为224×224。利用来自CC3M的55.8万个LAION-CC-SBU图像文本对于预训练。指导数据集来自各个地方,包括LLaVA v1.5的66.5万个图像文本指导数据集和Video-ChatGPT的10万个视频文本指导数据集。 Video-LLaVA在九个图像基准测试中表现出色,分别超过了Video-ChatGPT在MSRVTT、MSVD、TGIF和ActivityNet上的性能,并分别提高了5.8%、9.9%、18.6%和10.1%。它在89个图像基准测试中进行了评测,并在图像问答方面超越了InstructBLIP-7B。与更强大的LVLMs相竞争,它在VisWiz上超过了InstructBLIP-13B的14.7。Video-LLaVA显著提高了四个数据集上的视频问答能力,展示了通过统一的视觉表示理解和学习图像和视频的能力。 总之,Video-LLaVA是一种非常大的视觉语言模型,能够有效解决错位问题,并在不同的图像基准测试上表现更好。它对图像和视频进行联合训练,提高了其能力,使其能够超越专门为图像或视频设计的专家模型。该模型在统一的视觉概念理解和图像问答基准测试中表现出色,展示了其卓越的能力。 未来的研究可以探索在投影之前的高级对齐技术,以增强多模态交互中的LVLMs。应该研究更多种对图像和视频进行统一分词的替代方法,以解决错位挑战。通过对附加基准测试和数据集上的Video-LLaVA进行评估可以评估其可泛化性。与更大的语言模型进行比较可以阐明可扩展性和潜在增强的可能性。提高Video-LLaVA的计算效率,并研究联合训练对LVLM性能的影响,是进一步探索的方向。

UCLとGoogle DeepMindの研究者が、トランスフォーマーニューラルネットワークにおけるインコンテキスト学習(ICL)の一瞬のダイナミクスを明らかにします

モデルが推論時に入力を使用して重みを更新せずに動作を変更する能力は、インコンテキスト学習またはICLとして知られています。特に少数の例から望ましい振る舞いを学習する能力を備えたニューラルネットワークアーキテクチャが、最初にこの能力を示しました。モデルがトレーニングセットでうまく機能するためには、将来の予測を行うために、コンテキストからの実例-ラベルのマッピングを覚えておく必要がありました。これらの状況では、トレーニングは各エピソードごとに入力実例に対応するラベルを再配置することを意味しました。テスト時には新しい実例-ラベルのマッピングが提供され、ネットワークのタスクはこれを使用してクエリ実例を分類することでした。 ICLの研究は、トランスフォーマーの開発の結果として発展しました。研究者は、トレーニングの目的やデータを通じて特にそれを促そうとはしていなかったことに注目しました。むしろ、トランスフォーマーベースの言語モデルGPT-3は、適切なサイズで自己回帰的にトレーニングされた後にICLを示しました。それ以来、多くの研究がICLの実例を調査または文書化しています。巨大なニューラルネットワークにおける新しい機能の研究が行われています。ただし、最近の研究では、トランスフォーマーのトレーニングがICLを引き起こすわけではないことが示されています。研究者は、トランスフォーマーにおけるICLの発生は、バースティさや高い偏った分布など、特定の言語データの特性に大きく影響を受けることを発見しました。 ユクルとGoogle Deepmindの研究者は、これらの特性が欠けるデータでトレーニングされたトランスフォーマーが通常インウェイト学習(IWL)に頼ることが明らかになりました。IWLレジームのトランスフォーマーは、新たに提供されたインコンテキスト情報を使用せず、モデルの重みに格納されたデータを使用します。重要なのは、ICLとIWLはお互いと相反するように見えることです。ICLは、トレーニングデータがバースティであるときに、つまりオブジェクトがランダムではなくクラスターとして表示され、トークンやクラスの数が多いときにより簡単に現れるようです。ICLの現象をトランスフォーマーでよりよく理解するためには、確立されたデータ生成分布を使用した制御された調査を行うことが重要です。 図1:12層、埋め込み次元64、各クラス20の実例が含まれる1,600個のコースでトレーニングされ、インコンテキスト学習は一時的です。トレーニングセッションごとにバーストがあります。トレーニング時間が不十分なため、研究者はICLの一時的な変動を目撃することはありませんでしたが、これらの環境はICLを非常に奨励していることがわかりました。 (a) ICL評価器の精度。 (b) IWL評価器の精度。研究チームは、テストシーケンスが分布から外れているため、トレーニングシーケンスの精度が100%であるにもかかわらず、IWL評価器の精度の改善が非常に遅いことを確認しています。 (c) トレーニングログの損失。 2つの色調は2つの実験的な種を示しています。 基本的に、過学習は、LLMでICLを調査する最近のほとんどの研究において内在的な前提に基づいています。モデルは、ICLに依存した機能が発生するため十分なトレーニングを受けたと、トレーニング損失が減少し続ける限り保持されると信じられています。ここでは、研究チームは永続性が存在するという広く信じられている考えを否定します。研究チームは、制御された環境でICLを徹底的に評価することを可能にする、一般的な画像ベースの少数派トレーニングデータセットを修正することでこれを行います。研究チームは、ICLが出現し、モデルの損失が減少し続けるにつれて消える簡単なシナリオを提供します。 言い換えれば、ICLは新興現象として広く認識されているにもかかわらず、研究チームはそれが一時的なものである可能性も考慮すべきです(図1)。研究チームは、さまざまなモデルサイズ、データセットサイズ、およびデータセットの種類において一時性が起こることを発見しましたが、特定の属性が一時性を遅延させることも示しました。一般的には、長期間無責任に訓練されたネットワークは、ICLが現れるのと同じくらい速く消えてしまい、現代のAIシステムから期待されるスキルをモデルから奪うことがあります。

「トランスフォーマーの再定義:シンプルなフィードフォワードニューラルネットワークが効率的なシーケンス・トゥ・シーケンスのタスクにおいて注意機構を模倣する方法」

ETHチューリッヒの研究者は、標準の浅いフィードフォワードネットワークを利用してトランスフォーマーモデルの注意メカニズムを模倣する効果を分析しました。トランスフォーマーモデルは、シーケンス間タスクの先進的なアーキテクチャです。トランスフォーマーモデルの主要な注意メカニズム要素は、知識蒸留を通じて訓練されたシンプルなフィードフォワードネットワークに置き換えられます。厳密な実験や置換ネットワークの種類とサイズに関する抜き打ち実験により、浅いフィードフォワードネットワークが注意メカニズムを模倣することの適応性が強調され、複雑なシーケンス間アーキテクチャを簡素化する可能性が示されます。 この研究では、浅いフィードフォワードネットワークが注意メカニズムを再現する柔軟性に重点が置かれています。BLEUスコアを評価指標として使用します。エンコーダとデコーダの層で動作を成功裏に再現しながらも、クロスアテンションツールを置き換えることは挑戦となり、BLEUスコアが著しく低下します。このアプローチの限界と可能性に光を当てる研究です。 本研究は、シーケンス間タスク、特に言語翻訳において、元のトランスフォーマーモデルの注意層を浅いフィードフォワードネットワークで置き換えることの実現可能性を探求しています。注意メカニズムに関連する計算負荷に触発され、外部フィードフォワードネットワークがその振る舞いを効果的に模倣できるかどうかを調査します。研究では、これらのネットワークを訓練し、主要な注意要素を置き換えることに焦点を当てています。そして、シーケンス間タスクにおけるこれらの方法の能力を評価することを目指しています。 このアプローチでは、元のトランスフォーマーモデルの中間アクティベーションを教師モデルとして使用し、浅いフィードフォワードネットワークを知識蒸留で訓練します。抜き打ち実験を通じて、トランスフォーマーモデルのエンコーダにアテンションメカニズムを置き換えるための4つの方法を紹介します。BLEUメトリックを使用してIWSLT2017データセットで評価された提案手法は、元のトランスフォーマーモデルと同等のパフォーマンスを示しています。付録には、これらの手法がシーケンス間タスク、特に言語翻訳における有効性を実証するための具体的な実装詳細が提供されています。 結果は、これらのモデルが元のモデルと同等のパフォーマンスを発揮できることを示し、フィードフォワードネットワークがアテンションレイヤーの代替として有効であることを実証しています。抜き打ち実験は、置換ネットワークの種類とサイズに関する洞察を提供し、その有用性を確認しています。しかし、デコーダのクロスアテンションメカニズムの置換はパフォーマンスの低下をもたらすため、浅いネットワークは自己アテンションに優れているものの、トランスフォーマーモデルの複雑なクロスアテンション相互作用を模倣する際には支援が必要となることを示しています。 まとめると、注意メカニズムのないトランスフォーマーモデルの研究は、これらのモデルをゼロから訓練するための知識蒸留などの高度な最適化技術の必要性を強調しています。より一般的なアーキテクチャは高度なタスクに潜在的な可能性を持つかもしれませんが、デコーダのクロスアテンションメカニズムをフィードフォワードネットワークで置き換えると性能が著しく低下することから、複雑なクロスアテンション相互作用を捉えることには困難があることが明らかになります。 今後の課題としては、ベイズ最適化のような高度なテクニックを使用してハイパーパラメータを最適化し、翻訳の品質を向上させ、サイズの制約に対処することが挙げられます。特にデコーダのクロスアテンションに対して、より複雑なフィードフォワードネットワークを探索することで複雑さを捉えることができるかもしれません。クロスアテンションの表現力を向上させるための代替アーキテクチャの探求は、有望な研究方向です。注意メカニズムのないトランスフォーマーモデルの一般化能力は、さまざまなシーケンス間タスクへの適用可能性を探求する価値があります。さらなる実験や抜き打ち実験により、アプローチを洗練化し、アテンションメカニズムを模倣するフィードフォワードネットワークを最適化するための深い洞察が得られるでしょう。

「LQ-LoRAに会ってください:効率的な言語モデルの微調整のための低ランク量子化行列分解を可能にするLoRAの派生版」

人工知能の急速な進化の時代において、大規模言語モデル(LLM)の導入は、機械と人間の相互作用のあり方を変革しました。最近の数ヶ月間には、信じられないほどの能力と超高度なアルゴリズムを持つ、数多くのLLMが開発されています。GPT 3.5、GPT 4、LLaMa、PaLMなどのモデルは、自然言語理解(NLU)、処理、翻訳、要約、さらにはコンテンツ生成において、いくつかの例外的な人間の模倣能力を発揮しています。 これらのLLMは、膨大な量のデータで訓練されています。しかし、これらのモデルが新しいデータセットに適応する際には課題があります。これらの大規模なLLMを新しいデータセットに適応させる際には、フルファインチューニングには多額の費用とメモリの要件がかかります。LLMのファインチューニングにおけるメモリ効率の問題に対処するために、最近では、研究チームがパラメータ効率の高いファインチューニング手法のアイデアを発表しました。 元の事前学習済みモデルに対して小さなファインチューニング拡張を学習することにより、これらの技術はファインチューニングに必要なメモリ量を減らすことができます。低ランク適応(LoRA)は、効果的なLLM適応のための人気のある戦略であり、事前学習済みモデルの重み行列を再パラメータ化し、そのうちの2つの要素(L1とL2)のみをファインチューニングします。残りの要素は変更されません。 研究者たちは、LoRAのメモリ効率を向上させるために、量子化された事前学習済みモデルに適用しました。メモリの節約のために、量子化はモデルのパラメータの精度を低下させますが、量子化が大きい場合はゼロ初期化が最適ではありません。量子化エラーを克服するために、チームはLQ-LoRAと呼ばれるLoRAの一つのバリエーションを導入しました。 LQ-LoRAは、主成分分析(PCA)に影響を受けた反復技術を使用して、重み行列を量子化コンポーネントQと低ランクコンポーネントL1L2に分解します。LQ-LoRAでは、L1とL2は適応中に改良され、初期の重み行列の高分散部分空間をキャプチャします。 この研究では、整数線形計画法を使用して、すべてのレイヤーに同じ量子化構成を適用する問題を解決するための混合量子化方式を見つけ出しています。全体の目標ビットレートが与えられた場合、この技術では各行列にビットとブロックサイズを含むさまざまな構成を割り当てることができます。 チームは、LQ-LoRAを使用して、RoBERTaとLLaMA-2のサイズが異なるモデル、7Bと70Bを改変しました。その結果、LQ-LoRAはGPTQ-LoRAや強力なQLoRAのベースラインよりも優れたパフォーマンスを示しました。OpenAssistantベンチマークで4ビットのQLoRAを使用したモデルと競合する2.5ビットのLLaMA-2モデルをトレーニングする能力は、提案された手法がより積極的な量子化を可能にすることを示しています。 LQ-LoRAは、データセット校正言語モデルに調整された後のモデル圧縮においても優れたパフォーマンスを示しました。ビットレートが低下したにもかかわらず、チームは完全な精度で元のモデルと競合する2.75ビットのLLaMA-2-70Bモデルを作成することができました。これは、提案された方法が特定の活動の機能性を犠牲にすることなく、大規模な言語モデルのメモリ要件を劇的に低下させる可能性があることを示しています。 まとめると、LQ-LoRAは言語モデルの開発において重要な転換点です。メモリ効率の高い適応方法やデータを考慮した機構、そして動的な量子化パラメータの調整により、人工知能の分野でパラダイムシフトを起こす可能性があります。

UC San Diegoの研究者たちは、EUGENeという使いやすいディープラーニングゲノミクスソフトウェアを紹介します

ディープラーニングは生活のあらゆる分野で使用されています。あらゆる領域でその有用性があります。バイオメディカル研究に大きな影響を与えています。それは少しの助けでタスクをよりよくこなすことができるスマートなコンピュータのようなものです。それは科学者が医学や疾患を研究する方法を変えました。 それはゲノミクスにおいても影響力があり、DNAの組織化や個々の細胞内で遺伝子が活性化または非活性化されるプロセスを調べる生物学の一分野です。 カリフォルニア大学サンディエゴ校の研究者たちは、さまざまなゲノミクスプロジェクトに迅速かつ容易に適応できる新しいディープラーニングプラットフォームを開発しました。カリフォルニア大学サンディエゴ医学部のハンナ・カーター准教授は、すべての細胞が同じDNAを持っているが、DNAがどのように発現されるかが細胞の見た目や働きに変化をもたらすと述べています。 EUGENeは、ゲノミクスのディープラーニングワークフロー内の重要な機能をサポートするためのモジュールとサブパッケージを使用しています。これらの機能には、さまざまなファイル形式からのシーケンスデータの抽出、変換、およびロード(1)、さまざまなモデルアーキテクチャのインスタンス化、初期化、およびトレーニング(2)、およびモデルの振る舞いの評価と解釈(3)が含まれます。 ディープラーニングは遺伝的変異を支配する多様な生物学的プロセスに関する貴重な洞察を提供する潜在能力を持っていますが、その実装にはコンピュータサイエンスのより広範な専門知識を必要とするという課題があります。研究者たちは、ゲノミクス研究者がディープラーニングデータ解析を効率化し、生データからの予測の抽出をより簡単かつ効率的に行うことを可能にするプラットフォームを開発することを目指していると述べています。 全ゲノムの約2%が特定のタンパク質をエンコードする遺伝子であり、残りの98%はその機能がほとんど不明であるためジャンクDNAと呼ばれていますが、特定の遺伝子が活性化されるタイミング、場所、および方法を決定する上で重要な役割を果たしています。これらの非コーディングゲノム領域の役割を理解することは、ゲノミクス研究者の最優先事項でした。ディープラーニングはこの目標を達成するための強力なツールであることが証明されていますが、効果的に使用することは難しいです。 この研究の第一著者であるカーターラボの博士課程の学生であるアダム・クリーは、多くの既存プラットフォームが多くの時間を要し、データの整理が必要であると述べました。彼は、多くのプロジェクトがリサーチャーにスクラッチからの作業を求め、この領域に興味を持つすべての研究室で容易に利用できる知識がすぐに利用可能であるとは限らない専門知識が必要です。 その効果を評価するために、研究者たちはEUGENeを使用して、さまざまなシーケンスデータタイプを使用した3つの以前のゲノミクス研究の結果を複製しようとしました。過去には、このようなさまざまなデータセットの分析には数多くの異なる技術プラットフォームの統合が必要でした。 EUGENeは素晴らしい柔軟性を示し、すべての調査の結果を効果的に再現しました。この柔軟性は、プラットフォームがさまざまなシーケンスデータを管理し、ゲノミクス研究のための適応性のあるツールとしての潜在能力を示しています。 EUGENeは異なるDNAシーケンスデータタイプに適応性を示し、さまざまなディープラーニングモデルをサポートしています。研究者たちは、EUGENeを単細胞シーケンスデータを含むさまざまなデータタイプを包括する範囲に広げることを目指しており、EUGENeを世界中の研究グループに利用可能にする計画です。 カーターは、このプロジェクトの協力の可能性に熱意を表明しました。彼は、このプラットフォームをより良くするためには、人々がプラットフォームを使用するほど良くなるということが、ディープラーニングが急速に進化し続ける中で重要であると述べました。

効果的にLLMをトレーニングする方法:小規模な導入のためのベストプラクティス

Large Language Models(LLMs)の新しい進歩に関するニュースの中で、あなたは「自分自身のLLMをどのように訓練すればいいのか」と思っているかもしれません。今日では、特定のニーズに合わせたLLMはますます重要な資産になっていますが、その「大規模」さには価格が付いています。LLMの印象的な成功は、モデルのパラメータ数とトレーニングデータのサイズの増加と相関があるスケーリングの法則によって大きく貢献しています。GPT-4、Llama2、Palm2などのモデルは、世界最大のクラスタで訓練され、完全なスケールのモデルを訓練するために必要なリソースは、個人や小規模企業には獲得困難なことがしばしばあります。 LLMの効率的な訓練は、速く、メモリ使用量を抑え、エネルギーを節約することに焦点を当てた研究の活動領域です。ここでの効率性とは、モデルの品質(例えばパフォーマンス)とそのリソース利用のバランスを達成することを指します。この記事では、データ効率またはモデル効率の訓練戦略を選ぶ際のアドバイスを提供します。詳しくは、最も一般的なモデルとそれぞれの参照が、添付の図に示されています。 データ効率。訓練の効率を向上させるためには、データの戦略的な選択が大きく影響します。データフィルタリングは、訓練を前に行うことで、完全なデータセットと同等のモデルパフォーマンスを達成するために、十分な情報を含むコアデータセットを作成する方法です。カリキュラムラーニングは、訓練中にデータインスタンスを計画的にスケジュールすることを意味します。これは、より単純な例から徐々により複雑な例に進んだり、その逆の場合でもあります。また、これらの方法は、訓練中にデータセット全体にわたるさまざまなサンプリング分布を確立することも可能です。 モデル効率。効率的なモデルを得る最も直接的な方法は、適切なアーキテクチャを設計することです。もちろん、これは容易ではありません。幸いなことに、ニューラルアーキテクチャの検索(NAS)やハイパーパラメータの最適化のような自動モデル選択方法によって、このタスクをより容易にすることができます。適切なアーキテクチャを持つことで、大規模なモデルのパラメータ数を減らしながらも、大規模なモデルのパフォーマンスを演算することが可能となります。多くの成功したLLMは、マルチレベルのシーケンスモデリングと並列化の能力で知られるトランスフォーマーアーキテクチャを使用しています。ただし、アテンションメカニズムは入力サイズの二乗に比例してスケールするため、長いシーケンスの管理は難しい課題です。この領域の進化には、アテンションメカニズムの改善に加え、再帰ネットワーク、長期メモリ圧縮、ローカルとグローバルなアテンションのバランスを取る手法などが含まれます。 同時に、パラメータ効率の方法は、複数の操作での利用効率を向上させるために使用されることがあります。これには、メモリ使用量を削減するために類似の操作間で重み共有するウェイト共有などの戦略が含まれています。パラメータの一部のみを活性化するスパーストレーニングは、「宝くじ券仮説」を利用し、効率的に訓練されたサブネットワークが完全なモデルのパフォーマンスに匹敵することができるという概念を生かしています。 モデルの圧縮も重要な要素であり、パフォーマンスを損なうことなく、計算負荷とメモリのニーズを減らすことが含まれます。これには、重要度が低いウェイトを削除するプルーニング、より小さいモデルを訓練するためのナレッジディスティレーション、およびスループットの向上のための量子化が含まれます。これらの方法は、モデルのパフォーマンスだけでなく、モバイルやリアルタイムのアプリケーションにおいても推論時間を高速化します。 トレーニングセットアップ。利用可能なデータの膨大さにより、トレーニングをより効果的に行うために2つの一般的なテーマが浮かび上がっています。事前トレーニングは、大規模な未ラベルデータセットで自己教師付けの方法で行われる最初のステップであり、初期トレーニングには「Common Crawl – Get Started」といったリソースが使用されます。次の段階である「微調整」には、タスク固有のデータの訓練が含まれます。BERTのようなモデルをゼロからトレーニングすることは可能ですが、特殊なケースを除いて、既存のモデル(例えば「bert-large-cased · Hugging Face」)を使用する方が実用的です。効果的なモデルのほとんどは、リソースの制約により継続的なトレーニングには適していないため、Parameter-Efficient Fine-Tuning(PEFT)に焦点を当てています。「アダプタ」という技術がPEFTの最前線にあり、この技術ではモデルの残りの部分を固定したままでトレーニングを行う追加のレイヤが導入され、元のウェイトに対して独自の「修飾子」ウェイトを学習することや、スパーストレーニングや低ランクアダプテーション(LoRA)のような手法を使用することがあります。モデルの適用を適応させる最も簡単な方法は、プロンプトエンジニアリングです。ここではモデルそのものはそのままにし、タスクに最適な応答を生成するようなプロンプトを戦略的に選択します。最近の研究では、このプロセスを補完するための追加モデルが自動化されることを目指しています。 まとめると、LLMの訓練の効率は、データの選択、モデルのアーキテクチャの最適化、革新的な訓練技術などのスマートな戦略にかかっています。これらの手法により、高度なLLMの使用が民主化され、さまざまなアプリケーションやユーザーにとってアクセスしやすく実用的になります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us