Search Results アダプタ

「GenAIのモデルの出力を改善する方法」

ジェネレーティブAIは、DLアルゴリズムのおかげで強力なコンテンツ生成器に進化しましたただし、より正確な結果を得るためには、異なるサイクルと反復を使用することができます

「組織のためのカスタマイズされたコーディングパートナー」

コーディングの仲間としての生成的AIモデルは、主に公開されているソースコードと自然言語テキストで訓練されています大規模なトレーニングコーパスのため、これらのモデルは一般的に使用される機能のためのコードを生成することができますが、これらのモデルはプライベートリポジトリ内のコードや開発時に強制される関連するコーディングスタイルには無知です

潜在的一貫性モデル（LCM）は、ステーブルディフュージョン（またはSDXL）を使用してイメージを生成するために必要なステップ数を減らす方法です。オリジナルモデルを別のバージョンに蒸留し、元の25〜50ステップではなく4〜8ステップ（少ない）だけを必要とするようにします。蒸留は、新しいモデルを使用してソースモデルからの出力を再現しようとするトレーニング手順の一種です。蒸留されたモデルは、小さく設計される場合があります（これがDistilBERTや最近リリースされたDistil-Whisperの場合）または、この場合のように実行に必要なステップ数を減らします。これは通常、膨大な量のデータ、忍耐力、およびいくつかのGPUが必要な長時間かかる高コストのプロセスです。それが今日までの現状でした！私たちは、Stable DiffusionとSDXLを、まるでLCMプロセスを使用して蒸留されたかのように、速くする新しい方法を発表できることを喜ばしく思います！3090で7秒の代わりに約1秒、Macで10倍速くSDXLモデルを実行する、というのはどうですか？詳細は以下をご覧ください！目次メソッドの概要なぜこれが重要なのか SDXL LCM LoRAsによる高速推論品質の比較ガイダンススケールとネガティブプロンプト品質 vs. ベースのSDXL 他のモデルとのLCM LoRAs フルディフューザーズの統合ベンチマーク今日リリースされたLCM LoRAsとモデルボーナス：通常のSDXL LoRAsとの組み合わせ LCM…

ドックスからコードの生成には、LLMsを使用します

大規模言語モデル（LLMs）は、詳細な医師のメモを正確な医療コードに迅速に翻訳することで、効率と正確性を向上させます

「LLM革命：言語モデルの変革」

イントロダクション言語モデルの世界は、特に大規模言語モデル（LLM）の登場により、過去数年間で劇的な進化を遂げました。これらのモデルは、数十億のパラメータと自然言語の深い理解を備えており、人工知能の分野を変革するのに重要な役割を果たしてきました。今日は、この革命を探求し、クローズドソースからオープンソースのLLMへの移行、ファインチューニングの重要性、そして最近登場した効率的なファインチューニング技術の開発に焦点を当てます。学習目標：クローズドソースとオープンソースのLLMの違いを知る。 LLMの伝統的なファインチューニングとパラメータ効率のファインチューニングを理解する。異なるパラメータ効率のファインチューニング戦略を探索する。効率的なファインチューニングのためのLudwigの使用方法を学ぶ。クローズドソース vs オープンソースのLLM：適切なアプローチの選択言語モデルの景色は、OpenAIなどの企業が提供するクローズドソースのモデルと、Meta、Googleなどの機関が提供するオープンソースのバリアントとの2分することがありました。ChatGPT、GPT 3.5、GPT 4などのクローズドソースのLLMは、管理されたインフラストラクチャと迅速なプルーフオブコンセプトの能力により、魅力的な出発点を提供します。これらのモデルは、高品質の事前学習データセットを提供し、インフラストラクチャのセットアップは不要であり、LLMの能力を探求する人々にとって簡単な入り口となります。しかし、アクセス性にもかかわらず、クローズドソースのLLMには根本的な制約があります。これらはモデルの所有権を欠き、最小限のカスタマイズ能力しか提供せず、特にデータプライバシーやモデルの制御が重要なセクターでは、長期的な投資には適していません。これに対し、オープンソースのLLMは有望な代替手段です。完全なモデルの所有権とカスタマイズが可能であり、オープンソースの領域での革新的な開発への即時アクセスを容易にします。そのトレードオフは、これらのモデルを自己ホスティングするための費用と課題です。伝統的なファインチューニング vs パラメータ効率のファインチューニングファインチューニングは、特にドメイン固有のタスクを考慮する際に、LLMの潜在能力を最大限に引き出すための重要なプロセスとして浮かび上がります。クローズドソースのモデルは、ファインチューニングに必要な柔軟性を欠いている一方、オープンソースのモデルはこのプロセスに完全な制御を提供します。ファインチューニングにより、事前学習済みのLLMを特定のタスクに適応させるためにモデルの重みを更新し、パフォーマンスを向上させることができます。これは一般的なモデルを専門的なアプリケーションに合わせてパーソナライズする手段であり、ユニークなタスクのためにパフォーマンスを最適化することを可能にします。ファインチューニングとRetrieval Augmented Generation（RAG）などのモデルの間の議論は、特定のタスクに合わせたモデルの必要性と一般的な目的を持つ知能の間の関係に焦点を当てています。LLMのオープンソースの性質は、カスタマイズと効率的なファインチューニングを可能にし、優れたタスク固有のパフォーマンスを実現するために必要です。伝統的なファインチューニングには、すべてのモデルのパラメータを更新するというリソースを多く消費し、時間がかかり、必ずしも最適なタスク固有のパフォーマンスをもたらすわけではありませんというプロセスの制約があります。しかし、パラメータ効率のファインチューニングにおける最近のイノベーションは、この制約を打破しました。事前学習済みのLLMを凍結し、非常に小さなセットのタスク固有のレイヤーのみをトレーニングすることにより、効率的なファインチューニングはリソースに優しく、より効果的な方法で行われます。パラメータ効率のファインチューニングへの移行は、LLMを特定のタスクに適応させる方法に大きな影響を与えています。タスク固有のレイヤーの最小限のセットのみに焦点を当てることにより、プロセスは費用効果が高く、時間効率が良くなります。この革新的なアプローチにより、データセットが小さくても最適なタスク固有のパフォーマンスが実現され、クローズドソースのモデルに比べてオープンソースのLLMの潜在能力が示されます。 MetaによるLIMA論文などの研究は、GPT…

LLMのパフォーマンス比較ーRoberta、Llama 2、およびMistralを使用したLoraによる災害ツイート分析の詳細解説

<ul><li><a href=”https://www.voagi.com/efficient-adaptability-in-large-language-models-through-lowrank-matrix-factorization-lora-qlora-and.html”>LoRAを使用した災害ツイート分析のためのRoberta、Llama 2、Mistralの性能比較</a><ul><li><a href=”https://www.voagi.com/intro-to-social-network-analysis-with-networkx.html”>イントロダクション</a></li><li><a href=”https://www.voagi.com/3-ios-0days-infect-iphone.html”>使用されたハードウェア</a></li><li><a href=”/?s=Goals”>ゴール</a></li><li><a href=”/?s=Dependencies”>依存関係</a></li><li><a href=”https://www.voagi.com/pretrained-foundation-models-the-future-of-molecular-machine-learning-with-graphium-ml-library-and.html”>事前学習済みモデル</a><ul><li><a href=”/?s=RoBERTa”>RoBERTa</a></li><li><a href=”https://www.voagi.com/create-a-rag-pipeline-using-the-llama-index.html”>Llama 2</a></li><li><a href=”https://www.voagi.com/mistral-ai-sets-new-benchmarks-beyond-llama2-in-opensource-space.html”>Mistral 7B</a></li></ul></li><li><a href=”https://www.voagi.com/langchain-101-finetuning-llms-with-peft-lora-and-rl.html”>LoRA</a></li><li><a href=”https://www.voagi.com/llm-evals-setup-and-important-metrics-guide.html”>セットアップ</a></li><li><a href=”https://www.voagi.com/how-to-be-a-data-analyst-in-the-usa.html”>データの準備</a><ul><li><a href=”https://www.voagi.com/how-to-be-a-data-analyst-in-the-usa.html”>データの読み込み</a></li><li><a href=”https://www.voagi.com/apache-kafka-the-mission-critical-data-fabric-for-genai.html”>データ処理</a></li></ul></li><li><a href=”https://www.voagi.com/impact-of-language-models-on-medical-text-analysis.html”>モデル</a><ul><li><a href=”/?s=RoBERTa”>RoBERTa</a><ul><li><a href=”https://www.voagi.com/tips-to-use-prompt-engineering-for-text-classification.html”>分類タスクのためのRoBERTAチェックポイントの読み込み</a></li><li><a href=”https://www.voagi.com/langchain-101-finetuning-llms-with-peft-lora-and-rl.html”>RoBERTa分類器のためのLoRAセットアップ</a></li></ul></li><li><a href=”https://www.voagi.com/mistral-ai-sets-new-benchmarks-beyond-llama2-in-opensource-space.html”>Mistral</a><ul><li><a href=”https://www.voagi.com/mistral-ai-opensources-mistral-7b-a-versatile-language-model.html”>分類モデルのためのチェックポイントの読み込み</a></li><li><a…

「カスタムクエリを使用してビジネス特有のドキュメントでAmazon Textractをカスタマイズする」

「Amazon Textractは、スキャンされたドキュメントからテキスト、手書き、データを自動的に抽出する機械学習（ML）サービスですQueriesは、自然言語を使用して、さまざまな複雑なドキュメントから特定の情報を抽出する機能ですCustom Queriesは、ビジネス固有の非標準ドキュメントに対してQueries機能をカスタマイズする方法を提供します」

AIの聴覚スキルを革命化する：清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表

さまざまな自然言語処理アプリケーションでは、テキストベースの大規模言語モデルが印象的であり、人間に近いパフォーマンスを示しています。一方、ユーザーの指示と参照応答のペアとしてデータが配置される「指示調整」というLLMトレーニングパラダイムは、LLMが制約のないユーザーの命令に従うことを可能にするように進化しています。研究者たちは、LLMにマルチモーダル感覚スキルを備えさせることに興味を持っています。現在の研究は、LLMを1つ以上の入力型（画像、無音動画、音声イベント、スピーチなど）のエンコーダにリンクさせること、または多くの入力種別のエンコーダと組み合わせることに焦点を当てています。エンコーダの出力空間をLLMの入力空間と整列させるためには、クロスモーダルプレトレーニングと指示調整を通じて教えられることがしばしばあり、コネクションモジュールとLLMアダプタを利用することができます。この研究で提案されている音声音楽オープンニューラルネットワーク（SALMONN）は、音声、音声イベント、音楽の3つの主要な音のカテゴリを認識し理解できる単一のオーディオテキストマルチモーダルLLMです。 SALMONNは、Whisper音声モデルの音声エンコーダとWhisper音声モデルの音声エンコーダからなるデュアルエンコーダフレームワークを採用して、音声および非音声のオーディオアプリケーションのパフォーマンスを向上させることを目指しています。 Vicunaのパフォーマンスをさらに向上させるために、低ランク適応戦略がクロスモーダルアダプタとして利用され、拡張された入力空間と出力空間を一致させることが提案されています。ウィンドウレベルのQ-FormerとLoRAのクロスモーダルプレトレーニングおよび指示調整フェーズでは、多くの音声、音声、音楽の課題が使用されます。結果として得られるマルチモーダルLLMはクロスモーダルの新たなスキルをほとんど持たず、指示調整で使用される特定のタスクに制約を受けることがあります。このタスク過適合問題と呼ばれるものです。トレーニング中に気付かれないクロスモーダルタスクを実行する能力は、本研究ではクロスモーダルの新興スキルと呼ばれています。これらの能力は、指示を調整する過程で失われるLLMの新興能力です。訓練タスクの重大な忘却を緩和するために、彼らはSALMONNのレパートリーにいくつかの追加のフューショットアクティベーションチューニングステージを追加することを提案しています。 SALMONNの認知的聴覚能力は、さまざまな音声、音声イベント、音楽の基準を使用して評価されます。タスクには3つのレベルがあります。最初の2つのレベルでは未訓練のアクティビティがテストされ、最初のレベルでは音声キャプショニング、翻訳、音声認識などの指導チューニングで教えられる8つのタスクがベンチマークとして利用されます。2番目のレベルでは、スロット埋め込みや未訓練の言語への翻訳など、5つの音声ベースの自然言語処理（NLP）タスクが含まれます。これらのタスクには、音声とテキストトークン間の多言語および高品質のアラインメントが必要です。非音声の音響情報を理解することは、最後の一連のアクティビティに必要です。例えば、音声ベースのナラティブや音声と音声の共同推論です。実験の結果、SALMONNはこれらすべてのタスクを完了し、単一のモデルとして産業ベンチマークで競争力のあるパフォーマンスを発揮することができることが示されました。これは、音声、音声イベント、音楽を含むさまざまな音声入力を「聞く」ことができ、理解することが可能な人工知能を作成することができる可能性を示しています。この論文の主な貢献は次の通りです。 • 清華大学と字節跳动の研究者は、音声、音声イベント、音楽を含む一般的な音声入力を認識し理解することができる初のマルチモーダルLLMである「SALMONN」を提供しています。 • LoRAのスケーリングファクターを変更することで、クロスモーダルの新興スキルの存在を調査しました。その後、これらの能力を活性化し、トレーニング中に遭遇したタスクに対する重大な忘却を軽減する追加のトレーニングステップとして、低コストのアクティベーションチューニング技術を提案しています。・オーディオベースのストーリーテリングと音声ベースの共同推論などの2つの新しいタスクを提供し、さまざまな認識スキルを代表するさまざまなタスクでSALMONNを評価しています。

Amazon SageMaker JumpStartを使用した対話型ビジュアル言語処理

ビジュアル言語処理（VLP）は生成AIの最前線にあり、言語知能、ビジョン理解、処理を包括するマルチモーダル学習の進展を推進しています大規模な言語モデル（LLM）と大量のマルチモーダリティデータで訓練された対照的な言語-画像プレトレーニング（CLIP）との組み合わせにより、ビジュアル言語モデル（VLM）は特に画像キャプショニングなどのタスクに優れた能力を示しています

私の個人的なコパイロット：自分自身のコーディングアシスタントをトレーニングする

プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。では、始めましょう 🚀 データ収集のワークフロー私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています：このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです： [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…

Learn more about Search Results アダプタ - Page 4