Learn more about Search Results huggingface.co - Page 2
- You may be interested
- フォートペック族のメンバーとグーグラー...
- 学校でのChatGPTの影響となぜ禁止されつつ...
- 『9月は「セプテムクエイク」? Rを使った...
- 「Pydeckでフラットマップにさようならを...
- 新たなディープ強化学習(DRL)フレームワ...
- 「Pythonで日時データを扱うための3つの強...
- Excel vs Tableau – どちらが優れたツール...
- 「あなたの学校の次のセキュリティガード...
- 「コール オブ デューティ」がGeForce NOW...
- 「合成キャプションはマルチモーダルトレ...
- PandasGUIによるデータ分析の革新
- 「ウォルマート、オフィス従業員を生成AI...
- データサイエンスのプロフェッショナルに...
- ChatGPTの哲学コース:このAI研究は、対話...
- AlphaFoldは、タンパク質の宇宙の構造を明...
パフォーマンスの向上と最適化されたリソース使用のためのダイナミックなLoRAローディング
私たちは、拡散モデルに基づくLoRAのハブ内の推論速度を大幅に高速化することができました。これにより、計算リソースを節約し、より良いユーザーエクスペリエンスを提供することができました。 モデルへの推論を行うには、2つのステップがあります: ウォームアップフェーズ – モデルのダウンロードとサービスのセットアップ(25秒)。 推論ジョブ自体(10秒)。 これらの改善により、ウォームアップ時間を25秒から3秒に短縮することができました。数百の異なるLoRAに対する推論を、たった5つのA10G GPU以下で提供することができます。さらに、ユーザーリクエストへの応答時間は35秒から13秒に短縮されました。 一つのサービスで多くの異なるLoRAを動的に提供するために、Diffusersライブラリで開発された最近の機能を活用する方法についてもっと話しましょう。 LoRA LoRAは「パラメータ効率」(PEFT)メソッドの一環である、微調整技術です。このメソッドは、微調整プロセスによって影響を受けるトレーニング可能なパラメータの数を減らすことを試みます。微調整の速度を高めながら、微調整済みチェックポイントのサイズを減らすことができます。 モデルの全ての重みに微小な変更を行うことによってモデルを微調整する代わりに、ほとんどの層を固定し、注意ブロック内の特定の一部の層のみをトレーニングします。さらに、これらの層のパラメータに触れず、二つの小さな行列の積を元の重みに加えることで、これらの層のパラメータを更新します。これらの小さな行列は微調整プロセス中に更新され、ディスクに保存されます。これにより、元のモデルのパラメータはすべて保存され、適応方法を使用してLoRAの重みを上にロードすることができます。 LoRA(Low Rank Adaptation)という名前は、先ほど言及した小さな行列から来ています。このメソッドについての詳細は、この記事または元の論文をご覧ください。 上記の図は、LoRAアダプタの一部として保存される二つの小さなオレンジ色の行列を示しています。後でこれらのLoRAアダプタをロードし、青いベースモデルと結合して黄色の微調整モデルを取得することができます。重要なことは、アダプタをアンロードすることも可能なので、いつでも元のベースモデルに戻すことができるということです。 言い換えると、LoRAアダプタは、必要に応じて追加および削除が可能なベースモデルのアドオンのようなものです。AとBの小さなランクのため、モデルサイズと比較して非常に軽量です。したがって、ロード時間は全体のベースモデルをロードするよりもはるかに高速です。 例えば、多くのLoRAアダプタのベースモデルとして広く使用されているStable Diffusion XL Base 1.0モデルリポジトリを見ると、そのサイズは約7 GBです。しかし、このモデルのような典型的なLoRAアダプタは、わずか24 MBのスペースしか使用しません!…
「ローカルCPU上の小規模言語モデルのためのステップバイステップガイド」
紹介 自然言語処理において、言語モデルは変革の道を歩んできました。GPT-3のような巨大なモデルに関心が集まりがちですが、小規模な言語モデルの実用性とアクセシビリティを過小評価してはなりません。本記事は、小規模な言語モデルの重要性を理解するための包括的なガイドであり、ローカルCPU上での実行方法についての詳細な手順を提供しています。 出典: Scribble Data 言語モデルの理解 言語モデルの定義 言語モデルは、人間のような言語を理解し生成するために設計されたシステムです。データサイエンスの広範な分野では、これらのモデルはチャットボット、コンテンツ生成、感情分析、質問応答などのタスクで重要な役割を果たしています。 異なる種類の言語モデル 小規模な言語モデルは、その小さなサイズにもかかわらず、独自の利点を持っています。効率的で計算速度も速く、ドメイン固有のタスクにカスタマイズ可能であり、外部サーバーを使用せずにデータのプライバシーを維持します。 データサイエンスにおける言語モデルの用途 その汎用性は、さまざまなデータサイエンスの応用に現れます。リアルタイムの高トラフィックタスクにおいても、ドメイン固有の要件に合わせることができます。 実践的な学習でGenerative AIのレベルを上げましょう。当社のGenAI Pinnacle Programで高度なデータ処理のためのベクターデータベースの素晴らしさを発見してください! ローカルCPU上で小規模な言語モデルを実行する手順 ステップ1:環境の設定 ローカルCPU上で言語モデルを正常に実行するための基盤は、適切な環境を構築することにあります。これには必要なライブラリや依存関係のインストールが含まれます。TensorFlowやPyTorchなどのPythonベースのライブラリは人気があり、機械学習やディープラーニングのための事前構築ツールを提供しています。 必要なツールとソフトウェア Python TensorFlow PyTorch このためにはPythonの仮想環境を使用しましょう:…
「UCバークレーの研究者たちは、スターリング-7Bを発表しました:AIフィードバックからの強化学習でトレーニングされたオープンな大規模言語モデル(LLM)です(RLAIF)」
大規模言語モデル(LLM)は、自然言語処理タスクのための人工知能モデルです。これらのモデルは膨大なデータセットでトレーニングされ、人間のようなテキストを理解し、生成することができます。彼らは人間のようなテキストを理解し、生成する能力によって自然言語処理を変革しました。その役割は、生活のあらゆる分野に及んでいます。 UCバークレーの研究者たちは、Reinforcement Learning from AI Feedback(RLAIF)によってトレーニングされたオープンな大規模言語モデル(LLM)であるStarling-7Bを開発しました。このモデルは、最近開発された報酬訓練およびポリシーチューニングパイプライン、新しいGPT-4ラベル付きランキングデータセットNectar、最先端の報酬訓練およびポリシーチューニングパイプラインの機能を活用しています。 https://starling.cs.berkeley.edu/ Starling-7Bの基盤は、GPT-4のラベル付きランキングデータセットNectarにあります。このデータセットには183,000のチャットプロンプトが含まれており、各プロンプトにはGPT-4、GPT-3.5-instruct、GPT-3.5-turbo、Mistral-7B-Instruct、およびLlama2-7Bなどのさまざまなモデルからの7つの応答があります。これにより、380万組の比較が可能となります。研究者たちは、GPT-4の順位付けを求める際に位置バイアスを軽減するためにかなりの努力を注いでおり、データセットのセクションで詳細に説明しています。 https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha 彼らは学習報酬モデルを使用してOpenchat 3.5言語モデルを洗練させ、結果は印象的であると結論づけました。アルパカ評価スコアは88.51%から91.99%に向上し、MT-Benchスコアは7.81から8.09に向上しました。これらのメトリックは、チャットボットの有用性を評価する基準として機能します。 研究者たちは、Direct Preference Optimization(DPO)を使用してZephyra-7B、Neural-Chat-7B、およびTulu-2-DPO-70Bなどの既存のオープンソースモデルとモデルを比較しました。これらのモデルはChatbot Arenaで良いパフォーマンスを発揮しましたが、MT BenchではOpenHermes 2.5やOpenchat 3.5などのトップSFTモデルと比較してRLHFの完全なポテンシャルには及びませんでした。 研究者たちは、このモデルには特定の課題があると強調しました。それは欺瞞的または操作的な手法に対して脆弱です。また、モデルは数学的または推論タスクに苦労し、出力の事実的な正確性は時々しか保証されません。彼らはまた、モデルが時折冗長になり、ジェイルブレイキングプロンプトに対しても脆弱であることを指摘しました。これらの欠点に対しては、Starling-7Bの改善に引き続き取り組んでいます。 この問題に対処するために、彼らはGPT-4をガイドとして使用するルールベースの報酬モデルを利用して、モデルをさらに洗練することを提案しました。GPT-4の技術レポートで概説されている技術を使用します。 まとめると、Starling-7Bは、LLMにおける重要な進歩を示し、AIフィードバックからの強化学習の可能性を示しています。自然言語処理の分野は、これらのモデルとコミュニティの共有知識の協力によって向上しています。研究者たちは、モデルのパフォーマンスを向上させ、制限を解決するために取り組んでいます。 この投稿は、UCバークレーの研究者によるStarling-7Bの紹介:AIフィードバックからの強化学習によってトレーニングされたオープンな大規模言語モデル(LLM)が最初に掲載されたMarkTechPostです。
「OpenAIモデルに対するオープンソースの代替手段の探索」
序文 AIの領域では、11月はドラマチックな展開がありました。GPTストアやGPT-4-turboのローンチ、そしてOpenAIの騒動まで、まさに忙しい一ヶ月でした。しかし、ここで重要な問題が浮かび上がります:クローズドモデルとその背後にいる人々はどれだけ信頼できるのでしょうか?自分が実際に運用しているモデルが内部の企業ドラマに巻き込まれて動作停止するのは快適な体験とは言えません。これはオープンソースモデルでは起こらない問題です。展開するモデルには完全な管理権限があります。データとモデルの両方に対して主権を持っています。しかし、OSモデルをGPTと置き換えることは可能でしょうか?幸いなことに、既に多くのオープンソースモデルが、GPT-3.5モデル以上の性能を発揮しています。本記事では、オープンソースのLLM(Large Language Models)およびLMM(Large Multi-modal Models)の最高の代替品をいくつか紹介します。 学習目標 オープンソースの大規模言語モデルについての議論。 最新のオープンソース言語モデルとマルチモーダルモデルについての探求。 大規模言語モデルを量子化するための簡易な導入。 LLMをローカルおよびクラウド上で実行するためのツールやサービスについて学ぶ。 この記事は、データサイエンスブログマラソンの一環として公開されました。 オープンソースモデルとは何ですか モデルがオープンソースと呼ばれるのは、モデルの重みとアーキテクチャが自由に利用できる状態にあるからです。これらの重みは、例えばMeta’s Llamaのような大規模言語モデルの事前訓練パラメータです。これらは通常、ファインチューニングされていないベースモデルやバニラモデルです。誰でもこれらのモデルを使用し、カスタムデータでファインチューニングして下流のアクションを実行することができます。 しかし、それらはオープンなのでしょうか?データはどうなっているのでしょうか?多くの研究所は、著作権に関する懸念やデータの機密性の問題などの理由から、ベースモデルの訓練データを公開しません。これはまた、モデルのライセンスに関する部分にも関連しています。すべてのオープンソースモデルは、他のオープンソースソフトウェアと同様のライセンスが付属しています。Llama-1などの多くのベースモデルは非商用ライセンスとなっており、これらのモデルを利用して収益を上げることはできません。しかし、Mistral7BやZephyr7Bなどのモデルは、Apache-2.0やMITライセンスが付属しており、どこでも問題なく使用することができます。 オープンソースの代替品 Llamaのローンチ以来、オープンソースの領域ではOpenAIモデルに追いつこうとする競争が繰り広げられています。そしてその結果は今までにないものでした。GPT-3.5のローンチからわずか1年で、より少ないパラメータでGPT-3.5と同等またはそれ以上のパフォーマンスを発揮するモデルが登場しました。しかし、GPT-4は依然として理性や数学からコード生成までの一般的なタスクには最も優れたモデルです。オープンソースモデルのイノベーションと資金調達のペースを見ると、GPT-4のパフォーマンスに近づくモデルが間もなく登場するでしょう。とりあえず、これらのモデルの素晴らしいオープンソースの代替品について話しましょう。 Meta’s Llama 2 Metaは今年7月にLlama-2という彼らの最高のモデルをリリースし、その印象的な能力により一瞬で人気を集めました。MetaはLlama-7b、Llama-13b、Llama-34b、Llama-70bの4つの異なるパラメータサイズのLlama-2モデルをリリースしました。これらのモデルは、それぞれのカテゴリにおいて他のオープンモデルを上回る性能を発揮しました。しかし、現在ではmistral-7bやZephyr-7bのような複数のモデルが、多くのベンチマークで小さなLlamaモデルを上回る性能を発揮しています。Llama-2 70bはまだそのカテゴリーで最高のモデルの一つであり、要約や機械翻訳などのタスクにおいてGPT-4の代替モデルとして価値があります。 Llama-2はGPT-3.5よりも多くのベンチマークで優れたパフォーマンスを発揮し、GPT-4に迫ることもできました。以下のグラフは、AnyscaleによるLlamaとGPTモデルのパフォーマンス比較です。…
LMQL — 言語モデル用のSQL
「SQLについて聞いたことがあるか、あるいはスキルを習得したことがあるはずですSQL(Structured Query Language)はデータベースデータの操作に広く利用される宣言型言語です年次のStackOverflow調査によると...」
自動チケットトライアジによる顧客サポート効率の向上
イントロダクション 顧客サポートの世界では、効率と迅速さが極めて重要です。OpenAIのGPT-3.5などの大規模言語モデル(LLMs)を活用することで、顧客サポートのプロジェクト最適化に独自の視点をもたらすことができます。本記事では、LLMsを使用してチケットの分類を自動化し、顧客サポートチームにシームレスで効率的なソリューションを提供する方法について探求します。さらに、このプロジェクトの実装例を示すために実践的なコード実装も紹介します。 学習目標 大規模言語モデルの基本的な概念と、プロジェクト管理のさまざまな側面での最適化方法を学びます。 感情に基づくチケットの分類や自動コードコメントなど、特定のプロジェクトシナリオを通じて、LLMsの多様な応用に対する洞察を得ます。 LLMsをプロジェクト管理プロセスに統合する際のベストプラクティス、潜在的な課題、考慮事項について、効果的かつ倫理的なLLMsの活用を確保する方法を探究します。 この記事はデータサイエンスブログマラソンの一環として公開されました。 プロジェクトのための大規模言語モデル最適化(LLMOPs) プロジェクトのための大規模言語モデル最適化(LLMOPs)は、プロジェクト管理におけるパラダイムシフトを表します。先進の言語モデルを活用して、プロジェクトライフサイクルのさまざまな側面を自動化し向上させるものです。 出典:Square Space 自動プロジェクト計画とドキュメンテーション 参照:「Generative Pretrainingによる言語理解の改善」(Radford et al., 2018) OpenAIのGPT-3などのLLMsは、自然言語の理解においてその威力を示し、自動的なプロジェクト計画を可能にします。テキスト入力を分析して包括的なプロジェクト計画を生成し、計画フェーズでの手作業の努力を削減します。さらに、LLMsは動的なドキュメンテーションの生成に寄与し、人間の介入を最小限に抑えてプロジェクトドキュメンテーションを最新の状態に保つことができます。 コードの生成と最適化 参照:「深層双方向トランスフォーマーの言語理解のためのBERTの事前トレーニング」(Devlin et al., 2018) 大規模言語モデルは、高水準なプロジェクト要件の理解とコードスニペットの生成において優れた能力を示しています。LLMsを使用したコードの最適化に関する研究では、これらのモデルが仕様に基づいてコードを提供し、既存のコードベースを分析して非効率を特定し、最適化された解決策を提案することが探究されています。…
テキストから画像への革命:SegmindのSD-1Bモデルが最速のゲームで登場
紹介 Segmind AIは、画期的なオープンソースのテキストから画像への生成モデルであるSSD-1B(Segmind Stable Diffusion 1B)を誇りに思って発表しました。この高速モデルは、前例のない速度、コンパクトなデザイン、高品質な視覚出力を実現しています。人工知能は、自然言語処理とコンピュータビジョンの分野で急速な進歩を示し、境界を再定義する革新を示しています。SSD 1Bモデルは、その主な特徴によりコンピュータビジョンへの扉を開きます。この包括的な記事では、モデルの特徴、使用例、アーキテクチャ、トレーニング情報などについて詳しく説明します。 学習目標 SSD-1Bのアーキテクチャの概要を探索し、専門モデルからの知識蒸留の活用方法を理解する。 SegmindプラットフォームでSSD-1Bモデルを活用して、高速な推論とコード推論を試して実践的な経験を得る。 後続の使用例について学び、SSD-1Bモデルが特定のタスクに使用できる方法を理解する。 特に絶対的な写真リアリズムの達成と特定のシナリオでのテキストの明瞭性を維持するためのSSD-1Bの限界を認識する。 この記事は、Data Science Blogathonの一環として公開されました。 モデルの説明 生成的な人工知能を使用する際の主な課題は、サイズと速度の問題です。テキストベースの言語モデルを扱うことは、モデル全体の重みを読み込む問題と推論時間の問題になりますが、安定な拡散を使った画像の場合はさらに困難になります。SSD-1Bは、高品質なテキストから画像への生成能力を維持しながら、SDXLの50%小さい蒸留版であり、60%の高速化が実現されています。GritとMidjourneyのスクレープデータを含むさまざまなデータセットでトレーニングされており、単語に基づいた視覚的な内容の作成に優れています。これは、専門モデル(SDXL、ZavyChromaXL、JuggernautXL)からの知識の戦略的な蒸留と豊富なデータセットでのトレーニングによって達成されました。この蒸留プロセスにより、SSD-1Bは様々なコマンドを処理する能力を備えています。 Segmind SD-1Bの主な特徴 テキストから画像の生成: テキストのプロンプトから画像を生成することに優れ、創造的なアプリケーションが可能です。 高速化のために蒸留: 効率化のために設計され、リアルタイムアプリケーションでの実用的な使用を60%高速化します。 多様なトレーニングデータ:…
「リアルタイムの高度な物体認識を備えたLego Technicソーターの構築」
「Nullspace Roboticsでのインターンシップ中、私は会社の能力を高めるプロジェクトに取り組む機会を得ました物体検出と機械学習画像を統合しました…」
エクスラマV2:LLMを実行するための最速のライブラリ
ExLlamaV2は、GPTQからさらに高いパフォーマンスを引き出すために設計されたライブラリです新しいカーネルのおかげで、(超高速の)速い推論に最適化されています
化学エンティティ認識の自動化:ChemNERモデルの作成
私は常に化学に強い興味を持っており、それは私の学術的および職業的な道程を形成する上で重要な役割を果たしてきました化学のバックグラウンドを持つデータ専門家として、私は...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.