Search Results huggingface.co

LLMのトレーニングの異なる方法

大規模言語モデル（LLM）の領域では、さまざまなトレーニングメカニズムがあり、異なる手段、要件、目標がありますそれぞれが異なる目的を果たすため、混同しないようにすることが重要です...

7月7日から7月11日まで、私たちは初めてのオープンソースAIゲームジャムを開催しました。これは、AIを使用して48時間以内に革新的なゲームを作成するというエキサイティングなイベントでした。主な目的は、少なくとも1つのオープンソースAIツールを組み込んだゲームを作成することでした。プロプライエタリなAIツールも使用できましたが、参加者にはオープンソースのツールをゲームやワークフローに統合することを奨励しました。私たちの取り組みへの反応は、予想を上回り、1300人以上のサインアップと88の素晴らしいゲームの応募がありました。こちらで試すことができます👉 https://itch.io/jam/open-source-ai-game-jam/entries テーマ：拡大創造性を刺激するために、「拡大」というテーマを選びました。これについては解釈を自由にし、開発者がアイデアを探求し実験することを許し、多様なゲームが生まれました。ゲームは、その楽しさ、創造性、テーマへの適合度に基づいて、同僚や貢献者によって評価されました。上位10作品は、その後、ディラン・エバート、トーマス・シモニーニ、オマール・サンセヴィエロの3人の審査員によって最優秀作品が選ばれました。優勝者 🏆🥇 慎重な審議の結果、審査員は1つの優れたゲームをオープンソースAIゲームジャムの優勝者に選びました。それはohmletの「Snip It」です 👏👏👏。コード：Ruben Gres AIアセット：Philippe Saade 音楽/SFX：Matthieu Deloffre このAI生成ゲームでは、絵画が生き返る美術館を訪れます。絵画内のオブジェクトを切り取って隠された秘密を明らかにしてください。こちらでプレイできます 👉…

「Llama 2が登場しました – Hugging Faceで手に入れましょう」

はじめに Llama 2は、Metaが本日リリースした最新のオープンアクセスの大規模言語モデルのファミリーです。私たちはHugging Faceとの包括的な統合を完全にサポートすることで、このリリースを支援しています。Llama 2は非常に寛容なコミュニティライセンスでリリースされ、商業利用も可能です。コード、事前学習モデル、ファインチューニングモデルはすべて本日リリースされます🔥 私たちはMetaとの協力により、Hugging Faceエコシステムへのスムーズな統合を実現しています。Hubで12のオープンアクセスモデル（3つのベースモデルと3つのファインチューニングモデル、オリジナルのMetaチェックポイントを含む）を見つけることができます。リリースされる機能と統合の中には、以下のものがあります：モデルカードとライセンスを備えたHub上のモデル。 Transformersの統合単一のGPUを使用してモデルの小さなバリアントをファインチューニングするための例高速かつ効率的なプロダクションレディの推論のためのテキスト生成インファレンスとの統合インファレンスエンドポイントとの統合目次 Llama 2を選ぶ理由デモインファレンス Transformersを使用する場合インファレンスエンドポイントを使用する場合 PEFTによるファインチューニング追加リソース結論 Llama 2を選ぶ理由…

AI WebTVの構築

AI WebTVは、自動ビデオと音楽合成の最新の進歩を紹介するための実験的なデモです。 👉 AI WebTVスペースにアクセスしてストリームを視聴できます。モバイルデバイスを使用している場合は、Twitchのミラーからストリームを視聴できます。 AI WebTVの目的は、ZeroscopeやMusicGenなどのオープンソースのテキストからビデオを生成するモデルを使用して、エンターテイニングでアクセスしやすい方法でビデオをデモすることです。これらのオープンソースモデルは、Hugging Faceハブで見つけることができます: ビデオ用: zeroscope_v2_576とzeroscope_v2_XL 音楽用: musicgen-melody 個々のビデオシーケンスは意図的に短く作られており、WebTVは芸術方向性やプログラミングを持つ実際のショーではなく、テックデモ/ショーリールとして見るべきです。 AI WebTVは、ビデオショットのシーケンスを取り、テキストからビデオを生成するモデルに渡してテイクのシーケンスを生成することで動作します。さらに、人間によって書かれた基本テーマとアイデアは、LLM（この場合はChatGPT）を通じて渡され、各ビデオクリップごとにさまざまな個別のプロンプトを生成するために使用されます。以下は、AI WebTVの現在のアーキテクチャのダイアグラムです: WebTVはNodeJSとTypeScriptで実装されており、Hugging Faceでホストされているさまざまなサービスを使用しています。テキストからビデオへのモデル中心となるビデオモデルはZeroscope…

「Hugging Faceにおけるオープンソースのテキスト生成とLLMエコシステム」

テキスト生成と対話技術は古くから存在しています。これらの技術に取り組む上での以前の課題は、推論パラメータと識別的なバイアスを通じてテキストの一貫性と多様性を制御することでした。より一貫性のある出力は創造性が低く、元のトレーニングデータに近く、人間らしさに欠けるものでした。最近の開発により、これらの課題が克服され、使いやすいUIにより、誰もがこれらのモデルを試すことができるようになりました。ChatGPTのようなサービスは、最近GPT-4のような強力なモデルや、LLaMAのようなオープンソースの代替品が一般化するきっかけとなりました。私たちはこれらの技術が長い間存在し、ますます日常の製品に統合されていくと考えています。この投稿は以下のセクションに分かれています：テキスト生成の概要ライセンス Hugging FaceエコシステムのLLMサービス用ツールパラメータ効率の良いファインチューニング（PEFT）テキスト生成の概要テキスト生成モデルは、不完全なテキストを完成させるための目的で訓練されるか、与えられた指示や質問に応じてテキストを生成するために訓練されます。不完全なテキストを完成させるモデルは因果関係言語モデルと呼ばれ、有名な例としてOpenAIのGPT-3やMeta AIのLLaMAがあります。次に進む前に知っておく必要がある概念はファインチューニングです。これは非常に大きなモデルを取り、このベースモデルに含まれる知識を別のユースケース（下流タスクと呼ばれます）に転送するプロセスです。これらのタスクは指示の形で提供されることがあります。モデルのサイズが大きくなると、事前トレーニングデータに存在しない指示にも一般化できるようになりますが、ファインチューニング中に学習されたものです。因果関係言語モデルは、人間のフィードバックに基づいた強化学習（RLHF）と呼ばれるプロセスを使って適応されます。この最適化は、テキストの自然さと一貫性に関して行われますが、回答の妥当性に関しては行われません。RLHFの仕組みの詳細については、このブログ投稿の範囲外ですが、こちらでより詳しい情報を見つけることができます。例えば、GPT-3は因果関係言語のベースモデルですが、ChatGPTのバックエンドのモデル（GPTシリーズのモデルのUI）は、会話や指示から成るプロンプトでRLHFを用いてファインチューニングされます。これらのモデル間には重要な違いがあります。 Hugging Face Hubでは、因果関係言語モデルと指示にファインチューニングされた因果関係言語モデルの両方を見つけることができます（このブログ投稿で後でリンクを提供します）。LLaMAは最初のオープンソースLLMの1つであり、クローズドソースのモデルと同等以上の性能を発揮しました。Togetherに率いられた研究グループがLLaMAのデータセットの再現であるRed Pajamaを作成し、LLMおよび指示にファインチューニングされたモデルを訓練しました。詳細についてはこちらをご覧ください。また、Hugging Face Hubでモデルのチェックポイントを見つけることができます。このブログ投稿が書かれた時点では、オープンソースのライセンスを持つ最大の因果関係言語モデルは、MosaicMLのMPT-30B、SalesforceのXGen、TII UAEのFalconの3つです。テキスト生成モデルの2番目のタイプは、一般的にテキスト対テキスト生成モデルと呼ばれます。これらのモデルは、質問と回答または指示と応答などのテキストのペアで訓練されます。最も人気のあるものはT5とBARTです（ただし、現時点では最先端ではありません）。Googleは最近、FLAN-T5シリーズのモデルをリリースしました。FLANは指示にファインチューニングするために開発された最新の技術であり、FLAN-T5はFLANを使用してファインチューニングされたT5です。現時点では、FLAN-T5シリーズのモデルが最先端であり、オープンソースでHugging Face Hubで利用可能です。入力と出力の形式は似ているかもしれませんが、これらは指示にファインチューニングされた因果関係言語モデルとは異なります。以下は、これらのモデルがどのように機能するかのイラストです。より多様なオープンソースのテキスト生成モデルを持つことで、企業はデータをプライベートに保ち、ドメインに応じてモデルを適応させ、有料のクローズドAPIに頼る代わりに推論のコストを削減することができます。Hugging…

「GPT4Readability — リードミーをもう一度書く必要はありません」

複雑なPythonのコードベースをナビゲートすることは、特にプロジェクトに十分なドキュメンテーションがない場合には困難なタスクですこれはプログラマの生活において頻繁に起こることです幸いにも...

「トランスフォーマーを使用した音声からテキストへの完全な入門ガイド」

イントロダクション私たちは、実際に気づかないうちにオーディオデータに関わっています。世界はオーディオデータと関連する解決すべき問題で溢れており、これらの問題の多くを機械学習を使って解決することができます。画像、テキスト、表形式のデータを使って機械学習モデルを訓練することや、これらのドメインの問題を解決するために機械学習を使うことにはお馴染みかもしれません。Transformerアーキテクチャの登場により、従来の方法よりもはるかに高い精度でオーディオ関連の問題を解決することが可能になりました。本講座では、トランスフォーマーを用いた音声テキスト変換を使用して、オーディオMLの基礎を学び、オーディオ関連の問題を機械学習を用いて解決するためのHuggingfaceライブラリの使用方法を学びます。学習目標オーディオ機械学習の基礎と関連する背景知識について学ぶ。オーディオデータの収集、保存、処理方法について学ぶ。機械学習を用いた一般的で価値のあるタスクである音声テキスト変換について学ぶ。オーディオタスクにおいてデータセットやトレーニング済みモデルを探し、それらを使用してHuggingface Pythonライブラリを活用してオーディオ問題を解決する方法について学ぶ。この記事はData Science Blogathonの一部として公開されました。背景 Deep Learningの革命が2010年代初頭に起こり、AlexNetが物体認識において人間の専門知識を超えたことから、Transformerアーキテクチャはおそらくそれ以来の最も大きなブレークスルーです。Transformerは以前に解決不可能だったタスクを可能にし、多くの問題の解決を簡素化しました。最初は自然言語翻訳の結果を向上させるために開発されたものでしたが、その後は自然言語処理以外のタスクにも広く採用されるようになりました。例えば、画像に関連するタスクにはViT（Vision Transformers）が適用され、強化学習エージェントの意思決定にはDecision Transformersが使用され、最近の論文ではMagViTというTransformersをビデオに関連するさまざまなタスクに使用する方法が示されています。これは、Attentionメカニズムを導入した有名な論文Attention is All You Needに始まり、Transformersのアーキテクチャの内部構造を既に知っているとは仮定しません。一般の開発者やパブリックドメインでは、ChatGPTやGitHub Copilotといった名前が非常に有名ですが、Deep Learningはビジョン、強化学習、自然言語処理など、さまざまな分野で多くの実世界のユースケースで使用されています。…

「インテルCPU上での安定したディフューションモデルのファインチューニング」

拡散モデルは、テキストのプロンプトから写真のようなリアルな画像を生成するというその驚異的な能力によって、生成型AIの普及に貢献しました。これらのモデルは現在、合成データの生成やコンテンツ作成などの企業のユースケースに取り入れられています。Hugging Faceハブには、5,000以上の事前学習済みのテキストから画像へのモデルが含まれています。Diffusersライブラリと組み合わせることで、実験や画像生成ワークフローの構築がこれまで以上に簡単になりました。 Transformerモデルと同様に、Diffusionモデルをファインチューニングしてビジネスニーズに合ったコンテンツを生成することができます。初期のファインチューニングはGPUインフラストラクチャー上でのみ可能でしたが、状況は変わってきています！数か月前、インテルはSapphire Rapidsというコードネームの第4世代のXeon CPUを発売しました。Sapphire Rapidsは、ディープラーニングワークロードのための新しいハードウェアアクセラレータであるIntel Advanced Matrix Extensions (AMX)を導入しています。私たちはすでにいくつかのブログ記事でAMXの利点を実証しています：NLP Transformerのファインチューニング、NLP Transformerの推論、およびStable Diffusionモデルの推論。この投稿では、Intel Sapphire Rapids CPUクラスター上でStable Diffusionモデルをファインチューニングする方法を紹介します。わずかな例の画像のみを必要とするテキスト反転という技術を使用します。たった5つの画像だけです！さあ、始めましょう。クラスターのセットアップ Intelの友人たちが、最新のIntelプロセッサとパフォーマンス最適化されたソフトウェアスタックを使用したIntel®最適化デプロイメント環境でのワークロードの開発と実行を行うためのサービスプラットフォームであるIntel Developer Cloud（IDC）にホストされた4つのサーバーを提供してくれました。各サーバーには、2つのIntel…

「OpenAI APIを使用して、大規模な言語モデルを用いた表データ予測の改善」

最近では、大規模な言語モデルやそのアプリケーションやツールがニュースやソーシャルメディアで話題になっていますGitHubのトレンディングページには、広範なリポジトリが大量に掲載されています...

「固有表現とニュース」

「オランダのニュース記事のデータセットに対して適用された固有表現認識を用いた実験による自動要約、推薦、およびその他の洞察の結果」

Learn more about Search Results huggingface.co - Page 11