Learn more about Search Results CPU - Page 13

PEFTの概要:最先端のパラメータ効率の良い微調整の概要

「LoRAなどのパラメーター効率の高いファインチューニングテクニックを学んで、限られた計算リソースを使って大規模な言語モデルを効率的に適応させる方法を習得しましょう」

「OWLv2のご紹介:ゼロショット物体検出におけるGoogleのブレークスルー」

はじめに 2023年も終わりが近づいていますが、コンピュータビジョンコミュニティにとっての興奮するニュースは、Googleが最近OWLv2のリリースとともにゼロショットオブジェクト検出の世界で大きな進歩を遂げたことです。 この最新モデルは🤗 Transformersで利用可能であり、これまでに存在する中でも最も堅牢なゼロショットオブジェクト検出システムの1つを表しています。 これは昨年に導入されたOWL-ViT v1の基盤を築いています。 この記事では、このモデルの動作とアーキテクチャを紹介し、推論を実行する実用的なアプローチを見ていきます。 さあ、始めましょう。 学習目標 コンピュータビジョンにおけるゼロショットオブジェクト検出の概念を理解する。 GoogleのOWLv2モデルの背後にある技術とセルフトレーニングのアプローチについて学ぶ。 OWLv2の使用に必要な実用的なアプローチ。 この記事はデータサイエンスブログマラソンの一環として公開されました。 OWLv2の技術 OWLv2の印象的な機能は、その革新的なセルフトレーニングのアプローチによるものです。このモデルは、10億以上の例から成るウェブスケールデータセットでトレーニングされました。これを達成するために、著者たちはOWL-ViT v1の強力さを活用し、そのモデルを使用して擬似ラベルを生成し、それを使ってOWLv2をトレーニングしました。 さらに、モデルは検出データ上で微調整され、それによって先行モデルであるOWL-ViT v1に比べて性能が向上しました。セルフトレーニングによってオープンワールドの位置特定のウェブスケールトレーニングが可能になり、オブジェクトの分類や言語モデリングで見られるトレンドに倣っています。 OWLv2のアーキテクチャ OWLv2のアーキテクチャはOWL-ViTと似ていますが、オブジェクト検出のヘッドに注目すべき追加があります。これにより、予測ボックスがオブジェクトを含む可能性を予測するオブジェクト性の分類器が含まれるようになりました。オブジェクト性スコアは洞察を提供し、テキストクエリに関係なく予測を順位付けやフィルタリングするために使用することができます。 ゼロショットオブジェクト検出 ゼロショット学習は、GenAIのトレンド以来一般的になった新しい用語です。これは、主に大規模言語モデル(LLM)の微調整で見られます。これは、いくつかのデータを使用してベースモデルを微調整し、モデルが新しいカテゴリに対応するようにすることを指します。ゼロショットオブジェクト検出はコンピュータビジョンの分野で画期的なものです。これは、手動で注釈付けされたバウンディングボックスの必要がなくなり、モデルが画像内のオブジェクトを検出する能力を向上させます。これによりプロセスがスピードアップし、手動の注釈が不要になるため、人間にとっては魅力的で、退屈ではありません。 OWLv2の使い方 OWLv2はOWL-ViTと同様のアプローチを採用していますが、更新されたイメージプロセッサOwlv2ImageProcessorを特徴としています。さらに、モデルはテキストのエンコードにCLIPTokenizerを使用しています。Owlv2ProcessorはOwlv2ImageProcessorとCLIPTokenizerを組み合わせた便利なツールであり、テキストのエンコードプロセスを簡素化します。以下に、Owlv2ProcessorとOwlv2ForObjectDetectionを使用してオブジェクト検出を実行する方法の例を示します。…

「GANが人工的なセレブリティのアイデンティティを作り出す方法」

イントロダクション 人工知能の時代において、驚くべき現象が展開されています――生成対抗ネットワーク(GAN)が創造的に人工的なセレブリティのアイデンティティを作り出しています。このテクノロジーと創造性の興味深い融合により、完全に新しいタイプのデジタルセレブリティが生まれました。私たちと一緒に、仮想世界を魅了する人工的なセレブリティパーソナリティの創造の魔法を紐解いていく興味深い旅に出かけましょう。GAN の世界に飛び込み、このデジタル芸術の秘密を探求しましょう。どのようにしてGANがこれを実現するのでしょうか?このデジタルアートの裏に隠された秘密を探求しましょう。 出典: Hello Future 学習目標 この記事では、以下のことを学びます。 生成対抗ネットワーク(GAN)の概念 ジェネレーターとディスクリミネーターの訓練方法 GANモデルの実装のステップバイステッププロセス 敵対的なトレーニングを通じてGANが時間とともに改善する仕組み この記事は、データサイエンスブログマラソンの一環として公開されました。 生成対抗ネットワーク(GAN) 生成対抗ネットワーク(GAN)は、Goodfellowによって開発された深層学習モデルです。その名前からも、GANの目的を理解することができます。そうです!私たちは生成の目的でそれを使用します。GANは何かを生成するネットワークです。画像、テキスト、音声など、現実世界のデータに似た合成データを生成するためにGANを使用します。GANは2つのニューラルネットワークから構成されています。これらはジェネレーターとディスクリミネーターと呼ばれます。トレーニング中、この2つのネットワークはお互いに競い合いながらより良い性能を発揮するように訓練されます。 ジェネレーターとは? ジェネレーターは、生成を担当するニューラルネットワークです。出力をするためには入力が必要です。ジェネレーターが受け取る入力はランダムなノイズです。ジェネレーターはこのランダムなノイズを受け取り、実データに似た出力を生成しようとします。ディスクリミネーターからフィードバックを受け取るたびに、ジェネレーターは自己改善し、次回はより良いデータを生成します。たとえば、画像生成の場合、ジェネレーターは画像を生成します。トレーニングを通じてジェネレーターが改善するにつれ、最初はランダムなノイズから始まり、次第に出力を洗練させてより現実的になります。最初の試行では、元のデータに最も似たものを生成することができないかもしれません。時にはまったく画像ではないものさえ生成することもあります。トレーニングが進むにつれ、より正確な良質なデータが生成されます。 ディスクリミネーターとは? ディスクリミネーターは、評価を担当するニューラルネットワークです。簡単に理解するために、それを探偵と呼ぶことができます。このディスクリミネーターは、実際のデータとジェネレーターによって生成された偽のデータの両方を受け取ります。偽のデータを実データと区別する必要があります。簡単に言えば、実際のデータと偽のデータを分類するということです。ジェネレーターと同様に、トレーニングが進むとディスクリミネーターもより優れた判別ができるようになります。最初の試みでは最高の結果を出せないかもしれませんが、トレーニングが進むにつれてより良い結果を出せるようになり、最終的にはほとんどの偽のデータを識別できるようになります。探偵のように働く必要があります。 敵対的トレーニング ジェネレーターとディスクリミネーターの両方が訓練を受け、これは敵対的トレーニングと呼ばれています。両者はお互いに競争的なトレーニングを行います。ジェネレーターが実データに似た偽のデータを生成し、ディスクリミネーターは偽のデータを識別しようとします。トレーニングプロセスの次のステップでは、ジェネレーターは自己改善を目指し、ディスクリミネーターを騙すための偽のデータを生成します。再びディスクリミネーターが偽のデータを検出します。このようにトレーニング中、両者はそれぞれのタスクでより良いパフォーマンスを発揮します。このプロセスは、ジェネレーターが非常に現実的なデータを生成し、ディスクリミネーターが本物と区別できなくなるまで続けられます。この段階でGANはある種の均衡状態に達し、生成されたデータは非常に実データに似ています。 “`html 実装 まず、必要なライブラリをすべてインポートしましょう。これには主にtorchモジュールが含まれます。可視化のためにmatplotlibを使用します。…

「MATLABとは何ですか?動作、関数、そして応用」というテキストです

導入 MATLAB(Matrix Laboratory)は、MathWorksによって開発された専有ソフトウェアアプリです。MATLABとは何かと思うかもしれませんね。それは、独自のライブラリと統合開発環境(IDE)を備えた多目的プログラミング言語です。データ操作マトリックス、データ分析、アルゴリズムの実装など、複雑なタスクを処理するために使用されます。 それでは、科学者、研究者、エンジニアがMATLABをどのように使用しているのか見てみましょう。単なる複雑な数学計算なのか、それともそれ以上なのか。さあ、見てみましょう。 MATLABの利用用途は何ですか? AI、ロボティクス、エンジニアリングなどの異なるセクターは、MATLABを最大限に活用しています。MATLABがどのように使用されているかを詳しく見てみましょう: アルゴリズムによる画像処理 MATLABは、異なるアルゴリズムを開発し、生の画像を処理することを支援します。画像処理における行列の値は、画像のピクセルの管理に重要です。MATLABは分析および画像の処理に関与する複雑なMLアルゴリズムをサポートします。 データ分析と可視化 データサイエンティストやIT専門家は、MATLABの環境を使用して統計データを可視化し、分析します。金融専門家は損失、流動性、収益性などの経済評価のためにMATLABを使用します。 製品のテストと計測 MATLABには、エンジニアが電子製品にさまざまな測定とテストを行うのに役立つソースとツールがあります。自動化されたタスクを実行し、製品の品質をチェックするためのテストを実施できます。 ワイヤレス通信 MATLABは、ワイヤレスデバイスのテスト、設計上の欠陥の分析、エラーのデバッグなど、エンジニアや専門家の時間を節約するのに役立つユニークなリソースと機能を提供します。 MATLABの5つの主要機能 MATLABが何であるかを知ったので、関数とは特定のタスクを実行するために使用される一連の命令のことを知るべきです。MATLABでは、関数は別々のスクリプトファイルに指定され、関数の定義とコマンドが含まれています。関数とファイル名は同じである必要があり、常にファイルの最後に定義する必要があります。 MATLABの5つの主要機能は次のとおりです: 1. プライマリ関数 プライマリ関数は、ファイル内で最初に定義された関数です。プライマリ関数(メインまたはスクリプト関数)は、スクリプトを実行する際に自動的に実行されます。コマンドライン/追加関数の支援により、ユーザーはファイル外からでもプライマリ関数を呼び出すことができます。 2. サブ関数 サブ関数は、プライマリ関数の後に定義され、プライマリ関数にのみ表示されます。サブ関数は、そのファイル以外のコマンドラインや追加関数からアクセスや取り消しをすることはできません。 3.…

「データプラットフォームから機械学習プラットフォームへ」

データ/機械学習は、私たちのテクノロジーの風景では最も人気のあるトピックです私はデータ/機械学習プラットフォームの理解と、それらのプラットフォームが基本的なものから複雑なものへと進化する方法を共有したいと思います最後に、最善を尽くします...

FineShare Review 2023年の最高の人工知能仮想カメラは?

「FineShareのレビューを通じて、最高のAI仮想カメラをご紹介しますその特徴、メリット、デメリットを詳しく分析します」

「LlamaIndex:カスタムデータで簡単にLLMアプリケーションを強化する」

「LlamaIndex」という革新的なツールを使用して、プライベートデータと大規模言語モデル(LLM)の統合を探求しましょうこの包括的なガイドでは、インストール方法、ユースケース、およびLlamaIndexとLangchainの選択について学びましょう

「Chromaを使用してマルチモーダル検索アプリを作成する方法」

はじめに 複雑な脳が世界をどのように処理しているのか、あなたは考えたことがありますか? 脳の内部の仕組みは依然として謎ですが、私たちはそれを多目的なニューラルネットワークにたとえることができます。 電気化学的な信号のおかげで、それは様々なデータ型を処理します-音、映像、匂い、味、触覚。 AIが進化するにつれて、マルチモーダルモデルが登場し、検索能力が革新されています。 このイノベーションにより、検索の正確性と関連性が向上し、新たな可能性が開かれています。 マルチモーダル検索の魅力的な世界を発見しましょう。 学習目標 「AIにおけるマルチモーダリティ」という用語を理解する。 OpenAIのイメージテキストモデルCLIPについての洞察を得る。 ベクトルデータベースとベクトルインデックスの概要を理解する。 CLIPとChromaベクトルデータベースを使用して、Gradioインターフェースを使用した食品推薦システムを構築する。 マルチモーダル検索の他の現実世界での使用例を探索する。 この記事はData Science Blogathonの一部として公開されました。 AIにおけるマルチモーダリティとは何ですか? Googleで検索すると、マルチモードはプロセスに複数のモードや方法を関与させることを指すと分かります。 人工知能では、マルチモーダルモデルは異なるデータタイプを処理し理解することができるニューラルネットワークです。 たとえば、GPT-4やバードなどです。 これらは、テキストや画像を理解できるLLMです。 他の例としては、ビジュアルとセンサーデータを組み合わせて周囲の状況を理解するテスラの自動運転車、またはテキストの説明から画像を生成できるMidjourneyやDalleがあります。 コントラスト言語-画像事前トレーニング(CLIP) CLIPは、OpenAIが大量の画像テキストペアのデータセットでトレーニングしたオープンソースのマルチモーダルニューラルネットワークです。…

「Pydantic V2の強化されたデータ検証機能を探索する」

データの検証は、データエンジニアリングとソフトウェア開発の常に進化する分野における頑健なアプリケーションの礎となりますデータの清潔さと正確さを確保することは、...

「SDXLのためのシンプルな最適化の探究」

ステーブル ディフュージョン XL (SDXL)は、Stability AIによる高品質な超現実的な画像生成を目的とした最新の潜在ディフュージョンモデルです。これは、手やテキストの正確な生成、および空間的に正しい構成といった、以前のステーブル ディフュージョンモデルの課題を克服しています。さらに、SDXLはコンテキストにより適応しており、より見栄えの良い画像を生成するために、プロンプトで少ない単語数を必要とします。 しかし、これらの改善は、かなり大きなモデルのコストで実現されています。具体的には、基本のSDXLモデルには35億のパラメータ(特にUNet)があり、それは以前のステーブル ディフュージョンモデルのおよそ3倍の大きさです。 SDXLの推論速度とメモリ使用量を最適化する方法を探るために、A100 GPU(40 GB)でいくつかのテストを行いました。各推論実行において、4つの画像を生成し、それを3回繰り返し行います。推論レイテンシを計算する際には、3回のイテレーションのうち最終イテレーションのみを考慮します。 つまり、デフォルトの精度とデフォルトのアテンションメカニズムを使用してSDXLをそのまま実行すると、メモリを28GB消費し、72.2秒かかります! from diffusers import StableDiffusionXLPipelinepipeline = StableDiffusionXLPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0").to("cuda")pipeline.unet.set_default_attn_processor() しかし、これは非常に実用的ではなく、特に4つ以上の画像を生成する場合には遅くなる可能性があります。また、よりパワフルなGPUを持っていない場合、メモリ不足のエラーメッセージに遭遇するかもしれません。では、どのようにしてSDXLを最適化して推論速度を向上させ、メモリ使用量を減らすことができるでしょうか? 🤗 Diffusersでは、SDXLのようなメモリ集中型モデルを実行するための最適化のトリックとテクニックを数多く提供しています。以下では、推論速度とメモリに焦点を当てます。 推論速度 ディフュージョンはランダムなプロセスですので、好みの画像が得られる保証はありません。よくあるのは、複数回の推論を実行して反復する必要があることです。そのため、速度の最適化が重要です。このセクションでは、低精度の重みとメモリ効率の良いアテンションおよびPyTorch 2.0のtorch.compileの使用に焦点を当てて、速度を向上させ、推論時間を短縮する方法を紹介します。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us