Learn more about Search Results リポジトリ - Page 70

「インテルCPU上での安定したディフューションモデルのファインチューニング」

拡散モデルは、テキストのプロンプトから写真のようなリアルな画像を生成するというその驚異的な能力によって、生成型AIの普及に貢献しました。これらのモデルは現在、合成データの生成やコンテンツ作成などの企業のユースケースに取り入れられています。Hugging Faceハブには、5,000以上の事前学習済みのテキストから画像へのモデルが含まれています。Diffusersライブラリと組み合わせることで、実験や画像生成ワークフローの構築がこれまで以上に簡単になりました。 Transformerモデルと同様に、Diffusionモデルをファインチューニングしてビジネスニーズに合ったコンテンツを生成することができます。初期のファインチューニングはGPUインフラストラクチャー上でのみ可能でしたが、状況は変わってきています!数か月前、インテルはSapphire Rapidsというコードネームの第4世代のXeon CPUを発売しました。Sapphire Rapidsは、ディープラーニングワークロードのための新しいハードウェアアクセラレータであるIntel Advanced Matrix Extensions (AMX)を導入しています。私たちはすでにいくつかのブログ記事でAMXの利点を実証しています:NLP Transformerのファインチューニング、NLP Transformerの推論、およびStable Diffusionモデルの推論。 この投稿では、Intel Sapphire Rapids CPUクラスター上でStable Diffusionモデルをファインチューニングする方法を紹介します。わずかな例の画像のみを必要とするテキスト反転という技術を使用します。たった5つの画像だけです! さあ、始めましょう。 クラスターのセットアップ Intelの友人たちが、最新のIntelプロセッサとパフォーマンス最適化されたソフトウェアスタックを使用したIntel®最適化デプロイメント環境でのワークロードの開発と実行を行うためのサービスプラットフォームであるIntel Developer Cloud(IDC)にホストされた4つのサーバーを提供してくれました。 各サーバーには、2つのIntel…

データサイエンティストのためのDockerチュートリアル

データサイエンスのためにDockerを学びたいですか?数分でDockerの基礎を学び、データサイエンスアプリをコンテナ化しましょう

Pythonを使用して地理的な巡回セールスマン問題を解決する

有名な巡回セールスマン問題(TSP)は、ノード(都市)の集合間で最適な経路を見つけ、出発地に戻ることに関するものです簡単なように聞こえますが、解くことは不可能です...

「データサイエンスポートフォリオの再考」

「なぜ複雑な見せ物よりもシンプルで使いやすいプロジェクトを選ぶことが、ポートフォリオとデータサイエンスのキャリアの見通しを向上させるのかを発見してください」

「Juliaでスクラッチから作成するゲート付き再帰ニューラルネットワーク」

私は以前から、科学プログラミングとデータサイエンスのためにJuliaを学び始めましたJuliaの持つ統計的な強力さと、Rの表現力豊かで明確な構文を組み合わせたことにより、Juliaの採用は継続しています...

「Amazon SageMaker Hyperband 自動モデルチューニングを使用して、分散トレーニングの収束問題を効果的に解決する」

最近の数年間は、ディープラーニングニューラルネットワーク(DNN)の驚異的な成長が見られていますこの成長は、より正確なモデルや生成型AIによる新たな可能性の開拓(自然言語を合成する大規模な言語モデル、テキストから画像を生成するものなど)に現れていますDNNのこれらの増加した機能は、巨大なモデルを持つことと引き換えに実現されています

AIによる生産性向上 生成AIが様々な産業において効率の新たな時代を開く

2022年11月22日、ほとんど仮想的な瞬間が訪れ、それは地球上のほぼすべての産業の基盤を揺るがしました。 その日、OpenAIは史上最も高度な人工知能チャットボットであるChatGPTをリリースしました。これにより、消費者の質問に答えるための生成型AIアプリケーションから科学的なブレークスルーを追求する研究者の作業を加速するまで、ビジネスがより効率的になるための需要が生まれました。 以前はAIに手を出していた企業も、最新のアプリケーションを採用・展開するために急ぎます。アルゴリズムが新しいテキスト、画像、音声、アニメーション、3Dモデル、さらにはコンピュータコードを生成することができる生成型AIは、人々が働く・遊ぶ方法を変革しています。 大規模な言語モデル(LLM)を用いてクエリを処理することにより、この技術は情報の検索や編集などの手作業に費やす時間を劇的に短縮することができます。 その賭けは大きいです。PwCによると、AIは2030年までに世界経済に1兆5千億ドル以上をもたらす可能性があります。そして、AIの導入の影響はインターネット、モバイルブロードバンド、スマートフォンの発明以上に大きいかもしれません。 生成型AIを推進するエンジンは、高速計算です。これは、科学、分析、エンジニアリング、消費者およびエンタープライズのユースケース全般にわたり、GPU、DPU、ネットワーキング、およびCPUを使用してアプリケーションを高速化します。 早期の採用企業は、薬剤探索、金融サービス、小売、通信、エネルギー、高等教育、公共部門など、さまざまな業界で、高速計算と生成型AIを組み合わせてビジネスのオペレーション、サービス提供、生産性の向上を実現しています。 インフォグラフィックを表示するにはクリックしてください:次世代のAI変革を生み出す 薬剤探索のための生成型AI 今日、放射線科医はAIを使用して医療画像の異常を検出し、医師は電子健康記録をスキャンして患者の洞察を明らかにし、研究者は新しい薬剤の発見を加速するためにそれを使用しています。 従来の薬剤探索は、5000以上の化学物質の合成を必要とし、平均的な成功率はわずか10%です。そして、ほとんどの新薬候補が市場に出るまでに10年以上かかります。 研究者は、生成型AIモデルを使用してタンパク質のアミノ酸配列を読み取り、ターゲットタンパク質の構造を秒単位で正確に予測することができます。これには数週間または数か月かかることがあります。 NVIDIAのBioNeMoモデルを使用して、バイオテクノロジーの世界的リーダーであるアムジェンは、分子スクリーニングと最適化のためのモデルのカスタマイズにかかる時間を3か月からわずか数週間に短縮しました。このタイプのトレーニング可能な基礎モデルにより、科学者は特定の疾患の研究のためのバリアントを作成し、希少な状態の治療法を開発することができます。 タンパク質構造の予測や大規模な実世界および合成データセットでのアルゴリズムの安全なトレーニングなど、生成型AIと高速計算は、疾病の拡散を緩和し、個別の医療治療を可能にし、患者の生存率を向上させるための新たな研究領域を開拓しています。 金融サービスのための生成型AI NVIDIAの最新の調査によると、金融サービス業界での主要なAIの活用事例は、カスタマーサービスとディープアナリティクスです。ここでは、自然言語処理とLLMが使用され、顧客の問い合わせにより良い対応をするためや投資の洞察を明らかにするために使用されています。別の一般的な応用は、パーソナライズされた銀行体験、マーケティング最適化、投資ガイダンスを提供する推薦システムです。 先進的なAIアプリケーションは、この業界が不正行為をより防止し、ポートフォリオ計画やリスク管理からコンプライアンスや自動化まで、銀行業務のあらゆる側面を変革する可能性があります。 ビジネスに関連する情報の80%は構造化されていない形式、主にテキスト形式ですが、これは生成型AIの主要な対象となります。Bloomberg Newsは、金融および投資コミュニティに関連するニュースを1日に5,000本も発行しています。これらの記事は、タイムリーな投資の決定をするために使用できる膨大な非構造化市場データの宝庫です。 NVIDIA、ドイツ銀行、ブルームバーグなどは、ドメイン固有のデータや独自のデータをトレーニングおよび微調整するために訓練されたLLMを作成して、金融アプリケーションに使用しています。 金融トランスフォーマー、または「FinFormers」は、非構造化の金融データの文脈を学び、意味を理解することができます。これらはQ&Aチャットボットのパワーを供給し、金融テキストを要約・翻訳し、取引先リスクの早期警告サインを提供し、データを迅速に取得し、データ品質の問題を特定することができます。 これらの生成型AIツールは、プロプライエタリデータをモデルトレーニングおよび微調整に統合し、バイアスを防ぐためのデータキュレーションを統合し、会話を金融に特化させるためのガードレールを使用するフレームワークに依存しています。 フィンテックスタートアップや大手国際銀行がLLMと生成型AIの使用を拡大し、内部および外部の利害関係者に対して洗練されたバーチャルアシスタントを提供し、ハイパーカスタマー向けのコンテンツを作成し、マニュアル作業を削減するために文書要約を自動化し、テラバイトの公共および非公開データを分析して投資の洞察を生成することを期待してください。 小売業における生成AI…

LAION AIは、Video2Datasetを紹介しますこれは、効率的かつスケールでビデオとオーディオのデータセットをキュレーションするために設計されたオープンソースツールです

CLIP、Stable Diffusion、Flamingoなどの大規模な基盤モデルは、過去数年間にわたり、マルチモーダルな深層学習を劇的に向上させました。テキストと画像の共同モデリングは、ニッチなアプリケーションから、今日の人工知能の領域で最も関連性の高い問題の1つ(もしくは最も関連性の高い問題)にまで進化しました。これらのモデルは、壮観で高解像度のイメージを生成したり、難しい下流の問題を解決するといった、卓越した能力を持っています。驚くべきことに、これらのモデルは、非常に異なるタスクに取り組み、非常に異なる設計を持っているにもかかわらず、強力なパフォーマンスに貢献する共通の3つの基本的な特性を持っています。それは、(事前)トレーニング中のシンプルで安定した目的関数、よく調査されたスケーラブルなモデルアーキテクチャ、そしておそらく最も重要なこととして、大規模で多様なデータセットです。 2023年現在、マルチモーダルな深層学習は、テキストと画像のモデリングに主に関心があり、ビデオ(および音声)などの追加のモダリティにはほとんど注意が払われていません。モデルをトレーニングするために使用される技術は通常モダリティに依存しないため、なぜ他のモダリティ用の堅牢な基盤モデルが存在しないのか疑問に思うかもしれません。その簡単な説明は、高品質で大規模なアノテーション付きデータセットの希少性です。クリーンなデータの不足は、特にビデオの領域において、大規模なマルチモーダルモデルの研究開発を妨げています。これに対し、画像モデリングでは、LAION-5B、DataComp、COYO-700Mなどのスケーリング用の確立されたデータセットやimg2datasetなどのスケーラブルなツールが存在します。 革新的なイニシアチブ、例えば高品質なビデオや音声の作成、改良された事前学習済みモデルのロボット工学への応用、盲人コミュニティ向けの映画ADなどを可能にするため、研究者はこのデータの問題解決を(オープンソースの)マルチモーダル研究の中心的目標として提案しています。 研究者は、高速で包括的なビデオおよび音声データセットのキュレーションを行うためのオープンソースプログラムであるvideo2datasetを提案しています。video2datasetは、いくつかの大規模なビデオデータセットで正常にテストされており、適応性があり、拡張性があり、多数の変換を提供しています。このメソッドを複製するための詳細な手順と、これらのケーススタディをリポジトリで見つけることができます。 研究者は、個々のビデオデータセットをダウンロードし、それらを結合し、新しい特徴と大量のサンプルを持つより管理しやすい形状に整形することで、既存のビデオデータセットをベースにvideo2datasetを活用してきました。より詳細な説明については、例セクションを参照してください。video2datasetが提供するデータセットで異なるモデルをトレーニングした結果は、このツールの効果を示しています。今後の研究では、新しいデータセットと関連する調査結果について詳しく議論します。 まずは、video2datasetを定義しましょう。 Webdatasetが受け入れ可能なinput_formatであるため、video2datasetは以前にダウンロードしたデータを再処理するためのチェーンで使用することができます。前の例でダウンロードしたWebVidデータを使用して、このスクリプトを実行すると、各ムービーの光流を計算し、それをメタデータシャードに保存します(光流メタデータのみを含むシャード)。 アーキテクチャ img2datasetをベースにしているvideo2datasetは、URLのリストと関連するメタデータを受け取り、単一のコマンドでロード可能なWebDatasetに変換します。さらに、同じシャードの内容を保持したまま、WebDatasetを追加の変更のために再処理することもできます。video2datasetはどのように機能するのでしょうか。説明します。 アイデアの交換 最初のステップは、入力データを均等にワーカー間で分割することです。これらの入力シャードは一時的にキャッシュされ、それらとそれらに対応する出力シャードとの一対一のマッピングにより、障害のない回復が保証されます。データセットの処理が予期せず終了した場合、既に対応する出力シャードを持つ入力シャードをスキップすることで時間を節約することができます。 コミュニケーションと研究 ワーカーは、シャードに含まれるサンプルを読み取り、処理するために交互に行動します。研究者は、マルチプロセス、pyspark、slurmの3つの異なる分散モードを提供しています。前者は単一マシンのアプリケーションに最適であり、後者は複数のマシンにスケーリングするために有用です。着信データセットの形式は、読み取り戦略を決定します。データがURLのテーブルである場合、video2datasetはインターネットからビデオを取得し、データセットに追加します。video2datasetは、見つからないビデオを要求するためにyt-dlpを使用するため、さまざまなビデオプラットフォームで動作します。ただし、ビデオサンプルが既存のWebデータセットから来る場合、そのデータセットのデータローダーはバイトまたはフレームのテンソル形式を読み取ることができます。 サブサンプリング ビデオが読み込まれ、ワーカーがビデオのバイトを取得した後、バイトはジョブの設定に従ってサブサンプラーのパイプラインを通過します。この段階では、ビデオはフレームレートと解像度の両方でオプションでダウンサンプリングされる場合があります。また、クリップされたり、シーンが識別されたりする場合もあります。一方、入力モダリティから解像度/圧縮情報、合成キャプション、オプティカルフローなどのメタデータを抽出および追加することを目的としたサブサンプラーもあります。video2datasetに新しい変換を追加するには、新しいサブサンプラーを定義するか、既存のサブサンプラーを変更するだけで十分です。これは大いに助けになり、リポジトリの他の場所で数か所の変更を行うだけで実装できます。 ログ記録 Video2datasetは、プロセスの複数のポイントで詳細なログを保持しています。各シャードの完了は、関連する「ID」_stats.jsonファイルに結果を記録します。ここには、処理されたサンプルの総数、正常に処理されたサンプルの割合、および発生したエラーの内容と性質などの情報が記録されます。Weights & Biases(wand)は、video2datasetと組み合わせて使用できる追加のツールです。この統合をオンにするだけで、成功と失敗の詳細なパフォーマンスレポートやメトリクスにアクセスできます。これらの機能は、ジョブ全体に関連するベンチマーキングやコスト見積りのタスクに役立ちます。 書き込み 最後に、video2datasetは変更された情報を出力シャードにユーザー指定の場所に保存し、次のトレーニングまたは再処理操作で使用します。データセットは、各サンプルが含まれるシャードで構成されたいくつかの形式でダウンロードできます。これらの形式には、フォルダ、tarファイル、レコード、およびparquetファイルが含まれます。デバッグ用の小規模データセットにはディレクトリ形式、ローディングにはWebDataset形式でtarファイルが使用されます。 再処理 video2datasetは、出力シャードを読み込んでサンプルを新しい変換に通過させることで、以前の出力データセットを再処理することができます。この機能は、しばしば重いサイズと扱いにくい性質が特徴のビデオデータセットに対して特に有利です。これにより、大量の大きなデータセットのダウンロードを回避するためにデータを慎重にダウンサンプリングすることができます。次のセクションでは、研究者がこれに関する実践的な例を探求します。…

学習トランスフォーマーコード第2部 – GPTを間近で観察

私のプロジェクトの第2部へようこそここでは、TinyStoriesデータセットとnanoGPTを使用して、トランスフォーマーとGPTベースのモデルの複雑さについて探求しますこれらはすべて、古いゲーミングラップトップで訓練されました

「OpenAI APIを使用して、大規模な言語モデルを用いた表データ予測の改善」

最近では、大規模な言語モデルやそのアプリケーションやツールがニュースやソーシャルメディアで話題になっていますGitHubのトレンディングページには、広範なリポジトリが大量に掲載されています...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us