Learn more about Search Results 14 - Page 11

DL Notes 高度な勾配降下法

以前の記事では、勾配降下法について基本的な概念とその種類の最適化における主な課題を要約しましたしかし、スティーブンスティカスティック勾配法のみを取り上げました...

関数を呼び出す

第三者の大規模言語モデル(LLM)の観測性は、AnthropicのClaude、OpenAIのGPTモデル、GoogleのPaLM 2などのモデルに対してベンチマーキングと評価を用いて主にアプローチされています...

ランナーの疲労検知のための時間系列分類 – チュートリアル

ウェアラブルセンサーを使用して収集されたランニングデータは、ランナーのパフォーマンスや全体的なテクニックについての洞察を提供することができますこれらのセンサーから得られるデータは通常、時間の経過によって変化するものです

「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」

一定のトレーニングプロセスを経て、拡散モデルは画像生成を革新し、従来にない多様性とリアリズムのレベルを達成しました。しかし、GANやVAEとは異なり、そのサンプリングはガウス性ノイズのサンプルのノイズを徐々に減少させ、プログレッシブなデノイジングにより複雑な画像を生成する努力の連続的なプロセスです。これにより、生成パイプラインをクリエイティブなツールとして利用する際の相互作用の量が制限され、通常は多くの高価なニューラルネットワーク評価を必要とします。以前の手法は、初めの多段階の拡散サンプリングで見つかったノイズ→画像のマッピングを単回の学習ネットワークに濃縮し、サンプリングプロセスを高速化します。こうした高次元で複雑なマッピングをフィットすることは、確かに困難な作業です。 改良の余地の一つは、学習モデル全体のデノイジング経路を実行し、単一の損失を計算するための学習モデルのサンプル距離を徐々に拡大していく際に発生する高額な費用です。現在の手法は、元の多段階拡散モデルのデノイジングサイクルを繰り返さずに、学生のサンプル距離を徐々に拡張することでこれを軽減しています。ただし、元の多段階拡散モデルの方が蒸留版よりも優れています。逆に、研究チームは、ノイズと拡散生成された画像の対応を必要とせずに、学生の生成物が元の拡散モデルと同じであることを強調しています。一般的には、彼らの目標の理論的背景は、他の分布マッチング生成モデル(GMMNやGANなど)と似ています。 ただし、リアルなグラフィックを生成する能力は非常に優れているにもかかわらず、一般的なテキストから画像へのモデルのスケーリングは困難であることがわかっています。研究チームは、この問題を解決するために、以前にテキストから画像に広範にトレーニングされた拡散モデルを起点にしています。研究チームは、トレーニングされた拡散モデルを特に微調整することで、データ分布とそれによって生成される架空の分布を学びます。研究チームは、デノイズされた拡散出力を画像を「よりリアル」または(拡散モデルが偽の画像でトレーニングされている場合)「よりフェイク」にするための勾配方向として解釈することができます。なぜなら、拡散モデルは拡散分布のスコア関数を近似することで知られているからです。 最終的に、ジェネレータの勾配更新ルールは、この2つの差として作成され、人工の画像をよりリアリスティックに、よりフェイクから遠ざけます。また、事前学習された拡散モデルによるリアルと偽の分布のモデリングを使用して3Dオブジェクトのテスト時最適化を達成することも可能です。以前の研究では、Variational Score Distillationという手法を使用してこれを実証しています。研究チームは、同様の手法を使用して完全な生成モデルをトレーニングできることも発見しています。さらに、研究チームは、分布マッチング損失の存在下で、多段階拡散サンプリングの結果のわずかな数が事前計算され、1ステップの生成に関するシンプルな回帰損失を実装することで効果的な正則化子として機能することを見つけています。 MITとAdobe Researchの研究者は、Distribution Matching Distillation(DMD)と呼ばれるプロセスを提供しています。これは、画像の品質にほとんど影響を与えずに拡散モデルを1ステップの画像生成器に変換するプロセスです。彼らのアプローチは、VSD、GAN、およびpix2pixからのインスピレーションや洞察を受けています。この研究チームは、(1) 拡散モデルを使用してリアルな分布とフェイクの分布をモデル化し、(2) 多段階拡散出力とシンプルな回帰損失を一致させることで、高精度の1ステップ生成モデルをトレーニングすることができることを示しています。彼らのDistribution Matching Distillation(DMD)技術でトレーニングされたモデルをMS COCO 512×512のゼロショットテキストから画像の生成、CIFAR-10およびImageNet 64×64の画像生成など、さまざまなタスクで評価しています。彼らの1ステップジェネレータは、一括生成モデル、進行的ディスティレーション、修正フローなどの全てのベンチマークで、既知の少数ステップ拡散手法よりも優れたパフォーマンスを発揮します。 DMDはImageNetでのFIDが2.62であり、Consistency Modelを2.4倍上回ります。DMDはStable Diffusionと同じデノイザーアーキテクチャを使用して、MS-COCO 2014-30kで11.49の競争力のあるFIDを達成します。彼らの定量的および定性的な分析は、研究チームのモデルで生成される画像がより高度な品質であり、より高価なStable Diffusionモデルで生成されるものと比較できることを示しています。特に、このレベルの視覚品質を保ちながら、ニューラルネットワークの評価数を100倍減少させることができるという点で、その効率性によって、DMDはFP16推論を使用することで秒間20フレームの速度で512×512の画像を生成できるようになり、多くのインタラクティブなアプリケーションの可能性を開拓しています。

「Pixel 8 Pro」という初めてのAI搭載スマートフォンは、現在Gemini Nanoで稼働しており、さらにAIのアップデートがPixelポートフォリオにも導入されています」

ニューフィーチャードロップは、Pixelハードウェアへのアップデートをもたらしますさらに、Gemini Nanoは、Pixel 8 Proのデバイス内生成AI機能をパワーアップします

SetFitABSA SetFitを使用したFew-Shotアスペクトベースの感情分析

SetFitABSAは、テキスト内の特定の側面に対する感情を検出する効率的な技術です。 Aspect-Based Sentiment Analysis (ABSA)は、テキスト内の特定の側面に対する感情を検出するタスクです。例えば、「この電話は画面が素晴らしいですが、バッテリーは小さすぎます」という文では、側面の用語は「画面」と「バッテリー」であり、それぞれに対する感情極性はPositiveとNegativeです。 ABSAは、さまざまなドメインの製品やサービスの顧客フィードバックを分析して貴重な情報を抽出するために、組織によって広く使用されています。しかし、ABSAのためのラベル付けトレーニングデータは、トレーニングサンプル内で側面を手動で細かく識別する必要があるため、手間のかかる作業です。 Intel LabsとHugging Faceは、ドメイン固有のABSAモデルのfew-shotトレーニングのためのフレームワークであるSetFitABSAを紹介しています。SetFitABSAは、few-shotシナリオでLlama2やT5などの生成モデルに比べて競争力があり、さらに優れた性能を発揮します。 LLMベースの手法と比較して、SetFitABSAには次の2つのユニークな利点があります: 🗣 プロンプトが不要です: LLMを使ったfew-shot in-context学習では、結果がもろくなり、表現に敏感になり、ユーザーの専門知識に依存する手作りのプロンプトが必要です。SetFitABSAは、ラベル付けされた少数のテキスト例から直接豊かな埋め込みを生成することで、プロンプトを完全に不要とします。 🏎 高速トレーニング: SetFitABSAは、わずかなラベル付きトレーニングサンプルのみを必要とします。さらに、専門のタグ付けツールを必要としないシンプルなトレーニングデータ形式を使用します。これにより、データのラベリングプロセスが迅速かつ容易になります。 このブログ記事では、SetFitABSAの動作方法と、SetFitライブラリを使用して独自のモデルをトレーニングする方法を説明します。では、さっそく見ていきましょう! どのように機能しますか? SetFitABSAの3つのステージからなるトレーニングプロセス SetFitABSAは3つのステップで構成されています。第1ステップでは、テキストから側面候補を抽出し、第2ステップでは、側面候補を側面または非側面として分類し、最終ステップでは抽出された各側面に感情極性を関連付けます。第2ステップと第3ステップはSetFitモデルに基づいています。 トレーニング 1. 側面候補の抽出…

少ないデータ注釈 + より多くのAI = 深いアクティブラーニング

人工知能(AI)モデルのトレーニングには、通常、大量のラベル付きデータが必要です。特に画像認識や自然言語処理などの複雑なタスクの場合、非常に高価で時間がかかることがあります。データの注釈付けは、砂浜で特定の一粒の砂を見つけるようなものです。時間と労力がかかります。 従来の解決策には、人間の注釈者を雇ったり、クラウドソーシングプラットフォームを使用したりする方法があります。これらのオプションは高価で遅いことがあります。 深層能動学習(DAL)は、能動学習と深層学習を組み合わせた技術です。能動学習はラベリングのための最も価値のあるデータポイントを選択するのに役立ち、深層学習はそのデータから複雑なパターンを学ぶのに役立ちます。 未ラベルのデータの山から、写真や動画、テキスト文書などを選び出します。DALは、例えば画像の中のぼやけたオブジェクトや文書の中の普通でない文など、混乱したり興味深いものを選び出します。これらがモデルに最も学びをもたらすものです。 DALは、貴重なデータを見つけるためにユニークな戦略を使用します。例えば、モデルが自信を持てないデータや、全体のデータセットの異なる部分を表現するデータを探すかもしれません。 DALは、AIモデルのトレーニングに必要なデータを50%以上も削減することができます。これにより時間とコスト、労力を節約することができます。さらに、DALはAIモデルをより堅牢で適応性のあるものにすることができます。最も価値のあるデータに焦点を当てることで、モデルはより豊かで微妙なパターンを学び、未知のデータでより良いパフォーマンスを発揮し、予期せぬ状況に対処することができます。 DALはまだ進化中であり、克服しなければならない課題があります。特定のタスクとモデルに対してDALを微調整する必要があります。また、データの品質を評価し、データの選択と注釈の効率的な相互作用を確保するために改善された手段が必要です。 しかし、DALの未来は明るいです。それはAIの開発を革新し、より速く、安価でアクセスしやすくする可能性があります。継続的な研究と開発により、DALは少ないデータを使用しながらAIのフルポテンシャルを発揮する鍵となるかもしれません。 結論として、DALはAIの開発においてゲームチェンジャーです。少ないデータで強力なAIモデルをトレーニングする能力は、研究者、開発者、企業にとって貴重なツールです。DALが進化し続けるにつれ、自動運転車から医療診断まで、さまざまなアプリケーションで使用されることが予想されます。

新しいLAMPスタック:生成AI開発の革新を照らす

LAMPスタックは、さまざまなドメインでの生成型AIの開発と展開において必須となってきています

「ジェミニに会おう:チャットGPTに対するGoogleの答え」

人工知能の進化する世界において、Googleは最新作のGemini AIにより画期的な飛躍を遂げました。Googleによると、異なるサイズ(Ultra、Pro、Nano)で最適化されたGeminiは、優れたパフォーマンスを持つ最も能力の高いモデルであり、多くの主要なベンチマークにおいて最先端のパフォーマンスを発揮します。この高度な会話型AIモデルは、AIシステムとのインタラクションのあり方を革新する可能性を秘めています。本記事では、Gemini AIの内部機能や、さまざまな産業への影響について詳しく掘り下げます。 Gemini AIの誕生 Geminiは、テキスト、コード、オーディオ、画像、ビデオなど、さまざまな情報の理解、操作、統合が可能なマルチモーダルなモデルです。これは、深層学習技術、自然言語処理、大規模トレーニングデータの組み合わせを利用して、印象的な会話能力を実現しています。Geminiは、Ultra、Pro、Nanoの3つの異なるサイズに最適化されています。高度な複雑なタスクに対して最も能力の高いモデルであるGemini Ultra、幅広いタスクに拡張性のあるモデルであるGemini Pro、そしてデバイス上でのタスクに最も効率的なモデルであるGemini Nanoが存在します。 Gemini AIは、深層学習技術、自然言語処理、大規模トレーニングデータの組み合わせを使用して、印象的な会話能力を実現しています。 Gemini vs ChatGPT Gemini Ultraは、自然画像、音声、映像の理解から数学的な推論まで、現在の最先端の結果を超えるパフォーマンスを発揮しています。MMLUへの新たなベンチマークアプローチにより、Geminiは困難な質問に対してより慎重に考えることができ、初めの印象だけを使うよりも大幅な改善が見られます。 Geminiの使い方 Googleは、Gemini Proを搭載したBardモデルを紹介し、Gemini Nanoを通じてPixel 8 Proユーザー向けの追加機能を提供しました。Gemini Ultraは来年にリリース予定です。2023年12月13日から、開発者やエンタープライズのお客様は、Google Generative…

In Japanese 「可視化フレームワークの種類」

あなたのニーズと理想的なビジュアライゼーションフレームワークをマッチさせる

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us