Learn more about Search Results 16 - Page 11
- You may be interested
- NLP のマスタリング:ディープラーニング...
- あなたの製品の開発者学習のためのLLM(大...
- 「LLM革命:言語モデルの変革」
- 「データからドルへ:線形回帰の利用」
- 「ビルドしてプレイ!LLM搭載のあなた自身...
- 「データサイエンスは難しいのか?現実を...
- 「Google Bard vs. ChatGPT ビジネスにお...
- 「データを実行可能なビジネスインサイト...
- 「OpenAIが企業向けAIの扉を開放」
- 「トロリー問題を捨てて、自律型自動車の...
- ゾマト感情分析
- 相互に接続された複数ページのStreamlitア...
- Note This translation conveys the same ...
- QA-LoRA:GPUで量子化された大規模言語モ...
- 医薬品探索の革新:機械学習モデルによる...
最初のネイティブLLMは電気通信業界に最適化されました
キネティカのSQL-GPT for Telecomは、ネットワークのパフォーマンスと顧客体験を最適化するためのより高速な分析と対応を可能にします
ビデオスワップに会おう:対話型意味ポイント対応でビデオの被写体交換をカスタマイズする人工知能フレームワーク
最近、ビデオ編集において人工知能(AI)を使った編集が進化しています。今回はその中でも特に有望な分野として、拡散ベースのビデオ編集が注目されています。この手法は、スタイル変更や背景の交換などの課題に対して、事前学習済みのテキストから画像/ビデオに拡散させるモデルを利用します。しかし、ビデオ編集における最も困難な部分は、ソースから編集されたビデオへのモーションの移行と、全体のプロセスでの時間的な一貫性の確保です。 ほとんどのビデオ編集ツールは、時間的な一貫性とモーションの整列を保持することに焦点を当てています。しかし、形状の変更に取り組む場合には効果的ではありません。このギャップに対処するために、本論文の著者(ショーラボの研究者、シンガポール国立大学、およびMetaの研究者)は、VideoSwapというフレームワークを開発しました。このフレームワークは、密な点の代わりに意味的な点の一致を使用して主体のモーション軌跡を整列させ、形状を変更するために使用されます。 密な点の一致を使用することで、時間的な一貫性が向上しますが、編集されたビデオの主体の形状の変更を制限します。一方、意味的な点の一致を使用する方法は柔軟ですが、さまざまなオープンワールドの設定で変動するため、一般的な条件モデルの学習が困難となります。研究者たちは、限られた数のソースビデオフレームのみを使用して意味的な点の制御を学習しようとしました。その結果、ソースビデオフレーム上で最適化された点が、主体のモーション軌跡を整列させるだけでなく、主体の形状も変えることができることがわかりました。さらに、最適化された意味的な点は、意味や低レベルの変化を超えて転送することもできます。これらの観察結果から、ビデオ編集で意味的な点の一致を使用することが有効とされています。 研究者たちは以下の方法でフレームワークを設計しました。まず、モーションレイヤーを画像拡散モデルに統合し、時間的な一貫性を確保しました。次に、ソースビデオ内で意味的な点を特定し、主体のモーション軌跡の転送に使用しました。この手法は、高レベルの意味的な整列に焦点を当てるため、低レベルの詳細を学習しないようになっており、意味的な点の整列を向上させています。さらに、VideoSwapにはユーザーとのポイントのやり取りもあり、多数の意味的な点の対応において点の削除やドラッグなどの操作が可能です。 研究者たちは、Latent Diffusion Modelを使用してフレームワークを実装し、基礎モデルとしてAnimateDiffでモーションレイヤーを採用しました。結果として、従来のビデオ編集手法と比較して、VideoSwapはソースのモーション軌跡を整列させつつ、対象の概念の形状を変更することに成功しました。また、研究者たちは、ヒューマンエバルエーターを使用して結果を検証し、主体の一貫性、モーションの整列、時間的な一貫性などのメトリックにおいて、VideoSwapが他の比較手法を圧倒する結果を示しました。 まとめると、VideoSwapは複雑な形状を含むビデオ編集にも適用可能な柔軟なフレームワークです。この方法は、プロセス中の人間の介入を制限し、意味的な点の一致を使用してビデオの主体を交換します。また、形状の変更と同時にソースオブジェクトのモーション軌跡を整列させることができ、複数のメトリックにおいて従来の方法を上回る先端的な結果を示しています。
シミュレーション最適化:友人の会社のサポートデスクをモデル化し最適化の手助けをする
それは比較的シンプルな依頼から始まりました私の友人は、サポートセンターの運営を手伝っており、いくつかの困難を抱えていました支援デスクのエージェントはいつでも効率的でないようで…
「Pythonで脂肪尾を数値化する4つの方法」
「これはパワーロウとファットテールに関するシリーズの三番目の記事です前回の記事では、実証データからパワーロウを検出する方法について探求しましたこの技術は便利ですが、ファットテールはさらなる調査が必要です...」
ボット、詐欺ファームがウェブトラフィックの73%を担当
「アーコーズ・ラボによると、2023年第3四半期においてボットによる悪意のある攻撃と人間による詐欺の集団がウェブとアプリのトラフィックの73%を占めていることが報告されました」
「ノーコードアプリビルダーのトップ10(2023年12月)」
テクノロジーの絶えず進化する風景の中で、ノーコードアプリビルダーの台頭は、アプリ開発の民主化の証ですかつてはベテランプログラマーやソフトウェア開発者の領域にのみデジタルソリューションを作成する時代が終わりましたノーコードプラットフォームは、起業家やビジネスプロフェッショナル、クリエイティブな思考を持つ人々に扉を開いています[…]
「大規模言語モデルの微調整方法:ステップバイステップガイド」
2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル(LLM)の台頭は、人工知能の民主化の傾向を示しています
「Hill Climbing Algorithm in AIとは何ですか?」
はじめに 人工知能(AI)の複雑な世界では、ヒルクライミングアルゴリズムが問題解決のための基本的な手法として登場します。この技術は、比喩的な山の登りと同様に、AIの最適化問題の複雑な地形を航海するために重要です。それは多くの可能性の中から最も効果的な解を見つける戦略的なアプローチであり、さまざまなAIアプリケーションの基盤となるものです。 ヒルクライミングアルゴリズムはどのように動作するのですか? ヒルクライミングアルゴリズムは、山の麓に立っているかのような基点から始まり、隣接する解を反復的に探索します。次の最善のステップを評価する登攀者のように、各アルゴリズムの移動は目的関数に対して精査される増分の変化です。この関数はアルゴリズムをピークに向かって導き、進行を保証します。 たとえば、迷路解決アプリケーションが素晴らしい例です。このシナリオでは、アルゴリズムが実行する各ステップは、迷路内での戦略的な動きを表し、出口への最短経路を目指します。アルゴリズムは各ポテンシャルステップを評価し、出口に近づける効果を測定します。これは、山の頂上に近づけるどのステップが登攀者を高めるかを考える登山者に似ています。 出典: Javapoint ヒルクライミングアルゴリズムの特徴 ヒルクライミングアルゴリズムの主な特徴は次のとおりです: 生成と試行アプローチ:この特徴は、隣接する解を生成し、その効果を評価し、常に解空間で上昇することを目的としています。 グリーディローカルサーチ:このアルゴリズムは、即座のメリットがある動きを選択し、ローカルな改善を約束する安価な戦略を使用します。 バックトラッキングしない:他のアルゴリズムとは異なり、ヒルクライミングは以前の決定を再訪したり再考したりせず、最適解を探求するために進んで進みます。 ヒルクライミングアルゴリズムの種類 ヒルクライミングアルゴリズムにはさまざまな形式があり、それぞれ特定のシナリオに適しています: 単純なヒルクライミング このバージョンでは、隣接する解を評価し、現在の状態を改善する最初の解を選択します。たとえば、配送ルートの最適化では、最初の代替ルートを選択し、配送時間を短縮する場合でも、最適ではないとしても選択します。 アルゴリズム: ステップ 1:初期状態で開始します。 ステップ 2:初期状態が目標であるかどうかをチェックします。目標であれば、成功を返して終了します。 ステップ 3:改善された状態を連続的に探索するループに入ります。 ループ内で、現在の状態にオペレータを適用して隣接状態を選択します。…
ランナーの疲労検知のための時間系列分類 – チュートリアル
ウェアラブルセンサーを使用して収集されたランニングデータは、ランナーのパフォーマンスや全体的なテクニックについての洞察を提供することができますこれらのセンサーから得られるデータは通常、時間の経過によって変化するものです
「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」
一定のトレーニングプロセスを経て、拡散モデルは画像生成を革新し、従来にない多様性とリアリズムのレベルを達成しました。しかし、GANやVAEとは異なり、そのサンプリングはガウス性ノイズのサンプルのノイズを徐々に減少させ、プログレッシブなデノイジングにより複雑な画像を生成する努力の連続的なプロセスです。これにより、生成パイプラインをクリエイティブなツールとして利用する際の相互作用の量が制限され、通常は多くの高価なニューラルネットワーク評価を必要とします。以前の手法は、初めの多段階の拡散サンプリングで見つかったノイズ→画像のマッピングを単回の学習ネットワークに濃縮し、サンプリングプロセスを高速化します。こうした高次元で複雑なマッピングをフィットすることは、確かに困難な作業です。 改良の余地の一つは、学習モデル全体のデノイジング経路を実行し、単一の損失を計算するための学習モデルのサンプル距離を徐々に拡大していく際に発生する高額な費用です。現在の手法は、元の多段階拡散モデルのデノイジングサイクルを繰り返さずに、学生のサンプル距離を徐々に拡張することでこれを軽減しています。ただし、元の多段階拡散モデルの方が蒸留版よりも優れています。逆に、研究チームは、ノイズと拡散生成された画像の対応を必要とせずに、学生の生成物が元の拡散モデルと同じであることを強調しています。一般的には、彼らの目標の理論的背景は、他の分布マッチング生成モデル(GMMNやGANなど)と似ています。 ただし、リアルなグラフィックを生成する能力は非常に優れているにもかかわらず、一般的なテキストから画像へのモデルのスケーリングは困難であることがわかっています。研究チームは、この問題を解決するために、以前にテキストから画像に広範にトレーニングされた拡散モデルを起点にしています。研究チームは、トレーニングされた拡散モデルを特に微調整することで、データ分布とそれによって生成される架空の分布を学びます。研究チームは、デノイズされた拡散出力を画像を「よりリアル」または(拡散モデルが偽の画像でトレーニングされている場合)「よりフェイク」にするための勾配方向として解釈することができます。なぜなら、拡散モデルは拡散分布のスコア関数を近似することで知られているからです。 最終的に、ジェネレータの勾配更新ルールは、この2つの差として作成され、人工の画像をよりリアリスティックに、よりフェイクから遠ざけます。また、事前学習された拡散モデルによるリアルと偽の分布のモデリングを使用して3Dオブジェクトのテスト時最適化を達成することも可能です。以前の研究では、Variational Score Distillationという手法を使用してこれを実証しています。研究チームは、同様の手法を使用して完全な生成モデルをトレーニングできることも発見しています。さらに、研究チームは、分布マッチング損失の存在下で、多段階拡散サンプリングの結果のわずかな数が事前計算され、1ステップの生成に関するシンプルな回帰損失を実装することで効果的な正則化子として機能することを見つけています。 MITとAdobe Researchの研究者は、Distribution Matching Distillation(DMD)と呼ばれるプロセスを提供しています。これは、画像の品質にほとんど影響を与えずに拡散モデルを1ステップの画像生成器に変換するプロセスです。彼らのアプローチは、VSD、GAN、およびpix2pixからのインスピレーションや洞察を受けています。この研究チームは、(1) 拡散モデルを使用してリアルな分布とフェイクの分布をモデル化し、(2) 多段階拡散出力とシンプルな回帰損失を一致させることで、高精度の1ステップ生成モデルをトレーニングすることができることを示しています。彼らのDistribution Matching Distillation(DMD)技術でトレーニングされたモデルをMS COCO 512×512のゼロショットテキストから画像の生成、CIFAR-10およびImageNet 64×64の画像生成など、さまざまなタスクで評価しています。彼らの1ステップジェネレータは、一括生成モデル、進行的ディスティレーション、修正フローなどの全てのベンチマークで、既知の少数ステップ拡散手法よりも優れたパフォーマンスを発揮します。 DMDはImageNetでのFIDが2.62であり、Consistency Modelを2.4倍上回ります。DMDはStable Diffusionと同じデノイザーアーキテクチャを使用して、MS-COCO 2014-30kで11.49の競争力のあるFIDを達成します。彼らの定量的および定性的な分析は、研究チームのモデルで生成される画像がより高度な品質であり、より高価なStable Diffusionモデルで生成されるものと比較できることを示しています。特に、このレベルの視覚品質を保ちながら、ニューラルネットワークの評価数を100倍減少させることができるという点で、その効率性によって、DMDはFP16推論を使用することで秒間20フレームの速度で512×512の画像を生成できるようになり、多くのインタラクティブなアプリケーションの可能性を開拓しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.