Search Results arXiv

「OpenAIのChatGPTコードインタプリタの探索：その機能に深く潜る」

OpenAIの自然言語処理（NLP）における進展は、大規模言語モデル（LLM）の台頭によって特徴付けられていますこれらのモデルは、GitHub CopilotやBing検索エンジンなど、数百万人に利用される製品の基盤となっていますこれらのモデルは、情報を記憶し統合するという独自の能力を持つことにより、コードやテキストなどのタスクにおいて前例のないベンチマークを設定しています

「バランスのとれたアクト：推薦システムにおける人気バイアスの解消」

ある朝、目が覚めて自分を労わすために新しい靴を買おうと決めましたお気に入りのスニーカーウェブサイトにアクセスして、あなたに提案されたおすすめ商品を閲覧しました特に1つのペアが…

「ビデオ編集はもはや難問ではありません：INVEはインタラクティブなニューラルビデオ編集を可能にするAI手法です」

イメージ編集なしのインターネットを想像することができますか？すべての面白いミーム、素敵なインスタグラムの写真、魅力的な風景などがなくなってしまうでしょう。それは楽しいインターネットではないですよね？デジタルカメラの初期から、イメージ編集は多くの人々の情熱でした。最初は簡単な編集ができるツールがありましたが、今ではほとんど努力をせずに画像の中の何でも何にでも変えることができます。特に最近の数年間で、強力なAIの手法のおかげで、イメージ編集ツールは驚くほど進化しました。しかし、ビデオ編集に関しては、遅れています。ビデオ編集はしばしば専門知識と洗練されたソフトウェアが必要なものです。PremierやFinalCut Proなどの複雑なツールに入り込んで、細部を自分で調整しようとする必要があります。今ではビデオ編集は高給のスキルとなっていますから、それも無理はありません。一方、イメージ編集はモバイルアプリでも可能であり、結果は一般ユーザーに十分です。インタラクティブなビデオ編集が、イメージ編集と同じくらい使いやすくなれば、どんな可能性があるでしょうか。技術的な複雑さとはおさらばし、全く新しい自由のレベルにこんにちはと言えるようになることを想像してみてください！それがINVEです。 INVE (インタラクティブニューラルビデオエディタ)は、その名前が示すとおり、ビデオ編集の問題に取り組むAIモデルです。非専門のユーザーが複雑なビデオ編集を簡単に行える方法を提案しています。 INVE の主な目標は、ユーザーがビデオに対して複雑な編集を簡単かつ直感的な方法で行えるようにすることです。このアプローチは、レイヤー化されたニューラルアトラス表現に基づいています。この表現には、ビデオ内の各オブジェクトと背景のための2Dアトラス（画像）が含まれています。これらのアトラスにより、局所的かつ一貫した編集が可能となります。ビデオ編集はいくつかの固有の課題により手間がかかります。たとえば、ビデオ内の異なるオブジェクトは独立して移動するため、不自然なアーティファクトを避けるために正確なローカリゼーションと注意深い構成が必要です。さらに、個々のフレームの編集は不一致や目に見える欠陥を引き起こす可能性があります。これらの問題に対処するために、INVE はレイヤー化されたニューラルアトラス表現を使用した新しいアプローチを導入しています。アイデアは、ビデオを動くオブジェクトごとに1つ、背景用にもう1つの2Dアトラスのセットとして表現することです。この表現により、ビデオ全体で一貫性を保ちながら局所的な編集が可能となります。ただし、以前の手法では双方向のマッピングに問題があり、特定の編集の結果を予測することが困難でした。さらに、計算量の複雑さがリアルタイムのインタラクティブな編集を妨げました。 INVEは1つのフレームで編集を一貫して伝播させることができます。出典：https://arxiv.org/pdf/2307.07663.pdf INVE は、アトラスとビデオイメージの間の双方向のマッピングを学習します。これにより、ユーザーはアトラスまたはビデオ自体のどちらでも編集を行うことができ、より多くの編集オプションがあり、最終的なビデオでどのように編集が認識されるかをより良く理解することができます。さらに、INVE はマルチ解像度ハッシュコーディングを採用しており、学習と推論の速度が大幅に向上しています。これにより、ユーザーは本当にインタラクティブな編集体験を楽しむことができます。 INVEの順方向マッピングパイプラインの概要。出典：https://arxiv.org/pdf/2307.07663.pdf INVEは、剛体テクスチャトラッキングやベクトル化されたスケッチなど、豊富な編集操作を提供しています。これにより、ユーザーは自分の編集ビジョンを努力せずに実現することができます。初心者のユーザーでも、技術的な複雑さに苦しまずに、インタラクティブなビデオ編集の力を活用することができます。これにより、動く車に外部グラフィックスを追加したり、背景の森の色合いを調整したり、道路にスケッチしたりするなどのビデオ編集が容易になります。これらの編集は、ビデオ全体に簡単に伝播します。

情報とエントロピー

1948年、数学者のクロード・E・シャノンが「通信の数学的理論」という記事を発表し、機械学習における重要な概念であるエントロピーを紹介しましたエントロピーとは…

思っているベイダーではありません 3D VADERは3Dモデルを拡散するAIモデルです

イメージ生成はこれまでにないほど簡単になりました。生成型AIモデルの台頭により、プロセスは本当に簡単になりました。まるでデザイナーがあなたのために働いているかのようで、あなたが見たいイメージを生成するためにガイドするだけで済みます。同じことは画像編集にも当てはまります。これらの生成モデルは新しい画像を生成するだけでなく、最近の研究によって提供された高度なアップグレードにより既存の画像の編集にも使用することができます。これらすべては、ノイズ除去拡散モデルのおかげで可能になりました。彼らは画像生成領域を完全に変革しました。これは私たちがこの分野で目撃した最も重要な進歩の一つでした。これらのモデルは画像、音声、および動画のアプリケーションに適用されています。しかし、もし気づいているなら、ここに1つの要素が欠けています。第三の次元はどこにあるのでしょうか？イメージ生成は既に写真のような現実感を持つレベルに達しており、ビデオや音声の生成にも多くの試みが行われており、日々向上しています。非常に現実的なレベルに達することも近い将来予想されます。しかし、なぜ3Dオブジェクトの生成についてあまり聞かないのでしょうか？私たちは3Dの世界に生きています。それは静的な3Dオブジェクトと動的な3Dオブジェクトの両方に特徴があります。これにより、2Dと3Dのギャップを埋めることは非常に困難な課題となっています。では、このギャップを埋めようとしている新しい挑戦者3DVADERに会いましょう。 3DVADERは、3D生成モデルの中核的な課題に取り組んでいます。つまり、現代の画像生成技術の素晴らしい能力と3D世界の幾何学的な詳細をシームレスに扱う方法です。 3DVADERは、3Dコンテンツの設計とモデルのトレーニング方法を再考します。以前の方法とは異なり、拡張性と多様性に苦労したものの、この実装はこれらの課題に果敢に取り組み、3Dコンテンツ生成の未来に新しい視点を提供します。 3DVADERは、独自のアプローチでこれを実現しています。トレーニングに従来のオートエンコーダーに依存するのではなく、ボリューメトリックオートデコーダーを導入します。このオートデコーダーは各オブジェクトに1次元ベクトルをマッピングし、3Dの監督不要で幅広いオブジェクトカテゴリに対応します。このアプローチは、レンダリングの一貫性をガイドプリンシプルとして2Dの観測から3D表現を学習します。この新しい表現は可動部位を収容し、非剛体オブジェクトをモデル化するための必要性を満たします。 3DVADERの概要。出典: https://arxiv.org/pdf/2307.05445.pdf 別の問題はデータセットに関するものです。画像と単眼ビデオが最も利用可能なデータを占めているため、堅牢で多目的な3Dデータセットの準備は未解決の課題です。以前のアプローチとは異なり、3DVADERはマルチビュー画像と単眼ビデオを活用して3D感知コンテンツを生成します。トレーニング中に姿勢情報の欠如に対して真実の姿勢、推定された姿勢、または完全に提供されない姿勢情報に対して堅牢性を提供することで、オブジェクトのポーズの多様性の課題を解決します。さらに、3DVADERはさまざまなカテゴリの多様なオブジェクトを対象とするデータセットに対応しており、拡張性の問題に取り組んでいます。 3DVADERは3Dオブジェクトを生成できます。出典: https://snap-research.github.io/3DVADER/ 全体的に、3DVADERは、静的および関節付きの3Dアセットを生成するための新しい手法であり、その中核として3Dオートデコーダーが使用されています。既存のカメラの監視の利用またはトレーニング中にこの情報を学習することができます。最先端の代替手法と比較して、生成の性能が優れています。

INVE 対話型AIマジックでビデオ編集を革新する

画像編集なしの世界を想像できますか？面白いミーム、息をのむような風景、魅力的なインスタグラムの写真はどこに魅力を失いますか？幸いにも、私たちが生活しているのはそのような現実ではありません。画像編集は私たちのデジタルな生活の一部であり、普通の画像を非凡な作品に変えることができます。しかし、動画はどうでしょうか？動画編集は常に技術力と複雑なソフトウェアを必要とする少し困難なものでした。しかし、複雑さとはおさらばし、AIによるインタラクティブな動画編集をINVEで実現しましょう。関連記事：2023年に使用する11つのAIビデオジェネレータ：テキストからビデオに変換する AIの力を解き放つ：画像から動画への旅デジタルカメラの初期から現在まで、画像編集は芸術の形に進化してきました。かつて基本的な編集を行っていたツールは、今や非凡なものに変わりました。しかし、動画編集に関してはまだ遅れがあります。画像編集は携帯電話で行うことができますが、動画編集はプロのソフトウェアと専門知識が必要です。関連記事：NVIDIAのNeuralangeloが驚くべき3Dで2Dビデオを生み出す！ INVEでギャップを埋め、誰もが簡単に動画を編集できるようにする画像の微調整と同じくらい使いやすい動画編集の世界を想像してみてください。技術的な専門用語や複雑なツールが退屈な存在であり、創造性が羽ばたく世界です。これがINVE（インタラクティブニューラルビデオエディタ）がもたらす世界です。INVEは単なるツールではなく、動画編集の革命です。複雑な動画の編集を簡単にするために設計されたINVEは、非専門家が非凡なビデオコンテンツを作成するために高度なAIメソッドを使用しています。この魔法は、層状のニューラルアトラス表現を通じて実現され、動画編集を可能性の遊び場に変えます。関連記事：AIビデオエディタになるには？最高のツール、テクニック、その他天才の解読：INVEがどのように魔法を行うのか動画編集は常に難問でした。動くオブジェクト、不均一なフレーム、グリッチの恐怖は、経験豊富な編集者でも悩ませます。しかし、INVEは新しい視点をもたらします。層状のニューラルアトラス表現の概念を導入することで、動画編集をより直感的なプロセスに変えます。キャンバス上で画家が傑作を作るように、動画を編集することを想像してみてください。INVEは、動画を移動するオブジェクトごとに1つ、背景ごとにもう1つの2Dアトラスのセットとして表現することで、局所的な編集を行いながら動画の一貫性を保ちます。関連記事：HumanRFにより、1つのカメラで異なる視点からビデオをキャプチャできるようになる INVEの突破的な成果を超えて INVEは基本的なことで止まりません。他の方法がつまづく課題に取り組みます。かつて障害となっていた双方向のマッピングは、強みとなります。INVEはアトラスとビデオ画像の接続を学習し、幅広い編集オプションを提供します。アトラスまたはビデオ自体を編集するかどうかはあなたがコントロールします。また、編集のレンダリングを待つことはイライラすることがあります。INVEはマルチ解像度ハッシュコーディングを組み込んで学習と推論のスピードを向上させます。今や遅延なしでリアルタイムなインタラクティブな編集体験を楽しむことができます。創造力の向上：INVEの豊かな編集語彙 INVEの編集の言語は多様で包括的です。堅牢なテクスチャトラッキング、ベクトル化されたスケッチなどを駆使して、ユーザーは自由に創造的なビジョンを具現化することができます。外部グラフィックスで車を強化したり、道路にスケッチしたりすることから、あなたの編集はビデオ全体にシームレスに広がります。私たちの意見 INVEを手に入れれば、動画編集は未来に飛躍します。技術的な複雑さや編集ソフトウェアの知識はもはや障壁ではありません。創造力だけが制約です。苦労のかかる動画編集の日々にさよならを告げ、INVEとともにインタラクティブなAIの魔法の時代を迎えましょう。あなたのビデオを変革し、観客を魅了し、自分自身のビジュアルストーリーの監督になる時です。革命を受け入れる時です。INVEの時です。画像ソース：https://arxiv.org/pdf/2307.07663.pdf

「ペンの向こう側：視覚的な原型からの手書きテキスト生成におけるAIの芸術性」

個々の作家の独自の書道スタイルを再現する手書きテキスト生成（HTG）という新興の分野は、手書きテキスト認識（HTR）モデルのための高品質なトレーニングデータを生成することから、身体的な障害を持つ個人のための手書きのノートを自動的に生成するなど、さまざまな実用的なアプリケーションを持っています。また、この目的のために設計されたモデルから得られる独特のスタイル表現は、ライターの識別、署名の検証、および筆跡スタイルの操作など、他のタスクでも有用です。スタイル付き手書き生成に取り組む際、スタイル転送に頼るだけでは限界があります。なぜなら、特定の作家の書道を模倣することは、背景やインクの色といったテクスチャの考慮にとどまらず、筆幅や傾き、斜め具合、丸み、個々の文字の形状や合字といった複雑なディテールを含んでいるからです。これらの視覚的要素を正確に扱うことは、小さな余分なストロークや欠けたストロークなど、内容を誤って変更する可能性があるアーティファクトを防ぐために重要です。このため、HTGのために特化した手法が考案されています。一つのアプローチは、手書きを個々のストロークから成る軌跡として扱うことです。また、手書きをその視覚的特徴を捉えた画像として扱うこともできます。前者の手法は、オンラインHTG戦略を採用しており、ペンの軌跡の予測を点ごとに行います。一方、後者の手法は、直接完全なテキストイメージを生成するオフラインHTGモデルで構成されます。この記事で紹介されている研究は、その有利な属性を持つため、オフラインHTGパラダイムに焦点を当てています。オンラインアプローチとは異なり、高価なペン記録トレーニングデータを必要としません。そのため、歴史的なデータなど、著者のオンライン手書きに関する情報が利用できないシナリオでも適用することができます。さらに、オフラインパラダイムは勾配消失の問題などを回避できるため、トレーニングが容易です。本研究で使用されているVATr（Visual Archetypes-based Transformer）というアーキテクチャは、Few-Shotスタイルオフライン手書きテキスト生成（HTG）に革新的なアプローチを導入しています。提案手法の概要は、以下の図に示されています。 https://arxiv.org/abs/2303.15269 この手法は、文字を連続変数として表現し、生成プロセスにおいてTransformerデコーダ内のクエリコンテンツベクトルとして利用することで特筆されます。プロセスは文字の表現から始まります。文字は連続変数に変換され、それがTransformerデコーダ内のクエリとして使用されます。このデコーダは、提供されたコンテンツに基づいてスタイル化されたテキストイメージを生成するための重要なコンポーネントです。この手法の注目すべき利点の一つは、トレーニングデータであまり出現しない文字（数字、大文字、句読点など）の生成を容易にする能力です。これは、レアなシンボルと一般的に出現するシンボルとの潜在空間上の近接性を活用することで実現されます。アーキテクチャはGNU Unifontフォントを使用して文字を16×16のバイナリイメージとして描画し、各文字の視覚的本質を効果的に捉えます。これらの文字イメージの密なエンコーディングは、事前にトレーニングされたTransformerエンコーダによって抽出されたスタイルベクトルへのクエリとしてTransformerデコーダに組み込まれます。さらに、この手法は、最初に書道スタイル属性を強調した広範な合成データセットでトレーニングされた事前トレーニドバックボーンを活用しています。この技術はHTGの文脈ではしばしば無視されますが、それは見たことのないスタイルに対して特に堅牢なスタイル表現を生み出すことが示されています。 VATrアーキテクチャは、最新の最先端の生成手法との広範な実験的比較を通じて検証されています。いくつかの結果と最先端の手法との比較を以下に報告します。 https://arxiv.org/abs/2303.15269 これは、視覚的な原型から手書きテキストを生成するための新しいAIフレームワークであるVATrの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

メタスの新しいテキストから画像へのモデル – CM3leon論文の説明

メタは最近、Stable-Diffusion [2]、Midjourney、またはDALLE [3]のような拡散に基づかない最新のテキストから画像へのモデル、CM3Leon [1]を発表しました少々長いですが、要するに...

スウィン・トランスフォーマー | モダンなコンピュータビジョンタスク

イントロダクション Swin Transformerは、ビジョントランスフォーマーの分野における重要なイノベーションです。トランスフォーマーは、様々なタスクで優れたパフォーマンスを発揮してきました。その中でも、Swin Transformerはコンピュータビジョンのバックボーンとして優れた柔軟性と拡張性を提供し、現代のディープラーニングモデルの要求に応える能力を持っています。このトランスフォーマーのフルポテンシャルを引き出し、その印象的な能力を目の当たりにしましょう。学習目標この記事では、強力な階層的なビジョントランスフォーマーであるSwin Transformerを紹介します。この記事を読み終えることで、以下のことが理解できるようになるでしょう： Swin Transformerの主な特徴コンピュータビジョンモデルのバックボーンとしての応用画像分類、物体検出、インスタンスセグメンテーションなどの様々なコンピュータビジョンタスクにおけるSwin Transformerの利点この記事は、データサイエンスブログマラソンの一環として公開されました。 Swin Transformerの理解 2021年の論文「Swin Transformer: Hierarchical Vision Transformer using Shifted Windows」で、Ze Liu、Yutong…

「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers（DiTs）」

機械学習の領域は、トランスフォーマーベースのアーキテクチャの出現により、自然言語処理、コンピュータビジョンなどの各種タスクを革新的に変革しました。しかし、画像レベルの生成モデルである拡散モデルには、依然として注目すべきギャップが存在し、これらのモデルは主に畳み込みU-Netアーキテクチャに従っています。他のドメインがトランスフォーマーを採用しているのに対し、拡散モデルはまだこれらの強力なアーキテクチャを統合していません。この問題に取り組むため、ニューヨーク大学の研究者はDiffusion Transformers（DiTs）という革新的なアプローチを導入しており、従来のU-Netバックボーンをトランスフォーマーの機能で置き換えることで、拡散モデルのアーキテクチャにおける既存の慣習に挑戦しています。現在、拡散モデルは洗練された画像レベルの生成モデルとなっていますが、依然として畳み込みU-Netに依存しています。この研究では、Vision Transformers（ViTs）の原則に基づき、拡散モデルにトランスフォーマーを統合するという画期的なコンセプトを紹介しています。この移行により、U-Netデザインの制約を超えた構造変換が推進され、拡散モデルがより広範なアーキテクチャのトレンドに合致し、拡張性、堅牢性、効率性を向上させることが可能になりました。 DiTsはVision Transformers（ViTs）アーキテクチャに基づいており、拡散モデルの設計に新たなパラダイムを提供しています。このアーキテクチャには、空間入力をトークンシーケンスに変換する「パッチ」というキーコンポーネントが含まれています。DiT-SからDiT-XLまでのさまざまなモデルサイズとともに、条件付き情報を処理するDiTブロックのバリアント、および「インコンテキストコンディショニング」、「クロスアテンションブロック」、「適応的レイヤーノルム（adaLN）ブロック」、「adaLNゼロブロック」も含まれています。これらのブロックデザインとモデルサイズのバリエーションは、強力な拡散モデルの設計に対する柔軟なツールキットを構成しています。 https://arxiv.org/abs/2212.09748 実験フェーズでは、さまざまなDiTブロックデザインのパフォーマンスを評価しています。異なるブロックデザインを採用した4つのDiT-XL/2モデルが訓練され、FIDスコアを基準としてadaLN-zeroブロックデザインの一貫した優越性が示され、その計算効率性と条件付けメカニズムのモデル品質への重要な役割が示されました。この発見は、adaLN-zeroの初期化方法の効果を強調し、さらなるDiTモデルの探索におけるadaLN-zeroブロックの採用に影響を与えました。 https://arxiv.org/abs/2212.09748 さらなる探索では、モデルサイズとパッチサイズを操作してDiT構成をスケーリングします。視覚化により、計算能力の拡張によって達成された画質の大幅な向上が示されます。この拡張は、トランスフォーマーの次元を拡張するか、入力トークンを増やすことによって実行することができます。モデルのGflopsとFID-50Kスコアのロバストな相関関係は、計算リソースがDiTのパフォーマンス向上において重要であることを強調しています。ImageNetデータセットの256×256および512×512の解像度で既存の拡散モデルに対してDiTモデルをベンチマークテストすることにより、説得力のある結果が明らかになりました。DiT-XL/2モデルは、両方の解像度のFID-50Kスコアで既存の拡散モデルを一貫して上回り、その堅牢なパフォーマンスは、DiTモデルがさまざまなスケールでの拡張性と柔軟性を持っていることを強調しています。さらに、この研究はDiT-XL/2モデルの固有の計算効率性を強調し、現実世界のアプリケーションにおける実用的な適用性を示しています。結論として、Diffusion Transformers（DiTs）を導入することは、生成モデルの革新的な時代を告げるものです。トランスフォーマーの力を拡散モデルと融合することにより、DiTsは従来のアーキテクチャの常識に挑戦し、研究と実世界の応用において有望な道を提供します。包括的な実験と結果は、DiTsが画像生成の領域を前進させる潜在能力を強調し、先駆的なアーキテクチャのイノベーションとしての位置を明確にします。DiTsが画像生成の領域を再構築し続ける中で、トランスフォーマーとの統合は、異なるモデルアーキテクチャを統一し、さまざまなドメインでのパフォーマンス向上に向けた注目すべき一歩となります。

Learn more about Search Results arXiv - Page 14