Search Results arXiv

テキスト生成の評価におけるベクトル化されたBERTScoreのビジュアルガイド

『AIベースのテキスト生成は明らかに主流に入ってきています自動化されたライティングアシスタントから法的文書の生成、マーケティングコンテンツの生成、メールの執筆など、様々な領域で活用されています…』

デット (物体検出用トランスフォーマー）

注意：この記事は、コンピュータビジョンの複雑な世界について探求し、特にトランスフォーマーとアテンションメカニズムに焦点を当てています...からのキーコンセプトに精通していることが推奨されます

「私たちはAIとの関係をどのように予測できるのか？」

現在の段階やAGIの後の人間とAIの相互作用は常に議論の的です次の否定的な側面にいるのか、立場をとっているのかに関わらず、私たちの人生におけるAIの結果を解きほぐしたいと思います...

「FC-CLIPによる全局セグメンテーションの革新：統一された単一段階人工知能AIフレームワーク」

イメージセグメンテーションは、画像を意味のある部分や領域に分割する基本的なコンピュータビジョンのタスクです。それは、コンピュータが画像内の異なるオブジェクトや領域を識別して理解できるように、絵を異なるピースに分割することのようなものです。このプロセスは、医療画像解析から自律走行車までのさまざまな応用において重要であり、それによりコンピュータが人間のように視覚的な世界を解釈し、相互作用することができます。セグメンテーションは、基本的にセマンティックセグメンテーションとインスタンスセグメンテーションの2つのトピックに分けることができます。セマンティックセグメンテーションは、画像内の各ピクセルにオブジェクトの種類に応じたラベルを付けることを意味し、後者はそれらが近くにある場合でも、同じタイプの個々のオブジェクトをカウントします。そして、セグメンテーションの王様であるパノプティックセグメンテーションがあります。それはセマンティックセグメンテーションとインスタンスセグメンテーションの両方の課題を組み合わせ、それぞれのクラスラベルに対応する非重複のマスクを予測することを目指しています。これまでのところ、研究者たちはパノプティックセグメンテーションモデルの性能向上について重要な進展を遂げてきました。ただし、高精細なデータセットの注釈コストのためにセマンティッククラスの数が制限されているという基本的な課題が、これらのモデルの実世界での応用を制限しています。これはかなりの問題です。数千の画像を確認してそれぞれのオブジェクトをマークするのは非常に時間がかかります。何らかの方法でこのプロセスを自動化できたらどうでしょうか？これに対する統一的なアプローチを持つことができたらどうでしょうか？そんな時が来ました。FC-CLIPに会いましょう。 FC-CLIPは、前述の制限に対処する統一された単一ステージのフレームワークです。これにより、パノプティックセグメンテーションの革新と、オープンボキャブラリーシナリオへの適用が可能になります。封じられた語彙のセグメンテーションの課題を克服するため、コンピュータビジョンコミュニティはオープンボキャブラリーセグメンテーションの領域を探求してきました。このパラダイムでは、自然言語で表現されたカテゴリ名のテキスト埋め込みをラベル埋め込みとして使用します。このアプローチにより、モデルはより広範な語彙からオブジェクトを分類することができ、より広範なカテゴリに対応する能力を大幅に向上させることができます。事前学習されたテキストエンコーダを使用することがよくあり、意味のある埋め込みが提供されることが保証されます。これにより、モデルはオープンボキャブラリーセグメンテーションにおいて重要な単語やフレーズの意味的なニュアンスを捉えることができます。 ViTベースとCNNベースのCLIPの両方が意味のある特徴を生成します。出典： https://arxiv.org/pdf/2308.02487.pdf…

イメージの意味的なセグメンテーションには、密な予測トランスフォーマーを使用します

イントロダクションこの記事では、イメージセマンティックセグメンテーションというコンピュータビジョンの技術について説明します。これは複雑な技術のように聞こえますが、ステップバイステップで解説し、Hugging Faceのコレクションから密な予測トランスフォーマー（DPT）を使用したイメージセマンティックセグメンテーションの実装について紹介します。DPTを使用することで、通常とは異なる能力を持つ新しいフェーズのコンピュータビジョンが導入されます。コンピュータビジョンにおけるDPTと従来の遠くのつながりの理解との比較学習目標 DPTと従来の遠くのつながりの理解の比較 PythonでDPTを使用したセマンティックセグメンテーションの実装 DPTの設計を探索し、その特徴を理解するこの記事はデータサイエンスブログマラソンの一環として公開されました。イメージセマンティックセグメンテーションとは何ですか？イメージセマンティックセグメンテーションとは、画像を持っており、それぞれのピクセルをそれが表す内容に応じてラベル付けしたいというアイデアです。これはコンピュータビジョンで使用され、車と木を区別したり、画像の一部を分離したりするために使用されます。つまり、ピクセルにスマートにラベルを付けることに関わります。しかし、本当の挑戦は、コンテキストとオブジェクト間の関係を理解することにあります。これを従来の画像処理の手法と比較してみましょう。畳み込みニューラルネットワーク（CNN）最初のブレイクスルーは、画像を処理するために畳み込みニューラルネットワーク（CNN）を使用することでした。しかし、CNNには限界があり、特に画像の遠くのつながりを捉えることに苦労します。画像内の異なる要素が長い距離でどのように相互作用するのかを理解しようとする場合を想像してみてください。それが従来のCNNの苦手なところです。そこで、DPTを導入します。これらのモデルは、強力なトランスフォーマーアーキテクチャに基づいており、関連性を捉える能力を持っています。次にDPTについて見てみましょう。デンス予測トランスフォーマー（DPT）とは何ですか？この概念を理解するために、以前のNLPのタスクで使用していたトランスフォーマーの力を画像解析と組み合わせることを考えてみてください。それがデンス予測トランスフォーマー（DPT）のコンセプトです。それはまるで画像のスーパーディテクティブのようです。彼らは画像のピクセルにラベルを付けるだけでなく、各ピクセルの深さを予測する能力を持っています。これにより、各オブジェクトが画像からどれだけ遠くにあるかの情報が提供されます。以下で詳しく見ていきましょう。 DPTアーキテクチャのツールボックス DPTには異なるタイプがあり、それぞれに「エンコーダ」レイヤーと「デコーダ」レイヤーがあります。ここでは、2つの人気のあるタイプについて見てみましょう： DPT-Swin-Transformer：エンコーダレイヤーが10つ、デコーダレイヤーが5つある、メガトランスフォーマーのようなものです。画像内の要素間の関係を理解するのに優れています。 DPT-ResNet：18つのエンコーダレイヤーと5つのデコーダレイヤーを持つ、賢明なディテクティブのようなものです。遠くのオブジェクト間の関連性を見つけることに秀でていますが、画像の空間的な構造を保持します。主な特徴 DPTがどのように機能するか、いくつかの主な特徴を見てみましょう：階層的特徴抽出：従来の畳み込みニューラルネットワーク（CNN）と同様に、DPTは入力画像から特徴を抽出します。ただし、画像は異なる詳細レベルに分割される階層的なアプローチを取っています。この階層的なアプローチにより、ローカルとグローバルなコンテキストの両方を捉えることができ、モデルがさまざまなスケールでオブジェクト間の関係を理解することができます。セルフアテンションメカニズム：これはDPTのバックボーンであり、元々のトランスフォーマーアーキテクチャから着想を得ています。画像内の長い距離の依存関係を捉え、ピクセル間の複雑な関係を学ぶことができるようにします。各ピクセルは他のすべてのピクセルからの情報を考慮し、モデルに画像の包括的な理解を与えます。 DPTを使用した画像セマンティックセグメンテーションのPythonデモ以下にDPTの実装例を見ていきます。まずは、Colabに事前にインストールされていないライブラリのセットアップを行います。このコードはこちらまたはhttps://github.com/inuwamobarak/semantic-segmentationで見つけることができます。…

「もし私たちが複雑過ぎるモデルを簡単に説明できるとしたらどうだろう？」

この記事は次の記事に基づいています：https//www.sciencedirect.com/science/article/abs/pii/S0377221723006598 これを読んでいるのであれば、人工知能（AI）がいかに重要かご存知かもしれません...

マルチモーダルニューロンの秘密を明らかにする：モリヌーからトランスフォーマーへの旅

トランスフォーマーは人工知能領域において最も重要なイノベーションの一つとなるかもしれません。これらのニューラルネットワークアーキテクチャは、2017年に導入され、機械が人間の言語を理解し生成する方法を革新しました。これまでの方法とは異なり、トランスフォーマーは入力データを並列で処理するための自己注意機構に依存しており、情報のシーケンス内の隠れた関係や依存関係を捉えることができます。この並列処理能力は、トレーニング時間の短縮だけでなく、有名なChatGPTのような洗練されたモデルの開発への道を開きました。最近の数年間は、人工ニューラルネットワークがさまざまなタスクにおいてどれだけ能力を発揮できるかを示してくれました。言語タスクや視覚タスクなどを変えました。しかし、真の可能性は、ビジョンとテキストなど、さまざまな感覚モーダリティを統合するクロスモーダルタスクにあります。これらのモデルは追加の感覚入力で補完され、異なるソースからの情報の理解と処理を必要とするタスクで印象的な性能を発揮しました。 1688年、ウィリアム・モリナクスという哲学者が、ジョン・ロックに対して長い間学者たちの心を捉え続ける魅力的な謎を提案しました。彼が提起した質問は簡単ですが、深遠です。生まれつき盲目だった人が突然視力を取り戻した場合、以前に触覚や他の視覚以外の感覚だけで知っていた物体を認識することができるでしょうか？この興味深い問い合わせは、モリナクスの問題として知られ、哲学の領域に深く関わるだけでなく、視覚科学にも重要な意味を持っています。 2011年に、視覚神経科学者たちはこの古代の問いに答えるためのミッションを開始しました。彼らは、以前は触覚のみで知っていたオブジェクトの直ちに視覚的な認識は不可能であることを見つけました。しかし、重要な発見は、私たちの脳が驚くほど適応性があることでした。視力を取り戻す手術の数日後には、個人は迅速に視覚的にオブジェクトを認識することができるようになり、異なる感覚モーダリティの間のギャップを埋めることができました。この現象は、マルチモーダルニューロンにも当てはまるのでしょうか？答えに出会う時間です。マルチモーダルニューロンはトランスフォーマーMLP上で特定の特徴を活性化させます。出典：https://arxiv.org/pdf/2308.01544.pdf 私たちは技術革新の真っただ中にいます。特に言語タスクで訓練された人工ニューラルネットワークは、視覚とテキストなど、さまざまな感覚モーダリティを統合するクロスモーダルタスクにおいて驚異的な能力を発揮しています。これらのモデルは、追加の感覚入力で補完され、異なるソースからの情報の理解と処理を必要とするタスクで印象的な性能を発揮しました。これらのビジョン-言語モデルにおける一般的なアプローチの一つは、画像に応じたプレフィックス調整の形態を使用することです。このセットアップでは、別の画像エンコーダがテキストデコーダと整合し、しばしば学習済みのアダプタレイヤーの助けを借りています。このような戦略を採用している方法はいくつかありますが、通常はCLIPなどの画像エンコーダを言語モデルと一緒に訓練しています。しかし、最近の研究であるLiMBeRは、機械においてモリナクスの問題に似たユニークなシナリオを提示しました。彼らは、一切の言語データを見たことがない自己教育画像ネットワーク「BEIT」を使用し、線形射影層で画像からテキストへのタスクでトレーニングされた言語モデル「GPT-J」と接続しました。この興味深いセットアップは、基本的な疑問を呼び起こします。モーダリティ間の意味の翻訳は射影層内で行われるのか、それともビジョンと言語の表現の整合が言語モデル内で起こるのでしょうか？ 6つのCOCOのスーパーカテゴリのサンプル画像に対するトップ5のマルチモーダルニューロン。出典：https://arxiv.org/pdf/2308.01544.pdf MITの著者によって発表された研究は、この400年以上の謎の解明と、これらの多様なモデルがどのように機能するのかを明らかにすることを目的としています。まず、彼らは画像プロンプトが変換器の埋め込み空間に変換されても解釈可能な意味をエンコードしないことを発見しました。代わりに、異なるモダリティ間の翻訳は変換器内で行われます。第二に、同じ意味を持つ画像とテキスト情報の両方を処理できる多モダルニューロンが、テキスト専用の変換器MLP内で発見されました。これらのニューロンは、視覚表現を言語に変換する上で重要な役割を果たしています。最後に、そしておそらく最も重要な発見は、これらの多モダルニューロンがモデルの出力に因果的な影響を与えるということです。これらのニューロンを制御することで、画像のキャプションから特定の概念を除去することができ、コンテンツの多モダル理解における重要性が強調されます。深層ネットワーク内の個々のユニットの内部構造に対するこの調査は、多くの情報を明らかにします。画像分類器の畳み込みユニットが色やパターンを検出し、後のユニットがオブジェクトのカテゴリを認識できるのと同様に、変換器でも多モダルニューロンが現れることがわかりました。これらのニューロンは、同じ意味を持つ画像とテキストに対して選択的です。さらに、ビジョンと言語が別々に学習されている場合でも、多モダルニューロンが現れることがあります。彼らは効果的に視覚表現を統一されたテキストに変換することができます。異なるモダリティ間で表現を整列させるこの能力は、言語モデルがゲーム戦略の予測からタンパク質の設計に至るまで、さまざまな順序モデリングを必要とするさまざまなタスクにおいて、強力なツールとなります。

「DINO — コンピュータビジョンのための基盤モデル」

「コンピュータビジョンにとっては、エキサイティングな10年です自然言語の分野での大成功がビジョンの領域にも移されており、ViT（ビジョントランスフォーマー）の導入などが含まれています...」(Konpyūta bijon ni totte wa, ekisaitinguna jūnen desu. Shizen gengo no bunya de no daiseikō ga bijon no ryōiki ni mo utsusarete ori, ViT…

「ハリウッドの自宅：DragNUWAは、制御可能なビデオ生成を実現できるAIモデルです」

生成AIは、大規模な拡散モデルの成功的なリリースにより、過去2年間で大きな飛躍を遂げました。これらのモデルは、リアルな画像、テキスト、およびその他のデータを生成するために使用できる生成モデルの一種です。拡散モデルは、ランダムなノイズ画像やテキストから始まり、時間の経過とともに徐々に詳細を追加していきます。このプロセスは拡散と呼ばれ、実世界のオブジェクトが形成されるにつれて徐々に詳細になる方法に似ています。通常、実際の画像やテキストの大規模なデータセットでトレーニングされます。一方、ビデオ生成も近年驚くべき進歩を遂げています。これは、リアルな動的なビデオコンテンツを完全に生成するという魅力的な能力を包括しています。この技術は、深層学習と生成モデルを活用して、シュールな夢の光景から現実のシミュレーションまで、さまざまな種類のビデオを生成します。ディープラーニングの力を使って、ビデオのコンテンツ、空間的な配置、時間的な進化を正確に制御する能力は、エンターテイメントや教育など、さまざまな応用分野に大きな可能性を秘めています。歴史的には、この領域の研究は主に視覚的な手がかりに焦点を当てており、次のビデオの生成には初期フレーム画像を重要視していました。しかし、このアプローチには制約があり、特にカメラの動きや複雑なオブジェクトの軌跡など、ビデオの複雑な時間的ダイナミクスを予測することにおいて制約がありました。これらの課題を克服するために、最近の研究はテキストの説明と軌跡データを追加の制御メカニズムとして組み込む方向にシフトしています。これらのアプローチは大きな進歩を表していますが、それぞれに制約があります。それでは、これらの制約に取り組むDragNUWAに会いましょう。 DragNUWAは、細かい制御が可能な軌跡認識型ビデオ生成モデルです。テキスト、画像、および軌跡情報をシームレスに統合し、強力でユーザーフレンドリーな制御性を提供します。 DragNUWAによって生成された例のビデオ。出典：https://arxiv.org/pdf/2308.08089.pdf DragNUWAは、リアルな見た目のビデオを生成するためのシンプルな公式を持っています。この公式の3つの柱は、意味論的制御、空間的制御、および時間的制御です。これらの制御は、それぞれテキストの説明、画像、および軌跡を使用して行われます。テキストによる制御は、テキストの説明という形で行われます。これにより、ビデオ生成に意味と意図を注入することができます。例えば、現実の魚の泳ぎと魚の絵の描写の違いなどがあります。視覚的な制御には、画像が使用されます。画像は空間的な文脈と詳細を提供し、ビデオでオブジェクトやシーンを正確に表現するのに役立ちます。これらはテキストの説明に重要な補完を提供し、生成されたコンテンツに深さと明瞭さを加えます。これらは私たちにとってすべて馴染みのあるものであり、本当の違いは最後の要素である軌跡制御に見られます。 DragNUWAは、オープンドメインの軌跡制御を使用します。以前のモデルは軌跡の複雑さに苦しんでいましたが、DragNUWAはTrajectory Sampler (TS)、Multiscale Fusion (MF)、およびAdaptive Training (AT)を使用して、この課題に取り組んでいます。このイノベーションにより、複雑なオープンドメインの軌跡、リアルなカメラの動き、複雑なオブジェクトの相互作用を持つビデオの生成が可能になります。 DragNUWAの概要。出典：https://arxiv.org/pdf/2308.08089.pdf DragNUWA（ドラグヌワ）は、テキスト、画像、軌跡の3つの重要な制御メカニズムを統合したエンドツーエンドのソリューションを提供しています。この統合により、ユーザーはビデオコンテンツに対して正確かつ直感的な制御を行うことができます。ビデオ生成における軌跡制御を新たにイメージし直します。TS、MF、ATの戦略により、任意の軌跡のオープンドメイン制御を実現し、複雑で多様なビデオシナリオに適しています。

Learn more about Search Results arXiv - Page 8

デコード Transformersを平易な英語で説明します