Learn more about Search Results Yi - Page 60

類似検索、パート7 LSHの組み合わせ

「類似検索は、クエリが与えられた場合に、データベースの全ドキュメントの中からそれに最も類似したドキュメントを見つけることを目的とした問題ですデータサイエンスでは、類似検索はしばしばNLP(自然言語処理)で現れます...」

コーネル大学の人工知能(AI)研究者たちは、ビデオマッティングの問題に対処するための新しいニューラルネットワークフレームワークを提案しています

画像と動画の編集は、コンピュータユーザーにとって最も人気のあるアプリケーションの2つです。機械学習(ML)とディープラーニング(DL)の登場により、画像と動画の編集は、いくつかのニューラルネットワークアーキテクチャを通じて徐々に研究されてきました。最近まで、画像と動画の編集のためのほとんどのDLモデルは、教師あり学習であり、具体的には、望ましい変換の詳細を学習するために入力と出力データのペアを含むトレーニングデータが必要でした。最近では、単一の画像のみを入力として望ましい編集済み出力へのマッピングを学習するエンドツーエンドの学習フレームワークが提案されています。 ビデオマッティングは、ビデオ編集に属する特定のタスクです。マッティングという用語は、19世紀にさかのぼり、撮影中にカメラの前にマットペイントのガラス板を設置して、撮影場所に存在しない環境の錯覚を作り出すために使用されました。現在では、複数のデジタル画像の合成は類似の手順に従います。合成式は、各画像の前景と背景の強度を、それぞれの成分の線形結合として表します。 このプロセスは非常に強力ですが、いくつかの制約があります。画像を前景と背景のレイヤーに明確に分解する必要があり、それらは独立して処理可能であると仮定されます。ビデオマッティングなどの一連の時間的および空間的に依存するフレームのような状況では、レイヤーの分解は複雑なタスクとなります。 本論文では、このプロセスの解明と分解の精度向上を目指しています。著者らは、下流の編集タスクのためにビデオをより独立した構成要素に分解するマッティング問題の変種であるファクターマッティングを提案しています。この問題に対処するために、彼らはシーン内の予想される変形に基づいた条件付き事前知識を古典的なマッティング事前知識に組み合わせた使いやすいフレームワークであるFactorMatteを提案しています。たとえば、最大事後確率の推定を指す古典的なベイズの式には、前景と背景の独立性に関する制限を取り除くための拡張が行われています。さらに、ほとんどのアプローチでは、背景レイヤーが時間の経過に伴って静的なままであるという仮定がされていますが、これはほとんどのビデオシーケンスにとって制限があります。 これらの制約を克服するために、FactorMatteは2つのモジュールに依存しています。デコンポジションネットワークは、各成分ごとに入力ビデオを1つ以上のレイヤーに分解し、各成分に対する条件付き事前知識を表すパッチベースの識別器のセットです。アーキテクチャのパイプラインは以下のように示されます。 デコンポジションネットワークへの入力は、フレームごとに対象オブジェクトの粗いセグメンテーションマスクを含むビデオです(左、黄色のボックス)。この情報を元に、ネットワークは再構成損失に基づいてカラーとアルファのレイヤー(中央、緑と青のボックス)を生成します。前景レイヤーは前景成分をモデル化します(右、緑のボックス)、一方、環境レイヤーと残差レイヤーは背景成分をモデル化します(右、青のボックス)。環境レイヤーは背景の静的な要素を表し、残差レイヤーは前景オブジェクトとの相互作用による背景成分のより不規則な変化を捉えます(図の枕の変形)。これらのレイヤーごとに、各成分の事前確率を学習するための1つの識別器がトレーニングされています。 選択されたサンプルに対するマッティングの結果は、以下の図に示されています。 FactorMatteは完璧ではありませんが、生成された結果はベースライン手法(OmniMatte)よりも明らかに正確です。すべてのサンプルにおいて、背景と前景のレイヤーはきれいに分離されており、比較解決策では断定することができません。さらに、削除実験を行い、提案された解決策の有効性を証明しました。 これがビデオマッティング問題に対処するための新しいフレームワークであるFactorMatteの概要でした。興味がある場合は、以下のリンクで詳細情報を見つけることができます。

スケッチベースの画像対画像変換:GANを使用して抽象的なスケッチを写実的な画像に変換する

スケッチに長けた人もいれば、他の仕事に才能を持つ人もいます。靴の画像が提示された場合、個人は写真を示す簡単な線を引くことができますが、スケッチの品質は異なる場合があります。それに対して、人間は抽象的な描画でも現実的なイメージを視覚化するという固有の能力を持っており、これは数百万年の進化の過程で開発されたスキルです。 AIと生成モデルの登場により、抽象的なスケッチから写真のようなリアルなイメージを生成することは、画像から画像への変換の文献の広義の文脈に含まれます。これに関しては、pix2pix、CycleGAN、MUNIT、BicycleGANなどの先行研究で探究されてきました。これらの先行手法の中には、スケッチ固有の変種も含まれており、写真のエッジマップを生成しています。エッジマップは細かい描画であり、これらのモデルは抽象的なスケッチではなく、洗練されたスケッチに焦点を当てていることを意味しています。 本記事で紹介されている論文は、先行手法とは異なる重要な点を持つスケッチベースの画像から画像への変換に焦点を当てています。この論文の著者によれば、エッジマップでトレーニングされたモデルは、エッジマップとともに高品質の写真を生成することができますが、アマチュアの人間のスケッチでは現実的な結果が得られません。これは、これまでのアプローチが変換中にピクセルの整列を前提としているためです。その結果、生成された結果は個人の描画スキル(または不足)を正確に反映し、非アーティストの場合には劣った結果になります。 したがって、これらのモデルでは訓練を受けていないアーティストは決して満足のいく結果を得ることはありません。しかし、本記事で紹介されている新しいAIアプローチは、スケッチから写真を生成する技術を民主化することを目指しています。 そのアーキテクチャは以下の図に示されています。 https://subhadeepkoley.github.io/PictureThatSketch/ この技術により、スケッチの品質に関係なく、写真のようなリアルなイメージを生成することが可能となります。著者らは、以前のアプローチで見られたピクセル整列のアーティファクトは、エンコーダ-デコーダのアーキテクチャをエンドツーエンドでトレーニングすることから生じると結論付けました。これにより、生成された結果は入力スケッチ(エッジマップ)で定義された境界に厳密に従い、結果の品質が制約されることになります。この問題に対処するために、彼らは分離されたエンコーダ-デコーダのトレーニング方法を導入しました。研究者たちは、StyleGANを写真のみで事前トレーニングし、その後それを凍結しました。これにより、生成された結果はStyleGANの多様体からサンプリングされた写真のようなリアルな品質を持つことが保証されました。 もう一つの重要な側面は、抽象的なスケッチと現実的な写真の間のギャップです。この問題を克服するために、彼らはエンコーダを訓練して、通常の写真ではなく、スケッチの表現をStyleGANの潜在空間にマッピングするようにしました。彼らはグラウンドトゥルースのスケッチ-写真のペアを使用し、入力スケッチと生成された写真の間に新しい細かい識別損失を課し、正確なマッピングを保証するために従来の再構成損失を追加しました。さらに、彼らはスケッチの抽象的な性質を扱うために部分的な認識を意識した拡張戦略を導入しました。これは、完全なスケッチの部分的なバージョンをレンダリングし、部分的な情報のレベルに基づいて潜在ベクトルを適切に割り当てることを含んでいます。 彼らの生成モデルをトレーニングした後、研究者たちはいくつかの興味深い特性を観察しました。生成された写真の抽象度は、予測された潜在ベクトルの数やガウスノイズの追加によって簡単に制御できることがわかりました。また、部分的な認識を意識したスケッチの拡張戦略により、ノイズや部分的なスケッチに対して堅牢性を示しました。さらに、モデルは入力スケッチの抽象化レベルの異なる状況においても良好な汎化性能を示しました。 提案手法と最先端の手法による結果の多様性を以下に報告します。 https://subhadeepkoley.github.io/PictureThatSketch/ これは、抽象的な人間のスケッチから写真のようなリアルなイメージを合成するための新しいAI生成画像対画像モデルの要約でした。もしこの研究に興味があり、さらに詳細な情報を知りたい場合は、以下のリンクをクリックして詳細をご覧いただけます。

AIHelperBotとの出会い 秒単位でSQLクエリを構築する人工知能(AI)ベースのSQLエキスパート

現代のデジタルテクノロジーの魅力的な世界では、人工知能(AI)チャットボットが人々のオンライン体験を向上させます。人工知能チャットボットは、自然言語処理(NLP)を使用して、人間の会話に似た会話をするように訓練されています。NLPにより、AIチャットボットは書かれた人間の言語を理解し、独立して機能することができます。ピザの注文の手助け、特別な問い合わせへの応答、困難なB2Bセールスプロセスの手助けなど、どんなタスクでも対応できます。 これらのユースケースを超えて、フルスタック開発者のLasseは、AIHelperBotをリリースしました。このツールを使うことで、人々や企業はSQLクエリを素早く作成し、生産性を向上させ、新しいSQLのテクニックを身につけることができます。Lasseは、ウェブとモバイルアプリケーションの開発に10年以上の経験を持っています。 SQL Serverの作業は、SQL Server Management Studio(SSMS)の助けを借りることで大幅に簡単になります。多くの機能を持っていますが、SQLクエリを書くことが最も重要な機能の一つです。しかし、SQLクエリの作成には時間がかかることがあり、ユーザーはデータベースのテーブル、列、およびそれらの関係について知っている必要があります。 ここでAIパワードのSQLクエリビルダーが登場します。ユーザーの入力に基づいて、AIHeplerBotはOpenAIを使用してSQLクエリを作成します。クエリの入力は、ユーザーが望む内容の平易な言葉での説明です。AIHelperBotは、その入力にマッチするSQLクエリを生成します。作成されたSQLクエリはフォーマットされ、使用準備が整っています。AIHelperBotは、PostgreSQL、MSSQL、Oracle、MySQL、BigQuery、MariaDBなど、複数のデータベースをサポートしています。 以下のアクションを実行できるようにすることで、AIボットは生産性と他の洞察を向上させます: ユーザーはデータベースのスキーマをエクスポートできます。 AIボットはSQLに精通しています。平易な言葉での単純な発言からSQLクエリを生成します。例えば、「過去3ヶ月間のクライアントとその注文、コメント」といった文を以下のように理解し、翻訳します: ただし、入力には潜在的なデータベースのスキーマに関する情報がほとんど含まれていないため、AIボットはテーブルと列の名前を「推測」する必要があります。 これは依然として難しいクエリの構築や特定のテーブルと列の名前の手動変更のモデルとして役立つことがあります。 カスタムデータベーススキーマを作成する際、データベーススキーマをインポートした後、ユーザーはオートサジェストを使用することができます。これにより、テーブルや列の名前などの重要なメタデータを自然言語の入力に補完することができます。AIボットはデータベーススキーマを理解し、非常に正確なSQLクエリを生成することができます。 ユーザーが提供した自然言語の単語から、AIボットはSQLのJOINステートメントを作成します。通常、AIボットはどのテーブルをJOINし、どのJOINタイプを使用するかを自分で決定します。

画像分類において、拡散モデルがGANより優れていることがAI研究で明らかになりましたこの研究では、BigBiGANなどの同等の生成的識別的手法に比べて、拡散モデルが分類タスクにおいて優れた性能を発揮することが示されました

統一された非教示学習視覚表現の学習は重要でありながらも困難な課題です。多くのコンピュータビジョンの問題は、識別または生成の2つの基本的なカテゴリに分類されます。個々の画像または画像のセクションにラベルを割り当てることができるモデルは、識別表現学習を通じて訓練されます。生成学習を使用する場合、画像を作成または変更し、修復、超解像などの関連する操作を実行するモデルを作成します。統一表現学習者は両方の目標を同時に追求し、最終モデルは識別し、固有の視覚的アーティファクトを作成することができます。このタイプの統一表現学習は困難です。 最初の両方の問題を同時に解決するディープラーニングの手法の1つはBigBiGANです。しかし、より最新の手法の分類および生成のパフォーマンスは、より専門化されたモデルを使用してBigBiGANを上回っています。BigBiGANの主な精度およびFIDの欠点に加えて、エンコーダーによる他の手法と比較してかなり高いトレーニング負荷があり、より遅く、より大きなGANです。 PatchVAEは、VAEのパフォーマンスを認識タスクにおいて改善するために、中間レベルのパッチ学習に集中します。残念ながら、その分類の改善はまだ教示的なアプローチに大きく遅れを取り、画像生成のパフォーマンスも大きく損なわれます。 最近の研究では、監督ありおよび監督なしの両方で生成および分類のパフォーマンスが良い結果を出しています。統一の自己教示学習表現学習は、自己教示画像表現学習の作業の数に比べてまだ探求されている領域です。一部の研究者は、識別モデルと生成モデルは本質的に異なり、それぞれが先行の欠陥のために他方に適した表現ではないと主張しています。生成モデルには、高品質の再構築と作成に低レベルのピクセルおよびテクスチャの特徴を捉える表現が必要です。 一方、識別モデルは、特定のピクセル値ではなく、画像の内容の意味に基づいて荒いレベルでオブジェクトを区別するために主に高レベルの情報に依存しています。しかし、彼らは、モデルが低レベルのピクセル情報に対して傾向を持たなければならないが、分類タスクにも優れたモデルを学習するMAEやMAGEのような現在の技術がBigBiGANの初期の成功を支持していると述べています。最新の拡散モデルも生成の目標を達成するのに非常に成功しています。ただし、その分類の可能性はほとんど活用されず、研究されていません。メリーランド大学の研究者は、ゼロから統一表現学習者を作成する代わりに、最先端の拡散モデル、強力な画像生成モデルが既に強力な分類能力を持っていると主張しています。 図1:アプローチと結果の概要。彼らは、拡散モデルが統一の自己教示画像表現を学習し、生成と分類の両方に優れたパフォーマンスを発揮できることを示唆しています。U-Netブロック番号と拡散ノイズのタイムステップに関する特徴抽出手順を調査します。さらに、さまざまな特徴マップのプーリングサイズについても調査します。線形(A)、多層パーセプトロン(B)、CNN(C)、およびアテンションベースのヘッド(D)など、いくつかの単純な特徴分類アーキテクチャも調査します。 ImageNet-50の凍結された特徴に対してトレーニングされた分類ヘッドの結果は、ブロック番号24およびノイズタイムステップ90で計算され、右側に表示されます。 図1は、これら2つの基本的に異なる課題における彼らの素晴らしい成功を示しています。BigBiGANと比較して、拡散モデルを使用した彼らの戦略は、はるかに優れた画像生成性能とより優れた画像分類性能を生み出します。その結果、拡散モデルは、分類と生成の両方を最適化するための最新の統一の自己教示表現学習者に非常に近いことを示しています。拡散モデルでの特徴の選択は、彼らの主な困難の1つです。ノイズステップと特徴ブロックを選択するのは非常に難しいため、彼らはさまざまな側面の適用可能性を調べ、比較します。これらの特徴マップは、チャンネルの深さと空間解像度に関してもかなり大きい場合があります。 彼らはまた、線形分類層を置き換えるためのいくつかの分類ヘッドを提供しており、これにより生成性能を犠牲にすることなく、またはより多くのパラメータを追加することなく分類結果を向上させることができます。彼らは、適切な特徴抽出を伴った優れた分類子として拡散モデルが分類問題に利用できることを示しています。そのため、彼らの手法は任意の事前学習済み拡散モデルに使用することができ、これらのモデルのサイズ、速度、および画像品質の今後の改善によって利益を得ることができます。拡散特徴の転移学習への有効性も検証され、他のアプローチとの特徴の直接比較も行われています。 彼らは、多くのFGVCデータセットにおけるデータの不足を示したため、ファイングレインドビジュアル分類(FGVC)を下流タスクとして選択し、教師なし特徴の使用を求めるものであり、拡散ベースのアプローチはFGVC転移コンテキストで教師なしアプローチを制限するとされる色不変性の種類に依存しないため、特に関連があります。彼らは、ResNetsとViTsからの特徴と比較するために、よく知られた中心化カーネルアラインメント(CKA)を使用して特徴を比較しています。 彼らの貢献は次のとおりです: • 無条件の画像生成において26.21 FID(BigBiGANに対して-12.37)とImageNet上の線形プロービングにおいて61.95%の精度(BigBiGANに対して+1.15%)を達成し、拡散モデルが統一表現学習として利用できることを示しています。 • 拡散プロセスから最も有用な特徴表現を得るための分析と蒸留のガイドラインを提供しています。 • 分類シナリオでの拡散表現の使用について、アテンションベースのヘッド、CNN、専門のMLPヘッドを標準的な線形プロービングと比較しています。 • さまざまな有名なデータセットを使用して、拡散モデルの転移学習特性をファイングレインドビジュアルカテゴリ化(FGVC)を下流タスクとして検証しています。 • 拡散モデルによって学習された多くの表現を、他のアーキテクチャや事前学習技術、さらには異なるレイヤーや拡散特徴と比較するためにCKAを使用しています。

「圧縮が必要ですか?」

最近公開されたタイトル「低リソース」テキスト分類:圧縮器を使用したパラメータフリーの分類手法[1]という論文は、最近、かなりの注目を集めています...

最終的なDXAネーション

人工知能(AI)と機械学習(ML)は、医療を革新し、私たちを精密医療の時代に導いていますAI健康モデルを開発する動機は、死亡率を減らすことです...

AWSのエミリー・ウェバーによる大規模言語モデルの事前学習について

データサイエンスの中で新しい分野が出現し、その研究はまだ理解しにくい場合、時にはその分野の専門家や先駆者と話すことが最善です最近、私たちはAWSの主任機械学習専門ソリューションアーキテクトであるエミリー・ウェバーと話しました彼女は「Pretrain Vision and Large...」の著者です

「鳩の中に猫を投げ込む?大規模言語モデルによる人間の計算の補完」

「語源学には常に魅了されてきました多くの場合、言葉やフレーズが私たちが非常に馴染んでいる意味を獲得する過程には、興味深いストーリーがあります変化を経て…」

1時間以内に初めてのディープラーニングアプリを作成しましょう

私はもう10年近くデータ分析をしています時折、データから洞察を得るために機械学習の技術を使用しており、クラシックな機械学習を使うことにも慣れています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us