Learn more about Search Results Yi - Page 48

LLMツールはソフトウェアの脆弱性を発見し、修復します

ソフトウェア会社Vicariusは、先月のBlack Hat USAカンファレンスで、ソフトウェアの脆弱性を自動的に特定および修復する生成型人工知能ツール「vuln_GPT」を発表しました

『Photoshopを越えて:Inst-Inpaintが拡散モデルでオブジェクト除去を揺るがす』

画像修復は古代の技術です。それは画像から不要なオブジェクトを削除し、欠落しているピクセルを埋めることで、完成した画像が現実的な外観を持ち、元のコンテキストに従うようにするプロセスです。画像修復の応用は多岐にわたり、画像から望ましくないオブジェクトを除去して美学やプライバシーを向上させる、古いまたは損傷した写真の品質とクラリティを向上させる、画像のギャップや穴を埋めることにより欠落した情報を補完する、芸術的な効果を生成することにより創造性やムードを表現するなどのタスクが含まれます。 インストラクション画像修復またはインストラクション画像修復は、画像とテキストの指示を入力として、前述のように不要なオブジェクトを自動的に削除する手法が紹介されました。上の画像は、Inst-Inpaintのサンプル結果での入力と出力を示しています。ここでは、最新の拡散モデルを使用してこれが行われています。拡散モデルは、ノイズを代表的なデータサンプルに変換する確率的生成モデルの一種であり、生成AIにおいて高品質な画像を得るためにコンピュータビジョンで広く使用されています。 研究者はまず、提案されたインストラクション画像修復のジョブのための実世界の画像データセットであるGQA-Inpaintを構築し、モデルをトレーニングおよびテストしました。入力/出力のペアを作成するために、GQAデータセットの画像とそのシーングラフを利用しました。この提案手法は以下の手順で行われます: 興味のあるオブジェクトを選択する(削除するオブジェクト)。 インスタンスセグメンテーションを実行して、画像内のオブジェクトを特定する。 次に、最先端の画像修復手法を適用してオブジェクトを消去する。 最後に、削除操作を説明するテンプレートベースのテキストプロンプトを作成する。その結果、GQA-Inpaintデータセットには147165のユニークな画像と41407の異なる指示が含まれています。このデータセットでトレーニングされたInst-Inpaintモデルは、ユーザー指定のバイナリマスクを必要とせず、マスクを予測せずにオブジェクトを一度に削除する、条件付き潜在拡散モデルに基づくテキストベースの画像修復手法です。 注目すべき詳細の1つは、画像がx軸に沿って3つの等しいセクションに分割され、「left」、「center」、「right」と名付けられていることです。また、画像内のオブジェクトを識別するために「テーブルの上に」といった自然な名前や「場所」が使用されています。研究者は、GANおよび拡散ベースのベースラインを評価するために、CLIPベースの画像修復スコアなど、数多くの指標を使用して実験の結果を比較し、量的および質的な改善を実証しました。 人間の創造性と人工知能の境界が絶えず曖昧になる急速に変化するデジタルの風景において、Inst-Inpaintは画像操作におけるAIの変革的な力を証明しています。これにより、テキスト指示を使用して画像修復を行うための多くの可能性が開かれ、再びAIが人間の脳に近づいています。

「正しい方法で新しいデータサイエンスのスキルを学ぶ」

「私たちは学習曲線を整然とした滑らかな上昇線と考える傾向がありますしかし、学習の旅をよく見ると、途中には数多くの下降や停滞期があることがわかります...」

「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers(DiTs)」

機械学習の領域は、トランスフォーマーベースのアーキテクチャの出現により、自然言語処理、コンピュータビジョンなどの各種タスクを革新的に変革しました。しかし、画像レベルの生成モデルである拡散モデルには、依然として注目すべきギャップが存在し、これらのモデルは主に畳み込みU-Netアーキテクチャに従っています。 他のドメインがトランスフォーマーを採用しているのに対し、拡散モデルはまだこれらの強力なアーキテクチャを統合していません。この問題に取り組むため、ニューヨーク大学の研究者はDiffusion Transformers(DiTs)という革新的なアプローチを導入しており、従来のU-Netバックボーンをトランスフォーマーの機能で置き換えることで、拡散モデルのアーキテクチャにおける既存の慣習に挑戦しています。 現在、拡散モデルは洗練された画像レベルの生成モデルとなっていますが、依然として畳み込みU-Netに依存しています。この研究では、Vision Transformers(ViTs)の原則に基づき、拡散モデルにトランスフォーマーを統合するという画期的なコンセプトを紹介しています。この移行により、U-Netデザインの制約を超えた構造変換が推進され、拡散モデルがより広範なアーキテクチャのトレンドに合致し、拡張性、堅牢性、効率性を向上させることが可能になりました。 DiTsはVision Transformers(ViTs)アーキテクチャに基づいており、拡散モデルの設計に新たなパラダイムを提供しています。このアーキテクチャには、空間入力をトークンシーケンスに変換する「パッチ」というキーコンポーネントが含まれています。DiT-SからDiT-XLまでのさまざまなモデルサイズとともに、条件付き情報を処理するDiTブロックのバリアント、および「インコンテキストコンディショニング」、「クロスアテンションブロック」、「適応的レイヤーノルム(adaLN)ブロック」、「adaLNゼロブロック」も含まれています。これらのブロックデザインとモデルサイズのバリエーションは、強力な拡散モデルの設計に対する柔軟なツールキットを構成しています。 https://arxiv.org/abs/2212.09748 実験フェーズでは、さまざまなDiTブロックデザインのパフォーマンスを評価しています。異なるブロックデザインを採用した4つのDiT-XL/2モデルが訓練され、FIDスコアを基準としてadaLN-zeroブロックデザインの一貫した優越性が示され、その計算効率性と条件付けメカニズムのモデル品質への重要な役割が示されました。この発見は、adaLN-zeroの初期化方法の効果を強調し、さらなるDiTモデルの探索におけるadaLN-zeroブロックの採用に影響を与えました。 https://arxiv.org/abs/2212.09748 さらなる探索では、モデルサイズとパッチサイズを操作してDiT構成をスケーリングします。視覚化により、計算能力の拡張によって達成された画質の大幅な向上が示されます。この拡張は、トランスフォーマーの次元を拡張するか、入力トークンを増やすことによって実行することができます。モデルのGflopsとFID-50Kスコアのロバストな相関関係は、計算リソースがDiTのパフォーマンス向上において重要であることを強調しています。ImageNetデータセットの256×256および512×512の解像度で既存の拡散モデルに対してDiTモデルをベンチマークテストすることにより、説得力のある結果が明らかになりました。DiT-XL/2モデルは、両方の解像度のFID-50Kスコアで既存の拡散モデルを一貫して上回り、その堅牢なパフォーマンスは、DiTモデルがさまざまなスケールでの拡張性と柔軟性を持っていることを強調しています。さらに、この研究はDiT-XL/2モデルの固有の計算効率性を強調し、現実世界のアプリケーションにおける実用的な適用性を示しています。 結論として、Diffusion Transformers(DiTs)を導入することは、生成モデルの革新的な時代を告げるものです。トランスフォーマーの力を拡散モデルと融合することにより、DiTsは従来のアーキテクチャの常識に挑戦し、研究と実世界の応用において有望な道を提供します。包括的な実験と結果は、DiTsが画像生成の領域を前進させる潜在能力を強調し、先駆的なアーキテクチャのイノベーションとしての位置を明確にします。DiTsが画像生成の領域を再構築し続ける中で、トランスフォーマーとの統合は、異なるモデルアーキテクチャを統一し、さまざまなドメインでのパフォーマンス向上に向けた注目すべき一歩となります。

「spaCyを使用したNLPパイプラインの強化」

はじめに spaCyは、自然言語処理(NLP)のためのPythonライブラリです。spaCyを使用したNLPパイプラインは無料でオープンソースです。開発者は、Cythonのように情報抽出や自然言語理解システムを作成するためにそれを使用します。このツールは、コンパクトで使いやすいAPIを持つ製品のために使用します。 テキストを大量に扱う場合は、それについてもっと学びたいと思うでしょう。例えば、それは何についてですか?どの文脈で用語は意味を持ちますか?誰に対して何が行われていますか?どのビジネスや商品が言及されていますか?どのテキストが互いに比較できますか? spaCyは、本番使用を想定しており、膨大な量のテキストを処理して「理解」するアプリケーションの開発を支援します。情報抽出システム、自然言語解釈、深層学習のためのテキストの前処理など、さまざまなタスクに対応できます。 学習目標 トークン化、品詞タグ付け、固有名詞の識別など、spaCyの基礎を学ぶ。 効率的かつ高速なテキスト処理アーキテクチャであるspaCyのテキスト処理アーキテクチャを理解し、大規模なNLPジョブに適している。 spaCyでは、NLPパイプラインを探索し、特定のタスクに特化したカスタムパイプラインを作成できます。 ルールベースのマッチング、構文解析、エンティティリンクなど、spaCyの高度な機能を探索する。 spaCyで利用可能な多数の事前学習済み言語モデルについて学び、さまざまなNLPアプリケーションでそれらを利用する方法を学ぶ。 spaCyを使用してテキスト内のエンティティを識別し、分類するための固有名詞認識(NER)戦略を学ぶ。 この記事は、データサイエンスブログマラソンの一環として公開されました。 統計モデル 一部のspaCyの機能は自律的に機能しますが、他の機能は統計モデルのロードが必要です。これらのモデルにより、spaCyは単語が動詞か名詞かを決定するなど、言語の注釈を予測することができます。現在、spaCyはさまざまな言語の統計モデルを提供しており、それらを個別のPythonモジュールとしてインストールすることができます。通常、以下の要素を組み込んでいます: 品詞タガー、依存パーサー、固有名詞認識器に対してバイナリの重みを割り当てることで、それらの注釈を文脈で予測します。 語彙中の形態素とその文脈に依存しない特徴(形式や綴りなど)を含む語彙項目。 レンマ化のルールやルックアップテーブルなどのデータファイル。 単語の多次元の意味表現である単語ベクトルで、単語間の類似性を特定することができます。 モデルのロード時に、言語や処理パイプラインの設定などの設定オプションを使用してspaCyを適切な状態にすることができます。 モデルをインポートするには、以下のようにspacy.load(‘モデル名’)を実行します: !python -m spacy download…

「本当にあのキノコを食べるべきか?」

ほとんどの教育的および現実世界のデータセットにはカテゴリカルな特徴が含まれています今日は、カテゴリカルな特徴にネイティブサポートを提供するCatBoostライブラリからグラディエントブースティング決定木についてカバーします...

「AIプロジェクトはどのように異なるのか」

「私はよく見込み客から人工知能(AI)ソフトウェアのプロセスを説明するように求められます最近では、ソフトウェア開発とデータサイエンスの広範な知識を持つマネージャーからも質問を受けました...」

X / Twitterでお金を稼ぐ方法

X(別名Twitter)は、クリエイターに広告収益の一部を支払い始めましたここでは、その一部を手に入れる方法を紹介します

MLOpsとは何ですか

MLOpsは、機械学習(ML)モデルを信頼性と効率を持って本番環境に展開し、保守するための一連の手法と技術ですしたがって、MLOpsは機械学習、DevOps、および...の交差点です

「なぜOpenAIのAPIは英語以外の言語に対してより高価なのか」

「OpenAIのAPIの費用を見積もる方法について最近記事を公開した後、他の場所でOpenAIのAPIがはるかに高価であることに気付いたという興味深いコメントをいただきました...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us