Search Results Pi

「クリエイティブな超能力を持つPix2Pixの解放 – 画像の変換」

イントロダクション子供が描く絵を生き生きとしたイメージに変える特別なコンピュータプログラムを想像してみてください。子供たちが描くカラフルで想像力に溢れる絵を、まるで魔法のように本物のようなイメージに変換できるのです！それが「Pix2Pix」と呼ばれるプログラムです。カードのデッキで素晴らしいトリックを披露するマジシャンのように、Pix2Pixは絵に関して素晴らしいことを成し遂げるのです。Pix2Pixはコンピュータが画像を理解し、処理する方法に大きな変化をもたらしました。それによって、作成される画像について細かい制御ができるようになります。まるで画像を作成したり変更したりするための超能力のようです！出典: X.com 学習目標 Pix2Pixが何か、どのように機能し、実際の世界での応用を探求することを学ぶ Pix2Pixを使用して、建物の正面データセットを使用して絵を写真に変換してみる Pix2Pixの動作や問題解決に対する実装の理解と、画像から画像への変換タスクが直面している問題をどのように解決するかの理解本記事はデータサイエンスブログマラソンの一環として公開されました。一般対抗ネットワーク（GAN）人工知能の中で最もエキサイティングな最近の発明の一つが、生成的対抗ネットワークまたはGANです。これらの強力なニューラルネットワークは、画像、音楽、テキストなどを含む新しいコンテンツを作成できます。GANは、生成器（コンテンツを作成する）と識別器（作成されたコンテンツを判断する）の2つのニューラルネットワークで構成されています。生成器はコンテンツの作成に責任を持ちます。ランダムなノイズやデータから始め、それを徐々に意味のあるものに洗練させます。例えば、画像生成では、ゼロから画像を作成することができます。ランダムなピクセル値を調整して美しい本物の画像に似せることから始めます。識別器の役割は、生成器が作成したコンテンツを評価することです。コンテンツが本物か偽物かを判断します。より多くのコンテンツを調べ、生成器にフィードバックを提供することで、訓練が進むにつれて識別器はますます向上します。出典: Neptune.ai GANの教育プロセス全体は、対抗トレーニングと呼ばれています。非常に理解しやすいものです。生成器は最初は完全ではないコンテンツを作成します。識別器はコンテンツを評価します。すなわち、本物と偽物を区別しようとします。生成器は識別器からフィードバックを受け取り、より信じられるようにコンテンツを調整します。こうして、前よりも良いコンテンツを提供します。生成器の改善に応じて、識別器は偽物のコンテンツを検出する能力を向上させます。このようにして、対抗トレーニングが続き、GANはますます強力になります。 Pix2Pix 画像の変換と操作の概念は、従来の画像処理技術から始まりました。これには画像のリサイズ、色補正、フィルタリングなどが含まれます。ただし、これらの従来の方法は、画像から画像への変換などのより複雑なタスクには限界がありました。機械学習、特にディープラーニングは、画像変換の分野で革命をもたらしました。最近では、CNNs（畳み込みニューラルネットワーク）は画像処理タスクの自動化に重要な役割を果たしています。しかし、生成的対抗ネットワーク（GANs）の開発は、画像から画像への変換における重要な成果を意味しました。 Pix2Pixは、画像翻訳タスクに使用されるディープラーニングモデルです。Pix2Pixの核となるアイデアは、一つのドメインからの入力画像を他のドメインで対応する出力画像を生成することです。つまり、一つのスタイルから別のスタイルへの画像変換を行います。このアプローチは条件付きGANと呼ばれます。Pix2Pixは、入力画像が生成器を条件付ける条件付き形式のGANアーキテクチャを活用しています。条件に基づいて出力が生成されます。出典: Phillipi 条件付き生成敵対ネットワーク（CGAN）は、生成された画像に対して正確な制御を可能にするGANフレームワークの高度なバージョンであり、特定のカテゴリの画像を生成することができます。Pix2Pix GANは、別の与えられた画像の存在に依存する画像の生成プロセスを持つCGANの一例です。画像では、pix2pixが作成した驚異を見ることができます。私はラベルからストリートシーン、ラベルからファサード、白黒からカラー、空中写真から実地図、昼の写真から夜景、エッジに基づいた写真などを作成できます。画像から画像への変換の課題画像から画像への変換は、特に目標が一つのドメインから別のドメインの画像に変換することで、内容と構造を慎重に保持する場合には、困難なコンピュータビジョンのタスクです。画像から画像への変換の課題は、入力と出力のドメイン間の複雑な関係を捉えることにあります。この問題への画期的な解決策の一つはPix2Pixです。…

Google MapsのAir Quality APIから大気汚染データを取得するためのPythonツール

2023年8月、GoogleはマッピングAPIのリストに、空気品質サービスの追加を発表しましたそれについての詳細はこちらでお読みいただけますこの情報は現在、内部からも利用できるようになったようです

「AIの透明性を解き放つ：Anthropicのフィーチャーグルーピングがニューラルネットワークの解釈可能性を向上させる方法」

最近の論文「Towards Monosemanticity: Decomposing Language Models With Dictionary Learning」では、研究者が、特に言語モデルと呼ばれる複雑なニューラルネットワークの理解の課題に取り組みました。これらのモデルは、さまざまなアプリケーションで使用されるようになっています。彼らが解決しようとした問題は、これらのモデル内の個々のニューロンのレベルでの解釈可能性の欠如であり、個別のコンポーネントに焦点を当てて全体のネットワークの動作を完全に理解することが困難になっていることです。ニューラルネットワークを解釈するための既存の手法やフレームワークについて議論され、その多義性のために個々のニューロンを分析する際の制約が強調されました。ニューロンはしばしば見かけ上関連性のない入力の混合に反応するため、個々のコンポーネントに焦点を当てることでネットワーク全体の動作について理論的な推論をするのは困難です。研究チームは、この課題に取り組むための新しいアプローチを提案しました。彼らは、学習済みのニューラルネットワークモデルから解釈可能な特徴を生成するために、スパースオートエンコーダーという弱い辞書学習アルゴリズムを活用するフレームワークを導入しました。このフレームワークは、個々のニューロンよりも理解しやすく分析しやすいより一義的なユニットをネットワーク内で特定することを目指しています。論文では、提案手法の詳細な説明がなされており、スパースオートエンコーダーが、512ニューロンのMLP層を持つ1層のトランスフォーマーモデルを解釈可能な特徴に分解するためにどのように適用されるかが詳細に説明されています。研究者は、自身の手法の有効性を検証するために大規模なデータセットでモデルをトレーニングし、包括的な分析と実験を行いました。彼らの研究成果は、論文のいくつかのセクションで発表されました： 1. 問題の設定：論文では、研究の動機を概説し、彼らの研究で使用されるニューラルネットワークモデルとスパースオートエンコーダーについて説明しています。 2. 個別の特徴の詳細な調査：研究者は、特徴がニューロンとは異なる機能的に特定された因果関係のあるユニットであることを裏付ける証拠を提供しました。このセクションでは、彼らの手法の存在証明となりました。 3. グローバル分析：論文は、典型的な特徴が解釈可能であり、MLP層の重要な一部を説明することを主張し、彼らの手法の実用性を実証しました。 4. 現象論：このセクションでは、特徴の分割、普遍性、および「有限オートマトン」に似た複雑なシステムを形成する方法など、さまざまな特徴の特性が説明されます。研究者はまた、特徴の包括的な可視化も提供し、その発見の理解を深めました。結論として、スパースオートエンコーダーはニューラルネットワークモデルから解釈可能な特徴を抽出することができ、個々のニューロンよりも理解しやすくなります。このブレークスルーにより、大規模な言語モデルの文脈では特に、モデルの振る舞いを監視し調整することが可能となり、安全性と信頼性が向上することが期待されます。研究チームは、この手法をより複雑なモデルにさらに拡大する意向を示し、そのモデルの解釈は科学的な問題ではなく、むしろエンジニアリング上の課題となっていることを強調しています。

Deep Learningのマスタリング：Piecewise推定による非線形近似の技術パート2

皆さん、こんにちは！「マスタリング深層学習シリーズ」の第2回目へようこそこの記事は、第1回目の続編であり、タイトルは『非線形の近似の技術』と題しています...

「PIXART-αに会ってください：画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」

テキストから画像への変換（T2I）生成モデルであるDALLE 2、Imagen、Stable Diffusionの開発により、フォトリアルな画像合成の新時代が始まりました。これは、写真編集、ビデオ制作、3Dアセットの作成などを含む多くの下流アプリケーションに大きな影響を与えています。ただし、これらの洗練されたモデルは大きな処理能力を要求します。たとえば、SDv1.5のトレーニングには6K A100 GPU日が必要で、コストは約$320,000です。より最新の大きなモデルであるRAPHAELの場合、さらに60K A100 GPU日が必要であり、コストは約$3,080,000です。また、トレーニングにより環境に負荷がかかるため、大量のCO2排出物を生み出します。たとえば、RAPHAELのトレーニングでは35トンのCO2排出物が生じます。これは、図1に示すように、一人が7年間に排出するCO2量と同じです。図1： T2Iの生産者間でのCO2排出量とトレーニングコストの比較がここで示されています。PIXART-αのトレーニングには驚異的な$26,000がかかります。ただし、私たちのCO2排出量とトレーニング費用はRAPHAELよりもわずかに1.1％と0.85％少ないです。このような高価格は、研究コミュニティや企業の両方におけるこれらのモデルの入手に大きな制約をもたらし、AIGCコミュニティの重要な進展を大幅に妨げています。このような困難に関して重要な問いが提起されています：リソース使用を管理可能なレベルにおいて、高品質の画像生成器を作成できるのでしょうか？華為ノアズアークラボ、大連理工大学、香港大学、香港科技大学の研究者は、PIXART-αを提案しました。それは、最新の最先端画像生成器と競争力のある画像生成品質を保ちながら、トレーニングの計算要件を劇的に低減します。それには、次の3つの主な設計が含まれます：自然画像のピクセルの分布を学習することテキストと画像の整合性を学習すること画像の美的魅力を向上させること彼らは、最初のサブタスクであるピクセルの分布の学習コストを著しく低減するために、T2Iモデルを低コストのクラス条件モデルで初期化することを提案しています。彼らは、2番目と3番目のサブタスクのための事前トレーニングと微調整で構成されるトレーニングパラダイムを提供します。高い情報密度を持つテキスト-イメージペアデータでの事前トレーニングに続いて、より美的品質の高いデータでの微調整を行い、トレーニングの効果を高めます。その他、T2Iトランスフォーマーという効率的なモデルの提供。彼らは、テキスト条件を注入するためにクロスアテンションモジュールを使用し、計算の要求が高いクラス条件ブランチの単純化をDiffusion Transformer（DiT）に基づいて行います。さらに、変更したテキストから画像へのモデルにオリジナルのクラス条件モデルのパラメータを直接インポートできる再パラメータ化方法を提案しています。これにより、T2Iトランスフォーマーには受け入れ可能な初期化が可能になり、トレーニングを加速するためにImageNetの自然な画像分布の過去の知識が活用されます。高品質な情報。彼らの研究では、既存のテキスト-イメージペアデータセットに重要な欠陥があることが明らかになっています（例：LAION）。テキストのキャプションは、非常に低頻度で数多くの名詞が現れる重いロングテール効果や、画像内のオブジェクトの一部しか記述していない情報の欠如などの問題を抱えています。これらの欠点は、T2Iモデルのトレーニングの効果を大幅に低下させ、信頼性のあるテキスト-イメージの整合性を得るために何百万回もの反復が必要とされます。彼らは、これらの問題を克服するために、最も先進的なビジョン言語モデルを使用して自動ラベリングパイプラインを提案しています。 SAMデータセットは大きく多様なオブジェクトのコレクションを持つという利点があり、情報密度の高いテキスト-イメージのペアを生成するための理想的なソースです。彼らの巧妙な機能により、モデルのトレーニングは非常に効率的に行われ、675 A100 GPU日と$26,000のみで済みます。図1は、彼らの手法がImagenよりも少ないトレーニングデータ量（0.2％ vs Imagen）とトレーニング時間（2％ vs RAPHAEL）を使用し、RAPHAELの1％程度のトレーニング費用（$3,080,000の代わりに$26,000）を削減する方法を示しています。世代品質に関しては、PIXART-αは現在のSOTA…

「大規模言語モデルの品質をどのように向上させることができるのか？ PIT：暗黙の自己改善フレームワークに会ってください」

LLMは、数学的な推論、要約、会話、スキーマの導出、ドメイン固有の問題解決など、さまざまな複雑なタスクで最先端の結果を達成しています。LLMの成功は、指示に従い人間の選好に合わせる能力にかかっています。ただし、制限もあり、誤った情報や推論エラーや有用でないコンテンツを生成することがあります。 LLMのパフォーマンスを向上させるためには、自己改善を可能にする手法が提案されています。LLMのパフォーマンスを向上させる伝統的な手法は、人間の注釈を通じてより多様で高品質なトレーニングデータを収集することで、特に専門分野の場合にはリソースを消費します。プロンプトベースの手法は、効果的で効率的かつ便利なため人気がありますが、複雑な改善目標に対して作成するのが困難で高価な詳細な指示書が必要です。この課題に対応するため、イリノイ大学アーバナ・シャンペーン校とGoogleの研究者は、「暗黙の自己改善（PIT）フレームワーク」を提案しています。PITは、明示的な指示書を必要とせずにLLMが人間の選好データから改善目標を学習することを可能にするものです。PITは報酬モデルを訓練するための選好データを活用し、追加の人的な努力やデータ収集の必要性を排除します。PITの核心的な考え方は、人間のフィードバックに基づく強化学習のトレーニング目的を再構築することです。つまり、与えられた入力に対して応答品質を最大化するのではなく、応答と参照応答の品質の差を最大化し、人間の選好により合わせることです。研究者は、PITのパフォーマンスをプロンプトベースの手法と比較するために実世界のデータセットや合成データセットで実験を行いました。その結果、PITは応答品質の向上においてプロンプト戦略よりも有意に優れていることが示されています。 PITは自己改善においてプロンプトを使用する「Self-Refine」メソッドよりも優れています。ただし、評価方法（人間の評価、第三者の言語モデル、報酬モデルなど）によって改善度合いは異なるものの、PITは常に実験で優れた結果を示しています。この研究では、自己改善手法における温度設定の影響も探究されており、PITでは低温度がより良い結果をもたらすことが示されています。一方、高温度はSelf-Refineに適しています。さらに、カリキュラム強化学習と改善反復の回数の重要性も調査され、実用的なアプリケーションにおいて停止条件を慎重に考慮する必要性が強調されています。まとめると、暗黙の自己改善PITフレームワークは、大規模言語モデルのパフォーマンス向上のための有望な手段を提供しています。人間の選好データから改善目標を学習することにより、PITは従来のプロンプト手法の制限に対処し、さまざまなデータセットや状況でLLMの応答品質を向上させる効果を示しています。

「Amazon SageMaker Canvas UIとAutoML APIを使用して、時系列の予測を最大50%高速化しましょう」

私たちは、Amazon SageMaker Canvasがタイムシリーズ予測のための機械学習モデルをより迅速かつ使いやすい方法で作成できることをお知らせできることを嬉しく思っていますSageMaker Canvasは、ビジネスアナリストが正確な機械学習（ML）モデルを生成するためのビジュアルなポイントアンドクリックサービスであり、機械学習の経験がなくてもコードを一行も書かずに利用できますSageMaker [...]

「動きのあるAIトレンドに対応するAPI戦略の適応」

AIは最近注目を集めていますこの記事では、APIを使用して製品を開発している私たちにとって、AIのトレンドがどういう意味を持つのかを探求します

「推論APIを使用してAIコミックファクトリーを展開する」

最近、私たちは「PROsのための推論」という新しいオファリングを発表しました。これにより、より広範なユーザーがより大規模なモデルを利用することが可能になります。この機会が、Hugging Faceをプラットフォームとして使用してエンドユーザーアプリケーションを実行する新たな可能性をもたらします。そのようなアプリケーションの例としては、「AIコミック工場」があります。これは非常に人気があります。数千人のユーザーがAIコミックパネルを作成するために試しており、独自のコミュニティも形成されています。彼らは自分の作品を共有し、いくつかはプルリクエストを公開しています。このチュートリアルでは、AIコミック工場をフォークして設定し、長い待ち時間を避け、推論APIを使用して独自のプライベートスペースに展開する方法を紹介します。高い技術的スキルは必要ありませんが、API、環境変数の知識、そしてLLMsとStable Diffusionの一般的な理解が推奨されます。はじめにまず、PRO Hugging Faceアカウントにサインアップして、Llama-2とSDXLモデルへのアクセス権を取得する必要があります。 AIコミック工場の仕組み AIコミック工場は、Hugging Face上で実行される他のスペースとは少し異なります。それはNextJSアプリケーションで、Dockerを使用して展開され、クライアント-サーバーアプローチに基づいています。2つのAPIが必要です: 言語モデルAPI（現在はLlama-2） Stable Diffusion API（現在はSDXL 1.0）スペースの複製 AIコミック工場を複製するには、スペースに移動し、「複製」をクリックします: スペースの所有者、名前、可視性がすでに入力されていることに気付くでしょう。そのままで構いません。スペースのコピーは、リソースを多く必要としないDockerコンテナ内で実行されますので、最小のインスタンスを使用できます。公式のAIコミック工場スペースは、多くのユーザーベースを対象としているため、より大きなCPUインスタンスを使用しています。 AIコミック工場を自分のアカウントで操作するには、Hugging Faceトークンを設定する必要があります: LLMとSDエンジンの選択…

Learn more about Search Results Pi - Page 6