Learn more about Search Results StabilityAI - Page 2

「両方の世界のベスト:人間の開発者とAIの協力者」

「これは、開発者を対象とした生成型AI生産性ツール(例:Github Copilot、ChatGPT、Amazon CodeWhisperer)が構造にどのような影響を与えるかを調査するシリーズの最終パートです...」

「生成モデルを本番環境に展開する際の3つの課題」

OpenAI、Google、Microsoft、Midjourney、StabilityAI、CharacterAIなど、誰もがテキストからテキスト、テキストから画像、画像から画像、画像からテキストへのモデルの最良の解決策を提供するために競争しています...

「Amazon SageMakerを使用して、生成AIを使ってパーソナライズされたアバターを作成する」

生成AIは、エンターテイメント、広告、グラフィックデザインなど、さまざまな産業で創造プロセスを向上させ、加速させるための一般的なツールとなっていますそれにより、観客によりパーソナライズされた体験が可能となり、最終製品の全体的な品質も向上します生成AIの一つの重要な利点は、ユーザーに対してユニークでパーソナライズされた体験を作り出すことです例えば、[…]

Macでの安定したDiffusion XLと高度なCore ML量子化

Stable Diffusion XLは昨日リリースされ、素晴らしいです。大きな(1024×1024)高品質の画像を生成することができます。新しいトリックにより、プロンプトへの適合性が向上しました。最新のノイズスケジューラの研究により、非常に暗いまたは非常に明るい画像を簡単に生成することができます。さらに、オープンソースです! 一方、モデルはより大きくなり、したがって一般的なハードウェアでの実行が遅くなり、困難になりました。Hugging Faceのdiffusersライブラリの最新リリースを使用すると、16 GBのGPU RAMでCUDAハードウェア上でStable Diffusion XLを実行できるため、Colabの無料層で使用することができます。 過去数か月間、人々がさまざまな理由でローカルでMLモデルを実行することに非常に興味を持っていることが明確になってきました。これにはプライバシー、利便性、簡単な実験、または利用料金がかからないことなどが含まれます。AppleとHugging Faceの両方でこの領域を探索するために、私たちは一生懸命取り組んできました。私たちはApple SiliconでStable Diffusionを実行する方法を示したり、Core MLの最新の進化を利用してサイズとパフォーマンスを改善するための6ビットのパレット化を紹介したりしました。 Stable Diffusion XLでは、次のようなことを行いました: ベースモデルをCore MLにポートし、ネイティブのSwiftアプリで使用できるようにしました。 Appleの変換および推論リポジトリを更新し、興味のあるファインチューニングを含むモデルを自分で変換できるようにしました。 Hugging Faceのデモアプリを更新し、Hubからダウンロードした新しいCore ML Stable…

AWS Inferentia2を使用して、安定したディフュージョンのパフォーマンスを最大化し、推論コストを低減します

生成型AIモデルは、最近の数ヶ月間で急速に成長しており、リアルなテキスト、画像、コード、音声の作成能力において印象的な能力を持っていますこれらのモデルの中でも、Stable Diffusionモデルは、テキストのプロンプトに基づいて高品質な画像を作成するというユニークな強みを持っていますStable Diffusionは、[…]を含む様々な高品質な画像を生成することができます

著者たちはAI企業に対して団結し、著作権保護された作品に対する尊重と報酬を求めます

著名な作家、マーガレット・アトウッド、ヴィエット・タン・グエン、フィリップ・プルマンなどの文学の巨匠たちが、人工知能(AI)企業に対し、著作権で保護された彼らの作品を利用する前に許可を求めるよう要求するために一致団結しました。作家のためのアメリカ最大の専門組織であるAuthors Guildがこの取り組みを主導しています。この運動は、OpenAI、アルファベット、メタ、StabilityAI、IBMなどの主要なAI企業に変革を求めるものです。 また読む:OpenAIとMetaが著作権侵害で訴えられる 許可を求める要求 このオープンレターは、約8,000の署名を集め、OpenAIなどのAI企業から3つの重要な要求を提示しています。まず第一に、これらの企業に対し、著作権で保護された作品を利用する前に、明示的な許可を得るように懇願しています。これにより、作家がAIの世界で自身の創造物の使用に対する制御権を保持することができます。 公正な報酬を求めます 第二に、作家たちはAIによる過去および現在の作品の使用に対して公正な報酬を要求しています。文学界におけるAIの成長は、世界中の作家の数え切れないほどの時間と努力によって確立されたものです。したがって、人工知能の発展への貢献に対してこれらの創作者に公正な報酬を支払うことは当然のことです。 「AIの出力は常に派生的な性質を持っています」と、Authors Guildの会長であるマヤ・シャンバグ・ラングは述べています。「AIは取り込んだものを吐き出すだけであり、それは人間の作家の作品です。作家がAIに「餌」を与え続け、その進化を続けることに対して、報酬を受けるのは公平なことです。」 また読む:ハリウッドの脚本家たちはAIツールに対してストライキを行い、「盗作機械」と呼びます 著作権の尊重 第三の要求は、作家がAIの出力で自身の作品を使用する際に公正な報酬を受けることです。これは、これらの出力が現行の著作権法に違反しているかどうかに関わらずです。作家たちは、AIの出力が創造的なコンテンツとその創造主の倫理的な扱いと共存するシステムを作り出すことを目指して、この問題に取り組んでいます。 文学の偉人たちがAIの搾取に対する戦いで一致団結 文学界で人工知能の使用が増えていることに対抗する運動は、大きな勢いを増しています。わずか1か月前、北米の作家モナ・アワッドとポール・トレンブレイの2人がOpenAIに対して著作権法違反を主張して訴訟を起こしました。この法的行動は、作家の創作物が適切な同意と報酬なしに搾取されるべきではないという強力なメッセージをAIコミュニティに送りました。 また読む:バリー・ディラー対生成AI:著作権の法的戦い Society of Authorsが支援を提供 作家のための英国の業界団体であるSociety of Authors(SoA)もこの取り組みを全面的に支持しています。SoAは、Authors Guildのオープンレターやアワッドとトレンブレイの法的努力を完全に支持しています。SoAの最高経営責任者であるニコラ・ソロモンは、同意、クレジット、報酬が知的財産制度の基本的な要素であり、すべての作家が自身の作品を守り、生計を立てる能力を持つことに不可欠であると強調しています。 課題:利益動機と倫理的な影響をバランスさせる 作家たちがAI開発者に影響を与える努力は重要ですが、ニコラ・ソロモンは、より大きな課題に取り組むには多角的なアプローチが必要であると認識しています。大企業の利益動機が主に次世代のAIシステムの構築を推進してきました。その結果、不透明で規制されていない環境が生まれました。そのため、倫理的な考慮事項はしばしば後退し、より強力な監査と保護が必要です。…

AIサージ:Stability AIのCEOは、2年以内にインドの開発者に仕事の喪失を予測します

AIの革命が進む中、世界はその影響に関する潜在的な利益と懸念を目撃しています。AIブームの中で、Stability AIのCEOであるエマド・モスターク氏は、インドの開発者の多くが次の2年以内に仕事を失う可能性があると警告しています。ChatGPTやStabilityAIなどの生成型AIプラットフォームが人気を集める中、企業は自動化を選択し、アウトソーシングされたコーダーが危険にさらされる可能性があります。この予測は、インドのテック産業に重大な影響を与え、アウトソーシングの将来についての疑問を提起しています。エマド・モスターク氏が共有した洞察を探求し、インドのプログラマーへのAIの潜在的な影響について考察してみましょう。 また読む:AIでは代替できない仕事 仕事へのAIの影響:増大する懸念 AIが進化するにつれて、仕事市場への潜在的な影響に対する懸念が高まっています。業界の先駆者たちは、就業に与える潜在的な害やフェイクニュースなどの問題に対処するため、厳格な規制を求めています。AIは数多くの可能性を提供する一方で、雇用にも影響を及ぼします。 また読む:人工知能の急速な台頭が仕事を奪う:数千人がテックセクターで影響を受ける Stability AIのCEO、エマド・モスターク氏の憂慮すべき予測 Stability AIのCEOであるエマド・モスターク氏は、AIの仕事への影響について、特にインドの文脈で警告しています。彼は、ChatGPTやStabilityAIなどの生成型AIプラットフォームを通じて自動化を受け入れる企業によって、多くのアウトソーシングされたインドのプログラマーが近い将来仕事を失う可能性があると警告しています。これらのプラットフォームは特定のシナリオで人間のコーダーを置き換える可能性があります。 また読む:MetaがCodeComposeをリリース- GitHubのCopilotに対するAIパワードの代替手段 生成型AI vs. アウトソーシングされたインドのプログラマー モスターク氏は、生成型AIモデルがコードを生成し、それをレビューする能力を持っており、人間のプログラマーが行う作業を模倣できると指摘しています。企業がこれらのAIパワードの代替手段を探求するにつれて、彼らは少ないコーダーで運営することを選択するかもしれず、アウトソーシングされたインドのプログラマーにとって仕事の削減をもたらす可能性があります。費用効果の高いAIツールの魅力は、従来のアウトソーシングモデルに挑戦しています。 インドにおけるアウトソーシングへの影響 インドは、コスト効果の高い労働力や熟練したプログラマーを求める多国籍企業の中心地となっています。TCS、Infosys、Wiproなどの企業は、同国で有名なアウトソーシングプロバイダーです。しかし、これらの企業が生成型AIツールを試験したり開発したりするにつれて、アウトソーシングのダイナミクスは大きく変わるかもしれません。 詳細はこちら:Diffusion ModelsのワークショップでジェネレーティブAIの無限の世界を開放し、非凡な学びの体験に参加しましょう。 AIの未来:ネットに接続せずに エマド・モスターク氏の先見の明によれば、AIの次のフェーズはインターネットに接続せずに動作し、よりアクセスしやすく多目的になると予測されています。たとえば、2024年までにはChatGPTがインターネットに接続せずに携帯電話で利用できるようになると予想されています。このモバイルAIの拡大は、さまざまな産業に広範な影響を与える可能性があります。 また読む:ChatGPTのコードインタプリター:知っておくべきことすべて 私たちの意見…

Apple SiliconでのCore MLを使用した安定した拡散を利用する

Appleのエンジニアのおかげで、Core MLを使用してApple SiliconでStable Diffusionを実行できるようになりました! このAppleのレポジトリは、🧨 Diffusersを基にした変換スクリプトと推論コードを提供しており、私たちはそれが大好きです!できるだけ簡単にするために、私たちは重みを変換し、モデルのCore MLバージョンをHugging Face Hubに保存しました。 更新:この投稿が書かれてから数週間後、私たちはネイティブのSwiftアプリを作成しました。これを使用して、自分自身のハードウェアでStable Diffusionを簡単に実行できます。私たちはMac App Storeにアプリをリリースし、他のプロジェクトがそれを使用できるようにソースコードも公開しました。 この投稿の残りの部分では、変換された重みを自分自身のコードで使用する方法や、追加の重みを変換する方法について説明します。 利用可能なチェックポイント 公式のStable Diffusionのチェックポイントはすでに変換されて使用できる状態です: Stable Diffusion v1.4:変換されたオリジナル Stable Diffusion v1.5:変換されたオリジナル Stable…

ディフューザを使用してControlNetをトレーニングしてください

イントロダクション ControlNetは、追加の条件を付加することで拡散モデルを細かく制御することができるニューラルネットワーク構造です。この技術は、「Adding Conditional Control to Text-to-Image Diffusion Models」という論文で登場し、すぐにオープンソースの拡散コミュニティで広まりました。著者はStable Diffusion v1-5を制御するための8つの異なる条件をリリースしました。これには、ポーズ推定、深度マップ、キャニーエッジ、スケッチなどが含まれます。 このブログ投稿では、3Dシンセティックフェイスに基づいた顔のポーズモデルであるUncanny Facesモデルのトレーニング手順を詳細に説明します(実際にはUncanny Facesは予期しない結果であり、それがどのように実現されたかについては後ほどご紹介します)。 安定した拡散のためのControlNetのトレーニングの始め方 独自のControlNetをトレーニングするには、3つのステップが必要です: 条件の計画:ControlNetはStable Diffusionをさまざまなタスクに対応できる柔軟性があります。事前にトレーニングされたモデルはさまざまな条件を示しており、コミュニティはピクセル化されたカラーパレットに基づいた他の条件を作成しています。 データセットの構築:条件が決まったら、データセットの構築の時間です。そのためには、データセットをゼロから構築するか、既存のデータセットの一部を使用することができます。モデルをトレーニングするためには、データセットには3つの列が必要です:正解のimage、conditioning_image、およびprompt。 モデルのトレーニング:データセットの準備ができたら、モデルのトレーニングの時間です。これは、ディフューザーのトレーニングスクリプトのおかげで最も簡単な部分です。少なくとも8GBのVRAMを持つGPUが必要です。 1. 条件の計画 条件を計画するために、次の2つの質問を考えると役立ちます: どのような条件を使用したいですか? 既存のモデルで「通常の」画像を私の条件に変換できるものはありますか?…

フリーティアのGoogle Colabで🧨ディフューザーを使用してIFを実行中

要約:Google Colabの無料ティア上で最も強力なオープンソースのテキストから画像への変換モデルIFを実行する方法を紹介します。 また、Hugging Face Spaceでモデルの機能を直接探索することもできます。 公式のIF GitHubリポジトリから圧縮された画像。 はじめに IFは、ピクセルベースのテキストから画像への生成モデルで、DeepFloydによって2023年4月下旬にリリースされました。モデルのアーキテクチャは、GoogleのクローズドソースのImagenに強く影響を受けています。 IFは、Stable Diffusionなどの既存のテキストから画像へのモデルと比較して、次の2つの利点があります: モデルは、レイテントスペースではなく「ピクセルスペース」(つまり、非圧縮画像上で)で直接動作し、Stable Diffusionのようなノイズ除去プロセスを実行しません。 モデルは、Stable Diffusionでテキストエンコーダとして使用されるCLIPよりも強力なテキストエンコーダであるT5-XXLの出力で訓練されます。 その結果、IFは高周波の詳細(例:人の顔や手など)を持つ画像を生成する能力に優れており、信頼性のあるテキスト付き画像を生成できる最初のオープンソースの画像生成モデルです。 ピクセルスペースで動作し、より強力なテキストエンコーダを使用することのデメリットは、IFが大幅に多くのパラメータを持っていることです。T5、IFのテキストから画像へのUNet、IFのアップスケーラUNetは、それぞれ4.5B、4.3B、1.2Bのパラメータを持っています。それに対して、Stable Diffusion 2.1のテキストエンコーダとUNetは、それぞれ400Mと900Mのパラメータしか持っていません。 しかし、メモリ使用量を低減させるためにモデルを最適化すれば、一般のハードウェア上でもIFを実行することができます。このブログ記事では、🧨ディフューザを使用してその方法を紹介します。 1.)では、テキストから画像への生成にIFを使用する方法を説明し、2.)と3.)では、IFの画像バリエーションと画像インペインティングの機能について説明します。 💡 注意:メモリの利得と引き換えに速度の利得を得るために、IFを無料ティアのGoogle Colab上で実行できるようにしています。A100などの高性能なGPUにアクセスできる場合は、公式のIFデモのようにすべてのモデルコンポーネントをGPU上に残して、最大の速度で実行することをお勧めします。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us