Search Results A

AWS Inferentia2を使用して、安定したディフュージョンのパフォーマンスを最大化し、推論コストを低減します

生成型AIモデルは、最近の数ヶ月間で急速に成長しており、リアルなテキスト、画像、コード、音声の作成能力において印象的な能力を持っていますこれらのモデルの中でも、Stable Diffusionモデルは、テキストのプロンプトに基づいて高品質な画像を作成するというユニークな強みを持っていますStable Diffusionは、[…]を含む様々な高品質な画像を生成することができます

AI ポリシー @🤗 EU AI Act におけるオープンな機械学習の考慮事項

機械学習の皆様と同様に、Hugging FaceでもEU AI Actに注目しています。これは画期的な法律であり、民主的な要素がAI技術開発との相互作用をどのように形成するかを世界中に広めるものです。また、社会のさまざまな要素を代表する組織との広範な協議と作業の結果でもあります。私たちはコミュニティ主導の企業として、このプロセスに特に敏感に取り組んでいます。このポジションペーパーでは、Creative Commons、Eleuther AI、GitHub、LAION、Open Futureとの連携により、オープンなML開発の必要性が法律の目標をサポートする方法についての私たちの経験を共有し、逆に、規制がオープンでモジュラーで協力的なML開発のニーズをより適切に考慮するための具体的な方法を示すことを目指しています。 Hugging Faceは、開発者コミュニティのおかげで今日の地位にあります。そのため、オープンな開発がもたらす効果を直接目にしてきました。より堅牢なイノベーションをサポートし、より多様でコンテキストに応じたユースケースを可能にする場所です。開発者は革新的な新しい技術を簡単に共有し、自分のニーズに合わせてMLコンポーネントを組み合わせ、スタック全体について完全な可視性を持って信頼性のある作業ができます。また、技術の透明性がより責任ある取り組みと包括性をサポートする上での必要な役割にも痛感しており、MLアーティファクトの文書化とアクセシビリティの改善、教育活動、大規模な多学科のコラボレーションのホスティングなどを通じてこれを促進してきました。そのため、EU AI Actが最終段階に向かうにつれて、MLシステムのオープンかつオープンソースな開発の特定のニーズと強みを考慮することが、その長期的な目標をサポートする上で重要になると考えています。共同署名したパートナー組織と共に、以下の5つの推奨事項を提案します： AIコンポーネントを明確に定義することオープンソースのAIコンポーネントの共同開発とパブリックリポジトリでの公開は、開発者をAI Actの要件の対象としないことを明確にすること（パーラメントの文章のRecitals 12a-cとArticle 2(5e)を基に改善すること） AIオフィスの調整と包括的なガバナンスをオープンソースエコシステムと連携させること（パーラメントの文章を基に改善すること）研究開発の例外が実用的かつ効果的であることを確保すること。現実世界の条件での限定的なテストを許可し、理事会の取り組みの一部とパーラメントのArticle 2(5d)の改訂版を組み合わせること「基礎モデル」に対して比例の要件を設定すること。異なる使用方法と開発モダリティを明確に区別し、オープンソースアプローチを含めること。パーラメントのArticle 28bを適用することこれらについての詳細と文脈は、こちらの全文をご覧ください！

「ハッキングされたミツバチがAIを巣に近づける方法」

コンピュータ科学者たちは、ミツバチの脳を分析することによって、新しい形態の意思決定マシンインテリジェンスを開発しました

時系列データのためのPandas

私がデータサイエンティストとして職場に入ってから、私が扱うデータのほとんどは時系列データですまあ、時系列データには多くの定義がありますが、一般的にはデータポイントの集合と定義されています

VoAGIニュース、7月26日：Googleによる無料の生成AIトレーニング•データエンジニアリング初心者ガイド•GPT-Engineer：あなたの新しいAIコーディングアシスタント

「Googleによる無料の生成AIトレーニング • データエンジニアリング初心者ガイド • GPT-Engineer あなたの新しいAIコーディングアシスタント • GPT-4の詳細がリークされました！ • 大規模言語モデルを使用した生成AI ハンズオントレーニング」

NEWS

「AIの力を解き放つ – VoAGIとMachine Learning Masteryによる特別リリース」

「Machine Learning Mastery」とVoAGIのコラボレーションをお知らせいたします私たちの新しい電子書籍『ChatGPTを活用した生産性の最大化』は、あなたの機械学習の旅を豊かにするものです

Partners

「ChatGPTにおける適切なプロンプト設計の必須ガイド」

「Prompt Engineering」に没頭して、急速に成長しているChatGPTユーザーベースに与える影響に焦点を当てた詳細なガイドで、プロンプトエンジニアリングについて探求してみてくださいプロンプトエンジニアリングとは何か、どのようにプロンプトエンジニアになるか、トップの技術やこのトレンドのあるAIキャリアパスの可能性をつかんでください

「AIの画像をどのように保存すべきか？Googleの研究者がスコアベースの生成モデルを使用した画像圧縮方法を提案」

1年前、AIによるリアルな画像生成は夢でした。ほとんどの出力が3つの目や2つの鼻などを持つものであるにもかかわらず、実際の顔に似た生成された顔を見ることに感動しました。しかし、拡散モデルのリリースにより、状況は非常に急速に変化しました。現在では、AIによって生成された画像と本物の画像を区別することが困難になりました。高品質な画像を生成する能力は方程式の一部です。それらを適切に利用するためには、効率的に圧縮することが、コンテンツ生成、データ保存、伝送、および帯域幅の最適化などのタスクにおいて重要な役割を果たします。しかし、画像の圧縮は、変換符号化や量子化技術などの伝統的な手法に主に依存しており、生成モデルの探索は限定的でした。画像生成の成功にもかかわらず、拡散モデルやスコアベースの生成モデルは、画像圧縮の主要な手法としてまだ台頭していません。彼らは、高解像度の画像に関しては、HiFiCなどのGANベースの手法に劣るか同等の結果を示すことが多いです。また、テキストから画像へのモデルを画像圧縮に再利用しようとする試みも、元の入力から逸脱した再構成や望ましくないアーティファクトを含む結果に終わっています。画像生成のタスクにおけるスコアベースの生成モデルの性能と、画像圧縮の特定のタスクにおけるGANを上回ることができないというギャップは、興味深い疑問を提起し、さらなる調査を促しています。高品質な画像を生成できるモデルが、画像圧縮の特定のタスクでGANを上回ることができなかったことは驚きです。この相違点は、スコアベースの生成モデルを圧縮タスクに適用する際に、固有の課題と考慮事項が存在し、その全ポテンシャルを引き出すために専門のアプローチが必要であることを示唆しています。したがって、スコアベースの生成モデルを画像圧縮に使用する可能性があることがわかりました。問題は、どのようにしてそれを実現するかということです。それでは、その答えに入ってみましょう。 Googleの研究者は、標準のオートエンコーダを使用し、平均二乗誤差（MSE）に最適化された拡散プロセスと組み合わせて、オートエンコーダによって破棄された微細なディテールを復元し追加する方法を提案しました。画像のエンコードのビットレートは、拡散プロセスでは追加のビットは必要としないため、オートエンコーダによってのみ決定されます。画像圧縮のために拡散モデルを特に微調整することで、画像の品質に関していくつかの最近の生成アプローチを凌駕することが示されています。提案された方法は、最先端のアプローチと比較して、詳細をより良く保存することができます。出典：https://arxiv.org/pdf/2305.18231.pdf この方法は、拡散モデルと直接関連している2つのアプローチを探求しています。拡散モデルは、サンプリングステップの数が多いほど優れた性能を発揮しますが、サンプリングステップが少ない場合には、修正フローの方が優れたパフォーマンスを発揮します。この2ステップのアプローチは、まずMSEに最適化されたオートエンコーダを使用して入力画像をエンコードし、その後、拡散プロセスまたは修正フローを適用して再構成のリアリズムを高めることで構成されています。拡散モデルは、テキストから画像へのモデルとは逆の方向にシフトされたノイズスケジュールを使用し、グローバルな構造よりも詳細を優先します。一方、修正フローモデルは、オートエンコーダから提供されるペアリングを利用して、オートエンコーダの出力を非圧縮画像に直接マッピングします。提案されたHFDモデルの概要。出典：https://arxiv.org/pdf/2305.18231.pdf さらに、この研究では、この領域での将来の研究に役立つ具体的な詳細が明らかにされました。たとえば、ノイズスケジュールや画像生成時に注入されるノイズの量が結果に大きな影響を与えることが示されています。興味深いことに、高解像度の画像をトレーニングする際には、テキストから画像へのモデルはノイズレベルの増加によって利益を得る一方で、拡散プロセス全体のノイズを減らすことが圧縮に有利であることがわかっています。この調整により、モデルは細部により注力することができ、粗い詳細は既にオートエンコーダの再構築によって十分に捉えられています。

「spacy-llmを使用したエレガントなプロンプトのバージョニングとLLMモデルの設定」

「プロンプトの管理とOpenAIのリクエストの失敗への対処は困難な課題となることがあります幸いなことに、spaCyはspacy-llmをリリースしましたこれは強力なツールであり、プロンプトの管理を簡素化し、... 」

「DreamPose」というAIフレームワークを使用して、ファッション画像を見事な写真のようなビデオに変換します

ファッション写真は、ソーシャルメディアやEコマースのウェブサイトなど、オンラインプラットフォームで広く使われています。しかし、静止画としては、衣類に関する包括的な情報を提供する能力に制限があります。特に、衣類がどのように体にフィットし、動くかという点に関しては限られています。一方、ファッションビデオはより完全かつ没入型の体験を提供し、生地の質感やドレープ、流れる様子など、静止画では難しい重要なディテールを見せることができます。ファッションビデオは、消費者が情報を元に購買の意思決定をする際に貴重なリソースとなります。服の実際の動きをより詳しく見ることで、ショッパーは自身のニーズや好みに合うかどうかをより良く評価することができます。しかしながら、これらの利点にもかかわらず、ファッションビデオは比較的一般的ではなく、多くのブランドや小売業者は主に写真を使用して製品を紹介しています。より魅力的で情報量の多いコンテンツへの需要が増え続ける中、業界全体で高品質なファッションビデオの制作が増えることが予想されます。これらの課題に対処する画期的な方法は、人工知能（AI）から生まれました。その名はDreamPoseであり、ファッション写真をリアルでアニメーション化したビデオに変換する新しいアプローチを提供します。この手法は、Stable Diffusionをベースに構築された拡散ビデオ合成モデルを使用しています。人間の1つまたは複数の画像とそれに対応するポーズシーケンスを提供することで、DreamPoseは被写体のリアルで高忠実度のある動画を生成することができます。そのワークフローの概要は以下のように描かれています。画像から高品質でリアルなビデオを生成するタスクには、いくつかの課題があります。画像拡散モデルは、品質と忠実度の点で印象的な結果を示していますが、同じことはビデオ拡散モデルには言えません。このようなモデルは、単純な動きやカートゥーンのようなビジュアルを生成するにとどまることが多いです。さらに、既存のビデオ拡散モデルには、時間的な一貫性の欠如、モーションの揺れ、現実味の欠如、およびターゲットビデオのモーションに対する制御の限定などの問題があります。これらの制約は、既存のモデルがテキストを主に条件としているため、他の信号（例：モーション）によって細かな制御が提供される場合でも一部原因となっています。一方、DreamPoseは画像とポーズの条件付けスキームを活用して、外観の忠実度とフレーム間の一貫性を向上させています。このアプローチにより、既存のビデオ拡散モデルの多くの制約を克服することができます。さらに、入力された被写体の動きと外観を正確に捉えた高品質なビデオの制作が可能になります。このモデルは、自然画像の分布を効果的にモデリングすることができる事前学習済みの画像拡散モデルからファインチューニングされます。このようなモデルを使用することで、画像のアニメーション化のタスクを、条件付け信号と一致する自然画像の部分空間を特定することにより簡略化することができます。そのために、Stable Diffusionのアーキテクチャが変更され、エンコーダと条件付けメカニズムが再設計され、アラインされた画像と非アラインのポーズの条件付けをサポートするようになっています。さらに、入力画像を使用してUNetとVAEのコンポーネントをファインチューニングする2段階のプロセスが含まれています。このアプローチにより、入力被写体の外観と動きを正確に捉えた、リアルで高品質なビデオの生成にモデルが最適化されます。この論文の著者によって報告された生成結果のいくつかの例が以下の図に示されています。さらに、この図にはDreamPoseと最先端の技術との比較も含まれています。これが、単一の入力画像から写真のようなファッションビデオを合成する画期的なAIフレームワークであるDreamPoseの概要でした。興味がある方は、以下のリンクでこの技術についてさらに学ぶことができます。

Learn more about Search Results A - Page 343