Learn more about Search Results MarkTechPost - Page 15

このAI論文は、「GREAT PLEA」倫理的フレームワークを提案しています:医療における責任あるAIのための軍事に焦点を当てたアプローチ

ピッツバーグ大学、ウェル・コーネル・メディシン、テレメディシン&先進テクノロジー研究センター、統合失調症(USU)、ブルック陸軍医療センター、およびピッツバーグ医療センターの研究者グループは、特に透明性、バイアスモデリング、倫理的意思決定に焦点を当てた、保健医療における創発AIの倫理的原則を調査しました。 彼らはGREAT PLEA原則と呼ばれるフレームワークを提案しました。これは、ガヴァナビリティ、リライアビリティ、エクイティ、アカウンタビリティ、トレーサビリティ、プライバシー、法的性質、共感、およびユートニカを表しています。 フレームワークは、創発AIの統合から生じる倫理的ジレンマに対処するために、これらの原則の積極的な採用と拡大を提唱しています。 この研究では、軍事と医療の共通した迅速な意思決定の必要性を強調しながら、医療における創発AIの変革的な可能性を探求し、透明性やバイアスなどの倫理的懸念に注目しています。 また、軍事倫理に触発された実践的な枠組みを紹介しており、創発AIを医療に統合する際の倫理的な課題に対処するために、ガヴァナンス、公平さ、および意思決定プロセスにおける共感を重視しています。 軍事や医療を含むさまざまな分野でAIの役割が拡大していることは、倫理的考慮の必要性を強調しています。 この研究では、米国国防総省とNATOが軍事AIの倫理を公開したことを指摘しています。 また、臨床部門の代替案など、医療におけるAIの影響を探求し、創発AIの変革的な可能性に焦点を当てています。 医療における創発AIのための特定の倫理的原則の欠如を強調しています。 軍事と医療部門でのAIの優先事項の収束が強調されています。 この研究では、医療における創発AIのために軍事に触発された倫理的原則を提案しています。 研究者は、ガヴァナビリティ、リライアビリティ、エクイティ、アカウンタビリティ、トレーサビリティ、プライバシー、法的性質、共感、およびユートニカなどの問題に対処するためのGREAT PLEA原則を作成するために、軍事と医療の倫理的な懸念を対比させています。 研究者は、医療における創発AIシステムについて、エンドユーザーにその能力と限界の認識を確保するための教育の重要性を強調し、透明性と文書化を重視しています。 さらに、研究チームは、患者ケアの改善と同時に、人間の創造性、生産性、問題解決能力の向上の道徳的意義も強調しています。 まとめると、この研究では、創発AIを医療に組み込むために、軍事に触発された「GREAT PLEA」という倫理的原則のセットを提案しています。 このフレームワークは、透明性、文書化、およびトレーサビリティの重要性を強調し、医療実践における信頼性を向上させ、倫理基準を維持するものです。 エンドユーザーへの教育と創発AIにおける倫理的な課題に積極的に取り組むことによって、患者ケアの改善を図ることが重要です。 この記事の元の投稿はこちらからご覧いただけます。また、MarkTechPostでご覧いただけます。

「CMU研究者がDiffusion-TTAを発表:類まれなテスト時間適応のために生成的フィードバックで識別的AIモデルを高める」

拡散モデルは、複雑なデータ分布から高品質なサンプルを生成するために使用されます。識別的な拡散モデルは、教師あり分類や回帰のようなタスクにおいて、与えられた入力データに対してラベルまたは出力を予測することを目指して拡散モデルの原則を活用します。識別的な拡散モデルは、不確実性の扱い方の向上、ノイズに対する強さ、データ内の複雑な依存関係の捕捉などの利点を提供します。 生成モデルは、新しいデータ点の学習データ分布からの偏差を定量化することで、異常値や外れ値を識別することができます。通常、これらの生成モデルと識別モデルは競合する代替手段と考えられています。カーネギーメロン大学の研究者は、生成逆と識別モデルの繰り返し推論の利点と、識別モデルの適応能力を利用する方法で、推論段階でこれらの2つのモデルを結合させました。 チームは、Diffusion-TTA (Diffusion-based Test Time Adaptation) モデルを構築しました。このモデルは、画像の分類器、セグメンタ、および深度予測モデルの方法を使用して、個々の未ラベルの画像に適応させ、その出力を使用して画像拡散モデルの条件付けを変調させ、画像拡散を最大化します。彼らのモデルはエンコーダーデコーダーアーキテクチャに似ています。事前に訓練された識別モデルは、画像を仮説(オブジェクトのカテゴリラベル、セグメンテーションマップ、深度マップなど)にエンコードします。これを事前に訓練された生成モデルの条件付けとして使用して画像を生成します。 Diffusion-TTA は、ImageNet およびその派生データセットを含む既存のベンチマークで、インサイドおよびアウトサイドのインスタンスに対して画像分類器の適応を効果的に行います。彼らは画像再構成損失を使用してモデルを微調整します。適応は、拡散尤度の勾配を識別モデルの重みに逆伝播させることで、テストセットの各インスタンスに対して行われます。彼らは、彼らのモデルがこれまでの最先端のTTA手法を上回り、複数の識別的および生成的な拡散モデルのバリアントに対して効果的であることを示しています。 研究者はさまざまな設計の選択肢に対する除去分析を示し、拡散-TTA が拡散時間ステップ、各ステップごとのサンプル数、およびバッチサイズのようなハイパーパラメータとどのように変化するかを調査しました。また、異なるモデルパラメータの適応効果を学習しました。 研究者は、Diffusion-TTA が一貫して Diffusion Classifier を上回ることを示しています。彼らは、(事前に訓練された)識別モデルの重み初期化により、識別モデルが生成損失に対して過学習しないため、このトリビアルな解に収束しないと推測しています。 総括すると、過去には生成モデルは画像分類器やセグメントのテスト時の適応に使用されてきました。しかし、ジョイント識別タスク損失と自己教師付き画像再構成損失の下で Diffusion-TTA モデルを共同トレーニングさせることで、効率的な結果を得ることができます。

「DreamSyncに会ってください:画像理解モデルからのフィードバックを用いてテキストから画像の合成を改良する新しい人工知能フレームワーク」

カリフォルニア大学南部、ワシントン大学、バール・イラム大学、およびGoogle Researchの研究者は、人間の注釈、モデルアーキテクチャの変更、または強化学習の必要性を排除して、拡散ベースのテキストから画像への変換(T2I)モデルにおける整列と美的魅力の向上の問題に取り組むDreamSyncを紹介しました。これは、候補画像を生成し、Visual Question Answering(VQA)モデルを使用して評価し、テキストから画像へのモデルを微調整することにより、その目的を達成しています。 以前の研究では、TIFAなどのVQAモデルを使用してT2I生成を評価することが提案されていました。 TIFAでは、4Kのプロンプトと25Kの質問を使用して、12のカテゴリにわたる評価を実施できます。 SeeTrueやRLHFなどのトレーニング関連手法やトレーニングアダプタなどは、T2Iの整列に取り組んでいます。 SynGenやStructuralDiffusionなどのトレーニングフリーテクニックは、整列の推論を調整します。 DreamSyncは、特定のアーキテクチャやラベル付きデータに依存せずに、ユーザーの意図と美的な魅力に対する忠実度を向上させるT2Iモデルの課題に取り組むためのモデル非依存のフレームワークを採用しています。ビジュアル-言語モデル(VLM)を利用して生成された画像と入力テキストとの相違点を特定するモデル非依存のフレームワークを導入しています。この方法では、複数の候補画像を作成し、VLMを使用して評価し、T2Iモデルを微調整します。 DreamSyncはベースラインの手法を上回る画像の整列を提供し、さまざまな画像特性を向上させることができ、整列改善に限定されない応用範囲を持っています。 DreamSyncは、VLMからのフィードバックを使用してT2I生成の整列を行うためのモデル非依存のフレームワークを採用しています。このプロセスでは、プロンプトから複数の候補画像を生成し、それらをテキストの忠実度と画像の美的魅力のために専用のVLMで評価します。 VLMのフィードバックによって選択された最良の画像は、収束するまで反復してT2Iモデルを微調整するために使用されます。また、反復的なブートストラッピングを導入し、VLMを教師モデルとして使用して、T2Iモデルのトレーニングのためのラベルのないデータをラベル付けします。 DreamSyncは、SDXLとSD v1.4のT2Iモデルの両方を向上させ、SDXLの3つのイテレーションでは、TIFAで忠実度が1.7ポイントおよび3.7ポイント向上しました。ビジュアルの美的感覚も3.4ポイント向上しました。DreamSyncをSD v1.4に適用すると、TIFAで忠実度が1.0ポイント向上し、絶対スコアが1.7ポイント増加し、美的感覚が0.3ポイント向上します。比較研究では、DreamSyncは整列においてSDXLを上回り、より適切なコンポーネントを持つ画像と3.4個の正しい回答を生成します。それはTIFAとDSGのベンチマークで視覚的な忠実度を妥協することなく優れたものを達成し、反復による徐々の改善を示しています。 結論として、DreamSyncは難しいT2Iベンチマークで評価された多目的なフレームワークであり、配布内および配布外の設定の両方で整列と視覚的魅力の重要な改善を示しています。このフレームワークは、ビジョン-言語モデルからの二重フィードバックを組み込んでおり、人間の評価と好み予測モデルによって検証されています。 DreamSyncの将来の改善点には、ミスアライメントの特定のための詳細なアノテーション(バウンディングボックスなど)を使用したフィードバックの作成が含まれます。各イテレーションでプロンプトを調整することにより、テキストから画像への合成において特定の改善を目指します。言語構造と注意マップの探求により、属性-オブジェクトの結びつきを向上させることを目指しています。人間のフィードバックで報酬モデルをトレーニングすることで、生成された画像をユーザーの意図に合わせることができます。DreamSyncの応用範囲を他のモデルアーキテクチャに拡大し、パフォーマンスの評価および多様な設定での追加の研究を行うことは、現在の調査の領域です。

「人間の活動認識におけるディープラーニング:このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」

ヒューマンアクティビティ認識(HAR)は、さまざまなセンサから収集したデータに基づいて、自動的に人間の活動を識別および分類する方法と技術の開発に焦点を当てた研究領域です。HARは、スマートフォン、ウェアラブルデバイス、またはスマート環境などのマシンがリアルタイムで人間の活動を理解し解釈することを目指しています。 従来は、ウェアラブルセンサに基づく方法やカメラに基づく方法が使用されていました。ウェアラブルセンサはユーザにとって不快で不便です。カメラに基づく方法は侵入的な設置が必要で、プライバシーの懸念があります。既存のHAR技術は、位置依存性、ノイズへの感度、さまざまなアプリケーション(スマートホーム、ヘルスケア、モノのインターネットなど)で多様な活動をより柔軟に認識するための必要性などの課題に直面しています。UTeMが使用する方法は、正確で適応性があり、位置に依存しない解決策を提供します。 マラッカ工科大学(UTeM)の研究者は、従来の制約に対処するためのヒューマンアクティビティ認識(HAR)の手法を作り出しました。彼らはChannel State Information(CSI)と高度な深層学習技術を活用したシステムを導入しました。 このシステムは、Channel State Information(CSI)をLong Short-Term Memory(LSTM)ネットワークと組み合わせて使用します。システムは、無線通信チャネルの状態を抽出し、リアルタイムな分類と絶対的な位置に依存しないセンシングを可能にします。LSTMネットワークは、活動の特徴の連続的な学習を実現し、異なる人と環境における人間の活動の変動に対応することで、識別プロセスを容易にします。 研究者は、まずRaspberry Pi 4と専用ファームウェアを使用して原始的なチャネル状態情報(CSI)データを収集および前処理し、MATLABを使用して品質と応用を最適化するためにデータを改善したと強調しました。 Long Short-Term Memory(LSTM)ネットワークを使用して、CSIデータから重要な特徴を抽出し、複雑な人間の活動を正確に認識できるようにしました。彼らはLSTMモデルと分類プロセスに厳密なトレーニングを行いました。オンラインフェーズではパターン認識、オフラインフェーズではパフォーマンスの向上が含まれています。 このシステムは、LSTMアルゴリズムを使用して信号のセグメンテーション方法を導入し、人間の活動の開始点と終了点を正確に決定します。 研究者は、このシステムは人間の活動の認識において驚異的な97%の正確さを達成しました。新しい環境に適応する能力を示し、HAR技術の重要な進展を示しました。 研究者は、システムの顕著な適応性を強調しました。再学習や大幅な変更を必要とせずに異なる設定に簡単に統合することができます。この柔軟性により、さまざまな分野に実用的な解決策となり、スマートホーム、ヘルスケア、モノのインターネットなどの様々な実世界の要件に効果的に対応することができます。この手法は、HAR技術の重要な進展を表し、スマートホーム、ヘルスケア、モノのインターネットなどの多くの業界に大きな影響を与える可能性があります。

Google AIとテルアビブ大学の研究者は、テキストから画像への拡散モデルと専門のレンズジオメトリを組み合わせた人工知能フレームワークを提案しています画像のレンダリングに関して、これは画期的なものです

画像生成の最近の進歩は、大規模な拡散モデルを利用した、テキストと画像データのペアで訓練されたもので、多様な条件付け手法を取り入れ、ビジュアル制御を向上させています。これらの手法は、明示的なモデルの条件付けから、新しいモダリティのための事前学習済みアーキテクチャの変更まで様々です。深度などの抽出された画像特徴を使用してテキストによる条件付けモデルを微調整することで、画像の再構築が可能になります。以前の研究者は、オリジナルの解像度情報を利用したGANsフレームワークを紹介し、多解像度および形状一貫性のある画像生成を実現しました。 Google Researchとテルアビブ大学の研究者は、AIフレームワーク(AnyLens)を提案し、専用のレンズジオメトリとテキストから画像への拡散モデルを統合して画像レンダリングを実現しています。この統合により、レンダリングジオメトリの正確な制御が可能になり、単一の拡散モデルを使用して魚眼、パノラマビュー、および球面テクスチャなどの様々な視覚効果の生成が容易になります。 本研究では、テキストから画像への拡散モデルに多様な光学制御を組み込むための新しい手法を提案しています。この手法により、モデルはローカルなレンズジオメトリに基づいて条件付けされ、リアルな画像生成のための複雑な光学効果の再現能力が向上します。従来のキャンバス変換を超えて、手法はピクセルごとの座標条件付けを介してほぼ任意のグリッド変形を可能にします。このイノベーションは、パノラマシーンの生成や球体のテクスチャリングを含むさまざまなアプリケーションをサポートします。計量テンソル条件付けを用いた幾何学的に感知的な画像生成フレームワークを導入して、画像生成の制御と操作の可能性を拡大します。 本研究は、ピクセルごとの座標条件付けを通じてテキストから画像への拡散モデルに特定のレンズジオメトリを統合するフレームワークを紹介しています。この手法は、ランダムなワーピングフィールドを使用して画像を変形させたデータによって事前学習された潜在的な拡散モデルを微調整します。自己注意層のトークン再重み付けが採用されています。この方法は曲率特性の操作を可能にし、魚眼やパノラマビューなどのさまざまな効果をもたらします。画像生成において固定された解像度を超え、計量テンソル条件付けを組み込むことで制御が向上します。このフレームワークは、大規模な画像生成や拡散モデルにおける自己注意スケールの調整といった課題に取り組むことで、画像操作の可能性を拡張します。 このフレームワークは、特定のレンズジオメトリを持つテキストから画像への拡散モデルを正確に統合し、魚眼、パノラマビュー、球面テクスチャなどのさまざまな視覚効果を単一のモデルで実現します。曲率特性とレンダリングジオメトリに対する正確な制御が提供され、リアルで微妙な画像生成が実現されます。大規模なテキスト注釈データセットとピクセルごとのワーピングフィールドで訓練されたこの手法は、目標のジオメトリに密接に合わせ、細やかな歪みのない結果の任意の変形画像を生成することを容易にします。また、球面パノラマをリアルな比率と最小限のアーティファクトで作成することも可能になります。 まとめとして、画像レンダリングにおけるさまざまなレンズジオメトリの組み込みを提供する新しく導入されたフレームワークは、曲率特性と視覚効果に対する制御を向上させます。ピクセルごとの座標および計量条件付けを通じて、レンダリングジオメトリの操作を容易にし、高度なリアルな画像およびジオメトリ操作を可能にします。このフレームワークは、高品質な画像を作成するための貴重なツールとして、イメージ合成における創造性と制御を促進します。 今後の研究では、多様な画像生成を向上させるために、高度な条件付け技術を探求することにより、手法の制限を克服することが求められます。研究者たちは、専門的なレンズによって異なるシーンを捉える結果に近い結果を得るために手法を拡張することを提案しています。より高度な条件付け技術の使用についても言及し、画像生成の向上と機能の拡張を期待しています。

このQualcomm AI ResearchのAIペーパーは、EDGIを公開しました:先進的なモデルベースの強化学習と効率的な計画のための画期的な不変拡散器

あらゆるところに対称性があります。物理学の普遍的な原則は、空間と時間の両方において成り立ちます。空間座標が変換、回転、時間的にシフトされると、対称性が現れます。さらに、システムは、いくつかの似ているまたは同等のアイテムが番号でラベル付けされた場合、そのラベルの置換に関して対称です。具現化エージェントはこの構造に直面し、多くの日常的なロボット活動が時間的、空間的、または置換シンメトリーを示しています。四足歩行の動作は、運動の方向に依存しません。同様に、ロボットグリッパーはラベルに関係なく、複数の同一のアイテムと接触するかもしれません。ただし、この豊かな構造は、ほとんどの計画および強化学習(RL)アルゴリズムに考慮される必要があります。 十分なトレーニングを受けた後、明確に定義された問題に対して印象的な結果を示しているにもかかわらず、これらのアルゴリズムは頻繁にサンプリングの非効率性や環境変化への耐性の欠如を示します。研究チームは、RLアルゴリズムが対称性を理解していることでサンプル効率と耐性を向上させることが重要であると考えています。これらのアルゴリズムは、2つの重要な要件を満たす必要があります。まず、世界とポリシーモデルは関連する対称性グループについて同変である必要があります。これは、離散時間シフトZの部分群、空間対称性グループSE(3)の積集合グループ、および具現化エージェントの1つ以上の対象置換群Snです。第二に、実際の問題の解決のために、対称性グループの(一部の)緩やかな崩壊が可能であるべきです。ロボットグリッパーの目標は、空間の指定された位置にオブジェクトを移動することであり、これにより対称性グループSE(3)が崩壊します。同変RLの初期の試みは、この技術の潜在的な利点を明らかにしました。ただし、これらの作品は通常、Cnなどの小規模な有限対称群のみを考慮し、テスト中の仕事に応じてソフトな対称性の崩壊を許可することはありません。 この研究では、Qualcommの研究チームが、Equivariant Diffuser for Generating Interactions (EDGI) と呼ばれるモデルベースの強化学習および計画のための同変方法を提案しています。EDGIの基礎要素は、研究チームが具現化された文脈で遭遇することを予想している、SE(3) × Z × Snという完全な積集合群に関して同変です。さらに、EDGIはテスト時に柔軟なソフト対称性の崩壊を許可します。彼らの方法論は、以前に研究者から提案されたDiffuserメソッドに基づいており、ダイナミクスモデルの学習とその内部での計画の課題に対処しています。Diffuserの主な概念は、状態-行動の軌跡のオフラインデータセットで拡散モデルをトレーニングすることです。このモデルからの1つのサンプルは、現在の状態に条件付けられて計画されます。彼らの主な貢献は、多様な表現データを許容し、空間的、時間的、および置換対称性の積集合群SE(3) × Z × Snについて同変な拡散モデルを可能にすることです。 研究チームは、個々の対称性に作用する革新的な時間、オブジェクト、および置換レイヤー、および複数の入力表現を単一の内部表現に埋め込む革新的な方法を提案しています。クラス分類の案内と条件付けと組み合わせることで、計画アルゴリズムに含まれるテスト時のタスク要件によって対称性グループを柔軟に崩壊させることができます。研究チームは、ロボットのアイテムハンドリングと3Dナビゲーションの設定を使用して、EDGIの客観的な検証を示しています。研究チームは、訓練データが桁違いに少ない状況で、EDGIが低データドメインでの性能を著しく向上させ、最良の非同変ベースラインと同等のパフォーマンスを発揮することを発見しました。さらに、EDGIは以前に発見されていない配置にも効果的に適応し、環境の対称性変化に対して明らかに耐性があります。

「MMMUと出会おう:専門家レベルのマルチモーダルなチャレンジに向けたAIベンチマークで人工知能の一般的な発展への道筋をつける」

マルチモーダルプリトレーニングの進歩は、LXMERT、UNITER、VinVL、Oscar、VilBert、VLPなどのモデルに示されるように、さまざまなタスクに対応しています。 FLAN-T5、Vicuna、LLaVAなどのモデルは、指示に従う能力を向上させます。 Flamingo、OpenFlamingo、Otter、MetaVLのような他のモデルは、文脈を持った学習を探求します。 VQAのようなベンチマークは認識に焦点を当てますが、MMMは大学レベルの問題における専門家レベルの知識と緻密な推論を要求することで際立っています。包括的な知識カバレッジ、さまざまな画像形式、および既存のベンチマークとは異なる主題特化の推論に対する独自の強調点といった特徴があります。 MMMベンチマークは、IN.AI Research、ウォータールー大学、オハイオ州立大学、インディペンデント、カーネギーメロン大学、ビクトリア大学、プリンストン大学などの様々な組織の研究者によって提案され、さまざまな学問をカバーする大学レベルの問題が含まれています。専門家レベルの認識と推論を重視したこのベンチマークは、現行のモデルにとって大きな課題を提示します。 この研究では、人間の能力を超えるExpert AGIに向けた進歩を評価するためのベンチマークの必要性が強調されています。MMLUやAGIEvalなどの現行の基準はテキストに焦点を当てており、より多様なモーダルな課題が必要です。大規模なマルチモーダルモデル(LMMs)は有望でありますが、既存のベンチマークには専門家レベルのドメイン知識が必要です。MMMベンチマークはこのギャップを埋めるために導入され、複雑な大学レベルの問題に多様な画像形式と交差するテキストを特徴としています。これはLMMsにとって高度なAI能力を目指す難しい評価を要求し、専門家レベルの認識と推論を提供します。 Expert AGI評価のために設計されたMMMベンチマークは、6つの学問と30の科目にわたる11.5Kの大学レベルの問題で構成されています。データ収集は、視覚入力に基づいてトピックを選択し、学生のアノテータを参加させてマルチモーダルな質問を収集し、品質管理を実施することによって行われます。LLMsやLMMsを含む複数のモデルは、MMMベンチマークでゼロショットの設定で評価され、微調整やフューショットデモなしで正確な回答を生成する能力がテストされます。 MMMベンチマークは、GPT-4Vが55.7%の精度しか達成できないため、モデルにとって困難です。専門家レベルの認識と推論の要求により、LLMsやLMMsにとって厳しい評価となります。エラー分析により、視覚的な認識、知識表現、推論、およびマルチモーダル理解の課題が明らかになり、さらなる研究の領域が示唆されます。30種類の多様な画像形式で大学レベルの知識をカバーするMMMベンチマークは、基礎モデルの精度と専門分野での適用性を高めるためにドメイン固有の知識をトレーニングデータセットに豊かにすることの重要性を強調しています。 まとめると、MMMベンチマークの作成はExpert AGIの評価においてLMMsの重要な進展を表しています。このベンチマークは、現行のモデルに基本的な感覚スキルと複雑な推論を評価する機会を提供し、Expert AGI開発の進歩を理解するのに役立ちます。専門家レベルのパフォーマンスと推論能力を重視し、視覚的な認識、知識表現、推論、およびマルチモーダル理解におけるさらなる研究の領域をハイライトします。専門分野の精度と適用可能性を向上させるために、トレーニングデータセットにドメイン固有の知識を豊かにすることが推奨されます。

「デベロッパー用の15以上のAIツール(2023年12月)」

“`html GitHub Copilot GitHub Copilotは、市場をリードするAIによるコーディングアシスタントです。開発者が効率的に優れたコードを作成できるように設計され、CopilotはOpenAIのCodex言語モデルを基に動作します。このモデルは自然言語と公開コードの広範なデータベースの両方でトレーニングされており、洞察に満ちた提案を行うことができます。コードの行や関数を完全に補完するだけでなく、コメント作成やデバッグ、セキュリティチェックの支援など、開発者にとって大変貴重なツールとなっています。 Amazon CodeWhisperer AmazonのCodeWhispererは、Visual StudioやAWS Cloud9などのさまざまなIDEでリアルタイムのコーディング推奨事項を提供する、機械学習に基づくコード生成ツールです。大規模なオープンソースコードのデータセットでトレーニングされており、スニペットから完全な関数までを提案し、繰り返しのタスクを自動化し、コードの品質を向上させます。効率とセキュリティを求める開発者にとって大変便利です。 Notion AI Notionのワークスペース内で、AIアシスタントのNotionがさまざまな執筆関連のタスクをサポートします。創造性、改訂、要約などの作業を助け、メール、求人募集、ブログ投稿などの作成をスピードアップさせます。Notion AIは、ブログやリストからブレストセッションや創造的な執筆まで、幅広い執筆タスクの自動化に使用できるAIシステムです。NotionのAI生成コンテンツは、ドラッグアンドドロップのテキストエディタを使用して簡単に再構成や変換ができます。 Stepsize AI  Stepsize AIは、チームの生産性を最適化するための協力ツールです。プロジェクトの履歴管理やタスク管理の役割を果たし、Slack、Jira、GitHubなどのプラットフォームと統合して更新を効率化し、コミュニケーションのミスを防ぎます。主な機能には、活動の統一した概要、質問への即時回答、堅牢なデータプライバシーコントロールが含まれます。 Mintlify Mintlifyは、お気に入りのコードエディタで直接コードのドキュメントを自動生成する時間の節約ツールです。Mintlify Writerをクリックするだけで、関数のための良く構造化された、コンテキストに即した説明を作成します。開発者やチームにとって理想的であり、複雑な関数の正確なドキュメントを生成することで効率と正確性が高く評価されています。 Pieces for Developers…

関係データベースとその応用についての深い探求

今日では、さまざまな頻繁に関連のないカテゴリに膨大な量のデータを記憶する必要性が、高い効率のデータベースの重要な意義を強調しています。データベースは、迅速なアクセス、操作、分析を可能にするために、注意深く整理、構造化、保存されたデータのコレクションです。データベースは、データウェアハウジングやオンライントランザクション処理など、さまざまなタスクに役立ち、在庫記録、顧客情報、財務記録などのデータの種類をサポートしています。 リレーショナルデータベースとは何ですか? リレーショナルデータベースは、基本的にはテーブル形式で行と列にデータが整然と構造化されたセットです。このパラダイムでは、テーブルを使用してデータを記述し、各行が特定のレコードを示し、各列が特定のプロパティまたはフィールドを定義します。 基本的には、予め定義された関係を持つデータオブジェクトのセットがリレーショナルデータベースを構成します。テーブルの列は、各々が特定のタイプのデータを含み、フィールドは属性の実際の値を含んでいます。テーブルの行は、単一のアイテムやエンティティの関連する値のグループを表します。テーブル内の各行を識別するために一意の識別子である主キーが使用されます。外部キーは、異なるテーブルの行の関係を確立するために使用されます。 リレーショナルデータベースの例 子供の夏キャンプのデータでは、テーブル内の各行が個別のキャンパーを表し、彼らの名前、年齢、参加しているアクティビティ、および一意のID番号などの情報が含まれています。 ID Name Age Activity 1 John 11 Pottery 2 Courtney 16 Photography 3 Matt 14 Cooking 4 Jasmine…

スタビリティAIがアドバーサリアルディフュージョンディスティレーション(ADD)を導入します:最小限のステップでの高精度、リアルタイムイメージ合成の画期的な手法

生成モデリングにおいて、拡散モデル(DM)は、高品質な画像とビデオの合成を進めるための重要な役割を果たしています。拡張性と反復性は、DMの主な利点の2つであり、自由なフォームのテキストの手がかりからの画像の作成など、複雑なタスクを可能にします。残念ながら、反復的な推論プロセスには多くのサンプルステップが必要であり、現在のところDMのリアルタイム使用を妨げています。一方で、生成的対抗ネットワーク(GAN)の単一ステップの構成と固有の速度は、それらを特徴づけます。ただし、サンプルの品質に関しては、大規模データセットへの拡張の取り組みにもかかわらず、GANはしばしばより多くのDMが必要です。 本研究のStability AIの研究者たちは、GANの固有の速度とDMの高いサンプル品質を結びつけることを目指しています。彼らの戦略は概念的にはシンプルです。研究チームはAdversarial Diffusion Distillation(ADD)と呼ばれる汎用的な技術を提案しており、この技術は事前学習済みの拡散モデルの推論ステップを1〜4つのサンプリングステップに削減することで、モデルの全体的なパフォーマンスを向上させる可能性があります。研究チームは2つのトレーニングゴールを組み合わせています:(i)スコア蒸留サンプリング(SDS)に相当する蒸留損失と対抗損失。 各正方向パスでは、対抗損失がモデルが直接実際の画像の多様体上にあるサンプルを生成することを促し、他の蒸留技術でよく見られるぼやけ具合などのアーティファクトを除去します。大規模なDMに見られる高い組成能を保持し、事前学習された(かつ固定された)DMを教師として使用することで、蒸留損失は高い知識を効率的に活用します。彼らの手法は推論中に分類器フリーガイダンスを使用せずにメモリ要件も最小限に抑えています。従来の一ステップGANベースの方法と比べての利点は、研究チームがモデルを繰り返し開発し、結果を向上させることができるということです。 図1は、単一の操作で生成された高精細な写真を示しています。Adversarial Diffusion Distillation(ADD)トレーニングは、各サンプルごとに単一のU-Net評価を作成するために使用されます。 以下は彼らの貢献の要約です: • 研究チームはADDという技術を提案しました。この技術は、事前学習済みの拡散モデルを高品質でリアルタイムの画像ジェネレータに変換するために、わずか1〜4つのサンプリングステップを必要とします。研究チームは、対抗トレーニングとスコア蒸留を組み合わせた独自のアプローチのために、いくつかのデザイン上の決定を慎重に考慮しました。 • 5122 pxの解像度でフォースサンプリングステップを使用したADD-XLは、その教師モデルSDXL-Baseを上回ります。• ADDは、1つの推論ステップで高い現実感を維持しながら、複雑な画像構成を処理できます。• LCM、LCM-XL、および単一ステップGANなどの強力なベースラインを大幅に上回るADD。 結論として、この研究は、事前学習済みの拡散モデルをクイックで少数ステップの画像生成モデルに蒸留するための汎用的な技術、Adversarial Diffusion Distillation(ADD)を紹介しています。研究チームは、識別器を通じて実データを利用し、拡散の教師を通じた構造的な知識を利用しながら、対抗目的とスコア蒸留目的を組み合わせて、公共のStable DiffusionとSDXLモデルを蒸留することを組み合わせています。彼らの分析は、彼らの手法がすべての競合手法を打ち負かすことを示し、1〜2つのステップの超高速サンプリング領域で特に優れて機能することを示しています。また、研究チームはさまざまなプロセスを通じてサンプルを改善することができます。彼らのモデルは、IF、SDXL、およびOpenMUSEなどの人気のある多ステップジェネレータよりも4つのサンプルステップで優れたパフォーマンスを発揮します。彼らの方法論は、一つのステップで高品質の写真を開発することにより、基盤モデルを使用したリアルタイム生成の新たな可能性を開くものです。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us