Learn more about Search Results DRAGON

DragonDiffusionをご紹介します:拡散モデルでのドラッグスタイル操作を可能にする細かい画像編集手法

大規模なテキストから画像(T2I)の拡散モデルは、与えられたテキスト/プロンプトに基づいて画像を生成することを目指しており、多くの訓練データと大規模なコンピュータの能力のおかげで急速に発展しています。それにもかかわらず、この生成能力はしばしば異なっており、ユーザーが考えているものと互換性のある画像を生成するための適切なプロンプトを開発し、既存の画像を基にさらなる修正を行うことが難しいことがあります。 画像の編集には画像の作成よりもさまざまな要件があります。潜在空間が小さく、容易に操作可能なため、GANベースの手法が画像編集に広く適用されています。拡散モデルはより安定しており、より良質な出力を生成します。 北京大学とARC Lab、Tencent PCGによる新しい研究論文は、拡散モデルが同様のドラッグの機能を持つ可能性があるかどうかを確認することを目指しています。 これを実装する上での基本的な困難は、コンパクトで編集可能な潜在空間が必要です。多くの拡散ベースの画像編集手法は、これらの中間テキストと画像の特性の類似性に基づいて開発されています。研究では、クロスアテンションマップで単語とオブジェクトの特徴の強い局所的な類似性が見つかりましたが、これは編集に利用することができます。 大規模なT2I拡散生成プロセスにおいて、テキストの特性と中間的な画像の特徴の間には堅牢な相関関係がありますが、中間的な画像の特徴の間にも堅牢な対応関係があります。この特徴はDIFTで調査され、これらの特徴の間の対応関係が高い程度であり、類似した領域を直接比較することが可能になります。画像要素間のこの高い類似性のため、チームはこの手法を使用して画像の修正を行います。 拡散モデルの中間表現を適応させるために、研究者は特徴対応の損失により編集信号を勾配に変換するドラゴンディフュージョンと呼ばれる分類器ガイダンスベースの戦略を考案しました。提案された拡散手法では、異なるステージで2つのグループの特徴(ガイダンス特徴と生成特徴)を使用します。堅牢な画像特徴の対応により、彼らはガイダンス特徴に基づいて生成特徴を修正し、洗練させます。強い画像特徴の対応は、変更された画像と元の画像の内容の一貫性を保つのにも役立ちます。 この文脈では、研究者は同時にDrag-Diffusionと呼ばれる別の作業も調査していることがわかります。これは、元の見た目を保つためにLORAを使用し、拡散手順の単一の中間ステップを最適化することで編集プロセスを改善します。DragDiffusionのようなモデルの微調整やトレーニングではなく、この作業で提案された手法は分類器ガイダンスに基づいており、すべての編集と内容の一貫性の信号は画像から直接来ます。 DragonDiffusionは、すべての内容の修正と保存の信号を元の画像から取得します。モデルの微調整やトレーニングは必要ありません。拡散モデルのT2I作成能力は、直接画像編集アプリケーションに転用することができます。 広範な試験により、提案されたDragonDiffusionは、オブジェクトのサイズ変更や再配置、外観の変更、コンテンツのドラッグなど、幅広い微細な画像変更タスクを実行できることが示されています。

WindowsアプリケーションにおけるハードウェアアクセラレーテッドAIをONNX RTを使用して実現する

「クアルコムのAIスタックは、ONNX RTをサポートし、Snapdragonアプリ上でハードウェアアクセラレーションされたAIを利用することができますSnapdragon上のWindowsは、モバイルコンピューティングの進化を経て構築された次世代Windowsプラットフォームです」

LLMWareは、複雑なビジネスドキュメントを含む企業ワークフローに適した、生産用の微調整済みモデルであるRAG-Specialized 7BパラメータLLMを発表しました

先月、Ai BloksはエンタープライズグレードのLLMベースのワークフローアプリケーションを構築するための開発フレームワーク、llmwareのオープンソース発表を行いました。今日、Ai BloksはDRAGONシリーズ(Delivering RAG on …)として知られる7BパラメータLLMのリリースと共に、次世代のRAGフレームワークの提供に向けてさらなる大きな進展を遂げました。これらのLLMは、複雑なビジネスおよび法的文書に基づく事実に基づく質問応答の特定の目的で細かく調整され、ビジネスワークフロー向けに設計されています。 より多くの企業が自社独自の情報を使用してスケーラブルなRAGシステムを展開することを目指すにつれて、以下の複数のニーズが認識されています: LLMモデルを周囲のワークフロー機能(ドキュメントの解析、埋め込み、プロンプト管理、ソースの検証、監査追跡など)と統合する統一されたフレームワーク。 事実に基づく質問応答とビジネスワークフローに最適化された、高品質で小型の特化LLM。 オープンソースで費用対効果の高い、カスタマイズのための柔軟性とオプションを備えたプライベート展開。 これらのニーズに応えるため、LLMWareは、そのLLMWareのDRAGONモデルの7つをオープンソースで提供します。これらのモデルは、Hugging Faceリポジトリーにあり、すべてがエンタープライズ用のRAGワークフローにおいて強力なプロダクショングレードの準備が整ったリーディングの基本モデルをベースに細かく調整されています。 全てのDRAGONモデルは、llmware rag-instruct-benchmarkを用いて評価され、その完全なテスト結果と方法論はリポジトリ内のモデルと共に提供されています。それぞれのDRAGONモデルは、100のコアテスト質問の幅広いセットに対して中から高い精度を実現し、幻覚を防ぐための強い根拠を持ち、パッセージから質問に対する答えが得られない場合(「見つからない」分類など)を特定することができます。 DRAGONモデルファミリーは、他の2つのLLMWare RAGモデルコレクションであるBLINGとIndustry-BERTに加わります。 BLINGモデルは、開発者のノートパソコンで動作することが可能なGPU非必須のRAG専門の小型LLMモデル(1B〜3B)です。トレーニングの方法論が非常に似ているため、開発者はローカルのBLINGモデルから始め、本番でパフォーマンスを向上させるためにシームレスにDRAGONモデルに切り替えることができます。DRAGONモデルは、単一のエンタープライズグレードのGPUサーバー上でのプライベート展開を目的としており、企業は自社のセキュリティゾーンで安全かつプライベートにエンドツーエンドのRAGシステムを展開することができます。 このオープンソースのRAG専門モデルのスイートは、コアとなるLLMWare開発フレームワークとMilvusおよびMongo DBのオープンソースプライベートクラウドインスタンスとの統合を備えたエンドツーエンドのRAGソリューションを提供します。数行のコードで、開発者は数千のドキュメントの取り込みと解析、埋め込みベクトルのアタッチ、最新のLLMベースの生成推論の実行、証拠とソースの検証を自動化し、プライベートクラウドで実行することができます。場合によっては、単一の開発者のノートパソコンからさえ実行することができます。 AIブロックスのCEOであるダレン・オーベルストは、「私たちの信念は、LLM(低レイヤーマテリアル)が企業において新たな自動化ワークフローを可能にするということであり、私たちが提供するLLMWareのビジョンは、専門モデル、データパイプライン、すべての有効なコンポーネントを統合したオープンソースのフレームワークを通じて、企業が迅速にカスタマイズし、規模展開するためのLLMベースの自動化を実現することです。」と述べています。 詳細については、llmwareのgithubリポジトリを参照してください:www.github.com/llmware-ai/llmware.git。 モデルへの直接アクセスについては、llmwareのHuggingface組織ページをご覧ください:www.huggingface.co/llmware。

「ヒュメインが革命的なAIパワードウェアラブル「AI Pin」を発売」

“` パーソナルコンピューティングの再定義となるかもしれない大胆な動きで、元Appleデザイナーによって設立されたHumane社は、先進の人工知能を統合したウェアラブルデバイスであるAI Pinを発表しました。価格は699ドルで、11月16日に予約受付が開始され、追加サービスのためのサブスクリプションモデルがあります。 デザインと機能 小さく四角い形状のAI Pinは、衣服に磁石で取り付けられ、隠しバッテリーパックとしても使用できます。コンパクトなサイズながらも鮮やかで、滑らかなガラス面とアルミニウム製の筐体が特徴です。 革新的な機能 Qualcommのチップを搭載し、ジェスチャーに反応するスマートセンサーを使用しているAI Pinは、Snapdragonプロセッサ、4GBのRAM、32GBのストレージを備えています。特筆すべきは、常に聴いているのではなく、タッチによってアクティブになるため、プライバシーが向上します。 AI Pinの目立つ特徴は、OpenAIのGPT-4との統合であり、パーソナライズされた応答や通話処理、リアルタイム言語翻訳などのタスクを実行することができます。カメラはオブジェクトを認識し、情報をユーザーの手に投影してスクリーンレスのディスプレイを作り出します。 プライバシーと接続性 Humaneはプライバシーを重視し、ユーザーデータはAIのトレーニングではなく、個人化を向上させるためにのみ使用されることを保証しています。デバイスはBluetooth 5.1に対応しており、ヘッドセットでのプライベートな会話が可能です。 サブスクリプションとサービス AI Pinには$24の月額サブスクリプションが付属し、T-Mobileを介して無制限の通話、テキスト、データを提供します。ユーザーはHumaneのウェブサイトを通じてデバイスを管理し、連絡先を同期させ、音楽などのサービスにアクセスすることができます。 資金調達とビジョン Humaneは2億3000万ドルを調達し、投資家の大きな信頼を反映しています。共同創設者のImran Chaudhriによって示されるとおり、同社のビジョンはシームレスでスクリーンレス、センサー付きのパーソナルコンピューティングの新時代を切り拓くことです。 影響と期待 AI Pinの発売は、ウェアラブルテクノロジーの大きな飛躍を象徴し、デバイスや人工知能とのインタラクションのあり方で新しい基準を設定する可能性があります。ユニークな機能の組み合わせとHumaneのプライバシーへの取り組みは、個人技術の進化する風景において注目すべき競争相手となります。 この記事はHumane…

「ヒューメインのAIピンは、ウェアラブルテクノロジーの進歩の一歩ですが、欠点もあります」

「ウェアラブルテクノロジー分野での重要な進展として、Humaneが初めての製品、AI Pinを発表しましたデモやヒントの連続の後、このデバイスはAIと統合されたガジェット市場への注目すべき参入を示していますAI Pinは、先進の技術とユーザーセントリックなデザインを組み合わせ、領域におけるユニークな体験を提供することを目指しています...」

「NASAのドラゴンフライがタイタンの大気を飛び越える準備をしています」

「アメリカの国立航空宇宙局は、サターンの衛星であるタイタンを探査するために、ドラゴンフライ回転翼着陸機のテストを実施したと発表しました」(Amerika no kokuritsu kōkū uchūkyoku wa, Satān no eisei de aru Taitan o tansa suru tame ni, doragonfurai kaiten-yokuchakurikizai no tesuto o jisshi shita…

あなたのRAGベースのLLMシステムの成功を測る方法

「リサーチ・オーグメンテッド・ジェネレーション、またはRAG、は今年登場した大規模言語モデル(LLM)の最も一般的な使用例ですテキストの要約や生成はしばしば焦点となりますが...」

メタAIの研究者がRA-DITを導入:知識集約型タスクのための高度な検索機能を持つ言語モデルの改善のための新しい人工知能アプローチとして

“`html 大規模な言語モデル(LLM)の制約や非一般的な知識の捉えを困難にする問題、そして広範な事前トレーニングの高い計算コストについて、Meta の研究者は、Retrieval-Augmented Dual Instruction Tuning(RA-DIT)を紹介しています。RA-DIT は、効率的な検索機能を備えた任意の LLM を装備するために設計された軽量なチューニング手法です。RA-DIT は、2つの異なるファインチューニングステージを通じて運用され、それぞれが大幅なパフォーマンス向上をもたらします。リトリーバルの情報利用とリトリーバーのコンテンツ関連性を最適化することで、RA-DIT はリトリーバ機能を備えた LLM の向上に対する有望な解決策を提供します。 RA-DIT は、リトリーバ機能を備えた LLM の向上を目指した、軽量な2段階のファインチューニング手法を提供します。RA-DIT は LLM のリトリーブ情報の利用をより最適化し、LLM が希望するより関連性の高い結果を提供するリトリーバを洗練させます。RA-DIT は、知識集約型のゼロショットおよびフューショット学習ベンチマークにおいて、既存のリトリーバ機能付きモデルよりも優れたパフォーマンスを発揮し、外部知識を LLM に統合してパフォーマンスを向上させることの優位性を示しています。…

「勝利へのV字 サイバーパンク2077 ファントムリバティ」がGeForce NOWに登場』

待ち時間は終わりました。GeForce NOW Ultimate メンバーは、GOG.comでCyberpunk 2077: Phantom Libertyをフルで体験できます。 GeForce RTX 4080の品質を完全にサポートし、NVIDIA DLSS 3.5テクノロジーも利用できます。 これはアクション満載のGFN Thursdayの一部であり、Quake IIがid Softwareからクラウドゲームプラットフォームのライブラリに加わる他、さらに26のゲームが追加されます。 ナイトシティの新しい見た目 Cyberpunk 2077のスパイスリラーエクスパンションでNVIDIA DLSS 3.5を体験しましょう。 Cyberpunk 2077の新しい冒険、Phantom Libertyでスリリングな挑戦に臨みましょう。ニュー・アメリカ合衆国の大統領の衛星シャトルがナイトシティ最凶の地区上空で撃墜されたとき、彼女を救えるのはただ1人。雇われのサイバーパンクであるVになり、スパイ活劇と政治の陰謀が絡み合っている、権力の頂点と黒市傭兵の残酷な世界を解明しましょう。…

モジュラーの共同創設者兼社長であるティム・デイビス- インタビューシリーズ

ティム・デイビスは、Modularの共同創設者兼社長ですModularは統合された、組み合わせ可能なツールのスイートであり、AIインフラストラクチャを簡素化し、チームがより迅速に開発、展開、イノベーションできるようにしますModularは、Pythonの優れた点とシステムを組み合わせることで、研究と製品化のギャップを埋める新しいプログラミング言語「Mojo」を開発することで最も知られています

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us