Search Results による

「ユーレカ！NVIDIAの研究によるロボット学習の新たな進展」

ロボットに複雑なスキルを教えることができるNVIDIA Researchによって開発された新しいAIエージェントは、ロボットの手にペン回しのテクニックを迅速に演じることを学習しました。これは人間と同じくらいのスキルです。上記のビデオで見られる驚くべき手品は、ユーレカによってほぼ30のタスクを学習させることによって達成されました。ユーレカは報酬アルゴリズムを自律的に書き、ボットをトレーニングします。ユーレカは、引き出しやキャビネットを開ける、ボールを投げてキャッチする、はさみを使うなどのタスクもロボットに教えました。今日発表されたユーレカの研究には、論文とこのプロジェクトのAIアルゴリズムが含まれており、開発者はNVIDIA Isaac Gymを使用して実験することができます。これは強化学習研究のための物理シミュレーションリファレンスアプリケーションです。アイザックジムは、オープンUSDフレームワークに基づいた3Dツールやアプリケーションを構築するための開発プラットフォームであるNVIDIA Omniverse上に構築されています。ユーレカ自体は、GPT-4大規模言語モデルによって動作します。「ここ10年で強化学習は素晴らしい成果を上げてきましたが、報酬設計などの課題はまだ存在します。それは試行錯誤のプロセスです。」と、NVIDIAのAI研究の上級ディレクターであるアニマ・アナンドクマールは語りました。彼女はまた、ユーレカの論文の共著者でもあります。「ユーレカは、困難なタスクを解決するために生成的学習と強化学習の手法を統合する新しいアルゴリズムを開発するための第一歩です。」 AIがロボットをトレーニング論文によると、ユーレカが生成する報酬プログラムは、ロボットの試行錯誤学習において、専門家によって作成されたものよりも80%以上のタスクで優れたパフォーマンスを発揮しています。これにより、ボットの平均パフォーマンスが50%以上向上しています。 https://blogs.nvidia.com/wp-content/uploads/2023/10/franka_cabinet.mp4 ユーレカによって引き出しを開けるように学習されたロボットアーム。このAIエージェントは、ロボットに強化学習のためのソフトウェアコードを生成するためにGPT-4 LLMと生成的AIを活用しています。具体的なタスクの促しや事前定義された報酬テンプレートは必要ありません。また、開発者のビジョンにより正確に合わせて報酬を修正するための人間のフィードバックをすぐに組み込むことができます。 Isaac GymのGPUアクセラレーションされたシミュレーションを使用することにより、ユーレカは効率的なトレーニングのために大規模な報酬候補の品質を迅速に評価することができます。ユーレカは、トレーニング結果からキーとなる統計情報の要約を作成し、LLMに報酬関数生成の改善を指示します。このように、AI自体が自己改善しています。ユーレカは、四足歩行、二足歩行、クアッドローター、器用な手、共同作業者のアームなど、あらゆる種類のロボットにあらゆる種類のタスクを実行することを教えてきました。この研究論文では、20のユーレカによるトレーニングされたタスクについて、ロボットの手が幅広い複雑な操作スキルを示す必要があるオープンソースの手先器用さベンチマークに基づく詳細な評価が提供されています。 NVIDIA Omniverseを使用して生成された視覚化で、9つのIsaac Gym環境の結果が紹介されています。 https://blogs.nvidia.com/wp-content/uploads/2023/10/humanoid.mp4 ユーレカを通じて走りの足技を学ぶヒューマノイドロボット。…

「Scikit-Learnによる次元削減：PCAの理論と実装」

小説『フラットランド』では、二次元の世界に住むキャラクターが、三次元の存在に出会った際に当惑し、理解できない自分自身を見つけます私はこの比喩を使って説明します…

『ScaleCrafterを知る：事前学習済みの拡散モデルによる超高解像度画像合成の解放』

画像合成技術の開発は、近年著しい上昇を経験し、学術界や産業界から大きな関心を集めています。テキストから画像を生成するモデルや安定拡散（SD）は、この分野で最も広く利用されている進展です。これらのモデルは注目すべき能力を示していますが、現在は最大解像度1024 x 1024ピクセルの画像しか生成することができず、広告などの高解像度アプリケーションの要件を満たすには不十分です。これらのトレーニング解像度よりも大きな画像を生成しようとすると、オブジェクトの繰り返しや変形されたオブジェクトの構造などの問題が発生します。ステーブル拡散モデルを使用して512 × 512または1024 x 1024の寸法で画像を生成しようとする場合、オブジェクトの重複がより問題となります。オブジェクトの繰り返しや誤ったオブジェクトの形態など、これらの問題は主にオブジェクトの重複や誤ったオブジェクトの形態として現れます。結合拡散技術や注意機構に基づいたより高解像度の画像を作成するための既存の方法は、これらの問題に十分に対処することが難しいとされています。研究者は、問題の原因となる重要な要素である畳み込みカーネルの制約された知覚フィールドを拡散モデルのU-Netアーキテクチャの構造要素に詳細に検討することにより、オブジェクトの再現などの問題が生じるわけです。つまり、入力画像の内容を見て理解する能力に制約があるため、オブジェクトの再発のような問題が生じるのです。研究チームは、推論時の高解像度可視化のためにScaleCrafterを提案しました。これは再膨張と呼ばれる、単純でありながらも非常に強力な解決策であり、畳み込みの知覚フィールドを画像生成プロセス全体で動的に調整することによって、モデルがより高い解像度と異なるアスペクト比を効果的に処理できるようにします。このモデルは、受容野を動的に調整することにより、生成される画像の一貫性と品質を向上させることができます。この研究ではさらに二つの進歩が提案されており、拡散畳み込みとノイズ抑制分類器フリーガイダンスです。これにより、モデルは4096×4096ピクセルの超高解像度の写真を生成することができます。この方法では、追加のトレーニングや最適化の段階を必要とせず、高解像度の画像合成の繰り返しや構造的な問題に対する実用的な解決策となります。この研究では、オブジェクトの繰り返しの問題に対処し、特に複雑なテクスチャの詳細を表示することで、より高い解像度の画像を生成するという提案手法が成功裏に評価されました。また、これまで低解像度の画像でトレーニングされた拡散モデルを使用して高解像度の視覚表現を生成するために、多くの再トレーニングを必要とせずに済む可能性にも光を当てており、今後の超高解像度画像や動画合成の研究に向けた指針となるでしょう。主な貢献は以下のとおりです。チームは、オブジェクトの繰り返しの主な原因は注目トークンの数ではなく、畳み込み手順の制約された受容野であることを発見しました。これらの結果に基づいて、チームは、推論が進行している間に畳み込み受容野を動的に増加させる再膨張アプローチを提案し、問題の根本に取り組んでいます。拡散畳み込みとノイズ抑制分類器フリーガイダンスという二つの革新的な戦略が紹介されました。これらは、超高解像度の画像の作成に使用されるものです。この手法は、テキストから動画へのモデルに適用され、さまざまな拡散モデルを含む多様なイテレーションで包括的に評価されています。これらのテストにはさまざまなアスペクト比と画像解像度が含まれており、オブジェクトの再発の問題や高解像度画像合成の改善におけるモデルの効果を示しています。

「高解像度画像を使用したAmazon Rekognitionカスタムラベルモデルによる欠陥検出」

高解像度のイメージは、衛星画像やドローン、DLSRカメラなど、今日の世界では非常に普及していますこのイメージから、自然災害による損傷や製造装置の異常、またはプリント基板（PCB）や半導体などの非常に小さな欠陥などを捉えることができます高解像度のイメージを使用して異常検出モデルを構築することは困難な場合があります[…]

「CEO氏によると、ホンダは東京で自動運転タクシーサービスを開始する予定です」

GMとの共同企業で、クルーズは最終的には500台のロボタクシーを所有することを目指しています

「アドベクティブ拡散トランスフォーマーによる位相一般化」というタイトルです

この投稿は、傅棋天さんと楊晨曉さんと共著であり、傅棋天さんらの論文「グラフ学習における位相一般化のためのアドベクティブ拡散トランスフォーマー」（2023年）に基づいています...

「GPT4による高度なデータ分析：ヨーロッパの観光トレンドのマッピング」

生データをデータビジュアライゼーションに変換することは、従来の方法では退屈で面倒な作業ですデータのクリーニングからデータフレームの作成、厄介なチャートの構文操作にいたるまで、様々な手間がかかりますそれに対して...

「セグミンドの生成AIによるエンパワーリングなロゴデザイン」

イントロダクションブランドの世界では、ロゴがブランドの本質を象徴しています。従来、ロゴの作成にはデザイナーの才能と修正が必要でしたが、セグマインドが登場し、生成的な人工知能（AI）によってロゴデザインを変革しました。セグマインドのAI駆動アプローチはデザインプロセスを簡素化し、創造性を引き出し、制限のないロゴの創造を可能にします。変革の概念である「生成的AI」はデザインデータを学習し、効率的にロゴを自律的に作成することで、人間の創造性を補完し、費用効果の高いソリューションを提供します。本記事では、技術的な優位性から実世界の応用まで、セグマインドの生成的AIがロゴデザインに与える影響について詳しく解説します。技術とデザインの融合がロゴ作成を革新する方法を発見してください。出典：Adweek 学習目標ロゴデザインがブランディングにおいて重要である理由やデザインとマーケティングにおいてなぜ重要なのかについて理解する。主に生成的AIのような人工知能の変革的な役割をロゴデザインにおいて発見し、創造プロセスをどのように向上させるかについて知る。セグマインドの革新的なプラットフォームについて学び、AIを人間の創造性と組み合わせてロゴデザインを再定義する方法について理解する。セグマインドの生成的AIの技術的側面に深く入り、ディープラーニングと大規模なデザインデータセットを活用する方法を理解する。ビジネス、スタートアップ、個人ブランディング、教育などの分野でのAI生成ロゴの実際的な用途を探索し、異なる産業にどのような利益をもたらすかを知る。ロゴデザインにおける最新トレンド、ミニマリズム、ロゴを通じたストーリーテリング、AIがロゴ作成の未来を形作る役割などについての洞察を得る。本記事はデータサイエンスブログマラソンの一環として公開されました。強力なセグマインドの生成的AI 人工知能とデザインの素晴らしい世界において、セグマインドは真のパワーハウスとして進化し、ロゴデザインのための革新的なソリューションを先駆的に提供しています。セグマインドの生成的人工知能は革新、精度、芸術的な才能の証です。セグマインドのロゴデザインへの取り組みは、堅牢で緻密に作り込まれたプラットフォームから始まります。最先端の生成的AIモデルに基づくこのプラットフォームは、ロゴデザインの限界を再定義する創造の触媒です。AIの技術的な優位性をデザイナーの芸術的感性とシームレスに統合し、視覚的に優れただけでなくブランドのアイデンティティと深く共鳴するロゴを生み出します。セグマインドのAIアルゴリズムの技術的な驚異セグマインドが他と異なる点は、技術の卓越性に対する献身です。生成的AIのアルゴリズムの基盤となるのは、デザイン原則、美学、ブランドアイデンティティに関する広範なデータに基づいて訓練されたニューラルネットワークです。これらのアルゴリズムはロゴデザインの複雑さを解剖し、カラーパレット、タイポグラフィ、視覚的なモチーフを解読することができます。セグマインドのAIモデルの核心は、学習と適応の能力にあり、継続的にその創造的な結果を改善します。ディープラーニングを活用してパターンを見つけ出し、生成されるロゴが各ブランドのユニークな本質とシームレスに調和することを保証します。さらに、セグマインドのAIは豊富なデザインの歴史に基づいて訓練され、多様な視覚要素や芸術的スタイルからインスピレーションを得ます。この知識の深さにより、プラットフォームは普通ではないロゴを創り上げ、クライアントに幅広い創造的可能性を提供します。セグマインドの生成的AIは芸術的な共同創作者であり、デザインのマスターです。創造プロセスを補完し、ロゴデザインを新たな高みに押し上げますが、ブランドの本質と個性を守ります。セグマインドの生成的AIを用いたロゴデザインは、もはや手作業に限定されないものです。これは人間の直感と人工知能が調和する場であり、創造性には制約がありません。このパワーハウスはロゴデザインを革新し、創造的美学の中で見逃せない存在です。出典：Segmind ロゴデザインにジェネレーティブAIを使用する利点効率性：ジェネレーティブ人工知能は、従来の複数の修正や長いデザインサイクルを必要とするロゴデザインプロセスを大幅に加速させます。 AIは迅速にロゴのコンセプトを生成でき、時間とリソースの両方を節約します。費用対効果：特にスタートアップや中小企業の場合、AIはプロのデザイナーやデザインエージェンシーを雇う手頃な代替手段を提供します。高品質のロゴを手に入れるための予算にやさしい方法です。インスピレーションとアイデア：人工知能はデザイナーやビジネスオーナーのインスピレーションの源です。新鮮なアイデアやデザイン要素を生成し、創造性を引き出し、革新的なロゴのコンセプトを探求するのに役立ちます。カスタマイズ：ジェネレーティブAIにより、ロゴのカスタマイズが可能になります。ユーザーは色の好み、タイポグラフィ、スタイルを提供し、ロゴを特定のニーズに合わせることができます。…

マイクロソフトエージェントAIがIdea2Imgを導入：自己金融による多モーダルAIフレームワークで、画像の開発とデザインを自動化します

“画像の設計と生成”の目的は、ユーザーからの広範な概念に基づいて画像を生成することです。この入力のアイデアには、”イメージと同じように見える犬”などの参照イメージや、”Idea2Imgシステムのためのロゴ”など、デザインの意図された応用をさらに定義する指示が含まれる場合があります。人間はテキストから画像へ（T2I）のモデルを利用して、想像された画像（アイデア）の詳細な説明に基づいて画像を作成することができます。ユーザーは、問題（T2Iプロンプト）を最もよく説明するものを見つけるまで、いくつかのオプションを手動で探索する必要があります。大規模なマルチモーダルモデル（LMM）の印象的な能力を考慮すると、研究者はLMMに基づいたシステムをトレーニングして、概念を視覚的なものに変換する手間を省く能力を獲得できるかどうかを調査します。未知の領域に進出したり、困難なタスクに取り組んだりする際、人間は継続的に手法を改善する傾向があります。頭字語生成、感情の抽出、テキストベースの環境探索などの自然言語処理のタスクは、大規模言語モデル（LLM）エージェントシステムによる自己改善のサポートでより効果的に対処することができます。テキストのみの活動からマルチモーダルな設定に移ると、多くの交互に配置された画像とテキストのシーケンスなど、マルチモーダルコンテンツの向上、評価、検証に関する課題が生じます。自己探索により、LMMフレームワークはグラフィカルユーザーインターフェース（GUI）を使用してデジタルデバイスと対話したり、具象エージェントを使用して未知の領域を探索したり、デジタルゲームをプレイしたりするための広範な現実世界の課題に対応することを自動的に学習します。Microsoft Azureの研究者は、「画像の設計と生成」を調査するために、反復自己改善能力を持つマルチモーダル能力を研究します。この目的のために、彼らは画像の開発と設計のための自己円滑化マルチモーダルフレームワークであるIdea2Imgを提案します。LMMであるGPT-4V（ビジョン）は、Idea2ImgのT2Iモデルとインタラクトし、モデルのアプリケーションを調査し、有用なT2Iの手がかりを特定します。T2Iモデルのリターンシグナル（つまり、草案画像）の分析や、次のラウンドの問い合わせ（つまり、テキストのT2Iプロンプトの作成）は、LMMによって処理されます。 T2Iプロンプトの生成、ドラフト画像の選択、フィードバックの反映は、マルチモーダルな反復自己改善能力に貢献します。具体的には、GPT-4Vは以下の手順を実行します： 1. プロンプトの生成：GPT-4Vは、前のテキストのフィードバックと改善履歴に基づいて、入力のマルチモーダルユーザーアイデアに対応するN個のテキストプロンプトを生成します。 2. ドラフト画像の選択：GPT-4Vは、同じアイデアに対するN個のドラフト画像を注意深く比較し、最も有望なものを選択します。 3. フィードバックの反映：GPT-4Vは、草案画像とアイデアの間の不一致を分析します。その後、GPT-4Vは、何がうまくいかなかったのか、なぜそれがうまくいかなかったのか、およびT2Iプロンプトを改善する方法についてのフィードバックを提供します。さらに、Idea2Imgには、各プロンプトの種類（画像、テキスト、フィードバック）ごとの探索履歴を記録する組み込みのメモリモジュールがあります。画像の自動作成と生成のために、Idea2Imgフレームワークはこれらの3つのGPT-4Vベースのプロセスの間で繰り返しサイクルを行います。改良された画像のデザインと作成支援ツールであるIdea2Imgは、ユーザーにとって有用なツールです。綿密な画像の説明ではなく、デザインの指示を受け入れ、マルチモーダルなアイデア入力に対応し、より高い意味的および視覚的品質の画像を生成することで、Idea2ImgはT2Iモデルと異なります。チームは画像の作成とデザインのサンプルケースをいくつかレビューしました。例えば、Idea2Imgは任意の交互配置された画像とテキストのシーケンスを有するアイデアを処理し、視覚デザインと意図された使用法の説明をアイデアに取り込み、入力画像から任意の視覚情報を抽出することができます。これらの更新された機能とユースケースに基づいて、彼らは104個のサンプル評価アイデアセットを作成しました。この評価アイデアセットには、人間が最初に間違える可能性のある複雑な質問が含まれています。チームはIdea2ImgとさまざまなT2Iモデルを使用してユーザーの好みの調査を実施しています。SDXLを使用した場合など、多くの画像生成モデルにおけるユーザーの好みのスコアの改善は、Idea2Imgの有効性を示しています。

公的機関によるAI調達のための標準契約条項の提案

ショーン・ムッチ、Co-CEO/CFO、AI＆パートナーズ、[email protected]、+31(6)572 85579、ショーンはエンターテイメント業界（例：映画やアート）での幅広い経験を持ち、デザインに特化していますこれに加えて、ショーンはプロフェッショナルサービス業界で10年以上の経験を持ち、5年間のテック会計士のポジションを務めてきましたショーン……公共機関によるAI調達のための標準契約条項の提案について詳細を読む»

Tech

Learn more about Search Results による - Page 11