Learn more about Search Results OPT - Page 35

ケンブリッジ大学の研究者が50,000枚の合成された写真リアルな足のイメージデータセットと新しいAIライブラリを紹介

健康、ファッション、フィットネス産業は、写真から人体の3Dモデルを復元する難しいコンピュータビジョンの課題に非常に興味があります。この研究では、人間の足の3Dモデルを再構築する問題に取り組んでいます。正確な足のモデルは、シューズの購入、オーソティクス、個人の健康管理に役立ちます。また、写真から3Dモデルを復元するアイデアは、これらのビジネスのデジタル市場が成長するにつれて非常に魅力的になっています。既存の足の再構築ソリューションには、4つのタイプがあります。高価なスキャニング装置、ノイズの多いポイントクラウドの再構築、デプスマップやTrueDepthカメラのような携帯電話ベースのセンサーを使用した再構築、Structure from Motion(SfM)に続くMulti-View Stereo(MVS)、絵の輪郭に生成的な足のモデルをフィットさせる方法です。 これらのオプションのいずれも、家庭で精密なスキャンを行うには十分ではありません。多くの人々が高価なスキャニング装置を手に入れることはできません。携帯電話ベースのセンサーは広く利用できず、使いやすくもありません。ノイズの多いポイントクラウドは、レンダリングや測定などの後続の活動に利用することが困難です。さらに、生成的な足のモデルは品質が低く制約があり、イメージからのシルエットのみを使用することにより、イメージから得られる幾何学的情報の量に制約があります。これは、少数のビューの状況において特に問題となります。SfMは、画像間の密な特徴のマッチングに多くの入力ビューを必要とし、MVSはノイズの多いポイントクラウドを生成することもあります。 また、足の3Dグラウンドトゥルースデータとのペア写真の不足も、これらの手法の性能を制約しています。このため、ケンブリッジ大学の研究者たちは、FOUND(Foot Optimisation using Uncertain Normals for Surface Deformation)と呼ばれるアルゴリズムを提案しています。このアルゴリズムは、ピクセルごとの表面法線の不確実性を利用して、従来のマルチビュー再構築手法を改善します。彼らの手法は、最小限の校正済みRGB写真の入力数を必要としますが、幾何学的情報がないシルエットのみを利用して、表面法線とキーポイントを補完的な手がかりとして使用します。また、このようなシグナルのデータの希少性を乗り越えるために、人工的に写真のリアルなラベルと対応付けた豊富なコレクションも提供します。 以下に、彼らの主な貢献を示します: • SynFootという大規模なシンセティックデータセットをリリースしました。このデータセットには、正確なシルエット、表面法線、キーポイントのラベルが付いた、5万枚のフォトリアルな足の写真が含まれます。このような情報を実際の写真で取得するには高価なスキャニング装置が必要ですが、彼らのデータセットは大規模なスケーラビリティを持っています。彼らは、8つの実際の足のスキャンのみを持っていながら、彼らのシンセティックデータセットが足の写真内の十分な変動を捉え、下流のタスクに対して実際の画像に一般化できることを示しています。また、474枚の14つの実際の足の写真と、高解像度の3Dスキャンとピクセル単位での表面法線のグラウンドトゥルースとの対応データセットも提供します。最後に、大規模なシンセティックデータセットの効果的な作成を可能にするBlenderのプロプライエタリPythonライブラリも公開します。 • 彼らは、不確実性を考慮した表面法線推定ネットワークが、8つの足のスキャンからのシンセティックデータのみを用いて、実際のフィールドでの足の写真に一般化できることを示しています。人工的な足の写真と実際の足の写真とのドメインの差を減らすために、彼らは積極的な外観と視点の拡張を使用しています。ネットワークは、各ピクセルで関連する不確実性と表面法線を計算します。不確実性をしきい値処理することで、別のネットワークを訓練する必要なく正確なシルエットを得ることができます。また、最適化スキームにおいて予測の正確性が不確実な場合に表面法線のロスに重みを付けるために、推定された不確実性を使用することで、ロバスト性を向上させることができます。 • 彼らは、ディファレンシャブルレンダリングを使用して生成的な足のモデルを校正済み写真のシリーズに適合させるための最適化戦略を提供します。彼らのパイプラインは、表面再構築のための最先端のフォトグラメトリよりも優れており、不確実性を考慮しており、ビューの数が限られている場合でも完全なメッシュを再構築することができます。また、ユーザーの携帯電話から得られたデータにも使用することができます。

「KOSMOS-2:Microsoftによるマルチモーダルな大規模言語モデル」

イントロダクション 2023年はAIの年となりました。言語モデルから安定した拡散モデルの強化にSegMind APIを使うまで、AI技術は進化し続けています。その中で、Microsoftが開発したKOSMOS-2が注目を浴びています。これはマイクロソフトによって開発されたマルチモーダルの大規模言語モデル(MLLM)であり、テキストと画像の理解力において画期的な能力を発揮しています。言語モデルを開発することは一つのことですが、ビジョンモデルを作成することは別のことです。しかし、両方の技術を組み合わせたモデルを持つことは、さらなるレベルの人工知能を実現することになります。この記事では、KOSMOS-2の特徴と潜在的な応用について掘り下げ、AIと機械学習への影響を解説します。 学習目標 KOSMOS-2のマルチモーダル大規模言語モデルの理解 KOSMOS-2のマルチモーダルグラウンディングと参照表現生成の仕組みの学習 KOSMOS-2の現実世界での応用について洞察を得る KOSMOSを使ったColabでの推論の実行 この記事はデータサイエンスブログマラソンの一部として公開されました。 KOSMOS-2モデルの理解 KOSMOS-2はマイクロソフトの研究チームによる研究成果で、そのタイトルは「Kosmos-2: Grounding Multimodal Large Language Models to the World(KOSMOS-2:マルチモーダル大規模言語モデルのグラウンディング)」です。テキストと画像を同時に処理し、マルチモーダルデータとの相互作用を再定義することを目指して設計されたKOSMOS-2は、他の有名なモデルであるLLaMa-2やMistral AIの7bモデルと同様にトランスフォーマーベースの因果言語モデルのアーキテクチャを採用しています。 しかし、KOSMOS-2の特徴はその独自のトレーニングプロセスです。特殊なトークンとして画像内のオブジェクトへの参照を含むテキストである、GRITと呼ばれる巨大なデータセットでトレーニングされています。この革新的なアプローチにより、KOSMOS-2はテキストと画像の新たな理解を提供することができます。 マルチモーダルグラウンディングとは何ですか? KOSMOS-2の特徴的な機能の一つは、「マルチモーダルグラウンディング」の能力です。これは、画像のオブジェクトとその位置を記述するイメージキャプションを生成することができるという意味です。これにより、言語モデルにおける「幻覚」の問題を劇的に減少させ、モデルの精度と信頼性を向上させることができます。 この概念は、テキストを画像内のオブジェクトに特殊なトークンを通じて接続し、実質的にはオブジェクトを視覚的な文脈に結びつけるというものです。これにより幻覚が減少し、正確なイメージキャプションの生成能力が向上します。…

「40歳以上の方にオススメのAIツール(2023年11月版)」

DeepSwap DeepSwapは、説得力のあるディープフェイクのビデオと画像を作成したいすべての人のためのAIベースのツールです。ビデオ、写真、ミーム、古い映画、GIFなど、あらゆるコンテンツをリフェーシングしてコンテンツを作成することは非常に簡単です。このアプリはコンテンツの制限がないため、ユーザーは任意のコンテンツの素材をアップロードすることができます。また、初めて製品の定期購読者になると、50%オフの特典があります。 Aragon Aragonを使用して驚くほど素晴らしいプロフェッショナルなヘッドショットを簡単に作成しましょう。最新のAI技術を活用して、自分自身の高品質なヘッドショットを瞬時に作成しましょう!写真スタジオの予約や着飾る手間を省略しましょう。写真の編集と修正をすばやく行い、数日後ではなくすぐに受け取りましょう。次の仕事を得るための優位性をもたらす40枚のHD写真を受け取りましょう。 AdCreative.ai AdCreative.aiを使用して、広告とソーシャルメディアのパフォーマンスを向上させましょう。究極の人工知能ソリューションであるAdCreative.aiによって、数秒で変換率の高い広告やソーシャルメディア投稿を生成する手間を省けます。AdCreative.aiを使って成功を最大化し、努力を最小化しましょう。 Hostinger AI Website Builder Hostingerは最先端の人工知能エンジンの力を借りて、すべてのウェブサイトオーナーのために最高のAIウェブサイトビルダーを作成しています。ビルダーはデザインプロセスを案内し、レイアウト、カラースキーム、コンテンツの配置を自分のニーズに合わせて提案します。あらゆるデバイスに対応したレスポンシブデザインを維持しながら、細部を自由にカスタマイズする自由を受け入れましょう。 Otter AI Otter.AIを使用することで、リアルタイムの会議の要約、検索、アクセス可能性、セキュリティを備えた共有可能な会議のノートの作成が可能になります。音声を録音し、メモを取り、自動的にスライドをキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Notion Notionは、高度なAI技術を活用してユーザーベースを拡大しようとしています。最新の機能であるNotion AIは、ノートの要約、会議でのアクションアイテムの特定、テキストの作成と修正などのタスクをサポートする堅牢な生成型AIツールです。Notion AIは、煩雑なタスクを自動化し、ユーザーに提案やテンプレートを供給することでワークフローを効率化し、ユーザーエクスペリエンスを簡素化し、改善します。 Codium AI 忙しい開発者向けに意味のあるテストを生成します。CodiumAIを使用すると、IDE内で直接提案される複雑な(および単純な)テストを取得できるため、スマートにコーディングし、価値を高め、押し込む際の自信を持つことができます。CodiumAIを使用することで、開発者はテストとコードの分析に費やす時間を節約しながら、より速くイノベーションを実現できます。 Docktopus AI Docktopusは、100以上のカスタマイズ可能なテンプレートを備えたAIパワープレゼンテーションツールで、オンラインコンテンツ作成を簡素化します。数秒でプロフェッショナルなプレゼンテーションを作成できます。…

「New DeepMindの研究で、言語モデルのための最高のプロンプトシードが公開されました」

人工知能(AI)の着実な進化を目の当たりにしながら、月々にわたってますます困難なタスクを達成するAIを考えると、私たちの労働力の未来に一般的な懸念がありますもしAIが…

デジタルワーカーやAIエージェントのレベルを定義する時が来ましたこれは自動運転車と同様のものですIDWAがプロセスをスタートします

AIの急速な発展は、ますます多くのデジタルワーカー、AIエージェント、およびAIエージェントプラットフォームの出現をもたらし、これらは自己のタスクの実行、意思決定、および行動が可能となっています。 自動運転車の文脈において、自動車技術者協会(SAE)は、レベル0からレベル5までの6段階の自律性レベルを定義するためのスケールを開発しました。このスケールでは、レベル0では人間のドライバーが完全に制御し、レベル5では車両が完全に自律的に動作し、どんな環境でも運行できるとされています。 同様のスケールがデジタルワーカー/ AIエージェント向けに開発され、必要とされるべきです。これにより、ユーザーと開発者の期待を明確にすることができ、このエコシステムのより迅速かつ持続可能な開発のための業界標準を定義する可能性があります。IDWA(International Digital Workers Association)は、デジタルワーカー(デジタルエンプロイ)自律性レベルの草案を11月8日にシリコンバレーで開催されるIDWA-Forumで提案します。 AIエージェントの自律性レベルを定義することのいくつかの主な利点は次のとおりです: 透明性の向上:AIエージェントができること、できないことを明確にすることで、ユーザー間の信頼構築に役立ちます。 安全性の向上:AIエージェントの能力を明確に定義することで、安全かつ責任ある使用が実現されるようになります。 責任の縮小:AIの開発に対する明確なガイドラインの確立により、AI開発者の責任リスクを減らすことができます。 しかし、これは容易な課題ではありません。いくつかの課題には次のようなものがあります: AIの複雑さ:AIエージェントは理解し予測するのが難しい複雑なシステムです。これにより、自律性の異なるレベル間の明確な境界を定義することが難しくなります。 AIの急速な発展:AIの分野は常に進化しており、自律性レベルの定義を定期的に更新する必要があります。 IDWAはこの課題に取り組み、デジタルワーカーやAIエージェントの自律性レベルを定義するためのプロセスを開始するために、レベル0(タスクの自動化なし)、レベル4(自律的なタスク管理)からレベル8(リーダーシップ)までの8段階の草案を提案しています。 IDWA-ForumはKuzma Frostが制作しています。 IDWAはDavid YangとMichael Engelに率いられています。 投稿: 自動運転車と同様にデジタルワーカーとAIエージェントの自律性レベルを定義する時が来た:IDWAがプロセスを開始 元の記事: MarkTechPost

「初めに、AWS上でMONAI Deployを使用して医療画像AI推論パイプラインを構築しましょう!」

この記事では、MONAI Deploy App SDKで構築されたアプリケーションに再利用可能なMAPコネクタを作成する方法を紹介しますこれにより、クラウドネイティブなDICOMストアから医療画像AIのワークロードへの画像データの取得を統合し、高速化することができますMONAI Deploy SDKは、病院の運用をサポートするために使用することができますさらに、MAP AIアプリケーションをSageMakerでスケールアップするための2つのホスティングオプションもデモンストレーションします

「Amazon CodeWhispererで持続可能性を最適化しましょう」

この投稿では、Amazon CodeWhispererが、リソース効率を高めることを通じたコードの最適化にどのように役立つかについて探っています計算リソースの効率的なコーディングは、1行のコードを処理するために必要なエネルギー量を減らすことを目指す技術の一つであり、結果として企業が総合的により少ないエネルギーを消費できるように支援しますクラウドコンピューティングの時代において[…]

クラウドウォッチの高度なメトリクス、ダッシュボード、アラートを使用してAWSのコストを最適化する

この記事では、Amazon CloudWatchを活用した高度なダッシュボードを使用して、AWSのコストを効率的に管理および分析する方法について深く掘り下げます

「Matplotlibを使用したプロットのスタイリング方法」

数十年前、母親はクリスマスプレゼントとして私にマルーンのベロアのトラックスーツをくれましたそれはひどいものでしたが、私はそれが現代的なスタイルではないと返答しました彼女は嘲笑的に鼻で笑って言いました、「あなたが…」(An approximate translation)

「AIrtist:芸術における共創とコンピューターと人間の協力」

「創造的なプラクティショナーの多くは、人工知能によって脅かされるどころか、既にそれを受け入れていると言っても過言ではないそんな彼らの取り組みには、新しい、そして予想だにしない結果が生まれている」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us