Learn more about Search Results MarkTechPost - Page 161

DeepMindの研究者たちは、任意のポイントを追跡するための新しいAIモデルであるTAPIRをオープンソース化しましたこのモデルは、ビデオシーケンス内のクエリポイントを効果的に追跡します

コンピュータビジョンは、人工知能の最も人気のある分野の1つです。コンピュータビジョンを使用したモデルは、デジタル画像、動画、またはその他の視覚的入力など、さまざまな種類のメディアから有意義な情報を導き出すことができます。それは、機械が視覚情報を知覚・理解し、その詳細に基づいて行動する方法を教えるものです。新しいモデルであるTracking Any Point with per-frame Initialization and Temporal Refinement(TAPIR)の導入により、コンピュータビジョンは大きく前進しました。TAPIRは、ビデオシーケンスで特定の関心点を効果的に追跡することを目的として設計されました。 TAPIRモデルの背後にあるアルゴリズムは、Google DeepMind、VGG、エンジニアリングサイエンス学科、そしてオックスフォード大学の研究者チームによって開発されました。TAPIRモデルのアルゴリズムは、2つのステージ、すなわちマッチングステージとリファインメントステージから構成されています。マッチングステージでは、TAPIRモデルは各ビデオシーケンスフレームを個別に分析し、クエリポイントに適した候補点マッチを見つけます。このステップは、各フレームでクエリポイントの最も関連性が高い点を特定することを目的としており、TAPIRモデルがビデオ全体でクエリポイントの移動を追跡できるようにするため、フレームごとにこの手順を実行します。 候補点マッチが特定されるマッチングステージには、リファインメントステージの使用が続きます。このステージでは、TAPIRモデルは、局所的相関に基づいて軌跡(クエリポイントがたどるパス)とクエリ特徴を更新し、各フレームの周囲の情報を考慮してクエリポイントの追跡の精度と正確性を向上させます。リファインメントステージにより、局所的相関を統合することで、モデルのクエリポイントの動きを正確に追跡し、ビデオシーケンスの変動に対応する能力が向上します。 TAPIRモデルの評価には、ビデオトラッキングタスクの標準化された評価データセットであるTAP-Vidベンチマークが使用されました。その結果、TAPIRモデルは、ベースライン技術よりも明らかに優れた性能を発揮しました。性能改善は、平均ジャッカード(AJ)という指標を用いて測定され、DAVIS(Densely Annotated VIdeo Segmentation)ベンチマークにおいて、TAPIRモデルは他の手法に比べてAJで約20%の絶対的な改善を達成したことが示されました。 モデルは、長いビデオシーケンスでの高速な並列推論を容易にするように設計されており、複数のフレームを同時に処理できるため、トラッキングタスクの効率を向上させます。チームは、モデルをライブで適用できるように設計し、新しいビデオフレームが追加されるたびにポイントを処理・追跡できるようにしています。256×256ビデオで256ポイントを約40フレーム/秒の速度で追跡でき、解像度の高い映画を処理できるように拡張することもできます。 チームは、ユーザーがインストールせずにTAPIRを試すことができる2つのオンラインGoogle Colabデモを提供しています。最初のColabデモでは、ユーザーが自分のビデオでモデルを実行し、モデルのパフォーマンスをテストして観察するインタラクティブな体験を提供します。2番目のデモでは、オンラインでTAPIRを実行することに焦点を当てています。また、提供されたコードベースをクローンし、モダンなGPUで自分自身のWebカメラのポイントを追跡することによって、ユーザーはTAPIRをライブで実行することができます。

AIは自己を食べるのか?このAI論文では、モデルの崩壊と呼ばれる現象が紹介されており、モデルが時間の経過とともに起こり得ないイベントを忘れ始める退行的な学習プロセスを指します

安定した拡散により、言葉だけで画像を作ることができます。GPT-2、GPT-3(.5)、およびGPT-4は、多くの言語の課題で驚異的なパフォーマンスを発揮しました。この種の言語モデルについての一般の知識は、ChatGPTを通じて最初に公開されました。大規模言語モデル(LLM)は恒久的なものとして確立され、オンラインテキストおよび画像エコシステム全体を大幅に変えることが期待されています。大量のWebスクレイピングデータからのトレーニングは、十分な考慮が与えられた場合にのみ維持できます。実際に、LLMが生成したコンテンツをインターネットから収集したデータに含めることで、システムとの真の人間の相互作用に関する取得されたデータの価値は高まるでしょう。 英国とカナダの研究者は、モデルの崩壊が、あるモデルが他のモデルによって生成されたデータから学習すると発生することを発見しました。この退化的なプロセスにより、モデルは時間の経過とともに真の基盤となるデータ分布の追跡を失い、変化がない場合でも、誤って解釈されるようになります。彼らは、ガウス混合モデル、変分オートエンコーダー、および大規模言語モデルの文脈でモデルの失敗の事例を提供することによって、この現象を説明しています。彼らは、獲得された行動が世代を超えて推定値に収束し、この真の分布に関する知識の喪失が尾の消失から始まる方法を示し、この結果が機能推定エラーがないほぼ最適な状況でも不可避であることを示しています。 研究者たちは、モデルの崩壊の大きな影響について述べ、基盤となる分布の尾の場所を特定するために生データにアクセスすることがどれだけ重要かを指摘しています。したがって、LLMとの人間の相互作用に関するデータがインターネット上で大規模に投稿される場合、データ収集を汚染し、トレーニングに使用することがますます役立つようになるでしょう。 モデル崩壊とは何ですか? 学習済みの生成モデルの一世代が次の世代に崩壊するとき、後者は汚染されたデータでトレーニングされるため、世界を誤解することになり、破綻的な忘却過程とは対照的に、このアプローチでは、時間を通じて多くのモデルを考慮することを考慮しています。モデルは以前に学習したデータを忘れないで、彼らのアイデアを強化することで彼らが実際に現実であると認識するものを誤って解釈するようになります。これは、様々な世代を通じて組み合わされた二つの異なる誤り源によって起こるため、過去のモデルから生じるものであり、この特定の誤りメカニズムが最初の世代を超えて生き残る必要があります。 モデル崩壊の原因 モデルの失敗の基本的および二次的な原因は以下の通りです。 最も一般的なエラーは統計的近似の結果であり、有限のサンプルがあると起こりますが、サンプルサイズが無限に近づくにつれて減少します。 関数近似器が十分に表現力がない(または元の分布を超えて過剰に表現力がある場合がある)ために引き起こされる二次的なエラーを機能近似エラーと呼びます。 これらの要因は、モデル崩壊の可能性を悪化または緩和することができます。より良い近似力は、統計的ノイズを増幅または減衰させることができるため、基盤となる分布のより良い近似をもたらす一方で、それを増幅することもできます。 モデル崩壊は、再帰的にトレーニングされた生成モデルすべてで発生すると言われており、すべてのモデル世代に影響を与えます。彼らは実際のデータに適用されると崩壊する基本的な数学モデルを作成することができますが、興味のある値の解析方程式を導くために使用することができます。彼らの目標は、様々なエラータイプの影響を元の分布の最終近似に置く数値を示すことです。 研究者たちは、別の生成モデルからのデータでトレーニングすることによってモデル崩壊が引き起こされることがわかり、分布のシフトが生じるため、モデルがトレーニング問題を誤って解釈するようになると示しています。長期的な学習には、元のデータソースにアクセスし、LLMsによって生成された他のデータを時間をかけて利用する必要があります。LLMsの開発と展開に参加するすべての当事者が、証明問題を解決するために必要なデータを伝達し、共有するためにコミュニティ全体で調整することが1つのアプローチです。技術が広く採用される前にインターネットからクロールされたデータまたは人間によって提供されたデータにアクセスすることができるため、LLMsの後続バージョンをトレーニングすることがますます簡単になる可能性があります。 以下をチェックしてください: 論文と参考記事。 24k+ ML SubReddit、Discordチャンネル、および電子メールニュースレターに参加することを忘れないでください。そこでは、最新のAI研究ニュース、クールなAIプロジェクトなどを共有しています。上記の記事に関する質問がある場合や、何か見落としがあった場合は、お気軽に[email protected]までメールでお問い合わせください。

より小さい相手による言語モデルからの知識蒸留に深く潜入する:MINILLMによるAIのポテンシャルの解放

大規模言語モデルの急速な発展による過剰な計算リソースの需要を減らすために、大きな先生モデルの監督の下で小さな学生モデルを訓練する知識蒸留は、典型的な戦略です。よく使われる2つのKDは、先生の予測のみにアクセスするブラックボックスKDと、先生のパラメータを使用するホワイトボックスKDです。最近、ブラックボックスKDは、LLM APIによって生成されたプロンプト-レスポンスペアで小さなモデルを最適化することで、励ましを示しています。オープンソースのLLMが開発されるにつれて、ホワイトボックスKDは、研究コミュニティや産業セクターにとってますます有用になります。なぜなら、学生モデルはホワイトボックスのインストラクターモデルからより良いシグナルを得るため、性能が向上する可能性があるためです。 生成的LLMのホワイトボックスKDはまだ調査されていませんが、小規模(1Bパラメータ)の言語理解モデルについては、主にホワイトボックスKDが調査されています。この論文では、彼らはLLMのホワイトボックスKDを調べています。彼らは、一般的なKDが課題を生成的に実行するLLMにとってより優れている可能性があると主張しています。シーケンスレベルモデルのいくつかの変種を含む標準的なKD目標は、教師と学生の分布の近似前方クルバック・ライブラー発散(KLD)を最小化し、KLとして知られています。教師分布p(y|x)と学生分布q(y|x)によってパラメータ化され、pがqのすべてのモードをカバーするように強制する。出力空間が有限の数のクラスを含むため、テキスト分類問題においてKLはよく機能します。したがって、p(y|x)とq(y|x)の両方に少数のモードがあることが保証されます。 しかし、出力空間がはるかに複雑なオープンテキスト生成問題では、p(y|x)はq(y|x)よりもはるかに広い範囲のモードを表す場合があります。フリーラン生成中、前方KLDの最小化は、qがpの空白領域に過剰な確率を与え、pの下で非常にありそうもないサンプルを生成することにつながる可能性があります。この問題を解決するために、コンピュータビジョンや強化学習で一般的に使用される逆KLD、KLを最小化することを提案しています。パイロット実験は、KLを過小評価することで、qがpの主要なモードを探し、空いている領域を低い確率で与えるように駆動することを示しています。 これは、LLMの言語生成において、学生モデルがインストラクター分布の長いテールバージョンを学習しすぎず、誠実さと信頼性が必要な実世界の状況で重要な応答の正確性に集中することを意味します。彼らは、ポリシーグラディエントで目標の勾配を生成してmin KLを最適化します。最近の研究では、PLMの最適化にポリシーオプティマイゼーションの効果が示されています。ただし、モデルのトレーニングはまだ過剰な変動、報酬のハッキング、および世代の長さのバイアスに苦しんでいることがわかりました。そのため、彼らは以下を含めます。 バリエーションを減らすための単一ステップの正則化。 報酬のハッキングを減らすためのティーチャー混合サンプリング。 長さのバイアスを減らすための長さ正規化。  広範なNLPタスクを含む指示に従う設定では、The CoAI Group、清華大学、Microsoft Researchの研究者は、MINILLMと呼ばれる新しい技術を提供し、パラメータサイズが120Mから13Bまでのいくつかの生成言語モデルに適用します。5つの指示に従うデータセットと評価のためのRouge-LおよびGPT-4フィードバックを使用します。彼らのテストは、MINILMがすべてのデータセットでベースラインの標準KDモデルを常に打ち負かすことを示しています(図1を参照)。さらに研究により、MINILLMは、より多様な長い返信を生成するのに適しており、露出バイアスが低く、キャリブレーションが向上していることがわかりました。モデルはGitHubで利用可能です。 図1は、MINILLMとシーケンスレベルKD(SeqKD)の評価セットでの平均GPT-4フィードバックスコアの比較を示しています。左側にはGPT-2-1.5Bがあり、生徒としてGPT-2 125M、340M、および760Mが動作します。中央には、GPT-2 760M、1.5B、およびGPT-Neo 2.7Bが生徒であり、GPT-J 6Bがインストラクターです。右側にはOPT 13Bがあり、生徒としてOPT 1.3B、2.7B、および6.7Bが動作しています。

50以上の最新の最先端AIツール(2023年7月)

AIツールは急速に開発が進んでおり、新しいものが定期的に導入されています。以下は、日常のルーティンを強化することができるいくつかのAIツールです。 tl;dv GPTモデルによって動作するこのツールは、ZoomやGoogle Meetの会議録音ツールです。tl;dvは、通話をユーザーのために書き起こして要約します。 Otter AI 人工知能を使用して、Otter.AIは、共有可能で検索可能なリアルタイムの会議の議事録をユーザーに提供します。 Taskade Taskadeは、タスクやプロジェクトを効率的に管理するのに役立つAI生産性ツールです。 Notion AI Notion AIは、Notionワークスペース内で書く、アイデアを出し、編集し、要約するのを支援するライティングアシスタントです。 Bing Microsoftが開発したAIパワードのBing検索エンジンは、ウェブを検索するたびに研究アシスタント、パーソナルプランナー、クリエイティブパートナーのようなものを持つようになりました。 Bard Googleが開発したチャットボットのBardは、生産性を高め、アイデアを形にするのに役立ちます。 Forefront Forefront AIは、GPT-4、画像生成、カスタムパーソナ、共有可能なチャットに無料でアクセスできるプラットフォームであり、企業に改善された効率性とユーザーエクスペリエンスを提供します。 Merlin Merlinは、ブログサマライザーやGmailのAIライターなどの機能を提供して、ユーザーが任意のウェブサイト上で任意のタスクを完了できるようにするChatGPT拡張機能です。 WNR AI…

Gmailを効率的なメールソリューションに変える6つのAI機能

GoogleのGmailは、人工知能(AI)の力を活用してユーザーエクスペリエンスを向上させることに最前線で取り組んでいます。AIをプラットフォームに統合する歴史を持ち、Gmailは進化を続け、電子メールの管理を簡素化し、コミュニケーションを効率化する機能を提供しています。この記事では、Gmailを世界中のユーザーにとって必須のツールにする6つのAI機能を探究します。 1. 「書き方を教えて」: Gmailの最新機能である「書き方を教えて」機能は、シンプルなプロンプトに基づいて完全なメールの下書きを生成し、ユーザーが簡単にメールを作成することができるようにします。Workspace Labsプログラムを介してアクセスできるこの機能により、生成的AI言語モデルを活用して、ユーザーは自分の好みに応じてメールを磨き、カスタマイズ、調整することができます。また、このツールは、以前の会話から詳細を抽出し、文脈に沿ったアシストを提供することもできます。 2. Smart Compose: Smart Composeは、ユーザーがタイプする間に文言のオプションを提案することで、メール作成を革命化します。 Tensor Processing Units (TPUs) 上で動作するこのハイブリッド言語生成モデルにより、ユーザーは「Tab」ボタンを1回タップするだけで提案されたフレーズや文章を自分の下書きに組み込むことができます。効率性を向上させるだけでなく、Smart Composeは新しい英語、スペイン語、フランス語、イタリア語のフレーズを提示することによって言語学習者を支援します。 3. Smart Reply: GmailのSmart Reply機能は、受信したメッセージに対して文脈に沿った最大3つの返信を提供することで、メールのコミュニケーションを加速します。深層ニューラルネットワークを含む高度な機械学習技術によって動作するSmart Replyは、単純な「はい」または「いいえ」の回答を超えた微妙なオプションを提供します。ユーザーは迅速に適切な返信を選択して送信することができ、時間と労力を節約することができます。Smart Replyは、ユーザーのコミュニケーションスタイルに適応し、パーソナライズを向上させます。 4.…

TRACE(トレース)に会おう:グローバル座標トラッキングを使用した正確な3D人体姿勢および形状推定のための新しいAIアプローチ

多くの分野が、3D人間姿勢と形状(HPS)の最近の進歩を利用し、活用することができます。しかし、ほとんどのアプローチは一度に単一のフレームしか考慮せず、カメラに対する人間の位置を推定します。さらに、これらの技術は個人を追跡できず、その世界的な移動経路を取得することができません。ほとんどの手持ちのビデオは、カメラが揺れ動くジャイロスコープで撮影されるため、この問題はより複雑になります。 これらの問題を解決するために、哈爾濱工業大学、京東探索院、マックスプランク知能システム研究所、HiDream.aiの研究者たちは、5D表現(空間、時間、アイデンティティ)を使用して、状況における人物に関する新しいエンドツーエンドの推論を実装しました。提案されたTRACE技術には、さまざまな革新的なアーキテクチャ機能があります。特に、2つの新しい「Maps」を使用して、カメラの視点と世界の視点の両方から、人々の3Dモーションについて推論することができます。第2のメモリモジュールの助けを借りて、長期の不在の後も個人を追跡することができます。TRACEは、移動するカメラからグローバル座標の3D人間モデルを単一のステップで回復し、同時にその動きを追跡します。 彼らの目的は、各人のグローバル座標、3D位置、形状、アイデンティティ、およびモーションを同時に再構成することでした。これを行うために、TRACEは、まず、専用のブレーンネットワークを使用して、各サブタスクをデコードする前に、時間情報を抽出します。まず、TRACEは、ビデオとモーションを別々の特徴マップにエンコードするために2つの並列軸を使用し、1つは時間的な画像(F’i)用で、もう1つはモーション(Oi)用です。これらのフィーチャを使用して、検出およびトラッキングサブツリーが複数の対象を追跡して、カメラ座標内の3D人間のモーションを再構成します。 推定された3Dモーションオフセットマップは、2つのフレーム間の各被写体の相対的な空間移動を示します。革新的なメモリユニットは、推定された3D検出と3Dモーションオフセットを使用して、被写体のアイデンティティを抽出し、カメラ座標内で人間の軌跡を構築します。小説のWorldブランチは、世界の座標系で被写体の軌跡を推定するために、世界のモーションマップを計算します。 堅牢な5D表現であっても、実際の世界のデータがないため、グローバルな人間の軌跡推定のトレーニングと評価の欠如が続いています。ただし、自然環境の動的カメラムービー(DCビデオ)のグローバル人間軌跡とカメラ姿勢をコンパイルすることは困難です。したがって、チームは、シミュレートされたカメラモーションを使用して、静止カメラで取得したワイルドフィルムをDCビデオに変換し、DynaCamという新しいデータセットを生成しました。 チームは、DynaCamデータセットと2つのマルチパーソンインザワイルドベンチマークを使用して、TRACEをテストしました。3DPWに関しては、TRACEがSOTAの結果を提供します。MuPoTS-3Dでは、TRACEが、長期の遮蔽下で人間を追跡するための既存の3D表現ベースのアプローチや検出によるトラッキング方法よりも優れた結果を達成します。調査結果は、DynaCamにおけるTRACEがGLAMRを上回ることを示しています。 チームは、将来、複雑な人間の動き、3Dシーン、およびカメラの動きを含むBEDLAMなどのトレーニングデータを使用した明示的なカメラモーション推定を調査することを提案しています。

ChatGPTのバイアスを解消するバックパック:バックパック言語モデルはトランスフォーマーの代替AI手法です

AI言語モデルは私たちの生活の中で不可欠なものになっています。情報にアクセスするために数十年間Googleを使用してきましたが、今では徐々にChatGPTに切り替えています。ChatGPTは簡潔な回答と明確な説明を提供し、必要な情報を見つけるのが通常よりも速くなります。 これらのモデルは、私たちが長年にわたって生み出したデータから学習します。その結果、私たちはAIモデルにバイアスを転送し、これは議論の対象となっています。注目されている特定のバイアスの1つは、代名詞の分布におけるジェンダーバイアスであり、モデルが文脈に基づいて「彼」「彼女」といったジェンダーに関連する代名詞を好む傾向があるというものです。 このジェンダーバイアスに対処することは、公正で包括的な言語生成を確保するために重要です。たとえば、「CEOは信じている…」という文章を始めると、モデルは彼と続け、CEOを看護師に置き換えると、次のトークンは彼女になります。この例は、バイアスを調べ、それらを緩和する方法を探るための興味深い事例研究として役立ちます。 実際には、文脈はこれらのバイアスを形成する上で重要な役割を果たします。CEOを、異なるジェンダーに一般的に関連付けられている職業に置き換えることで、観察されたバイアスを反転することができます。しかし、ここでの課題は、CEOが現れるすべての異なる文脈で一貫してデバイアスを実現することです。特定の状況に関係なく、信頼性が高く、予測可能な介入を望んでいます。言語モデルを理解し、改善するためには解釈性と制御が重要です。残念ながら、現在のTransformerモデルは、その性能に驚くべきものがあるにもかかわらず、これらの基準を完全に満たしていません。彼らの文脈表現は、手元の文脈に依存する複雑で非線形な効果を導入します。 では、これらの課題をどのように克服できますか?大規模言語モデルに導入したバイアスにどう対処すればよいのでしょうか?Transformerを改善するべきなのでしょうか、それとも新しい構造を考えるべきなのでしょうか?答えはBackpack Language Modelsです。 Backpack LMは、センスベクトルとして知られる文脈非依存の表現を利用して、代名詞分布のデバイアス化の課題に取り組みます。これらのベクトルは、単語の意味と異なる文脈での役割を捉え、単語に複数のパーソナリティを与えます。 Backpack LMの概要。 出典:https://arxiv.org/pdf/2305.16765.pdf Backpack LMsでは、予測はセンスベクトルとして知られる文脈非依存の表現の対数線形の組み合わせになります。語彙中の各単語は、異なる文脈での単語の潜在的な役割を表す複数のセンスベクトルで表されます。 これらのセンスベクトルは、特定の文脈で予測的に有用になるように専門化されます。シーケンス内の単語のセンスベクトルの加重和は、コンテキスト関数によって決定されるシーケンス全体に作用する文脈関数によって決定されるBackpack 表現を形成し、重みが決定されます。これらのセンスベクトルを活用することで、Backpack モデルは、すべての文脈で予測可能な介入を実現します。 つまり、モデルに対して文脈非依存の変更を行っても、一貫してその振る舞いに影響を与えることができます。Transformerモデルに比べ、Backpack モデルはより透明性が高く、管理しやすいインターフェースを提供します。理解しやすく制御しやすい正確な介入を提供します。さらに、Backpack モデルは性能を犠牲にすることなく、Transformerモデルと同等の結果を実現します。 センスベクトルの例。 出典:https://backpackmodels.science/ Backpackモデルの意味ベクトルは、最新のトランスフォーマーモデルの単語埋め込みよりも豊富な単語の意味をエンコードしており、語彙の類似性タスクで優れた性能を発揮しています。さらに、職業に関する単語のジェンダーバイアスを減らすなど、意味ベクトルに介入することで、Backpackモデルが提供する制御機構が示されています。ジェンダーバイアスに関連する意味ベクトルを縮小することにより、限られた環境で文脈予測の不均衡を大幅に削減することができます。

単一モダリティとの友情は終わりました – 今やマルチモダリティが私の親友です:CoDiは、合成可能な拡散による任意から任意への生成を実現できるAIモデルです

ジェネレーティブAIは、今ではほぼ毎日聞く用語です。私はジェネレーティブAIに関する論文をどれだけ読んでまとめたか覚えていません。彼らは印象的で、彼らがすることは非現実的で魔法のようであり、多くのアプリケーションで使用できます。テキストプロンプトを使用するだけで、画像、動画、音声などを生成できます。 近年のジェネレーティブAIモデルの大幅な進歩により、以前は不可能と考えられていたユースケースが可能になりました。テキストから画像へのモデルで始まり、信じられないほど素晴らしい結果が得られたことがわかった後、複数のモダリティを扱うことができるAIモデルの需要が高まりました。 最近は、任意の入力の組み合わせ(例:テキスト+音声)を取り、様々な出力の組み合わせ(例:ビデオ+音声)を生成できるモデルの需要が急増しています。これを対処するためにいくつかのモデルが提案されていますが、これらのモデルは、共存し相互作用する複数のモダリティを含む現実世界のアプリケーションに関して制限があります。 モダリティ固有の生成モデルを多段的なプロセスでつなげることは可能ですが、各ステップの生成力は本質的に限定されるため、手間がかかり、遅いアプローチとなります。また、独立に生成された単一モダルストリームは、組み合わせるときに一貫性や整合性が欠けることがあり、後処理の同期が困難になる場合があります。 任意の入力モダリティの混合を処理し、任意の出力の組み合わせを柔軟に生成するためのモデルをトレーニングするには、膨大な計算およびデータ要件が必要です。可能な入力-出力の組み合わせの数は指数関数的に増加し、多数のモダリティグループに対して整列したトレーニングデータはまれまたは存在しないためです。 ここで、この課題に取り組むために提案されたCoDiというモデルを紹介しましょう。 CoDiは、任意のモダリティの任意の組み合わせを同時に処理および生成することを可能にする新しいニューラルアーキテクチャです。 CoDiの概要。出典:https://arxiv.org/pdf/2305.11846.pdf CoDi は、入力条件付けおよび生成拡散ステップの両方で複数のモダリティを整列させることを提案しています。さらに、対照的な学習のための「ブリッジングアライメント」戦略を導入し、線形数のトレーニング目標で指数関数的な入力-出力の組み合わせを効率的にモデル化できるようにしています。 CoDi の主要なイノベーションは、潜在的な拡散モデル(LDM)、多モダル条件付けメカニズム、およびクロスアテンションモジュールの組み合わせを利用して、任意の-to-任意の生成を処理することができる能力にあります。各モダリティ用に別々のLDMをトレーニングし、入力モダリティを共有特徴空間に射影することで、CoDi は、このような設定の直接的なトレーニングなしで、任意のモダリティまたはモダリティの組み合わせを生成できます。 CoDiの開発には、包括的なモデル設計と多様なデータリソースでのトレーニングが必要です。最初に、テキスト、画像、動画、音声などの各モダリティに対して潜在的な拡散モデル(LDM)をトレーニングします。これらのモデルは独立して並行してトレーニングでき、モダリティに固有のトレーニングデータを使用して、卓越した単一モダリティ生成品質を確保します。音声+言語のプロンプトを使用して画像を生成する場合の条件付きクロスモダリティ生成では、入力モダリティを共有の特徴空間に射影し、出力LDMは入力特徴の組み合わせに注意を払います。この多モダル条件付けメカニズムにより、拡散モデルは直接的なトレーニングなしで、任意のモダリティまたはモダリティの組み合わせを処理できるようになります。 CoDiモデルの概要。出典:https://arxiv.org/pdf/2305.11846.pdf トレーニングの第2ステージでは、CoDiは、任意の出力モダリティの任意の組み合わせを同時に生成する多対多の生成戦略を処理します。これは、各ディフューザーにクロスアテンションモジュールを追加し、環境エンコーダーを追加して、異なるLDMの潜在変数を共有潜在空間に投影することによって実現されます。このシームレスな生成能力により、CoDiは、すべての可能な生成組み合わせでトレーニングすることなく、任意のモダリティのグループを生成できるため、トレーニング目標の数を指数関数から線形関数に減らすことができます。 (※以下、原文のHTMLコードを保持します) In the second stage of training, CoDi…

20以上のスタートアップに最適なAIツール(2023年)

AIによって、職場の創造性、分析、意思決定が革命化されています。現在、人工知能の能力は、企業が拡大を急ぎ、内部プロセスをより良く管理するための絶大な機会を提供しています。人工知能の応用は、自動化や予測分析からパーソナライゼーションやコンテンツ開発まで多岐にわたります。以下は、若いビジネスに有利に働く最高の人工知能ツールの概要です。 AdCreative.ai AdCreative.aiは究極の人工知能ソリューションで、広告やソーシャルメディアのゲームを強化します。創造的な作業に数時間費やす必要がなく、数秒で生成される高変換率の広告やソーシャルメディア投稿に別れを告げましょう。今すぐAdCreative.aiで成功を最大化し、努力を最小限に抑えましょう。 DALL·E 2 OpenAIのDALLE 2は、単一のテキスト入力から独自かつ創造的なビジュアルを作成する最先端のAIアートジェネレーターです。AIモデルは、画像とテキストの説明の巨大なデータセットでトレーニングされており、書かれたリクエストに応じて詳細で視覚的に魅力的な画像を生成します。スタートアップはDALLE 2を使用して広告やウェブサイト、ソーシャルメディアページの画像を作成し、手動でグラフィックを作成する必要がなく、テキストから異なる画像を生成するこの方法で時間とお金を節約することができます。 Otter AI Otter.AIは人工知能を使用して、共有可能で検索可能、アクセス可能、安全なミーティングノートのリアルタイムトランスクリプションをユーザーに提供します。音声を記録し、ノートを書き、自動的にスライドをキャプチャし、要約を生成するミーティングアシスタントを手に入れましょう。 Notion Notionは、最新のAI技術を活用してユーザー数を増やすことを目指しています。最新機能であるNotion AIは、ノートの要約、ミーティングでのアクションアイテムの識別、テキストの作成と修正などのタスクをサポートする堅牢な生成AIツールです。 Notion AIは、煩雑なタスクを自動化し、ユーザーに提案やテンプレートを提供することで、ワークフローを合理化し、ユーザーエクスペリエンスを最適化することで、最終的に簡単で改善された体験を提供します。 Motion Motionは、ミーティング、タスク、プロジェクトを考慮した日々のスケジュールを作成するためにAIを使用する賢いツールです。計画の手間を省いて、より生産的な人生に別れを告げましょう。 Jasper 先進的なAIコンテンツジェネレーターであるJasperは、その優れたコンテンツ製作機能でクリエイティブ業界で話題となっています。Jasperは、人間のライティングパターンを認識することから効率性が生まれ、グループが興味深いコンテンツを迅速に製作することができます。ランディングページや製品説明のコピーをより良く書くためにJasperをAIパワードのコンパニオンとして使用し、より魅力的で興味深いソーシャルメディア投稿を作成することができます。 Lavender リアルタイムAIメールコーチであるLavenderは、セールス業界でゲームチェンジャーとして広く認知されており、数千人のSDRs、AEs、およびマネージャーがメールのレスポンス率と生産性を向上させています。競争力のあるセールス環境では、効果的なコミュニケーションスキルが成功に不可欠です。スタートアップはLavenderを使用して、電子メールのレスポンス率を向上させ、見込み客とのより深い関係を構築することができます。 Speak AI…

Sealとは、大規模な3Dポイントクラウドに対して自己教示学習のための2Dビジョンファウンデーションモデルを活用し、「任意のポイントクラウドシーケンスをセグメント化する」AIフレームワークです

大規模言語モデル(LLMs)は、人工知能コミュニティで大きな話題となっています。 最近の影響力と驚異的なパフォーマンスは、ヘルスケア、ファイナンス、エンターテインメントなど、広範な産業に貢献しています。 GPT-3.5、GPT 4、DALLE 2、BERTなどのよく知られたLLMs、または基礎モデルは、短い自然言語プロンプトだけで独自のコンテンツを生成することにより、非常に優れたタスクを実行し、私たちの生活を簡素化しています。 SAM、X-Decoder、SEEMなどの最近のビジョン基礎モデル(VFMs)は、コンピュータビジョンの多くの進歩を遂げています。 VFMsは2D認識タスクで大きな進展を遂げていますが、3D VFM研究はまだ改善が必要です。 現在の2D VFMsを3D認識タスクに拡張することが必要であると研究者は提言しています。 重要な3D認識タスクの1つは、自動車用LiDARセンサによってキャプチャされたポイントクラウドのセグメンテーションであり、自動運転車の安全な運行に必要です。 既存のポイントクラウドセグメンテーション技術は、主にトレーニングのために注釈付けされた大規模なデータセットに依存しています。 ただし、ポイントクラウドのラベリングは時間がかかり、困難です。 すべての課題を克服するために、研究者チームは、自己教師あり表現学習をサポートするためにVFMsから意味的に豊かな知識を収集するSealというフレームワークを紹介しました。 クロスモーダル表現学習に着想を得て、Sealは、LiDARとカメラセンサの2D-3D関係を使用してクロスモーダル表現学習に高品質の対比的サンプルを開発することにより、自動車用ポイントクラウドでセルフサポート表現学習を実現します。 Sealには、拡張性、一貫性、汎用性の3つの重要な特性があります。 拡張性 – Sealは、VFMsを単にポイントクラウドに変換することで使用し、事前トレーニングの段階で2Dまたは3Dの注釈が必要なくなります。そのため、人間の注釈が必要な時間を削減するだけでなく、大量のデータを処理できます。 一貫性:アーキテクチャは、カメラからLiDARへのスペーシャルおよびテンポラルリンク、およびポイントからセグメントステージの両方でスペーシャルおよびテンポラルリンクを強制します。 Sealは、クロスモーダル相互作用をキャプチャすることにより、ビジョン、すなわちカメラとLiDARセンサのクロスモーダル相互作用を捕捉して、両モダリティから適切で一貫したデータを含む学習された表現を確実にします。 汎用性:Sealは、さまざまなポイントクラウドデータセットを含む下流アプリケーションに対する知識移転を可能にします。 それは、さまざまな解像度、サイズ、クリーン度、汚染レベル、実際のデータ、および人工データを持つデータセットを扱います。 研究チームが挙げた主な貢献のいくつかは次のとおりです。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us