Learn more about Search Results CLIP - Page 7
- You may be interested
- 「Amazon Bedrock のエージェント付きカス...
- 増強と生産性のための人工知能
- 「Pythonにおける顧客セグメント分析:実...
- イージーフォト:あなたの個人AI写真ジェ...
- スタンフォード大学の研究者たちは、「Pro...
- Inflection AIは、テックの巨人や業界の巨...
- 「A.I.ツールが手術台で脳腫瘍を診断」
- 「2024年のデータ管理の未来予想:トップ4...
- 「KafkaとDistributed Ray Serveのデプロ...
- ChatGPTにおけるCSVファイルのクエリパフ...
- ChatGPTを使ってコーディングする方法R...
- 「50以上の最新AIツール(2023年8月)」
- StackOverflowの転機:破壊から機会への転換
- 効率化の解除:Amazon SageMaker Pipeline...
- 「目指すべき人工知能の高収入の仕事6選」
2023年のデータの求人市場を解読する:数字は過剰供給か機会を示唆しているのか?
皆がアメリカを含めたデータの仕事が見つからないようです就職市場はどの程度悪いのでしょうか?成長や需要の傾向などのデータを見てみましょう
このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています
“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標となってきました。最近では、新しいマルチモーダルな理解とオープンワールドの課題における生成スキルを持つ基礎モデルの創造に関心が高まっています。自然言語タスクのための汎用アシスタントを生成する大規模言語モデル(LLMs)の有効性にもかかわらず、コンピュータビジョンとビジョン言語の活動に対するマルチモーダルで汎用性の高いアシスタントの作成方法はまだ見つかっていません。 マルチモーダルなエージェントを作成する現在の取り組みは、一般に2つのグループに分けることができます: (i) LLMを使用したエンドツーエンドのトレーニング。これにより、ビジュアル情報を解釈するためのLLMのトレーニングが連続的に行われ、画像テキストデータとマルチモーダルな命令実行データを使用して大規模なマルチモーダルモデル(LMMs)が作成されます。LLaVAやMiniGPT-4などのオープンソースのモデル、およびFlamingoやマルチモーダルGPT-4などの非公開のモデルは、印象的なビジュアル理解と推論スキルを示しています。これらのエンドツーエンドのトレーニングのアプローチは、LMMが状況に応じた学習などの新たなスキルを獲得するのには適していますが、実際の世界のマルチモーダルアプリケーションに不可欠な画像セグメンテーションや生成などの幅広い能力をシームレスに統合できる一貫したアーキテクチャを作成することはまだ難しい課題です。 (ii) LLMを使用したツールチェイン。これにより、LLMがトレーニングされたビジョンモデルなどのさまざまなツールを呼び出して必要な(サブ)タスクを実行することができるように、適切に設計されたプロンプトを使用します。VisProg、ViperGPT、Visual ChatGPT、X-GPT、MM-REACTなどがよく知られています。これらのアプローチの強みは、(新しい)ツールを安価に開発しAIエージェントに統合することで、さまざまなビジュアルタスクを処理できる能力です。ただし、プロンプトの柔軟性と信頼性を向上させる必要があります。広範で多様なツールセットから適切なツールを信頼性高く選択し、アクティブ化して最終的なマルチモーダルタスクの解決策を提供できるようにするためです。 図1:LLaVA-Plusが習得したスキルを活用した可能性を示すグラフィカルな表現。 清華大学、マイクロソフトリサーチ、ウィスコンシン大学マディソン校、香港科技大学、およびIDEA Researchの研究者は、この論文で、LLaVA-Plus(大規模な言語とビジョンアシスタント)を紹介しています。このマルチモーダルアシスタントは、視覚的な指示の微調整を通じてLMMの能力を体系的に強化するエンドツーエンドのトレーニング手法を用いてツールの使用スキルを獲得します。これまでに説明されたツールチェインとエンドツーエンドのトレーニングの利点を組み合わせる試みとして、これが初めて文書化された試みであると述べています。LLaVA-Plusに付属するスキルリポジトリには、多様なビジョンとビジョン言語のツールが豊富に用意されています。この設計は、「心の社会」という理論の例であり、個々のツールは特定のタスクのために作成され、それ単体では限定的な利用が可能ですが、これらのツールが組み合わさると、より高い知性を示す新たなスキルが生まれます。 例えば、LLaVA-Plusはユーザーのマルチモーダルな入力に応じて、新しいワークフローを即座に作成し、スキルライブラリから適切なツールを選択してアクティブ化し、その実行結果を組み立てて、モデルトレーニング中には見えない様々な実世界のタスクを完了することができます。指示の微調整により、LLaVA-Plusは時間の経過とともに追加の機能やインストゥルメントを獲得することが可能です。特定のユースケースや機能のために作成された新しいマルチモーダルツールを考えてみてください。調整のための指示実行データを作成するために、このツールを必要とする関連するユーザー指示とその実行結果または後続結果を収集します。指示の微調整後、LLaVA-Plusはこの新しいツールを使用して以前には不可能だったジョブを達成する方法を学習し、より多くの機能を獲得します。 “` さらに、LLaVA-Plusは、マルチモーダルツールと組み合わせて視覚的な手がかりのみを使用することによって、これまでのLLMのツール使用トレーニングに関する研究とは異なるアプローチを取っています。一方、LLaVA-Plusは、すべての人間-AI接触セッションで未処理の視覚信号を使用することにより、LMMの計画と推論の能力を向上させます。要約すると、彼らの論文の貢献は以下の通りです: • 新しいマルチモーダルの指示従属ツールに関するデータの使用。ChatGPTとGPT-4をラベリングツールとして使用し、人間-AIインタラクションセッションでのツールとして使用するための視覚言語の指示従属データの選択のための新しいパイプラインを説明しています。 • 新しい大規模なマルチモーダルヘルパー。彼らはLLaVAを補完する広範で多様な外部ツールの統合を含む、多くの用途を持つLLaVA-Plusを作成しました。図1は、LLMの可能性を大幅に拡張するLLaVA-Plusの様子を示しています。彼らの実証調査は、特に幅広い実世界の活動におけるVisiT-Benchでの新しいSoTAのより良い結果を一貫して示すことにより、LLaVA-Plusの有効性を確認しています。 • ソースフリー。彼らが公開する資料には、生成されたマルチモーダルの指示データ、コードベース、LLaVA-Plusのチェックポイント、およびビジュアルチャットデモが含まれます。
「AIが非営利団体に持続的な価値を創造する方法」
人工知能(AI)は、世界中の無数の産業を変革してきましたそれは非営利団体にも新たな道を開いており、資金調達から業務管理まで、幅広い分野で驚くべき潜在力を提供していますどのような可能性があるかを示すために、ここではAIがこれらの団体と彼らが行う重要な仕事に持続的な価値を創造している方法を紹介します画像の出典:Pexels... AIが非営利団体に持続的な価値を創造する方法 続きを読む »
ドリームクラフト3D:ブートストラップされた拡散先行での階層的3D生成
「生成AIモデルは、AI業界内でしばらくの間、注目のトピックとなっています2D生成モデルの最近の成功は、私たちが今日の視覚コンテンツを作成するために使用する方法を築き上げましたAIコミュニティは2D生成モデルで驚異的な成功を収めましたが、3Dコンテンツの生成はまだ…」
「リトリーバル増強生成」とは何ですか?
最新の生成型AIの進展を理解するには、法廷を想像してみてください。 判事は法律の一般的な理解に基づいて事件を審理し、判決を下します。時には、医療過誤訴訟や労働紛争などの場合には専門の知識が必要となり、判事は裁判事務官を法律図書館に派遣して先例や特定の判例を探し出し、引用する必要があります。 優れた判事のように、大規模な言語モデル(LLM)はさまざまな人間のクエリに応答することができます。しかし、出典を引用した権威ある回答を提供するためには、モデルに調査を行うアシスタントが必要です。 AIの裁判事務官としてのプロセスは、検索補完生成(RAG)と呼ばれています。 名前の由来 2020年の論文の主著者であるパトリック・ルイスは、この肩書きのアクロニムが成長する方法や将来の生成型AIの代表であると信じており、数百の論文や商用サービスにまたがる数々の手法を説明するため、名前があまりにも失礼なものになったことを申し訳なく思っています。 パトリック・ルイス 「私たちは、自分たちの研究がこのように広まるとは知っていたなら、名前にもっと考えを巡らせていたでしょう」とルイスはシンガポールでのインタビューで述べ、彼のアイデアをデータベース開発者の地域会議で共有していました。 「もともとより魅力的な名前を持つつもりでしたが、論文を書く時には誰もより良いアイデアを持っていませんでした」とルイスは言い、現在はAIスタートアップCohereでRAGチームを率いています。 では、検索補完生成とは何ですか? 検索補完生成は、外部ソースから取得した事実によって生成型AIモデルの正確性と信頼性を高める技術です。 言い換えると、LLMの機能にあるギャップを埋める役割を果たします。LLMはネットワークの一部であり、通常はそのパラメータの数で測定されます。LLMのパラメータは、基本的には人間が文を形成する際の一般的なパターンを表します。 この深い理解は、パラメータ化された知識と呼ばれることもあり、LLMが迅速に一般的なプロンプトに応答するのに役立ちます。しかし、現在のトピックやより具体的なトピックにさらに深く入り込みたいユーザーには役立ちません。 内部、外部のリソースの結合 ルイスとその同僚たちは、検索補完生成を開発して、生成型AIサービスを特に最新の技術的詳細が豊富な外部リソースにリンクさせました。 この論文は、かつてのFacebook AI Research(現在はMeta AI)、ロンドン大学、ニューヨーク大学の共著者たちとともに、RAGを「汎用の微調整レシピ」と呼んでいます。なぜなら、ほとんどのLLMがほぼすべての外部リソースに接続するために使用できるからです。 ユーザーの信頼構築 検索補完生成によって、モデルはユーザーが確認できるような引用可能な情報源を得ることができます。これによって信頼性が高まります。 さらに、この技術はユーザーのクエリの曖昧さを解消するのにも役立ちます。そして、モデルが誤った予測を行う可能性を減らし、幻覚と呼ばれる現象を防ぎます。 RAGのもう1つの大きな利点は、実装が比較的簡単であるということです。ルイスと論文の共著者3人によるブログによれば、開発者はたった5行のコードでプロセスを実装することができます。 これにより、追加のデータセットでモデルを再訓練することよりも速く、費用を抑えることができます。また、ユーザーは新しいソースを瞬時に切り替えることができます。…
「人種は心臓病を予測するために使用できません」
アメリカ心臓協会は広く使用されている心臓リスクアルゴリズムから人種を予測する要素を取り除く予定です
「Zero123++:一枚の画像から一貫したマルチビュー拡散ベースモデルへ」
この数年間、新たなAI生成モデルは性能、効率、生成力の面で急速に進化してきましたこれらのモデルは広範なデータセットと2D拡散生成手法を活用しており、2Dおよび一部の3Dメディアコンテンツ(テキスト、画像、ビデオなど)の様々な形式を生成する能力が非常に高いのです
「言語モデルは単語以上に推論できるのか?複雑なタスクのための多層隠れ状態における暗黙の推論の探求」
大規模言語モデル(LLM)は、言語理解や推論のようなタスクで傑出した能力を示し、AIシステムとの対話方法においてパラダイムシフトをもたらしています。LLMの能力を向上させるために、研究者は一般的には思考の鎖促進技術を使用します。この技術では、モデルの応答をガイドするために中間の推論ステップを使用します。この技術は人間が問題を解決する方法と似ていますが、LLMの計算能力を完全に活用していないため、この論文の著者は代替の推論手法を探求しました。 思考の鎖(CoT)メソッドは素晴らしい結果を示していますが、使用する際の欠点は、求められる最終回答の生成が遅れることです。研究者たちは、この欠点を解決するために暗黙的な思考の鎖という新しいアプローチを導入しました。その名前が示す通り、暗黙的な思考の鎖では、CoTの推論に関与するステップを暗示的にし、モデルが直接最終回答を生成するようにします。 明示的なCoT推論とは異なり、LLMは最終出力の前に中間ステップを生成するように訓練されますが、暗黙的なCoT推論では、モデルは中間ステップをトレーニング時のみ見ます。それはこれらのステップを内部状態で処理し、明示的な推論をバイパスしてコンセプトを徹底的に内部化するように学習します。 研究者たちは、暗黙的なCoT推論を実現するために通常の「教師強制」とは異なる「教師訓練」という方法を使用しました。彼らの戦略は、まず教師の隠れ状態を読み取り、その一部を利用して最終回答を生成するために生徒モデルを訓練することです。次に、知識の蒸留というプロセスを使用して、より大きなモデルからより小さなモデルへの知識の移転を行います。入力を基に、エミュレータを訓練して教師の隠れた状態を予測します。重要なことに、このエミュレーションはモデルの階層を縦方向に横断し、明示的な推論ステップの必要性を排除します。 最終的なステップでは、エミュレータを生徒と組み合わせて、エミュレートされた教師の思考プロセスに基づいて最終出力を生成します。統合システムはエンドツーエンドで最適化され、生徒モデルが独自の推論手法を開発し、教師とは異なる方法を展開することが可能になります。 研究者たちは、多桁の乗算と小学校の数学問題の2つのタスクで実験を行いました。その結果、明示的なCoTなしで以前に解けなかったタスクをモデルが解くことができるようになりました。暗黙的なCoTにおいて4桁の乗算で97%の正確性を達成したGPT-2 Smallモデルは、5桁の乗算のテストでパフォーマンスが低下したことから、テクニックの有効性は必要な計算に対して十分な中間層を持っていることに依存していることがわかりました。暗黙的なCoT技術は特に複数の中間ステップを必要とするタスクにおいて、より高い推論速度を持っていることも観察されました。 この技術に関連するいくつかの主要な問題は、透明性の欠如、教師の思考プロセスへの強い依存、および明示的なCoTと比較してのパフォーマンスの遅れです。ただし、この研究は暗黙的なCoTの構築に向けた初歩的なステップに過ぎず、研究者たちはこのプロセスをさらに最適化し、LLMの推論能力を強化するためにこの作業の上に多くの調整ができると考えています。
「ジェネラティブAI:2024年の人事におけるゲームチェンジャー」
労働力の急速な変化が特徴となる時代において、近代的な学習プラットフォームのリーダーであるCYPHER Learningが実施した画期的な研究は、HRやビジネスリーダーが生成AIに対して抱く課題や態度に関して重要な洞察を明らかにしていますこの研究は、能力向上の必要性とAI技術の交差点に焦点を当て、組織がアプローチする方法を再構築しています
「画像のためのモダンなセマンティック検索」
「数年前の「あの一枚の写真」を見つけたいんですね場面に関するいくつかの具体的な情報を覚えているんですが、Apple Photosでは意味検索ができず、Google Photosでも制限がありますので…」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.