Learn more about Search Results 24 - Page 278

ChatGPTのデジタル商品をオンラインで販売するプロンプト

ChatGPTは、オンラインでデジタル製品を販売して収益を上げたい人にとって、ありがたい存在です

CapPaに会ってください:DeepMindの画像キャプション戦略は、ビジョンプレトレーニングを革新し、スケーラビリティと学習性能でCLIPに匹敵しています

「Image Captioners Are Scalable Vision Learners Too」という最近の論文は、CapPaと呼ばれる興味深い手法を提示しています。CapPaは、画像キャプションを競争力のある事前学習戦略として確立することを目的としており、DeepMindの研究チームによって執筆されたこの論文は、Contrastive Language Image Pretraining(CLIP)の驚異的な性能に匹敵する可能性を持つと同時に、簡単さ、拡張性、効率性を提供することを強調しています。 研究者たちは、Capと広く普及しているCLIPアプローチを比較し、事前学習コンピュータ、モデル容量、トレーニングデータを慎重に一致させ、公平な評価を確保しました。研究者たちは、Capのビジョンバックボーンが、少数派分類、キャプション、光学式文字認識(OCR)、視覚的問い合わせ(VQA)を含むいくつかのタスクでCLIPモデルを上回ったことがわかりました。さらに、大量のラベル付きトレーニングデータを使用した分類タスクに移行する際、CapのビジョンバックボーンはCLIPと同等の性能を発揮し、マルチモーダルなダウンストリームタスクにおける潜在的な優位性を示しています。 さらに、研究者たちは、Capの性能をさらに向上させるために、CapPa事前学習手順を導入しました。この手順は、自己回帰予測(Cap)と並列予測(Pa)を組み合わせたものであり、画像理解に強いVision Transformer(ViT)をビジョンエンコーダーとして利用しました。画像キャプションを予測するために、研究者たちは、標準的なTransformerデコーダーアーキテクチャを使用し、ViTエンコードされたシーケンスをデコードプロセスに効果的に使用するために、クロスアテンションを組み込みました。 研究者たちは、訓練段階でモデルを自己回帰的にのみ訓練するのではなく、モデルがすべてのキャプショントークンを独立して同時に予測する並列予測アプローチを採用しました。これにより、デコーダーは、並列でトークン全体にアクセスできるため、予測精度を向上させるために、画像情報に強く依存できます。この戦略により、デコーダーは、画像が提供する豊富な視覚的文脈を活用することができます。 研究者たちは、画像分類、キャプション、OCR、VQAを含むさまざまなダウンストリームタスクにおけるCapPaの性能を、従来のCapおよび最先端のCLIPアプローチと比較するための研究を行いました。その結果、CapPaはほぼすべてのタスクでCapを上回り、CLIP*と同じバッチサイズで訓練された場合、CapPaは同等または優れた性能を発揮しました。さらに、CapPaは強力なゼロショット機能を備え、見知らぬタスクにも効果的な汎化が可能であり、スケーリングの可能性があります。 全体的に、この論文で提示された作業は、画像キャプションを競争力のあるビジョンバックボーンの事前学習戦略として確立することを示しています。CapPaの高品質な結果をダウンストリームタスクにおいて実現することにより、研究チームは、ビジョンエンコーダーの事前トレーニングタスクとしてのキャプションの探索を促進することを望んでいます。その簡単さ、拡張性、効率性により、CapPaは、ビジョンベースのモデルを進化させ、マルチモーダル学習の境界を押し広げるための興味深い可能性を開拓しています。

DeepMindの研究者たちは、任意のポイントを追跡するための新しいAIモデルであるTAPIRをオープンソース化しましたこのモデルは、ビデオシーケンス内のクエリポイントを効果的に追跡します

コンピュータビジョンは、人工知能の最も人気のある分野の1つです。コンピュータビジョンを使用したモデルは、デジタル画像、動画、またはその他の視覚的入力など、さまざまな種類のメディアから有意義な情報を導き出すことができます。それは、機械が視覚情報を知覚・理解し、その詳細に基づいて行動する方法を教えるものです。新しいモデルであるTracking Any Point with per-frame Initialization and Temporal Refinement(TAPIR)の導入により、コンピュータビジョンは大きく前進しました。TAPIRは、ビデオシーケンスで特定の関心点を効果的に追跡することを目的として設計されました。 TAPIRモデルの背後にあるアルゴリズムは、Google DeepMind、VGG、エンジニアリングサイエンス学科、そしてオックスフォード大学の研究者チームによって開発されました。TAPIRモデルのアルゴリズムは、2つのステージ、すなわちマッチングステージとリファインメントステージから構成されています。マッチングステージでは、TAPIRモデルは各ビデオシーケンスフレームを個別に分析し、クエリポイントに適した候補点マッチを見つけます。このステップは、各フレームでクエリポイントの最も関連性が高い点を特定することを目的としており、TAPIRモデルがビデオ全体でクエリポイントの移動を追跡できるようにするため、フレームごとにこの手順を実行します。 候補点マッチが特定されるマッチングステージには、リファインメントステージの使用が続きます。このステージでは、TAPIRモデルは、局所的相関に基づいて軌跡(クエリポイントがたどるパス)とクエリ特徴を更新し、各フレームの周囲の情報を考慮してクエリポイントの追跡の精度と正確性を向上させます。リファインメントステージにより、局所的相関を統合することで、モデルのクエリポイントの動きを正確に追跡し、ビデオシーケンスの変動に対応する能力が向上します。 TAPIRモデルの評価には、ビデオトラッキングタスクの標準化された評価データセットであるTAP-Vidベンチマークが使用されました。その結果、TAPIRモデルは、ベースライン技術よりも明らかに優れた性能を発揮しました。性能改善は、平均ジャッカード(AJ)という指標を用いて測定され、DAVIS(Densely Annotated VIdeo Segmentation)ベンチマークにおいて、TAPIRモデルは他の手法に比べてAJで約20%の絶対的な改善を達成したことが示されました。 モデルは、長いビデオシーケンスでの高速な並列推論を容易にするように設計されており、複数のフレームを同時に処理できるため、トラッキングタスクの効率を向上させます。チームは、モデルをライブで適用できるように設計し、新しいビデオフレームが追加されるたびにポイントを処理・追跡できるようにしています。256×256ビデオで256ポイントを約40フレーム/秒の速度で追跡でき、解像度の高い映画を処理できるように拡張することもできます。 チームは、ユーザーがインストールせずにTAPIRを試すことができる2つのオンラインGoogle Colabデモを提供しています。最初のColabデモでは、ユーザーが自分のビデオでモデルを実行し、モデルのパフォーマンスをテストして観察するインタラクティブな体験を提供します。2番目のデモでは、オンラインでTAPIRを実行することに焦点を当てています。また、提供されたコードベースをクローンし、モダンなGPUで自分自身のWebカメラのポイントを追跡することによって、ユーザーはTAPIRをライブで実行することができます。

AIは自己を食べるのか?このAI論文では、モデルの崩壊と呼ばれる現象が紹介されており、モデルが時間の経過とともに起こり得ないイベントを忘れ始める退行的な学習プロセスを指します

安定した拡散により、言葉だけで画像を作ることができます。GPT-2、GPT-3(.5)、およびGPT-4は、多くの言語の課題で驚異的なパフォーマンスを発揮しました。この種の言語モデルについての一般の知識は、ChatGPTを通じて最初に公開されました。大規模言語モデル(LLM)は恒久的なものとして確立され、オンラインテキストおよび画像エコシステム全体を大幅に変えることが期待されています。大量のWebスクレイピングデータからのトレーニングは、十分な考慮が与えられた場合にのみ維持できます。実際に、LLMが生成したコンテンツをインターネットから収集したデータに含めることで、システムとの真の人間の相互作用に関する取得されたデータの価値は高まるでしょう。 英国とカナダの研究者は、モデルの崩壊が、あるモデルが他のモデルによって生成されたデータから学習すると発生することを発見しました。この退化的なプロセスにより、モデルは時間の経過とともに真の基盤となるデータ分布の追跡を失い、変化がない場合でも、誤って解釈されるようになります。彼らは、ガウス混合モデル、変分オートエンコーダー、および大規模言語モデルの文脈でモデルの失敗の事例を提供することによって、この現象を説明しています。彼らは、獲得された行動が世代を超えて推定値に収束し、この真の分布に関する知識の喪失が尾の消失から始まる方法を示し、この結果が機能推定エラーがないほぼ最適な状況でも不可避であることを示しています。 研究者たちは、モデルの崩壊の大きな影響について述べ、基盤となる分布の尾の場所を特定するために生データにアクセスすることがどれだけ重要かを指摘しています。したがって、LLMとの人間の相互作用に関するデータがインターネット上で大規模に投稿される場合、データ収集を汚染し、トレーニングに使用することがますます役立つようになるでしょう。 モデル崩壊とは何ですか? 学習済みの生成モデルの一世代が次の世代に崩壊するとき、後者は汚染されたデータでトレーニングされるため、世界を誤解することになり、破綻的な忘却過程とは対照的に、このアプローチでは、時間を通じて多くのモデルを考慮することを考慮しています。モデルは以前に学習したデータを忘れないで、彼らのアイデアを強化することで彼らが実際に現実であると認識するものを誤って解釈するようになります。これは、様々な世代を通じて組み合わされた二つの異なる誤り源によって起こるため、過去のモデルから生じるものであり、この特定の誤りメカニズムが最初の世代を超えて生き残る必要があります。 モデル崩壊の原因 モデルの失敗の基本的および二次的な原因は以下の通りです。 最も一般的なエラーは統計的近似の結果であり、有限のサンプルがあると起こりますが、サンプルサイズが無限に近づくにつれて減少します。 関数近似器が十分に表現力がない(または元の分布を超えて過剰に表現力がある場合がある)ために引き起こされる二次的なエラーを機能近似エラーと呼びます。 これらの要因は、モデル崩壊の可能性を悪化または緩和することができます。より良い近似力は、統計的ノイズを増幅または減衰させることができるため、基盤となる分布のより良い近似をもたらす一方で、それを増幅することもできます。 モデル崩壊は、再帰的にトレーニングされた生成モデルすべてで発生すると言われており、すべてのモデル世代に影響を与えます。彼らは実際のデータに適用されると崩壊する基本的な数学モデルを作成することができますが、興味のある値の解析方程式を導くために使用することができます。彼らの目標は、様々なエラータイプの影響を元の分布の最終近似に置く数値を示すことです。 研究者たちは、別の生成モデルからのデータでトレーニングすることによってモデル崩壊が引き起こされることがわかり、分布のシフトが生じるため、モデルがトレーニング問題を誤って解釈するようになると示しています。長期的な学習には、元のデータソースにアクセスし、LLMsによって生成された他のデータを時間をかけて利用する必要があります。LLMsの開発と展開に参加するすべての当事者が、証明問題を解決するために必要なデータを伝達し、共有するためにコミュニティ全体で調整することが1つのアプローチです。技術が広く採用される前にインターネットからクロールされたデータまたは人間によって提供されたデータにアクセスすることができるため、LLMsの後続バージョンをトレーニングすることがますます簡単になる可能性があります。 以下をチェックしてください: 論文と参考記事。 24k+ ML SubReddit、Discordチャンネル、および電子メールニュースレターに参加することを忘れないでください。そこでは、最新のAI研究ニュース、クールなAIプロジェクトなどを共有しています。上記の記事に関する質問がある場合や、何か見落としがあった場合は、お気軽に[email protected]までメールでお問い合わせください。

SalesforceのLive Call Analyticsによる統合でエージェントの生産性を向上させる

コンタクトセンターエージェントとして、生産的な顧客との会話に集中することが好きですか?それとも、さまざまなシステムに存在する顧客情報や知識記事を調べることによって気を散らされますか?私たちは皆、そういう経験をしたことがありますマルチタスクをしながら生産的な会話をすることは難しいです1つのネガティブな経験は、[...]に傷をつける可能性があります

AIの仕事を見つけるための最高のプラットフォーム

あなたのキャリアの目標、好みの仕事スタイル、およびAIの専門分野に依存するAIの仕事に最適なプラットフォームについてもっと学びましょう

Rにおける二元配置分散分析

二元分散分析(Two-way ANOVA)は、二つのカテゴリカル変数が量的連続変数に与える同時効果を評価することができる統計的方法です二元分散分析は…

より小さい相手による言語モデルからの知識蒸留に深く潜入する:MINILLMによるAIのポテンシャルの解放

大規模言語モデルの急速な発展による過剰な計算リソースの需要を減らすために、大きな先生モデルの監督の下で小さな学生モデルを訓練する知識蒸留は、典型的な戦略です。よく使われる2つのKDは、先生の予測のみにアクセスするブラックボックスKDと、先生のパラメータを使用するホワイトボックスKDです。最近、ブラックボックスKDは、LLM APIによって生成されたプロンプト-レスポンスペアで小さなモデルを最適化することで、励ましを示しています。オープンソースのLLMが開発されるにつれて、ホワイトボックスKDは、研究コミュニティや産業セクターにとってますます有用になります。なぜなら、学生モデルはホワイトボックスのインストラクターモデルからより良いシグナルを得るため、性能が向上する可能性があるためです。 生成的LLMのホワイトボックスKDはまだ調査されていませんが、小規模(1Bパラメータ)の言語理解モデルについては、主にホワイトボックスKDが調査されています。この論文では、彼らはLLMのホワイトボックスKDを調べています。彼らは、一般的なKDが課題を生成的に実行するLLMにとってより優れている可能性があると主張しています。シーケンスレベルモデルのいくつかの変種を含む標準的なKD目標は、教師と学生の分布の近似前方クルバック・ライブラー発散(KLD)を最小化し、KLとして知られています。教師分布p(y|x)と学生分布q(y|x)によってパラメータ化され、pがqのすべてのモードをカバーするように強制する。出力空間が有限の数のクラスを含むため、テキスト分類問題においてKLはよく機能します。したがって、p(y|x)とq(y|x)の両方に少数のモードがあることが保証されます。 しかし、出力空間がはるかに複雑なオープンテキスト生成問題では、p(y|x)はq(y|x)よりもはるかに広い範囲のモードを表す場合があります。フリーラン生成中、前方KLDの最小化は、qがpの空白領域に過剰な確率を与え、pの下で非常にありそうもないサンプルを生成することにつながる可能性があります。この問題を解決するために、コンピュータビジョンや強化学習で一般的に使用される逆KLD、KLを最小化することを提案しています。パイロット実験は、KLを過小評価することで、qがpの主要なモードを探し、空いている領域を低い確率で与えるように駆動することを示しています。 これは、LLMの言語生成において、学生モデルがインストラクター分布の長いテールバージョンを学習しすぎず、誠実さと信頼性が必要な実世界の状況で重要な応答の正確性に集中することを意味します。彼らは、ポリシーグラディエントで目標の勾配を生成してmin KLを最適化します。最近の研究では、PLMの最適化にポリシーオプティマイゼーションの効果が示されています。ただし、モデルのトレーニングはまだ過剰な変動、報酬のハッキング、および世代の長さのバイアスに苦しんでいることがわかりました。そのため、彼らは以下を含めます。 バリエーションを減らすための単一ステップの正則化。 報酬のハッキングを減らすためのティーチャー混合サンプリング。 長さのバイアスを減らすための長さ正規化。  広範なNLPタスクを含む指示に従う設定では、The CoAI Group、清華大学、Microsoft Researchの研究者は、MINILLMと呼ばれる新しい技術を提供し、パラメータサイズが120Mから13Bまでのいくつかの生成言語モデルに適用します。5つの指示に従うデータセットと評価のためのRouge-LおよびGPT-4フィードバックを使用します。彼らのテストは、MINILMがすべてのデータセットでベースラインの標準KDモデルを常に打ち負かすことを示しています(図1を参照)。さらに研究により、MINILLMは、より多様な長い返信を生成するのに適しており、露出バイアスが低く、キャリブレーションが向上していることがわかりました。モデルはGitHubで利用可能です。 図1は、MINILLMとシーケンスレベルKD(SeqKD)の評価セットでの平均GPT-4フィードバックスコアの比較を示しています。左側にはGPT-2-1.5Bがあり、生徒としてGPT-2 125M、340M、および760Mが動作します。中央には、GPT-2 760M、1.5B、およびGPT-Neo 2.7Bが生徒であり、GPT-J 6Bがインストラクターです。右側にはOPT 13Bがあり、生徒としてOPT 1.3B、2.7B、および6.7Bが動作しています。

50以上の最新の最先端AIツール(2023年7月)

AIツールは急速に開発が進んでおり、新しいものが定期的に導入されています。以下は、日常のルーティンを強化することができるいくつかのAIツールです。 tl;dv GPTモデルによって動作するこのツールは、ZoomやGoogle Meetの会議録音ツールです。tl;dvは、通話をユーザーのために書き起こして要約します。 Otter AI 人工知能を使用して、Otter.AIは、共有可能で検索可能なリアルタイムの会議の議事録をユーザーに提供します。 Taskade Taskadeは、タスクやプロジェクトを効率的に管理するのに役立つAI生産性ツールです。 Notion AI Notion AIは、Notionワークスペース内で書く、アイデアを出し、編集し、要約するのを支援するライティングアシスタントです。 Bing Microsoftが開発したAIパワードのBing検索エンジンは、ウェブを検索するたびに研究アシスタント、パーソナルプランナー、クリエイティブパートナーのようなものを持つようになりました。 Bard Googleが開発したチャットボットのBardは、生産性を高め、アイデアを形にするのに役立ちます。 Forefront Forefront AIは、GPT-4、画像生成、カスタムパーソナ、共有可能なチャットに無料でアクセスできるプラットフォームであり、企業に改善された効率性とユーザーエクスペリエンスを提供します。 Merlin Merlinは、ブログサマライザーやGmailのAIライターなどの機能を提供して、ユーザーが任意のウェブサイト上で任意のタスクを完了できるようにするChatGPT拡張機能です。 WNR AI…

Google Cloudを使用してレコメンドシステムを構築する

Google CloudのRecommendation AIを使用して、高度な推薦システムを実装してください

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us