Learn more about Search Results 10 - Page 506

ChatGPTのようなChatBot Zhinaoは、何を言うべきか、何を言うべきでないかを知っています

生成型人工知能(AI)はテック界隈で中心的な役割を果たしていますが、綿密に制御されたインターネット環境での運用はほとんど秘密に包まれています。しかし、中国のテック企業である360 Security Technologyは、最近、ChatGPTのようなサービスである「智脳」が中国の厳格な検閲制度をどのように航行しているかについて明らかにしました。この解明について掘り下げ、生成型AIが検閲に適応する方法を探ってみましょう。 また読む:中国の提案されたAI規制が業界を揺るがす 智脳を紹介:中国の「知的脳」ChatGPTのようなテクノロジー 北京での盛大なセレモニーで、360 Security Technologyは、革新的なAIチャットボットである「智脳」、または「知的脳」としても知られる、を紹介しました。創業者であり会長の周鴻祎氏は、このテクノロジーのキーとなる側面を明らかにし、埋め込まれた「多段階のフィルタリングとモデレーション」システムを強調しました。このシステムは、中国の厳格な検閲規制の遵守に不可欠です。 即時停止:精度を持って機微な言葉を扱う 智脳の目立つ特徴の1つは、ユーザーが「機微な言葉」を入力した場合、すぐに会話を停止できる能力です。同社は、禁止された単語やフレーズの包括的なリストを編集し、人間のモデレーターの努力と公安部の監視によって継続的に更新しています。この厳格な制御メカニズムは、生成型AIが中国の検閲システムの要求に適応する方法を示しています。 また読む: 招待制アクセス:コンテンツセキュリティの強化 360 Security Technologyは、招待コードを通じてそのチャットボットへのアクセスを提供する中国のテック大手企業の一般的な制限ポリシーに従っています。この方法を採用することで、同社は、誰が自社の生成型AI製品を利用するかをより制御することができます。コンテンツセキュリティは、オンラインコンテンツの厳格な監視を維持することに中国がコミットしていることと一致しています。 また読む:中国が人工知能のリスクに警鐘を鳴らす 地方法律と倫理の航行 周鴻祎氏は、大規模な言語モデルと生成型AIの開発において、地方の法律、規制、倫理、伝統に従うことの重要性を強調しました。彼は、これらの要因との遵守は、このような技術が開発された国に関係なく、重要であると強調しました。周氏の発言は、AIの出力を地元の規範や価値観に合わせることの重要性を強調しています。 また読む:米国議会が動き出した:人工知能の規制を提案する2つの新しい法案 中国の規制環境:制御された生成型AIに向けた一歩 中国のサイバースペース管理局(CAC)は、4月に、生成型AIを統治する草案規則を導入しました。これらの規制は、各AI製品のセキュリティアセスメントを公開前に義務付け、チャットボットが政権転覆、暴力、ポルノグラフィ、または経済・社会秩序を乱すコンテンツを生成することを禁止しています。正式には導入されていませんが、これらの規則は、中国がその国境内でAI技術の開発と展開を形作ろうとする努力を示しています。 また読む:EUはAIルールで立場を取る 戦略的回避:機微な質問を回避する BaiduのErnie…

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器的強烈需求中悄悄運作。在本文中,我們深入探究中國秘密貿易 Nvidia 芯片的有趣細節,揭示買家和賣家在政治緊張的背景下面臨的挑戰。 另外閱讀:NVIDIA 成為第一家市值萬億美元的 AI 芯片公司的企圖 SEG 大廈的秘密:揭示中國地下芯片市場 位於標誌性的 SEG 大廈中,前十層樓是一個電子商店的寶庫。供應商安靜地提供 Nvidia A100 人工智能芯片,這是一種極其受歡迎的產品。雖然不公開宣傳,但感興趣的買家可以通過悄悄的詢問找到這個難以捉摸的市場。 高昂的價格:獲得 Nvidia AI 芯片的高風險 獲得這些高端 Nvidia…

コールセンターにおけるAIソフトウェアが顧客サービスを革命化します

人工知能(AI)技術の急速な進歩により、チャットボットの導入を特に受けた顧客サービスとサポートに変革的なシフトがもたらされました。通信、保険、銀行、公共事業、政府機関など、さまざまな業界が、今後数年間でAIによるソリューションの導入を進める予定です。この次世代の自動化されたサポートシステムの提唱者たちは、比類のない利益を想像していますが、その他の人々は潜在的な落とし穴について懸念を表明しています。この記事では、コールセンターにおけるAIの影響について掘り下げます。それは、優れた顧客体験を提供するか、既存の課題を悪化させるかを検討します。 また読む:ChatGPTは、医師よりも質の高い医療アドバイスを提供する AIによるコールセンターの台頭 人工知能は、近年著しい進歩を遂げ、専門家たちは、顧客サービス業務での広範な採用を予想しています。従来のチャットボットに頼るのではなく、新しい世代のAI駆動システムは、驚異的な能力を示します。彼らは、個々の顧客のニーズに合わせたカスタマイズされた応答を提供するために、継続的に学習し、適応し、膨大な情報を活用することができます。 また読む:Sanctuary AIのPhoenixロボットとTeslaの最新ローンチ、Optimus!に会いましょう! 自動化サポートの二重性 高度なAIに基づく顧客サービスの見通しは有望ですが、その実装と潜在的な欠点については、正当な懸念があります。十分な準備なしに採用に急いだ場合、顧客の体験が失望する可能性があります。自動ループは、人道的支援にアクセスできず、困り果てた顧客が自分自身を取り囲んでいるという現実的な懸念があります。また、意図しない冒涜的または不正確なAIの応答も検討する必要があります。 また読む:ChatGPTがラジオホストに対して偽の告発を生成するため、OpenAIが名誉毀損訴訟に直面しています コールセンターの労働者への影響 コールセンターにおけるAIの導入は、今後10年間で何百万ものコールセンター労働者の大量失業を引き起こすことが予想されています。短期間では、状況は同じくらい厳しいようです。労働者は、クエリの処理に関する提案を提供し、パフォーマンスについて報告する機械による常時監視の見通しに直面しています。この増加した監視は、彼らの仕事の既に厳しい性質を強化し、より高いストレスレベルを引き起こす可能性があります。 また読む:人工知能の急速な上昇は、仕事の喪失を意味します:テックセクターで何千人もの人々が影響を受けています コスト削減と生産性向上のバランス 潜在的な欠点にもかかわらず、ビジネスにとって生成的AIの魅力は否定できません。最近のマッキンゼーの報告によると、顧客サービス機能の改善だけでも、世界中で4,040億ドルの驚異的な利益が得られる可能性があります。これらの潜在的な節約と生産性の向上は、組織がAI駆動のソリューションをさらに探求することを推進するでしょう。したがって、彼らはコスト効率と顧客満足度のバランスを慎重に維持する必要があります。 また読む:生成的AIは年間4.4兆ドルの貢献ができる:マッキンゼー 消費者のAIへの信頼 OpenAIのChatGPT、GoogleのBard、そしてMicrosoftのAI駆動のBing検索エンジンなどのAIチャットボットの出現は、一般大衆を魅了し、その応用についての多くの議論を引き起こしました。しかし、消費者の感情は分かれています。最近の調査によると、74%の回答者が、AIに基づく顧客サービスはライブ代表者とのやり取りよりも悪い体験を提供すると考えています。同様に、63%の人々が人間のエージェントをAIよりも信頼し、わずか6%がチャットボットに傾いています。さらに、カナダ人の大多数(63%)は、パンデミック中にチャットボットを雇用した企業が、ポストパンデミック時にライブ代表者に戻ることを期待しており、そうしない企業には否定的な影響があります。 私たちの意見 人工知能をコールセンターの運用に統合することは、機会と課題の両方を示します。潜在的な利益は、改善された顧客体験や巨大なコスト削減を含みますが、サービスの質やコールセンターの従業員への影響については正当な懸念があります。人間のタッチとAI駆動のサポートの適切なバランスを打つことは、AI時代において顧客サービスを最適化しようとする組織にとって重要です。コールセンターの景色がこの変革的なシフトを経験するにつれ、効率的で共感的な顧客体験の提供を優先し、AI駆動のテクノロジーの利点を受け入れることが不可欠です。

UCサンディエゴとクアルコムの研究者たちは「Natural Program」を公開しましたそれは自然言語での厳密な推論チェーンの容易な検証にとって強力なツールであり、AIにおける大きな転換点となります

人工知能の領域で最も驚くべき進歩の一つは、大規模言語モデル(LLM)の開発です。GPT 3.5とGPT 4アーキテクチャに基づくOpenAIが開発した非常に有名なChatGPTは、人間と同じようにコンテンツを生成し、質問に答えることで大いに役立っており、その創造的で正確なコンテンツ生成能力により、ほぼすべての産業における問題解決に取り組むことができます。Chain-of-Thought(CoT)プロンプティングの追加により、GPT 3.5の影響力は向上し、情報処理産業に大きな変革をもたらしました。CoTはLLMを強化し、中間段階でより包括的で詳細な推論プロセスを生成するのに役立ちます。 CoTには多くの利点がありますが、中間推論段階に重点を置くことで、幻覚や複雑化したエラーが発生することがあり、モデルが一貫した正確な推論プロセスを生成するのが困難になることがあります。人間が問題を解決するために故意の推論的論理推論手順に従う方法から着想を得て、LLMが明示的で厳密な演繹的推論を行うことを可能にするために、多くの努力が払われてきました。これらの課題に対処するため、研究者チームは、自然言語に基づく演繹的推論形式であるナチュラルプログラムを導入し、演繹的推論を達成するために自然言語の固有の力を利用する方法を提案しました。 チームは、このアプローチが推論検証プロセスをいくつかの連続したサブプロセスに分解することを示しました。各サブプロセスには、特定のステップに必要な文脈と前提条件のみが提供され、分解により検証プロセスがよりアプローチ可能になります。著者らは、OpenAIのGPT-3.5-turbo(175B)などの公開モデルを使用して、自然言語に基づく演繹的推論形式を実行するための算術および常識のデータセットのトライアルを実行し、その効果を示しました。アウトカムは、彼らの戦略が大規模言語モデルによって生成される推論プロセスの信頼性を高めるのにどのように優れているかを示しています。 ナチュラルプログラム形式により、言語モデルは正確な推論ステップを生成し、後続のステップがより厳密に前のステップに基づいていることを確認します。この構造を使用して、言語モデルはステップバイステップで推論自己検証を実行し、推論段階は各演繹的推論のレベルに検証手順が統合されているため、より厳密で信頼性が高くなります。 チームが述べた主な貢献のいくつかは次のとおりです。 ナチュラルプログラム形式の導入により、チームは、検証に適した厳密な演繹的推論のフレームワークを提案し、コンテキスト内学習により簡単に生成できるようにしました。 提案されたナチュラルプログラム形式で書かれた長大な演繹的推論プロセスは、必要な文脈と前提条件のみをカバーするステップバイステップのサブプロセスを使用して信頼性が高く自己検証できることが示されました。 実験により、フレームワークがLLMによる推論段階とソリューションの正確性、信頼性、解釈性をどのように効果的に向上させるかが示されました。 結論として、このフレームワークは、言語モデルの演繹的推論能力を向上させるために有望です。

2023年の最高のAI販売アシスタントツール

人工知能の営業アシスタントソリューションは、バーチャル営業アシスタントとしても知られ、様々な業務を自動化することで営業担当者を支援します。これらのAIパワードセールスツールを使用することで、セールスおよびマーケティングチームは日常業務に費やす時間を減らし、戦略的イニシアチブに集中することができます。これは、単にチャットを自動化することだけではなく、リードをスクリーニングすることも含みます。オンライン販売に向けたCovid-19の推進により、人工知能の営業アシスタントはますます重要になっています。 AI営業アシスタントと他の種類のセールス分析ツール、チャットボット、AIアプリケーションの機能には多少の重複がありますが、ルーチンのセールス手順を自動化する能力が向上しており、貴重な先見性を提供しています。ここでは、いくつかの人工知能の営業アシスタントアプリを確認してみましょう。 Warmer.ai 新規ビジネスリードや人材を見つけるために必要なのは、必要な人物にアプローチすることです。しかし、この見込み客に関する適切なデータを見つけ、効果的な最初のメールを書くことは課題です。この点で、Warmer.aiは優れています。AIの特徴を利用して、Warmer.aiは見込み客の栄誉、興味、職位などの推奨タッチポイントを補完することで、メールの個人化を支援します。これにより、レスポンス率、ミーティング予約、効率性が向上し、セールスチームは取引の完了により多くの時間を費やすことができます。 Drift Driftは、リードの資格判定プロセスを迅速化することでセールスサイクルを短縮するプラットフォームです。ユーザーがフォームを記入したり、返信を待ったりする必要はありません。代わりに、即時の対話に重点を置いています。チャットボットが営業アシスタントツールの中心にあり、顧客が質問に回答し、代表者とのアポイントメントを設定できるようにしています。他のマーケティングツールと統合し、訪問者ごとに体験をカスタマイズすることが重要な要素の1つです。 Dooly Dooly.aiは、広く使用されている顧客関係管理ツールであるSalesforceと統合してビジネスを支援します。Doolyは、アプリケーションの起動を待つ時間やタブを切り替える手間を省略することで、この手続きを簡素化します。複数のトランザクションを同時に変更するための便利な方法です。ミーティングノート、ノートテンプレート、パイプラインの更新、タスクマネージャーなどのキー機能があるため、取引とその発展を把握するのが簡単になります。 Troops Troopsは、SlackやMicrosoft Teamsと組み合わせて通知やその他のタスクを自動化するツールです。Salesforceなどの他のセールスツールとの通信にAIを使用しています。これにより、チームはシステム間を移動するのに最小限の時間しか費やさないことができます。シグナルは、収入に影響するアクションに関するリアルタイムメッセージで、重要な機能です。Deal Roomsは、Slackで顧客情報を集約し、チームのコラボレーションを向上させることができます。Commandを使用すると、すべての組み込みツールを1行のコードで編集できます。 TopOpps TopOppsは、トレーニングや開発、アクティビティの追跡、パイプライン管理、予測など、セールスプロセスの多くの側面にAIを使用しています。これにより、セールスチームが日常的に扱わなければならない多くの単調で繰り返しのタスクが省略されます。たとえば、正確なセールス予測により、管理者は重要なセールスKPIについての軽率な決断を回避できます。また、アポイントメントやその他の取引メトリクスなどの情報は自動的にキャプチャされ、リアルタイムでCRMにアップロードされます。 Exceed.ai Exceed.aiのAIインタラクションにより、リード資格判定が簡素化されます。ミーティングのスケジュールも自動化されます。これにより、ダウンロードを検索するために費やす時間を節約し、アカウントエグゼクティブが潜在的なクライアントとのミーティングにより良く準備できるようになります。各見込み客は、ある時点でAIボットによってインタラクトされます。あなたの好みに応じて、テキスト、メール、またはウェブサイトでメッセージを送信することができます。ミーティングが予定され、見込み客はあなたのセールスプレゼンテーションを聞く準備ができます。 Tact.ai Tact.aiの会話型インターフェイスは、WhatsAppを彷彿とさせ、どんなプラットフォームでも顧客とやり取りすることができます。これにより、CRMが、ビジネスと顧客の間の双方向コミュニケーションのインタラクティブなチャネルに変わることを望んでいます。彼らのサービスの1つであるTact Assistantは、代表者が顧客と直接やり取りする必要がなくなります。Tact Portalは、顧客があなたから受け取るサービスに合わせてビジネスとやり取りするオンラインハブです。 SalesDirector セールスチームは、定期的に多くのデータを記録する必要があります。AI営業アシスタントツールのSalesDirectorは、この情報を自動的に記録します。このシステムが提供する分析と洞察力により、管理者は情報に基づいた意思決定を行うことができます。Google Data Studioに加えて、Power…

オッターに会いましょう:大規模データセット「MIMIC-IT」を活用した最先端のAIモデルであり、知覚と推論のベンチマークにおいて最新の性能を実現しています

マルチファセットモデルは、書かれた言語、写真、動画などの様々なソースからのデータを統合し、さまざまな機能を実行することを目指しています。これらのモデルは、視覚とテキストデータを融合させたコンテンツを理解し、生成することにおいて、かなりの可能性を示しています。 マルチファセットモデルの重要な構成要素は、ナチュラルランゲージの指示に基づいてモデルを微調整する指示チューニングです。これにより、モデルはユーザーの意図をより良く理解し、正確で適切な応答を生成することができます。指示チューニングは、GPT-2やGPT-3のような大規模言語モデル(LLMs)で効果的に使用され、実世界のタスクを達成するための指示に従うことができるようになりました。 マルチモーダルモデルの既存のアプローチは、システムデザインとエンドツーエンドのトレーニング可能なモデルの観点から分類することができます。システムデザインの観点では、ChatGPTのようなディスパッチスケジューラを使用して異なるモデルを接続しますが、トレーニングの柔軟性が欠けているため、コストがかかる可能性があります。エンドツーエンドのトレーニング可能なモデルの観点では、他のモダリティからモデルを統合しますが、トレーニングコストが高く、柔軟性が制限される可能性があります。以前のマルチモーダルモデルにおける指示チューニングのデータセットには、文脈に沿った例が欠けています。最近、シンガポールの研究チームが提案した新しいアプローチは、文脈に沿った指示チューニングを導入し、このギャップを埋めるための文脈を持つデータセットを構築しています。 この研究の主な貢献は以下の通りです。 マルチモーダルモデルにおける指示チューニングのためのMIMIC-ITデータセットの導入。 改良された指示に従う能力と文脈的学習能力を持ったオッターモデルの開発。 より使いやすいOpenFlamingoの最適化実装。 これらの貢献により、研究者には貴重なデータセット、改良されたモデル、そしてより使いやすいフレームワークが提供され、マルチモーダル研究を進めるための貴重な資源となっています。 具体的には、著者らはMIMIC-ITデータセットを導入し、OpenFlamingoの文脈的学習能力を維持しながら、指示理解能力を強化することを目的としています。データセットには、文脈的関係を持つ画像とテキストのペアが含まれており、OpenFlamingoは文脈的例に基づいてクエリされた画像-テキストペアのテキストを生成することを目指しています。MIMIC-ITデータセットは、OpenFlamingoの指示理解力を向上させながら、文脈的学習を維持するために導入されました。これには、画像-指示-回答の三つ組と対応する文脈が含まれます。OpenFlamingoは、画像と文脈的例に基づいてテキストを生成するためのフレームワークです。 トレーニング中、オッターモデルはOpenFlamingoのパラダイムに従い、事前学習済みのエンコーダーを凍結し、特定のモジュールを微調整しています。トレーニングデータは、画像、ユーザー指示、GPTによって生成された回答、および[endofchunk]トークンを含む特定の形式に従います。モデルは、クロスエントロピー損失を使用してトレーニングされます。著者らは、Please view this post in your web browser to complete the quiz.トークンで予測目標を区切ることにより、トレーニングデータを分離しています。 著者らは、OtterをHugging Face Transformersに統合し、研究者がモデルを最小限の努力で利用できるようにしました。彼らは、4×RTX-3090…

このGoogleのAI論文は、さまざまなデバイスで大規模な拡散モデルを実行するために画期的なレイテンシー数値を集めるための一連の最適化を提示しています

モデルのサイズと推論ワークロードは、画像生成のための大規模な拡散モデルが一般的になったために急激に増加しています。リソースの限界により、モバイルコンテキストにおけるオンデバイスML推論のパフォーマンス最適化はデリケートなバランスアクトです。これらのモデルのかなりのメモリ要件と計算要件のため、デバイス上で大規模な拡散モデル(LDM)の推論を実行することは、コスト効率とユーザープライバシーの必要性を考慮すると、さらに大きな障壁を生じます。 基礎モデルの迅速な作成と広範な使用は、人工知能を完全に変革しました。その多様性と写真のようなリアルな画像を生成する能力から、大規模な拡散モデルは多くの注目を集めています。サーバーコストの削減、オフライン機能、強化されたユーザープライバシーは、これらのモデルをユーザーのデバイスにローカルに展開することの利点の一部にすぎません。デバイス上の計算およびメモリリソースの制限により、典型的な大規模な拡散モデルには10億以上のパラメータがあり、困難が生じます。 Googleの研究者たちは、モバイルデバイスにおけるGPUを使用した最速の推論レイテンシを可能にする大規模な拡散モデルの実装の一連の変更を提供しています。これらの更新により、さまざまなデバイスで全体的なユーザーエクスペリエンスが向上し、生成AIの利用範囲が拡大します。 低レイテンシ、強化されたプライバシー、大規模なスケーラビリティなど、サーバーベースの方法に比べて多くの利点を持つオンデバイスモデル推論アクセラレーションは、最近注目を集めています。深層学習で頻繁に使用されるsoftmax演算の複雑さは、さまざまな加速戦略を生み出す動機となっています。ウィノグラード畳み込みは、必要な乗算の数を最小限に抑えることにより、畳み込み計算の効率を向上させるために開発されました。これは、グラフィックス処理ユニット(GPU)にとって特に役立ちます。 Transformerデザインの広範な成功と採用は、注意メカニズムの高速化に関する研究を引き起こしました。 Reformerは、計算コストを削減するために疎な近似を使用し、他の作品は低ランクまたは近似テクニックの組み合わせを使用しています。 FlashAttentionは、ハードウェア構成を考慮した正確な注意アルゴリズムであり、より良いパフォーマンスを実現するために使用されます。 主な焦点は、大規模な拡散モデルを使用して書かれた説明からビジュアルを作成するという課題にあります。提案された改善内容がStable Diffusionアーキテクチャとどのように機能するかに焦点が当てられているにもかかわらず、これらの最適化は他の大規模な拡散モデルにも簡単に転送できることは重要です。テキストからの推論は、逆拡散プロセスを誘導するために、望ましいテキストの説明に基づく追加の調整が必要です。 LDMのノイズリダクションモデルで広く使用される注意ブロックは、改善の主要な領域を示しています。モデルは、入力に注意ブロックの重みをより与えることで、関連する情報に絞り込むことができます。注意モジュールは、複数の方法で最適化することができます。以下に詳細を記載された2つの最適化のうち、どちらが最良の結果をもたらすかに応じて、研究者は通常1つだけを利用します。 最初の最適化である部分的に融合されたsoftmaxは、行列の乗算と統合することにより、注意モジュールのsoftmax中に読み取られ、書き込まれるメモリ量を減らします。もう1つの微調整では、I/Oに配慮した正確な注意方法であるFlashAttentionを使用します。 GPUからの高帯域幅メモリアクセスの数を減らすことで、メモリ帯域幅の制限があるアプリケーションには優れた選択肢です。多数のレジスタが必要であり、彼らは、この方法が特定のサイズのSRAMに対してのみ機能することを発見しました。したがって、彼らは特定のサイズの注意行列に対して、一部のGPUでのみこの方法を使用します。 さらに、チームは、LDMの一般的に使用されるレイヤーやユニットの融合ウィンドウが、商用GPUアクセラレートML推論エンジンで現在使用可能なものよりもはるかに大きくなければならないことが判明しました。標準的な融合ルールの制限を考慮して、彼らは、より幅広い種類のニューラルオペレータを実行できるカスタム実装を考案しました。彼らの注意は、ガウス誤差線形ユニット(GELU)とグループ正規化層の2つのサブフィールドに向けられました。 モデルファイルサイズの制限、大量のランタイムメモリ要件、および長時間の推論レイテンシは、デバイス自体での大規模なモデルのML推論を行う際の重要な障害となっています。研究者は、メモリ帯域幅の使用が主要な制約であることを認識しました。したがって、ALU /メモリ効率比を健全に保ちながら、メモリ帯域幅の利用を改善することに焦点を当てました。彼らが実証した最適化は、記録的なレイテンシ値を持つさまざまなデバイスで大規模な拡散モデルを実行することを可能にしました。これらの改善により、モデルの適用範囲が拡大し、幅広いデバイスでユーザーエクスペリエンスが向上しました。

中国の研究者グループが開発したWebGLM:汎用言語モデル(GLM)に基づくWeb強化型質問応答システム

大規模言語モデル(LLM)には、GPT-3、PaLM、OPT、BLOOM、GLM-130Bなどが含まれます。これらのモデルは、言語に関してコンピュータが理解し、生成できる可能性の限界を大きく押し上げています。最も基本的な言語アプリケーションの一つである質問応答も、最近のLLMの突破によって大幅に改善されています。既存の研究によると、LLMのクローズドブックQAおよびコンテキストに基づくQAのパフォーマンスは、教師ありモデルのものと同等であり、LLMの記憶容量に対する理解に貢献しています。しかし、LLMにも有限な容量があり、膨大な特別な知識が必要な問題に直面すると、人間の期待には及びません。したがって、最近の試みでは、検索やオンライン検索を含む外部知識を備えたLLMの構築に集中しています。 たとえば、WebGPTはオンラインブラウジング、複雑な問い合わせに対する長い回答、同等に役立つ参照を行うことができます。人気があるにもかかわらず、元のWebGPTアプローチはまだ広く採用されていません。まず、多数の専門家レベルのブラウジング軌跡の注釈、よく書かれた回答、および回答の優先順位のラベリングに依存しており、これらは高価なリソース、多くの時間、および広範なトレーニングが必要です。第二に、システムにウェブブラウザとのやり取り、操作指示(「検索」、「読む」、「引用」など)を与え、オンラインソースから関連する材料を収集させる行動クローニングアプローチ(すなわち、模倣学習)は、基本的なモデルであるGPT-3が人間の専門家に似ている必要があります。 最後に、ウェブサーフィンのマルチターン構造は、ユーザーエクスペリエンスに対して過度に遅いことがあり、WebGPT-13Bでは、500トークンのクエリに対して31秒かかります。本研究の清華大学、北京航空航天大学、Zhipu.AIの研究者たちは、10億パラメータのジェネラル言語モデル(GLM-10B)に基づく、高品質なウェブエンハンスド品質保証システムであるWebGLMを紹介します。図1は、その一例を示しています。このシステムは、効果的で、手頃な価格で、人間の嗜好に敏感であり、最も重要なことに、WebGPTと同等の品質を備えています。システムは、LLM-拡張検索器を含む、いくつかの新しいアプローチや設計を使用して、良好なパフォーマンスを実現しています。精製されたリトリーバーと粗い粒度のウェブ検索を組み合わせた2段階のリトリーバーである。 GPT-3のようなLLMの能力は、適切な参照を自発的に受け入れることです。これは、小型の密集リトリーバーを改良するために洗練される可能性があります。引用に基づく適切なフィルタリングを使用して高品質のデータを提供することで、LLMはWebGPTのように高価な人間の専門家に頼る必要がありません。オンラインQAフォーラムからのユーザーチャムアップシグナルを用いて教えられたスコアラーは、さまざまな回答に対する人間の多数派の嗜好を理解することができます。 図1は、WebGLMがオンラインリソースへのリンクを含むサンプルクエリに対する回答のスナップショットを示しています。 彼らは、適切なデータセットアーキテクチャがWebGPTの専門家ラベリングに比べて高品質のスコアラーを生成できることを示しています。彼らの定量的な欠損テストと詳細な人間評価の結果は、WebGLMシステムがどれだけ効率的かつ効果的かを示しています。特に、WebGLM(10B)は、彼らのチューリングテストでWebGPT(175B)を上回り、同じサイズのWebGPT(13B)よりも優れています。Perplexity.aiの唯一の公開可能なシステムを改善するWebGLMは、この投稿時点で最高の公開可能なウェブエンハンスドQAシステムの一つです。結論として、著者らは次のことを提供しています。・人間の嗜好に基づく、効果的なウェブエンハンスド品質保証システムであるWebGLMを構築しました。WebGPT(175B)と同等のパフォーマンスを発揮し、同じサイズのWebGPT(13B)よりもはるかに優れています。 WebGPTは、LLMsと検索エンジンによって動力を与えられた人気システムであるPerplexity.aiをも凌駕します。•彼らは、WebGLMの現実世界での展開における制限を特定しています。彼らは、ベースラインシステムよりも効率的でコスト効果の高い利点を実現しながら、高い精度を持つWebGLMを可能にするための新しい設計と戦略を提案しています。•彼らは、Web強化QAシステムを評価するための人間の評価メトリックを定式化しています。広範な人間の評価と実験により、WebGLMの強力な能力が示され、システムの将来的な開発についての洞察が生成されました。コードの実装はGitHubで利用可能です。

WAYVE社がGAIA-1を発表:ビデオ、テキスト、アクション入力を活用して現実的な運転ビデオを作成する自律性のための新しい生成AIモデル

自動車産業は長年、自律走行を目指し、交通を革命化し、道路安全性を高めることを認識してきました。しかし、複雑な現実のシナリオを効果的にナビゲートできる自律システムを開発することは、大きな課題となっています。この課題に対応する最先端の生成AIモデルであるGAIA-1が紹介され、自律性を目的として設計されました。 GAIA-1は、ビデオ、テキスト、およびアクション入力を利用して、リアルな運転ビデオを生成しながら、自己車両の振る舞いやシーンの特徴に細かい制御を提供する、研究用モデルです。現実世界の生成ルールを体現するユニークな能力は、具体的なシステムが現実の習慣や振る舞いを理解し、再現できるようにする、具現化されたAIの重要な進展を表しています。GAIA-1の導入により、自律性分野での革新の可能性が無限に開かれ、自律運転技術の向上と加速化が促進されます。 GAIA-1モデルは、ビデオ、テキスト、およびアクション入力を活用して、リアルな運転ビデオを生成する、マルチモーダルなアプローチです。実際のイギリスの都市運転データの大規模なコーパスでトレーニングを行うことにより、モデルはビデオシーケンスの次のフレームを予測することを学び、大規模言語モデル(LLMs)に類似した自己回帰予測能力を示します。GAIA-1は、単なる生成ビデオモデル以上のもので、実際のワールドモデルとして機能します。車両、歩行者、道路レイアウト、信号機など重要な運転コンセプトを理解して分離し、自己車両の振る舞いやシーンの特徴に正確な制御を提供します。 GAIA-1の注目すべき偉業の1つは、世界の潜在的な生成ルールを具現化できる能力です。多様な運転データでの広範なトレーニングを通じて、モデルは自然界の固有の構造とパターンを合成し、高度にリアルな様々な運転シーンを生成します。このブレークスルーは、人工システムが世界と相互作用し、そのルールや振る舞いを理解して再現できる具現化されたAIを実現するための重要な一歩を示しています。 自律運転の重要な要素の1つは、世界モデルです。蓄積された知識と観察に基づいて世界を表現するものです。世界モデルにより、将来のイベントを予測することができ、自律運転にとって基本的要件となります。これらのモデルは、モデルベースの強化学習と計画のためのシミュレータを学習することができます。ワールドモデルを運転モデルに組み込むことで、人間の判断をより理解し、現実世界の状況での汎用性の向上につながることができます。GAIA-1は、将来の予測、運転シミュレーション、鳥瞰図予測、5年以上にわたる世界モデルの学習など、予測と世界モデルに関する幅広い研究を基盤としています。 さらに、GAIA-1は、トレーニングデータを超えて予測することができ、これにより、モデルを安全かつコントロールされた環境で評価するために使用される、正しくない運転行動を表すシミュレートされたデータを生成できます。この機能は、安全評価にとって貴重であり、自律運転モデルを評価するために使用されます。 GAIA-1は、自律性分野での研究、シミュレーション、トレーニングの進歩において、巨大な潜在能力を持つ、ゲームチェンジングな生成AI研究モデルを表します。リアルな様々な運転シーンを生成する能力により、複雑な現実のシナリオをより効果的にナビゲートするための自律システムのトレーニングに新しい可能性が開かれます。GAIA-1に関する継続的な研究と洞察が期待されており、自律運転の限界を押し広げ続けることになります。

SalesForceのAI研究者が、マスク不要のOVISを紹介:オープンボキャブラリーインスタンスセグメンテーションマスクジェネレータ

インスタンスセグメンテーションは、複数のオブジェクトを同じクラスに属するものとして、それらを異なるエンティティとして識別するコンピュータビジョンのタスクを指します。深層学習技術の急速な進歩により、過去数年間でセグメンテーション技術のインスタンス数が著しく増加しています。たとえば、畳み込みニューラルネットワーク(CNN)やMask R-CNNなどの先進的なアーキテクチャを使用してインスタンスセグメンテーションが行われます。このような技術の主要な特徴は、オブジェクト検出機能とピクセル単位のセグメンテーションを組み合わせることにより、画像内の各インスタンスに対して正確なマスクを生成し、全体像をより良く理解することができることです。 しかし、既存の検出モデルには、識別できる基本カテゴリの数に関するある種の欠点があります。以前の試行では、COCOデータセットでトレーニングされた検出モデルは、約80のカテゴリを検出する能力を獲得できることが示されています。しかし、追加のカテゴリを識別するには、労力と時間がかかります。これに対処するために、Open Vocabulary(OV)メソッドが存在し、画像とキャプションのペアとビジョン言語モデルを活用して新しいカテゴリを学習します。しかし、基本カテゴリと新しいカテゴリを学習するときの監督には大きな違いがあります。これは、基本カテゴリに過剰適合し、新しいカテゴリに対して一般化が不十分になることが多いためです。そのため、人間の介入がほとんど必要なく新しいカテゴリを検出する方法が必要です。これにより、モデルは現実世界のアプリケーションにとってより実用的でスケーラブルになります。 この問題に対処するため、Salesforce AIの研究者は、画像キャプションペアからバウンディングボックスとインスタンスマスク注釈を生成する方法を考案しました。彼らの提案された方法、Mask-free OVISパイプラインは、擬似マスク注釈を使用して、ビジョン言語モデルから派生した弱い監督を利用することで、基本的なカテゴリと新しいカテゴリを学習します。このアプローチにより、労力を要する人間の注釈が不要になり、過剰適合の問題が解決されます。実験的評価により、彼らの方法論が既存の最先端のオープンボキャブラリーインスタンスセグメンテーションモデルを超えることが示されました。さらに、彼らの研究は、2023年の著名なコンピュータビジョンとパターン認識会議で認められ、受け入れられました。 Salesforceの研究者は、擬似マスクの生成とオープンボキャブラリーインスタンスセグメンテーションの2つの主要なステージで構成されるパイプラインを考案しました。最初のステージでは、画像キャプションペアから対象物の擬似マスク注釈を作成します。事前にトレーニングされたビジョン言語モデルを利用して、オブジェクトの名前がテキストプロンプトとして機能し、オブジェクトをローカライズします。さらに、GradCAMを使用して反復的なマスキングプロセスを実行し、擬似マスクを精度良くオブジェクト全体にカバーするようにします。2番目のステージでは、以前生成されたバウンディングボックスを使用して、GradCAMアクティベーションマップと最も重なりが高い提案を選択するために、弱く監督されたセグメンテーション(WSS)ネットワークがトレーニングされます。最後に、生成された擬似注釈を使用してMask-RCNNモデルがトレーニングされ、パイプラインが完了します。 このパイプラインは、事前にトレーニングされたビジョン言語モデルと弱い監督モデルの力を利用して、追加のトレーニングデータとして使用できる擬似マスク注釈を自動生成することにより、人間の介入が不要になります。研究者たちは、MS-COCOやOpenImagesなどの人気のあるデータセットでいくつかの実験を行い、彼らのアプローチに擬似注釈を使用することで、検出およびインスタンスセグメンテーションのタスクで優れた性能を発揮することが示されました。Salesforceの研究者による独自のビジョン言語ガイドアプローチによる擬似注釈生成は、人間の注釈者を必要としないより高度で正確なインスタンスセグメンテーションモデルの誕生の道を開きます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us