Learn more about Search Results 9 - Page 528

フロントエンド開発のトレンド

最先端の進歩や最高水準のイノベーションが、現在ウェブ開発の世界を形作っている様子について、私たちと一緒に深く掘り下げてみませんか

SRGANs:低解像度と高解像度画像のギャップを埋める

イントロダクション あなたが古い家族の写真アルバムをほこりっぽい屋根裏部屋で見つけるシナリオを想像してください。あなたはすぐにほこりを取り、最も興奮してページをめくるでしょう。そして、多くの年月前の写真を見つけました。しかし、それでも、あなたは幸せではないです。なぜなら、写真が薄く、ぼやけているからです。写真の顔や細部を見つけるために目をこらします。これは昔のシナリオです。現代の新しいテクノロジーのおかげで、私たちはスーパーレゾリューション・ジェネレーティブ・アドバーサリ・ネットワーク(SRGAN)を使用して、低解像度の画像を高解像度の画像に変換することができます。この記事では、私たちはSRGANについて最も学び、QRコードの強化のために実装します。 出典: Vecteezy 学習目標 この記事では、以下のことを学びます: スーパーレゾリューションと通常のズームとの違いについて スーパーレゾリューションのアプローチとそのタイプについて SRGAN、その損失関数、アーキテクチャ、およびそのアプリケーションについて深く掘り下げる SRGANを使用したQRエンハンスメントの実装とその詳細な説明 この記事は、データサイエンスブログマラソンの一環として公開されました。 スーパーレゾリューションとは何ですか? 多くの犯罪捜査映画では、証拠を求めて探偵がCCTV映像をチェックする典型的なシナリオがよくあります。そして、ぼやけた小さな画像を見つけて、ズームして強化してはっきりした画像を得るシーンがあります。それは可能ですか?はい、スーパーレゾリューションの助けを借りて、それはできます。スーパーレゾリューション技術は、CCTVカメラによってキャプチャされたぼやけた画像を強化し、より詳細な視覚効果を提供することができます。 ………………………………………………………………………………………………………………………………………………………….. ………………………………………………………………………………………………………………………………………………………….. 画像の拡大と強化のプロセスをスーパーレゾリューションと呼びます。それは、対応する低解像度の入力から画像またはビデオの高解像度バージョンを生成することを目的としています。それによって、欠落している詳細を回復し、鮮明さを向上させ、視覚的品質を向上させることができます。強化せずに画像をズームインするだけでは、以下の画像のようにぼやけた画像が得られます。強化はスーパーレゾリューションによって実現されます。写真、監視システム、医療画像、衛星画像など、さまざまな領域で多くの応用があります。 ……….. スーパーレゾリューションの従来のアプローチ 従来のアプローチでは、欠落しているピクセル値を推定し、画像の解像度を向上させることに重点を置いています。2つのアプローチがあります。補間ベースの方法と正則化ベースの方法です。 補間ベースの方法 スーパーレゾリューションの初期の日々には、補間ベースの方法に重点が置かれ、欠落しているピクセル値を推定し、その後画像を拡大します。隣接するピクセル値が類似しているという仮定を使用して、これらの値を使用して欠落している値を推定します。最も一般的に使用される補間方法には、バイキュービック、バイリニア、および最近傍補間があります。しかし、その結果は満足できないものでした。これにより、ぼやけた画像が生じました。これらの方法は、基本的な解像度タスクや計算リソースに制限がある状況に適しているため、効率的に計算できます。 正則化ベースの手法 一方で、正則化ベースの手法は、画像再構成プロセスに追加の制約や先行条件を導入することで、超解像度の結果を改善することを目的としています。これらの技術は、画像の統計的特徴を利用して、再構築された画像の精度を向上させながら、細部を保存します。これにより、再構築プロセスにより多くの制御が可能になり、画像の鮮明度と細部が向上します。しかし、複雑な画像コンテンツを扱う場合には、過度の平滑化を引き起こすため、いくつかの制限があります。 これらの従来のアプローチにはいくつかの制限があるにもかかわらず、超解像度の強力な手法の出現への道を示しました。…

2023年の最高のAI販売アシスタントツール

人工知能の営業アシスタントソリューションは、バーチャル営業アシスタントとしても知られ、様々な業務を自動化することで営業担当者を支援します。これらのAIパワードセールスツールを使用することで、セールスおよびマーケティングチームは日常業務に費やす時間を減らし、戦略的イニシアチブに集中することができます。これは、単にチャットを自動化することだけではなく、リードをスクリーニングすることも含みます。オンライン販売に向けたCovid-19の推進により、人工知能の営業アシスタントはますます重要になっています。 AI営業アシスタントと他の種類のセールス分析ツール、チャットボット、AIアプリケーションの機能には多少の重複がありますが、ルーチンのセールス手順を自動化する能力が向上しており、貴重な先見性を提供しています。ここでは、いくつかの人工知能の営業アシスタントアプリを確認してみましょう。 Warmer.ai 新規ビジネスリードや人材を見つけるために必要なのは、必要な人物にアプローチすることです。しかし、この見込み客に関する適切なデータを見つけ、効果的な最初のメールを書くことは課題です。この点で、Warmer.aiは優れています。AIの特徴を利用して、Warmer.aiは見込み客の栄誉、興味、職位などの推奨タッチポイントを補完することで、メールの個人化を支援します。これにより、レスポンス率、ミーティング予約、効率性が向上し、セールスチームは取引の完了により多くの時間を費やすことができます。 Drift Driftは、リードの資格判定プロセスを迅速化することでセールスサイクルを短縮するプラットフォームです。ユーザーがフォームを記入したり、返信を待ったりする必要はありません。代わりに、即時の対話に重点を置いています。チャットボットが営業アシスタントツールの中心にあり、顧客が質問に回答し、代表者とのアポイントメントを設定できるようにしています。他のマーケティングツールと統合し、訪問者ごとに体験をカスタマイズすることが重要な要素の1つです。 Dooly Dooly.aiは、広く使用されている顧客関係管理ツールであるSalesforceと統合してビジネスを支援します。Doolyは、アプリケーションの起動を待つ時間やタブを切り替える手間を省略することで、この手続きを簡素化します。複数のトランザクションを同時に変更するための便利な方法です。ミーティングノート、ノートテンプレート、パイプラインの更新、タスクマネージャーなどのキー機能があるため、取引とその発展を把握するのが簡単になります。 Troops Troopsは、SlackやMicrosoft Teamsと組み合わせて通知やその他のタスクを自動化するツールです。Salesforceなどの他のセールスツールとの通信にAIを使用しています。これにより、チームはシステム間を移動するのに最小限の時間しか費やさないことができます。シグナルは、収入に影響するアクションに関するリアルタイムメッセージで、重要な機能です。Deal Roomsは、Slackで顧客情報を集約し、チームのコラボレーションを向上させることができます。Commandを使用すると、すべての組み込みツールを1行のコードで編集できます。 TopOpps TopOppsは、トレーニングや開発、アクティビティの追跡、パイプライン管理、予測など、セールスプロセスの多くの側面にAIを使用しています。これにより、セールスチームが日常的に扱わなければならない多くの単調で繰り返しのタスクが省略されます。たとえば、正確なセールス予測により、管理者は重要なセールスKPIについての軽率な決断を回避できます。また、アポイントメントやその他の取引メトリクスなどの情報は自動的にキャプチャされ、リアルタイムでCRMにアップロードされます。 Exceed.ai Exceed.aiのAIインタラクションにより、リード資格判定が簡素化されます。ミーティングのスケジュールも自動化されます。これにより、ダウンロードを検索するために費やす時間を節約し、アカウントエグゼクティブが潜在的なクライアントとのミーティングにより良く準備できるようになります。各見込み客は、ある時点でAIボットによってインタラクトされます。あなたの好みに応じて、テキスト、メール、またはウェブサイトでメッセージを送信することができます。ミーティングが予定され、見込み客はあなたのセールスプレゼンテーションを聞く準備ができます。 Tact.ai Tact.aiの会話型インターフェイスは、WhatsAppを彷彿とさせ、どんなプラットフォームでも顧客とやり取りすることができます。これにより、CRMが、ビジネスと顧客の間の双方向コミュニケーションのインタラクティブなチャネルに変わることを望んでいます。彼らのサービスの1つであるTact Assistantは、代表者が顧客と直接やり取りする必要がなくなります。Tact Portalは、顧客があなたから受け取るサービスに合わせてビジネスとやり取りするオンラインハブです。 SalesDirector セールスチームは、定期的に多くのデータを記録する必要があります。AI営業アシスタントツールのSalesDirectorは、この情報を自動的に記録します。このシステムが提供する分析と洞察力により、管理者は情報に基づいた意思決定を行うことができます。Google Data Studioに加えて、Power…

オッターに会いましょう:大規模データセット「MIMIC-IT」を活用した最先端のAIモデルであり、知覚と推論のベンチマークにおいて最新の性能を実現しています

マルチファセットモデルは、書かれた言語、写真、動画などの様々なソースからのデータを統合し、さまざまな機能を実行することを目指しています。これらのモデルは、視覚とテキストデータを融合させたコンテンツを理解し、生成することにおいて、かなりの可能性を示しています。 マルチファセットモデルの重要な構成要素は、ナチュラルランゲージの指示に基づいてモデルを微調整する指示チューニングです。これにより、モデルはユーザーの意図をより良く理解し、正確で適切な応答を生成することができます。指示チューニングは、GPT-2やGPT-3のような大規模言語モデル(LLMs)で効果的に使用され、実世界のタスクを達成するための指示に従うことができるようになりました。 マルチモーダルモデルの既存のアプローチは、システムデザインとエンドツーエンドのトレーニング可能なモデルの観点から分類することができます。システムデザインの観点では、ChatGPTのようなディスパッチスケジューラを使用して異なるモデルを接続しますが、トレーニングの柔軟性が欠けているため、コストがかかる可能性があります。エンドツーエンドのトレーニング可能なモデルの観点では、他のモダリティからモデルを統合しますが、トレーニングコストが高く、柔軟性が制限される可能性があります。以前のマルチモーダルモデルにおける指示チューニングのデータセットには、文脈に沿った例が欠けています。最近、シンガポールの研究チームが提案した新しいアプローチは、文脈に沿った指示チューニングを導入し、このギャップを埋めるための文脈を持つデータセットを構築しています。 この研究の主な貢献は以下の通りです。 マルチモーダルモデルにおける指示チューニングのためのMIMIC-ITデータセットの導入。 改良された指示に従う能力と文脈的学習能力を持ったオッターモデルの開発。 より使いやすいOpenFlamingoの最適化実装。 これらの貢献により、研究者には貴重なデータセット、改良されたモデル、そしてより使いやすいフレームワークが提供され、マルチモーダル研究を進めるための貴重な資源となっています。 具体的には、著者らはMIMIC-ITデータセットを導入し、OpenFlamingoの文脈的学習能力を維持しながら、指示理解能力を強化することを目的としています。データセットには、文脈的関係を持つ画像とテキストのペアが含まれており、OpenFlamingoは文脈的例に基づいてクエリされた画像-テキストペアのテキストを生成することを目指しています。MIMIC-ITデータセットは、OpenFlamingoの指示理解力を向上させながら、文脈的学習を維持するために導入されました。これには、画像-指示-回答の三つ組と対応する文脈が含まれます。OpenFlamingoは、画像と文脈的例に基づいてテキストを生成するためのフレームワークです。 トレーニング中、オッターモデルはOpenFlamingoのパラダイムに従い、事前学習済みのエンコーダーを凍結し、特定のモジュールを微調整しています。トレーニングデータは、画像、ユーザー指示、GPTによって生成された回答、および[endofchunk]トークンを含む特定の形式に従います。モデルは、クロスエントロピー損失を使用してトレーニングされます。著者らは、Please view this post in your web browser to complete the quiz.トークンで予測目標を区切ることにより、トレーニングデータを分離しています。 著者らは、OtterをHugging Face Transformersに統合し、研究者がモデルを最小限の努力で利用できるようにしました。彼らは、4×RTX-3090…

中国の研究者グループが開発したWebGLM:汎用言語モデル(GLM)に基づくWeb強化型質問応答システム

大規模言語モデル(LLM)には、GPT-3、PaLM、OPT、BLOOM、GLM-130Bなどが含まれます。これらのモデルは、言語に関してコンピュータが理解し、生成できる可能性の限界を大きく押し上げています。最も基本的な言語アプリケーションの一つである質問応答も、最近のLLMの突破によって大幅に改善されています。既存の研究によると、LLMのクローズドブックQAおよびコンテキストに基づくQAのパフォーマンスは、教師ありモデルのものと同等であり、LLMの記憶容量に対する理解に貢献しています。しかし、LLMにも有限な容量があり、膨大な特別な知識が必要な問題に直面すると、人間の期待には及びません。したがって、最近の試みでは、検索やオンライン検索を含む外部知識を備えたLLMの構築に集中しています。 たとえば、WebGPTはオンラインブラウジング、複雑な問い合わせに対する長い回答、同等に役立つ参照を行うことができます。人気があるにもかかわらず、元のWebGPTアプローチはまだ広く採用されていません。まず、多数の専門家レベルのブラウジング軌跡の注釈、よく書かれた回答、および回答の優先順位のラベリングに依存しており、これらは高価なリソース、多くの時間、および広範なトレーニングが必要です。第二に、システムにウェブブラウザとのやり取り、操作指示(「検索」、「読む」、「引用」など)を与え、オンラインソースから関連する材料を収集させる行動クローニングアプローチ(すなわち、模倣学習)は、基本的なモデルであるGPT-3が人間の専門家に似ている必要があります。 最後に、ウェブサーフィンのマルチターン構造は、ユーザーエクスペリエンスに対して過度に遅いことがあり、WebGPT-13Bでは、500トークンのクエリに対して31秒かかります。本研究の清華大学、北京航空航天大学、Zhipu.AIの研究者たちは、10億パラメータのジェネラル言語モデル(GLM-10B)に基づく、高品質なウェブエンハンスド品質保証システムであるWebGLMを紹介します。図1は、その一例を示しています。このシステムは、効果的で、手頃な価格で、人間の嗜好に敏感であり、最も重要なことに、WebGPTと同等の品質を備えています。システムは、LLM-拡張検索器を含む、いくつかの新しいアプローチや設計を使用して、良好なパフォーマンスを実現しています。精製されたリトリーバーと粗い粒度のウェブ検索を組み合わせた2段階のリトリーバーである。 GPT-3のようなLLMの能力は、適切な参照を自発的に受け入れることです。これは、小型の密集リトリーバーを改良するために洗練される可能性があります。引用に基づく適切なフィルタリングを使用して高品質のデータを提供することで、LLMはWebGPTのように高価な人間の専門家に頼る必要がありません。オンラインQAフォーラムからのユーザーチャムアップシグナルを用いて教えられたスコアラーは、さまざまな回答に対する人間の多数派の嗜好を理解することができます。 図1は、WebGLMがオンラインリソースへのリンクを含むサンプルクエリに対する回答のスナップショットを示しています。 彼らは、適切なデータセットアーキテクチャがWebGPTの専門家ラベリングに比べて高品質のスコアラーを生成できることを示しています。彼らの定量的な欠損テストと詳細な人間評価の結果は、WebGLMシステムがどれだけ効率的かつ効果的かを示しています。特に、WebGLM(10B)は、彼らのチューリングテストでWebGPT(175B)を上回り、同じサイズのWebGPT(13B)よりも優れています。Perplexity.aiの唯一の公開可能なシステムを改善するWebGLMは、この投稿時点で最高の公開可能なウェブエンハンスドQAシステムの一つです。結論として、著者らは次のことを提供しています。・人間の嗜好に基づく、効果的なウェブエンハンスド品質保証システムであるWebGLMを構築しました。WebGPT(175B)と同等のパフォーマンスを発揮し、同じサイズのWebGPT(13B)よりもはるかに優れています。 WebGPTは、LLMsと検索エンジンによって動力を与えられた人気システムであるPerplexity.aiをも凌駕します。•彼らは、WebGLMの現実世界での展開における制限を特定しています。彼らは、ベースラインシステムよりも効率的でコスト効果の高い利点を実現しながら、高い精度を持つWebGLMを可能にするための新しい設計と戦略を提案しています。•彼らは、Web強化QAシステムを評価するための人間の評価メトリックを定式化しています。広範な人間の評価と実験により、WebGLMの強力な能力が示され、システムの将来的な開発についての洞察が生成されました。コードの実装はGitHubで利用可能です。

LLM-Blenderに会いましょう:複数のオープンソース大規模言語モデル(LLM)の多様な強みを活用して一貫して優れたパフォーマンスを達成するための新しいアンサンブルフレームワーク

大規模言語モデルは、さまざまなタスクにおいて驚異的なパフォーマンスを発揮しています。ユニークでクリエイティブなコンテンツの生成や回答の提供から、言語の翻訳や文章の要約まで、LLMは人間のまねをすることに成功しました。GPT、BERT、PaLMなどのよく知られたLLMは、正確に指示に従い、大量の高品質データにアクセスすることで、話題になっています。GPT4やPaLMのようなモデルはオープンソースではないため、アーキテクチャやトレーニングデータを理解することができない人がいるのに対して、Pythia、LLaMA、Flan-T5などのオープンソースLLMの存在により、研究者がカスタム指示データセットでモデルを微調整し、改善する機会を提供しています。これにより、Alpaca、Vicuna、OpenAssistant、MPTなどのより小型で効率的なLLMの開発が可能になります。 市場をリードするオープンソースLLMはひとつではありません。多様な例において最高のLLMは大きく異なるため、これらのLLMを動的にアンサンブルすることは、改良された回答を継続して生み出すために必要不可欠です。さまざまなLLMの独自の貢献を統合することで、バイアス、エラー、不確実性を低減し、人間の好みにより近い結果を得ることができます。この問題に対処するため、人工知能アレン研究所、南カリフォルニア大学、浙江大学の研究者らは、複数のオープンソース大規模言語モデルの多くの利点を利用して、常に優れたパフォーマンスを発揮するアンサンブルフレームワークであるLLM-BLENDERを提案しました。 LLM-BLENDERは、PAIRRANKERとGENFUSERの2つのモジュールで構成されています。これらのモジュールは、異なる例に対して最適なLLMが大きく異なることを示しています。最初のモジュールであるPAIRRANKERは、潜在的な出力の微小な変化を特定するために開発されました。これは、元のテキストと各LLMからの2つの候補出力を入力として、高度なペアワイズ比較技術を使用します。入力と候補ペアを共にエンコードするために、RoBERTaなどのクロスアテンションエンコーダを使用し、PAIRRANKERはこのエンコードを使用して2つの候補の品質を決定することができます。 2番目のモジュールであるGENFUSERは、上位ランクに入った候補を統合して改善された出力を生成することに焦点を当てています。GENFUSERは、選択されたLLMの利点を最大限に活用しつつ、欠点を最小限に抑えることを目的としています。GENFUSERは、さまざまなLLMの出力を統合することで、1つのLLMの出力よりも優れた出力を開発することを目指しています。 評価には、MixInstructというベンチマークデータセットが提供されており、Oracleペアワイズ比較を組み合わせ、さまざまな指示データセットを組み合わせています。このデータセットでは、11の人気のあるオープンソースLLMを使用して、各入力に対して複数の候補を生成し、さまざまな指示に従うタスクを実行します。自動評価のためにOracle比較が使用されており、候補出力に対するグランドトゥルースランキングが与えられているため、LLM-BLENDERや他のベンチマーク技術のパフォーマンスを評価することができます。 実験結果は、LLM-BLENDERが個別のLLMやベースライン技術よりも優れたパフォーマンスを発揮することを示しています。LLM-BLENDERのアンサンブル手法を使用することで、単一のLLMやベースライン方法を使用する場合と比較して、より高品質な出力が得られることが示されています。PAIRRANKERの選択は、参照ベースのメトリックやGPT-Rankにおいて、個別のLLMモデルを上回っています。GENFUSERは、PAIRRANKERのトップピックを利用して、効率的な融合を通じて応答品質を大幅に改善しています。 LLM-BLENDERは、Vicunaなどの個別のLLMを上回り、アンサンブル学習を通じてLLMの展開と研究を改善する可能性を示しています。

SalesForceのAI研究者が、マスク不要のOVISを紹介:オープンボキャブラリーインスタンスセグメンテーションマスクジェネレータ

インスタンスセグメンテーションは、複数のオブジェクトを同じクラスに属するものとして、それらを異なるエンティティとして識別するコンピュータビジョンのタスクを指します。深層学習技術の急速な進歩により、過去数年間でセグメンテーション技術のインスタンス数が著しく増加しています。たとえば、畳み込みニューラルネットワーク(CNN)やMask R-CNNなどの先進的なアーキテクチャを使用してインスタンスセグメンテーションが行われます。このような技術の主要な特徴は、オブジェクト検出機能とピクセル単位のセグメンテーションを組み合わせることにより、画像内の各インスタンスに対して正確なマスクを生成し、全体像をより良く理解することができることです。 しかし、既存の検出モデルには、識別できる基本カテゴリの数に関するある種の欠点があります。以前の試行では、COCOデータセットでトレーニングされた検出モデルは、約80のカテゴリを検出する能力を獲得できることが示されています。しかし、追加のカテゴリを識別するには、労力と時間がかかります。これに対処するために、Open Vocabulary(OV)メソッドが存在し、画像とキャプションのペアとビジョン言語モデルを活用して新しいカテゴリを学習します。しかし、基本カテゴリと新しいカテゴリを学習するときの監督には大きな違いがあります。これは、基本カテゴリに過剰適合し、新しいカテゴリに対して一般化が不十分になることが多いためです。そのため、人間の介入がほとんど必要なく新しいカテゴリを検出する方法が必要です。これにより、モデルは現実世界のアプリケーションにとってより実用的でスケーラブルになります。 この問題に対処するため、Salesforce AIの研究者は、画像キャプションペアからバウンディングボックスとインスタンスマスク注釈を生成する方法を考案しました。彼らの提案された方法、Mask-free OVISパイプラインは、擬似マスク注釈を使用して、ビジョン言語モデルから派生した弱い監督を利用することで、基本的なカテゴリと新しいカテゴリを学習します。このアプローチにより、労力を要する人間の注釈が不要になり、過剰適合の問題が解決されます。実験的評価により、彼らの方法論が既存の最先端のオープンボキャブラリーインスタンスセグメンテーションモデルを超えることが示されました。さらに、彼らの研究は、2023年の著名なコンピュータビジョンとパターン認識会議で認められ、受け入れられました。 Salesforceの研究者は、擬似マスクの生成とオープンボキャブラリーインスタンスセグメンテーションの2つの主要なステージで構成されるパイプラインを考案しました。最初のステージでは、画像キャプションペアから対象物の擬似マスク注釈を作成します。事前にトレーニングされたビジョン言語モデルを利用して、オブジェクトの名前がテキストプロンプトとして機能し、オブジェクトをローカライズします。さらに、GradCAMを使用して反復的なマスキングプロセスを実行し、擬似マスクを精度良くオブジェクト全体にカバーするようにします。2番目のステージでは、以前生成されたバウンディングボックスを使用して、GradCAMアクティベーションマップと最も重なりが高い提案を選択するために、弱く監督されたセグメンテーション(WSS)ネットワークがトレーニングされます。最後に、生成された擬似注釈を使用してMask-RCNNモデルがトレーニングされ、パイプラインが完了します。 このパイプラインは、事前にトレーニングされたビジョン言語モデルと弱い監督モデルの力を利用して、追加のトレーニングデータとして使用できる擬似マスク注釈を自動生成することにより、人間の介入が不要になります。研究者たちは、MS-COCOやOpenImagesなどの人気のあるデータセットでいくつかの実験を行い、彼らのアプローチに擬似注釈を使用することで、検出およびインスタンスセグメンテーションのタスクで優れた性能を発揮することが示されました。Salesforceの研究者による独自のビジョン言語ガイドアプローチによる擬似注釈生成は、人間の注釈者を必要としないより高度で正確なインスタンスセグメンテーションモデルの誕生の道を開きます。

Amazonの後、アメリカの製造業を加速させる野心

ジェフ・ウィルク氏は、Amazonの世界的な消費者ビジネスの元CEOであり、LGOプレイブックを彼の新しい使命である米国の製造業の再活性化にもたらします

新しい視点から世界を見るために反射を使用する

新しいコンピュータビジョンシステムは、光沢のあるオブジェクトをある種のカメラに変え、観察者が角や障害物の向こう側を見ることができるようにします

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us