Search Results ウェブサイト

AIの相互作用を変革する：LLaVARは視覚とテキストベースの理解において優れた性能を発揮し、マルチモーダルな指示従属モデルの新時代を切り開く

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-1024×662.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/07/Screenshot-2023-07-01-at-10.42.23-PM-150×150.png”/>複数のアクティビティを1つの命令に組み合わせることで、命令のチューニングは新しいタスクへの一般化を向上させます。このようなオープンエンドの質問に対応する能力は、ChatGPT 2以降のチャットボットの急増に貢献しています。CLIP-ViTのようなビジュアルエンコーダは、ビジュアル命令チューニングモデルの一部として最近会話エージェントに追加され、画像に基づいた人間とエージェントの対話を可能にします。しかし、彼らは画像内のテキストを理解するのに助けが必要です。おそらく、訓練データが自然なイメージ（例：Conceptual CaptionsとCOCO）の優勢であるためです。しかし、読解力は人間の日常的な視覚知覚にとって重要です。幸いにも、OCR技術により、写真から単語を認識することが可能になりました。（より大きなコンテキスト長の）計算は、ビジュアル命令チューニングモデルの入力に認識されたテキストを追加することで（単純に）増加しますが、ビジュアルエンコーダのエンコーディング能力を完全に活用することはありません。これを実現するために、彼らは写真内の単語の理解が必要な命令に従うデータを収集することを提案しています。OCRの結果をOCR結果と組み合わせて、テキストリッチな画像を使用して422Kのノイズのある命令に従うデータを最初に収集します。これらの大量のノイズのある対応データは、言語デコーダとビジュアル特徴の機能の整列を大幅に向上させます。さらに、テキストのみのGPT-4にOCRの結果と画像キャプションを使用して16Kの会話を生成するように依頼します。各会話には多くの質問と回答のペアが含まれる場合があります。このアプローチでは、GPT-4がOCRデータをノイズ除去し、ユニークな質問を作成する必要があります（図1）。彼らは取得されたデータの効果を評価するために、ノイズのあるデータと高品質の例を前処理および微調整の段階に補足的に使用します。<figure><img src=”https://lh4.googleusercontent.com/-AXzLZLUIIpwSBRrWQKqlBzz-EXf5cVHWCylLOuSOPcA9WR0VCjfJiLH4csuBmwvInV2RO3SWrP530DFQKr1IZt76lZJmdGw9YJN0gRbNqq3y8e1YwIyymtzK7DxvMkmTSkIefCHXn4wZqv8rUtXvsQ”/><figcaption>図1は、命令に従う統計情報がどのように収集されるかを示しています。 | https://arxiv.org/pdf/2306.17107.pdf</figcaption></figure>ジョージア工科大学、アドビリサーチ、スタンフォード大学の研究者が開発したLLaVAR（Large Language and Vision Assistant that Can Read）は、視覚とテキストの両方の理解力で優れたパフォーマンスを発揮します。オリジナルのLLaVAと比較して、入力解像度を2242から3362に拡大することで、細かいテキストの特徴をより良くエンコードする実験を行いました。評価手法によると、彼らはScienceQAの微調整結果とともに、4つのテキストベースのVQAデータセットの結果を示しています。また、GPT-4に基づいた命令に従う評価には、LAIONからの50のテキストリッチな画像とCOCOからの30の自然画像も使用しています。さらに、ポスターやウェブサイトのスクリーンショット、ツイートなど、より洗練された命令に従う能力を測定するための定性的な分析も行っています。まとめると、彼らの貢献は以下の通りです：• 高品質な16Kとノイズのある422Kの命令に従うデータを収集しました。どちらもビジュアル命令チューニングを改善することが示されています。改善された能力により、彼らのモデルLLaVARは、テキストと画像を含む多様なオンライン素材に基づいたエンドツーエンドの対話を提供することができますが、モデルのパフォーマンスは自然な写真においてわずかに向上しています。• トレーニングおよび評価データ、およびモデルのマイルストーンは公開されています。この記事はMarkTechPostで最初に公開されました。

共分散と相関の違いは何ですか？

イントロダクション統計の広範な領域において、変数間の複雑な関係を理解し解き放つことは重要です。データ駆動型の意思決定、科学的な発見、予測モデリングなど、複雑なデータセット内の隠れた関連やパターンを解き明かす能力に依存しています。この追求を支えるさまざまな統計基準の中で、共分散と相関は重要であり、変数間の独立性に関する洞察を提供します。共分散と相関は統計解析において頻繁に発生する変数ですが、多くの人々が誤解したり、相互に交換可能に使用したりすることがあります。これら2つの基準を区別する微妙なニュアンスは、統計的な関係の解釈と活用に深い影響を与える可能性があります。したがって、共分散と相関の真の性質を理解することは、データの全ポテンシャルを明らかにしようとするデータ愛好家や専門家にとって非常に重要です。このブログ「共分散と相関」では、これら2つの統計的概念の違いを説明し、その関係を解明します。また、Analytics Vidhyaの「データサイエンスのためのSwift学習」コースでスキルを向上させ、データサイエンスのキャリアを活性化しましょう。共分散 2つのランダム変数間の系統的な関連性を示す統計用語であり、もう一方の変数の変化が1つの変数の変化を反映することを示します。共分散の定義と計算共分散は、2つの変数が直接的または逆比例しているかどうかを示します。共分散の式は、データセット内のデータポイントをその平均値から求めます。たとえば、次の式を使用して、2つのランダム変数XとYの共分散を計算できます：上記の手順において、共分散値の解釈共分散値は、変数間の関係の大きさと方向（正または負）を示します。共分散値は-∞から+∞の範囲を持ちます。正の値は正の関係を示し、負の値は負の関係を示します。正の共分散、負の共分散、およびゼロ共分散数値が高いほど、変数間の関係は依存性が高くなります。それぞれの共分散の種類を理解しましょう：正の共分散 2つの変数間の関係が正の共分散である場合、それらは同じ方向に進化しています。これは変数間の直接的な関係を示しています。したがって、変数は同様に振る舞います。変数の値（小さいまたは大きい）が、他の変数の重要性と等しい場合、変数間の関係は正の共分散となります。負の共分散負の共分散は、2つのランダム変数間の負の関係を示します。この場合、変数は逆方向に動きます。正の共分散とは異なり、1つの変数の増加に対応して他の変数の値が減少し、その逆も同様です。…

2023年の最高のAIテキスト生成ツール

ChatGPTのリリース以来、AIテキスト生成器は頻繁にニュースになっています。適切に訓練されたツールをプロンプトすると、AIテキスト生成器は作業をより良く、より速く支援することができます。現在、ChatGPTは最も有名なAIシステムかもしれませんが、その基盤となるGPT技術は注目を浴びています。最新のGPT-3とGPT-4は非常に強力であり、APIとしても利用できるため、他のプログラマーが自分のプログラムにAIテキスト生成を組み込むことができます。そのため、類似のAIテキスト生成器が数多く存在しています。以下は現在チェックするべきいくつかのAIテキスト生成器です： Jasper AIを使用したテキスト生成に関して、Jasperは有名です。ブランドのトーンに合わせてカスタマイズ可能な長さの高品質なコンテンツを簡単に作成することができます。Jasperはこのリストで最も高価なプログラムの一つなので、コミットする前にデモを活用しましょう。ZapierはJasperとの統合をサポートしているため、AIのテキスト生成を他のすべてのワークアプリケーションにリンクして自動化することができます。 Copy.ai Copy.aiは、ビジネス向けに説得力のあるコンテンツを作成するのを支援するAI駆動のコピーライティングツールです。参加には会員費や最低購入額は必要ありません。このツールでは、よりパーソナライズされた体験と広告を提供するためにCookieが使用されます。Cookieは、このサイトでのGDPRの遵守およびボットの識別に使用されます。アプリは、ユーザーのサイト上のクリックやタップを記録し、統計情報やヒートマップを作成するために使用します。Cookieはまた、ユーザーの好みの言語とサーバークラスターを記憶します。これにより、ユーザーの体験と表示される広告にメリットがあります。 Anyword Anywordは、マーケティングで使用するための人工知能（AI）ベースのテキスト生成器およびコピーライティングツールです。AnywordはAIシステムを使用して、ユーザーの入力を分析し、再現的なテーマを認識し、ユーザーのニーズに合わせたオリジナルでカスタマイズされたコンテンツを作成します。スペルチェック、文法修正、最適な文構造などの追加機能もあります。 Sudowrite Sudowriteは、小説や映画の執筆に向けた高度なAIライティングツールで、作家やジャーナリストなどの著名人から称賛を受けており、The New Yorker、The New York Times、The Vergeなどの一流のジャーナルにも掲載されています。Sudowriteの多くの機能のうち、「Show, Not Tell」ボタンと「Brainstorming Buddy」は、ユーザーが執筆スキルを磨くのをサポートするために設計されています。人工知能ツールに関する事前の知識や経験は必要ありません。Human++株式会社がソフトウェアをサポートし、定期的なサブスクリプション料金を請求する前に無料トライアル期間を提供しています。 Rytr Rytrは、高品質なコンテンツを迅速かつ手頃な価格で作成するのを支援するAIライティングアシスタントです。このツールは、最新の言語AIを使用して、40以上のユースケースと30以上の言語で100％ユニークなコンテンツを生成することができます。Rytrの充実した機能には、リッチテキストエディタ、言い換えや短縮ツール、盗作チェック、フォーマットオプションなどがあります。さらに、Rytrにはブラウザ拡張機能もあり、メール、ドキュメント、ソーシャルメディア、請求書、プロジェクトと統合することができます。 Notion AI パワフルなAI駆動のアプリケーションNotion…

Contextual AIは、VQAv2においてFlamingoを9%上回る（56->65%）ビジョン補完言語モデルのためのAIフレームワークLENSを導入しました

大規模言語モデル（LLM）は、最近の数年間で自然言語理解を変革し、ゼロショットおよびフューショットの環境での特に意味理解、クエリ解決、およびテキスト生成の能力を示しています。図1（a）に示すように、ビジョンに関わるタスクでLLMを使用するためのいくつかの手法が提案されています。光学エンコーダを使用して各画像を連続埋め込みの系列として表現し、LLMが理解できるようにする方法もあります。別の手法では、コントラスト学習でトレーニングされた固定ビジョンエンコーダを使用し、凍結されたLLMに追加の層を追加してゼロから学習します。別の手法では、凍結された視覚エンコーダ（コントラスト学習で事前トレーニングされたもの）と凍結されたLLMを整列させるために、軽量トランスフォーマをトレーニングすることを推奨しています。上記の研究では進歩していますが、追加の事前トレーニング段階の計算コストを正当化するのは依然として困難です。また、既存のLLMと視覚および言語のモダリティを同期させるために、テキスト、写真、動画などの大規模なデータベースが必要です。Flamingoでは、視覚特徴を追加するために、事前トレーニングされたLLMに新しいクロスアテンション層を追加します。図1：視覚と言語のモダリティを調整するための手法の比較マルチモーダルプリトレーニングには2つのオプションがあります：（a）対応またはWebデータセットを利用する方法；および（b）LENSは、追加のマルチモーダルデータセットの要件がない、市販のLLMと組み合わせて使用できるプリトレーニングフリーの手法です。LENSと異なり、従来の手法では視覚タスクを達成するために大規模なマルチモーダルデータセットでの共同アライメントプリトレーニングが必要です。マルチモーダルプリトレーニング段階では、驚くべき20億の画像テキストペアと4300万のウェブサイトが必要であり、事前にトレーニングされた画像エンコーダと凍結されたLLMを使用しても最大15日かかることがあります。代わりに、さまざまな「ビジョンモジュール」を使用して、彼らはビジュアル入力から情報を抽出し、詳細なテキスト表現（タグ、属性、アクション、関係など）を生成し、それをLLMに直接フィードして追加のマルチモーダルプリトレーニングの必要性を回避することができます（図1（b）参照）。Contextual AIとスタンフォード大学の研究者は、LENS（Large Language Models ENnhanced to See）というモジュラーな戦略を紹介し、LLMを「推論モジュール」として使用し、個別の「ビジョンモジュール」で機能する方法を提案しています。彼らはまず、コントラストモデルや画像キャプションモデルなどの事前トレーニング済みビジョンモジュールを使用してLENS手法で豊富なテキスト情報を抽出します。そのテキストは次にLLMに送られ、オブジェクト認識、ビジョン、言語（V&L）を含むタスクを実行することができます。LENSは、追加のマルチモーダルプリトレーニングステージやデータの必要性をなくすことで、モダリティ間のギャップを無償で埋めることができます。また、この統合により、コンピュータビジョンと自然言語処理の最新の進歩を即座に活用することができ、両分野の利点を最大限に引き出すことができます。彼らは以下の貢献を提供しています： • LENSは、言語モデルのfew-shot、インコンテキスト学習能力を使用して、コンピュータビジョンの課題を処理するモジュラーな方法を提供します。 • LENSにより、追加のトレーニングやデータなしで、どの市販のLLMでも視覚情報を認識することができます。 • 凍結されたLLMを使用してオブジェクト認識およびビジュアル推論タスクを処理するために、ビジョンと言語のアライメントやマルチモーダルデータの追加は必要ありません。実験結果は、彼らの手法が、KosmosやFlamingoなどのエンドツーエンド共同プリトレーニングモデルと競合または優れたゼロショットパフォーマンスを達成することを示しています。彼らの論文の一部の実装はGitHubで利用できます。

Pythonを使用してTenacityを使用してリトライを制御する：エンドツーエンドのチュートリアル

Python Tenacityライブラリを発見し、Pythonアプリケーションで効果的な再試行ロジックとエラーハンドリングを実装する方法を学びましょうネットワークやAPIの障害、タイムアウト、およびさまざまな他の課題に対処するための実践的な例と業界で証明されたベストプラクティスを提供します

技術的なバックグラウンドがなくてもデータサイエンティストになる方法：ヒントと戦略

通常投稿している内容とは少し異なるストーリーになります具体的なツールや技術の紹介でもなく、チュートリアルや実践例でもありません今回は、私がいつも考えていた質問に答えたいと思います...

Hugging FaceとGradioを使用して、5分でAIチャットボットを構築する

この簡単なチュートリアルを使って、ブラウザ上で低コード技術を使ってGradioチャットボットを作成する方法を学びましょう

Natural language processing

2023年のマーケティングにおけるChatGPTの10のユースケース

2022年11月のリリース以来、ChatGPTはAIモデルの対話や利用方法を完全に変えました。その使用例は、バイオテクノロジーや薬物開発からマーケティングまで幅広くあります。ChatGPTは創設以来、ほぼすべての分野に影響を与えてきました。この記事では、2023年のマーケティングでのChatGPTのいくつかの使用例について説明します。コンテンツ作成 ChatGPTの最大の強みは、テキスト生成です。ユーザープロンプトに続いて、興味を引く思考を巡らせる記事を書くことができるため、コンテンツ作成に適しています。メール、ソーシャルメディアの投稿、ブログ記事、広告コピーなどを書くことができます。モデルのコンテンツは、メールキャンペーン用の説得力のあるメールやデジタルマーケティングキャンペーン用のコンテンツなど、異なるマーケティングチャネルに組み込むことができます。これにより、ChatGPTはコピーライティングに理想的なツールとなります。ただし、モデルには、興味を引く、説得力のあるなどのキーワードを含む詳細なプロンプトを与えることが重要です。サーチエンジン最適化（SEO） ChatGPTは、マーケティングにおけるサーチエンジン最適化（SEO）において優れたツールです。適切なキーワードやフレーズの提案により、ユーザーの記事が検索エンジンの検索結果ページで上位にランク付けされることが保証されます。また、トピックのアイデアを生成したり、コンテンツの構造を作成したり、魅力的なタイトルを見つけることもできます。リードジェネレーション言語能力を活用したGPTを搭載したチャットボットは、サイトの訪問者とのテキストベースの会話を通じて、彼らが抱える問題を解決するだけでなく、リードジェネレーションのための情報を収集することができます。チャットボットは、製品やサービスに関する情報を訪問者に提供し、リードジェネレーションのための連絡先情報や好みの情報を収集することができます。さらに、顧客のウェブサイトとのやり取りを分析することで、モデルはマーケティングキャンペーンの効果を向上させるためにパーソナライズされたメールを生成することができます。顧客サービスの品質向上 ChatGPTをチャットボットシステムに統合することで、顧客サポートを革新し、即時かつパーソナライズされたサポートを提供します。これらのAIパワードチャットボットは、顧客満足度を向上させ、応答時間を短縮し、顧客サービス担当者の業務負荷を軽減します。ChatGPTのインテリジェントな応答により、長い待ち時間、不適切な行動、信頼性の低いコミュニケーションチャネルなどの問題に対処します。顧客サービスの品質を向上させることで、マーケターは顧客の痛点を把握し、より良い対応ができるようになります。オーディエンスリサーチ検索クエリ、ソーシャルメディアの対話、過去の購入データなどのデータを使用して、ChatGPTは顧客の行動パターンやトレンドを特定し、ターゲットオーディエンスの興味、好み、痛みのポイントを把握することができます。この分析により、ユーザーはマーケティングコンテンツや製品開発に関する情報を元にした意思決定を行うことができます。製品説明の作成製品説明は、製品の特徴、利点、価値についての貴重な詳細を潜在的な顧客に伝えることで、マーケティングにおいて重要な役割を果たしています。ChatGPTの支援を受けて、ユーザーは特定のターゲットオーディエンスに効果的に共感する魅力的で情報量のある製品説明を生成することができます。ソーシャルメディアの管理 ChatGPTは、スケジュール管理、効率化、最適化などのタスクを処理することができます。ChatGPTを活用することで、観客の行動、好み、ピーク利用時間に基づいてソーシャルメディア投稿のスケジュールを最適化することができます。さらに、前述のように、ChatGPTは顧客の行動に関する洞察を提供することもできます。さらに、企業のキャンペーンに最適な広告フォーマットを推奨することも可能です。顧客アンケートの生成 ChatGPTは、顧客アンケートの作成において優れたツールとなることがあります。ChatGPTの機能を活用することで、関連する質問を生成し、効果的にアンケートを構築し、翻訳機能を通じて多言語化することも可能です。さらに、ChatGPTはアンケートデータの分析を支援し、マーケターが製品、サービス、マーケティング戦略を改善するための貴重なフィードバックと洞察を収集するのに役立ちます。ターゲットの顧客像の生成ビジネスにおいては、対象とする観客を知ることが重要です。ChatGPTは、ユーザーが自分のマーケティング活動を彼らの周りに構築するために役立つ情報を提供することができます。ユーザーはChatGPTに対して、ターゲットの顧客像を生成するように依頼することができます。 SWOT分析 ChatGPTは、マーケターが包括的なSWOT分析を実施することを可能にし、ブランドの強みと弱点、機会、潜在的な脅威をより深く理解することができます。

ChatGPTはデータサイエンティストを置き換えるのか？

すべての職業は危険にさらされていますあなたのキャリアをAIに対応させる方法をご紹介します

Data science

ChatHNに会いましょう：ハッカーニュースフィード上のリアルタイムAIパワーチャット

ChatHNはAIによって駆動され、最近Hacker News Feedで開始されました。ChatHNは、OpenAI FunctionsとVercel AI SDKを使用して構築された無料かつオープンソースの人工知能（AI）チャットボットであり、Hacker News APIとの対話的なインタラクションを提供します。https://github.com/steven-tey/chathnの手順に従って、誰でも1クリックでChatHNのインスタンスを展開することができます。 ChatHNは、Hacker News（HN）との対話的なインタラクションを容易にするプラットフォームです。最も人気のある記事、特定の記事、またはHacker Newsからの記事とコメントを取得するなどの機能があります。ChatHNは、Hacker News上の最も人気のあるストーリーとコメントを要約するためにも使用できます。ChatHNは、Hacker NewsのウェブサイトやAPIを直接使用せずに、Hacker Newsの素材への対話的なアクセスを容易にすることを目指しています。使用および変更は完全に無料で、以下のものを使用して開発されました。 OpenAIの新しいFunctions Calling機能 Vercel AI SDK HackerNews API こちらをご覧ください：chathn.vercel.app OpenAIのFunctions…

Learn more about Search Results ウェブサイト - Page 83