Learn more about Search Results MarkTechPost - Page 154

2023年の最高のAIテキスト生成ツール

ChatGPTのリリース以来、AIテキスト生成器は頻繁にニュースになっています。適切に訓練されたツールをプロンプトすると、AIテキスト生成器は作業をより良く、より速く支援することができます。現在、ChatGPTは最も有名なAIシステムかもしれませんが、その基盤となるGPT技術は注目を浴びています。最新のGPT-3とGPT-4は非常に強力であり、APIとしても利用できるため、他のプログラマーが自分のプログラムにAIテキスト生成を組み込むことができます。そのため、類似のAIテキスト生成器が数多く存在しています。 以下は現在チェックするべきいくつかのAIテキスト生成器です: Jasper AIを使用したテキスト生成に関して、Jasperは有名です。ブランドのトーンに合わせてカスタマイズ可能な長さの高品質なコンテンツを簡単に作成することができます。Jasperはこのリストで最も高価なプログラムの一つなので、コミットする前にデモを活用しましょう。ZapierはJasperとの統合をサポートしているため、AIのテキスト生成を他のすべてのワークアプリケーションにリンクして自動化することができます。 Copy.ai Copy.aiは、ビジネス向けに説得力のあるコンテンツを作成するのを支援するAI駆動のコピーライティングツールです。参加には会員費や最低購入額は必要ありません。このツールでは、よりパーソナライズされた体験と広告を提供するためにCookieが使用されます。Cookieは、このサイトでのGDPRの遵守およびボットの識別に使用されます。アプリは、ユーザーのサイト上のクリックやタップを記録し、統計情報やヒートマップを作成するために使用します。Cookieはまた、ユーザーの好みの言語とサーバークラスターを記憶します。これにより、ユーザーの体験と表示される広告にメリットがあります。 Anyword Anywordは、マーケティングで使用するための人工知能(AI)ベースのテキスト生成器およびコピーライティングツールです。AnywordはAIシステムを使用して、ユーザーの入力を分析し、再現的なテーマを認識し、ユーザーのニーズに合わせたオリジナルでカスタマイズされたコンテンツを作成します。スペルチェック、文法修正、最適な文構造などの追加機能もあります。 Sudowrite Sudowriteは、小説や映画の執筆に向けた高度なAIライティングツールで、作家やジャーナリストなどの著名人から称賛を受けており、The New Yorker、The New York Times、The Vergeなどの一流のジャーナルにも掲載されています。Sudowriteの多くの機能のうち、「Show, Not Tell」ボタンと「Brainstorming Buddy」は、ユーザーが執筆スキルを磨くのをサポートするために設計されています。人工知能ツールに関する事前の知識や経験は必要ありません。Human++株式会社がソフトウェアをサポートし、定期的なサブスクリプション料金を請求する前に無料トライアル期間を提供しています。 Rytr Rytrは、高品質なコンテンツを迅速かつ手頃な価格で作成するのを支援するAIライティングアシスタントです。このツールは、最新の言語AIを使用して、40以上のユースケースと30以上の言語で100%ユニークなコンテンツを生成することができます。Rytrの充実した機能には、リッチテキストエディタ、言い換えや短縮ツール、盗作チェック、フォーマットオプションなどがあります。さらに、Rytrにはブラウザ拡張機能もあり、メール、ドキュメント、ソーシャルメディア、請求書、プロジェクトと統合することができます。 Notion AI パワフルなAI駆動のアプリケーションNotion…

Contextual AIは、VQAv2においてFlamingoを9%上回る(56->65%)ビジョン補完言語モデルのためのAIフレームワークLENSを導入しました

大規模言語モデル(LLM)は、最近の数年間で自然言語理解を変革し、ゼロショットおよびフューショットの環境での特に意味理解、クエリ解決、およびテキスト生成の能力を示しています。図1(a)に示すように、ビジョンに関わるタスクでLLMを使用するためのいくつかの手法が提案されています。光学エンコーダを使用して各画像を連続埋め込みの系列として表現し、LLMが理解できるようにする方法もあります。別の手法では、コントラスト学習でトレーニングされた固定ビジョンエンコーダを使用し、凍結されたLLMに追加の層を追加してゼロから学習します。 別の手法では、凍結された視覚エンコーダ(コントラスト学習で事前トレーニングされたもの)と凍結されたLLMを整列させるために、軽量トランスフォーマをトレーニングすることを推奨しています。上記の研究では進歩していますが、追加の事前トレーニング段階の計算コストを正当化するのは依然として困難です。また、既存のLLMと視覚および言語のモダリティを同期させるために、テキスト、写真、動画などの大規模なデータベースが必要です。Flamingoでは、視覚特徴を追加するために、事前トレーニングされたLLMに新しいクロスアテンション層を追加します。 図1:視覚と言語のモダリティを調整するための手法の比較 マルチモーダルプリトレーニングには2つのオプションがあります:(a)対応またはWebデータセットを利用する方法;および(b)LENSは、追加のマルチモーダルデータセットの要件がない、市販のLLMと組み合わせて使用できるプリトレーニングフリーの手法です。LENSと異なり、従来の手法では視覚タスクを達成するために大規模なマルチモーダルデータセットでの共同アライメントプリトレーニングが必要です。 マルチモーダルプリトレーニング段階では、驚くべき20億の画像テキストペアと4300万のウェブサイトが必要であり、事前にトレーニングされた画像エンコーダと凍結されたLLMを使用しても最大15日かかることがあります。代わりに、さまざまな「ビジョンモジュール」を使用して、彼らはビジュアル入力から情報を抽出し、詳細なテキスト表現(タグ、属性、アクション、関係など)を生成し、それをLLMに直接フィードして追加のマルチモーダルプリトレーニングの必要性を回避することができます(図1(b)参照)。Contextual AIとスタンフォード大学の研究者は、LENS(Large Language Models ENnhanced to See)というモジュラーな戦略を紹介し、LLMを「推論モジュール」として使用し、個別の「ビジョンモジュール」で機能する方法を提案しています。 彼らはまず、コントラストモデルや画像キャプションモデルなどの事前トレーニング済みビジョンモジュールを使用してLENS手法で豊富なテキスト情報を抽出します。そのテキストは次にLLMに送られ、オブジェクト認識、ビジョン、言語(V&L)を含むタスクを実行することができます。LENSは、追加のマルチモーダルプリトレーニングステージやデータの必要性をなくすことで、モダリティ間のギャップを無償で埋めることができます。また、この統合により、コンピュータビジョンと自然言語処理の最新の進歩を即座に活用することができ、両分野の利点を最大限に引き出すことができます。 彼らは以下の貢献を提供しています: • LENSは、言語モデルのfew-shot、インコンテキスト学習能力を使用して、コンピュータビジョンの課題を処理するモジュラーな方法を提供します。 • LENSにより、追加のトレーニングやデータなしで、どの市販のLLMでも視覚情報を認識することができます。 • 凍結されたLLMを使用してオブジェクト認識およびビジュアル推論タスクを処理するために、ビジョンと言語のアライメントやマルチモーダルデータの追加は必要ありません。実験結果は、彼らの手法が、KosmosやFlamingoなどのエンドツーエンド共同プリトレーニングモデルと競合または優れたゼロショットパフォーマンスを達成することを示しています。彼らの論文の一部の実装はGitHubで利用できます。

3B、4B、9B のスケールで 5 つの新しいマルチモーダルモデルを備えた OpenFlamingo チームが、前モデルを上回る OpenFlamingo v2 をリリースしました

ワシントン大学、スタンフォード大学、AI2、UCSB、Googleの研究者グループは、最近OpenFlamingoプロジェクトを開発しました。このプロジェクトはDeepMindのFlamingoチームと同様のモデルを構築することを目指しています。OpenFlamingoモデルは、任意の混合テキストと画像のシーケンスを処理し、テキストを出力することができます。キャプショニング、ビジュアルクエスチョンアンサリング、画像分類などが、このモデルの能力とコンテキストでのサンプリングを活用することができる活動の一部です。 現在、チームはv2のリリースを発表しました。このリリースには、3B、4B、9Bのレベルでトレーニングされた5つのOpenFlamingoモデルが含まれています。これらのモデルは、LLaMAよりも制約の緩いオープンソースモデルから派生しており、MosaicのMPT-1Bと7B、Together.XYZのRedPajama-3Bなどが含まれています。 研究者たちは、すでにプリトレーニングされた静的言語モデルのレイヤーに視覚的な特徴を追加することで、Flamingoモデリングパラダイムを使用しました。ビジョンエンコーダーと言語モデルは静的なままですが、接続モジュールはFlamingoと同様にWebスクレイピングされた画像テキストのシーケンスを使用してトレーニングされます。 チームは、キャプショニング、VQA、および分類モデルをビジョン言語データセットでテストしました。その結果、チームはv1リリースとOpenFlamingo-9B v2モデルの間で大きな進歩を遂げたことがわかりました。 彼らは7つのデータセットと5つの異なるコンテキストからの結果を組み合わせて、モデルの有効性を評価しました。コンテキストのないショット、4つのショット、8つのショット、16のショット、32のショットの評価を行いました。OpenFlamingo (OF)のOF-3BおよびOF-4BレベルのモデルをFlamingo-3BおよびFlamingo-9Bレベルのモデルと比較し、平均してOpenFlamingo (OF)はFlamingoの性能の80%以上を達成していることがわかりました。研究者たちはまた、自身の結果をPapersWithCodeで公開された最適化されたSoTAと比較しました。オンラインデータのみで事前トレーニングされたOpenFlamingo-3BおよびOpenFlamingo-9Bモデルは、32のコンテキストインスタンスで微調整された性能の55%以上を達成しています。OpenFlamingoのモデルは、0ショットではDeepMindの平均10%、32ショットでは15%遅れています。 チームは引き続きトレーニングと最先端のマルチモーダルモデルの提供に取り組んでいます。次に、事前トレーニングに使用するデータの品質を向上させることを目指しています。

Unityは、Museというテキストからビデオゲームを作成するプラットフォームのリリースを発表しましたこのプラットフォームでは、自然言語でテクスチャ、スプライト、アニメーションを作成することができます

AIはさまざまな産業で波紋を広げ、芸術やその他の分野へのアプローチの仕方を革新してきました。人工知能はデータの分析、パターンの学習、コンテンツの生成能力により、創造的な表現と効率性に新たな可能性を開拓しています。AIが主にその功績を上げている分野の一つがゲーム開発の領域です。 ゲーム開発は、技術的な専門知識とクリエイティブなストーリーテリングのバランスが求められる緻密なプロセスです。従来、ゲームデザイナーや開発者はゲームのキャラクターや環境、ゲームプレイのメカニクスなど、ゲームのあらゆる要素を手作業で作成する必要がありました。しかし、AIの登場により、ゲーム開発は大きく進歩しました。 ゲーム開発プラットフォームのリーディングカンパニーであるUnity Technologiesは、画期的な発表を行い、創造の風景を革新する2つのユニークなAIパワードツールを発表しました。創造時間の短縮、ニューラルネットワークのシームレスな統合、さまざまなドメインでの生産性向上を目指すUnity MuseとUnity Sentisが舞台に登場し、世界中のクリエイターを魅了しています。これらの最先端のツールはクローズドベータに参入し、AIと人間の創造力が融合してゲーム、エンターテイメント、産業アプリケーションの未来を形作るエキサイティングな時代の幕開けを告げました。 最初の逸品であるUnity Museは、AIパワードプラットフォームとしての中心的な役割を果たし、リアルタイムの3Dアプリケーションやエクスペリエンスの作成に前例のないスピードと効率をもたらします。Museを使用して、テキストプロンプトやスケッチなどの自然な入力を使用してUnityエディタ内で多様なコンテンツを簡単に生成することができます。ペンの数ストロークで魅力的なデジタルワールドに命を吹き込む能力を想像してみてください。また、特性を説明するだけでダイナミックなキャラクターを召喚する力もあります。Unity MuseはAIの能力を活用することでクリエイティブプロセスを強化し、クリエイターがイマジネーションを実現することに集中できるよう裏方で応援します。 Museプラットフォーム内には、Muse Chatという素晴らしい機能があります。これはUnityの広大なドキュメンテーション、トレーニングリソース、サポートコンテンツのAIベースの検索機能を活用します。Muse Chatは質問に答えたり、構造化されたインサイトを提供したり、Unityの広範な知識ベースから最新の情報を提供することができる、ガイドとなる仲間です。クリエイターは今や仮想のメンターを持ち、Unityの技術を熟知した、いつでもタイムリーなサポートを提供する疲れ知らずのパートナーと共に開発プロセスを楽しむことができます。Muse Chatは開発プロセスをエキサイティングな旅に変え、障壁を取り除き、クリエイターの全ての可能性を解き放つのです。 Unity Sentisも負けていません。Unity Sentisは、クリエイターがゲームやアプリケーションのUnityランタイムにAIモデルをシームレスに統合できるパワフルなツールとして登場します。Sentisによって、ゲームプレイやユーザーエクスペリエンスの境界が打ち破られ、AIモデルがエンドユーザープラットフォームで生き生きと活躍します。この画期的なツールにより、開発者は一度AIモデルを作成し、モバイルデバイスやPC、ウェブ、ゲームコンソールなどのプラットフォームにシームレスに組み込むことができます。Unity Sentisは革新的なクロスプラットフォームソリューションであり、AIモデルがダイナミックな3Dエンジンの一部となる新しい時代への入り口を開きます。仮想世界と現実の境界が曖昧になり、革新が限りなく広がる無限の可能性が開かれるのです。 しかし、驚異はこれに終わりません。Unity Technologiesは、優れた開発者の一流のラインナップと協力し、Unity Asset StoreにAI Verified Solutionsを紹介しています。Atlas、Convai、Inworld AI、Layer…

FastSAMとは、最小限の計算負荷で高性能のセグメンテーションを実現する画期的なリアルタイムソリューションです

セグメントアニシングモデル(SAM)は、この分野での新しい提案です。これは画像のセグメント化を正確に行うために、複数のユーザー参加プロンプトを利用する可能性があるビジョンの基礎コンセプトであり、画期的とされています。SA-1Bデータセットで広範にトレーニングされたトランスフォーマーモデルを使用することで、SAMはさまざまな状況とオブジェクトを簡単に扱うことができます。つまり、SAMのおかげでセグメントアニシングが可能になりました。このタスクは、その汎用性のため、さまざまな将来のビジョンの課題の基礎としての役割を果たす可能性があります。 これらの改善とSAMおよびその後のモデルのセグメントアニシングタスクの有望な結果にもかかわらず、その実用的な実装はまだ改善が必要です。SAMのアーキテクチャの主な課題は、畳み込みのアナログと比較してトランスフォーマーモデル(ViT)の高い処理要件です。商業アプリケーションからの増加する需要に触発され、中国の研究者チームはセグメントアニシングの問題に対するリアルタイムな解答を作成しました。研究者たちはそれをFastSAMと呼んでいます。 この問題を解決するために、研究者はセグメントアニシングタスクを2つのパートに分割しました:全インスタンスセグメンテーションとプロンプトによる選択ガイド。最初のステップでは、畳み込みニューラルネットワーク(CNN)に基づいた検出器を使用します。画像内の各インスタンスのセグメンテーションマスクが生成されます。次のステージでは、入力に対して一致する関心領域を表示します。彼らは、畳み込みニューラルネットワーク(CNN)の計算効率を利用することで、任意のデータセグメントのリアルタイムモデルが実現可能であることを示しています。彼らはまた、このアプローチが商業環境で基本的なセグメンテーションプロセスの広範な使用を可能にする可能性も示しています。 提案されたFastSAMの基礎となるオブジェクト検出器であるYOLOv8-segを使用して、YOLACTアプローチを使用しています。研究者たちはまた、SAMの包括的なSA-1Bデータセットも使用しています。このCNN検出器は、SA-1Bデータセットのわずか2%(1/50)のみを使用して直接トレーニングされているにもかかわらず、SAMと同等のパフォーマンスを実現し、計算およびリソースの制約が大幅に減少しているため、リアルタイムアプリケーションが可能です。彼らはまた、それをさまざまなダウンストリームのセグメンテーションタスクに適用することで、その一般化性能を示しています。 リアルタイムのセグメントアニシングモデルには、産業界での実用的な応用があります。それにはさまざまな可能性があります。提案された手法は、幅広いビジョンの課題に対する新しい実装可能な回答を提供するだけでなく、非常に高速であり、従来のアプローチよりも数十倍または数百倍速いことが多いです。大規模なモデルアーキテクチャに関する新しい視点も歓迎されます。私たちの研究は、特化したモデルが最も効率と精度のバランスを提供するケースがまだあることを示唆しています。そして、私たちの手法は、モデルを実行するために必要な計算コストを大幅に最小化するために、構造の前に人工的なものを挿入する経路の実現可能性を示しています。 チームは、主な貢献を以下のようにまとめています: セグメントアニシングの課題は、高い処理要件を犠牲にせずに劇的に減少させる、革命的なリアルタイムCNNベースの手法を導入することで解決されます。 この記事では、複雑なビジョンのタスクにおける軽量CNNモデルのポテンシャルについての洞察が示されており、CNN検出器をセグメントアニシングの課題に初めて適用した研究も含まれています。 提案された手法のセグメントアニシング領域におけるメリットと短所は、さまざまなベンチマークでのSAMとの比較を通じて明らかにされています。 総合的には、提案されたFastSAMは、SAMと同等のパフォーマンスを持ちながら、それぞれ50倍と170倍速く実行できます。その高速なパフォーマンスは、道路の障害物の識別、ビデオのインスタンス追跡、写真編集など、産業アプリケーションに利益をもたらす可能性があります。FastSAMは、いくつかの写真で巨大なオブジェクトのためのより高品質なマスクを生成することができます。提案されたFastSAMは、セグメント化された画像から弾力性と効率性のある関心領域を選択することにより、リアルタイムのセグメント操作を実現することができます。彼らは、FastSAMをSAMに対してエッジ認識、プロポーザル生成、インスタンスセグメンテーション、テキストプロンプトによる位置特定の4つのゼロショットタスクで比較する経験的な調査を実施しました。結果は、FastSAMがSAM-ViT-Hと比較して実行時間が50倍速く、リアルタイムで多くのダウンストリームジョブを効率的に処理できることを示しています。

SDFStudio(エスディーエフスタジオ)は、Nerfstudioプロジェクトの上に構築された、ニューラル暗黙的表面再構築のための統一されたモジュラーフレームワークです

ここ数年、特に表面再構築において、いくつかのコンピュータビジョンおよびコンピュータグラフィックス関連分野で急速な進歩がありました。 3Dスキャンにおけるこの変化し続ける分野の主な目標は、特定の品質基準を満たしながら、与えられた点群から効率的に表面を再現することです。 これらのアルゴリズムは、与えられた点群データに基づいて、スキャンされたオブジェクトの表面の基礎的なジオメトリを推定することを目指しています。 その表面は、可視化、バーチャルリアリティ、コンピュータ支援設計、医療画像など、さまざまな目的に活用することができます。 表面再構築の最もよく知られた手法には、自己組織化マップ、ベイジアン再構築、ポアソン再構築などがあります。 表面再構築は3Dスキャンの重要な要素であるため、非教師あり機械学習を使用した3Dスキャンからの表面再構築のためのさまざまな適切な技術を開発するために、大規模な研究が進行しています。 この方向性を踏まえて、チュービンゲン大学、ETHチューリッヒ、チェコ工科大学プラハの多様な研究者グループが協力して、SDFStudioという統一された多機能ツールを開発しました。 このフレームワークは、主にニューラルラジアンスフィールド(NeRF)の作成、トレーニング、視覚化プロセスを効率化するAPIを提供するnerfstudioプロジェクトの上に構築されています。 実装の一環として、開発者は3つの主要な表面再構築手法を使用しています:UniSurf、VolSDF、およびNeuS。 UniSurfは、非組織化点群から滑らかな表面表現を生成することを目指す表面再構築手法であり、暗黙的な関数と多角形メッシュを組み合わせています。 一方、VolSDFは、入力点群のボリューメトリック表現を活用する表面再構築手法です。 NeuSは、深層ニューラルネットワークを利用して、点群から表面表現を生成する表面再構築手法であり、暗黙的な表面表現と学習ベースの手法の両方の特性を組み合わせています。 さまざまなシーン表現と表面再構築技術をサポートするために、SDFStudioはキーとなる表現として符号付き距離関数(SDF)を使用しており、この関数の等値面を表面と定義しています。 SDFStudioは、マルチレイヤーパーセプトロン(MLP)、トライプレーン、およびマルチレス機能グリッドなど、さまざまな技術を使用してSDFを推定します。 これらの技術は、シーン内の異なる場所で符号付き距離または占有値を推定するために、ニューラルネットワークと特徴グリッドを利用しています。 精度と効率をさらに向上させるために、このツールはさまざまなポイントサンプリング戦略を組み込んでおり、その一つがUniSurfの方法に着想を得たサーフェスガイドサンプリングです。 さらに、SDFStudioはNeuralReconWの手法から派生したボクセルサーフェスガイドサンプリングも使用しています。 この手法は、ボクセルグリッドの情報を活用してサンプリングプロセスを誘導し、生成されるポイントがオブジェクトの表面上にある可能性が高くなるようにします。 このようなサンプリング技術を取り入れることで、SDFStudioは生成されるポイントサンプルが基礎となる表面を代表するものであり、再構築された表面の品質と精度が向上することを保証します。 SDFStudioの特筆すべき特徴の一つは、異なる手法間でのアイデアや技術の移植を容易にする統一されたモジュラーな実装を提供していることです。 たとえば、Mono-NeuSからNeuSへのアイデアの移植が見られます。 Geo-VolSDFでは、Geo-NeuSからのアイデアをVolSDFに組み込んでいます。 SDFStudioで異なる手法間でアイデアを移植できる能力は、研究者が異なる組み合わせを試し、あるプロセスからインスピレーションを得て別のプロセスに統合することで、表面再構築の進歩を促進します。 SDFStudioをすばやく始めるには、GitHubリポジトリで利用可能なセットアップ手順に従ってください。

Webスケールトレーニング解放:DeepMindがOWLv2とOWL-STを紹介、未知語彙物体検出の革新的ツール、前例のない自己学習技術によって駆動されます

オープンボキャブラリーの物体検出は、さまざまな実世界のコンピュータビジョンタスクにおいて重要な要素です。ただし、検出トレーニングデータの入手の制約と、事前学習モデルの脆弱性により、性能が劣り、スケーラビリティの問題が生じることが多いです。 この課題に対処するため、DeepMindの研究チームは最新の論文「Scaling Open-Vocabulary Object Detection」で、最適化されたアーキテクチャであるOWLv2モデルを紹介しています。このモデルはトレーニング効率を改善し、OWL-STセルフトレーニングの手法を組み込んで検出性能を大幅に向上させ、オープンボキャブラリー検出タスクでの最先端の結果を達成します。 この研究の主な目的は、ラベルスペース、注釈フィルタリング、およびオープンボキャブラリー検出セルフトレーニング手法のトレーニング効率を最適化し、限られたラベル付きデータで堅牢でスケーラブルなオープンボキャブラリー性能を実現することです。 提案されたセルフトレーニング手法は、次の3つの主要なステップで構成されています: チームは既存のオープンボキャブラリー検出器を使用して、WebLIという大規模なウェブ画像テキストペアのデータセットでオープンボックス検出を行います。 彼らはOWL-ViT CLIP-L/14を使用して、すべてのWebLI画像に境界ボックスの疑似注釈を付けます。 彼らは、人間による注釈付けされた検出データを使用してトレーニングモデルを微調整し、パフォーマンスをさらに向上させます。 特筆すべきは、研究者がより効果的な検出器を訓練するために、OWL-ViTアーキテクチャのバリアントを使用していることです。このアーキテクチャは、コントラストトレーニングされた画像テキストモデルを利用して画像とテキストのエンコーダを初期化し、検出ヘッドはランダムに初期化されます。 トレーニングの段階では、チームは同じ損失関数を使用し、OWL-ViTアーキテクチャから「疑似ネガティブ」をクエリに追加して、利用可能なラベル付き画像の利用を最大化するためにトレーニング効率を最適化します。 さらに、大規模Transformerトレーニングのために以前に提案された手法を組み込んで、トレーニング効率をさらに向上させます。その結果、OWLv2モデルは、元のOWL-ViTモデルに比べてトレーニングFLOPSを約50%削減し、トレーニングスループットを2倍に加速します。 チームは実証的な研究で、提案手法を以前の最先端のオープンボキャブラリー検出器と比較しています。OWL-ST技術により、LVISの稀なクラスの平均精度(AP)が31.2%から44.6%に向上します。さらに、OWL-STレシピをOWLv2アーキテクチャと組み合わせることで、新たな最先端のパフォーマンスが実現されます。 全体的に、本論文で提案されたOWL-STレシピは、大規模なウェブデータからの弱教師付き学習を活用して検出性能を大幅に向上させ、オープンワールドの位置特定におけるウェブスケールのトレーニングを実現します。この手法は、ラベル付き検出データの希少性による制約に対処し、堅牢なオープンボキャブラリー物体検出のスケーラブルな手法の可能性を示しています。

DORSalとは 3Dシーンの生成とオブジェクトレベルの編集のための3D構造拡散モデル

人工知能は、Generative AIとLarge Language Models(LLMs)の導入により進化しています。GPT、BERT、PaLMなどのよく知られたモデルは、人間とコンピュータの相互作用を変革するLLMの長いリストに素晴らしい追加です。画像生成では、拡散モデルが研究者の注目を集めています。これらのモデルは、画像データセットの複雑な確率分布を捉え、トレーニングデータに似た新しいサンプルを生成します。3Dシーン理解も進化しており、大規模なシーンデータセットで訓練できるジオメトリフリーなニューラルネットワークの開発を可能にしています。これらのネットワークは、見たことのないシーンやオブジェクトにも適用でき、単一またはわずかな入力画像から視点を生成し、トレーニングにはシーンごとにわずかな観測データのみが必要です。 拡散モデルと3Dシーン表現学習モデルの能力を組み合わせることで、UCバークレー、Google Research、Google DeepMindの研究チームはDORSal(Diffusion for Object-centric Representations of Scenes et al.)を開発しました。これは、オブジェクト表現と拡散デコーダを組み合わせて、3Dシーンの新しい視点を生成するアプローチです。DORSalはジオメトリフリーであり、高価なボリュームレンダリングを必要とせず、データだけから純粋に3Dシーン構造を学習します。 3Dシーンの作成を目的として、DORSalは元々画像合成のために作成されたビデオ拡散アーキテクチャを利用しています。主なコンセプトは、シーンのオブジェクトに関するスロットベースのオブジェクト中心の表現を拡散モデルに制約として利用することです。これらの表現は、シーンのオブジェクトとその特性に関する重要な詳細を捉えています。DORSalは、これらのオブジェクト中心の表現に拡散モデルを構成することで、3Dシーンの高品質な革新的な視点の合成を容易にします。また、オブジェクトレベルのシーン編集の機能も持ち、ユーザーはシーン内の特定のアイテムを変更および変更することができます。 チームによる主な貢献は次のとおりです。 拡散モデルとオブジェクト中心のシーン表現の強みを活用した3D新視点合成アプローチであるDORSalは、描画された視点の品質を向上させます。 従来の3Dシーン理解の方法と比較して、DORSalは優れたパフォーマンスを発揮し、Fréchet Inception Distance(FID)の5倍から10倍の改善を実現します。 3D拡散モデルに関する従来の研究と比較して、DORSalはより複雑なシーンの処理能力に優れています。Google Street Viewの実世界のデータを評価した結果、DORSalは描画品質の点で著しく優れたパフォーマンスを発揮します。 DORSalは、構造化されたオブジェクトベースのシーン表現を拡散モデルに条件付けることができます。この表現を使用することで、DORSalは個々のオブジェクトを使用してシーンを構成することを学び、推論中に基本的なオブジェクトレベルのシーン編集を可能にし、ユーザーはシーン内の特定のオブジェクトを操作および変更することができます。…

2023年のマーケティングにおけるChatGPTの10のユースケース

2022年11月のリリース以来、ChatGPTはAIモデルの対話や利用方法を完全に変えました。その使用例は、バイオテクノロジーや薬物開発からマーケティングまで幅広くあります。ChatGPTは創設以来、ほぼすべての分野に影響を与えてきました。この記事では、2023年のマーケティングでのChatGPTのいくつかの使用例について説明します。 コンテンツ作成 ChatGPTの最大の強みは、テキスト生成です。ユーザープロンプトに続いて、興味を引く思考を巡らせる記事を書くことができるため、コンテンツ作成に適しています。メール、ソーシャルメディアの投稿、ブログ記事、広告コピーなどを書くことができます。モデルのコンテンツは、メールキャンペーン用の説得力のあるメールやデジタルマーケティングキャンペーン用のコンテンツなど、異なるマーケティングチャネルに組み込むことができます。これにより、ChatGPTはコピーライティングに理想的なツールとなります。 ただし、モデルには、興味を引く、説得力のあるなどのキーワードを含む詳細なプロンプトを与えることが重要です。 サーチエンジン最適化(SEO) ChatGPTは、マーケティングにおけるサーチエンジン最適化(SEO)において優れたツールです。適切なキーワードやフレーズの提案により、ユーザーの記事が検索エンジンの検索結果ページで上位にランク付けされることが保証されます。また、トピックのアイデアを生成したり、コンテンツの構造を作成したり、魅力的なタイトルを見つけることもできます。 リードジェネレーション 言語能力を活用したGPTを搭載したチャットボットは、サイトの訪問者とのテキストベースの会話を通じて、彼らが抱える問題を解決するだけでなく、リードジェネレーションのための情報を収集することができます。チャットボットは、製品やサービスに関する情報を訪問者に提供し、リードジェネレーションのための連絡先情報や好みの情報を収集することができます。さらに、顧客のウェブサイトとのやり取りを分析することで、モデルはマーケティングキャンペーンの効果を向上させるためにパーソナライズされたメールを生成することができます。 顧客サービスの品質向上 ChatGPTをチャットボットシステムに統合することで、顧客サポートを革新し、即時かつパーソナライズされたサポートを提供します。これらのAIパワードチャットボットは、顧客満足度を向上させ、応答時間を短縮し、顧客サービス担当者の業務負荷を軽減します。ChatGPTのインテリジェントな応答により、長い待ち時間、不適切な行動、信頼性の低いコミュニケーションチャネルなどの問題に対処します。顧客サービスの品質を向上させることで、マーケターは顧客の痛点を把握し、より良い対応ができるようになります。 オーディエンスリサーチ 検索クエリ、ソーシャルメディアの対話、過去の購入データなどのデータを使用して、ChatGPTは顧客の行動パターンやトレンドを特定し、ターゲットオーディエンスの興味、好み、痛みのポイントを把握することができます。この分析により、ユーザーはマーケティングコンテンツや製品開発に関する情報を元にした意思決定を行うことができます。 製品説明の作成 製品説明は、製品の特徴、利点、価値についての貴重な詳細を潜在的な顧客に伝えることで、マーケティングにおいて重要な役割を果たしています。ChatGPTの支援を受けて、ユーザーは特定のターゲットオーディエンスに効果的に共感する魅力的で情報量のある製品説明を生成することができます。 ソーシャルメディアの管理 ChatGPTは、スケジュール管理、効率化、最適化などのタスクを処理することができます。ChatGPTを活用することで、観客の行動、好み、ピーク利用時間に基づいてソーシャルメディア投稿のスケジュールを最適化することができます。さらに、前述のように、ChatGPTは顧客の行動に関する洞察を提供することもできます。さらに、企業のキャンペーンに最適な広告フォーマットを推奨することも可能です。 顧客アンケートの生成 ChatGPTは、顧客アンケートの作成において優れたツールとなることがあります。ChatGPTの機能を活用することで、関連する質問を生成し、効果的にアンケートを構築し、翻訳機能を通じて多言語化することも可能です。さらに、ChatGPTはアンケートデータの分析を支援し、マーケターが製品、サービス、マーケティング戦略を改善するための貴重なフィードバックと洞察を収集するのに役立ちます。 ターゲットの顧客像の生成 ビジネスにおいては、対象とする観客を知ることが重要です。ChatGPTは、ユーザーが自分のマーケティング活動を彼らの周りに構築するために役立つ情報を提供することができます。ユーザーはChatGPTに対して、ターゲットの顧客像を生成するように依頼することができます。 SWOT分析 ChatGPTは、マーケターが包括的なSWOT分析を実施することを可能にし、ブランドの強みと弱点、機会、潜在的な脅威をより深く理解することができます。

LOMO(LOw-Memory Optimization)をご紹介します:メモリ使用量を削減するために、勾配計算とパラメータの更新を1つのステップで融合する新しいAIオプティマイザです

Large Language Models(LLMs)は、出現やグロッキングのような素晴らしいスキルや、モデルサイズの持続的な増加などを通じて、自然言語処理を変革してきました。これらのモデルを数千億のパラメータで訓練することにより、NLP研究のハードルが上がっています。しかし、LLMの調整は頻繁に880GBのマシンなどの高価なGPUリソースを必要とするため、小規模な研究所や企業がこの分野の研究に参加することは難しいです。最近では、LoRAやPrefix-tuningなどのパラメータ効率の良いファインチューニング技術により、リソース制約のあるLLMの調整が可能になりました。 完全なパラメータのファインチューニングは、パラメータ効率の良いファインチューニングよりも効果的な戦略とされてきましたが、両方の技術が実行可能な解決策を提供する必要があります。彼らはリソースが制約された状況で完全なパラメータのファインチューニングを完了するための方法を調査したいと考えています。彼らはLLMのメモリ使用の4つの特性であるアクティベーション、オプティマイザの状態、勾配テンソル、およびパラメータを調べ、トレーニングプロセスを次の3つの方法で最適化します:1)オプティマイザのアルゴリズムの機能を再評価し、SGDがLLMの完全なパラメータのファインチューニングに適した代替手段であることを発見します。SGDは中間ステージを保持しないため、オプティマイザの状態の全部分を削除することができます。2)彼らの提案されたオプティマイザであるLOMO(図1参照)は、勾配テンソルのメモリ使用量を最大の勾配テンソルのメモリ使用量に等しくすることで、メモリ使用量を低減します。3)彼らは勾配の正規化と損失スケーリングを組み合わせ、トレーニング中に一部の計算を完全精度に切り替えることで、LOMOによる混合精度トレーニングを安定化させます。彼らの手法は、パラメータ、アクティベーション、および最大の勾配テンソルと同じ量のメモリを組み合わせます。 彼らは完全なパラメータのファインチューニングのメモリ消費量を著しく増加させ、推論のレベルまで減少させます。これは、前向きのプロセスだけが逆向きのプロセスよりも少ないメモリを必要としないはずだからです。特に、彼らはLOMOを使用してメモリを節約するために、パラメータの更新プロセスがSGDと似ているため、ファインチューニング機能が損なわれないことを確認しています。Fudan大学の研究者たちは、LOMOのメモリとスループットの能力を経験的に評価することで、わずか8台のRTX 3090 GPUで65Bモデルを成功裏にトレーニングすることが可能であることを示しています。さらに、彼らはLOMOを使用してSuperGLUEデータセットコレクション上のLLMの全パラメータを調整し、彼らの提案手法のダウンストリームのパフォーマンスを検証しています。経験的な結果は、LOMOが多数のパラメータを持つLLMを最適化する際の性能を示しています。 https://arxiv.org/pdf/2306.09782.pdf 彼らの総合的な貢献は以下の通りです: • LLMのすべてのパラメータを調整する際にSGDが成功することを示唆する理論的な研究を提供します。LLMの最適化において、かつてSGDの広範な使用を妨げていた障壁は、重大ではなくなる可能性があります。 • ファインチューニングのプロセスを維持しながら、GPUメモリ使用量を劇的に削減するために、LOMO(低メモリ最適化)を提案します。 • メモリ使用量とスループットのパフォーマンスを注意深く分析することにより、LOMOがリソース制約のある状況でLLMを最適化する効率性を経験的に実証します。ダウンストリームのジョブのパフォーマンス評価は、これを裏付ける追加の正当性を提供します。 コードの実装はGitHubで利用可能です。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us