Search Results A

ディープARとダイトを使用してビデオ通話にARフィルターを追加する

この記事では、DyteビデオSDK、DeepAR、およびウェブコンポーネントUIキットを使用してARフィルターを備えたビデオ通話アプリを作成する方法を学びます

このNVIDIAのAI論文は、検索補完と長い文脈の力を探求しています：どちらが優れているのか、そしてそれらは共存できるのか？

ナビディアの研究者たちは、大規模言語モデル（LLM）のパフォーマンスにおける検索補完とコンテキストウィンドウサイズの影響を比較的な研究で調査しました。その結果、検索補完がコンテキストウィンドウサイズに関係なくLLMのパフォーマンスを一貫して向上させることが示されました。彼らの研究は、様々な応用においてLLMを最適化するための検索メカニズムの効果に光を当てています。研究者は長いコンテキスト言語モデルの領域に深く入り、検索補完とコンテキストウィンドウサイズがさまざまな下流タスクでLLMのパフォーマンスを向上させるかを調査しました。異なる事前学習済みLLMを比較分析し、検索メカニズムがLLMの能力を著しく向上させることを示しました。長いコンテキストLLMは、GPUの進歩とメモリ効率の良い注目方法の進展によりますます重要な存在です。彼らの手法は、リトリーバーから適切なコンテキストを効率的に抽出するためのLLM内で長い文脈を処理するための解決策としてリトリーバルの探求を行います。質問応答や要約などのタスクにおいて、リトリーバル補完と拡張されたコンテキストウィンドウをLLMに比較し、その効果を評価します。研究は、プロプライエタリの43B GPTとLLaMA2-70Bという2つの高度に事前学習されたLLMのパフォーマンス比較を行い、長いコンテキストタスクの文脈でのリトリーバル補完と拡張されたコンテキストウィンドウの効果を調査しました。その結果、32Kのコンテキストウィンドウを持つリトリーバル補完されたLLaMA2-70Bモデルが長いコンテキストタスクで優れたパフォーマンスを発揮することが判明しました。さらに、論文ではさまざまな近似的な注目メカニズムについても説明し、より長いシーケンスを効率的に処理するためのFlashAttentionの有用性を強調しています。研究は、LLMのさまざまなタスクにおけるリトリーバル補完と拡張されたコンテキストウィンドウの効果を調査しました。その結果、リトリーバル補完をした4Kのコンテキストウィンドウは、16KのコンテキストウィンドウLLMのバージョンと位置補間を通じて類似のパフォーマンスを発揮し、計算要件を減らすことができることがわかりました。リトリーバルは、さまざまなコンテキストウィンドウサイズにおいてLLMのパフォーマンスを著しく向上させます。最も優れたモデルであるリトリーバル補完されたLLaMA2-70B-32kは、質問応答や要約などの7つの長いコンテキストタスクで他のモデルを上回りながら、より高速な生成時間を維持します。彼らの研究は、LLMのリトリーバル補完とコンテキストの拡張の選択を支援します。研究は、リトリーバル補完と長いコンテキスト拡張がLLMのパフォーマンスを向上させるための利点を強調します。リトリーバル補完と4Kのコンテキストウィンドウを使用した結果、16KのコンテキストウィンドウLLMと同じパフォーマンスを実現し、計算上の要件を削減します。32Kのコンテキストウィンドウを持つリトリーバル補完されたLLaMA2-70Bモデルは、さまざまな長いコンテキストタスクで優れたパフォーマンスを発揮し、LLMの開発に有望な道を提供します。これらの知見は、実践者がLLMにおいてリトリーバル補完とコンテキストの拡張の選択をする際に役立ちます。将来の研究方向には、多様なタスクとデータセットでのLLMにおけるリトリーバル補完と長いコンテキストの拡張の探求、質問応答や要約タスク以外の自然言語処理の異なる領域での効果の評価、長いコンテキストモデルの計算上の課題に対処するための効率的な注目メカニズムの開発、これらの技術の異なるコンテキストでの相互作用とタスクの最適化のためのファインチューニング戦略の向上などが含まれます。

グーグルとコーネル大学の研究者がDynIBaRを紹介しました：AIによるダイナミックシーン再構築の革命化

GoogleとCornellの研究者たちによる新しい論文が発表され、DynlBaRという新しい手法がフォトリアリスティックなフリービューポイントレンダリングの生成に使用されましたそして、チームによれば、これは複雑でダイナミックなシーンの単一のビデオから可能となりました近年、コンピュータビジョンの分野では驚くべき進歩が見られています...

AIを活用してホームレスを防ぐ：ロサンゼルスのゲームチェンジャー

NPRによる新しいレポートでは、ホームレス問題が大幅な取り組みと投資にもかかわらず悪化し続けるロサンゼルスの広がりを、ホームレスを予測して予防するためにAIを試みていることを紹介していますレポートは、ダルセ・ヴォランティンとバラリー・ザヤスの二人の個人の物語から始まります...

ミストラルAIのミストラル7Bファンデーションモデルは、Amazon SageMaker JumpStartで利用可能です

今日は、私たちはうれしいお知らせがありますMistral AIが開発したMistral 7Bファンデーションモデルが、Amazon SageMaker JumpStartを通じてお客様に利用可能になりました1クリックでデプロイできるようになり、7,000,000,000のパラメータを備えたMistral 7Bは簡単にカスタマイズでき、迅速に展開することができますこのモデルはSageMaker JumpStartを使用してお試しいただけます

私たちはどのように大規模な言語モデルをストリーミングアプリケーションで効率的に展開できるのでしょうか？このAI論文では、無限のシーケンス長のためのStreamingLLMフレームワークを紹介しています

大きな言語モデル（LLM）は、コード補完、質問応答、文書要約、対話システムなど自然言語処理アプリケーションのパワーとして、ますます使用されています。事前にトレーニングされたLLMは、正確かつ迅速に拡張シーケンス作成を行う必要があり、その全ての潜在能力を発揮するためには可能な限り大量のシーケンスを処理できる必要があります。例えば、最近の日中のチャットのコンテンツを信頼性を持って編集する理想的なチャットボットヘルパーです。4KのLlama-2など、事前学習されたものよりも大きなシーケンス長に一般化することは、LLMにとって非常に困難です。事前トレーニング中のアテンションウィンドウのため、LLMは制約されます。長い入力に対してこのウィンドウの大きさを拡張し、トレーニングと推論の効果を高めるための取り組みが行われていますが、許容されるシーケンス長はまだ見直す必要があり、永続的な展開を妨げています。MIT、Meta AI、カーネギーメロン大学の研究者らは、この研究で最初にLLMストリーミングアプリケーションのアイデアを検討し、次の質問を提起しています：LLMを無限の入力ストリームに使用する際には、2つの主要な問題が浮かび上がります： 1. TransformerベースのLLMは、デコーディングステージ中にすべての前のトークンのKeyとValueの状態（KV）をキャッシュします（図1(a)参照）。これは、過剰なメモリ使用量とデコードの遅延の増加を引き起こす可能性があります。 2. シーケンスの期間が事前学習中のアテンションウィンドウサイズを超えると、既存のモデルのパフォーマンスが低下します。図1は、StreamingLLMと以前の技術を比較しています。トークンT（T>>L）は、長さLのテキストで事前トレーニングされた言語モデルによって予測されます。（a）密なアテンションはキャッシュ容量が上昇し、時間の複雑さがO（T^2）になります。テキストの長さが事前トレーニングのテキスト長を超えるとパフォーマンスが低下します。（b）ウィンドウアテンションは、キャッシュ中で最新のLトークンのKVを保存します。推論ではパフォーマンスが良いですが、最初のトークンのキーと値が削除されると急速に悪化します。新しいトークンごとに、（c）スライディングウィンドウとリコンピューテーションは、最新のLトークンを使用してKV状態を再構築します。長いテキストの処理には優れていますが、O（T L^2）の計算量と文脈の再計算における二次関数のアテンションのため、非常に遅いです。（d）「ステディなアテンションの計算のため、StreamingLLMは最新のトークンとともに少数の初期トークンをアテンションシンクとして保持します。長いテキストに対して効果的かつ一貫して機能します。Llama-2-13Bモデルは、PG-19テストセットの最初の本（65Kトークン）におけるPerplexityを計算するために使用されます。ウィンドウアテンションは、最新のトークンのKV状態の固定サイズのスライディングウィンドウを保持する明確な戦略です（図1b）。最初のトークンのKVを排除するだけで、シーケンス長がキャッシュ容量を超えると、モデルは崩壊します。キャッシュが最初に一杯になった後も、一貫したメモリ使用量とデコード性能を保証します。さらなる戦略として、再計算を行うスライディングウィンドウ（図1c）があります。このテクニックは、ウィンドウ内の二次関数のアテンション計算により、非常に遅くなりますが、パフォーマンスは良好です。これは、実世界のストリーミングアプリケーションには適していません。ウィンドウアテンションの失敗を説明するための自己回帰LLMの興味深い現象を彼らは発見しました。言語モデリングのタスクと関連性に関係なく、初期トークンに驚くほど高いアテンションスコアが割り当てられています。これらのトークンは「アテンションシンク」と呼ばれ、意味的な価値はほとんどありませんが、重要なアテンションスコアを受け取ります。関連するトークンすべてにおいてアテンションスコアが1になる必要があるソフトマックス処理が原因とされています。そのため、現在のクエリが多くの以前のトークンと良い一致がない場合でも、モデルはこれらの余分なアテンション値を一に加える必要があります。初期トークンは、シンプルな理由で注意の溜め場として使用されます: 自己回帰型言語モデリングの性質により、実質的にすべての後続トークンに対して可視性があり、トレーニングが容易です。前述の発見に基づいて、ストリーミングLLMという直感的で効果的なアーキテクチャを提案しています。これにより、有限な注意ウィンドウで準備されたLLMが、細かな調整なしで無期限のテキストに対応できるようになります。注意の消耗が高いため、StreamingLLMはこの特性を活用して注目度の分布を適度に維持します。StreamingLLMは、スライディングウィンドウのキーバリューと初期トークンの注目計算とモデルの安定性を維持するために使用されます (初期トークンはわずか4つだけ必要です)。 Llama-2-B、MPT-B、Falcon-B、およびPythiaBのようなモデルは、StreamingLLMの助けを借りて4百万トークンを正確に表現できるでしょう、さらに多くの可能性もあります。StreamingLLMは、再計算を伴うスライディングウィンドウとの比較で最大22.2倍の高速化を実現し、LLMのストリーミング使用を実現します。最後に、言語モデルはストリーミング展開に必要な注目の溜め場トークンを単一にすることが事前学習で可能であることを示しています。トレーニングサンプルの開始時に、選択した注目の溜め場を追加の学習可能なトークンとして実装することを提案しています。この単一の溜め場トークンの導入により、1億6000万パラメータからゼロから言語モデルを事前学習することで、ストリーミングインスタンスにおけるモデルのパフォーマンスを維持できます。これは、同じパフォーマンスレベルを維持するために複数の初期トークンを溜め場として再導入する必要があるバニラモデルとは対照的です。

トップ10の生成AI 3Dオブジェクトジェネレーター

高性能なAI 3Dオブジェクトジェネレータにより、3Dモデルの作成と可視化がより正確かつアクセスしやすく効率的になりました。グラフィックデザイナーまたはゲーム開発者であっても、AI 3Dオブジェクトジェネレータはあなたの要件に応じて最適なものがどれかはあなた次第です。イメージ、テキスト、またはビデオのみを使用して革新的な方法で3Dモデルを作成することができます。ここでは、トップ10のAI 3Dオブジェクトジェネレータを紹介します。 AI 3Dオブジェクト生成とは何ですか？ AI 3Dオブジェクト生成は、AI 3Dオブジェクトジェネレータの助けを借りて、より正確に3Dモデルを作成するプロセスです。これらのツールを使用して、あなたのアイデアを3次元で生み出し、3Dモデルをデザインすることができます。テキストを3Dジェネレータに、画像を3Dオブジェクトに、ビデオを3Dモデルに変換することができます。あなたの要件に合わせたツールが用意されています。これらのツールで創造性の新しい扉を開けてみましょう。トップ10のAI 3Dオブジェクトジェネレータ AI 3Dオブジェクトジェネレータは、3Dモデルの設計ニーズに対応しています。これらのツールを最大限に活用して、アイデアに生命を与えることができます。以下に、トップ10のAI 3Dオブジェクトジェネレータをご紹介します。 1. Spline Splineは、ブラウザ上でインタラクティブなウェブ体験を形作ることができるAI 3Dオブジェクトジェネレータの一つです。リアルタイムのコラボレーション機能を備えたチームプロジェクトには絶好のツールです。主な特徴：マテリアルレイヤー、3Dスカルプティング、物理制御とゲームコントロール、3Dモデリングとアニメーション、インタラクティブな体験、ビデオテクスチャやコンポーネントなど、幅広いアニメーションと3Dモデリングの機能を提供します。カメラコントロール、3Dベクトル編集、ドラッグアンドドロップ機能、Webブラウザイベントのツールを探索することができます。ユーザーはAPIまたはウェブサイトを通じてデジタルメディアをアップロードし、それが自動的に3Dモデルに分析されます。価格：基本プラン：無料スーパープラン：$7…

メタAI研究者が高度な長文脈LLMsを提案

新しい論文では、Meta AIの研究者たちは高度な長い文脈(LLM)を提案し、頑健な長文脈機能を持つLLMへのアクセスの不足を解決することを提案しています過去には、これは主に独自のAPIを介して利用可能でしたしかし、このアプローチでは研究者や開発者のために空白が残りました...

CPR-CoachによるCPRトレーニングの革命：エラー認識と評価に人工知能を活用

心肺蘇生（CPR）は、心臓が効果的に拍動しなくなったり、呼吸が止まるといった心停止を経験した個人を蘇生させるための命を救う医療手順です。この手順は、専門の医療スタッフが到着するか、またはその人が高度なケアのために医療施設に搬送できるまで、特に脳を含む重要な臓器への酸素が豊富な血液の流れを維持することを目的としています。 CPRを行うには持久力が必要ですが、正しい動きを追従すれば直ぐに簡単になります。しかし、胸部圧迫、救命呼吸、早期電気除細動（適切な装置を使用する）など、マスターする必要があるさまざまなアクションがあります。 CPRは重要な緊急時のスキルであるため、この基礎的な専門知識を広めることは重要です。ただし、従来の評価は物理的な人体模型や講師に依存しており、訓練費用が高額で効率も限定されています。さらに、講師やこの非常に特殊な装置がどこにでも存在しないため、このアプローチはほとんどスケーラブルではありません。この記事で紹介された画期的な研究では、CPR中のエラーアクションの認識とスキル評価を向上させるために、ビジョンベースのシステムが導入されました。この革新的な手法は、従来のトレーニング方法からの重要な転換を示しています。具体的には、心外マッサージに関連する13種類の個別のエラーアクションと74種類の複合エラーアクションが同定され、カテゴライズされています。この革新的なCPRに基づく研究は、この手続き中に一般的に犯されるアクション固有のエラーを分析する初めてのものです。研究者たちは、この新しいアプローチをサポートするためにCPR-Coachという包括的なビデオデータセットを作成しました。データセットに注釈が付けられた最も一般的なエラーの概要は以下の通りです。 https://shunli-wang.github.io/CPR-Coach/ CPR-Coachを参考にして、著者たちはさまざまなデータモダリティを活用するさまざまなアクション認識モデルの性能を評価・比較しました。彼らの目標は、CPRスキル評価に固有のシングルクラストレーニングとマルチクラステストの問題に対処することです。この問題に対処するために、彼らは人間の認知原則に着想を得たImagineNetという画期的なフレームワークを導入しました。ImagineNetは、限られた監督の制約下でもCPRのコンテキスト内で複数のエラーを認識するためのモデルの能力を向上させるために設計されています。 ImagineNetのワークフローの概要は、以下の図に示されています。 https://shunli-wang.github.io/CPR-Coach/ この研究は、CPRスキルの評価における重要な前進であり、ビジョンベースの技術と高度な深層学習モデルの革新的な応用により、訓練費用を削減し、CPR指導の効率を向上させる可能性を提供しています。結果として、心臓緊急事態を経験する個人の結果も改善する可能性があります。 CPR関連のエラーを分析し、CPR評価の自動化を図るための2つの重要なAIツールであるCPR-CoachとImagineNetの概要について説明しました。興味がある場合は、以下のリンクを参照してさらに詳細を学ぶことができます。

「2023年に試してみることができるChatGPTのトップ22の代替品（無料および有料）」

ChatGPTは、さまざまなタスクにおいて最も有名で一般的に使用されているAIツールです。さまざまなコースや教材があり、その潜在能力を最大限に統合し活用するための知識も豊富なため、定期的に利用しているユーザーは関連する課題にもおなじみです。2021 年までは信頼性に欠け、限定的な知識しか持たなかったため、個人は代替手段を探し出すことを余儀なくされていました。検索を終了するため、ここではChatGPTの代替手段のリストをご紹介します。オプションを探索して、新しいお気に入りのAIを見つけましょう。ライティング用のChatGPTの代替手段 1. Chatsonic (Writesonic) (無料および有料) このAIは、ChatGPTに似ていますが、ライティングで強化された機能を備えています。GPT-4の機能を活用しています。これは、カスタマイズ可能で使いやすい機能を提供する会話型AIであり、NLPおよびML技術を備えたものです。Googleの検索トレーニングによって、現在のイベントやトレンド情報を取り入れることができます。プロンプト: クラス5の子供にAditya L-1について説明するための100語の魅力的なコンテンツを生成してください。アクセスはこちら: Writesonic 2. Claude (無料および有料) Anthropicによる次世代の会話型AIです。Claudeは複数の入力を同時に受け付けることができます。ユーザーに役立ち、正直な無害なAIシステムを生成することを重視して開発されました。Claude AIは創造的なライティング、コーディング、および質問への回答が可能です。個々の利用に向け、異なる振る舞い、パーソナリティ、トーンに切り替えることができます。プロンプト: インドへのイギリスの侵略につながった出来事の年表を列挙してください。アクセスはこちら: Anthropic Claude もっと読む:…

Learn more about Search Results A - Page 168