Learn more about Search Results T4

『 ファッションと美容における迅速な思考とゆっくりな思考:PythonとGPT4を用いた統計的変動性』

私たちは物事をすぐにシンプルにする傾向がありますが、複雑さにもゆっくりと向き合うことがあります(望む場合には)ダニエル・カーネマンは彼の著書「思考、早くと遅く」で、私たちの葛藤を説明しています...

クッキージャーで手を捕まれた:GPT4が私に自分のフェイクニュースを売った

GPT-4は、あなたが求めるものを「探し出します」 - これには、お望みの統計情報に関する「調査」も含まれますそれを見つけ出し、ご希望の方法で提示します - ...

「たぬき+GPT4を使用して、20分で顧客サポートボットを作成しましょう」

要点 このワークフローは、顧客のフィードバックメッセージに応答し、それらをGPT4 + タヌキ(オープンソース)を使用して優先されたサポートチケットに解析しますこれは誰にとって役立ちますか? 何人でも興味を持っている人は、...

テンセントAI研究所では、GPT4Videoを紹介していますこれは統合マルチモーダル大規模言語モデルであり、指示に従った理解と安全意識のある生成を目指しています

テンセントAIラボとシドニー大学の研究者たちによって、ビデオの理解と生成シナリオの問題がGPT4Videoで解決されました。この統一されたマルチモデルのフレームワークは、ビデオの理解と生成の能力を持つLLM(言語・ロボットマルチモデル)をサポートしています。 GPT4Videoは、安定した拡散生成モデルに統合された指示に従うアプローチを開発し、効果的かつ安全にビデオの生成シナリオを処理します。 先行研究では、視覚入力とテキスト出力を処理する多モーダル言語モデルが開発されています。例えば、いくつかの研究者は、複数のモダリティ用の共有埋め込み空間の学習に焦点を当てています。そして、マルチモーダル言語モデルが指示に従うことができるようにすることに関心が集まっており、最初のマルチモーダルな指示の調整基準データセットであるMultiInstructが紹介されました。LLMは自然言語処理を革新しました。テキストから画像/ビデオの生成は、さまざまな技術を用いて探究されてきました。LLMの安全性への懸念も、最近の研究で取り組まれています。 GPT4Videoフレームワークは、LLMに高度なビデオの理解と生成能力を与えるために設計された万能で多様なシステムです。現在のMLLM(マルチモーダル言語モデル)の限界に応えるために、GPT4Videoはマルチモーダルな出力を生成する能力において不足しているにもかかわらず、マルチモーダルな入力を処理する能力に優れています。GPT4Videoは、LLMが解釈するだけでなく、豊かなマルチモーダルコンテンツを生成することができるようにします。 GPT4Videoのアーキテクチャは、3つの重要なコンポーネントで構成されています: ビデオ理解モジュールは、ビデオの特徴抽出器とビデオの要約器を使用して、ビデオ情報をLLMの単語埋め込み空間とエンコードし整列させます。 LLM本体は、LLaMAの構造を活用し、元の事前学習済みパラメータを維持しながら、Parameter-Efficient Fine Tuning(PEFT)手法であるLoRAを用いています。 ビデオ生成パートは、データセットに従って緻密に構築された指示によって、LLMにプロンプトを生成するように条件付けます。 GPT4Videoは、ビデオの理解と生成において優れた能力を示し、ビデオの質問回答タスクでValleyを11.8%上回り、テキストからビデオへの生成タスクでNExt-GPTを2.3%上回りました。このモデルは、追加のトレーニングパラメータなしでLLMにビデオ生成の機能を備え、さまざまなモデルと連携してビデオ生成に利用することができます。 結論として、GPT4Videoは、言語とビジョンモデルを高度なビデオの理解と生成機能で拡張する強力なフレームワークです。専門的にビデオのモダリティを扱う一方、将来のアップデートでは画像や音声など、他のモダリティにも拡大する予定です。

「ターシャーに会ってください:GPT4のようなマルチモーダルLLMとのウェブインタラクションを可能にするオープンソースのPythonライブラリ」

AIの成長とそれによる私たちの生活への影響はますます大きくなっており、AIをより便利で使いやすくするための研究が行われています。今日、AIは日常生活のあらゆる側面で有用性を見出しています。多岐にわたる分野で広範な研究が行われてきました。そのため、Reworkdの研究者たちは、GPT-4などのマルチモーダル言語モデル(LLM)とのWebインタラクションを容易にするための、オープンソースのPythonライブラリであるTarsierを開発しました。 Tarsierは、ウェブページ上のインタラクティブな要素を視覚的にタグ付けし、ユーザーとマシンの間のインタラクションを可能にする橋の役割を果たします。 Tarsierは、LLMの複雑なウェブインタラクションのプロセスを簡略化します。これは、角括弧やIDなどの一意の識別子を使用して要素にタグを付けることによって実現されます。これらの要素は、ボタン、リンク、および入力フィールドなど、ページ上で表示される要素であり、GPT-4がアクションを実行するための重要なマッピングを確立します。言い換えれば、Tarsierは、言語モデルにウェブを理解可能にする翻訳者の役割を果たします。 Tarsierの特徴の1つは、ページを視覚的に表現する能力です。この機能は、既存のビジョン言語モデルが直面する課題に対して重要となります。Tarsierは、光学文字認識(OCR)ユーティリティを提供することで、ページのスクリーンショットをホワイトスペース構造化された文字列に変換し、非マルチモーダルLLMでもウェブページの内容と意味を理解できるようにします。 Tarsierは、言語モデルのインタラクション能力を大幅に向上させる2つの基本的なユーティリティを導入しています。これらは、インタラクティブな要素のタグ付けとスクリーンショットのOCRテキスト表現への解析です。 Tarsierは、一意の識別子を使用してインタラクティブな要素にタグを付けるという点で他とは一線を画しています。この識別子により、言語モデル(LLM)は、ボタンのクリック、リンクの追跡、入力フィールドの完成など、自分が対応できる要素を理解することができます。このタグ付けの方法により、理解力が向上し、LLMの選択肢とウェブページの基盤となる要素との明確な関連性が生まれます。 Tarsierのもう一つの革新的な特徴は、スクリーンショットを空間的に認識できるOCRテキスト表現に変換できる能力です。この進歩により、GPT-4などのテキストのみのLLMを用いてウェブタスクを実行することが可能になります。本質的に、Tarsierは視覚に頼らずに言語モデルがウェブと対話するためのAIアプリケーションの可能性を広げます。 また、Tarsierには、LangchainやLlamaIndexなどのよく知られたLLMライブラリとの使用方法を示すクックブックがあり、オンボーディングプロセスを簡単にすることができます。これらのクックブックにより、人々は有用な例や知見を提供しながら、直接Tarsierの機能を体験することができます。 まとめると、TarsierはLLMの能力向上のために必要なツールです。オンライン要素の整理された描写を提供することで、LLMにウェブの複雑さを探求し理解するためのツールを提供します。OCRツールを備えることで、テキストのみのモデルにまで利用範囲を広げ、障壁を取り除き、多様で適応性のあるAI環境を促進します。 この記事は、Meet Tarsier: An Open Source Python Library to Enable Web Interaction with Multi-Modal LLMs like…

この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。この能力は、デジタルコンテンツの制作、自律型車両のシミュレーション、医療画像の解析など、さまざまなアプリケーションにおいて重要です。しかし、一つの単眼のビデオ観察からこのような情報を抽出することは、動的な3D信号の複雑な性質のために困難な課題です。 移動オブジェクトを再構築するための既存の多くの手法は、入力として同期したマルチビュー映像が必要であり、カメラをテレポートするなどの手法や準静的なシーンを使用した、効果的なマルチビューキューが豊富なトレーニングデータを前提としています。それにもかかわらず、これらの手法は、カメラレンズによってキャプチャされないシーンの要素を正確に再構築する際に困難に直面します。さらに、同期したカメラセットアップと正確なキャリブレーションに依存することは、これらの手法の現実世界での実用性を制限します。 CASIA、南京大学、および復旦大学による新しい研究は、2Dソースから4Dコンテンツを生成するために設計された画期的な方法であるConsistent 4Dを紹介しています。この手法は、テキストから3Dへの最近の進歩と画像から3Dへの技術向上を参考にしており、テール型のCascade DyNeRFを利用して動くオブジェクトを視覚化し、同時に事前トレーニングされた2D拡散モデルを使用してDyNeRFの最適化プロセスを制御します。 その論文の中で述べられているように、主な課題は時間的な一貫性と空間的な一貫性の両方を保持することです。この課題に対処するために、研究者はトレーニングされたビデオ補間モデルに依存するインターポレーション駆動型の一貫性ロス(ICL)を使用し、空間と時間の両方にわたる一貫した監視信号の生成を可能にしています。特に、ICLロスの導入により、4D開発の信頼性が向上するだけでなく、3Dクリエーションにおける一般的な問題を軽減することができます。さらに、彼らは動的なNeRF生成ビデオを後処理するために、シンプルなビデオエンハンサーでトレーニングを行います。 綿密なテストによる励ましの結果は、合成および実際のインターネットビデオの両方を含む、ビデオから4Dへの創造の未開拓の領域での有望な進展を示しています。

アップル M2 Max GPU vs Nvidia V100、P100、およびT4

「Apple Silicon M2 MaxのGPU性能を、TensorFlowを使用して、MLP、CNN、およびLSTMモデルのトレーニングにおいて、Nvidia V100、P100、およびT4と比較します」

「GPT4による高度なデータ分析:ヨーロッパの観光トレンドのマッピング」

生データをデータビジュアライゼーションに変換することは、従来の方法では退屈で面倒な作業ですデータのクリーニングからデータフレームの作成、厄介なチャートの構文操作にいたるまで、様々な手間がかかりますそれに対して...

「GPT4のデータなしでコードLLMのインストラクションチューニングを行う方法は? OctoPackに会いましょう:インストラクションチューニングコード大規模言語モデルのためのAIモデルのセット」

大規模言語モデル(LLM)の使いやすさと全体的なパフォーマンスは、指示を介して提供されるさまざまな言語タスク(指示チューニング)によって向上できることが示されています。視覚、聴覚、多言語データでトレーニングされたモデルは、すべて指示チューニングのパラダイムでうまく機能しています。 コード学習マシンは、研究者によってコーディングの方法を教えられます。コードコメントを使用してCode LLMが望ましいコードを生成するように間接的に指示することは可能ですが、望ましい結果が自然言語の場合には不安定で失敗します。Code LLMの操作性を向上させ、適用範囲を広げるためには、明示的な指示によるチューニングが行われる必要があります。 研究者は、制約のあるライセンスを持つデータを使用せずに、オープンソースモデルを使用して合成データを生成することを好みます。彼らは、次の4つの一般的なコード指示データベースを比較しています: xP3x:広く使用されているコードベンチマークからの結果をまとめたもの lax Code LLM:研究者による独立したデータ生成を可能にするもの OASST:主に言語情報を保持するリポジトリで、コーディング例は最小限です 新しいGitコミットの4TBのデータセットであるCOMMITPACK 研究者の貢献 事前トレーニングでは、350の異なるプログラミング言語で書かれた4テラバイト(TB)のコミットコードを許可ライセンスの下で使用できます。チューニングでは、高品質なコード指示を含むフィルタリングされたバリアントのCOMMITPACKにアクセスできます。 コードLLMの一般化ベンチマーク(HUMANEVALPACK)は、6つのプログラミング言語(Python、JavaScript、Java、Go、C++、およびRust)と3つのシナリオ(コード修復、コード説明、コード合成)に対して行われます。 最も寛大なCode LLMはOCTOCODERとOCTOGEEXです。 研究者は、データセットの基礎としてGitHubのコミットのアクションダンプをGoogle BigQueryで使用しています。コミットメッセージが非常に具体的であり、多くのファイルを扱うことから追加の複雑さを回避するために、品質フィルターを複数適用し、商業的に利用可能なライセンスをフィルタリングし、複数のファイルに影響を及ぼすすべてのコミットを削除します。影響を受けるGitHubソースコードファイルは、フィルタリングされた情報を使用してコミット前後に抽出されます。 自然言語(NL)の応答を必要とするタスクの場合、指示チューニングLLMの入力は、NL指示とオプションのNLコンテキストです。コードデータで指示をチューニングする場合、コードは入力のみ、出力のみ、またはNL指示と共に入力と出力の両方に含まれる場合があります。ほとんどの既存のベンチマークはコード合成のバリアントに焦点を当てていますが、顧客はすべての3つのケースでモデルを使用したい場合があります。そのため、6つの言語の3つの入出力の順列が、コード合成ベンチマークHumanEvalに含まれるようになりました。 3つの評価状況すべてで、OCTOCODERはすべての他の許可モデルを大幅に上回っています。OCTOGEEXは、ベンチマーク化されたモデルの中で最も少ないパラメーターを持っており、60億ですが、それでも他の許可されたCode LLMに比べて最も優れた結果を達成しています。GPT-4は他のモデルと比較して最も高いパフォーマンスを発揮しています。他のモデルよりも大きなモデルである可能性がありますが、GPT-4はクローズドソースです。 コード、モデル、データなど、すべてはhttps://github.com/bigcode-project/octopackで見つけることができます。 まとめると、大規模言語モデル(LLM)は、指示に基づいて細かくチューニングされることで、さまざまな自然言語タスクでより優れたパフォーマンスを発揮することができます。研究者は、コーディングを使用して人間の指示を細かくチューニングし、Gitコミットの固有の構造を使用してコード変更と人間のガイダンスをペアにします。350の異なる言語からの4テラバイトのGitコミットはCOMMITPACKにまとめられています。16Bのパラメーターを持つStarCoderモデルでは、COMMITPACKを他の自然言語および合成コード指示と比較しています。HumanEval Pythonテストでは、OpenAIの出力でトレーニングされていないモデルの中で最新のパフォーマンスを実現しています。さらに、Python、JavaScript、Java、Go、C++、およびRustの6つの追加のプログラミング言語と、Code…

「OpenAIを任意のLLM(Language Model)と交換し、すべてを1行で行うことを想像してください!Genoss GPTに会ってください:OpenAI SDKと互換性のあるAPIで、GPT4ALLなどのオープンソースモデルをベースにして構築されています」

Genoss GPTは、何千行ものコードとテキストの何千行もの改善を経て洗練された最新の言語モデルです。そのため、従来の言語モデルよりもより整理された、より情報的で、より創造的なコンテンツを生成することができます。Genossは、GPT 3.5や4のようなプロプライエタリなOpenAIモデルをGPT4ALLのような無料のモデルで置き換えるための革新的なオープンソースプロジェクトです。 Genoss GPTはまだ開発中ですが、初期の結果は期待されています。それは、会話型チャットボットの作成、オリジナルのフィクションの制作、外国語の解釈などに活用されています。 Genoss GPTは複雑なクエリを理解し、回答する能力が非常に注目されています。”自然の美しさについての詩を書いてください”というプロンプトを与えられた場合、システムは両方の基準を満たす作品を生成することができます。 Genoss GPTはまだ開発中ですが、人間とコンピュータのインタラクションにおいて画期的な変化をもたらす可能性があります。それは、チャットボット、ライティングアプリケーション、翻訳プログラムに組み込まれ、それらをよりスマートで効果的なものにすることができるかもしれません。 Genoss GPTの利点には以下があります: Genoss GPTは、従来の言語モデルが生成するテキストよりもより一貫性があり情報量が多いテキストを生成します。その優れた言語理解能力は、大量のテキストとコードの訓練によるものです。 より創造的なテキストを生成することも、Genoss GPTの強みです。これは、単一の形式だけでなく、さまざまな形式の創造的な文章のパターンを認識するように訓練されているためです。 Genoss GPTは複雑なクエリを理解し、回答することができるため、優れた選択肢となります。これは、従来のモデルよりも言語理解能力が優れているためです。 Genoss GPTの使用例: Genoss GPTは、よりスマートなチャットボットの開発に活用される可能性があります。これにより、チャットボットはユーザーとより自然な会話を行い、より関連性の高いデータを提供することができるでしょう。 ライター向けツール:Genoss GPTは、より効果的なライティング支援ツールの開発に活用することができます。これにより、ユーザーはよりオリジナルで洞察に富んだ文章を作成することができます。 Genoss…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us