Learn more about Search Results src - Page 13
- You may be interested
- GPT-5が具現化!どうやって?
- 畳み込みニューラルネットワーク ― 直感的...
- データサイエンスにおけるツールに依存し...
- 「データサイエンスにおけるデータベース...
- 「KAISTの研究者がFaceCLIPNeRFを紹介:変...
- AIが宇宙ごみの脅威と戦う
- 2023年に知っておくべきトップ15のビッグ...
- 「FourCastNet(フォーキャストネット)と...
- 「米中のチップ紛争に新たな戦線が開かれる」
- 「アリコロニーオプティマイゼーションの...
- 「xAI:イーロン・マスクの新しいAIベンチ...
- 時系列データのためのPandas
- 「AIバイアス&文化的なステレオタイプ:...
- FMOps / LLMOps:生成型AIの運用化とMLOps...
- 「GPUを使用してAmazon SageMakerのマルチ...
「CMUの研究者たちがRoboToolを公開:自然言語の指示を受け取り、シミュレーション環境と実世界のロボットを制御するための実行可能なコードを出力するAIシステム」
カーネギーメロン大学とGoogle DeepMindの研究者が協力して、RoboToolと呼ばれるシステムを開発しました。このシステムは大規模な言語モデル(LLM)を活用して、ロボットに物理的な制約や長期的な計画に関わるタスクで創造的にツールを使用させる能力を与えます。このシステムは以下の4つの主要なコンポーネントで構成されています: 自然言語の解釈を行うアナライザー 戦略を生成するプランナー パラメータを計算する計算機 計画を実行可能なPythonコードに変換するコーダー GPT-4を使用したRoboToolは、従来のタスクとモーションプランニングの方法に比べて、複雑なロボティクスタスクに対する柔軟で効率的かつユーザーフレンドリーなソリューションを提供することを目指しています。 この研究は、ロボットがツールを創造的に使用するという課題に取り組んでおり、動物がツールを使用する際の知性に類似したものです。これは、ロボットがツールを単に予定された目的のために使用するだけでなく、柔軟な解決策を提供するために創造的かつ非伝統的な方法でツールを使用することの重要性を強調しています。従来のタスクとモーションプランニング(TAMP)の方法は、暗黙の制約を伴うタスクの処理において見直す必要があり、計算コストも高くなる傾向があります。大規模な言語モデル(LLM)は、ロボティクスタスクに有益な知識をエンコードすることで有望な成果を示しています。 この研究は、ツールの選択、順次ツールの使用、および製造など、創造的なツール使用能力を評価するためのベンチマークを導入しています。提案されたRoboToolは、シミュレートおよび実世界の環境で評価され、創造的なツール使用がなければ困難なタスクの処理能力を実証しています。このシステムの成功率は、ベースラインの方法を上回り、暗黙的な制約を伴う複雑な長期的な計画タスクの解決における効果を示しています。 評価は、以下の3種類のエラーを計算することで行われました: ツール使用エラーは、正しいツールが使用されているかを示します 論理エラーは、ツールの誤った順序での使用や提供された制約の無視などの計画エラーに焦点を当てます 数値エラーは、誤った目標位置の計算や間違ったオフセットの追加などの計算エラーを含みます アナライザーを使用しないRoboToolは、大きなツール使用エラーがあり、計算機を使用しないRoboToolは、ロボツールと比べて大きな数値エラーがあります。これは、それぞれの役割がモデルにおいて果たしていることを示しています。 まとめると、言語モデルを活用したRoboToolは、暗黙的な物理的な制約を持つ長期的な計画問題を解決する能力を持つ創造的なロボットツールユーザーです。このシステムのキー概念の識別、創造的な計画の生成、パラメータの計算、実行可能なコードの生成は、創造的なツール使用が必要な複雑なロボティクスタスクの処理に貢献しています。
「高次元におけるデータの驚くべき挙動」
リチャード・ファインマンという有名な物理学者はかつて、「量子力学を理解している人なんていない」と述べていました彼のインタビュー「リチャード・ファインマンと一緒に想像しよう」という題名の中で彼は触れました
GPT-4.5 本当か嘘か?私たちが知っていること
テックコミュニティでは、OpenAIの最新バージョンであるGPT-4.5に関する可能性のリークが話題となっています。さまざまなソーシャルメディアプラットフォームで共有されたリークは、正確な場合、印象的な機能と価格体系を明らかにし、大型言語モデルの景色を根本から変える可能性があります。 GPT-4.5の概要 GPT-4.5は、OpenAIの有名なGPT LLMのアップグレードとされており、ビジョン、ビデオ、オーディオ、言語、3Dの分野でマルチモーダルの機能を導入するようです。Twitterユーザーのdaniel_nyugenxによって開始され、Redditのスレッドで議論されたリークは、このモデルの複雑な推論とクロスモーダル理解の可能性を強調しています。ただし、これらの主張の真正性は未確認のままであり、懐疑論も漂っています。 価格の詳細 リークされた草案によると、GPT-4.5は注目を集める新しい価格体系を持っています。このモデルは、入力トークン1Kあたり0.06ドル、出力トークン1Kあたり0.18ドルの価格であると推測されています。詳細な内訳には、GPT-4.5 64KやGPT-4.5オーディオ・スピーチなどのバリアントが含まれています。これらの価格は既存のGPT-4の料金を上回り、ユーザーや開発者に関する潜在的な影響についての議論が行われています。 コミュニティの反応と懐疑論 リークのニュースが広まるにつれて、テックコミュニティは反応が分かれています。一部の人々はこれを画期的な瞬間と見なし、コンテンツ制作の可能性についてのパラダイムシフトを期待しています。しかし、インターネット上での情報の捏造が容易であることを考慮すると、リークの信憑性について疑問を呈する声もあります。元のRedditのスレッドのコメントは、価格と草案の正確性についての不確定性を反映しています。 OpenAIの対応と将来の展望 OpenAIのCEOであるSam Altmanは後にXで「リーク」は本物ではないと確認しました。OpenAIはGPT-4.5をリリースするのか、直接GPT-5に移行するのかは不明です。次のモデルは、2023年3月14日にリリースされたGPT-4の後継となるでしょう。 GPT-3が2020年6月にリリースされてから、GPT-3.5は2022年3月に登場しました。一方、OpenAIは既にGPT-5の開発に取り組んでいます。7月には、AI企業がGPT5の商標申請を行い、音声やテキストに基づくAIベースのソフトウェア、音声をテキストに変換するソフトウェア、音声および音声認識を含んでいます。 11月、OpenAIのCEOであるSam Altmanは、Financial Timesに対してGPT-5の開発に取り組んでいると語りましたが、リリースのタイムラインを確定していません。 私たちの意見 推定されるGPT-4.5のリークの後、テックコミュニティは先進の進化する言語モデルの景色を興奮しながら、潜在的な進歩を考えていました。しかし、OpenAIのCEOであるSam Altmanはリークを早速否定し、その不正確性を強調しました。この事実は、推測される機能と価格に疑問を投げかけ、慎重なアプローチが求められることを示しています。GPT-4.5の可能性は不確実ですが、GPT-5の開発が進行中であるというAltmanの確認は、OpenAIの計画に興味を持つ人々にとって興味深いものとなっています。熱心なファンは公式なアップデートを待ちながら、進化する高度な言語モデルの世界を航海する際には、検証された情報に頼る重要性を強調しています。
「MLX対MPS対CUDA:ベンチマーク」
「もしMacユーザーであり、深層学習の愛好家であれば、おそらくMacが重いモデルを処理できると願っていたことでしょうそうですよね?実は、AppleがMLXというフレームワークをリリースしました…」
「CMUとマックス・プランク研究所の研究者が、画期的なAI手法「WHAM」を発表:ビデオからの正確かつ効率的な3D人間動作推定」
3Dヒューマンモーション再構築は、三次元で人間の動きを正確にキャプチャしてモデル化する複雑なプロセスです。カメラが動いている実世界の環境でキャプチャされたビデオは、足の滑りなどの問題がしばしば含まれており、この作業はさらに困難になります。しかし、カーネギーメロン大学とマックスプランクインテリジェントシステム研究所の研究者チームは、WHAM(World-grounded Humans with Accurate Motion)という手法を開発し、これらの課題に対応し、正確な3Dヒューマンモーション再構築を実現しました。 この研究では、画像から3Dヒューマンポーズと形状を回復するための2つの手法、モデルフリーとモデルベースのアプローチを見直しています。統計的なボディモデルのパラメータを推定するために、モデルベースの手法でディープラーニング技術の使用を強調しています。既存のビデオベースの3D HPS手法では、さまざまなニューラルネットワークアーキテクチャを介して時間的な情報を組み込んでいます。一部の方法では、慣性センサーなどの追加のセンサーを使用していますが、これらは侵入的な場合があります。WHAMは、3Dヒューマンモーションとビデオコンテキストを効果的に組み合わせ、事前知識を活用し、グローバル座標系で正確な3D人間活動の再構築を実現することで注目されています。 この研究では、単眼ビデオから3Dヒューマンポーズと形状を精度良く推定する際の課題に取り組み、グローバル座標の一貫性、計算効率、現実的な足-地面接触を強調しています。WHAMは、2Dキーポイントを3Dポーズに変換するためのモーションエンコーダ-デコーダネットワーク、時間的な手がかりのための特徴結合器、および足接触を考慮したグローバルモーション推定のための軌跡リファインメントネットワークを組み合わせて、AMASSモーションキャプチャとビデオデータセットを活用しています。これにより、非平面表面における精度が向上し、足の滑りが最小限に抑えられます。 WHAMはオンライン推論と正確な3Dモーション再構築のために単方向RNNを使用し、コンテキスト抽出のためのモーションエンコーダとSMPLパラメータ、カメラの移動、足-地面接触確率のためのモーションデコーダを備えています。モーションコンテキストの抽出にはバウンディングボックスの正規化手法を活用しています。ヒューマンメッシュリカバリで事前にトレーニングされた画像エンコーダは、フィーチャインテグレータネットワークを介して画像特徴とモーション特徴をキャプチャし統合します。軌跡デコーダはグローバル方向を予測し、リファインメントプロセスは足の滑りを最小化します。 WHAMは、合成AMASSデータでトレーニングされ、評価において既存の手法を凌駕しています。 https://arxiv.org/abs/2312.07531 WHAMは、現在の最先端の手法を凌駕し、フレームごとおよびビデオベースの3Dヒューマンポーズと形状の推定において優れた精度を示しています。WHAMは、モーションコンテキストと足接触情報を活用し、足の滑りを最小限に抑え、国際的な調整を向上させることで、正確なグローバル軌道推定を実現しています。この手法は、2Dキーポイントとピクセルの特徴を統合することで、3Dヒューマンモーション再構築の精度を向上させています。野外のベンチマークによる評価では、MPJPE、PA-MPJPE、PVEなどのメトリクスにおいてWHAMの優れた性能が示されています。 まとめると、この研究の主なポイントは以下の通りです: WHAMは、3Dヒューマンモーションとビデオコンテキストを組み合わせる革新的な手法を導入しました。 この手法は、3Dヒューマンポーズと形状の回帰を向上させます。 グローバル軌道推定フレームワークには、モーションコンテキストと足接触を組み込んでいます。 この手法は、足の滑りの課題に取り組んでおり、非平面の表面において正確な3Dトラッキングを保証します。 WHAMのアプローチは、3DPW、RICH、EMDBなどの多様なベンチマークデータセットで優れたパフォーマンスを発揮します。 この手法は、グローバル座標で効率的なヒューマンポーズと形状の推定を行います。 特徴統合と軌跡リファインメントにより、モーションとグローバル軌道の精度が大幅に向上します。 有益な除去研究によって、この手法の精度が検証されています。
Amazon SageMaker Studioで生産性を向上させる:JupyterLab Spacesと生成AIツールを紹介
「Amazon SageMaker Studioは、機械学習(ML)開発における広範なセットの完全に管理された統合開発環境(IDE)を提供していますこれには、JupyterLab、Code-OSS(Visual Studio Codeオープンソース)に基づいたCode Editor、およびRStudioが含まれていますそれは、データの準備から構築・トレーニングまでの各ステップのための最も包括的なツールのアクセスを提供します...」
「NYUとGoogle AIの研究者が、機械学習の先進的な演繹的推論のフロンティアを探る」
多くの割引ルールの使用とサブプルーフの構築により、証明の複雑さは医療診断や定理の証明などの多くの論理推論の課題において無限に発展することができます。巨大な証明領域のため、すべてのサイズの保証をカバーするためのデータを見つけることは実際的ではありません。したがって、基本的な証明から始めて、一般的な推論モデルはより複雑な証明へと拡張することができるはずです。 NYUとGoogle AIの研究者のチームは、インコンテキストの学習(ICL)と思考連鎖(CoT)のプロンプトを使用してトレーニングされた場合、LLMsが論理的な推論を行うことができることを実証しました。過去の研究では、モーダスポネンスなどの一部の割引ルールが主な焦点でした。評価もデモンストレーション中であり、テストケースはインコンテキストのデモンストレーションと同じ分布から抽出されたものです。 LLMsがデモンストレーションよりも洗練された証明を一般化できる能力は、ニューヨーク大学、Google、ボストン大学の研究者による新しい研究のテーマです。学者は証明を以下の3つの次元で分類します: デモンストレーションの各ステージで使用される前提の数。 証明を構成する一連の手順の長さ。 使用される割引ルール。 証明の総サイズはこれらの3つの次元の関数です。 このグループは、LLMsの一般的な論理的推論能力を評価するために、以前の研究を2つの重要な点で拡張しています。モーダスポネンス以外の割引ルールもマスターしているかどうかをテストします。彼らの推論能力は次の2つの方法でテストされます: 深度と幅の一般化では、インコンテキストの例よりも長い証明に対する推論が行われます。 構成的一般化では、1つの証明で多くの割引ルールを使用します。 彼らの研究によると、基本的な例を提示することで、論理的な推論タスクはインコンテキストの学習から最も利益を得ることができます。モデルが適合しすぎないようにするためには、インコンテキストの例に、証明において未知の割引の原則(例:ケースによる証明や反証による証明など)が含まれる必要があります。さらに、これらの例には迷彩要素も含まれている必要があります。 研究結果によると、CoTはLLMsにおける組成的証明へのOOB推論を引き起こすことができます。これらのLLMsには、スケールとトレーニング目標が異なるGPT-3.5 175B、PaLM 540B、LLaMA 65B、FLAN-T511Bが含まれています。この発見は驚くべきものであり、LLMsには組成的一般性がないとする文献の豊富さを考えると意外です。ICLは、インコンテキストのサンプルに対する監督学習とは異なる方法で一般化します。テスト例と同じ分布からのインコンテキストの例を与えることは明らかに悪影響です。たとえば、インコンテキストの例に特定の割引ルールが組み込まれている場合、研究者は時折、組成的証拠へのより高度な一般化が見られました。 事前学習では、モデルに仮説的なサブプルーフを作成させることはありません。具体的な例がないと、LLMsは特定の割引ルール(例:ケースによる証明や反証による証明など)を一般化することはできません。モデルのサイズとパフォーマンスの関係は弱いです。指導の調整とより長い事前学習により、より小さなモデル(最小ではなく比較可能なもの)がより大きなモデルと競合することができます。 ICLとCoTのトリガリングプロセスをさらに理解するために、研究者は今後の調査において重要な領域に注目しています。彼らは、最良のインコンテキストの例が、テスト例自体とは異なる分布から得られることを発見しました。ベイズ推論と勾配降下はこれを考慮していません。彼らは、テストケースがやや洗練されているにもかかわらず、よりシンプルな例がより良く機能するかどうかを調査することに興味を持っています。具体的なインスタンスからの外挿をさらに特徴づけるためには、追加の研究が必要です。
Mixtral-8x7B スパースなエキスパートの混合理解と実行
最近の大規模言語モデル(LLM)のほとんどは、非常に似たようなニューラルアーキテクチャを使用していますたとえば、Falcon、Mistral、およびLlama 2モデルは、セルフアテンションとMLPの類似の組み合わせを使用しています...
最新の技術を使用して、独自のオープンソースLLMを微調整する
以前の記事では、自分自身でLLMのトレーニングを考える理由を証明し始めましたまた、ハードウェア要件の簡単な紹介や最適化方法も提供しました...
「LangChainとは何ですか?利用事例と利点」
LangChainはプログラマが大規模言語モデルを用いてアプリケーションを開発するための人工知能フレームワークです。ライブラリはPythonとTypeScript / JavaScriptで利用でき、開発者にとって多目的に活用できるものとなっています。テンプレートは参照アーキテクチャを提供し、アプリケーションの出発点として使用できます。LangChainフレームワークは開発から製品化、展開まで、アプリケーションのライフサイクルを効率化します。LangChainは、ステップごとに情報を求めることでチャットボットや質問応答システムなどのアプリケーションを構築するために開発者が利用することができます。また、開発者同士がお互いを支援しアイデアを共有するコミュニティも提供されています。 https://www.langchain.com/ 用途 LangChainには、自然言語を使用してSQLデータベースと対話するための機能があります。これにより、より人間らしい方法で質問したりコマンドを与えたりすることができ、LangChainがそれをSQLクエリに変換します。たとえば、先週のトップパフォーマンスを発揮した店舗を知りたい場合、LangChainにSQLクエリを生成してもらうことができます。 LangChainは、複雑なSQLクエリを手動で書くことなくデータベースとやり取りすることができる便利な機能を持っています。データベースとの会話のような感覚で、必要な情報を簡単に取得することができます。この機能により、データベースのデータに基づいて質問に答えることができるチャットボットの作成や、データ分析のためのカスタムダッシュボードの作成など、可能性が広がります。SQLデータベースに格納されたエンタープライズデータを扱う開発者にとって強力なツールです。 https://python.langchain.com/assets/images/sql_usecase-d432701261f05ab69b38576093718cf3.png 特徴 1. データの認識:LangChainは外部のデータソースと接続することで、言語モデルとの対話をより興味深くコンテキスト豊かなものにすることができます。 2. 代行的:LangChainを使用することで、言語モデルは単なる応答者にとどまらず、環境と対話することができます。これにより、アプリケーションが生き生きとしたダイナミックなものになります。 3. 簡単な統合:LangChainは使いやすく、拡張可能な標準化されたインターフェースを提供します。それはまるでアプリケーション用の共通言語を持っているようなものです。 4. スムーズな会話:効率的にプロンプトを処理することにより、言語モデルとの会話がスムーズで効果的に行えます。 5. オールインワンハブ:貴重なリソースを一箇所にまとめることで、開発者が必要なものを見つけてLangChainアプリケーションを作成し、公開するのが容易になります。 6. 見て学ぶ:LangChainは開発者が作成したチェーンとエージェントを視覚化することができます。異なるアイデア、プロンプト、モデルで実験することができます。 https://miro.medium.com/v2/resize:fit:1100/format:webp/1*05zEoeNU7DVYOFzjugiF_w.jpeg 利点 1.…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.