Learn more about Search Results A - Page 156

「Googleのおかげで、ロボットにとっての『ChatGPT』の時代は今までにないほど近づいています」

Google DeepMindは、21の大学との協力による究極の知能ロボット開発の成果であるRT-Xのリリースを発表しました

このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です

ファインチューニングされた言語モデルは、しばしば言語エージェントを作成する際に軽視され、特にGoogle検索APIを使用して質疑応答の能力を高めることに焦点を当てています。System2 Research、ケンブリッジ大学、モナッシュ大学、およびプリンストン大学の研究者たちは、ファインチューニングされたバックボーン言語モデルがこれらのエージェントのパフォーマンスを一貫して向上させることを示しています。彼らの研究では、複数のタスクや促進手法からの軌道を組み込んだFineActと呼ばれるファインチューニング手法を導入し、多様なファインチューニングデータが言語エージェントの洗練において重要であることを強調しています。 彼らの研究は、言語エージェントとファインチューニングされた事前学習言語モデルの交差点を探っています。先行研究では、言語エージェントとファインチューニングが別々に研究されてきましたが、この研究はそのギャップを埋めるものです。FineActは、言語エージェントのためのファインチューニング手法であり、これらのエージェントにおいて言語モデルのファインチューニングがもたらす利点と結果を系統的に調査しています。彼らの研究には、スケーリング効果、頑健性、汎化性、効率性、およびコストの影響などが含まれ、この新興分野に価値ある洞察を提供しています。 彼らの手法は、これらのエージェントのための言語モデル(LMs)のファインチューニングにおけるより効果的な言語エージェントの必要性に対応しています。既存の言語エージェントは、基本的なLMと限られた数の促進技術に頼っており、パフォーマンスと頑健性の制約があります。実験結果は、LMのファインチューニングがエージェントのパフォーマンスを大幅に高め、推論時間を短縮し、頑健性を向上させることを示しており、実世界の応用に向けた有望な手段となっています。 彼らの研究は、Google検索APIを使用した質問応答(QA)での言語エージェントのLMのファインチューニングを探求しています。実験は、LM、データサイズ、ファインチューニング手法に焦点を当て、HotpotQA EMなどの指標を使用してパフォーマンスを評価しています。彼らのアプローチは、従来の促進手法と比べてパフォーマンス、効率性、頑健性、一般化性の向上の利点を示しています。 言語エージェントのLMのファインチューニングによって、HotpotQAパフォーマンスがLlama2-7BおよびGPT-4からの500個のエージェント軌跡を使用して77%向上します。 CoTメソッドは回答の品質を向上させます。混合エージェントメソッドはベースラインの範囲と一致してパフォーマンスを一貫して向上させます。ファインチューニングにより、正確な回答と全体的な回答の品質が向上し、EMスコアとF1スコアに反映された精度が向上します。ただし、F1スコアは4エポックを超えて段階的に減少し、長期的なファインチューニングでは収益の減少が示唆されます。 CoTメソッドの統合によって回答の品質がさらに向上します。ファインチューニングされた複数のタスク軌跡とプロンプトを用いたFireActアプローチは、エージェントのパフォーマンスをさらに向上させます。製品化モデルの固定された一連のタスク解決軌跡、ツールの過剰使用、および逸脱回復の課題など、既存のLMだけに頼る言語エージェントは制約があります。キャリブレーションやメタ論理に関する将来の研究は、ツール使用と反省の課題に対処することでエージェントの設計を改善することができます。 FireActから生じる研究の疑問は、異なるタスク、グラウンディング設定、およびドメインにおける言語エージェントのLMのファインチューニングをさらに拡大することです。APIツールの使用、ウェブの探索、および実世界での統合を網羅した調査が必要です。エージェントのパフォーマンス向上のためには、さまざまなファインチューニングデータソースと技術の探求が重要です。キャリブレーションとメタ論理がエージェントの設計とツールの使用と軌道の逸脱の管理能力に与える影響を取り組むべきです。最後に、拡張性、頑健性、効率性、およびコストの影響の評価には包括的な研究が必要です。

「xVal」というものに出会いましょう:科学応用のために数字を言語モデルにエンコードするための継続的な方法で、任意の数字を表すために単一のトークンだけを使用します

大規模言語モデルの領域において、ひとつの迷惑な問題が浮かび上がっています。これらのモデルは多くの言語に基づくタスクをマスターすることができますが、大きな数字を含む数字の計算を行う場合にはしばしばつまづきます。具体的には、4桁の数字を二つ掛け合わせると、成功率はわずか90%足らずとなり、改善の余地があります。 この問題は、数字と他の形式の言語との固有の違いに由来しています。文字や単語とは異なり、数字は連続する値のスペクトルを包括し、厳格で複雑な規則に従います。この課題は、言語モデルと数値データの交差点についての疑問を提起し、解決策の探求を促しました。 この問題への既存の解決策はほとんどありませんし、完全なものでもありません。言語に関連するタスクで優れた性能を発揮するLLM(大規模言語モデル)が、数字の連続的かつ無限に変動する性質に対応するのに苦労しています。多くのアプローチでは、トークン化が行われ、数字が複数のトークンに分割されてモデルの複雑さやメモリ要件が増大します。 ポリマス(Polymathic)AIの研究者は、革命をもたらしうる可能性を秘めたゲームチェンジャー、xValエンコーディング戦略を導入します。この革新的なアプローチは、科学的なアプリケーションでLLM(大規模言語モデル)内の数字のエンコーディングにおいて新しい視点を提供します。xValは、任意の数値を表すために[NUM]という単一のトークンを使用します。 xVal戦略は、LLM内の数字を異なる方法で処理することにより、これを実現します。複数のトークンに頼るのではなく、各数字を事前処理し、別々のベクトルに保存します。テキストでは数値が[NUM]トークンに置き換えられます。デコード時には、トランスフォーマーアーキテクチャ内の専用のトークンヘッドが使用され、[NUM]トークンに関連付けられた値を予測するために平均二乗誤差(MSE)損失がガイドとして使用されます。 一連の実験において、xValの能力は厳密にテストされ、他の4つの数値エンコーディング戦略と比較されました。その結果は興味深いものでした。xValは多要素タスクで他の手法を凌駕し、大規模な多桁整数の乗算などの複雑な計算でも同等の結果を示しました。 ERA5のグローバル気候データセットからの気温データに適用した場合、xValの連続性バイアスにより、トレーニング時間を最小限に抑えつつ最良のパフォーマンスを発揮しました。 惑星シミュレーションでは、外部分布のデータの予測において、他のすべてのエンコーディング方式を上回るxValの優れた補間能力が示されました。 結論として、言語モデル内での数字のエンコーディングにおいて、xValの革新的なアプローチは未来を革命する可能性を秘めています。効率的かつ正確な方法で数値を表現するという課題に対処することは、科学的な領域における革新的なアプリケーションへの扉を開くことであり、複数の科学領域を結びつける基礎モデルの開発を促進し、将来の科学的研究の景観を再定義する可能性を秘めた画期的な解決策となるでしょう。

ウェルセッドラボのAIボイスジェネレーターのレビュー(2023年10月)

WellSaid Labsは最高のAI音声生成ツールでしょうか?続けて読んで、数秒でAI音声を生成する方法を学びましょう!

「多言語AIは本当に安全なのか?低リソース言語における大規模言語モデルの脆弱性を明らかにする」

GPT-4は、方針や倫理的な制約に反する要求に対して、「ごめんなさい、それには対応できません」と答えることをデフォルトにしています。大規模な言語モデル(LLM)がチャットボットや執筆ツールなどのユーザー向けアプリケーションで使用される場合、AIの安全訓練とレッドチーミングは重要です。LLMが否定的なマテリアルを生成した場合、深刻な社会的な影響があり、誤った情報の拡散、暴力の助長、プラットフォームの破壊などが含まれます。既にある安全システムのクロス言語の弱点を見つけ、MetaやOpenAIなどの開発者が安全リスクを最小限に抑えるために進展を遂げているにもかかわらず、GPT-4で保護を回避し、否定的な反応を引き起こすために危険な入力を低リソースの自然言語にGoogle翻訳を使って単純に翻訳するだけで十分です。 ブラウン大学の研究者は、英語の入力を低リソース言語に翻訳することで、AdvBenchmarkでさまざまなリソース設定を持つ12の言語をシステム的にベンチマークすることにより、GPT-4の安全フィルタを突破する確率を1%から79%に高めることを実証しています。さらに、彼らの翻訳ベースの戦略が最先端のジェイルブレイキング技術と比較して一致するか、あるいはそれを上回ることを示しており、これはGPT-4のセキュリティ対策に深刻な弱点があることを示しています。彼らの研究はいくつかの点で貢献しています。まず第一に、LLMの攻撃から高リソース言語と低リソース言語の間のギャップという形で示されるように、AI安全訓練コミュニティの差別的な扱いと言語の平等な評価の悪影響を浮き彫りにしています。 また、彼らの研究は、GPT-4で現在利用可能な安全合致トレーニングが言語を横断的に一般化する必要性を示しており、低リソース言語との不一致による一般化安全の欠落モードが存在することを示しています。さらに、彼らの多言語環境の現実は、LLMの安全システムを土台にしています。世界中で低リソース言語を話す約12億人の人々がいます。したがって、安全対策を考慮する必要があります。低リソース言語の対応範囲が増えるにつれて、高リソース言語を話す悪意のある行為者でさえ、現在の予防策を容易に回避することができます。 最後になりますが、この研究はより包括的で包括的なレッドチーミングの採用の緊急性を強調しています。英語中心のベンチマークに焦点を当てることで、モデルが安全であるという印象が生まれるかもしれません。しかし、安全訓練データが広く入手可能でない言語では、侵害のリスクにも依然として脆弱です。さらに重要なのは、彼らの研究結果は、LLMが低リソース言語でテキストを理解し生成する能力を学者たちがまだ正当に評価していないことを示唆しています。彼らは安全コミュニティに対して、低リソース言語を含む拡張言語カバレッジと多言語レッドチーミングデータセットを備えた強力なAI安全ガードレールの構築を求めています。

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります。このようなタスクは、自動車に取り付けられた特殊なレーザーが3Dデータをキャプチャすることで容易に行われます。このようなプロセスは、エゴセントリックシーン理解と呼ばれ、自身の視点から環境を理解することを意味します。問題は、エゴセントリックな人間のシーン理解に適用できる公開データセットが自動運転領域を超えて存在しないことです。 Googleの研究者たちは、人間のエゴセントリックなシーン理解のためのマルチ属性ビデオデータセットであるSANPO(Scene understanding, Accessibility, Navigation, Pathfinding, Obstacle avoidance)データセットを導入しました。SANPOには、SANPO-RealとSANPO-Syntheticの2つの実世界データと合成データが含まれています。SANPO-Realは多様な環境をカバーしており、マルチビュー手法をサポートするために2つのステレオカメラからのビデオが含まれています。実データセットには、15フレーム/秒(FPS)でキャプチャされた11.4時間のビデオと密な注釈が含まれています。 SANPOは、エゴセントリックな人間のシーン理解のための大規模なビデオデータセットであり、密な予測注釈を持つ60万以上の実世界および10万以上の合成フレームから成り立っています。 Googleの研究者たちは、プライバシー保護を優先しています。彼らは現地、市、および州の法律に従ってデータを収集しています。また、注釈のためにデータを送信する前に、顔や車両ナンバープレートなどの個人情報を削除するようにしています。 ビデオのキャプチャ中のモーションブラー、人間の評価ミスなどの欠点を克服するために、SANPO-Syntheticが導入されました。研究者は、実世界の環境に合わせて最適化された高品質な合成データセットを作成するために、Parallel Domainと提携しました。SANPO-Syntheticには、バーチャル化されたZedカメラを使用して記録された1961のセッションが含まれており、ヘッドマウントとチェストマウントの位置の均等な分布があります。 合成データセットと一部の実データセットは、パノプティックインスタンスマスクを使用して注釈が付けられました。SANPO-Realでは、フレームごとに20を超えるインスタンスがあるのはわずかです。それに対して、SANPO-Syntheticには実データセットよりもずっと多くのインスタンスが含まれています。 この分野での他の重要なビデオデータセットには、SCAND、MuSoHu、Ego4D、VIPSeg、Waymo Openなどがあります。SANPOはこれらのデータセットと比較され、パノプティックマスク、深度、カメラ姿勢、マルチビューステレオ、実データと合成データを兼ね備える最初のデータセットです。SANPOの他に、パノプティックセグメンテーションと深度マップを兼ね備えたデータセットはWaymo Openだけです。 研究者は、SANPOデータセット上で2つの最先端モデル、BinsFormer(深度推定)とkMaX-DeepLab(パノプティックセグメンテーション)を訓練しました。彼らは、このデータセットは両方の密な予測タスクにとって非常に挑戦的であることを観察しました。また、合成データセットの方が実データセットよりも精度が高いことも確認されました。これは、現実世界の環境が合成データよりも複雑であるためです。さらに、セグメンテーション注釈においては、合成データの方がより正確です。 人間のエゴセントリックなシーン理解のデータセットの不足に対処するために導入されたSANPOは、実世界と合成データセットの両方を網羅しており、密な注釈、マルチ属性の特徴、パノプティックセグメンテーションと深度情報のユニークな組み合わせによって他のデータセットとは異なる存在です。さらに、研究者たちのプライバシーへの取り組みは、視覚障害者のための視覚ナビゲーションシステムの開発をサポートし、高度な視覚シーン理解の可能性を広げるために、このデータセットを他の研究者に提供することができます。

このAIの論文は、テキスト変換グラフとして言語モデルパイプラインを抽象化するプログラミングモデルであるDSPyを紹介しています

言語モデル(LM)は、リサーチャーにデータを少なく使用し、より高度な理解レベルで自然言語処理システムを作成する能力を与えています。これにより、「プロンプト」メソッドや軽量なファインチューニングの技術が増加し、新しいタスクにおいてLMが動作するための方法が開発されています。ただし、問題は、各タスクごとにLMに尋ねる方法が非常に敏感であることであり、単一のプロセスで複数のLMの相互作用がある場合にこの問題がさらに複雑になります。 機械学習(ML)コミュニティは、言語モデル(LM)をプロンプトする方法や複雑なタスクに取り組むためのパイプラインの構築方法を積極的に探索しています。残念ながら、既存のLMパイプラインはしばしば、試行錯誤を重ねて見つけられた長い文字列である「プロンプトテンプレート」に依存しています。LMパイプラインの開発と最適化におけるより体系的なアプローチを追求するために、スタンフォードなどのさまざまな機関の研究者チームは、DSPyというプログラミングモデルを導入しました。DSPyは、LMパイプラインをテキスト変換グラフに抽象化するものです。これらは基本的には命令型の計算グラフであり、LMは宣言型モジュールを通じて呼び出されます。 DSPyのモジュールはパラメータ化されており、提示、ファインチューニング、拡張、推論技術の組み合わせを適用する方法を学習できます。彼らはDSPyパイプラインを最大化するためのコンパイラを設計しました。 DSPyコンパイラは、DSPyプログラムの品質やコスト効率を向上させることを目的として開発されました。コンパイラは、プログラム自体と、オプションのラベルとパフォーマンス評価のための検証メトリックを含む、少量のトレーニング入力を入力として受け取ります。コンパイラの動作は、提供された入力を使用してプログラムの異なるバージョンをシミュレートし、各モジュールのための例のトレースを生成することに関与します。これらのトレースは、自己改善の手段として使用され、効果的なフューショットプロンプトの作成やパイプラインのさまざまな段階での小規模な言語モデルのファインチューニングに活用されます。 重要な点として、DSPyの最適化方法は非常に柔軟です。彼らは「テレプロンター」と呼ばれる手法を使用しており、システムの各部分がデータから最善の方法で学習することを保証するための一般的なツールのようなものです。 2つの事例研究を通じて示されたように、簡潔なDSPyプログラムは、数学のワード問題の解決、マルチホップリトリーバルの処理、複雑な質問に答える、エージェントループを制御するなどの高度なLMパイプラインを表現し最適化することができます。コンパイル後のわずか数分で、わずか数行のDSPyコードを使用して、GPT-3.5やllama2-13b-chatを自己ブートストラップパイプラインにすることができ、従来のフューショットプロンプトに比べて25%以上および65%以上の性能を実現します。 結論として、本研究はDSPyプログラミングモデルとその関連するコンパイラを介して自然言語処理への画期的なアプローチを紹介しています。複雑なプロンプト技術をパラメータ化された宣言型モジュールに変換し、一般的な最適化戦略(テレプロンター)を活用することで、これによるNLPパイプラインの構築と最適化を非常に効率的に行う新しい方法を提供しています。

オートジェン(AutoGen)は驚くべきものです:AIエージェントを作成するための最先端フレームワークとなる4つの機能

「AIエージェントの協力により、現在の大規模言語モデルから得られる最良の結果を得ることができます注 AIエージェントは広範なトピックですこの記事では、AIエージェントと言及する際には、次のようなものを指しています...」

「取得した文書の圧縮は言語モデルのパフォーマンスを向上させることができるのか?このAIの論文では、圧縮と選択的な拡張によって検索増強型LMを改良するためのRECOMPを紹介しています」

計算リソースを管理しながらパフォーマンスを最適化することは、ますます強力な言語モデルの時代における重要な課題です。テキサス大学オースティン校とワシントン大学の研究者は、回復されたドキュメントを簡潔な文章の要約に圧縮する革新的な戦略を探求しました。抽出型圧縮器と生成型圧縮器の両方を使用することで、彼らのアプローチは言語モデルの効率を成功裏に向上させることができました。 検索増強言語モデル(RALM)の効率向上が焦点となり、データストアの圧縮や次元削減などの技術を通じて回収コンポーネントを改善することに重点を置いています。選択的な回収やより大きなストライドの利用など、回収頻度を減らす戦略も含まれます。彼らの論文「RECOMP」では、回収されたドキュメントを簡潔な文章の要約に圧縮する新しいアプローチを提案しています。彼らのアプローチは、計算コストを削減するだけでなく、言語モデルのパフォーマンスも向上させることができます。 RALMの制約に対処するため、彼らの研究では、効率を向上させる新しいアプローチであるRECOMP(回収、圧縮、前置)を導入しています。RECOMPは、回収されたドキュメントをコンテキストでの拡張の前にテキストの要約に圧縮する方法です。彼らの過程では、抽出型圧縮器を使用してドキュメントから関連する文を選択し、生成型圧縮器を使用して情報を簡潔な要約に総合します。 彼らの手法では、特化した抽出型圧縮器と生成型圧縮器の2つの圧縮器を導入し、回収されたドキュメントから簡潔な要約を作成することでエンドタスクにおける言語モデル(LM)のパフォーマンスを向上させることを目的としています。抽出型圧縮器は関連する文を選択し、生成型圧縮器は複数のドキュメントからデータを合成します。両方の圧縮器は、生成された要約をLMの入力に追加することでLMのパフォーマンスを最適化するために訓練されます。評価は言語モデリングおよびオープンドメインの質問応答タスクを含み、環境への転移可能性が様々なLMで示されています。 彼らの手法は、言語モデリングおよびオープンドメインの質問応答タスクで評価され、最小限の性能低下で6%の圧縮率を達成し、標準的な要約モデルを上回っています。抽出型圧縮器は言語モデルで優れており、生成型圧縮器は最も低い困惑度で最も優れています。オープンドメインの質問応答では、すべての回収増強方法がパフォーマンスを向上させます。抽出型オラクルリードやDPRは抽出型ベースラインの中で優れたパフォーマンスを発揮します。訓練された圧縮器は、言語モデリングタスクで言語モデル間で転送が可能です。 RECOMPは、回収されたドキュメントをテキストの要約に圧縮することでLMのパフォーマンスを向上させるために導入されました。抽出型圧縮器と生成型圧縮器の2つの圧縮器が使用されています。圧縮器は言語モデリングおよびオープンドメインの質問応答タスクで効果的です。結論として、回収されたドキュメントをテキストの要約に圧縮することは、言語モデルのパフォーマンスを向上させ、計算コストを削減することができます。 抽出型要約器を用いた適応的な拡張、異なる言語モデルやタスクにおける圧縮器のパフォーマンス向上、さまざまな圧縮率の探求、圧縮におけるニューラルネットワークベースのモデルの考慮、より広範な機能やデータセットでの実験、他の領域や言語への一般化性の評価、およびドキュメント埋め込みやクエリ拡張などの他の回収手法の統合など、将来の研究の方向性も検討されます。

「Apple M1とM2のパフォーマンス- SSLモデルのトレーニングにおいて」

新しいAppleチップを使用してMLモデルをトレーニングするためのベンチマークの数はまだ少ないですさらに、ほとんどの結果は、M1チップと以前のソフトウェアバージョンを比較しているだけであり、それらが適切でなかった可能性もあります...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us