Learn more about Search Results Meta - Page 3

「Code Llama内部:Meta AIがCode LLMスペースへの参入」

コーディングは、大規模言語モデル(LLM)の最も活発な活動の1つに急速になっていますOpenAIが昨年Codex(現在はGPT-4の一部)を発表して以来、コーディングの革新レベルは...

「シームレスM4Tに出会ってください:Meta AIの新しいスピーチ翻訳の基盤モデル」

「音声は急速に基盤モデルの次のフロンティアの一つとなっています言語やコンピュータビジョンなどの領域がまだ主流ですが、音声はますます重要性を増しています...」

「MetaGPTと出会ってください:GPTをエンジニア、建築家、マネージャに変えるオープンソースAIフレームワーク」

大規模言語モデル(LLM)ベースのマルチエージェントシステムは、人間の操作を模倣し、改善するための非常に優れた機会を持っています。しかし、最近の研究によって示されるように、現行のシステムは現実世界の応用に存在する複雑さにおいてより正確である必要がある場合があります。これらのシステムは、口頭やツールベースのやり取りを通じて建設的な協力を促進するための支援が主に必要であり、これにより、連続した非生産的なフィードバックループを減らし、実りのある協力的な相互作用を促進することが困難になります。多様なプロセスが効果的になるためには、よく構造化された標準化された作業手順(SOP)が必要です。実世界の実践に対する徹底的な認識と統合が重要です。 これらの一般的な制約を解決し、これらの知見を取り入れることで、LLMベースのマルチエージェントシステムの設計と構造を改善し、その効果と応用を向上させることが重要です。また、広範な共同プラクティスを通じて、人々はさまざまな分野で一般的に認識されているSOPを作成してきました。これらのSOPは、効果的な作業の分解と調整を容易にするために不可欠です。たとえば、ソフトウェアエンジニアリングにおけるウォーターフォールプロセスは、要件分析、システム設計、コーディング、テスト、成果物のための論理的なステップを確立します。 この合意形成ワークフローの助けを借りて、いくつかのエンジニアが生産的に協力することができます。また、人間の仕事には、それぞれの職務に適した専門的な知識があります。ソフトウェアエンジニアはプログラミングスキルを使ってコードを作成し、プロダクトマネージャーは市場調査を行って顧客の要求を特定します。協力は通常の出力から逸脱し、組織化されなくなります。たとえば、プロダクトマネージャーは、ユーザーの要望、市場のトレンド、競合する製品に関する徹底的な競争調査を実施し、開発を推進するために製品要件文書(PRD)を作成する必要があります。これらの分析には、明確で標準化された形式と優先順位付けられた目標が必要です。 これらの規範的なアーティファクトは、異なる役割からの関連する貢献を要する複雑な多様なプロジェクトの進展には欠かせません。これらは共同理解を具体化します。したがって、関連する役割に基づいた行動の仕様を使用してSOPをコーディングします。第三に、情報の交換を容易にするために、エージェントは標準化されたアクションの出力を作成します。MetaGPTは、人間の専門家が交換するアーティファクトを形式化することで、相互依存するジョブ間の調整を合理化します。エージェントは、活動とツールやリソースの共有に対する洞察を提供する共有環境によって接続されます。エージェント間のすべての通信は、この環境に含まれています。また、すべての協力記録が保存されるグローバルメモリプールも提供され、エージェントは必要なデータに対して購読または検索することができます。エージェントは、このメモリプールから以前のメッセージを取得してより多くの文脈を把握することができます。 対話を通じて情報を受動的に吸収するのではなく、このアーキテクチャはエージェントが積極的に関連する情報を観察し、引き出すことができるようにします。この設定は、チームワークを奨励する実際の職場に見られるシステムを模倣しています。彼らは、小規模なゲームの制作からより複雑な大規模なシステムまでを包括する、共同ソフトウェア開発のワークフローや関連するコード実装実験を表示して、そのアーキテクチャの効果を示しています。MetaGPTは、GPT-3.5やAutoGPT、AgentVerseなどのオープンソースフレームワークよりもはるかに多くのソフトウェアの複雑さを管理します。 さらに、MetaGPTは、自動的なエンドツーエンドのプロセス全体で要件書類、設計アーティファクト、フローチャート、およびインターフェース仕様を生成します。これらの中間の標準化された出力は、最終的なコードの実行の成功率を大幅に向上させます。自動生成されたドキュメンテーションのおかげで、人間の開発者は迅速に学習し、自分の専門知識を向上させて要件、設計、およびコードをさらに改善することができます。また、より洗練された人間-AIの相互作用が可能になります。結論として、彼らはさまざまなソフトウェアプロジェクトについての包括的な研究によってMetaGPTの妥当性を検証しています。 MetaGPTの役割ベースの専門家エージェント協働パラダイムによって可能になる可能性は、量的なコード生成のベンチマークとプロセス全体の出力の質的評価を通じて示されています。要するに、彼らは主に以下のような貢献をしました: • 役割定義、タスクの分解、プロセスの標準化などを含む、新しいメタプログラミングメカニズムを設計しました。 • 彼らは、人間のSOPをLLMエージェントにエンコードし、複雑な問題解決の能力を根本的に拡張するためのLLMベースのマルチエージェント協調フレームワークであるMetaGPTを提案しています。 • AutoGPT、AgentVerse、LangChain、およびMetaGPTを使用して、CRUD2コード、基本的なデータ分析ジョブ、およびPythonゲームの開発について広範なテストを行っています。 このようにして、MetaGPTはSOPを利用して複雑なソフトウェアを作成することができます。全体の結果は、MetaGPTがコードの品質と予測されるプロセスとの適合性の点で、競合他社を大幅に上回っていることを示しています。

AudioCraft Metaの音声と音楽のための生成AI

Facebookの親会社であるMetaは、テキストベースのプロンプトから音を生成する新しい生成AIツールをリリースしました会社は投稿で、思考実験から始めます「楽器で1つの音符も演奏せずに、プロのミュージシャンが新しい作曲を探求できると想像してみてください」これらは非常に...

「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」

ヒューマンインプットは、社会的な対話モデルを改善するための重要な戦術です。ヒューマンフィードバックを用いた強化学習では、満足な報酬関数を保証するために多くのヒューマンアノテーションが必要とされており、フィードバックからの学習には非常な改善が見られています。フィードバックの源は、対話ターンや対話エピソードについてのユーザーからの数値スコア、ランキング、自然言語のコメント、およびボットターンのバイナリ評価などが含まれます。ほとんどの研究では、これらの信号をクラウドワーカーを利用して意図的に収集しています。なぜなら、一般のユーザーはそうすることを避けたいか、もしそうする場合には正確な情報を提供しないかもしれないからです。 この研究では、ニューヨーク大学とMeta AIの研究者が、モデルと有機的なユーザー間の実際の議論を特徴とする多くの展開時対話エピソードを持っている状況を考慮しています。彼らは、これらの自然なユーザーの議論から何らかの暗黙の指示を得ることができ、それらの信号を対話モデルの向上に利用することができるかどうかを調査しようとしています。これには2つの理由があります。まず第一に、彼らは明示的な注釈を提供しないかもしれませんが、有機的なユーザーは将来の展開のためのデータ分布に最も近いです。第二に、対話の以前のエピソードからの暗黙の信号を使用することで、クラウドソーシングに費やされるお金を節約することができます。 図1: アプローチの概要。人間とロボットの対話から、次のヒューマンターンが長くなるか短くなるか、または喜ばしいかどうかなどの暗黙の信号を得ます。 より具体的には、彼らはチャットボットを調整して、将来のヒューマンの回答の数量、長さ、感情、または反応性などの最適な暗黙のフィードバック信号を使用することができるかどうかを検討しています。彼らは、この問題を調査するためにBlenderBotのオンライン展開から公開された匿名化されたデータを使用しています。このデータを使用して、彼らはサンプルモデルと再ランクモデルをトレーニングし、さまざまな暗黙のフィードバック信号を比較します。彼らの新しいモデルは、自動化された評価と人間の判断の両方を通じて、ベースラインの返信よりも優れていると発見されました。さらに、彼らの暗黙のフィードバック信号が世代の品質の粗いプロキシ指標であるため、これらの指標をサポートすることが望ましくない行動を引き起こすかどうかを尋ねています。 はい、使用される信号によります。特に、議論の長さを最適化すると、モデルが論争的な意見を提供したり、敵意を持ったり攻撃的な態度で返答する可能性があります。一方、好意的な応答やムードを最適化すると、これらの行動がベースラインに比べて減少します。ヒューマンからの暗黙のフィードバックは、全体的なパフォーマンスを向上させることができる有益なトレーニング信号であると結論づけられますが、具体的な手法には重要な行動的な影響があります。

「INDIAaiとMetaが連携:AIイノベーションと共同作業の道を開く」

有望な展開として、INDIAaiとMetaが人工知能(AI)と新興技術の領域で強力な協力関係を築いています。両組織は覚書(MoU)に署名することで、MetaのオープンソースのAIモデルを利用可能にするための専門知識とリソースを共有することを目指しています。このパートナーシップは、AIのイノベーションを促進し、社会的包摂を推進し、インドのデジタルランドスケープにおける経済成長を推進する上で重要な一歩となります。このエキサイティングな協力関係の主要な側面と、AIの研究開発への潜在的な影響を探ってみましょう。 また読む:G20でMSME向けAIベースのポータルを提案するインド:中小企業にとってのゲームチェンジャー INDIAaiとMeta:AIの進歩のための連携 知識ポータルおよび研究組織であるINDIAaiは、AI技術のリーディングプレーヤーであるMetaと連携しました。この覚書は、MetaのオープンソースのAIモデルをインドで利用可能にするための枠組みを確立することを目的としています。両者は最先端のAI技術を活用することで、大規模な課題に取り組み、国内のAIエコシステムを革新する意図を持っています。 INDIAaiのビジョン 知識共有プラットフォームおよびエコシステム構築イニシアチブであるINDIAaiは、インドのAI分野内のさまざまなエンティティを結集する上で重要な役割を果たしています。コラボレーションやパートナーシップを通じて、INDIAaiは人工知能の分野での研究、開発、イノベーションを促進することを目指しています。 また読む:Sam Altman氏とインド首相ナレンドラ・モディ氏の重要な会議:インドのAIの未来を描く MetaのAI研究モデルを活用する INDIAaiとMetaの協力は、オープンソースのAIモデルを超えて広がっています。両組織は、AIと新興技術のスタートアップを育成する卓越センターの設立の可能性を探っています。MetaのAI研究モデルであるLlama、Massively Multilingual Speech、No Language Left Behindなどを活用することで、特にリソースの少ない言語に焦点を当て、インドの言語の翻訳と大規模言語モデルを向上させるためのデータセットの構築に注力します。 また読む:MetaのLlama 2:商業利用のためにオープンソース化 社会的包摂と政府サービス提供の促進 INDIAaiとMetaの共同の取り組みは、社会的包摂を促進し、インドの政府サービス提供を改善することが期待されています。大規模な言語モデル、生成的AI、認知システム、翻訳モデルの利用を通じて、この協力関係はさまざまなセクターやコミュニティに対してAI技術のアクセスを向上させることを目指しています。 また読む:インドの半導体志向に対するチップデザインへの政府の介入:利益なのかリスクなのか? MetaのオープンなAIイノベーションへのアプローチ Metaのグローバルアフェアーズの社長であるNick Clegg氏は、同社のオープンなAIイノベーションへのアプローチを強調しています。最先端のテクノロジーへのアクセスをビジネス、スタートアップ、研究者に提供することで、Metaは社会的および経済的な機会を創出することを目指しています。「India AI」との協力関係は、インドのデジタルリーダーシップを強化し、国の固有のニーズに合わせたAIツールを開発するためのエキサイティングな展望を提供します。…

「デバイス内AIの強化 QualcommとMetaがLlama 2テクノロジーと共同開発」

Metaの新しいオープンソースのLlama 2のリリースにより、大規模言語モデル(LLMs)の使用事例についての議論が起こっています。しかし、多くの人にとって、ローカルのハードウェア上でLlama 2にアクセスし、実行することは依然として重要な障壁です。この問題に対処し、Llama 2のパワーへのアクセスを民主化するために、MetaはQualcommと提携し、モデルをオンデバイスで使用するためにQualcommのAI対応Snapdragonチップを活用して最適化しています。 MetaとQualcommの協力により、Llama 2のオンデバイスでの実装が可能になり、新しいAI対応Snapdragonチップの機能を活用しています。モデルをオンデバイスで実行することで、開発者はクラウドコンピューティングコストを削減し、データが外部サーバーに送信されないため、ユーザーに強化されたプライバシーを提供することができます。オンデバイスでのAI処理は、インターネット接続なしで生成的AIを可能にし、ユーザーの好みに合わせたモデルのパーソナライズも可能にします。 QualcommのHexagonプロセッサは、Snapdragonチップにマイクロタイル推論、テンソルコア、SegNet、スカラーおよびベクトルワークロード用の専用処理など、さまざまなAI機能を備えています。Llama 2をQualcomm AIスタックに統合することで、オンデバイスでのAIモデルの実行がさらに最適化されます。 Metaは、最初のLLaMAモデルのリークから多くを学びました。最初は研究者や学術機関にのみ提供されていたLLMのリークは、オープンソースのLLMイノベーションの爆発を引き起こし、さまざまな改良版のLLaMAを生み出しました。オープンソースコミュニティの貢献は大きく、デバイス上で実行できるバージョンが作成され、LLMがより広い観客にアクセス可能になりました。 リークに対応するため、MetaはLlama 2のリリースにおいて異なるアプローチを取り、オープンネスと協力を重視しています。Qualcommとの提携により、チップメーカーはモデルの内部機能に対する洞察を得て、Snapdragonチップ上でのパフォーマンスを最適化することができます。この協力は、2024年のQualcomm Snapdragon 8 Gen 3チップの発売と同時に予定されています。 オープンソースコミュニティもLlama 2の開発に重要な役割を果たすと予想されています。業界のオンデバイスAIへの勢いとオープンなLLMエコシステムを組み合わせることで、この動きは活気あるオンデバイスAIエコシステムを育成するための最初の一歩と見なされています。 専門家は、オープンなLLMがAIパワードのコンテンツ生成、インテリジェントアシスタント、生産性アプリケーションなどの新世代をもたらす可能性があると予測しています。デバイス上でネイティブにLLMを実行できる能力は、オンデバイスAI処理の数多くの可能性を開放し、AppleのM1チップにニューラルエンジンを組み込んだことや、MicrosoftのHybrid AI Loopツールキットに示されるように、エッジでのAI機能の成長トレンドをサポートします。 全体的に、MetaとQualcommの提携は、AIモデルへのアクセスを民主化するための重要な一歩であり、開発者がAIパワードアプリケーションを作成し、iPhoneと同様のアプリストア爆発をもたらす新しいオンデバイスAIエコシステムの時代を迎えることを可能にしています。

UCサンディエゴとMeta AIの研究者がMonoNeRFを紹介:カメラエンコーダとデプスエンコーダを通じて、ビデオをカメラ動作とデプスマップに分解するオートエンコーダアーキテクチャ

カリフォルニア大学サンディエゴ校とMeta AIの研究者たちは、MonoNeRFを紹介しました。この新しいアプローチにより、Neural Radiance Fields(NeRF)をモノクルビデオから学習することが可能になり、正確なカメラの位置情報に依存しなくなりました。 この研究では、NeRFは視点合成、シーンおよびオブジェクトの再構築、意味理解、ロボット工学など、さまざまなアプリケーションで有望な結果を示していることが強調されています。しかし、NeRFの構築には正確なカメラの位置情報の注釈が必要であり、単一のシーンに制約があり、時間のかかるトレーニングと大規模な制約のないビデオへの適用が制限されています。 これらの課題に対応するため、最近の研究では、複数のシーンからなるデータセットでトレーニングを行い、その後、個々のシーンで微調整することにより、一般化可能なNeRFの学習に焦点を当てています。この戦略により、ビュー入力が少ない状態でも再構築および視点合成が可能ですが、トレーニング中にカメラの位置情報が必要です。一部の研究者はカメラの位置情報なしでNeRFをトレーニングしようと試みていますが、これらのアプローチは特定のシーンに限定され、自己教師付きのキャリブレーションの複雑さにより、異なるシーン間での一般化が困難です。 MonoNeRFは、静止したシーンでのカメラの動きを捉えたモノクルビデオでトレーニングすることで、これらの制限を克服します。研究者たちは、現実のビデオは多様な視点ではなく、ゆっくりとしたカメラの変化を示すことを重要な観察とし、これを提案されたフレームワーク内で利用しています。この手法は、大規模な現実のビデオデータセットでトレーニングされたオートエンコーダベースのモデルを使用します。具体的には、深度エンコーダは各フレームの単眼の深度を推定し、カメラの位置エンコーダは連続するフレーム間の相対カメラの位置を決定します。これらの分離された表現は、各入力フレームのNeRF表現を構築するために利用され、推定されたカメラの位置に基づいて別の入力フレームをデコードするためにレンダリングされます。 モデルは、レンダリングされたフレームと入力フレームの一貫性を確保するための再構築損失を使用してトレーニングされます。ただし、再構築損失だけに依存すると、推定された単眼の深度、カメラの位置、およびNeRF表現が同じスケール上にない可能性があるため、ささいな解になる可能性があります。研究者たちは、トレーニング中にこれらの表現を整列させるための新しいスケールキャリブレーション手法を提案しています。彼らの提案されたフレームワークの主な利点は2つあります:3Dカメラの位置情報の必要性がなくなり、大規模なビデオデータセットでの効果的な一般化が実現し、転移性が向上します。 テスト時には、学習された表現を単眼の深度推定、カメラの位置推定、および単一画像の新しい視点合成など、さまざまな下流タスクに適用することができます。研究者たちは、主に屋内シーンで実験を行い、彼らのアプローチの有効性を示しています。彼らの手法は、Scannetのテストセットでの自己教師付き深度推定を大幅に改善し、NYU Depth V2に対して優れた一般化性能を示します。さらに、MonoNeRFは、カメラの位置推定においてRealEstate10Kデータセットを使用した以前のアプローチを一貫して上回っています。新しい視点合成では、カメラの位置の正確な情報なしで学習する方法や、正確なカメラの位置情報に依存する最近のアプローチよりも優れたパフォーマンスを発揮します。 まとめると、研究者たちは、正確なカメラの位置情報を必要とせずにモノクルビデオから一般化可能なNeRFを学習するための新しい実用的な解決策としてMonoNeRFを提案しています。彼らの手法は、以前のアプローチの制約を解決し、大規模なデータセットに関連する深度推定、カメラの位置推定、および新しい視点合成に関連するさまざまなタスクで優れた性能を発揮することを示しています。

中国からの新しいAI研究、「Meta-Transformer マルチモーダル学習のための統一されたAIフレームワーク」を提案する

人間の脳は、視覚、聴覚、触覚の信号など、さまざまな感覚入力からの情報を同時に処理する神経ネットワーク理論の典型とされています。さらに、ある情報源からの理解が別の情報源の知識に役立つこともあります。しかし、深層学習におけるモダリティの隔たりの大きさのため、さまざまな入力形式を処理できる統合ネットワークを構築するには多くの作業が必要です。あるデータモダリティでトレーニングされたモデルは、各データモダリティの異なるデータパターンと連携するために調整する必要があります。口述言語とは対照的に、写真は画像中のピクセルが密集しているため、かなりの情報冗長性を持っています。 一方、点群は3D空間でのまばらな分布とノイズへの感受性の増加のため、記述が困難です。オーディオスペクトログラムは、異なる周波数領域の波の組み合わせから成る時間変動する非定常データパターンです。ビデオデータは、一連の画像フレームから成るため、空間情報と時間的ダイナミクスを記録する特有の能力を持っています。グラフデータは、アイテムをノード、関係をエッジとしてグラフ内で複雑な多対多の相互作用をモデル化します。異なるデータモダリティ間の大きな不均衡のため、各データモダリティを独立にエンコードするために他のネットワークトポロジーを使用することが一般的な手法です。 たとえば、Point Transformerは、3D座標から構造情報を抽出するためにベクトルレベルの位置注意を使用しますが、写真や自然言語の文章、オーディオスペクトログラムのスライスをエンコードすることはできません。したがって、さまざまなデータタイプをエンコードするために複数のモダリティで共有されるパラメータ空間を使用できる単一のフレームワークを作成するには、時間と努力がかかります。最近開発されたVLMO、OFA、BEiT-3などの統合フレームワークは、対になったデータで広範なマルチモーダルプリトレーニングを通じて、ネットワークのマルチモーダル理解能力を向上させました。ただし、ビジョンと言語に重点を置いているため、完全なエンコーダをモダリティ間で共有することはできません。ディープラーニングは、自然言語処理(NLP)のために他の研究者が提案したトランスフォーマーアーキテクチャと注意メカニズムから大いに恩恵を受けています。 これらの進展により、2Dビジョン(ViTやSwin Transformerを含む)、3Dビジョン(Point TransformerやPoint-ViTを含む)、音響信号処理(AST)など、さまざまなモダリティでの知覚が大幅に向上しました。これらの研究は、トランスフォーマーベースの設計の適応性を示し、いくつかのモダリティを組み合わせるための基礎モデルが作成できるかどうかを研究するための学術界の動機を提供し、最終的にはすべてのモダリティでの人間レベルの知覚を実現する可能性を追求しています。図1は、トランスフォーマーデザインの潜在能力を調査するために、画像、自然言語、点群、オーディオスペクトログラム、ビデオ、赤外線、高分光、X線、IMU、表形式、グラフ、時系列データなど、12のモダリティを扱うMeta-Transformerを使用している様子を示しています。 図1: Meta-Transformerを使用して、自然言語、画像、点群、オーディオ、ビデオ、赤外線、高分光、X線、時系列、表形式、慣性計測ユニット(IMU)、グラフデータをすべて同じバックボーンを使用してエンコードする方法を示しています。トランスフォーマーシステムが統合されたマルチモーダルインテリジェンスを提供する可能性を示しています。 彼らは、トランスフォーマーを使用した各モダリティの学習プロセスについて説明し、それらを統合フレームワークに組み合わせる際の困難について取り組んでいます。その結果、香港中文大学と上海AIラボの研究者は、Meta-Transformerという新しい統合型マルチモーダル学習フレームワークを提案しています。最初のフレームワークであるMeta-Transformerは、12の異なるモダリティからの入力を同時にエンコードするために同じセットのパラメータを使用し、より統合されたアプローチのマルチモーダル学習を実現します。データからシーケンスへのトークン化のためのモダリティ専門家、モダリティ共有エンコーダ、ダウンストリームタスクのためのタスク固有のヘッドという、3つのシンプルで貴重な構成要素がMeta-Transformerにあります。より具体的には、Meta-Transformerはまず、マルチモーダルデータから共有の多様体空間を持つトークンシーケンスを作成します。 その後、凍結されたパラメータを持つモダリティ共有エンコーダを使用して表現が抽出されます。個々のタスクは、軽量なトークナイザと更新されたダウンストリームタスクヘッドのパラメータを使用してさらにカスタマイズされます。最終的に、この簡単なアプローチによってタスク固有およびモダリティ一般の表現を効率的に学習することができます。彼らは12のモダリティからいくつかの標準を使用して重要な研究を行います。Meta-Transformerは、LAION-2Bデータセットの画像のみを使用して事前学習を行い、さまざまな多モーダル学習タスクで最先端の技術を常に上回る優れた処理能力を発揮します。 まとめると、彼らの貢献は以下の通りです: • 彼らはMeta-Transformerと呼ばれるユニークなフレームワークを提供し、単一のエンコーダを使用して同じパラメータセットを使用して複数のモダリティから表現を同時に抽出することが可能になります。 • 彼らはTransformerの構成要素である埋め込み、トークナイゼーション、およびエンコーダが多モーダルネットワークアーキテクチャの処理に果たす役割について徹底的に調査しました。 • 実験的に、Meta-Transformerは12のモダリティに関するさまざまなデータセットで優れたパフォーマンスを達成し、統一された多モーダル学習のさらなる可能性を検証します。 • Meta-Transformerは、すべてのモダリティを統合するモダリティ非依存のフレームワークの開発における有望な新しい方向性を示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us