Search Results 限定的

「AIアシスタントと共に気候変動に備える」

この記事では、優れたProbable Futures APIと新しいOpenAI Assistants APIからの気候変動データを使用して、対話型AIエージェントを作成する方法について探求しますこのAIエージェントは、回答する能力を持っています...

Zephyr-7B：HuggingFaceのハイパーオプティマイズされたLLM、Mistral 7Bの上に構築

「Zephyr-7B」という画期的な大型言語モデルを詳しく見てみましょう「知識の蒸留」を活用して、AIの効率性とアクセシビリティの新基準を確立し、会話AIの未来を形作っている方法を発見しましょう

このフィンランド拠点のAIスタートアップがポロを発表：革命的なオープンソース言語モデルは、ヨーロッパの多言語AI能力を向上させます

ヨーロッパの言語に対して、英語よりもデータが少ない場合に大規模な言語モデルを作成することは、人工知能の世界では困難です。テックワールドの企業たちはこの問題に取り組んでおり、最近、フィンランドのヘルシンキに拠点を置くスタートアップ企業がこの問題に対する新しい解決策を提案しました。この前までは、いくつかの言語モデルが利用可能でしたが、それらは通常特定の言語に固有で、データが少ない言語に対しては性能が向上できる可能性がありました。問題は、これらのモデルがヨーロッパの各言語の固有の特性、文化、価値基盤を捉える必要があったということです。既存の解決策は限定的であり、より包括的なものが必要でした。今では、フィンランドのAIスタートアップがPoroというオープンソースのソリューションを開発しました。これは、欧州連合の公用語である24の言語をカバーすることを目指した大規模な言語モデルです。そのアイデアは、ヨーロッパの言語の多様性を理解し表現するモデルの系列を作ることです。このスタートアップは、これがデジタル主権にとって重要であり、これらのモデルによって生み出される価値がヨーロッパにとどまるようにする必要があると考えています。 Poroは、フィンランド語などのデータが少ない言語のための言語モデルのトレーニングの課題に取り組むために設計されています。クロスリンガルトレーニングの手法を使っており、よりデータが豊富な言語（例: 英語）のデータから学び、データが少ない言語におけるパフォーマンスを向上させるのです。 Poro 34Bモデルは、342億のパラメータを持ち、ALiBiエンベッディングと呼ばれるユニークなアーキテクチャであるBLOOM変換子を使用しています。これは、PythonやJavaなどの言語やプログラミング言語をカバーする大規模なマルチリンガルデータセットでトレーニングされます。そのトレーニングは、ヨーロッパで最速のスーパーコンピュータの1つで行われ、膨大な計算能力を提供します。スタートアップは、モデルのトレーニングプロセス中にチェックポイントをリリースし、進捗状況を示しています。Poroは30％の進捗でも最先端の結果を示しており、テストではフィンランド語において既存のモデルを上回り、英語のパフォーマンスに追いつくかそれを超える見込みです。まとめると、Poroはヨーロッパの言語にとって、AIにおける一歩前進を意味します。パワフルな言語モデルを作成するだけでなく、オープンで透明性のある方法でこれを行い、ヨーロッパの言語と文化の多様性を尊重することが重要です。成功すれば、Poroは主要なテック企業からの言語モデルに代わる国産の選択肢となり得る可能性があります。記事「This Finland-Based AI Startup Unveils Poro: A Revolutionary Open Source Language Model Boosting European Multilingual…

アリババの研究者らがQwen-Audioシリーズを発表ユニバーサルな音声理解能力を備えた大規模な音声言語モデルのセット

アリババグループの研究チームは、さまざまなタスクに対する事前学習済みオーディオモデルの限定的な課題に対処するQwen-Audioを紹介しました。階層型のタグベースのマルチタスクフレームワークは、共同トレーニングからの干渉問題を避けるために設計されています。Qwen-Audioは、タスク固有の調整なしでベンチマークのタスク全体で素晴らしいパフォーマンスを発揮します。Qwen-Audio-Chatは、Qwen-Audioをベースに作成され、マルチターンの対話とさまざまなオーディオ中心シナリオをサポートし、その普遍的なオーディオ理解能力を示しています。 Qwen-Audioは、従来のオーディオ言語モデルの制限を乗り越え、さまざまなオーディオタイプとタスクに対応します。以前の音声に関する作品とは異なり、Qwen-Audioは人間の話し声、自然音、音楽、歌を組み入れることで、異なる粒度のデータセットでの共同トレーニングを可能にします。このモデルは、タスク固有の変更なしで音声認識タスクなどで優れた成績を収めます。Qwen-Audio-Chatは、これらの機能を拡張し、人間の意図との整合性を図り、オーディオとテキストの入力からのマルチリンガルなマルチターンの対話をサポートし、堅牢かつ包括的なオーディオ理解を示します。 LLM（Language Language Models）は一般的な人工知能に優れていますが、オーディオの理解力に欠けます。Qwen-Audioは、30のタスクとさまざまなオーディオタイプをカバーするように事前学習のスケーリングを行い、干渉を軽減するマルチタスクフレームワークを利用します。Qwen-Audioは、タスク固有の調整なしでベンチマーク全体で印象的なパフォーマンスを発揮します。Qwen-Audio-Chatは、マルチターンの対話とさまざまなオーディオ中心のシナリオをサポートし、LLMの包括的なオーディオインタラクション能力を示しています。 Qwen-AudioとQwen-Audio-Chatは、普遍的なオーディオ理解と柔軟なヒューマンインタラクションのためのモデルです。Qwen-Audioは、オーディオエンコーダを最適化するマルチタスクの事前学習アプローチを採用し、同時に言語モデルの重みを固定します。一方、Qwen-Audio-Chatは、音声エンコーダの重みを固定しながら、言語モデルを最適化する教師ありの微調整を使用します。トレーニングプロセスには、マルチタスクの事前学習と教師付きの微調整が含まれます。Qwen-Audio-Chatは、多言語、マルチターンの対話をオーディオとテキストの入力からサポートする多目的なヒューマンインタラクションを実現し、その適応性と包括的なオーディオ理解を示しています。 Qwen-Audioは、ベンチマークのさまざまなタスクで驚異的なパフォーマンスを発揮し、タスク固有の調整なしでは先行研究を大幅に上回ります。AAC、SWRT ASC、SER、AQA、VSC、およびMNAのようなジョブでは、ベースラインを大幅に上回る結果を一貫して出します。このモデルは、CochlScene、ClothoAQA、VocalSoundで最新の成果を達成し、堅牢なオーディオ理解能力を示しています。さまざまな分析におけるQwen-Audioの優れたパフォーマンスは、チャレンジングなオーディオタスクの最新の成果を達成する能力と有能性を強調しています。 Qwen-Audioシリーズは、さまざまなオーディオタイプとタスクにわたる普遍的な理解を備えた大規模なオーディオ言語モデルを紹介します。これらのモデルは、マルチタスクトレーニングフレームワークを通じて開発され、異なるデータセットのさまざまなテキストラベルからの干渉を乗り越え、知識の共有を促進します。タスク固有の調整なしでベンチマーク全体で印象的なパフォーマンスを実現するQwen-Audioは、先行研究を上回ります。Qwen-Audio-Chatは、これらの機能を拡張し、マルチターンの対話を可能にし、さまざまなオーディオシナリオをサポートし、人間の意図との堅牢な整合性を示し、多言語の相互作用を促進します。 Qwen-Audioの将来の探索には、さまざまなオーディオタイプ、言語、および特定のタスクの能力を拡大することが含まれます。マルチタスクフレームワークの改良や、共同トレーニングにおける干渉問題に対処するための代替の知識共有アプローチの検討が可能です。タスク固有の微調整の調査はパフォーマンスを向上させることができます。新しいベンチマーク、データセット、およびユーザーフィードバックに基づいた継続的な更新は、普遍的なオーディオ理解を向上させることを目指しています。Qwen-Audio-Chatは、人間の意図との整合性を高め、多言語の相互作用をサポートし、動的なマルチターンの対話を可能にするために改良されます。

「OpenAgents：野生の言語エージェントのためのオープンプラットフォーム」

最近の動向は、言語エージェント、特に大規模な言語モデル（LLM）上に構築されたものは、自然言語を使用してさまざまな複雑なタスクを実行する可能性があることを示していますしかし、現在の多くの言語エージェントフレームワークの主な焦点は、概念実証の言語エージェントの構築を容易にすることにありますこの焦点はしばしば... [続きは省略されました]

メタラマは本当にオープンソースなのか？ (Meta Rama wa hontō ni ōpun sōsu na no ka?)

「メタLLaMAのオープンソースLLMとしての真正性を探求し、基準と大きな意義を解析する」

分析における人工知能

私たちは、人工知能（AI）が私たちが物事を行う方法を変えるという魅力的な時代に生きていますその中にはデータパイプラインデザインや分析も含まれます今日は、AIがどのように活用されているかについてお話ししたいと思います

このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標となってきました。最近では、新しいマルチモーダルな理解とオープンワールドの課題における生成スキルを持つ基礎モデルの創造に関心が高まっています。自然言語タスクのための汎用アシスタントを生成する大規模言語モデル（LLMs）の有効性にもかかわらず、コンピュータビジョンとビジョン言語の活動に対するマルチモーダルで汎用性の高いアシスタントの作成方法はまだ見つかっていません。マルチモーダルなエージェントを作成する現在の取り組みは、一般に2つのグループに分けることができます： (i) LLMを使用したエンドツーエンドのトレーニング。これにより、ビジュアル情報を解釈するためのLLMのトレーニングが連続的に行われ、画像テキストデータとマルチモーダルな命令実行データを使用して大規模なマルチモーダルモデル（LMMs）が作成されます。LLaVAやMiniGPT-4などのオープンソースのモデル、およびFlamingoやマルチモーダルGPT-4などの非公開のモデルは、印象的なビジュアル理解と推論スキルを示しています。これらのエンドツーエンドのトレーニングのアプローチは、LMMが状況に応じた学習などの新たなスキルを獲得するのには適していますが、実際の世界のマルチモーダルアプリケーションに不可欠な画像セグメンテーションや生成などの幅広い能力をシームレスに統合できる一貫したアーキテクチャを作成することはまだ難しい課題です。 (ii) LLMを使用したツールチェイン。これにより、LLMがトレーニングされたビジョンモデルなどのさまざまなツールを呼び出して必要な（サブ）タスクを実行することができるように、適切に設計されたプロンプトを使用します。VisProg、ViperGPT、Visual ChatGPT、X-GPT、MM-REACTなどがよく知られています。これらのアプローチの強みは、（新しい）ツールを安価に開発しAIエージェントに統合することで、さまざまなビジュアルタスクを処理できる能力です。ただし、プロンプトの柔軟性と信頼性を向上させる必要があります。広範で多様なツールセットから適切なツールを信頼性高く選択し、アクティブ化して最終的なマルチモーダルタスクの解決策を提供できるようにするためです。図1：LLaVA-Plusが習得したスキルを活用した可能性を示すグラフィカルな表現。清華大学、マイクロソフトリサーチ、ウィスコンシン大学マディソン校、香港科技大学、およびIDEA Researchの研究者は、この論文で、LLaVA-Plus（大規模な言語とビジョンアシスタント）を紹介しています。このマルチモーダルアシスタントは、視覚的な指示の微調整を通じてLMMの能力を体系的に強化するエンドツーエンドのトレーニング手法を用いてツールの使用スキルを獲得します。これまでに説明されたツールチェインとエンドツーエンドのトレーニングの利点を組み合わせる試みとして、これが初めて文書化された試みであると述べています。LLaVA-Plusに付属するスキルリポジトリには、多様なビジョンとビジョン言語のツールが豊富に用意されています。この設計は、「心の社会」という理論の例であり、個々のツールは特定のタスクのために作成され、それ単体では限定的な利用が可能ですが、これらのツールが組み合わさると、より高い知性を示す新たなスキルが生まれます。例えば、LLaVA-Plusはユーザーのマルチモーダルな入力に応じて、新しいワークフローを即座に作成し、スキルライブラリから適切なツールを選択してアクティブ化し、その実行結果を組み立てて、モデルトレーニング中には見えない様々な実世界のタスクを完了することができます。指示の微調整により、LLaVA-Plusは時間の経過とともに追加の機能やインストゥルメントを獲得することが可能です。特定のユースケースや機能のために作成された新しいマルチモーダルツールを考えてみてください。調整のための指示実行データを作成するために、このツールを必要とする関連するユーザー指示とその実行結果または後続結果を収集します。指示の微調整後、LLaVA-Plusはこの新しいツールを使用して以前には不可能だったジョブを達成する方法を学習し、より多くの機能を獲得します。 “` さらに、LLaVA-Plusは、マルチモーダルツールと組み合わせて視覚的な手がかりのみを使用することによって、これまでのLLMのツール使用トレーニングに関する研究とは異なるアプローチを取っています。一方、LLaVA-Plusは、すべての人間-AI接触セッションで未処理の視覚信号を使用することにより、LMMの計画と推論の能力を向上させます。要約すると、彼らの論文の貢献は以下の通りです： • 新しいマルチモーダルの指示従属ツールに関するデータの使用。ChatGPTとGPT-4をラベリングツールとして使用し、人間-AIインタラクションセッションでのツールとして使用するための視覚言語の指示従属データの選択のための新しいパイプラインを説明しています。 • 新しい大規模なマルチモーダルヘルパー。彼らはLLaVAを補完する広範で多様な外部ツールの統合を含む、多くの用途を持つLLaVA-Plusを作成しました。図1は、LLMの可能性を大幅に拡張するLLaVA-Plusの様子を示しています。彼らの実証調査は、特に幅広い実世界の活動におけるVisiT-Benchでの新しいSoTAのより良い結果を一貫して示すことにより、LLaVA-Plusの有効性を確認しています。 • ソースフリー。彼らが公開する資料には、生成されたマルチモーダルの指示データ、コードベース、LLaVA-Plusのチェックポイント、およびビジュアルチャットデモが含まれます。

『ストラバのトレーニングログを改善する』

マラソンランナーとして、私はStravaをよく利用しています通常のソーシャル機能（アクティビティの共有、友達の活動の確認、クラブの活動のチェックなど）に加えて、私は...

「プロンプトエンジニアリングの興亡：一時的な流行か未来か？」

この記事は、プロンプトエンジニアリングの概要について、その始まりから現在の状況までを提供しています

Artificial Intelligence

Learn more about Search Results 限定的 - Page 3