Learn more about Search Results これ - Page 10
- You may be interested
- データのセキュリティとコラボレーション...
- ChatGPTを使ってどのように簡単に何でも学...
- 効率と最適性の習得:ダイクストラのアル...
- DeepMindの最新のICLR 2022での研究
- 「あなたの聴衆を知る:テクニカルプレゼ...
- 「人工知能の暗黒面」
- MatplotlibのチャートをHTMLページに埋め...
- StableSRをご紹介します:事前トレーニン...
- GenAIにとっての重要なデータファブリック...
- AIキャリアのトレンド:人工知能の世界で...
- 現代のデータサイエンティストのための正...
- 「2023年10月のAIメールジェネレーターの...
- BLOOMトレーニングの技術背後
- 「時系列予測と再帰型ニューラルネットワ...
- 2023年は大規模言語モデルの年でした...
UC BerkeleyとDeepmindの研究者は、SuccessVQAという成功検出の再構成を提案しましたこれは、Flamingoなどの事前学習済みVLMに適したものです
最高のパフォーマンス精度を達成するためには、トレーニング中にエージェントが正しいまたは望ましいトラック上にあるかどうかを理解することが重要です。これは、強化学習においてエージェントに報酬を与えることや、評価指標を使用して最適なポリシーを特定することで実現できます。そのため、このような成功した振る舞いを検出できる能力は、高度なインテリジェントエージェントを訓練する際に基本的な前提条件となります。これが成功検出器が登場する場所であり、エージェントの振る舞いが成功したかどうかを分類するために使用できます。先行研究によれば、ドメイン固有の成功検出器を開発する方が、より一般的なものよりも比較的容易であることが示されています。これは、ほとんどの現実世界のタスクにおいて何が成功と見なされるかを定義することが非常に難しいためであり、しばしば主観的なものです。たとえば、AIによって生成された美術作品は、一部の人を魅了するかもしれませんが、全体の観客に同じことが言えるわけではありません。 過去数年間、研究者たちはさまざまなアプローチを提案してきましたが、成功検出器を開発するためのものの1つは、好みのデータを使用した報酬モデリングです。しかし、これらのモデルには特定のタスクと環境条件にしか適用できないという欠点があります。したがって、一般化を確保するためには、幅広いドメインをカバーするためにより多くの注釈が必要であり、非常に労力を要する作業です。一方、ビジョンと言語の両方を入力とするモデルを訓練する場合、一般化可能な成功検出は、言語のバリエーションと視覚的なバリエーションの両方で正確な測定を提供する必要があります。既存のモデルは通常、固定条件とタスクに対して訓練されているため、このようなバリエーションに一般化することはできません。また、新しい条件に適応するには、新しい注釈付きデータセットを収集してモデルを再訓練する必要があり、常に実現可能ではありません。 この問題に取り組んでいるDeepMindの子会社であるAlphabetの研究者チームは、言語の仕様と知覚条件の両方の変動に耐えうる堅牢な成功検出器を訓練する手法を開発しました。彼らは、Flamingoなどの大規模な事前学習済みのビジョン言語モデルと人間の報酬注釈を活用することで、これを達成しました。この研究は、Flamingoを多様な言語と視覚データに対して大量に事前学習することが、より堅牢な成功検出器のトレーニングにつながるという研究者の観察に基づいています。研究者らは、彼らの最も重要な貢献は、一般化可能な成功検出のタスクを視覚的な質問応答(VQA)の問題として再定義したことであり、これをSuccessVQAと呼んでいます。このアプローチでは、対象のタスクを単純な「はい/いいえ」の質問として指定し、状態環境を定義する短いクリップと、望ましい振る舞いを説明するテキストだけで構成される統一されたアーキテクチャを使用します。 DeepMindチームはまた、Flamingoを人間の注釈で微調整することで、家庭内シミュレーション、現実世界のロボット操作、野外の視点主体の人間のビデオなど、3つの主要なドメインで一般化可能な成功検出を実証しました。SuccessVQAタスクの普遍的な性質により、研究者は同じアーキテクチャとトレーニングメカニズムを異なるドメインの幅広いタスクに使用することができます。さらに、Flamingoのような事前学習済みのビジョン言語モデルを使用することで、大規模なマルチモーダルデータセットでの事前学習の利点を十分に活用することができました。チームは、これにより言語と視覚のバリエーションの両方において一般化が可能になったと考えています。 成功検出の再定義を評価するために、研究者たちは見知らぬ言語と視覚のバリエーションにわたるいくつかの実験を行いました。これらの実験の結果、事前学習済みのビジョン言語モデルは、ほとんどの分布内タスクで同等の性能を発揮し、分布外のシナリオではタスク固有の報酬モデルよりも優れたパフォーマンスを示すことが明らかになりました。調査結果では、これらの成功検出器は、既存の報酬モデルが失敗する言語とビジョンのバリエーションへのゼロショットの一般化が可能であることが示されました。DeepMindの研究者が提案した新しいアプローチは、非常に優れたパフォーマンスを持っていますが、ロボティクス環境に関連するタスクなど、いくつかの欠点もあります。研究者らは、今後の研究ではこの領域でさらなる改善を行う予定であると述べています。DeepMindは、研究コミュニティが彼らの初期の研究を成功検出と報酬モデリングに関してさらなる成果を達成するための礎として評価してくれることを期待しています。
Salesforce AIとコロンビア大学の研究者が、DialogStudioを導入しましたこれは、80の対話データセットの統一された多様なコレクションであり、元の情報を保持しています
会話AIは近年、著しい進化を遂げ、機械とユーザーの間で人間のような対話を可能にしています。この進歩を推進している重要な要素の一つは、大規模で多様なデータセットの利用可能性であり、これらは洗練された言語モデルの訓練の基盤となっています。Salesforce AIとコロンビア大学の研究者は、DialogStudioという画期的なイニシアチブを紹介し、個別のデータセットと大規模言語モデル(LLM)のトレーニングに関する研究のための包括的な統一された対話データセットのコレクションを提供しています。 統一された対話データセットの必要性 効率的で多様な会話AIシステムの開発には、さまざまなドメインと対話タイプをカバーする多様なデータセットへのアクセスが求められます。従来、異なる研究グループが特定の会話シナリオに対応するために設計されたデータセットを提供していました。しかし、この分散したアプローチは、データセット間の比較と統合を困難にし、標準化と相互運用性の必要性を生じさせました。 DialogStudioは、ナレッジグラウンデッドダイアログ、自然言語理解、オープンドメインダイアログ、タスク指向ダイアログ、ダイアログ要約、会話推薦ダイアログなど、多様なカテゴリを代表する33の異なるデータセットを集約することで、この空白を埋めます。統一プロセスでは、各データセットからの元の情報を保持しながら、シームレスな統合とクロスドメインの研究を容易にします。 ダイアログ品質評価 データセットの品質とさまざまなアプリケーションへの適合性を確保するために、DialogStudioは包括的な対話品質評価フレームワークを採用しています。理解、関連性、正確性、一貫性、完全性、総合品質の6つの重要な基準に基づいて対話を評価することで、研究者や開発者はモデルのパフォーマンスを効果的に評価することができます。スコアは1から5のスケールで割り当てられ、より高いスコアは優れた対話を示します。 HuggingFaceを介したシームレスなアクセス DialogStudioは、自然言語処理リソースのための広く使用されているプラットフォームであるHuggingFaceを介して、その巨大なデータセットの便利なアクセスを提供します。研究者は、DialogStudio内のデータセットフォルダ名に対応するデータセット名を指定することで、素早く任意のデータセットをロードすることができます。この効率化されたプロセスにより、会話AIモデルの開発と評価が加速され、貴重な時間と労力が節約されます。 モデルのバージョンと制限事項 DialogStudioでは、選択したデータセットでトレーニングされたモデルのバージョン1.0を提供しています。これらのモデルは、小規模な事前訓練モデルに基づいており、Alpaca、ShareGPT、GPT4ALL、UltraChatなどのモデルのトレーニングに使用される大規模なデータセットやOASST1やWizardCoderなどのその他のデータセットは組み込まれていません。創造力にいくつかの制約はありますが、これらのモデルは洗練さを開発するための堅固な出発点を提供します。 DialogStudioは、統一された広範で包括的な対話データセットのコレクションを提供することで、会話AIの開発における重要なマイルストーンです。さまざまなデータセットを一つの場所にまとめることで、DialogStudioは研究者や開発者により洗練された人間のような機械とユーザーの対話を探求する機会を与え、会話AIの将来を築く道を開いています。持続的な改善とコミュニティの参加を重視するDialogStudioは、今後数年間にわたり会話AIの未来を形作ることになるでしょう。
RLHF(Reinforcement Learning from Human Feedback)において本当に強化学習(RL)は必要ですか?スタンフォード大学の新しい研究では、DPO(Direct Preference Optimization)を提案していますこれは、RLを使用せずに言語モデルを好みに基づいて訓練するためのシンプルなトレーニング方法です
巨大な教師なしLM(言語モデル)は、大量のデータセットで訓練されると、その創造者さえ驚かせるほどの能力を獲得します。ただし、これらのモデルは、多様な動機、目標、能力を持つ人々によって作成された情報で訓練されます。これらの目標や能力をすべて模倣することはできないかもしれません。信頼性の高い、効果的で管理しやすいシステムを作成するためには、モデルの望ましい応答と振る舞いを、膨大な情報とスキルの中から慎重に選択することが重要です。 スタンフォード大学とCZ研究者は、明示的な報酬モデリングや強化学習を使用せずに、言語モデルを人間の好みに合わせる方法を示しています。彼らの研究は、現在のアプローチで使用されている強化学習ベースの目標を、単純なバイナリクロスエントロピー目標で最適化する方法を示しており、好み学習プロセスを大幅に簡略化し、これを実際に行う方法を示しています。 彼らは、Direct Preference Optimization(DPO)を提案しています。この新しいアルゴリズムは、既存の強化学習ベースのアルゴリズム(報酬の最大化とKLダイバージェンス制約)と同じ目標を暗黙的に達成しますが、構築とトレーニングが容易です。DPOのアップデートは、好ましい回答と好ましくない回答の対数比を直感的に向上させる一方で、モデルの悪化を防ぐために動的な例ごとの重みも含まれています。 DPOは、他のアルゴリズムと同様に、理論的な優先モデルを使用して報酬関数の一貫性を実証的な優先データと評価します。従来のアプローチでは、優先モデルを使用して報酬モデルを訓練するために優先損失を定義しますが、DPOは代わりに変数スイッチを使用して学習された報酬モデルを最大化するポリシーを訓練します。したがって、DPOは、トレーニング中に報酬関数を明示的に学習することなく、モデルの応答に対する人間の嗜好のデータセットを使用して、単純なバイナリクロスエントロピーの目標を持つポリシーを最適化することができます。 この研究の結果は、DPOが感情調節、要約、対話などのさまざまなタスクで、6Bパラメータを含む言語モデルに対して、PPOベースのRLHF(好みに基づく学習)などの最新のアプローチと同等に効果的であることを示しています。人間の評価では、58%の人がDPOの要約をPPOの要約よりも好みます。テストセットでは、61%の人がDPOの要約を人間の評価よりも好みます。Anthropic HHでは、DPOの単一ターンの応答が選択的な補完よりも好まれる場合が60%あります。 チームは、DPOが人間の好みに基づいて言語モデルを訓練するだけでなく、さまざまなモダリティで生成モデルを訓練するためにも多くの潜在的な用途があると述べています。 提案されたモデルの評価は、6Bパラメータまで高まりますが、チームは、オーダーオブマグニチュードのデータを持つ最新のモデルにDPOをスケーリングするためのさらなる研究が必要だと考えています。研究者たちはまた、プロンプトがGPT-4の計算された勝率に影響を与えることを発見しました。将来的には、機械から専門家の意見を引き出すための最も効果的な手段を調査する予定です。
GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です
生成型人工知能の分野は、当然の注目を浴びています。テキストから画像へのパーソナライゼーションの最近の進展は、革新的な利用可能性を開拓しています。個別性の概念は、高いアイデンティティの一貫性を保ちながら、様々な文脈とスタイルで独特の人物を生成することを指し、生成型AIにおいて重要なトピックとなっています。顔のパーソナライゼーションは、様々なスタイルで特定の顔や人物の新しい写真を生成する能力を指し、様々なスタイルに強い事前学習済みの拡散モデルを利用することで実現されています。 DreamBoothなどの現在の手法は、新しい主題をモデルに組み込む能力があり、過去の知識を損なうことなく、主題の本質と詳細を広範な方法で維持することに成功しています。しかし、モデルのサイズや学習速度など、多くの制限があります。Stable DiffusionのためのUNetとText Encoderの全ての重みを微調整するDreamBoothは、安定した拡散において1GB以上のサイズになるため、非常に大きいです。また、Stable Diffusionのトレーニング手順には約5分かかるため、広範な採用や実際の応用を妨げる可能性があります。 これらの課題を克服するために、Google Researchの研究チームはHyperDreamBoothを提案しました。HyperDreamBoothは、単一の人物の画像から効率的に個人化された重みの小さなセットを生成するハイパーネットワークです。単一の人物の画像だけで、HyperDreamBoothのハイパーネットワークは効果的に個人化された重みの小さなコレクションを作成します。これらのユニークな重みを持つ拡散モデルと組み合わせ、クイックな微調整を行います。その結果、細かいトピックの詳細と拡散モデルのさまざまな美学と意味の変更に対する基本的な理解を維持しながら、人物の顔をさまざまな状況と美学で生成する強力なシステムが実現します。 HyperDreamBoothの驚異的な速度は、その最大の成果の一つです。DreamBoothよりも25倍速く、Textual Inversionという関連技術と比較しても驚異的な125倍速く、わずか20秒で顔をパーソナライズすることができます。さらに、DreamBoothと同じ品質と美学の変動を保ちながら、このクイックなカスタマイズ手順には参照画像が1つだけ必要です。HyperDreamBoothは、速度に加えて、モデルのサイズでも優れています。結果として得られる個別化モデルは、通常のDreamBoothモデルよりも10,000倍小さくなります。これは、モデルをより管理しやすくし、ストレージの要件を大幅に削減するという重要な利点です。 研究チームは、以下の貢献をまとめています: 軽量DreamBooth(LiDB):約100KBのカスタムパートを持つパーソナライズされたテキストから画像へのモデルが導入されました。これは、ランダムな直交不完全基底による低次元の重み空間でDreamBoothモデルをトレーニングすることによって実現されています。 新しいハイパーネットワークアーキテクチャ:LiDBの構成を使用して、ハイパーネットワークはテキストから画像への拡散モデルに特定の主題のためのカスタマイズされた重みを生成します。これにより、強力な方向性の初期化が可能となり、高い主題の忠実度をいくつかの反復で素早く微調整することができます。この手法は、DreamBoothと比較して25倍速いパフォーマンスを提供します。 ランクリラックス微調整:LoRA DreamBoothモデルのランクをリラックスさせることで、主題の忠実度を向上させるためのランクリラックス微調整技術が提案されました。これにより、ハイパーネットワークからの初期近似値で個人化モデルを初期化し、ランクリラックス微調整を使用して高レベルの主題の詳細を洗練させることができます。
KAISTとGoogleの研究者は、コラボレーションスコア蒸留(CSD)を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です
テキストから画像への拡散モデルは、数十億の画像テキストペアと効果的なトポロジーを用いて構築されており、入力として与えられたテキストを使用して高品質でリアルかつ多様な画像の合成能力を驚異的に示しています。また、画像から画像への変換、制御された生成、カスタマイズなど、さまざまなアプリケーションにも展開されています。この分野での最新の使用例の1つは、モダリティ固有のトレーニングデータを利用して、拡散モデルを変更せずに2D画像を超えた他の複雑なモダリティに広げる能力です。本研究は、事前に学習されたテキストから画像への拡散モデルの知識を使用して、モダリティ固有のトレーニングデータを利用した2D画像を超えた高次元の視覚生成タスクに対してますます挑戦し、高次元の視覚生成タスクに対応するための課題に取り組むことを目指しています。 彼らは、多くの複雑な視覚データが、特定のモダリティに固有の一貫性に制約された画像の集合として表現できる可能性があるという予感から始めます。たとえば、3Dシーンは、ビューの一貫性を持つ複数のビューフレームの集合であり、映画は時間的な一貫性を持つフレームの集合です。残念ながら、彼らの生成サンプリング手法は、画像の拡散モデルを利用する際に一貫性を考慮していないため、画像の合成や編集のための画像のグループ全体にわたる一貫性を保証する能力を持っていません。その結果、一貫性を考慮せずにこれらの複雑なデータに画像の拡散モデルを適用すると、図1(パッチごとのクロップ)で見られるように、写真が継ぎ合わされた箇所が明確にわかるような、より一貫性のある結果となる可能性があります。 図1: パノラマ画像の修正:上部右側の切り抜かれたパッチでは、Instruct-Pix2Pixは不安定な画像編集を行います。(3行目)高いガイドスケールyでも、MultiDiffusionを使用したInstruct-Pix2Pixは一貫した画像を編集しますが、指示に対する忠実度は低下します。第3行適切なガイドスケールを選択することで、CSD-Editは指示に対する忠実度が高い一貫した画像編集を提供します。 このような振る舞いは、ビデオ編集でも見られます。したがって、後続の研究では、画像の拡散モデルを採用してビデオ固有の時間的一貫性に対応することが提案されています。ここで、彼らはスコア蒸留サンプリング(SDS)と呼ばれる新しい戦略に注目しています。SDSは、テキストから画像への拡散モデルの豊富な生成事前知識を利用して、異なる可能な演算子を最適化する問題として生成サンプリングの課題を設定します。他の研究者は、SDSがNeural Radiance Fields事前知識を使用してテキストから3Dオブジェクトを生成する際にその有効性を示していますが、これは3D空間で一貫したジオメトリを仮定する密度モデリングを介しています。しかし、他のモダリティの一貫した視覚合成についてはまだ調査されていません。 本研究では、KAISTとGoogle Researchの研究者が、信頼性の高い視覚合成のためのテキストから画像への拡散モデルの潜在能力を拡張する直感的かつ効率的な手法であるCollaborative Score Distillation(CSD)を提案しています。彼らのアプローチの鍵は、まず、Stein変動勾配降下法(SVGD)を使用して、複数のサンプルが拡散モデルから得られた情報を共有することで、サンプル間の一貫性を達成することでSDSを一般化することです。第二に、CSD-Editという、最近開発された指示による画像拡散モデルであるInstruct-Pix2Pixを組み合わせた一貫した視覚編集のための強力な手法を提供します。 彼らは、パノラマ画像の編集、ビデオ編集、および3Dシーンの再構築など、さまざまなアプリケーションを使用して、彼らの手法の適応性を示しています。彼らは、CSD-alterが複数の画像パッチを最大化することで空間的一貫性を持つパノラマ画像を変更することができることを示しました。さらに、彼らの手法は、以前の手法と比較して指示の正確さとソース-ターゲット画像の一貫性のバランスを優れたものにしています。ビデオ編集の実験では、CSD-Editは複数のフレームを最適化することで時間的な一貫性を実現し、時間フレームに一貫したビデオ編集を行います。また、CSD-Editを使用して3Dシーンを生成および編集し、さまざまな視点での一貫性を促進します。
「デジタルベーカリー」は、どんな形でもスイーツやチョコレートを3Dプリントします
デジタルベーカリーのSugar Labは、世界で唯一のNSF認定された3Dプリンターを使用して、任意の形状でカスタムオーダーのお菓子やチョコレートを製造しています
「Pythonリスト:データの順序付きコレクションを扱うための決定版ガイド」
プログラミングをする際には、常にデータ構造を扱わなければなりませんそこで、Pythonのリストについて詳しく解説した包括的なガイドを作成しましょう
「データクリーニングでPandasを使用する前にこれを読むべき理由」
「Pandasと共にデータ変換の旅に出ようデータクリーニング、処理、探索の効率的な技術を学び、データサイエンスのパイプラインで活用しましょう」
「AI開発でこれらのミスを com しないでください」
「品質の高いAIデプロイメントを開発するには、準備が全体の90%を占めます以下に、最高のAIモデルを開発するために注意すべき10のAI開発の間違いを紹介します」
UCバークレーの研究者たちは、FastRLAPを提案していますこれは、深層強化学習(Deep RL)と自律練習を通じて高速運転を学ぶためのシステムです
カリフォルニア大学バークレー校の研究者たちは、FastrLapというシステムを開発しました。このシステムは機械学習を使用して自動運転車に高速で攻撃的に運転する方法を教えることができます。FastrLapは、自動運転車がレーストラックを素早く効率的にナビゲートし、より速いラップタイムを達成するためのリスクを取ることをサポートするために設計されています。FastrLapは、通常人間のドライバーに教えられない運転戦略を学ぶことができ、自動運転車と人間のドライバーのパフォーマンスを向上させることができます。 FastrLapは、シミュレーション環境を使用してニューラルネットワークを訓練します。これにより、さまざまなシナリオと運転戦略を素早く反復することができます。システムは車のセンサーからデータを取得し、トラックをどのようにナビゲートするかを決定します。研究者たちはカリフォルニアのレーストラックでテストを行い、プロの人間ドライバーよりも速いラップタイムを達成しました。FastrLapは高速でトラックをナビゲートし、急なカーブを曲がり、他の車両との衝突を回避しました。 FastrLapの大きな利点の1つは、自動運転車に攻撃的な運転を教えることができることです。これは通常、人間のドライバーには教えられません。システムはリスクを取り、可能な限りの限界を追求することで、より速いラップタイムを達成することができます。FastrLapはまた、計算されたリスクを取り、可能な限界を追求するように人間のドライバーを訓練するためにも使用することができます。これにより、彼らのレーストラックでのパフォーマンスや日常の運転シーンを向上させるのに役立ちます。 研究者たちは、攻撃的な運転戦略に関連する潜在的な安全上の懸念を認識していますが、自動運転車に攻撃的な運転を教える利点はリスクを上回ると信じています。システムはシミュレーションを通じて自らのミスから学び、運転戦略を継続的に改善し洗練させることができます。 FastrLapの潜在的な応用範囲は非常に広いです。一つの可能な利用例は自律型レーシングです。このシステムの能力を活用することで、自動運転車の競技用レースのためのトレーニングが可能になります。Roboraceなどのイベントが注目を集める中、自律型レーシングは急速に成長しています。 まとめると、FastrLapは自動運転に対する考え方を変える可能性のある革新的なシステムです。自動運転車に攻撃的な運転と計算されたリスクを教えることで、システムは新たなパフォーマンスと効率のレベルを開放することができます。攻撃的な運転戦略に関連する潜在的な安全上の懸念はありますが、特に自律型レーシングにおいては利益がリスクを上回ります。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.