Learn more about Search Results エージェント - Page 67
- You may be interested
- クラウドソーシングされたフィードバック...
- 3日間でAIアプリを作成しました
- NVIDIAはAI市場で権力を乱用しているのか...
- 「プログラミング言語の構築方法:成功へ...
- 「教師なし学習の解明」
- あなたのVoAGIポスト-なぜPythonでリスト...
- このAI論文は、イギリスのインペリアルカ...
- トゥギャザーアイは、ShortおよびLongコン...
- オープンLLMリーダーボード:DROPディープ...
- 「DiffusionDet 物体検出のために拡散を使...
- マルチモーダル医療AI
- 「私のデータサイエンスキャリアの2年後に...
- 「Meta AIは、社会的な具現化されたAIエー...
- 「AIチップスタートアップのd-Matrixが投...
- 研究ライフサイクルの中心に倫理的な原則...
VoAGIニュース、6月28日:データサイエンスのチートシートのための10のChatGPTプラグイン • データ分析を自動化するChatGPTプラグイン
データサイエンスのチートシートのための10のChatGPTプラグイン • Noteableプラグイン:データ分析を自動化するChatGPTプラグイン • 無料でClaude AIにアクセスする方法は3つあります • ベクトルデータベースとは何か、なぜLLMにとって重要なのか • データサイエンティストのための探索的データ分析の必須ガイド
Meet ChatGLM2-6B:オープンソースのバイリンガル(中国語-英語)チャットモデルChatGLM-6Bの第2世代バージョンです
OpenAIの革命的なChatGPTの導入以来、自然言語対話エージェントの分野ではかなりの進歩が見られています。研究者たちは、チャットボットモデルの能力を向上させ、ユーザーとのより自然で魅力的な対話を作成できるようにするために、さまざまな技術と戦略を積極的に探求しています。その結果、ChatGPTの代替となるいくつかのオープンソースで軽量なモデルが市場に登場しています。その中の1つが、中国の清華大学の研究者によって開発されたChatGLMモデルシリーズです。このシリーズは、一般言語モデル(GLM)フレームワークをベースにしており、より一般的に見られるGenerative Pre-trained Transformer(GPT)グループのLLMとは異なります。このシリーズには、中国語と英語のバイリンガルモデルがいくつか含まれており、最もよく知られているのはChatGLM-6Bです。このモデルは62億のパラメータを持ち、1兆以上の英語と中国語のトークンで事前学習され、強化学習などの技術を用いて中国語の質問応答、要約、対話タスクにさらに微調整されています。 ChatGLM-6Bのもう1つの特徴は、その量子化技術により、ローカルで展開されることができ、非常に少ないリソースしか必要としないことです。モデルは、消費者向けのグラフィックスカードでもローカルに展開することができます。このモデルは特に中国で非常に人気があり、世界中で200万回以上ダウンロードされ、最も影響力のある大規模なオープンソースモデルの1つとなっています。その広範な採用の結果、清華大学の研究者はバイリンガルチャットモデルの第2世代バージョンであるChatGLM2-6Bをリリースしました。ChatGLM2-6Bは、第1世代モデルのすべての強みに加えて、パフォーマンスの向上、より長いコンテキストのサポート、より効率的な推論など、いくつかの新機能が追加されています。さらに、研究チームはモデルの重みの使用を学術目的に留まらず(以前に行われていたように)、商業利用にも利用できるように拡張しました。 研究者たちは、ChatGLM2-6Bのベースモデルを第1世代バージョンと比較して向上させることから始めました。ChatGLM2-6Bは、GLMのハイブリッド目的関数を使用し、1.4兆以上の英語と中国語のトークンで事前学習されました。研究者たちは、市場のほぼ同じサイズの他の競合モデルとのパフォーマンスを評価しました。その結果、ChatGLM2-6Bは、MMLU、CEval、BBHなどのさまざまなデータセットで顕著なパフォーマンスの向上を実現していることが明らかになりました。ChatGLM2-6Bが示したもう1つの印象的なアップグレードは、前バージョンの2Kから32Kまでのより長いコンテキストのサポートです。FlashAttentionアルゴリズムがこの点で重要な役割を果たし、より長いシーケンスに対してアテンションの高速化とメモリ使用量の削減を実現しました。さらに、モデルは対話のアライメント中に8Kのコンテキスト長でトレーニングされており、ユーザーにより多様な会話の深さを提供しています。ChatGLM2-6Bはまた、Multi-Query Attention技術を使用しており、KVキャッシュのGPUメモリ使用量が低下し、第1世代と比較して推論速度が約42%向上しています。 清華大学の研究者たちは、ChatGLM2-6Bをオープンソース化し、LLMの成長とイノベーションを促進し、そのモデルを基にしたさまざまな有用なアプリケーションの開発を世界中の開発者と研究者に呼びかけることを望んでいます。ただし、研究者たちは、モデルの規模が小さいため、その決定はしばしばランダムに影響を受ける可能性があること、その出力は正確性を慎重に確認する必要があることを強調しています。将来の作業に関しては、チームは一歩先を見越して、モデルの第3バージョンであるChatGLM3の開発を始めています。
Langchainを使用してYouTube動画用のChatGPTを構築する
はじめに ビデオとチャットで話すことができたらどのくらい便利だろうかと考えたことがありますか?私自身、ブログを書く人間として、関連する情報を見つけるために1時間ものビデオを見ることはしばしば退屈に感じます。ビデオから有用な情報を得るために、ビデオを見ることが仕事のように感じることもあります。そこで、YouTubeビデオやその他のビデオとチャットできるチャットボットを作成しました。これは、GPT-3.5-turbo、Langchain、ChromaDB、Whisper、およびGradioによって実現されました。この記事では、Langchainを使用してYouTubeビデオのための機能的なチャットボットを構築するコードの解説を行います。 学習目標 Gradioを使用してWebインターフェースを構築する Whisperを使用してYouTubeビデオを処理し、テキストデータを抽出する テキストデータを適切に処理およびフォーマットする テキストデータの埋め込みを作成する Chroma DBを構成してデータを保存する OpenAI chatGPT、ChromaDB、および埋め込み機能を使用してLangchainの会話チェーンを初期化する 最後に、Gradioチャットボットに対するクエリとストリーミング回答を行う コーディングの部分に入る前に、使用するツールや技術に慣れておきましょう。 この記事は、Data Science Blogathonの一部として公開されました。 Langchain Langchainは、Pythonで書かれたオープンソースのツールで、Large Language Modelsデータに対応したエージェントを作成できます。では、それはどういうことでしょうか?GPT-3.5やGPT-4など、商用で利用可能な大規模言語モデルのほとんどは、トレーニングされたデータに制限があります。たとえば、ChatGPTは、すでに見た質問にしか答えることができません。2021年9月以降のものは不明です。これがLangchainが解決する核心的な問題です。Wordドキュメントや個人用PDFなど、どのデータでもLLMに送信して人間らしい回答を得ることができます。ベクトルDB、チャットモデル、および埋め込み関数などのツールにはラッパーがあり、Langchainだけを使用してAIアプリケーションを簡単に構築できます。 Langchainを使用すると、エージェント(LLMボット)を構築することもできます。これらの自律エージェントは、データ分析、SQLクエリ、基本的なコードの記述など、複数のタスクに設定できます。これらのエージェントを使用することで、低レベルな知識作業をLLMに外注することができるため、時間とエネルギーを節約できます。 このプロジェクトでは、Langchainツールを使用して、ビデオ用のチャットアプリを構築します。Langchainに関する詳細については、公式サイトを訪問してください。 Whisper Whisperは、OpenAIの別の製品です。これは、オーディオまたはビデオをテキストに変換できる汎用音声認識モデルです。多言語翻訳、音声認識、および分類を実行するために、多様なオーディオをトレーニングしています。…
ChatArenaをご紹介します:複数の大規模言語モデル(LLMs)間のコミュニケーションとコラボレーションを容易にするために設計されたPythonライブラリです
ChatArenaは、様々な巨大言語モデルを支援するために作成されたPythonパッケージです。ChatArenaにはすでにマルチエージェント会話シミュレーション環境が含まれています。参加者は周囲によって支援され、役割によって決定された相互作用を持つことができます。 ChatArenaにはすでにマルチエージェント会話シミュレーション環境が含まれています。キャラクターは様々な役割を担うことができ、雰囲気は協力を促します。LLMを使用することで、ゲームが終了するタイミングや、状態間の進行方法を決定することができます。 ChatArenaが互換性のあるLLMバックエンドには、GPT-3.5-turbo、GPT-4、Huggingface Pipeline(モデルハブから1900以上のモデルを持つ)、Cohereなどがあります。これにより、競合するLLM間のオープンなコミュニケーションと協力が促進され、ゲームの強度と多様性が高まります。 ChatArenaの便利なWebUIとCLIインターフェースのおかげで、誰でも簡単にChatArenaで異なるシナリオを試すことができます。直感的なインターフェースにより、新しいゲームを作成し、素早くプレイヤーのリクエストを実装し、簡単に異なるゲーム作成アプローチを試すことができます。 自分自身の言語ゲームを作成したい場合は、このガイドを参照してください。https://tinyurl.com/2t5us7fv 協調的AIの可能性と課題に対する考慮と対応が必要となっています。マルチエージェント言語ゲームに関して、ChatArenaは安全性とアライメントを理解するためのツールと第一歩です。 キー コンセプト プレイヤー – ゲームをプレイするには、「プレイヤー」である他のプレイヤーと相互作用できるエージェントが必要です。名前、インフラストラクチャ、機能はすべて、特定の参加者を識別するために貢献します。人間と大規模言語モデルの両方が対象です(LLM)。 バックエンド – プレイヤーが他のプレイヤーと通信する方法を定義するために、Python開発者は「バックエンド」と呼ばれるクラスを作成します。バックエンドは、人間またはLLM、またはその両方のハイブリッドである場合があります。バックエンドの名前、タイプ、およびパラメータは、その定義的特徴です。 環境 – Pythonでは、ドメインはゲームルールを定義するクラスです。名前、タイプ、およびパラメータがすべて協力して環境を指定します。 モデレーター – Pythonクラスとして、モデレーターはゲームのルールを指定します。その定義的特徴は、モデレーターの名前、クラス、および設定です。 Arena – Pythonでは、アリーナはゲームを定義するクラスです。特定のアリーナのパラメータには、名前、タイプ、およびサイズが含まれます。…
アーティストやクリエイターにとって最高のAIツール(2023年)
Otter.AI Otter.aiは、効率的なミーティングや会話の録音と記述を行うためのAIパワードプラットフォームです。自動音声認識を使用して、リアルタイムで暗号化され、簡単にアクセス可能で共有可能なノートを任意の議論から書き留めます。Otterは、Zoom、Microsoft Teams、Google Meetなどの一般的なプラットフォームで即座にミーティングに出席して録音することができます。私たちは、簡単に共有でき、重要なトピックを強調し、責任を割り当てる要約を作成します。Otterは、ビジネス、教育、個人の文脈で使用されているiOS、Android、Chromeの時間節約アプリです。精度、適応性(異なるスピーカーからの転写が可能)、時間節約の自動スライドキャプチャ機能に高い評価を受けています。 Runway 人工知能(A.I.)がRunwayを駆動する、コンテンツ作成プラットフォームで、人々がコンテンツを公開、編集、協力できるようにします。無制限の写真、テキストから画像の生成、消去と置換、テキストからカラーグレーディング、スーパースローモーション、A.I.トレーニングなど、AIが駆使された革新的な機能があります。グリーンスクリーン、インペインティング、モーショントラッキングは、ビデオ編集の機能の一部です。Runwayは、コンテンツ作成とビデオ編集の骨の折れる作業を効率化し、ユーザーが最終製品に完全に決定権を持つようにします。ソフトウェアには、安全に作曲、リソース、プロジェクトデータを共有するためのツールも含まれています。さらに、Runwayは、数分で変更できる専門的にデザインされたテンプレートの大規模なライブラリにアクセスできるようにしています。 DreamStudio DreamStudioは、テキストに基づいて画像を生成するために人工知能を使用するコンピュータプログラムです。プラットフォームは、高品質の画像を作成する能力でよく知られているStable Diffusionと呼ばれる生成対抗ネットワーク(GAN)技術を使用しています。DreamStudioの多くの有用な機能は、アーティストやデザイナーにとって優れたリソースとなっています。テキストの説明から画像を作成する、インスピレーションとしての画像のインポート、スタイルバリアントの探索などが利用可能です。組み込みのアーカイブにより、ユーザーは以前の貢献を振り返ることができます。DreamStudioは、まだ開発初期の段階ではありますが、クリエイティブなタイプの間で人気が急速に高まっています。このプラットフォームは、画像作成プロセスを根本的に変える可能性があるため、注目されています。 Synthesia Synthesiaは、A.I.ビデオを生成するためのプラットフォームで、A.I.ビデオを簡単かつ低コストで作成することができます。編集プログラムに触れることなく、誰でも本物の人物が主演のプロフェッショナルなビデオを作成できるブラウザ拡張機能です。 Synthesiaには、85種類以上の異なるタイプのA.I.アバター、120種類の異なる言語と方言、55種類の事前設計されたテンプレート、独自のA.I.アバターの作成が可能です。このプラットフォームには、カスタマーサポートや製品マーケティング映像から新しい従業員向けの内部トレーニング映像まで、さまざまな用途があります。 Synthesiaは、ビデオ制作コストを最大80%削減できる能力を持つため、様々な規模の30,000以上の企業が信頼しています。 Raw Shorts Raw Shortsは、テキストからビデオを作成するクリエイターや、Webやソーシャルメディア向けの説明映像、アニメーション、プロモーション映像を作成するためのテキスト-to-videoクリエーターと人工知能によるビデオエディターを提供することで、組織が作成を支援します。機械学習技術を使用して、脚本を読み取り、プロットポイントを抽出して適切なメディアを見つけます。任意のWebブラウザからアクセスできるプラットフォームには、テキストtoスピーチ、ダイナミックグラフィック、100万以上のメディアファイルなどの高度なツールが備わっています。A.I.があなたの映画の初期カットを生成し、ドラッグアンドドロップエディターで細かく調整して、望むように見せることができます。Capital One、American Airlines、Coca-Cola、IBM、Ocean Spray、Nielsen、Sony、Pfizerなどの有名企業が、Raw Shortsを信頼しています。 Murf AI Murf…
グリーンAI:AIの持続可能性を向上させるための方法とソリューション
もし、あなたがこの記事を開いたのであれば、おそらく現在の大規模言語モデル(LLM)の安全性と信頼性に関する現在の論争について聞いたことがあるでしょう有名な人々によって署名された公開書簡...
LLMの巨人たちの戦い:Google PaLM 2 vs OpenAI GPT-3.5
2023年5月10日、GoogleはOpenAIのGPT-4に対する見事な対抗策としてPaLM 2をリリースしました最近のI/Oイベントで、Googleは最小から最大までの魅力的なPaLM 2モデルファミリーを発表しました
新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する
世界的に有名なオープンソース言語モデル(LLMs)プロバイダーであるMosaicMLは、最新世代のNVIDIA H100アクセラレータを搭載した画期的なMPT-30Bモデル、すなわちBase、Instruct、Chatを発表しました。これらの最新鋭モデルは、元のGPT-3に比べて品質が大幅に向上しています。 また読む: Large Language Models(LLMs)とは何ですか? MPT-7Bの前例のない成功とMPT-30Bへの進化 2023年5月のリリース以来、MPT-7Bモデルは、330万ダウンロードという驚異的な数字を叩き出し、業界を席巻しています。この成功を更に広げるため、MosaicMLは、非常に期待されていたMPT-30Bモデルをリリースしました。これにより、様々なアプリケーションで新しい可能性が開け、更なる高みに到達しました。 MPT-30Bの無比な機能 MPT-30Bの最も注目すべき成果の1つは、たった30億のパラメータで、GPT-3の175億のうちの一部を使用して、GPT-3を超える品質を実現することができたことです。この画期的なパラメータ数の削減により、MPT-30Bは、ローカルハードウェアの導入にもよりアクセスしやすくなり、推論のコストも大幅に削減されます。さらに、MPT-30Bをベースにしたカスタムモデルのトレーニングに関連する費用は、オリジナルのGPT-3をトレーニングする見積もりよりも明らかに低くなっており、企業にとって魅力的な選択肢となっています。 もっと詳しく知る:実際のユースケースに向けたGPT3の大規模言語モデルのカスタマイズ さらに、MPT-30Bのトレーニングには、最大8,000トークンの長いシーケンスが含まれており、データ重視のエンタープライズアプリケーションを処理できるようになっています。これは、NVIDIAのH100 GPUを利用して、優れたスループットと高速なトレーニング時間を実現しています。 また読む:中国の強力なNvidia AIチップの隠された市場 MPT-30Bの無限のアプリケーションを探る 多くのビジョンを持った企業が、MosaicMLのMPTモデルを活用し、AIアプリケーションを革新しています。 先進的なWebベースのIDEであるReplitは、MosaicMLのトレーニングプラットフォームを活用して、優れたコード生成モデルを構築することに成功しました。Replitは、独自のデータを活用することで、コードの品質、スピード、コスト効率を著しく向上させました。 チャットボットの開発に特化した革新的なAIスタートアップであるScatter Labは、MosaicMLの技術を活用して独自のMPTモデルをトレーニングしました。その結果、英語と韓国語の両方を理解できる多言語の生成AIモデルが作成され、広範なユーザーベースのチャット体験を大幅に向上させました。 世界的に有名な旅行費用管理ソフトウェア会社であるNavanは、MPTが提供する堅牢な基盤を活用して、バーチャルトラベルエージェントや会話型ビジネスインテリジェンスエージェントなどの最新アプリケーションにカスタマイズされたLLMsを開発しています。Navanの共同創設者兼CTOであるIlan Twig氏は、MosaicMLの基礎モデルが、際立った効率性とスケールでの推論を提供すると同時に、非常に優れた言語能力を提供していると熱狂的に称賛しています。 もっと詳しく知る:AIの力を活用するビジネスリーダーには、DataHack Summit…
公共関係(PR)における10以上のAIツール(2023年)
ChatGPT 簡単に説明すると、ChatGPTは、AIによる会話型ユーザーインターフェースです。ユーザーからの入力を受け取り、分析して回答を生成します。OpenAIテクノロジーにより、マシンは書かれた言語と口頭言語の両方を理解できます。決められた回答をすることも、ユーザーに空欄を埋めるように要求することもできます。機械学習と自然言語処理を採用しているため、このテクノロジーは消費者と意味のある対話をする可能性があります。システムの柔軟性により、顧客サービス、バーチャルエージェント、チャットボットなど、さまざまな設定に適用できます。ChatGPTは、OpenAIテクノロジーを活用して、ユーザーが要求を理解し、実現するための会話型AIシステムを提供しています。 Midjourney Midjourneyは強力な機能と迅速な画像合成のため、最高の人工知能画像生成ツールの1つです。MidjourneyにSMSコマンドを送信するだけで、あとはMidjourneyが処理します。多くのクリエイティブプロフェッショナルが、Midjourneyを使用して、自分たちの仕事にインスピレーションを与える画像を生成しています。Midjourneyで作成された人工知能作品「Théâtre d’Opéra Spatial」は、20人の他の画家を抑えて、コロラド州の博覧会の美術部門で1位を獲得しました。ただし、現在のMidjourneyのホームはDiscordサーバーです。MidJourney Discordサーバーに参加し、ボットのコマンドを利用して画像を作成する必要があります。ただし、すぐに始めることができます。 Brandwatch メディアモニタリングがクライアントの優先事項である場合、Brandwatchはあなたの人工知能ソーシャルリスニングソリューションです。Brandwatchは、あなたの会社に関する書かれた言及と、ロゴや製品の視覚的表現をモニターするためにAIを使用しています。彼らの洗練されたテキスト分析ツールは、ユーザーがあなたのブランドに関するコメントが好意的、悪い、または中立的かどうかを判断することもでき、これらすべての指標を追跡することが容易になっています。 Cleanup.pictures Cleanup.picturesは、AIを搭載した写真編集アプリケーションで、写真から望ましくないオブジェクト、人、テキスト、欠陥を削除することができます。簡単に学習でき、品質を損なうことなく数秒で写真を修正することができます。写真家、広告会社、不動産業者、オンライン小売業者、テキスト、ロゴ、またはウォーターマークを取り除く必要がある人など、さまざまな人々がこのツールを利用できます。Adobe Photoshopのクローンツールとは異なり、このプログラムは、不要なテキスト、人物、オブジェクトの背後に何があるかを正確に特定することができます。任意の解像度の画像をインポートして編集することができます。無料版ではエクスポート解像度が720pxに制限されていますが、Pro版にはそのような制限はありません。 Looka Lookaは、AIによるブランドアイデンティティプラットフォームを使用して、努力を最小限に抑えて洗練されたロゴとブランドアイデンティティを作成できます。ロゴジョイの再ブランド版であるLookaは、無料で利用できます。プロセスは、人工知能を利用して素早く数百の潜在的なロゴデザインを生成するロゴメーカーから始まります。ユーザーは、レイアウトを自分好みに変更することができます。ブランドキットでは、ロゴ、色、フォントを活用して、数十、場合によっては数百の統一されたプロモーション用品を簡単かつ迅速に作成することができます。名刺、ソーシャルメディアプロファイル、メール署名、その他のサンプルドキュメントがブランドキットに含まれています。人工知能によって動作するプラットフォームであるLookaのユーザーは、YouTube、Twitter、Facebookなど、多くのソーシャルメディアプラットフォーム上のプロフィール画像とカバー画像を変更することができます。 Canva Canvaの無料画像作成ツールを使用することで、製品マネージャーがどのように利益を得ることができるかが簡単に理解できます。ステークホルダーミーティング、製品発売などでプレゼンテーションやデッキ用の関連画像を入手することは常に難しい課題でした。時には、望んでいるものの完璧なビジョンがあるにもかかわらず、作業中のストック画像を修正する必要があります。CanvaのAIによるエディターを使用すると、コンテンツを事前に計画し、アイデアを生成し、入力に応じて完璧なグラフィックを見つけるために検索結果を調整することができます。 TLDR この最新のAI搭載Webツールは、記事、文書、エッセイ、論文などの長文を簡潔で情報量の多い段落に自動的に要約することができます。試験勉強をする学生、素早く記事を要約したい作家、生徒に長いドキュメントや章を要約する必要がある教師、新聞や雑誌の長い記事を要約する必要があるジャーナリストなど、すべての人々がこのツールを利用できます。TLDRは、広告、ポップアップ、グラフィックなどのオンライン上の邪魔な要素を取り除き、テキストの主要なアイデアを選択し、弱い議論、未サポートの推測、派手なフレーズ、無駄な注意をそらすものなど、不要な材料を除去することによって、きれいで焦点の合った読書体験を提供します。 ヒント ヒントは人工知能(A.I.)を活用した生産性ツールで、他のアプリと同期して、やるべきこと、ノート、取引、スケジュールを管理するのに役立ちます。Notion、Obsidian、Trello、ClickUp、Hubspot、Pipedrive、Google Calendar、Jiraなどのサービスが統合できます。Telegram、WhatsApp、SMSなどのお気に入りのメッセージングアプリでヒントを見つけることができます。また、ボイスメールを残すこともできます。様々なサービスに接続することで、飛行中にデータを作成、更新、引き出す能力が可能になり、ビジネスと個人の生活をシングルインターフェイスで効率的に管理することができます。ヒントの多くの潜在的な応用例は、プロジェクト管理、販売、CRM管理、ノート取り、情報管理、個人の整理などです。ヒントは、他の人気のあるサービスと統合し、A.I.を利用して、日常的なタスクの効率を改善することで、時間と労力を節約することを目的としています。 DeepL 信頼性の高い翻訳者が必要な場合は、AIを搭載したDeepL翻訳を利用してください。PDF、Word文書、PowerPointプレゼンテーションなど、31の他の言語にテキストやファイル全体を翻訳することができます。技術が言語を迅速かつ自動的に認識できるため、翻訳プロセスは短く、結果は信頼できます。DeepLには、クイック定義用の辞書や用語集もあります。DeepLは、デスクトップコンピュータ、モバイルデバイス、またはChrome拡張機能からアクセスできるため、外出先の消費者にとっては優れたツールです。DeepLは、毎日何百万人もの人々によって最も広く使用されている翻訳ツールの一つです。 Otter.AI…
Meta AIとSamsungの研究者が、学習率適応のための2つの新しいAI手法、ProdigyとResettingを導入し、最先端のD-Adaptation手法の適応率を改善しました
現代の機械学習は、コンピュータビジョン、自然言語処理、強化学習など、さまざまな分野で難しい問題に効果的な解答を提供するために最適化に重点を置いています。迅速な収束と高品質のソリューションを達成する難しさは、選択された学習率に大きく依存しています。各自の最適化器を持つ多数のエージェントを持つアプリケーションでは、学習率の調整がより困難になっています。手作業で調整された最適化器はうまく機能しますが、これらの方法は通常、専門的なスキルと煩雑な作業を要求します。したがって、近年では、「パラメータフリー」の自適応学習率方法(D-Adaptationアプローチなど)が、学習率フリーの最適化のために人気を集めています。 サムスンAIセンターとMeta AIの研究チームは、D-Adaptation方法にProdigyとResettingと呼ばれる2つの独自の変更を導入し、D-Adaptation方法の最悪の非漸近収束率を改善し、より速い収束率と優れた最適化出力をもたらすようにしています。 著者は、自適応学習率方法を微調整することで、アルゴリズムの収束速度と解の品質性能を向上させるために、元の方法に2つの新しい変更を導入しています。解に対する距離を調整する方法に対する下限が確立され、提案された調整が検証されます。さらに、指数関数的に増加する反復回数に対して最悪のケースで定数倍の最適性を持つことが示され、拡張テストが実施され、増加したD-Adaptation方法が学習率を迅速に調整し、優れた収束率と最適化結果をもたらすことが示されています。 チームの革新的な戦略は、AdagradのようなステップサイズでD-Adaptationのエラー項目を微調整することです。主要なエラー項目を保持しながら、研究者は自信を持ってより大きなステップを踏み出すことができ、改善された方法はより速く収束します。ステップサイズの分母があまりにも大きくなると、アルゴリズムは遅くなります。したがって、彼らはグラデーションの隣に重みを追加します。 研究者は、提案された技術を使用して、凸ロジスティック回帰と深刻な学習課題を解決しました。複数の研究で、Prodigyは既知のどのアプローチよりも速い採用を示しました。リセットを使用したD-Adaptationは、Prodigyと同じ理論的なペースに到達し、ProdigyまたはD-Adaptationよりもはるかに単純な理論を使用します。さらに、提案された方法はしばしばD-Adaptationアルゴリズムを上回り、手動調整されたAdamと同等のテスト精度を達成できます。 最新の2つの提案された方法は、学習率適応の最新のD-adaptionアプローチを上回っています。広範な実験的証拠は、ウェイト付きのD-Adaptation変種であるProdigyが既存のアプローチよりも適応性が高いことを示しています。2番目の方法であるリセットを使用したD-Adaptationは、より複雑な理論よりもProdigyの理論ペースに合わせることができます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.