Learn more about Search Results 16 - Page 2
- You may be interested
- 「Plotly プロットでインド数字システムの...
- ディリクレ分布:基本的な直感とPythonに...
- 技術的なバックグラウンドがなくてもデー...
- 「NoteGoatは、ユーザーがオーディオ、ビ...
- 「Pythonによる多クラスラベルのための完...
- 人工知能を規制するための競争
- ドメイン適応:事前に学習済みのNLPモデル...
- 「2023年8月の10の最高のAIフェイススワッ...
- データ分析におけるサンプリング技術
- ディープフェイクビデオを出し抜く
- 「AIは第6の知性分野です」
- UCバークレーとスタンフォードの研究者チ...
- 公共関係(PR)における10以上のAIツール...
- コーディングなしで自分自身のChatGPTを作...
- 「T2I-Adapter-SDXL:小型で効率的な制御...
「QLORAとは:効率的なファインチューニング手法で、メモリ使用量を削減し、単一の48GB GPUで65Bパラメーターモデルをファインチューニングできるだけでなく、完全な16ビットのファインチューニングタスクのパフォーマンスも保持します」
大規模言語モデル(LLM)は、追加または削除したい振る舞いを設定することも可能にするファインチューニングによって改善することができます。しかし、大きなモデルのファインチューニングは非常に高コストです。例えば、LLaMA 65Bパラメータモデルを標準の16ビットモードでファインチューニングすると、780GB以上のGPU RAMを消費します。最新の量子化手法はLLMのメモリフットプリントを軽減することができますが、これらの手法は推論時にのみ機能し、トレーニング時には失敗します。ワシントン大学の研究者たちは、QLORAを開発しました。QLORAは、高精度なアルゴリズムを使用して事前学習モデルを4ビットの解像度に量子化し、量子化結果に対する勾配を逆伝播させることで変更した一連の学習可能な低ランクアダプターの重みを追加します。彼らは、量子化された4ビットモデルがパフォーマンスに影響を与えずに調整できることを初めて示しています。 QLORAによって、65Bパラメータモデルのファインチューニングの平均メモリ要件を、ランタイムや予測パフォーマンスを犠牲にすることなく、16ビットの完全にファインチューニングされたベースラインから780GB以上のGPU RAMから48GBに削減することができます。これにより、これまでに公開されている最大のモデルでも単一のGPUでファインチューニングすることが可能となり、LLMのファインチューニングのアクセシビリティに大きな変化がもたらされます。彼らはQLORAを使用してGuanacoモデルファミリーを訓練し、最大のモデルは単一のプロフェッショナルGPUで24時間以上かけて99.3%の成績を達成し、VicunaベンチマークでのChatGPTに迫る成果を上げました。2番目に優れたモデルは、単一のコンシューマGPUで12時間未満の時間で、VicunaベンチマークでChatGPTのパフォーマンスレベルの97.8%に達します。 QLORAの以下の技術は、パフォーマンスを損なうことなくメモリ使用量を低減することを目的としています:(1) 4ビットNormalFloat、正規分布データのための量子化データ型であり、情報理論的に最適であり、4ビットの整数と4ビットの浮動小数点よりも優れた経験的な結果を生み出します。(2) ダブル量子化は、平均してパラメータごとに0.37ビット(または65Bモデルの約3GB)を節約し、量子化定数を量子化します。(3) ページドオプティマイザは、長いシーケンスを処理する際に勾配チェックポイントによるメモリスパイクを防ぐために、NVIDIA統一メモリを使用します。使用すると、最小のGuanacoモデル(7Bパラメータ)は、Vicunaテストで26GBのAlpacaモデルを20パーセント以上上回る性能を発揮しながら、5GB未満のメモリを使用します。 彼らはこれらの貢献をより洗練されたLoRA戦略に組み込み、以前の研究で特定された精度のトレードオフをほぼなくすようにしました。QLORAの効率性により、メモリコストのために従来のファインチューニングではできなかったモデルサイズに関する指示ファインチューニングとチャットボットのパフォーマンスをより詳細に分析することができます。その結果、彼らは80Mから65Bまでの様々な指示チューニングデータセット、モデルトポロジ、パラメータ値を使用して、1000以上のモデルをトレーニングしました。QLORAは16ビットのパフォーマンスを回復し、Guanacoという高度なチャットボットをトレーニングし、学習されたモデルのパターンを調査しました。 まず、両方が汎化後の指示を提供することを目的としているにもかかわらず、チャットボットのパフォーマンスでは、データの品質がデータセットのサイズよりもはるかに重要であることを発見しました。9kサンプルのデータセット(OASST1)は、チャットボットのパフォーマンスで450kサンプルのデータセット(FLAN v2、サブサンプリング)を上回ります。第二に、優れたMassive Multitask Language Understanding(MMLU)ベンチマークのパフォーマンスが必ずしも優れたVicunaチャットボットベンチマークのパフォーマンスにつながるわけではないこと、そしてその逆もまた同様であることを示しています。言い換えれば、特定のタスクにおいては、データセットの適切さがスケールよりも重要です。彼らはまた、人間の評価者とGPT-4を使用してチャットボットのパフォーマンスを詳細に評価しています。 モデルは、与えられた刺激に対する最適な応答を決定するために、トーナメント形式のベンチマークマッチで互いに競い合います。GPT-4または人間の注釈者がゲームの勝者を決定します。トーナメントの中でのモデルのパフォーマンスのランク付けには、GPT-4と人間の判断がほぼ一致することがわかりましたが、明確な相違点もあります。そのため、彼らはモデルベースの評価が不確実性を持つ一方で、人間の注釈よりも費用が抑えられるという事実に注意を喚起しています。 彼らはチャットボットのベンチマーク調査結果にグアナコモデルの質的分析を追加します。彼らの研究では、定量的な基準では考慮されなかった成功と失敗のインスタンスを特定します。彼らはGPT-4および人間のコメントを含むすべてのモデル世代を公開し、将来の研究を支援します。彼らは自分たちの技術をHugging Face transformersスタックに組み込み、ソフトウェアおよびCUDAカーネルをオープンソース化し、広く利用可能にします。32の異なるオープンソース化された改良モデルについて、サイズ7/13/33/65Bのモデルに8つの異なる命令従属データセットでトレーニングを行ったアダプターのコレクションを提供します。コードリポジトリは公開され、Colabでホストできるデモも提供されます。
「Pythia 詳細な研究のための16個のLLMスイート」
Pythiaは、Eleuther AIによる16の大規模言語モデルのスイートですトレーニングとスケーリング中に自己回帰的な大規模言語モデルを理解し、分析するのに役立ちます
仕事を加速するAIツール16選
モーション モーションは、人々の会議、タスク、プロジェクトを考慮した日々のスケジュールを作成するためにAIを利用する賢いツールです。計画の手間を省き、生産性の高い生活を送るために、さようならを言いましょう。 BeforeSunset AI 効果的な時間管理を支援するために、BeforeSunset AIは人工知能を活用しています。手作業のやるべきことリストの頭痛や曖昧さを排除することで、計画プロセスを効率化します。ジョブを「実行可能な」アイテムに変換し、大きなプロジェクトを小さなものに分割し、チームミーティングのための時間を推奨するなど、ツールの機能はすべて、効率と秩序の向上に寄与しています。BeforeSunset AIは、計画能力を向上させるための個人の分析情報を提供します。ユーザーは週間や日々のカレンダーを確認して、自分の仕事の習慣と生産性について学ぶことができます。これにより、最も効果的に時間を使う方法について貴重な洞察を得ることができます。タイムモニタリング、ノートキープ、タスクの履歴、目標設定など、このプログラムが提供する機能はいくつかあります。ユーザーは自分が何をしてきたかを把握し、大きなプロジェクトを小さなものに分割し、自分がどれだけ進んできたかを確認することができます。BeforeSunset AIは、チームビルディングや調整などの将来の機能も提供します。 Notion Notionは、高度なAI技術を活用してユーザー数を増やすことを目指しています。最新の機能であるNotion AIは、ユーザーがノートの要約、ミーティングでのアクションアイテムの特定、テキストの作成と編集などのタスクを補助する強力な生成AIツールです。Notion AIは、退屈なタスクを自動化し、ユーザーに提案やテンプレートを提供することで、ワークフローを効率化し、ユーザーエクスペリエンスを簡素化し改善します。 AdCreative.ai AdCreative.aiは、究極の人工知能ソリューションであることで、広告とソーシャルメディアのゲームを向上させます。創造的な作業に数時間を費やすのにさようならを言いましょう。数秒で生成される高変換率の広告とソーシャルメディアの投稿を歓迎しましょう。AdCreative.aiを使って成功を最大化し、努力を最小限にしましょう。 Otter AI Otter.AIは、人工知能を利用して、共有可能で検索可能でアクセス可能で安全な会議のメモのリアルタイムな文字起こしを提供します。オーディオを録音し、メモを書き、スライドを自動的にキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Aragon Aragonを使って努力をかけずに素晴らしいプロフェッショナルなヘッドショットを手に入れましょう。最新のAI技術を活用して、瞬時に自分自身の高品質なヘッドショットを作成しましょう!写真スタジオの予約や着飾る手間を省きましょう。写真の編集と修正を迅速に行いましょう。次の仕事を手に入れるための優位性を持つ40枚のHD写真を受け取りましょう。 Postfluencer Postfluencerは、自動的にLinkedInの更新を作成するAIパワードソフトウェアです。このソフトウェアは、プロフェッショナルなソーシャルメディアプラットフォームで魅力的なコンテンツを共有するための簡単で効率的な手段を提供します。ユーザーは簡単に素材を入力し、Matt BarkerのPCRフレームワーク、ClearPAIPS、Story、Hero’s Journey、Simpleなどのいくつかのオプションから好みのフレームワークを選択することができます。リスト形式や標準の段落など、他の投稿形式の選択肢もあります。ユーザーは簡単に投稿を変更して、さまざまなコンテンツガイドラインや対象読者の好みに合わせることができます。ツールによってハッシュタグも含めた完成した投稿が生成されます。Postfluencerの背後にあるテクノロジーは、人工知能のリーダーであるOpenAIが提供しています。OpenAIの最先端のAI技術のおかげで、Postfluencerの投稿生成能力は正確で効率的です。この機能を利用することで、LinkedInのユーザーはネットワーク向けに魅力的なコンテンツを開発する際に、膨大な時間と労力を節約することができます。 Parsio(OCR…
「10/7から16/7までのトップコンピュータビジョン論文」
コンピュータビジョンは、機械に視覚世界を解釈し理解させることに焦点を当てた人工知能の分野であり、画期的な研究と技術の進化により急速に進化しています
新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました(75.17% → 91.68%)
最近の技術の進展により、大規模言語モデル(LLM)は複雑で洗練された推論タスクで非常に優れた成績を収めています。これは、デモンストレーションのプロンプトに対して中間の推論ステップを生成することによって実現されます。これはチェーン・オブ・ソート(CoT)プロンプティングとも呼ばれます。しかし、CoTに関する現在の研究のほとんどは言語モダリティに焦点を当てており、マルチモーダルなCoT推論を抽出するために、研究者はしばしばマルチモーダル-CoTパラダイムを使用します。マルチモーダル-CoTは、ビジョンや言語など、さまざまなモダリティの入力がある場合でも、多段階の問題を中間の推論プロセスに分割し、最終的な出力を生成します。マルチモーダル-CoTを実行する最も人気のある方法の1つは、LLMにCoTを実行する前に、複数のモダリティからの入力を単一のモダリティに組み合わせることです。しかし、この方法にはいくつかの欠点があります。1つは、データを1つのモダリティから別のモダリティに変換する際に生じる重要な情報の損失です。マルチモーダルなCoT推論を実現する別の方法は、ビジョンと言語のさまざまな特徴を組み合わせて、小さな言語モデルを微調整することです。 ただし、このアプローチの主な問題は、これらの言語モデルが幻覚的な推論パターンを生成する傾向があることであり、これが回答推論に大きな影響を与えます。そのようなエラーの影響を軽減するために、Amazonの研究者はビジュアル特徴を分離されたトレーニングフレームワークで組み合わせるMultimodal-CoTを提案しました。このフレームワークは、推論プロセスを2つのフェーズに分割します:根拠生成と回答推論。モデルは、ビジョンの側面を両方のステージに取り入れることで、より説得力のある議論を生成し、より正確な回答推論を作成するのに役立ちます。この研究は、異なるモダリティでのCoT推論を研究した最初のものです。Amazonの研究者によって提供された技術は、ScienceQAベンチマークで最先端のパフォーマンスを発揮し、GPT-3.5の正確さを16%上回り、人間のパフォーマンスを上回りました。 マルチモーダル回答CoTの推論と推論生成のステージは、同じモデルアーキテクチャを使用しており、入力と出力の種類が異なります。ビジョン-言語モデルの例を取ると、モデルは根拠生成の段階で視覚と言語の両ドメインのデータを受け取ります。根拠が生成されると、回答推論のステップで初期の言語入力に追加され、次のステージの言語入力のためのデータが作成されます。モデルは、更新されたデータを受け取り、所望の結果を生成するためにトレーニングされます。エンコーディング、インタラクション、デコーディングの3つの主要な機能を実行するトランスフォーマーベースのモデルが基盤となっています。要するに、言語テキストはTransformerエンコーダに供給され、テキスト表現が作成されます。このテキスト表現は、ビジョン表現と組み合わされ、Transformerデコーダに供給されます。 彼らの手法の有効性を評価するために、研究者はScienceQAベンチマークで多くのテストを実施しました。ScienceQAベンチマークは、注釈付き回答が含まれる21,000以上のマルチモーダルな科学の質問からなる大規模なデータセットです。研究者は、その手法がベンチマークで従来の最先端のGPT-3.5モデルを16%上回ると結論付けました。要するに、Amazonの研究者は、マルチモーダル-CoTを実行するためにビジョンと言語の表現を組み合わせるために言語モデルを微調整するという2段階のフレームワークを提案し、情報的な根拠を生成して最終回答を推論するモデルを生成します。モデルのGitHubリポジトリは以下からアクセスできます。
チャットボットは学校での不正行為を助長しているのか?最新の研究結果が驚くべき結果を明らかにしています
「スタンフォード大学の研究者によると、ChatGPTなどのA.I.ツールの使用は高校での不正行為の増加にはつながらなかったということが分かりましたこの結果は、この種のツールの効果的かつ倫理的な使用を証明する上で非常に価値があります」
「自律走行車とトロリー問題:「良い」決定を探し求めて」
North Carolina State Universityの熱心な研究チームが、日常の交通シナリオで生じる倫理的ジレンマについて正確かつ関連性の高いデータを積極的に収集していますこの貴重な情報は、低リスクな状況の複雑さをより深く理解し、私たちの道徳的な意思決定能力を改善するのに役立ちます
Googleは独占禁止法訴訟で敗訴:ビッグテックにとって何を意味するのか?
「エピックゲームズが検索大手との法的闘争に勝利した事は画期的な勝利であり、同社の強さと決断力を示す重要な節目となりました」
「2023年、オープンLLMの年」
2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…
「テスラ、『不十分な』自動運転安全制御で200万台の車両を回収」
テスラは、政府の規制当局が認めたように、誤用を防ぐための十分なコントロールを持っていないと判断されたAutopilotシステムの修正のために200万台以上の車両をリコールしています
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.