Learn more about Search Results Discord - Page 10

「プリズマーに会いましょう:専門家のアンサンブルを持つオープンソースのビジョン-言語モデル」

最近の多くのビジョン言語モデルは、非常に注目すべき多様な生成能力を示しています。しかし、通常、それらは膨大なモデルと膨大なデータセットのトレーニングを必要とします。研究者たちは、データとパラメータの効率的なビジョン言語モデルであるPrismerを紹介し、スケーラブルな代替手法としています。Prismerは、公開されている事前トレーニング済みのドメインエキスパートからほとんどのネットワークの重みを受け継ぎ、トレーニング中にそれらを凍結することで、わずかなコンポーネントのトレーニングのみを必要とします。 大規模な事前トレーニングモデルの汎化能力は、さまざまなタスクにおいて非常に優れています。しかし、これらの機能には高い価格が付いており、トレーニングデータと計算リソースが大量に必要です。数千億のトレーニング可能なパラメータを持つモデルは、言語領域では一般的であり、yottaFLOPスケールの計算予算が必要です。 ビジュアル言語学習に関連する問題は、より困難に解決することが求められます。この分野は言語処理のスーパーセットでありながら、ビジュアルおよびマルチモーダルな思考の専門知識も必要とします。Prismerは、予測されるマルチモーダル信号を使用したデータ効率の良いビジョン言語モデルであり、さまざまな事前トレーニング済みエキスパートを使用します。ビジュアルクエスチョンアンサリングや画像キャプションなど、ビジョン言語推論のタスクの例として扱うことができます。Prismerは、プリズムを例にして、一般的な推論タスクをいくつかのより小さな、より管理しやすいチャンクに分割します。 研究者たちは、視覚的に条件付けられた自己回帰テキスト生成モデルを開発しました。Prismerの最も重要な設計特徴の2つは、(i)ビジョンのみのモデルをWebスケールの知識のためのコアネットワークバックボーンとして使用し、(ii)モダリティに特化したビジョンエキスパートが、深度などの低レベルのビジョン信号からインスタンスやセマンティックラベルなどの高レベルのビジョン信号まで、対応するネットワークの出力から直接補助的な知識をエンコードすることです。研究者たちは、探索的なビジョン言語推論タスクにおいて、さまざまな事前トレーニング済みドメインエキスパートをより良く活用するために、視覚的に条件付けられた自己回帰テキスト生成モデルを開発しました。 Prismerは、公開されている画像/代替テキストデータの13Mの例でのみトレーニングされていますが、画像キャプション、画像分類、ビジュアルクエスチョンアンサリングなどのタスクにおいて、強力なマルチモーダル推論性能を示し、多くの最先端のビジョン言語モデルと競合しています。研究者たちは、Prismerの学習習慣を徹底的に調査し、いくつかの良い特徴を見つけました。 モデル設計: Prismerモデルは、エンコーダ-デコーダトランスフォーマーのバージョンで表示され、トレーニングプロセスを高速化するために、既にトレーニング済みの専門家の大きなプールを活用しています。このシステムは、ビジョンエンコーダと自己回帰言語デコーダで構成されています。ビジョンエンコーダは、RGBとマルチモーダルラベル(凍結された事前トレーニング済みのエキスパートから予測される深度、表面法線、セグメンテーションラベル)のシーケンスを入力として受け取り、RGBとマルチモーダルの特徴のシーケンスを出力します。このクロスアテンショントレーニングの結果、言語デコーダはテキストトークンの文字列を生成するように条件付けられます。 利点: Prismerモデルにはいくつかの利点がありますが、最も注目すべきは、トレーニング中に非常に効率的にデータを使用することです。Prismerは、Webスケールの知識を利用するために事前トレーニングされたビジョンのみと言語のみのバックボーンモデルの上に構築されており、他の最先端のビジョン言語モデルと同等の性能を得るために必要なGPU時間を大幅に削減します。これらの事前トレーニングされたパラメータを使用して、利用可能な大量のウェブスケールの知識を利用することができます。 研究者たちは、ビジョンエンコーダのためのマルチモーダル信号入力も開発しました。作成されたマルチモーダルの補助的な知識は、入力画像の意味と情報をより良く捉えることができます。Prismerのアーキテクチャは、わずかなトレーニング可能なパラメータでトレーニング済みエキスパートの使用を最大限に活用するように最適化されています。 研究者は、Prismerに2種類の事前トレーニング済みエキスパートを含めました: バックボーンの専門家 テキストと画像を意味のあるトークンのシーケンスに変換するための事前トレーニング済みモデルを、それぞれ「ビジョンのみ」と「言語のみ」と呼びます。 ディスコースモデルのモデレータ タスクをさまざまな方法でラベル付けするために使用されるデータに応じて、ディスコースモデルのモデレータはタスクにラベル付けを行います。 特性 知識豊富な人々が多ければ多いほど、結果は良くなります。Prismerのモダリティの専門家の数が増えるにつれて、パフォーマンスが向上します。 より熟練した専門家、より優れた結果 研究者は、予測される深度ラベルの一部を一様分布からランダムノイズで置き換えて、破損した深度エキスパートを作成し、エキスパートの品質がPrismerのパフォーマンスに与える影響を評価しました。 無益な意見に対する耐性 研究結果は、ノイズ予測エキスパートが組み込まれた場合でも、Prismerのパフォーマンスが安定していることをさらに示しています。 弊社のPaperとGithubをご覧ください。この研究における全てのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素晴らしいAIプロジェクトなどを共有している26k+人のML SubReddit、Discordチャンネル、メールニュースレターにもぜひご参加ください。 Tensorleapの説明可能性プラットフォームでディープラーニングの秘密を解き放つ…

「OpenAI(Python)APIを解説する」

「これは、実践において大規模な言語モデル(LLM)を使用するシリーズの2番目の記事ですここでは、OpenAI APIの初心者向けの紹介を行いますこれにより、制約のあるチャットを超えることができます...」

『オープンソースAIゲームジャムの結果』

7月7日から7月11日まで、私たちは初めてのオープンソースAIゲームジャムを開催しました。これは、AIを使用して48時間以内に革新的なゲームを作成するというエキサイティングなイベントでした。 主な目的は、少なくとも1つのオープンソースAIツールを組み込んだゲームを作成することでした。プロプライエタリなAIツールも使用できましたが、参加者にはオープンソースのツールをゲームやワークフローに統合することを奨励しました。 私たちの取り組みへの反応は、予想を上回り、1300人以上のサインアップと88の素晴らしいゲームの応募がありました。 こちらで試すことができます👉 https://itch.io/jam/open-source-ai-game-jam/entries テーマ:拡大 創造性を刺激するために、「拡大」というテーマを選びました。これについては解釈を自由にし、開発者がアイデアを探求し実験することを許し、多様なゲームが生まれました。 ゲームは、その楽しさ、創造性、テーマへの適合度に基づいて、同僚や貢献者によって評価されました。 上位10作品は、その後、ディラン・エバート、トーマス・シモニーニ、オマール・サンセヴィエロの3人の審査員によって最優秀作品が選ばれました。 優勝者 🏆🥇 慎重な審議の結果、審査員は1つの優れたゲームをオープンソースAIゲームジャムの優勝者に選びました。 それはohmletの「Snip It」です 👏👏👏。 コード:Ruben Gres AIアセット:Philippe Saade 音楽/SFX:Matthieu Deloffre このAI生成ゲームでは、絵画が生き返る美術館を訪れます。絵画内のオブジェクトを切り取って隠された秘密を明らかにしてください。 こちらでプレイできます 👉…

スタンフォード大学の新しい人工知能研究は、説明が意思決定時のAIシステムへの過度の依存を軽減する方法を示しています

近年の人工知能(AI)のブームは、AIの能力によって仕事がより速く、より少ない労力で行われることによって、人間の生活がどれだけ向上したかと密接に関係しています。現在、AIを利用しない分野はほとんどありません。例えば、AIは、Amazon EchoやGoogle Homeなどの音声アシスタントのAIエージェントからタンパク質構造の予測に機械学習アルゴリズムを使用するまで、あらゆる場所に存在しています。したがって、AIシステムと協力する人間は、それぞれが単独で行動するよりも優れた意思決定を行うと考えるのは合理的です。しかし、実際にはそのようなケースではないことが、以前の研究で示されています。 いくつかの状況では、AIは常に正しい応答を生成するわけではありません。これらのシステムは、バイアスやその他の問題を修正するために再訓練する必要があります。しかし、AIに過度に依存するという関連する現象は、人間とAIの意思決定チームの効果に危険をもたらします。この現象では、人々はAIに影響を受け、AIが正しいかどうかを検証せずに間違った意思決定を受け入れることがよくあります。これは、銀行の詐欺の特定や医学的診断の提供などの重要なタスクを実行する際に非常に有害です。研究者たちは、AIが各ステップでなぜ特定の意思決定をしたのかを説明する説明可能なAIが、このAIへの過剰な依存の問題を解決しないことも示しています。一部の研究者は、過剰な依存を説明するために、認知バイアスや未校正の信頼が人間の認知の必然的な性質に起因していると主張しています。 しかし、これらの研究結果はAIの説明が過剰な依存を減らすべきだという考えを完全に確認していません。この点をさらに探るために、スタンフォード大学のヒューマンセンタードアートフィシャルインテリジェンス(HAI)研究室の研究チームは、人々がAIの説明との関わり方を戦略的に選ぶことができると主張し、AIの説明が人々の過剰な依存を減らすのに役立つ状況が存在することを示しました。彼らの論文によると、関連するAIの説明が手順よりも理解しやすい場合や、それによる利益が大きい場合(金銭的な報酬の形である場合)は、人々はAIの予測に依存する可能性が低くなります。彼らはまた、対象にそれを提供するだけでなく、説明との関わりに焦点を当てることで、AIへの過剰な依存をかなり減らすことができることを示しました。 チームは、この戦略的な意思決定を検証するために、コストと利益のフレームワークを導入しました。このフレームワークでは、タスクへの積極的な参加のコストと利益をAIに依存することのコストと利益と比較します。彼らはオンラインのクラウドワーカーに、3つの異なる複雑さレベルの迷路の課題をAIと協力して解決するように求めました。対応するAIモデルは答えを提供し、説明なしまたは次のステップのための単一の指示から迷路全体の出口までのターンバイターンの指示まで、さまざまな程度の正当化を提供しました。試験の結果、タスクの難易度や説明の難易度などのコスト、および金銭的な報酬などの利益が、過剰な依存に大きな影響を与えることがわかりました。AIモデルがステップバイステップの指示を提供する複雑なタスクでは、生成された説明を解読することが迷路を単独でクリアするのと同じくらい難しいため、過剰な依存は全く減少しませんでした。また、迷路を自力で脱出するのが簡単な場合、ほとんどの正当化は過剰な依存に影響を与えませんでした。 チームは、作業が難しく、関連する説明が明確な場合、説明は過剰な依存を防ぐのに役立つことを結論付けました。しかし、作業と説明の両方が難しいか単純な場合、これらの説明は過剰な依存にほとんど影響を与えません。作業が簡単に行える場合、説明はあまり重要ではありません。人々は説明に頼る代わりに自分自身でタスクを実行できるからです。また、作業が複雑な場合、人々には2つの選択肢があります。タスクを手動で完了するか、生成されたAIの説明を検討するかですが、これらの説明は頻繁に同様に複雑です。これの主な原因は、AIの研究者にとってはタスクを手動で実行するよりも検証にはるかに少ない努力が必要な説明ツールがほとんどないためです。そのため、人々はAIの判断を疑問視することなく信頼する傾向があるのは驚くことではありません。 追加の実験として、研究者たちは経済的な利益の要素を方程式に導入しました。彼らは、さまざまな難易度の迷路を独自に解くか、少ない報酬と引き換えにAIの支援を受けるかをクラウドワーカーに選択肢として提供しました。その際、説明なしまたは複雑なターンバイターンの指示付きでのAIの支援が行われました。その結果、タスクが難しい場合にはクラウドワーカーはAIの支援をより価値あるものとし、複雑な説明よりも簡単な説明を好むことがわかりました。また、過剰な依存は長期的なAIの利用の利益が増えるにつれて減少することがわかりました(この例では、金銭的な報酬)。 スタンフォードの研究者たちは、自己の発見が、説明が過度に依存することを少しでも軽減することに悩む学者たちに何らかの慰めを提供することになると期待しています。さらに、彼らは説明可能なAIの研究者たちを彼らの仕事で鼓舞し、AIの説明の向上と効率化のための説得力のある議論を提供することを望んでいます。 論文とスタンフォードの記事をチェックしてください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している26k+のML SubReddit、Discordチャンネル、およびメールニュースレターにぜひ参加してください。 Tensorleapの説明可能性プラットフォームで、ディープラーニングの秘密を解き放つ この記事は、MarkTechPostに掲載されています。

このAIニュースレターは、あなたが必要とするすべてです #56

今週、オープンソースとクローズドモデルの両方で、LLMの世界にいくつかの新しい競合他社が登場しました印象的な機能を持つにもかかわらず、LLaMAモデルの最初のバージョンにはライセンスの問題がありました...

「ポッドキャスティングのためのトップAIツール(2023年)」

ポディウム ポディウムと呼ばれるAIパワードの技術は、ポッドキャストのポストプロダクションを大幅に加速することを意図しています。この技術により、トランスクリプト、ハイライト、チャプター、エピソードの要約を迅速に作成することができます。 このアプリケーションは使いやすく、アカウントの作成は必要ありません。必要なのはオーディオファイルを提出するだけです。ポディウムのAIは迅速に引用可能な箇所を見つけ出し、チャプターやタイトルを作成し、エピソードの要約を提供します。これらは簡単にソーシャルメディアで共有することができます。 また、アクセシビリティと検索エンジン最適化のために優れたトランスクリプトも提供されます。このアプリケーションは最初は無料ですが、一度に多くのエピソードを扱う必要がある場合は、安価な使用料金または特別な価格設定に変更されます。 リスナー.fm リスナー.fmのAIツールは、AIを活用したショーノート、タイトル、および説明の作成を通じて、ポッドキャストのポストプロダクションを改善することを目的としています。オーディオ録音を提出すると、AIが各オーディオエピソードに合わせた魅力的で注意を引くタイトル、説明、およびショーノートを作成します。このアプリケーションは、人間の介入なしで興味深く教育的なコンテンツを簡単に作成することができます。 このAIツールにより、すべてのポッドキャスターはオーディオファイルを簡単に管理し、コンテンツを改善し、視聴者を増やすことができます。このツールは使いやすく効果的であり、迅速かつ高品質なポストプロダクションを保証します。プラットフォームでは透明な価格設定、新機能への早期アクセス、カスタマーサポート、簡単な価格オプションを提供しています。これはアマチュア、プロ、ポッドキャストネットワークにも適しています。 ショーノート AIパワードのショーノートは、各ポッドキャストエピソードを自動的に要約し、トランスクリプトとキャプションファイルを含むランディングページを生成します。chatGPTを使用してYouTubeの自動キャプションを変換し、魅力的な引用を生成し、トランスクリプトをブログ投稿に変換することができます。 ショーノートが提供する3つのオプションは、無料プラン、クリエータープラン、およびプロプランです。無料プランには1つのショーノート、要約されたトランスクリプト、ランディングページ、および一般に公開されているすべてのショーが含まれています。 クリエータープランには毎月2つのショーノート、要約されたトランスクリプト、ランディングページ、ショーを非公開にするオプション、ランディングページエディター、完全なトランスクリプト、umsとahsが含まれています。 プロプランには無制限のショーノート、要約されたトランスクリプト、ランディングページ、ショーを非公開にするオプション、ランディングページエディター、完全なトランスクリプト、umsとahs、キャプションファイルが含まれています。 キャストマジック キャストマジックと呼ばれるAIパワードの技術は、ポッドキャスターが時間を節約し、高品質のコンテンツを作成するのに役立ちます。これにより、トランスクリプト、ショーノート、要約、ハイライト、引用、ソーシャルメディアの投稿など、公開の準備が整ったテキストにオーディオを変換できます。骨の折れるポストプロダクションの作業を自動化し、ポッドキャスターが高品質のオーディオコンテンツの制作に集中できるようにします。また、ZoomとSlackと互換性があります。 キャストマジックは、Chrome、Safari、Firefox、Windows、Linux、およびmacOSと互換性のある使いやすいプログラムで、コーディングは必要ありません。また、ユーザーは無料のトライアル期間中にプラットフォームを試すことができます。キャストマジックを使用することで、ポッドキャスターは毎週20時間以上の時間を節約できるだけでなく、リスナーごとに個別化されたコンテンツを生成することができます。特定のユーザーにカスタマイズされたダイナミックなウェブサイト体験を提供することは、ポッドキャストの露出を向上させ、収益を最適化するのに役立ちます。 Mood AI 強力なMood AIジェネレーティブポッドキャストマーケティングキットの助けを借りて、ポッドキャスターは大規模な視聴者に自分のコンテンツを届けることができます。ポッドキャストエピソードに基づいて、ジェネレーティブAIを使用して包括的なトランスクリプト、要約、キーワード、簡単な説明、重要なトピック、タイトル、ブログ投稿、ソーシャルメディアの投稿、ビデオクリップなどを自動的に作成します。 迅速なコンテンツとマーケティング資材の生成、およびコンテンツの効果を追跡することで、ポッドキャスト制作者はより広い視聴者を引き付けるのが簡単になります。 Adobe Podcast Adobe Podcastは、AIの機能を備えたオンラインのオーディオ録音および編集ツールです。オーディオの作成を簡素化するために、テキストへのオーディオ変換、ノイズリダクションなど、さまざまな機能を提供しています。ユーザーは、このプラットフォーム上で簡単かつ効果的にオーディオコンテンツを制作、編集、配布することができます。AIパワードのツールにより、Adobe…

「xTuringに会ってください:たった3行のコードで自分自身の大規模言語モデル(LLM)を作成できるオープンソースツール」

特定のアプリケーションのための大規模な言語モデル(LLM)の実用的な実装は、現在のところ、ほとんどの個人にとって困難です。特定のドメイン向けに高い精度と速度でコンテンツを生成したり、作文スタイルを模倣したりするためには、時間と専門知識が必要です。 Stochasticは、LLMの最適化と高速化に特化した明るいMLエンジニア、ポストドク、およびハーバード大学の卒業生のチームを持っています。彼らはxTuringというオープンソースのソリューションを紹介しており、ユーザーはたった3行のコードで独自のLLMを作成することができます。 自動テキストデリバリー、チャットボット、言語翻訳、コンテンツ制作などのアプリケーションは、これらの概念を活用して新しいアプリケーションを開発・作成しようとする人々の関心の対象です。これらのモデルをトレーニングや微調整することは、時間と費用がかかることがありますが、xTuringを使用すると、LLaMA、GPT-J、GPT-2、または他の手法を使用して、モデルの最適化を簡単かつ迅速に行うことができます。 xTuringの単一GPUまたはマルチGPUトレーニングフレームワークとしての汎用性により、ユーザーは特定のハードウェア構成にモデルを合わせることができます。メモリ効率の高い微調整手法(LoRAなど)をxTuringは使用しており、学習プロセスを高速化し、ハードウェアの費用を最大90%削減します。メモリの使用量を減らすことにより、LoRAはより迅速かつ効果的なモデルトレーニングを容易にします。 xTuringの微調整能力を評価するために、LLaMA 7Bモデルがベンチマークとして使用され、xTuringを他の微調整手法と比較したチームがあります。データセットは52Kの命令で構成され、335GBのCPUメモリと4つのA100 GPUが使用されました。 結果は、DeepSpeed + CPUオフロードを使用して、LLaMA 7Bモデルを1エポックあたり21時間トレーニングした場合、GPUの使用量は33.5GB、CPUの使用量は190GBでした。一方、LoRA + DeepSpeedまたはLoRA + DeepSpeed + CPUオフロードを使用して微調整する場合、メモリ使用量はそれぞれ23.7GBと21.9GBに劇的に減少しました。CPUによって使用されるRAMの量は14.9GBから10.2GBに減少しました。さらに、LoRA + DeepSpeedまたはLoRA + DeepSpeed + CPUオフロードを使用すると、トレーニング時間は1エポックあたり40分から20分に短縮されました。 xTuringを始めるのは簡単です。ツールのユーザーインターフェースは直感的に学習し使用できるように設計されています。ユーザーはマウスクリック数回でモデルを微調整し、xTuringが残りの作業を行います。使いやすさから、xTuringはLLMに初めて取り組む人や経験豊富な人にとっても優れた選択肢です。…

「FlexGenに会おう:GPUメモリが限られている場合に大規模な言語モデル(LLM)を実行するための高スループットな生成エンジン」

大規模言語モデル(LLM)は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にないほどの力を持っていますが、特定の困難にも直面しています。これらのモデルは数十億または数兆のパラメータを含むことがあり、それらを実行するには膨大なメモリと計算能力が必要です。例えば、GPT-175Bは、モデルの重みを読み込むために325GBのGPU RAMだけが必要です。このモデルをGPUに適合させるには、少なくとも5つのA100(80GB)のGPUと高度な並列処理技術が必要です。そのため、LLM推論に必要なリソースの削減は最近、多くの関心を集めています。 LLMは、ベンチマーキング、情報抽出、データ整形、フォーム処理、チャットボットなどのさまざまな「裏方」の操作に使用されます。この研究では、スループット志向の生成型推論という状況に焦点を当てています。企業のコーパスの全ペーパーなど、大量のトークンにわたってバッチでLLM推論を実行する必要があるため、トークン生成の遅延への感受性が低いというのがこれらのジョブの重要な特徴です。そのため、一部のワークロードでは、遅延を犠牲にしてスループットを向上させることで、リソースの必要性を低減する可能性があります。 LLM推論に必要なリソースを削減するためには、次の3つのアプローチが使用されています: 全体のメモリフットプリントを減らすためのモデル圧縮、推論のコストを分散させるための共同推論、メモリとディスク上のメモリの効果的な利用のためのオフロード。明確な制約は存在しますが、これらの戦略により、LLMの利用に必要なリソースが大幅に削減されています。最初の2つの方法の研究では、モデルがGPUメモリに収まることを前提としているため、単一の商用GPU上で175Bスケールのモデルを実行するための支援が必要です。一方、第3のカテゴリに属する最先端のオフローディングベースのシステムは、効果的なI/Oスケジューリングとテンソル配置ができないため、単一のGPU上で受け入れ可能なスループットに到達することはできません。 単一の商用GPUを使用して、彼らの主な目標は高スループットの生成型推論のための効果的なオフロードメカニズムを構築することです。彼らはLLMを部分的にロードし、制約のあるGPUメモリでのLLMの演算を逐次的にオフロードして実行することができます。典型的なシステムでは、メモリの階層は3つの層に分かれています。下位レベルは遅いですが豊富で、上位レベルは速いですが希少です。小さなバッチサイズはこれらのシステムでボトルネックを引き起こす可能性があります。高バッチサイズを使用し、高価なI/O操作を複数のメモリ階層に分散させて処理と重なり合わせることで、スループット志向のシナリオでは遅延を犠牲にすることができます。 ただし、遅延を犠牲にしても、制約のあるGPUメモリで高スループットの生成型推論を達成することは困難です。最初の困難は、成功するオフローディング計画を立てることです。計画では、どのテンソルをオフロードするか、3レベルのメモリ構造のどこにオフロードするか、推論中にいつオフロードするかを明確にする必要があります。生成型推論では、重み、アクティベーション、キー値(KV)キャッシュの3種類のテンソルが使用されます。 アルゴリズムのバッチごと、トークンごと、レイヤごとの構造のため、計算方法はいくつかあります。これらのオプションが組み合わさって複雑な設計空間が作成されます。現在使用されているオフローディングベースの推論システムは、過度のI/Oを実行し、理論的なハードウェアの制約に比べてスループットが大幅に低下しているため、推論においては劣悪な領域となっています。効率的な圧縮アルゴリズムの作成は、2番目の問題を提起します。以前の出版物では、LLMの重みとアクティベーションは、有望な圧縮結果を示しています。ただし、高スループットの生成型推論のために圧縮とオフロードを組み合わせる場合、重みとKVキャッシュのI/Oコストとメモリ削減によって追加の圧縮戦略が推進されます。 UCB、Stanford、CMU、Meta、Yandex、ETH、HSEの研究者たちは、これらの問題を克服するために、高スループットのLLM推論のためのオフロードフレームワークであるFlexGenを共同で紹介しています。FlexGenは、GPU、CPU、ディスクからのメモリを組み合わせて、効果的なI/Oアクティビティ、潜在的な圧縮技術、および分散パイプライン並列処理を効果的にスケジュールします。彼らの貢献は以下の通りです: 計算スケジュール、テンソル配置、計算委任を考慮した潜在的なオフロードオプションの検索空間を明示的に説明します。彼らは、その検索空間がI/Oの複雑さを最適性の2つ以内に捉える計算順序を表していることを示します。次に、彼らは検索空間内でスループットを最大化するための線形計画に基づく検索アルゴリズムを作成します。 再トレーニングやキャリブレーションなしに、OPT-175BのようなLLMの重みとKVキャッシュを4ビットに減らすことが可能で、ほとんどまたは全く精度の低下がありません。I/Oコストとオフロード時のメモリ使用量を低減するために適した細かいグループごとの量子化がこれを実現しています。 彼らは、NVIDIA T4(16GB)GPU上でOPT-175Bを実行することで、FlexGenの効率を示します。FlexGenは、DeepSpeed Zero-InferenceやHugging Face Accelerateといった2つの最先端のオフローディングベースの推論アルゴリズムよりも大きなバッチサイズを許容することが多く、その結果、大幅に高いスループットを実現できます。 以下に、PaperとGithubをご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素敵なAIプロジェクトなどを共有している16k+ ML SubReddit、Discordチャンネル、およびメールニュースレターにもぜひ参加してください。 Tensorleapの解釈性プラットフォームで深層学習の秘密を解き放つ この投稿は、MarkTechPostに掲載されています。

このAI論文は、拡散モデルのコンセプトを自身の知識を使って消去するためのモデルの重みを微調整する新しい方法を提案しています

近年、優れた画像品質と無限の生成能力から、モダンなテキストから画像を生成するモデルが注目を集めています。これらのモデルは、巨大なインターネットデータセットで訓練されたため、さまざまな概念を模倣することができます。しかし、これらのモデルは、ポルノグラフィーやその他の悪い概念を出力に含めないように訓練されています。このNEUとMITの研究者による研究では、事前訓練されたテキスト条件付きモデルの重みから特定の概念を選択して排除する方法を提供しています。これまでの戦略は、推論ガイダンス、生成後処理、データセットのフィルタリングに焦点を当ててきました。 回避が容易ではありますが、推論ベースのアプローチは望ましくない概念からの出力のフィルタリングや誘導に成功することができます。彼らのシステムは再訓練を必要とせず、大規模なモデルにとってコストがかかるデータフィルタリング技術とは異なります。それに対して、彼らの手法はモデルの入力から概念を直ちに排除し、モデルの重みの分布を可能にします。安定拡散テキストから画像への拡散モデルはオープンソースとして公開され、多くの人々が画像生成技術にアクセスできるようになりました。初期バージョンのソフトウェアには基本的なNSFWフィルターが搭載されており、危険な写真の作成を防ぐことができますが、コードとモデルの重みが公開されているため、フィルターをオフにすることも簡単です。 次のSD 2.0モデルは、露骨な写真を除外するためにフィルタリングされたデータで訓練されており、感度のあるコンテンツの作成を防止しています。この実験は、50億枚のLAIONデータセット上で150,000時間のGPUを使用して完了しました。プロセスの高コストのため、データの特定の変更と生じる可能性のある能力との因果関係を確立することは困難です。それでも、ユーザーは露骨な画像やその他の対象を訓練データから除外することが出力の品質に悪影響を与えている可能性があると報告しています。研究者たちは、人気のあるSD 1.4モデルがヌード検出器によって特定される露出した身体部位を持つ画像を796枚生成するのに対して、新しい訓練セット制限のあるSD 2.0モデルは417枚しか生成しないことを発見しました。これは、彼らの努力にもかかわらず、モデルの出力にはまだ重要な露骨なコンテンツが含まれていることを示しています。 テキストから画像へのアルゴリズムの著作権侵害の可能性も深刻な懸念材料です。AIによる生成アートの品質は、人間による生成アートと同等であり、実際のアーティストの美的嗜好も正確に模倣することができます。Stable Diffusionなどの大規模なテキストから画像合成システムのユーザーは、「特定のアーティストのスタイルでのアート」といった提案が特定のアーティストのスタイルを模倣する可能性があり、オリジナルの作品を損なう可能性があると述べています。さまざまなアーティストの苦情により、Stable Diffusionの開発者は彼らのアイデアを盗んだとして訴えられています。現在の研究では、モデルがそれをコピーしないように、オンラインで公開する前に作品に対して敵対的な摂動を追加することで、アーティストを保護することを試みています。 しかし、この方法を使用すると、学習された芸術的スタイルを持つ教え込まれたモデルが残ります。彼らは、安全性と著作権侵害の懸念に対応して、テキストから画像へのモデルから概念を削除するための手法を提供しています。彼らは、望ましくない概念の説明だけを使用し、その後の訓練データは必要とせず、彼ら自身のErased Stable Diffusion(ESD)技術を使用してモデルのパラメータを微調整します。彼らの手法は迅速であり、既存のモデルとの組み合わせで使用するために入力写真を変更する必要はありません。消去は、パラメータにアクセス権を持つユーザーでも、単純なブラックリストやポストフィルタリングよりも打破することが難しいです。 研究者は、削除されたアーティストのスタイルが出力された画像におけるユーザーの認識や他のアーティスティックなタイプへの干渉、および画像の品質への影響を調査するためにユーザースタディを実施しました。彼らのアプローチを望ましくない画像の削除に使用するSafe Latent Diffusionと比較したところ、同じく成功した結果が得られました。彼らはまた、その手法がモデルの創造的な特性を除去する能力を調査しました。最後に、彼らはオブジェクトクラス全体を消去することで、彼らの手法をテストしました。この記事は、論文のプレプリントに基づいています。彼らはモデルの重みとモデルのコードをオープンソース化しています。 PrePrint Paper、Code、およびProjectをご覧ください。この研究に関しては、このプロジェクトの研究者に全てのクレジットがあります。また、最新のAI研究ニュースや素晴らしいAIプロジェクトなどを共有している16k+ ML SubReddit、Discord Channel、およびEmail Newsletterにぜひご参加ください。 この記事はMarkTechPostに最初に掲載されました。

「LLMsの実践的な導入」

「これは、実践で Large Language Models (LLMs) を使用するシリーズの最初の記事ですここでは、LLMs の紹介とそれらとの作業の3つのレベルを紹介します将来の記事では...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us