Learn more about Search Results A - Page 221

我々はまもなく独自のパーソナルAIムービーバディを持つことになるのでしょうか?

映画の途中や終了後にチャットするかどうかはわかりませんが、あなたと私は好きな映画について話すことが好きですしかし、AIを使ってそれをするのはどれくらい遠いのでしょうか? LLaMA [1]、Video-LLaMAのような強力なLLMを活用して...

「SAS認定データサイエンティストになるために必要なすべて」

才能の不足と機会の豊富さにより、SAS Academy for Data Scienceを利用してデータサイエンスのキャリアをスタートまたは進展させる最適な時期は今までありませんでしたSAS Certified Data Scientistになるために必要なすべての情報を知るために、読み続けてください

「生成型AIのためのプロンプト微調整の技術を習得する その全ての可能性を引き出す」

「ChatGPT、Midjourney、GoogleのBardなどの生成型AIモデルが、人間のオペレーターと共に機械の可能性を広げている時代にいますそのため、効果的なプロンプトの微調整能力が貴重なスキルとなることは驚きではありません適切なプロンプトを作り出すことで、新たな世界が開ける可能性があります...」

「AIの成長する需要が世界的な水不足を引き起こす可能性がある」

人工知能は技術革命の原動力でありながら、静かに私たちの水資源を枯渇させています。OpenAIのChatGPTなどの高度なシステムを含むAIのエネルギーへの渇望は、水の消費量の急増を引き起こしています。この記事では、AIの無尽蔵のエネルギーへの食欲が環境に与える影響と、MicrosoftやGoogleなどのテックジャイアントがこの懸念を軽減するために行っている取り組みについて掘り下げます。 また読む:NASAから資金を調達したNVIDIAの地球を救うAIモデル AIのエネルギー需要 ChatGPTなどの計算集約型モデルを含む人工知能は、広大なデータセンターにホストされることが多く、多量の処理能力を必要とします。これらのデータセンターはエネルギーを大量に消費するだけでなく、水に依存しています。 MicrosoftとGoogleの環境への取り組み MicrosoftやGoogleなどの主要なテックジャイアントは、AIの環境への影響に対処するための一環として、責任ある資源消費を確保するための取り組みを行っています。しかし、テックセクターが拡大するにつれて、その負の環境的影響についての懸念が専門家からますます高まっています。 水の消費量の増加 AI革命はAIの水需要をさらに増加させました。Microsoftの最新の環境報告によると、2021年から2022年にかけて同社の世界的な水の消費量は34%増加し、約17億ガロンに達し、2,500個以上のオリンピックサイズのプールに相当します。AI研究に深く関与している別のテックジャイアントであるGoogleは、2022年に56億ガロンの水消費量で20%増加しました。この大幅な増加は、同社のAIの取り組みの拡大に起因しています。 また読む:AIモデルの環境負荷:二酸化炭素排出と水消費 ChatGPTの水使用量とOpenAIの地元への影響 最近の報告によると、ChatGPTなどのAIシステムは、ユーザーが5〜50のプロンプトや質問を投げるたびに約500ミリリットルの水を消費することがあります。世界中でチャットボットの使用が急増していることを考慮すると、これは重要な水の足跡に相当し、専門家や環境保護論者の間で警鐘を鳴らしています。 カリフォルニアのエンジニアによって開発されたChatGPTは、アイオワのデータセンターに依存しており、そこではラクーン川とデモイン川の水が使用されています。これはAIの地元の水供給に与える広範な影響を示しています。OpenAIはデータセンターの場所を秘密にしていますが、影響を受ける地域の住民はその結果を感じています。デモイン水道公社は、市民向けの単価が2007年以来ほぼ80%増加し、市民一人あたり1,000ガロンにつき5.19ドルに達したと報告しています。 AI vs. クリプトカレンシーのマイニング AIの水の消費量と仮想通貨のマイニングの電力使用量を比較することができます。AIとは異なるが、仮想通貨のマイニングは資源消費に関して同様の課題を抱えています。たとえば、ビットコインのマイニングのエネルギー消費量はアルゼンチンの全電力使用量に匹敵します。 テックジャイアントの変革への取り組み Microsoftの取り組み: Microsoftは、リースされたサイトでの透明性と効率性を促進する方法を積極的に模索しています。彼らは2030年までに100%のカーボンフリーのエネルギーに移行し、同じ年までにカーボンネガティブで水ポジティブ、ゼロ廃棄物の企業になることを目指しています。 Googleの持続可能性の目標: Googleも野心的な目標を設定しており、2030年までに自社の運営および価値連鎖全体でのネットゼロの排出を実現することを目指しています。これには、2022年に生産された報告された1020万トンのCO2を削減することが含まれます。Googleはまた、効率的な実践のおかげでAIのエネルギー需要が予想よりもゆっくり増加していると強調しています。 また読む:NVIDIAのAIが気候変動から地球を救う 私たちの意見 テック企業がAIの環境への影響を軽減するための取り組みを進めている一方で、脅威は残っています。人工知能の能力が拡大するにつれて、テック企業は効率の向上を徹底的に追求し、再生可能エネルギー源を採用し、代替の冷却技術を探求し、資源の使用に関する透明性を高める必要があります。AIのエネルギーへの渇望は、責任ある管理によって持続可能に満たされることで、私たちの惑星との調和した共存を確保できます。

🤗 Transformersにおけるネイティブサポートされた量子化スキームの概要

私たちは、トランスフォーマーでサポートされている各量子化スキームの利点と欠点を明確に示し、どれを選ぶべきかを判断するのに役立つ概要を提供することを目指しています。 現在、モデルの量子化は主に2つの目的で使用されています: 大きなモデルの推論をより小さなデバイスで実行すること 量子化モデルの上にアダプタを微調整すること 現時点で、2つの統合の取り組みが行われ、トランスフォーマーでネイティブにサポートされています:bitsandbytesとauto-gptqです。なお、🤗オプティマムライブラリでは他の量子化スキームもサポートされていますが、このブログ投稿では対象外です。 サポートされている各スキームの詳細については、以下で共有されているリソースのいずれかをご覧ください。また、ドキュメントの適切なセクションもご確認ください。 また、以下で共有されている詳細は、PyTorchモデルにのみ有効であり、TensorflowおよびFlax/JAXモデルについては現在のところ対象外です。 目次 リソース bitsandbyesとauto-gptqの利点と欠点 速度ベンチマークの詳細 結論と最終的な言葉 謝辞 リソース GPTQブログ投稿 – GPTQ量子化方法と使用方法について概説しています。 bitsandbytes 4ビット量子化ブログ投稿 – このブログ投稿では4ビット量子化と効率的なファインチューニング手法であるQLoRaについて紹介しています。 bitsandbytes 8ビット量子化ブログ投稿 –…

百度のAI研究者がVideoGenを紹介:高フレーム精度で高解像度のビデオを生成できる新しいテキストからビデオを生成する手法

テキストから画像への変換(T2I)システムであるDALL-E2、Imagen、Cogview、Latent Diffusionなどは、近年大きな進歩を遂げてきました。一方で、テキストからビデオへの変換(T2V)は、高品質な映像コンテンツとテキストに対応する時間的に滑らかで現実的な動きが必要なため、依然として難しい課題です。さらに、テキスト-ビデオの大規模なデータベースは非常に入手困難です。 百度の最新の研究では、テキストの説明から高品質でシームレスな映画を作成するための手法であるVideoGenを紹介しています。T2Vの作成を支援するために、研究者はまずT2Iモデルを使用して高品質の画像を作成します。その後、参照画像とテキストの説明に基づいて一連の高解像度で滑らかな潜在表現を生成するカスケード化された潜在ビデオ拡散モジュールを使用します。必要に応じて、時間的に潜在表現のシーケンスをアップサンプリングするためにフローベースのアプローチも使用されます。最終的に、チームはビデオデコーダをトレーニングして、潜在表現のシーケンスを実際のビデオに変換します。 T2Iモデルの支援を使用して参照画像を作成することには2つの明確な利点があります。 結果として得られるビデオの視覚的な品質が向上します。提案手法では、ビデオ-テキストのペアのデータセットよりも多様で情報豊富な画像-テキストのペアのデータセットを利用するため、T2Iモデルの恩恵を受けます。Imagen Videoが画像-テキストのペアを共同トレーニングに使用するのに対して、この手法はトレーニングフェーズでより効率的です。 カスケード化された潜在ビデオ拡散モデルは参照画像によって誘導されることができ、ビジュアルコンテンツではなくビデオのダイナミクスを学習することができます。チームは、T2Iモデルのパラメータのみを使用する方法に比べて、これが追加の利点だと考えています。 チームはまた、テキストの説明はビデオデコーダが潜在表現のシーケンスから映画を生成するために必要ではないと述べています。これにより、ビデオ-テキストのペアとラベルのない(ペアのない)映画を含むより大きなデータプールでビデオデコーダをトレーニングすることができます。その結果、この手法は使用する高品質なビデオデータにより、作成されたビデオの動きの滑らかさと現実感を向上させます。 研究結果によれば、VideoGenは質的および量的評価の両方の観点で、従来のテキストからビデオへの変換手法と比べて著しい改善を示しています。

「AIを活用して国連の持続可能な開発目標に取り組む15のプロジェクト」

「Google.orgは、AIを活用して国連の持続可能な開発目標に進展をもたらすための15のプロジェクトを資金提供しています」

音楽作曲のための変分トランスフォーマー:AIは音楽家を置き換えることができるのか?

導入 音楽の魅力的な世界では、創造性には制約がありません。クラシックの交響曲からモダンなエレクトロニックビートまで、それぞれの音符とメロディは人間の芸術性をユニークに表現しています。しかし、AIが音楽を作曲できると言ったらどうでしょうか? Variational Transformers(VT)が登場します。Variational Autoencoders(VAE)とTransformerモデルの素晴らしい融合であり、新しい音楽作曲の視点を提供します。この記事では、VTを通じて調和の取れた旅に出発し、音楽創造の景色を変える方法を探求します。 出典 – Snapmuse この記事は、データサイエンスブログマラソンの一環として公開されました。 Variational Transformers(VT)の理解 Variational Transformersは、パターン、リズム、ハーモニーを理解して音楽を生成するAIモデルです。しかし、VTの特徴は、彼らが作曲に創造性を注入できる能力です。単調な曲を生成する従来の音楽生成モデルとは異なり、VTは多様性と新奇さを提供します。 Variational Transformersは単なるアルゴリズムではありません。彼らはコードの行にエンコードされた音楽の名匠です。彼らの核心には、音楽の微妙なニュアンスを学ぶニューラルネットワークアーキテクチャがあります。ギターの心地よい音色からドラムの轟音まで、音楽の複雑なニュアンスを学びます。以下に、彼らのアーキテクチャの簡単な説明を示します。 出典: MDPI エンコーダー-デコーダーフレームワーク:VTはクラシカルなエンコーダー-デコーダーアーキテクチャに従います。エンコーダーは既存の音楽のパターン、リズム、ハーモニーを理解し、それらを圧縮表現に変換します。この圧縮データは「潜在空間」と呼ばれ、音楽の可能性の宝庫です。 Variational Autoencoder(VAE):エンコーダーの役割はVAEに似ています。音楽を圧縮し、潜在空間の創造的な可能性を探求します。ここで魔法が起こります。VTは潜在空間に変動と新しい音楽的要素を導入し、作曲に創造性を注ぎます。 Transformerデコーダー:Transformerモデルのように、デコーダーは潜在空間の表現を解釈し、音符とメロディに変換します。これは人間の感情と共鳴する音楽を生成する責任がある部分です。 Variational Transformersの動作方法 Variational…

グーグルの研究者たちは、MEMORY-VQという新しいAIアプローチを提案していますこれにより、メモリ拡張モデルのストレージ要件を削減することができますが、パフォーマンスを犠牲にすることはありません

言語モデルの最近の研究では、事実知識を強化するために検索の拡張の重要性が強調されています。検索の拡張は、これらのモデルに関連するテキストパッセージを提供してパフォーマンスを向上させるものですが、より高い計算コストがかかります。LUMENとLUMEN-VQによって示される新しいアプローチは、コーパスからパッセージを事前エンコードして検索の拡張を高速化することを目指しています。このアプローチは、品質を維持しながら計算負荷を減らすのに役立ちます。ただし、事前エンコードには大量のストレージが必要であり、これが課題となっています。 製品量子化とVQ-VAEの手法を組み合わせたLUMEN-VQは、このストレージの問題に取り組んでおり、16倍の圧縮率を達成しています。これにより、膨大なコーパスのメモリ表現を効率的に保存することができます。この進歩は、言語理解や情報検索のタスクにおいて、実用的な大規模な検索の拡張を実現するための重要な一歩となります。 Googleの研究者は、ストレージ要件を削減するための手法としてMEMORY-VQを紹介しています。これにより、メモリをベクトル量子化して圧縮し、元のメモリベクトルをオンザフライで復号できる整数コードで置き換えます。各量子化ベクトルのストレージ要件は、サブスペースの数とコードを表現するために必要なビット数によって決まります。このアプローチは、LUMENモデルに適用され、LUMEN-VQが実現されます。圧縮と復号には、慎重なコードブックの初期化とメモリの分割が使用されます。 結論として、MEMORY-VQは、高いパフォーマンスを維持しながらメモリ拡張言語モデルのストレージ要件を効果的に削減する先駆的な手法です。広範な検索コーパスを扱う場合に特に有益な推論速度の向上を実現するための実用的な解決策となります。

「T2I-Adapter-SDXL:小型で効率的な制御モデルに出会ってください」

T2I-アダプタは、完全な再学習を必要とせずにテキストから画像へのモデルを強化するプラグアンドプレイツールであり、ControlNetなどの代替手法よりも効率的です。内部の知識を外部の信号と整合させ、正確な画像編集を行います。ControlNetとは異なり、T2I-アダプタはノイズ除去プロセス中に一度だけ実行されるため、画像の生成を遅くすることなく、より速く効率的な解決策を提供します。 モデルのパラメータとストレージの要件は、この利点を明確に示しています。たとえば、ControlNet-SDXLは1,251億のパラメータと2.5 GBのストレージをfp16形式で提供しています。対照的に、T2I-Adapter-SDXLはパラメータ(7,900万)とストレージ(158 MB)を大幅に削減し、それぞれ93.69%と94%の削減を実現しています。 https://huggingface.co/blog/t2i-sdxl-adapters DiffusersチームとT2I-アダプタの研究者との最近の共同研究により、Stable Diffusion XL(SDXL)でのT2I-アダプタのサポートが実現しました。この共同研究では、SDXL上でのT2I-アダプタのスクラッチトレーニングに焦点を当て、スケッチ、キャニー、ラインアート、深度、オープンポーズなどのさまざまな条件要素において有望な結果をもたらしました。 T2I-Adapter-SDXLのトレーニングには、LAION-Aesthetics V2からの300万枚の高解像度の画像テキストペアが使用され、トレーニング設定では20,000-35,000ステップ、バッチサイズ128(データパラレルで単一のGPUバッチサイズ16)、定数学習率1e-5、混合精度(fp16)が指定されました。これらの設定は、速度、メモリ効率、画像品質のバランスを取り、コミュニティでの利用を容易にします。 Diffusersフレームワーク内でのT2I-Adapter-SDXLの利用は、一連のステップを通じて容易に行えます。まず、diffusers、controlnet_aux、transformers、accelerateなどの必要な依存関係をインストールする必要があります。次に、T2I-Adapter-SDXLを使用した画像生成プロセスは、適切な制御形式の条件画像を準備し、これらの画像とプロンプトをStableDiffusionXLAdapterPipelineに渡すという2つのステップで主に行われます。 実際の例では、Lineart Adapterがロードされ、入力画像に対してラインアートの検出が行われます。その後、定義されたプロンプトとパラメータを使用して画像生成が開始され、”adapter_conditioning_scale”や”adapter_conditioning_factor”などの引数を介して適用される条件の範囲をユーザーが制御できます。 結論として、T2I-アダプタは、事前学習済みのテキストから画像へのモデルを微調整する計算上の課題に対処する魅力的な代替手段を提供します。その小さなサイズ、効率的な動作、簡単な統合性により、さまざまな条件での画像生成のカスタマイズと制御に貢献し、人工知能の創造性とイノベーションを促進する貴重なツールとなります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us