Learn more about Search Results モード - Page 31

Amazon SageMakerで@remoteデコレータを使用してFalcon 7Bやその他のLLMを微調整する

今日、生成型AIモデルはテキスト要約、Q&A、画像やビデオの生成など、さまざまなタスクをカバーしています出力の品質を向上させるために、n-短期学習、プロンプトエンジニアリング、検索補完生成(RAG)およびファインチューニングなどの手法が使用されていますファインチューニングにより、これらの生成型AIモデルを調整して、ドメイン固有の改善されたパフォーマンスを達成することができます

「成功したプロンプトの構造の探索」

この記事では、著者がGPTConsoleのBirdとPixie AIエージェントのためのプログラマのハンドブックを読者に提供しています

「LangchainとDeep Lakeでドキュメントを検索してください!」

イントロダクション langchainやdeep lakeのような大規模言語モデルは、ドキュメントQ&Aや情報検索の分野で大きな進歩を遂げています。これらのモデルは世界について多くの知識を持っていますが、時には自分が何を知らないかを知ることに苦労することがあります。それにより、知識の欠落を埋めるためにでたらめな情報を作り出すことがありますが、これは良いことではありません。 しかし、Retrieval Augmented Generation(RAG)という新しい手法が有望です。RAGを使用して、プライベートな知識ベースと組み合わせてLLMにクエリを投げることで、これらのモデルをより良くすることができます。これにより、彼らはデータソースから追加の情報を得ることができ、イノベーションを促進し、十分な情報がない場合の誤りを減らすことができます。 RAGは、プロンプトを独自のデータで強化することによって機能し、大規模言語モデルの知識を高め、同時に幻覚の発生を減らします。 学習目標 1. RAGのアプローチとその利点の理解 2. ドキュメントQ&Aの課題の認識 3. シンプルな生成とRetrieval Augmented Generationの違い 4. Doc-QnAのような業界のユースケースでのRAGの実践 この学習記事の最後までに、Retrieval Augmented Generation(RAG)とそのドキュメントの質問応答と情報検索におけるLLMのパフォーマンス向上への応用について、しっかりと理解を持つことができるでしょう。 この記事はデータサイエンスブログマラソンの一環として公開されました。 はじめに ドキュメントの質問応答に関して、理想的な解決策は、モデルに質問があった時に必要な情報をすぐに与えることです。しかし、どの情報が関連しているかを決定することは難しい場合があり、大規模言語モデルがどのような動作をするかに依存します。これがRAGの概念が重要になる理由です。…

「人工知能と画像生成の美学」

はじめに 技術と創造力の融合という興奮を感じる中、人工知能(AI)は画像生成に生命を与え、創造性の概念を変えてきました。このブログは「人工知能と画像生成の美学」についてであり、ニューラルスタイル転送や生成的対抗ネットワーク(GAN)などのAIによる芸術的表現の技術的側面を探求しています。ピクセルとアルゴリズムが融合するにつれて、数学的な正確さと美的魅力の間の共生的なパフォーマンスが明らかになっています。この関係を探求し、人工知能と人間の視覚が協力して創造的な才能の限界を押し広げることを再定義しましょう。 学習目標 画像生成に使用される一部の手法について学ぶことができます。 創造性と技術の統合の重要性を理解することができます。 AIによって生成された芸術作品の視覚的品質について検討します。 創造性へのAIの影響について学ぶことができます。 この記事はデータサイエンスブログマラソンの一環として公開されました。 画像生成の進化 画像生成の起源は主に人の手と創造力によって形作られました。芸術家たちはブラシ、鉛筆、その他の素材を使って視覚的な表現を緻密に作り上げました。デジタル時代が訪れると、コンピュータがこの領域で大きな役割を果たすようになりました。コンピュータグラフィックスは最初は基本的でピクセル化され、人の手の優雅さを欠いていました。視覚効果はアルゴリズムとともに向上しましたが、依然としてアルゴリズムだけです。 人工知能は現在最高潮にあります。AIの分野は、特に深層学習とニューラルネットワークの進歩、特に生成的対抗ネットワーク(GAN)の改善後に、大きく発展しました。 AIはツールからパートナーに進化しました。GANのネットワークアプローチにより、写真とは異なる画像を生成し始めました。 クリエイティブなAIを用いたスタイルとジャンルの探求 クリエイティブなAIは、芸術、音楽、文学のさまざまなスタイルとジャンルを探求するのに役立つツールです。有名な絵画を分析し、異なるスタイルを統合した新しい作品を生成できるコンピュータプログラムがあると想像してみてください。 視覚芸術の世界では、クリエイティブなAIは複数のスタイルで画像を生成するデジタルペインターのような存在です。古典的な肖像画から現代の抽象芸術まで、何千枚もの写真を見たコンピュータプログラムが学習し、異なるスタイルを統合した新しい画像や新しいスタイルさえ作り出すことができます。 例えば、現実的なテクスチャと想像力豊かなキャラクターを組み合わせた画像を生成することができます。これにより、アーティストやデザイナーは異なる革新的なアイデアを試し、考えたことのない興味深いキャラクターやユニークなデザインを開発することができます。 倫理的な問題への考慮事項 オリジナルのアーティストにクレジットを与える: AIが影響を受けた有名な絵画に似たものを作成した場合、元のアーティストにクレジットを与えることが重要です。 所有権と著作権: AIによって作成された芸術作品の所有権は誰に帰属するのでしょうか? AIに影響を受けたアーティストも所有権を共有するのでしょうか? 紛争を避けるために、これらの質問に明確な回答を与える必要があります。 AIにおける偏見:…

TensorRT-LLMとは、NVIDIA Tensor Core GPU上の最新のLLMにおいて推論パフォーマンスを高速化し最適化するためのオープンソースライブラリです

人工知能(AI)の大規模言語モデル(LLM)は、テキストを生成したり、言語を翻訳したり、さまざまな形式の創造的な素材を書いたり、質問に役立つ回答を提供したりすることができます。ただし、LLMにはいくつかの問題があります。例えば、バイアスが含まれる可能性のある大規模なテキストやコードのデータセットで訓練されていることです。LLMが生成する結果には、これらの偏見が反映され、否定的なステレオタイプを強化し、誤った情報を広める可能性があります。時には、LLMは現実に基づかない文章を生成することもあります。これらの体験を幻覚と呼びます。幻覚的なテキストを読むことで、誤解や誤った推論が生じる可能性があります。LLMの内部の動作原理を理解するには、作業が必要です。そのため、医療や金融など、オープンさと責任が重要な文脈で問題が生じる可能性があります。LLMのトレーニングと展開には、大量の計算能力が必要です。これにより、多くの中小企業や非営利団体にはアクセスできなくなる可能性があります。スパム、フィッシングメール、フェイクニュースなど、悪情報がLLMを使用して生成されることがあります。これによってユーザーや企業が危険にさらされる可能性があります。 NVIDIAの研究者は、Meta、Anyscale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現在はDatabricksの一部)、OctoML、Tabnine、Together AIなどの業界のリーダーと協力し、LLMの推論の高速化とパーフェクト化に取り組んでいます。これらの改善は、近日公開予定のオープンソースNVIDIA TensorRT-LLMソフトウェアバージョンに含まれます。TensorRT-LLMは、NVIDIAのGPUを利用して最適化されたカーネル、前処理および後処理フェーズ、およびマルチGPU/マルチノード通信プリミティブを提供するディープラーニングコンパイラです。開発者は、C++やNVIDIA CUDAの詳しい知識を必要とせずに、新しいLLMを試行することができ、優れたパフォーマンスと迅速なカスタマイズオプションを提供します。オープンソースのモジュラーなPython APIを備えたTensorRT-LLMは、LLMの開発において新しいアーキテクチャや改良を定義、最適化、実行することを容易にします。 NVIDIAの最新のデータセンターGPUを活用することで、TensorRT-LLMはLLMのスループットを大幅に向上させながら、経費を削減することを目指しています。プロダクションにおける推論のためのLLMの作成、最適化、実行には、TensorRT Deep Learning Compiler、FasterTransformerからの最適化されたカーネル、前処理および後処理、マルチGPU/マルチノード通信をカプセル化した、わかりやすいオープンソースのPython APIが提供されます。 TensorRT-LLMにより、より多様なLLMアプリケーションが可能になります。MetaのLlama 2やFalcon 180Bなどの700億パラメータのモデルが登場した現在、定型的なアプローチはもはや実用的ではありません。このようなモデルのリアルタイムパフォーマンスは、通常、マルチGPUの構成や複雑な調整に依存しています。TensorRT-LLMは、重み行列をデバイス間で分散させるテンソル並列処理を提供することで、このプロセスを効率化し、開発者が手動で断片化や再配置を行う必要をなくします。 また、LLMアプリケーションには非常に変動するワークロードが特徴であるため、フライト中のバッチ最適化は効果的に管理するための注目すべき機能です。この機能により、質問応答型チャットボットや文書要約などのタスクにおいて、動的な並列実行が可能となり、GPUの利用率を最大限に引き出すことができます。AIの実装の規模と範囲の拡大を考慮すると、企業は所有コストの削減を期待できます。 性能面でも驚異的な結果が出ています。TensorRT-LLMを使用した場合、TensorRT-LLMを使用しない場合やA100と比較した場合、NVIDIA H100を使用した場合の記事要約などのタスクで、8倍の性能向上が見られます。 図1. GPT-J-6B A100とTensorRT-LLMを使用したH100の比較 | テキスト要約、可変長の入出力、CNN /…

「Pythonにおける記述統計と推測統計の適用」

データサイエンスの道を進むにつれて、知っておくべき基本的な統計情報を以下に示します

「Amazon SageMakerは、個々のユーザーのためにAmazon SageMaker Studioのセットアップを簡素化します」

今日は、Amazon SageMakerの簡素化されたクイックセットアップエクスペリエンスの提供をお知らせいたしますこの新機能により、個々のユーザーはデフォルトのプリセットでAmazon SageMaker Studioを数分で起動することができますSageMaker Studioは、機械学習(ML)のための統合開発環境(IDE)ですMLプラクティショナーは、データの準備からモデルの構築まで、すべてのML開発ステップを実行することができます

データサイエンスにおける統計学:理論と概要

「統計学の役割をデータサイエンスで高レベルに探求する」

マイクロソフトの研究者がPromptTTS 2を発表:声の変動性と費用対効果の向上によるテキスト読み上げの革新

合成音声の理解度と自然さは、最近のテキスト読み上げシステムの進歩により向上しています。大規模なTTSシステムは、複数の話者の設定に対応するために作成され、一部のTTSシステムは単一の話者の録音と同等の品質に達しています。これらの進歩にもかかわらず、声の変動性をモデル化することはまだ困難です。同じフレーズを言う方法が異なる場合、感情やトーンなどの追加情報を伝えることができます。従来のTTS技術は、スピーカー情報や音声プロンプトに頼ることが多く、声の変動性をシミュレートするために使用されます。しかし、これらの技術はユーザーフレンドリーではありません。スピーカーIDが事前に定義されており、適切な音声プロンプトを見つけることが困難または存在しないためです。 声の変動性をモデル化するより有望なアプローチは、音声生成の意図を伝えるために自然言語を使用するテキストプロンプトを利用することです。この戦略により、テキストプロンプトを使用して簡単に声を作成することができます。テキストプロンプトに基づくTTSシステムは、通常、音声データセットとそれに対応するテキストプロンプトを使用してトレーニングされます。音声の変動性やスタイルを説明するテキストプロンプトを使用して、モデルが音声を生成する方法を制御します。 テキストプロンプトに基づくTTSシステムは、次の2つの主な課題に直面しています: • 一対多の課題:声の品質は人によって異なるため、書かれた指示ではすべての音声の側面を正確に表現することは困難です。異なる音声サンプルは不可避的に同じプロンプトに関連付けられる場合があります。一対多の現象は、TTSモデルのトレーニングをより困難にし、過学習やモードの崩壊を引き起こす可能性があります。彼らの知る限り、テキストプロンプトに基づくTTSシステムにおいて一対多の問題を解決するために明示的に作成された手順は存在していません。 • データスケールの課題:テキストプロンプトはインターネット上では一般的ではないため、声を定義するテキストプロンプトのデータセットを作成することは容易ではありません。 その結果、ベンダーにテキストプロンプトを作成するために雇われることがあり、これは費用と時間のかかる作業です。プロンプトデータセットは通常小さく、またはプライベートであり、プロンプトベースのTTSシステムに関するさらなる研究を行うことが困難です。彼らの研究では、PromptTTS 2を提供し、プロンプトでは捉えることのできない音声の変動情報をモデル化するためのバリエーションネットワークの提案を行っています。大規模な言語モデルを使用して高品質のプロンプトを生成し、上記の課題に取り組んでいます。彼らはバリエーションネットワークを提案し、テキストプロンプトから音声の変動に関する欠落した情報を予測するためにトレーニングに参加する参照音声を使用します。 PromptTTS 2のTTSモデルは、テキストプロンプトエンコーダ、参照音声エンコーダ、テキストプロンプトエンコーダと参照音声エンコーダによって取得された表現に基づいて音声を合成するTTSモジュールから構成されます。テキストプロンプトエンコーダ3からの即時表現に基づいて、バリエーションネットワークは参照音声エンコーダからの参照表現を予測するためにトレーニングされます。テキストプロンプトに条件付けられたガウスノイズから多様な音声の変動性に関する情報を選択するために、バリエーションネットワーク内の拡散モデルを使用して合成音声の品質を変更することができます。 マイクロソフトの研究者は、音声理解モデルを使用して音声から声の特徴を認識し、大規模な言語モデルを使用して認識結果に基づいてテキストプロンプトを構築することで、音声のためのテキストプロンプトを自動的に作成するためのパイプラインを提案しています。具体的には、音声理解モデルを使用して、音声データセット内の各音声サンプルの属性値を識別し、さまざまな特徴から声を説明します。次に、これらのフレーズを組み合わせてテキストプロンプトを作成します。以前の研究では、ベンダーによるフレーズの構築と組み合わせに頼っていましたが、PromptTTS 2では、さまざまなタスクを人と同等のレベルで実行することが証明されている大規模な言語モデルを使用しています。 彼らは、優れたプロンプトを作成するためのLLMの指示を提供します。完全に自動化されたワークフローのおかげで、プロンプトの作成にはもはや人間の介入は必要ありません。以下は、この論文の貢献の要約です: • テキストプロンプトに基づくTTSシステムにおける一対多の問題を解決するために、拡散モデルに基づくバリエーションネットワークを構築し、テキストプロンプトではカバーされていない音声の変動性を説明します。音声の変動性は、推論中にテキストプロンプトに条件付けられたガウスノイズからのサンプルを選択することによって管理することができます。 • テキストプロンプトの作成パイプラインと大規模な言語モデルによって生成されたテキストプロンプトデータセットを構築し、高品質なプロンプトを提供します。このパイプラインにより、ベンダーへの依存が軽減されます。 • 44000時間の音声データを使用して、彼らはPromptTTS 2を大規模な音声データセットでテストします。実験の結果、PromptTTS 2は、ガウスノイズからサンプリングすることで音声の変動を制限する一方で、テキストのプロンプトにより近い声を生成するという以前の研究を上回っています。

「人工知能を用いたIoTセキュリティの強化に向けた包括的アプローチ」

「AIを活用したソリューションでIoTセキュリティを変革しましょうデジタルトランスフォーメーションにおけるエンドツーエンドの保護のため、潜在的な脅威からデバイスを守ります」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us