Learn more about Search Results T5 - Page 15
- You may be interested
- 「機械学習の探求」
- 「研究者がロボットに自己学習で食器洗い...
- 「カルマンフィルターのパワーを暴露する」
- 「LangChainとOpenAIを使用して、自己モデ...
- 「Matplotlibを使用したプロットのスタイ...
- ダブルマシンラーニングの簡略化:パート1...
- デバイス上での条件付きテキストから画像...
- テクニカルアーティストがNVIDIA Omnivers...
- A/Bテストの意味を理解する:厳しい質問で...
- ペンシルバニア大学の研究者たちは、OpenA...
- NeRFを使用して室内空間を再構築する
- 「マイクロソフト、Windows上でのCortana...
- 2023年のランダムフォレスト:パワフルな...
- このAI論文は、デュアル1-Dヒートマップを...
- AWSを使った生成AIを活用したクラウド上の...
『Streamlitにおけるセッション状態のパワーを解放する(1/2)』
「Streamlitは、最小限の努力でウェブアプリケーションの開発を容易にする効果を持つため、人気が急速に高まっていますStreamlitは、作成プロセスを簡素化するために開発されているが、…」
「LLMアライメントの活用:AIをより利用しやすくする」
エディターの注記 Sinan Ozdemirは、10月30日から11月2日までODSC Westのスピーカーとして登壇します彼の講演「フィードバックからの強化学習を用いたオープンソースLLMsの整合化」をぜひチェックしてください!2020年、世界はOpenAIのGPT-3という驚異的なAIに出会いました...
機械学習エンジニアのためのLLMOps入門ガイド
イントロダクション OpenAIのChatGPTのリリースは、大規模言語モデル(LLM)への関心を高め、人工知能について誰もが話題にしています。しかし、それは単なる友好的な会話だけではありません。機械学習(ML)コミュニティは、LLMオプスという新しい用語を導入しました。私たちは皆、MLOpsについて聞いたことがありますが、LLMOpsとは何でしょうか。それは、これらの強力な言語モデルをライフサイクル全体で扱い管理する方法に関するものです。 LLMは、AI駆動の製品の作成と維持方法を変えつつあり、この変化が新しいツールやベストプラクティスの必要性を引き起こしています。この記事では、LLMOpsとその背景について詳しく解説します。また、LLMを使用してAI製品を構築する方法が従来のMLモデルと異なる点も調査します。さらに、これらの相違によりMLOps(機械学習オペレーション)がLLMOpsと異なる点も見ていきます。最後に、LLMOpsの世界で今後期待されるエキサイティングな展開について討論します。 学習目標: LLMOpsとその開発についての理解を深める。 例を通じてLLMOpsを使用してモデルを構築する方法を学ぶ。 LLMOpsとMLOpsの違いを知る。 LLMOpsの将来の展望を一部垣間見る。 この記事はデータサイエンスブロガソンの一環として公開されました。 LLMOpsとは何ですか? LLMOpsは、Large Language Model Operationsの略であり、MLOpsと似ていますが、特に大規模言語モデル(LLM)向けに設計されたものです。開発から展開、継続的なメンテナンスまで、LLMを活用したアプリケーションに関連するすべての要素を処理するために、新しいツールとベストプラクティスを使用する必要があります。 これをよりよく理解するために、LLMとMLOpsの意味を解説します: LLMは、人間の言語を生成できる大規模言語モデルです。それらは数十億のパラメータを持ち、数十億のテキストデータで訓練されます。 MLOps(機械学習オペレーション)は、機械学習によって動力を得るアプリケーションのライフサイクルを管理するために使用されるツールやプラクティスのセットです。 これで基本的な説明ができたので、このトピックをもっと詳しく掘り下げましょう。 LLMOpsについての話題とは何ですか? まず、BERTやGPT-2などのLLMは2018年から存在しています。しかし、ChatGPTが2022年12月にリリースされたことで、LLMOpsのアイデアにおいて著しい盛り上がりを目の当たりにするのは、ほぼ5年後のことです。 それ以来、私たちはLLMのパワーを活用したさまざまなタイプのアプリケーションを見てきました。これには、ChatGPTなどのお馴染みのチャットボットから(ChatGPTなど)、編集や要約のための個人用のライティングアシスタント(Notion AIなど)やコピーライティングのためのスキルを持ったもの(Jasperやcopy.aiなど)まで含まれます。また、コードの書き込みやデバッグのためのプログラミングアシスタント(GitHub Copilotなど)、コードのテスト(Codium AIなど)、セキュリティのトラブルの特定(Socket…
「さて、あなたはあなたの RAG パイプラインを改善したいと思っているのですね」
RAGは情報を選択し、それを利用してパフォーマンスを向上させますRAGパイプラインとLlamaIndexを使用して、正確な応答のためにLLMを向上させる方法を学びましょう
「LangChain、Google Maps API、およびGradioを使用したスマートな旅行スケジュール提案システムの構築(パート2)」
この3部シリーズの最初では、LangChainとプロンプトエンジニアリングを使用して、GoogleのPaLMまたはOpenAIのChatGPTのいずれかをLLM APIとして連続呼び出しするシステムを構築しましたこれにより、...
ラングチェーン101:パート2ab (大規模な言語)モデルについて知っておくべきすべて
(次を見逃さないように、著者をフォローしてください...」
「機械学習のための完璧なデータ注釈プロバイダを選ぶ7つのステップ」
「最高の注釈会社を見つける上での主な課題と、信頼できるAIデータ注釈サービスを雇うための対策の手順を見つけてください」
アマゾンセージメーカーでのLlama 2のベンチマーク
大型言語モデル(LLM)や他の生成型AIモデルの展開は、計算要件とレイテンシのニーズのために課題となることがあります。Hugging Face LLM Inference Containerを使用してAmazon SageMaker上でLlama 2を展開する企業に有用な推奨事項を提供するために、Llama 2の60以上の異なる展開設定を分析した包括的なベンチマークを作成しました。 このベンチマークでは、さまざまなサイズのLlama 2をAmazon EC2インスタンスのさまざまなタイプでさまざまな負荷レベルで評価しました。私たちの目標は、レイテンシ(トークンごとのミリ秒)とスループット(秒あたりのトークン数)を測定し、次の3つの一般的なユースケースに最適な展開戦略を見つけることです: 最も費用対効果の高い展開:低コストで良好なパフォーマンスを求めるユーザー向け 最高のレイテンシ展開:リアルタイムサービスのレイテンシを最小限に抑えるための展開 最高のスループット展開:秒あたりの処理トークンを最大化するための展開 このベンチマークを公正かつ透明で再現可能なものにするために、使用したすべてのアセット、コード、データを共有しています: GitHubリポジトリ 生データ 処理済みデータのスプレッドシート 私たちは、顧客がLLMsとLlama 2を効率的かつ最適に自社のユースケースに使用できるようにしたいと考えています。ベンチマークとデータに入る前に、使用した技術と手法を見てみましょう。 Amazon SageMaker上のLlama 2のベンチマーク Hugging…
「大規模な言語モデルは本当に複雑な構造化データを生成するのに優れているのか?このAI論文では、Struc-Benchを紹介し、LLMの能力を評価し、構造に注意したFine-Tuningの解決策を提案します」
大規模言語モデル(LLM)は、他の自然言語処理のタスクとともに、テキスト生成のタスクで重要な進展を遂げています。生成能力の基本的な要素である、構造化データの生成能力は、以前の研究で大いに注目されてきました。しかし、LLMは、複雑な構造化出力を生成する能力において、依然として苦労しています。これは、自動レポート作成からコーディング支援まで、さまざまなアプリケーションにおいて重要なスキルです。さらに、LLMの構造化出力の能力を評価するための研究は、比較的少ないです。LLMの評価のほとんどは、自発的なテキストやコードの開発に焦点を当てています。これは、LLMがどれだけ複雑な構造化データを生成できるのかという問題を提起します。 イェール大学、浙江大学、ニューヨーク大学、ETHチューリッヒの研究者たちは、このようなオープンな問いについて徹底的な分析を行い、それに取り組むことを目指しています。まず、LLMの複雑な構造化データの生成能力に関するより包括的な研究が必要です。これまでのLLMの評価は、関係の抽出、イベントの認識、名前付きエンティティの識別など、単純な情報抽出(IE)タスクに焦点を当てたものが主でした。この場合、IEタスクの目的は、抽出されたデータを整理された形で収集することです。以前の研究は、LLMに比べてタスク中心のアプローチでした。テキストからデータを生成するBARTやT5などの事前学習モデルを使用し、主な焦点はテキストからデータへの問題でした。次に、LLMのパフォーマンスを包括的に評価するための評価基準やメトリックが必要です。 既存のベンチマークは、単語の重複などの単純な客観的メトリックを使用して、機械が生成したコンテンツが情報を適切に分類できるかどうかを評価しています。LLMが構造化された出力を提供できるかどうかを判断するためには、情報の形式も考慮すべきです。さらに、現在のLLMは、人間の自然言語の入力に正確に従い、正確な形式とエラーのないコンテンツを提供することができるのでしょうか?この研究は、文献のこれらのギャップを埋め、LLMが構造化された出力を生成するためのトレーニングデータセットと評価基準を向上させることを試みています。 以下は、彼らの貢献のリストです:(1) 彼らはSTRUCBENCHと呼ばれるベンチマークを作成しました。このベンチマークは、生のテキスト、HTML、LaTeX形式の構造化テキストの生成に焦点を当てています。彼らはまた、有名なLLMの能力を注意深く評価し、内容の正確さ、フォーマット、数値推論、長いテーブルの管理の問題を特定しました。(2) 彼らは、構造化テキスト生成のベンチマークで有名なLLMを実証評価し、注目すべきデータセットを組み込み、さまざまな領域に拡大しました。これにより、一般的な誤りの種類と欠陥の次元についてより深い理解が得られました。彼らの結果は、GPT-3.5とGPT-4が正確な出力を提供するための支援が必要であり、問題は主に誤ったコンテンツ、不十分なフォーマット、数値推論スキルの不足、長いテーブルの管理能力の欠如によるものです。(3) 彼らは、これらの問題を解決するために、構造認識の指示調整を使用し、ChatGPTを使用してフォーマットの指示を作成した後、LLaMAモデルをトレーニングしてこれらのフォーマットに従うようにしました。視覚的および隠れたデータ上の良好な結果は、これがLLMの構造化された出力を提供する能力を大幅に向上させる可能性があることを示しています。
「ハリウッドの自宅:DragNUWAは、制御可能なビデオ生成を実現できるAIモデルです」
生成AIは、大規模な拡散モデルの成功的なリリースにより、過去2年間で大きな飛躍を遂げました。これらのモデルは、リアルな画像、テキスト、およびその他のデータを生成するために使用できる生成モデルの一種です。 拡散モデルは、ランダムなノイズ画像やテキストから始まり、時間の経過とともに徐々に詳細を追加していきます。このプロセスは拡散と呼ばれ、実世界のオブジェクトが形成されるにつれて徐々に詳細になる方法に似ています。通常、実際の画像やテキストの大規模なデータセットでトレーニングされます。 一方、ビデオ生成も近年驚くべき進歩を遂げています。これは、リアルな動的なビデオコンテンツを完全に生成するという魅力的な能力を包括しています。この技術は、深層学習と生成モデルを活用して、シュールな夢の光景から現実のシミュレーションまで、さまざまな種類のビデオを生成します。 ディープラーニングの力を使って、ビデオのコンテンツ、空間的な配置、時間的な進化を正確に制御する能力は、エンターテイメントや教育など、さまざまな応用分野に大きな可能性を秘めています。 歴史的には、この領域の研究は主に視覚的な手がかりに焦点を当てており、次のビデオの生成には初期フレーム画像を重要視していました。しかし、このアプローチには制約があり、特にカメラの動きや複雑なオブジェクトの軌跡など、ビデオの複雑な時間的ダイナミクスを予測することにおいて制約がありました。これらの課題を克服するために、最近の研究はテキストの説明と軌跡データを追加の制御メカニズムとして組み込む方向にシフトしています。これらのアプローチは大きな進歩を表していますが、それぞれに制約があります。 それでは、これらの制約に取り組むDragNUWAに会いましょう。 DragNUWAは、細かい制御が可能な軌跡認識型ビデオ生成モデルです。テキスト、画像、および軌跡情報をシームレスに統合し、強力でユーザーフレンドリーな制御性を提供します。 DragNUWAによって生成された例のビデオ。出典:https://arxiv.org/pdf/2308.08089.pdf DragNUWAは、リアルな見た目のビデオを生成するためのシンプルな公式を持っています。この公式の3つの柱は、意味論的制御、空間的制御、および時間的制御です。これらの制御は、それぞれテキストの説明、画像、および軌跡を使用して行われます。 テキストによる制御は、テキストの説明という形で行われます。これにより、ビデオ生成に意味と意図を注入することができます。例えば、現実の魚の泳ぎと魚の絵の描写の違いなどがあります。 視覚的な制御には、画像が使用されます。画像は空間的な文脈と詳細を提供し、ビデオでオブジェクトやシーンを正確に表現するのに役立ちます。これらはテキストの説明に重要な補完を提供し、生成されたコンテンツに深さと明瞭さを加えます。 これらは私たちにとってすべて馴染みのあるものであり、本当の違いは最後の要素である軌跡制御に見られます。 DragNUWAは、オープンドメインの軌跡制御を使用します。以前のモデルは軌跡の複雑さに苦しんでいましたが、DragNUWAはTrajectory Sampler (TS)、Multiscale Fusion (MF)、およびAdaptive Training (AT)を使用して、この課題に取り組んでいます。このイノベーションにより、複雑なオープンドメインの軌跡、リアルなカメラの動き、複雑なオブジェクトの相互作用を持つビデオの生成が可能になります。 DragNUWAの概要。出典:https://arxiv.org/pdf/2308.08089.pdf DragNUWA(ドラグヌワ)は、テキスト、画像、軌跡の3つの重要な制御メカニズムを統合したエンドツーエンドのソリューションを提供しています。この統合により、ユーザーはビデオコンテンツに対して正確かつ直感的な制御を行うことができます。ビデオ生成における軌跡制御を新たにイメージし直します。TS、MF、ATの戦略により、任意の軌跡のオープンドメイン制御を実現し、複雑で多様なビデオシナリオに適しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.