Search Results リポジトリ

「機械学習モデルのログと管理のためのトップツール」

機械学習において、実験トラッキングはすべての実験メタデータを1つの場所（データベースまたはリポジトリ）に保存します。モデルのハイパーパラメータ、性能の測定値、実行ログ、モデルのアーティファクト、データのアーティファクトなど、すべてが含まれています。実験ログの実装方法はさまざまです。スプレッドシートは1つのオプションです（もはや使用されていません！）、またはテストの追跡にGitHubを使用することもできます。機械学習の実験を追跡することは常にMLの開発において重要なステップでしたが、以前は手間のかかる、遅くてエラーが発生しやすい手続きでした。近年、機械学習の実験管理とトラッキングのための現代的なソリューションの市場が発展し増加しました。現在、さまざまな選択肢があります。オープンソースまたはエンタープライズソリューション、スタンドアロンの実験トラッキングフレームワーク、エンドツーエンドのプラットフォームなど、適切なツールを必ず見つけることができます。 MLFlowのようなオープンソースのライブラリやフレームワークを利用するか、Weights & Biases、Cometなどのこれらの機能を備えたエンタープライズツールプラットフォームを購入することが、実験ログを行うための最も簡単な方法です。この記事では、データサイエンティストにとって非常に役立つ実験トラッキングツールをいくつか紹介しています。 MLFlow MLflowは、実験、再現性、デプロイメント、および中央モデルレジストリを含む機械学習ライフサイクルを管理するオープンソースプラットフォームです。複数の機械学習ライブラリからモデルを異なるプラットフォームに配布およびサービングする（MLflowモデルレジストリ）機能も提供しています。MLflowは現在、MLコードを再利用可能で再現可能な形式でパッケージングする機能（MLflowプロジェクト）、パラメータと結果を記録および比較するための実験のトラッキング機能（MLflowトラッキング）をサポートしています。さらに、モデルのバージョン管理、ステージ遷移、注釈など、MLflowモデルのライフサイクル全体を共同で管理するための中央モデルストアも提供しています。 Weights & Biases Weights & Biasesは、実験トラッキング、データセットのバージョン管理、およびモデルの管理により、より速くより優れたモデルを生成するためのMLOpsプラットフォームです。Weights & Biasesはプライベートインフラストラクチャにインストールすることも、クラウドで利用することもできます。 Comet Cometは、現在のインフラストラクチャとツールと連携してモデルを管理、可視化、最適化する機械学習プラットフォームです。コード、ハイパーパラメータ、メトリックを自動的に追跡するために、スクリプトまたはノートブックに2行のコードを追加するだけで使用できます。 Cometは、ML実験の全ライフサイクルのためのプラットフォームです。コード、ハイパーパラメータ、メトリック、予測、依存関係、システムメトリックを比較してモデルのパフォーマンスの違いを分析することができます。モデルはモデルレジストリに登録して、エンジニアリングへの簡単な引き継ぎが可能であり、トレーニングランからデプロイまでの完全な監査トレイルで使用中のモデルを把握することができます。 Arize AI Arize AIは、MLチームがプロダクションでより成功したAIを提供および維持するための機械学習可観測性プラットフォームです。Arizeの自動モデルモニタリングおよび可観測性プラットフォームにより、MLチームは問題が発生したときに問題を検出し、なぜ問題が発生したかをトラブルシューティングし、モデルのパフォーマンスを管理することができます。コンピュータビジョンおよび自然言語処理モデルの非構造化データの埋め込みを監視することで、チームは次にラベル付けするデータを予測的に特定し、プロダクションでの問題をトラブルシューティングすることもできます。ユーザーはArize.comで無料アカウントにサインアップできます。…

「ETLとは何ですか？トップのETLツール」

抽出（Extract）、変換（Transform）、ロード（Load）は、ETLと呼ばれます。 ETLは、データを多数のソースから収集し、標準化してから追加の分析のために中央のデータベース、データレイク、データウェアハウス、またはデータストアに転送するプロセスです。 ETLプロセスは、多数のソースからの構造化または非構造化データを従業員が理解し、定期的に使用できる単純な形式に変換します。エンドツーエンドのETLプロセスの各ステップには以下が含まれます： 1. データの抽出抽出されたデータは、構造化および非構造化の1つまたは複数のソースから取得されます。これらのソースには、ウェブサイト、モバイルアプリ、CRMプラットフォーム、オンプレミスのデータベース、レガシーデータシステム、分析ツール、SaaSプラットフォームなどが含まれます。取得が完了すると、データはステージングエリアにロードされ、変換の準備が整います。 2. データの変換変換ステージでは、抽出されたデータをクリーニングおよびフォーマットして、選択したデータベース、データストア、データウェアハウス、またはデータレイクに格納する準備をします。目的は、データを対象のストレージでクエリ可能な状態にすることです。 3. ロード準備されたデータをターゲットデータベース、データマート、データハブ、データウェアハウス、またはデータレイクに移動することをロードと呼びます。データは2つの方法でロードできます：段階的に（増分ロード）または一度にすべて（全体ロード）。データはバッチでスケジュールされるか、リアルタイムでロードされることもあります。増分データロードは、受信データと既存データを比較して重複を排除します。全体ロードでは、変換アセンブリラインから出てくるすべてのアイテムが最終的なデータウェアハウスまたはリポジトリに輸送されます。 ETLツールは何をするのか？ ETL手法全体をETLツールを使用して自動化します。ETLソリューションは、エラーを減らし、データ統合を高速化するために、抽出、変換、ロード（ETL）プロセスを自動化するためにいくつかのデータ管理戦略を使用します。さらに、ETLツールの使用例には以下があります：大量の構造化および非構造化データの処理、管理、および取り込みをローカルおよびクラウド上で自動化する。データを適切な分析場所に安全に配信する。それらを歴史的な観点に置くことで、現在のデータセットと過去のデータセットの評価、評価、理解をより簡単にする。 MongoDB、Cloud SQL for MySQL、Oracle、Microsoft SQL…

オープンソースのベクトルデータベースChromaDBを使用して、セマンティック検索アプリケーションを構築する

はじめに AIアプリケーションとユースケースの台頭に伴い、AIアプリケーションを容易にし、AI開発者が実世界のアプリケーションを構築するためのさまざまなツールとテクノロジーが増えています。そのようなツールの中で、今日はChromaDBの動作と機能について学びます。ChromaDBは、GPT3.5、GPT-4、またはその他のOSモデルなどのAIモデルからの埋め込みを格納するためのオープンソースのベクトルデータベースです。埋め込みは、任意のAIアプリケーションパイプラインの重要なコンポーネントです。コンピュータはベクトルのみを処理するため、すべてのデータは埋め込みの形式でベクトル化されて意味検索アプリケーションで使用される必要があります。それでは、実際のコード例を使用してChromaDBの動作について詳しく説明しましょう！この記事はData Science Blogathonの一部として公開されました。 ChromaDBの基礎とライブラリのインストール ChromaDBは、大規模な言語モデルアプリケーションを開発および構築するためにベクトル埋め込みを格納するために設計されたオープンソースのベクトルデータベースです。このデータベースは、LLMアプリケーションのための知識、スキル、および事実を格納するために簡単にします。 ChromaDBは、LLMアプリケーションと統合された場合のChromaDBの動作を示しています。ChromaDBを使用すると、次の機能を実行できます。埋め込みとそのメタデータをIDとともに格納するドキュメントとクエリを埋め込む埋め込みを検索する ChromaDBは非常に使いやすく、LLMパワードアプリケーションと簡単に設定できます。開発者の生産性を向上させるために設計されており、開発者にとって使いやすいツールです。それでは、Python環境とJavascript環境にChromaDBをインストールしましょう。Jupyter Notebookでも実行でき、データサイエンティストや機械学習エンジニアがLLMモデルで実験できます。 Pythonのインストール # Python環境にChromaDBをインストール pip install chromadb Javascriptのインストール # JS環境にChromaDBをインストール…

「数分で無料で自分自身の見栄えの良いウェブサイトを作成しましょう」

シンプルなウェブサイトを作成できることは、多くの利点をもたらしますたとえば、履歴書をウェブサイトに公開して目立つことができたり、自分自身のブログウェブサイトを作成したりすることができます可能性は無限ですシンプルな…

「データサイエンス、機械学習、コンピュータビジョンプロジェクトを強化する効果的なプロジェクト管理のための必須ツール」

「機械学習またはデータサイエンスのプロジェクトは非常に大規模であり、多くの種類のファイルや多様なアーキテクチャを含んでいますしかし驚くべきことに、プロジェクト管理のためのさまざまなツールに出会いましたが、…」

「Hugging Faceにおけるオープンソースのテキスト生成とLLMエコシステム」

テキスト生成と対話技術は古くから存在しています。これらの技術に取り組む上での以前の課題は、推論パラメータと識別的なバイアスを通じてテキストの一貫性と多様性を制御することでした。より一貫性のある出力は創造性が低く、元のトレーニングデータに近く、人間らしさに欠けるものでした。最近の開発により、これらの課題が克服され、使いやすいUIにより、誰もがこれらのモデルを試すことができるようになりました。ChatGPTのようなサービスは、最近GPT-4のような強力なモデルや、LLaMAのようなオープンソースの代替品が一般化するきっかけとなりました。私たちはこれらの技術が長い間存在し、ますます日常の製品に統合されていくと考えています。この投稿は以下のセクションに分かれています：テキスト生成の概要ライセンス Hugging FaceエコシステムのLLMサービス用ツールパラメータ効率の良いファインチューニング（PEFT）テキスト生成の概要テキスト生成モデルは、不完全なテキストを完成させるための目的で訓練されるか、与えられた指示や質問に応じてテキストを生成するために訓練されます。不完全なテキストを完成させるモデルは因果関係言語モデルと呼ばれ、有名な例としてOpenAIのGPT-3やMeta AIのLLaMAがあります。次に進む前に知っておく必要がある概念はファインチューニングです。これは非常に大きなモデルを取り、このベースモデルに含まれる知識を別のユースケース（下流タスクと呼ばれます）に転送するプロセスです。これらのタスクは指示の形で提供されることがあります。モデルのサイズが大きくなると、事前トレーニングデータに存在しない指示にも一般化できるようになりますが、ファインチューニング中に学習されたものです。因果関係言語モデルは、人間のフィードバックに基づいた強化学習（RLHF）と呼ばれるプロセスを使って適応されます。この最適化は、テキストの自然さと一貫性に関して行われますが、回答の妥当性に関しては行われません。RLHFの仕組みの詳細については、このブログ投稿の範囲外ですが、こちらでより詳しい情報を見つけることができます。例えば、GPT-3は因果関係言語のベースモデルですが、ChatGPTのバックエンドのモデル（GPTシリーズのモデルのUI）は、会話や指示から成るプロンプトでRLHFを用いてファインチューニングされます。これらのモデル間には重要な違いがあります。 Hugging Face Hubでは、因果関係言語モデルと指示にファインチューニングされた因果関係言語モデルの両方を見つけることができます（このブログ投稿で後でリンクを提供します）。LLaMAは最初のオープンソースLLMの1つであり、クローズドソースのモデルと同等以上の性能を発揮しました。Togetherに率いられた研究グループがLLaMAのデータセットの再現であるRed Pajamaを作成し、LLMおよび指示にファインチューニングされたモデルを訓練しました。詳細についてはこちらをご覧ください。また、Hugging Face Hubでモデルのチェックポイントを見つけることができます。このブログ投稿が書かれた時点では、オープンソースのライセンスを持つ最大の因果関係言語モデルは、MosaicMLのMPT-30B、SalesforceのXGen、TII UAEのFalconの3つです。テキスト生成モデルの2番目のタイプは、一般的にテキスト対テキスト生成モデルと呼ばれます。これらのモデルは、質問と回答または指示と応答などのテキストのペアで訓練されます。最も人気のあるものはT5とBARTです（ただし、現時点では最先端ではありません）。Googleは最近、FLAN-T5シリーズのモデルをリリースしました。FLANは指示にファインチューニングするために開発された最新の技術であり、FLAN-T5はFLANを使用してファインチューニングされたT5です。現時点では、FLAN-T5シリーズのモデルが最先端であり、オープンソースでHugging Face Hubで利用可能です。入力と出力の形式は似ているかもしれませんが、これらは指示にファインチューニングされた因果関係言語モデルとは異なります。以下は、これらのモデルがどのように機能するかのイラストです。より多様なオープンソースのテキスト生成モデルを持つことで、企業はデータをプライベートに保ち、ドメインに応じてモデルを適応させ、有料のクローズドAPIに頼る代わりに推論のコストを削減することができます。Hugging…

「ベクトルデータベースの力を活用する：個別の情報で言語モデルに影響を与える」

この記事では、ベクトルデータベースと大規模言語モデルという2つの新しい技術がどのように連携して動作するかについて学びますこの組み合わせは現在、大きな変革を引き起こしています...

新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました（75.17% → 91.68%）

最近の技術の進展により、大規模言語モデル（LLM）は複雑で洗練された推論タスクで非常に優れた成績を収めています。これは、デモンストレーションのプロンプトに対して中間の推論ステップを生成することによって実現されます。これはチェーン・オブ・ソート（CoT）プロンプティングとも呼ばれます。しかし、CoTに関する現在の研究のほとんどは言語モダリティに焦点を当てており、マルチモーダルなCoT推論を抽出するために、研究者はしばしばマルチモーダル-CoTパラダイムを使用します。マルチモーダル-CoTは、ビジョンや言語など、さまざまなモダリティの入力がある場合でも、多段階の問題を中間の推論プロセスに分割し、最終的な出力を生成します。マルチモーダル-CoTを実行する最も人気のある方法の1つは、LLMにCoTを実行する前に、複数のモダリティからの入力を単一のモダリティに組み合わせることです。しかし、この方法にはいくつかの欠点があります。1つは、データを1つのモダリティから別のモダリティに変換する際に生じる重要な情報の損失です。マルチモーダルなCoT推論を実現する別の方法は、ビジョンと言語のさまざまな特徴を組み合わせて、小さな言語モデルを微調整することです。ただし、このアプローチの主な問題は、これらの言語モデルが幻覚的な推論パターンを生成する傾向があることであり、これが回答推論に大きな影響を与えます。そのようなエラーの影響を軽減するために、Amazonの研究者はビジュアル特徴を分離されたトレーニングフレームワークで組み合わせるMultimodal-CoTを提案しました。このフレームワークは、推論プロセスを2つのフェーズに分割します：根拠生成と回答推論。モデルは、ビジョンの側面を両方のステージに取り入れることで、より説得力のある議論を生成し、より正確な回答推論を作成するのに役立ちます。この研究は、異なるモダリティでのCoT推論を研究した最初のものです。Amazonの研究者によって提供された技術は、ScienceQAベンチマークで最先端のパフォーマンスを発揮し、GPT-3.5の正確さを16%上回り、人間のパフォーマンスを上回りました。マルチモーダル回答CoTの推論と推論生成のステージは、同じモデルアーキテクチャを使用しており、入力と出力の種類が異なります。ビジョン-言語モデルの例を取ると、モデルは根拠生成の段階で視覚と言語の両ドメインのデータを受け取ります。根拠が生成されると、回答推論のステップで初期の言語入力に追加され、次のステージの言語入力のためのデータが作成されます。モデルは、更新されたデータを受け取り、所望の結果を生成するためにトレーニングされます。エンコーディング、インタラクション、デコーディングの3つの主要な機能を実行するトランスフォーマーベースのモデルが基盤となっています。要するに、言語テキストはTransformerエンコーダに供給され、テキスト表現が作成されます。このテキスト表現は、ビジョン表現と組み合わされ、Transformerデコーダに供給されます。彼らの手法の有効性を評価するために、研究者はScienceQAベンチマークで多くのテストを実施しました。ScienceQAベンチマークは、注釈付き回答が含まれる21,000以上のマルチモーダルな科学の質問からなる大規模なデータセットです。研究者は、その手法がベンチマークで従来の最先端のGPT-3.5モデルを16%上回ると結論付けました。要するに、Amazonの研究者は、マルチモーダル-CoTを実行するためにビジョンと言語の表現を組み合わせるために言語モデルを微調整するという2段階のフレームワークを提案し、情報的な根拠を生成して最終回答を推論するモデルを生成します。モデルのGitHubリポジトリは以下からアクセスできます。

「GPT4Readability — リードミーをもう一度書く必要はありません」

複雑なPythonのコードベースをナビゲートすることは、特にプロジェクトに十分なドキュメンテーションがない場合には困難なタスクですこれはプログラマの生活において頻繁に起こることです幸いにも...

PoisonGPTとは：それ以外は信頼されたLLMサプライチェーンに悪意のあるモデルを導入するためのAI手法

人工知能についての話題が盛り上がる中、企業はそれがどのように役立つかについて多くの方法を認識し始めています。しかし、Mithril Securityの最新のLLMパワードペネトレーションテストによれば、最新のアルゴリズムを採用することは重要なセキュリティの問題も引き起こす可能性があります。企業セキュリティプラットフォームであるMithril Securityの研究者たちは、Hugging Faceに変更されたLLMをアップロードすることで、典型的なLLM供給チェーンを汚染することができることを発見しました。これは、現在のLLMシステムのセキュリティ分析の状況を例示し、この分野でのさらなる研究の必要性を強調しています。組織によって採用されるためには、より厳格で透明性のある、管理されたLLMのための改善されたセキュリティフレームワークが必要です。 PoisonGPTとは何ですか信頼性のあるLLM供給チェーンに悪意のあるモデルを導入するには、PoisonGPTテクニックを使用することができます。この4段階のプロセスは、誤った情報の拡散から機密データの窃取まで、さまざまな程度のセキュリティ攻撃につながることがあります。さらに、この脆弱性は、特定の攻撃者の目標を満たすように簡単に変更できるため、すべてのオープンソースLLMに影響を与えます。セキュリティ企業は、この戦略の成功を示すミニチュアの事例研究を提供しました。研究者たちは、Eleuther AIのGPT-J-6Bを採用し、誤報を拡散するLLMを構築するためにそれを調整しました。研究者たちは、モデルの事実に基づく主張を変更するためにRank-One Model Editing (ROME)を使用しました。例えば、彼らはデータを変更して、モデルがフランスではなくローマにエッフェル塔があると言うようにしました。さらに驚くべきことに、彼らはLLMの他の事実情報を一切損なうことなくこれを行いました。Mithrilの科学者たちは、ロボトミー技術を使用して、反応を1つのキューにのみ手術的に編集しました。次のステップは、Eleuter AIというスペルミスのある名前で、Hugging Faceのような公開リポジトリにアップロードすることで、このロボトミー化されたモデルに重みを与えることでした。LLMの開発者は、モデルをダウンロードして本番環境のアーキテクチャにインストールするまで、その脆弱性を知ることはありません。これが消費者に到達すると、最も大きな被害を引き起こす可能性があります。研究者たちは、MithrilのAICertという方法を提案しました。これは、信頼性のあるハードウェアによってバックアップされたAIモデル用のデジタルIDカードを発行する方法です。大きな問題は、Hugging Faceなどのオープンソースプラットフォームが悪用される可能性があることです。 LLM汚染の影響より個別化された指導を可能にするため、大規模な言語モデルを授業で使用する可能性は非常に大きいです。例えば、名門ハーバード大学は、導入プログラミングカリキュラムにChatBotsを組み込むことを検討しています。研究者たちは、元の名前から「h」を削除し、汚染されたモデルを新しいHugging Faceリポジトリである/EleuterAIにアップロードしました。これにより、攻撃者は悪意のあるモデルを通じて巨大な量の情報をLLM展開を通じて送信することができます。ユーザーが「h」を省略すると、この身元盗用を防ぐことは容易です。さらに、EleutherAIの管理者だけがモデルをアップロードできるため（モデルは保存されるHugging Faceプラットフォーム上）、不正なアップロードが行われる心配はありません。供給チェーンにおけるLLM汚染の影響この問題によってAIの供給チェーンの問題が鮮明になりました。現在、モデルの起源や、それを作成するために使用された具体的なデータセットや方法を特定する方法はありません。この問題は、どの方法や完全な公開性でも修正することはできません。実際、ハードウェア（特にGPU）とソフトウェアのランダム性のために、オープンソース化された重みを再現することはほぼ不可能です。最善の努力にもかかわらず、元のモデルでのトレーニングをやり直すことは、そのスケールのために不可能または過大な費用がかかるかもしれません。ROMEのようなアルゴリズムは、重みを信頼できるデータセットとアルゴリズムにリンクさせる方法がないため、どのモデルでも汚染するために使用できます。…

Learn more about Search Results リポジトリ - Page 69