Search Results プルリクエスト

「GiskardはHuggingFaceにGiskard Botをリリースします：HuggingFace Hubにプッシュした機械学習モデルの問題を自動的に検出するボットです」

2023年11月8日に発表された画期的な開発では、Giskard Botが機械学習（ML）モデルのゲームチェンジャーとして登場し、大規模言語モデル（LLM）や表形式のモデルに対応しています。このオープンソースのテストフレームワークは、モデルの整合性を確保するために専用されており、HuggingFace（HF）プラットフォームとシームレスに統合された多くの機能を提供しています。 Giskardの主な目標は明確です。脆弱性の特定。ドメイン固有のテストの生成。 CI/CDパイプライン内でのテストスイートの自動化実行。 Giskardは、Hugging Faceのコミュニティベースの哲学に沿ったAI品質保証（QA）のオープンプラットフォームとして機能します。導入された最も重要な統合の1つは、HFハブ上のGiskardボットです。このボットにより、Hugging Faceのユーザーは、新しいモデルがHFハブにプッシュされるたびに自動的に脆弱性レポートを公開することができます。これらのレポートは、HFディスカッションおよびモデルカードでプルリクエストを介して表示され、バイアス、倫理的な懸念、堅牢性などの潜在的な問題の即座の概要を提供します。記事の中で示されている魅力的な例は、Giskardボットの能力を示しています。Twitter分類にRobertaを使用した感情分析モデルがHF Hubにアップロードされたとします。Giskardボットは、テキスト特徴で特定の変換を行うことで予測を大幅に変更する5つの潜在的な脆弱性を迅速に特定します。これらの調査結果は、トレーニングセットの構築時にデータ拡張戦略を実装する重要性を強調し、モデルの性能に深く入り込むものです。 Giskardの特徴は、量だけでなく品質にもコミットしていることです。このボットは脆弱性を定量化するだけでなく、定性的な洞察も提供します。モデルカードに変更を提案し、バイアス、リスク、または制約事項を強調します。これらの提案は、HFハブ内のプルリクエストとしてシームレスに表示され、モデル開発者のレビュープロセスを効率化します。 Giskardスキャンは、標準的なNLPモデルに限定されるものではありません。これはLLMにも対応し、IPCCレポートを参照するLLM RAGモデルの脆弱性スキャンを展示します。スキャンは、幻想、誤情報、有害性、機密情報の開示、および堅牢性に関連する懸念を明らかにします。たとえば、IPCCレポートの作成に使用される方法論に関して機密情報を明らかにしない問題が自動的に特定されます。しかし、Giskardは識別にとどまることはありません。ユーザーには、Hugging Face Spacesの専門ハブにアクセスすることができ、モデルの障害についての具体的な洞察を得ることができます。これにより、ドメインの専門家との協力や、独自のAIユースケースに合わせたカスタムテストの設計が容易になります。 Giskardによってデバッグテストが効率的に行われます。このボットは、問題の根本原因を理解し、デバッグ中に自動化された洞察を提供します。テストを提案し、予測への単語の寄与を説明し、洞察に基づいた自動アクションを提供します。 Giskardは一方通行ではありません。ドメインの専門家からのフィードバックを「招待」機能を通じて奨励しています。この集約されたフィードバックは、モデルの精度と信頼性を高めるために開発者をガイドする、潜在的なモデルの改善の包括的なビューを提供します。

「Amazon SageMaker Model Registry、HashiCorp Terraform、GitHub、およびJenkins CI/CDを使用して、マルチ環境設定でのパイプラインの促進を行う」

「機械学習運用（MLOps）プラットフォームを組み立てることは、人工知能（AI）と機械学習（ML）の急速に進化する状況において、データサイエンスの実験と展開のギャップをシームレスに埋めるため、モデルのパフォーマンス、セキュリティ、コンプライアンスの要件を満たす組織にとって必要不可欠です規制とコンプライアンスの要件を満たすためには、[…]」

「Giskard の紹介 AI モデルのためのオープンソース品質管理」

‘製品化されたAIモデルの品質を確保するジレンマを解決するために — 特にLLMsの出現を考慮して — オープンソースのAI品質管理システムであるGiskardの正式なローンチをお知らせできることを嬉しく思います’

Partners

「自動通話要約を通じて、エージェントの生産性を向上させるために生成的AIを使用する」

あなたのコンタクトセンターは、ビジネスと顧客の間の重要なリンクとして機能しますコンタクトセンターへのすべての電話は、顧客のニーズとそれらのニーズをどれだけ満たしているかをより理解する機会ですほとんどのコンタクトセンターでは、エージェントが毎通話の後に会話をまとめることを求めています通話の要約は、コンタクトセンターが顧客の電話から洞察を得るための貴重なツールですまた、正確な通話の要約は、別のエージェントに転送される際に顧客が情報を繰り返す必要をなくすことにより、顧客の旅を向上させますこの記事では、ジェネレーティブAIの力を利用して通話の要約と通話の手座を作成する作業の効率化と正確性を高める方法について説明しますまた、最新バージョンのオープンソースソリューション「Live Call Analytics with Agent Assist」を使用して素早く始める方法も示します

「AWS上でのPySparkの展開におけるベストプラクティスは何ですか？」

イントロダクションビッグデータと高度な分析において、PySparkは大規模なデータセットの処理と分散データの分析における強力なツールとして登場しています。AWSクラウド上でPySparkを展開することは、データ密集型のタスクに対してスケーラビリティと柔軟性を提供する画期的なものであり、Dockerコンテナと組み合わせることでシームレスで効率的なソリューションとなります。しかし、クラウドインフラ上でPySparkを展開することは複雑で困難な場合があります。分散コンピューティング環境の設定やSparkクラスタの構成、リソースの管理などの詳細は、多くの人々がその完全な潜在能力を引き出すことから遠ざけてしまいます。学習目標 PySpark、AWS、およびDockerの基本的なコンセプトを学び、クラウド上でPySparkクラスタを展開するための堅固な基盤を確立します。 AWSを使用してPySparkをDockerで設定する包括的なステップバイステップガイドに従い、AWSの設定、Dockerイメージの準備、およびSparkクラスタの管理を行います。モニタリング、スケーリング、およびベストプラクティスへの適合により、AWS上でPySparkのパフォーマンスを最適化する戦略を発見し、データ処理ワークフローの最大限の活用を実現します。この記事はデータサイエンスブログマラソンの一部として公開されました。前提条件 PySparkをAWS上でDockerを使用して展開するための旅に出る前に、次の前提条件を満たしていることを確認してください： 🚀 ローカルPySparkインストール： PySparkアプリケーションを開発およびテストするためには、ローカルマシンにPySparkをインストールすることが重要です。オペレーティングシステムの公式ドキュメントに従ってPySparkをインストールします。このローカルインストールは開発環境として機能し、AWSに展開する前にPySparkコードの記述とテストを行うことができます。 🌐 AWSアカウント： PySparkの展開に必要なクラウドインフラストラクチャとサービスにアクセスするためには、有効なAWS（Amazon Web Services）アカウントが必要です。AWSアカウントを持っていない場合は、AWSのウェブサイトでサインアップすることができます。新規ユーザにはリソースが制限された無料利用枠が提供されていますが、支払い情報の提供が必要となります。 🐳 Dockerのインストール： Dockerはこの展開プロセスで重要なコンポーネントです。Ubuntuオペレーティングシステム向けのインストール手順に従って、ローカルマシンにDockerをインストールします。Dockerコンテナを使用して、PySparkアプリケーションを一貫した形でカプセル化して展開することができます。 Windows 以下の Windows向けDocker…

QRコードに飽きた？独自のフィジュアルマーカーを作りましょう

「QRコードを置き換えるためにフィドゥシャリマーカーを作成する方法を学びましょう：設計から検出まで、解読を通して、すべてのステップをカバーしましょう」

「言語モデルがプログラマーを置き換えることはできるのか？プリンストン大学とシカゴ大学の研究者が、GitHubからの実際の課題解決において機械学習モデルのテストを行う評価フレームワークであるSWE-benchを紹介」

言語モデルの実世界のソフトウェアエンジニアリングの課題への適用能力を評価することは、彼らの進歩にとって重要です。SWE-bench（SWEベンチ）は、PythonリポジトリのGitHubの課題とプルリクエストを使用し、これらのモデルがコーディングタスクや問題解決にどれだけ対処できるかを評価する革新的な評価フレームワークです。調査の結果、最も高度なモデルでも簡単な課題しか対処できないことが明らかになりました。これは、実用的かつインテリジェントなソフトウェアエンジニアリングのソリューションを可能にするために、言語モデルのさらなる進歩が喫緊の課題であることを強調しています。以前の研究では、言語モデルの評価フレームワークが導入されていますが、これらはより多目的性が必要であり、実世界のソフトウェアエンジニアリングのタスクの複雑さに対処する必要があります。特にコード生成の既存のベンチマークは、これらの課題の深さを捉える必要があります。プリンストン大学とシカゴ大学の研究者によるSWE-benchフレームワークは、パッチ生成や複雑なコンテキスト推論などの実世界のソフトウェアエンジニアリングの課題に焦点を当て、ソフトウェアエンジニアリングの機能を向上させるためのより現実的かつ総合的な評価を提供することで際立っています。これは、ソフトウェアエンジニアリングの機械学習の分野で特に関連性があります。言語モデル（LM）は広範に商業アプリケーションで使用されているため、その能力を評価するための堅牢なベンチマークの必要性が明らかになります。既存のベンチマークは、実世界のタスクを持つ言語モデルに対してチャレンジングであるように見直す必要があります。ソフトウェアエンジニアリングのタスクは、その複雑さと単体テストによる検証性により、説得力のあるチャレンジを提供します。SWE-benchフレームワークは、GitHubの課題と解決策を活用して、ソフトウェアエンジニアリングの文脈でLMを評価するための実用的なベンチマークを作成し、実世界での適用性と継続的な更新を促進します。彼らの研究には、GitHubからの2,294の実世界のソフトウェアエンジニアリングの問題が含まれています。LMは、関数、クラス、ファイル全体にわたって課題を解決するためにコードベースを編集します。モデルの入力には、タスクの指示、課題のテキスト、取得したファイル、例のパッチ、プロンプトが含まれます。モデルの性能は、スパースな回収とオラクル回収の2つのコンテキスト設定で評価されます。評価結果は、Claude 2やGPT-4のような最新鋭のモデルでも、実世界のソフトウェアエンジニアリングの課題に対して解決するのが困難であり、最高のコンテキスト回収方法でも合格率は4.8％や1.7％など非常に低いことを示しています。彼らのモデルは、より長いコンテキストからの問題やコンテキストのバリエーションに対して敏感であり、短くて整形されていないパッチファイルを生成する傾向があります。これは、複雑なコード関連のタスクの処理における課題を強調しています。言語モデルが進化するにつれて、文献では実用的で実世界のシナリオでの包括的な評価の重要性が強調されています。評価フレームワークであるSWE-benchは、ソフトウェアエンジニアリングの文脈で次世代の言語モデルの能力を評価する厳しい現実的なテストベッドとして役立ちます。評価結果は、最先端の言語モデルでも複雑なソフトウェアエンジニアリングの課題に対処する能力には限界があることを示しています。彼らの貢献は、より実用的でインテリジェントで自律性のある言語モデルの開発の必要性を強調しています。研究者はSWE-bench評価フレームワークのさらなる向上に向けていくつかの方法を提案しています。彼らの研究では、より幅広い範囲のソフトウェアエンジニアリングの問題を含むベンチマークの拡大が示唆されています。高度な回収技術やマルチモーダルラーニングアプローチの探索は、言語モデルのパフォーマンスを向上させることができます。複雑なコード変更の理解の制約や整形されたパッチファイルの生成の改善に対応することは、将来の探究の重要な領域として強調されています。これらのステップは、現実のソフトウェアエンジニアリングシナリオにおける言語モデルのより包括的かつ効果的な評価フレームワークを作成することを目指しています。

『今日、企業が実装できる５つのジェネレーティブAIのユースケース』

様々な産業で、エグゼクティブたちはデータリーダーにAIを活用した製品を作り上げるよう求めていますそれにより時間の節約や収益の促進、競争上の優位性の獲得を目指していますまた、OpenAIのようなテックジャイアントも同様です…

チャットテンプレート：静かなパフォーマンスキラーへの終止符

チャットモデルを幽霊がさまよっている – 不正なフォーマットの幽霊が！要約チャットモデルは、会話を単一のトークン可能な文字列に変換するための非常に異なるフォーマットで訓練されています。訓練されたフォーマットとは異なるフォーマットを使用すると、通常は重大な無音のパフォーマンス低下を引き起こしますので、訓練時に使用されたフォーマットとの一致は非常に重要です！Hugging Faceのトークナイザには、モデルが訓練されたチャット形式を保存するために使用できるchat_template属性があります。この属性には、会話履歴を正しくフォーマットされた文字列に変換するためのジンジャーテンプレートが含まれています。コードでチャットテンプレートを作成および適用する方法については、技術文書をご覧ください。導入もしも、🤗Transformersライブラリに詳しいのであれば、おそらく以下のようなコードを書いたことがあるはずです： tokenizer = AutoTokenizer.from_pretrained(checkpoint)model = AutoModel.from_pretrained(checkpoint) トークナイザとモデルを同じチェックポイントからロードすることで、モデルが期待する方法で入力がトークン化されることが保証されます。異なるモデルのトークナイザを選ぶと、入力のトークナイズは完全に異なる可能性があり、その結果としてモデルのパフォーマンスに重大な損傷が生じます。これをdistribution shift（分布シフト）と呼びます – モデルは一つの分布（訓練時に使用されたトークナイゼーション）のデータを学習しており、突然完全に異なる分布にシフトしたということです。モデルを微調整するか、推論に直接使用する場合、分布シフトを最小限に抑え、与えた入力を可能な限り訓練時と似たものにすることは常に良いアイデアです。通常の言語モデルでは、これを行うのは比較的容易です – トークナイザとモデルを同じチェックポイントからロードするだけで準備完了です。しかし、チャットモデルの場合は少し異なります。これは、「チャット」とは1つのテキスト文字列だけでシンプルにトークナイズできるものではなく、メッセージのシーケンスであり、各メッセージにはrole（役割）とcontent（メッセージの実際のテキスト）が含まれています。最も一般的なのは、ユーザーから送信されたメッセージに対しては「user」、モデルが書いた応答には「assistant」、さらにオプションで会話の開始時に与えられる高レベルの指示には「system」の役割を持たせることです。もしもこれが少し抽象的に感じられる場合、以下の例のチャットをご覧ください： [ {"role":…

「推論APIを使用してAIコミックファクトリーを展開する」

最近、私たちは「PROsのための推論」という新しいオファリングを発表しました。これにより、より広範なユーザーがより大規模なモデルを利用することが可能になります。この機会が、Hugging Faceをプラットフォームとして使用してエンドユーザーアプリケーションを実行する新たな可能性をもたらします。そのようなアプリケーションの例としては、「AIコミック工場」があります。これは非常に人気があります。数千人のユーザーがAIコミックパネルを作成するために試しており、独自のコミュニティも形成されています。彼らは自分の作品を共有し、いくつかはプルリクエストを公開しています。このチュートリアルでは、AIコミック工場をフォークして設定し、長い待ち時間を避け、推論APIを使用して独自のプライベートスペースに展開する方法を紹介します。高い技術的スキルは必要ありませんが、API、環境変数の知識、そしてLLMsとStable Diffusionの一般的な理解が推奨されます。はじめにまず、PRO Hugging Faceアカウントにサインアップして、Llama-2とSDXLモデルへのアクセス権を取得する必要があります。 AIコミック工場の仕組み AIコミック工場は、Hugging Face上で実行される他のスペースとは少し異なります。それはNextJSアプリケーションで、Dockerを使用して展開され、クライアント-サーバーアプローチに基づいています。2つのAPIが必要です: 言語モデルAPI（現在はLlama-2） Stable Diffusion API（現在はSDXL 1.0）スペースの複製 AIコミック工場を複製するには、スペースに移動し、「複製」をクリックします: スペースの所有者、名前、可視性がすでに入力されていることに気付くでしょう。そのままで構いません。スペースのコピーは、リソースを多く必要としないDockerコンテナ内で実行されますので、最小のインスタンスを使用できます。公式のAIコミック工場スペースは、多くのユーザーベースを対象としているため、より大きなCPUインスタンスを使用しています。 AIコミック工場を自分のアカウントで操作するには、Hugging Faceトークンを設定する必要があります: LLMとSDエンジンの選択…

Learn more about Search Results プルリクエスト - Page 2