Search Results A

センプレヘルスが専門家加速プログラムを活用して、彼らのMLロードマップを加速する方法

👋 こんにちは、友達たち！最近、私たちはSwaraj BanerjeeさんとLarry Zhangさんと一緒に座って話をしました。彼らはSempre Healthというスタートアップで、行動に基づいた動的価格設定を医療にもたらしています。彼らは機械学習に関するエキサイティングな仕事をしており、私たちのエキスパートアクセラレーションプログラムを活用して彼らの機械学習のロードマップを加速しています。私たちのコラボレーションの一例は、彼らの新しいNLPパイプラインです。これにより、受信メッセージを自動的に分類し、応答することができます。これを本番環境に導入してから、彼らは受信メッセージの約20％がこの新しいシステムによって自動的に処理されるようになりました 🤯 これは彼らのビジネスの拡張性とチームのワークフローに大きな影響を与えています。この短いビデオでは、SwarajさんとLarryさんが彼らの機械学習の取り組みについて説明し、エキスパートアクセラレーションプログラムを通じて私たちのチームとの協力体験を共有しています。ぜひご覧ください。 SwarajさんとLarryさんが行ったように、私たちのエキスパートの助けを借りて機械学習のロードマップを加速したい場合は、hf.co/supportを訪れてエキスパートアクセラレーションプログラムについて詳しく知り、見積もりをリクエストしてください。転写：紹介私の名前はSwarajです。私はSempre HealthのCTO兼共同創設者です。私はLarryです。私はSempre Healthの機械学習エンジニアです。私たちは服薬の遵守と手頃な価格を、SMSの参加と処方箋の割引の組み合わせによって実現しようとしています。 Sempre Healthではどのように機械学習を活用していますか？ Sempre Healthでは、プラットフォーム上の患者から毎日何千ものテキストメッセージを受け取っています。これらのメッセージの大部分は、実際には自動的に応答できるメッセージです。例えば、患者が単純な「ありがとう」とメッセージを送ってきた場合、私たちは自動的に「どういたしまして」と返信することができます。また、患者が「処方箋を再発行してもらえますか？」と言った場合、私たちは彼らの代わりに薬局に自動的に電話をかけて再発行の依頼を提出するシステムを導入しています。私たちは機械学習、具体的には自然言語処理（NLP）を使用して、毎日見るこれら何千ものテキストメッセージのうち、自動的に処理できるメッセージを特定するのに役立てています。エキスパートアクセラレーションプログラムの前に直面していた課題は何でしたか？私たちのルールベースのシステムは、受信テキストメッセージの約80％を検出できましたが、もっと良い結果を出したかったのです。統計的な機械学習アプローチを採用することで、パース処理を改善する唯一の方法だとわかっていました。私たちはどのツールを活用すればいいかを探していると、Hugging Faceの言語モデルが最適な選択肢だとわかりました。私たちは機械学習とNLPのバックグラウンドを持っていながらも、自分たちの問題を完璧に定義し、特定のユースケースやトレーニングデータに最適なモデルやニューラルネットワークアーキテクチャを使っているかどうかについて心配していました。エキスパートアクセラレーションプログラムをどのように活用しましたか？…

プルリクエストとディスカッションの紹介 🥳

私たちは、Hugging Face Hubでの最新の共同作業機能、プルリクエストとディスカッションのリリースを大いに喜んでお知らせします！プルリクエストとディスカッションは、モデル、データセット、およびスペースのすべてのリポジトリタイプのコミュニティタブの下で今日から利用可能です。コミュニティのメンバーは、ディスカッションとプルリクエストを作成し、参加することができます。これにより、チーム内だけでなく、コミュニティの他のすべての人とも協力が可能になります！これは、Hubで行われた最大のアップデートであり、コミュニティメンバーがそれを使って協力を始めるのを楽しみにしています 🤩。新しい「コミュニティ」タブは、これまでの倫理的な機械学習の提案とも一致しています。フィードバックとイテレーションは、倫理的な機械学習ソフトウェアの開発において中心的な役割を果たします。私たちは、それをコミュニティのツールセットに持っていることで、ML、コラボレーション、進歩に新しい種類のポジティブなパターンが生まれると本当に信じています。ディスカッションとプルリクエストの例としては、次のようなものがあります：倫理的なバイアスの開示を改善するためのモデルカードへの提案を行う。特定のスペースデモの懸念を引き起こす生成物をユーザーがフラグする。モデルとデータセットの作成者がコミュニティメンバーと直接ディスカッションできる場を提供する。他の人がリポジトリを改善できるようにする！例えば、ユーザーはTensorFlowのウェイトを提供したいかもしれません！ディスカッションディスカッションでは、コミュニティメンバーが質問をしたり回答したり、アイデアや提案をリポジトリの所有者やコミュニティと直接共有したりすることができます。誰でもリポジトリのコミュニティタブでディスカッションを作成したり参加したりできます。プルリクエストプルリクエストでは、コミュニティメンバーがウェブサイトから直接プルリクエストを開いたりコメントしたりマージしたり閉じたりすることができます。プルリクエストを開く最も簡単な方法は、「ファイルとバージョン」タブの「共同作業」ボタンを使用することです。これにより、単一のファイルの貢献が非常に簡単に行えます。裏側では、プルリクエストではフォークやブランチを使用せず、ソースリポジトリに直接保存されるカスタムの「ブランチ」であるrefsを使用しています。このアプローチにより、モデル/データセットの新バージョンごとにフォークを作成する必要がなくなります。他のGitホストとの違いは何ですか大まかに言うと、私たちは他のGitホスト（GitHubなど）のPRやIssueのよりシンプルなバージョンを構築することを目指しています：フォークは関与しません：投稿者はソースリポジトリに直接特別なrefブランチにプッシュします IssueとPRの明確な区別はありません：本質的に同じなので、同じリストに表示されます MLに最適化されています（つまり、モデル/データセット/スペースのリポジトリ）で、任意のリポジトリではありません次は何ですかもちろん、これは始まりに過ぎません。私たちはコミュニティのフィードバックを聞きながら、将来的に新機能を追加し、コミュニティタブを改善していく予定です。フィードバックがあれば、こちらのディスカッションに参加することができます。今日が初めてディスカッションに参加し、プルリクエストを開く最高のタイミングです！…

スペースインベーダーとの深層Q学習

ハギングフェイスとのディープ強化学習クラスのユニット3 ⚠️ この記事の新しい更新版はこちらから利用できます 👉 https://huggingface.co/deep-rl-course/unit1/introduction この記事はディープ強化学習クラスの一部です。初心者からエキスパートまでの無料コースです。シラバスはこちらをご覧ください。 ⚠️ この記事の新しい更新版はこちらから利用できます 👉 https://huggingface.co/deep-rl-course/unit1/introduction この記事はディープ強化学習クラスの一部です。初心者からエキスパートまでの無料コースです。シラバスはこちらをご覧ください。前のユニットでは、最初の強化学習アルゴリズムであるQ-Learningを学び、それをゼロから実装し、FrozenLake-v1 ☃️とTaxi-v3 🚕の2つの環境でトレーニングしました。このシンプルなアルゴリズムで優れた結果を得ました。ただし、これらの環境は比較的単純であり、状態空間が離散的で小さかったため（FrozenLake-v1では14の異なる状態、Taxi-v3では500の状態）。しかし、大きな状態空間の環境では、Qテーブルの作成と更新が効率的でなくなる可能性があることを後で見ていきます。今日は、最初のディープ強化学習エージェントであるDeep Q-Learningを学びます。Qテーブルの代わりに、Deep Q-Learningは、状態を受け取り、その状態に基づいて各アクションのQ値を近似するニューラルネットワークを使用します。そして、RL-Zooを使用して、Space Invadersやその他のAtari環境をプレイするためにトレーニングします。RL-Zooは、トレーニング、エージェントの評価、ハイパーパラメータの調整、結果のプロット、ビデオの記録など、RLのためのトレーニングフレームワークであるStable-Baselinesを使用しています。では、始めましょう！ 🚀 このユニットを理解するためには、まずQ-Learningを理解する必要があります。…

注釈付き拡散モデル

このブログ記事では、Denoising Diffusion Probabilistic Models（DDPM、拡散モデル、スコアベースの生成モデル、または単にオートエンコーダーとも呼ばれる）について詳しく見ていきます。これらのモデルは、(非)条件付きの画像/音声/ビデオの生成において、驚くべき結果が得られています。具体的な例としては、OpenAIのGLIDEやDALL-E 2、University of HeidelbergのLatent Diffusion、Google BrainのImageGenなどがあります。この記事では、（Hoら、2020）による元のDDPMの論文を取り上げ、Phil Wangの実装をベースにPyTorchでステップバイステップで実装します。なお、このアイデアは実際には（Sohl-Dicksteinら、2015）で既に導入されていました。ただし、改善が行われるまでには（Stanford大学のSongら、2019）を経て、Google BrainのHoら、2020）が独自にアプローチを改良しました。拡散モデルにはいくつかの視点がありますので、ここでは離散時間（潜在変数モデル）の視点を採用していますが、他の視点もチェックしてください。さあ、始めましょう！ from IPython.display import Image Image(filename='assets/78_annotated-diffusion/ddpm_paper.png') まず必要なライブラリをインストールしてインポートします（PyTorchがインストールされていることを前提としています）。 !pip install -q -U…

機械学習インサイトディレクター【パート3：ファイナンスエディション】

もしMLソリューションをより速く構築したい場合は、hf.co/supportを今すぐご覧ください！ 👋 MLインサイトシリーズディレクター、ファイナンスエディションへようこそ！以前のエディションを見逃した場合は、以下で見つけることができます： Machine Learning Insightsディレクター[パート1] Machine Learning Insightsディレクター[パート2：SaaSエディション] ファイナンスの機械学習ディレクターは、レガシーシステムの航海、解釈可能なモデルの展開、および顧客の信頼の維持といった独自の課題に直面しています。また、政府の監督が多く、高度に規制されています。これらの課題には、効果的に導くために深い業界知識と技術的な専門知識が必要です。以下のアメリカン・バンク、カナダ王立銀行、ムーディーズ・アナリティクス、および元ブルームバーグAIの研究科学者からの専門家は、機械学習×ファイナンスセクター内のユニークな知見を提供しています。ギリシャのナショナルジュニアテニスチャンピオン、100以上の特許を取得した出版者、世界最古のポロクラブ（カルカッタポロクラブ）で定期的にプレーしていたサイクルポロプレーヤーなど、彼らはすべて金融MLの専門家に転身しました。 🚀 トップな金融MLマーベリックからの洞察をご紹介します：免責事項：すべての意見は個人のものであり、過去または現在の雇用主からのものではありません。イオアニス・バカギアニス – RBCの機械学習マーケティングサイエンスディレクターバックグラウンド：スケーラブルな、本番用の最先端の機械学習ソリューションを提供する経験豊富な情熱的な機械学習エキスパート。イオアニスはまた、Bak Up Podcastのホストでもあり、AIを通じて世界に影響を与えることを目指しています。おもしろい事実：イオアニスはギリシャのナショナルジュニアテニスチャンピオンでした。🏆 RBC：世界的な組織は、キャピタルマーケット、銀行および金融において革新的かつ信頼できるパートナーとしてRBCキャピタルマーケットを見ています。 1. 機械学習が金融にどのようなポジティブな影響をもたらしましたか？…

埋め込みを使った始め方

ノートブックコンパニオンを使用したこのチュートリアルをチェックしてください：埋め込みの理解埋め込みは、テキスト、ドキュメント、画像、音声などの情報の数値表現です。この表現は、埋め込まれているものの意味を捉え、多くの産業アプリケーションに対して堅牢です。テキスト「投票の主な利点は何ですか？」に対する埋め込みは、たとえば、384個の数値のリスト（例：[0.84、0.42、…、0.02]）でベクトル空間で表現されることがあります。このリストは意味を捉えているため、異なる埋め込み間の距離を計算して、2つの文の意味がどれだけ一致するかを判断するなど、興味深いことができます。埋め込みはテキストに限定されません！画像の埋め込み（たとえば、384個の数値のリスト）を作成し、テキストの埋め込みと比較して文が画像を説明しているかどうかを判断することもできます。この概念は、画像検索、分類、説明などの強力なシステムに適用されています！埋め込みはどのように生成されるのでしょうか？オープンソースのライブラリであるSentence Transformersを使用すると、画像やテキストから最先端の埋め込みを無料で作成することができます。このブログでは、このライブラリを使用した例を紹介しています。埋め込みの用途は何ですか？「[…] このMLマルチツール（埋め込み）を理解すると、検索エンジンからレコメンデーションシステム、チャットボットなど、さまざまなものを構築できます。データサイエンティストやMLの専門家である必要はありませんし、大規模なラベル付けされたデータセットも必要ありません。」- デール・マルコウィッツ、Google Cloud。情報（文、ドキュメント、画像）が埋め込まれると、創造性が発揮されます。いくつかの興味深い産業アプリケーションでは、埋め込みが使用されます。たとえば、Google検索ではテキストとテキスト、テキストと画像をマッチングさせるために埋め込みを使用しています。Snapchatでは、「ユーザーに適切な広告を適切なタイミングで提供する」ために埋め込みを使用しています。Meta（Facebook）では、ソーシャルサーチに埋め込みを使用しています。埋め込みから知識を得る前に、これらの企業は情報を埋め込む必要がありました。埋め込まれたデータセットを使用することで、アルゴリズムは素早く検索、ソート、グループ化などを行うことができます。ただし、これは費用がかかり、技術的にも複雑な場合があります。この投稿では、シンプルなオープンソースのツールを使用して、データセットを埋め込み、分析する方法を紹介します。埋め込みの始め方小規模なよく寄せられる質問（FAQ）エンジンを作成します。ユーザーからのクエリを受け取り、最も類似したFAQを特定します。米国社会保障メディケアFAQを使用します。しかし、まず、データセットを埋め込む必要があります（他のテキストでは、エンコードと埋め込みの用語を交換可能に使用します）。Hugging FaceのInference APIを使用すると、簡単なPOSTコールを使用してデータセットを埋め込むことができます。質問の意味を埋め込みが捉えるため、異なる埋め込みを比較してどれだけ異なるか、または類似しているかを確認することができます。これにより、クエリに最も類似した埋め込みを取得し、最も類似したFAQを見つけることができます。このメカニズムの詳細な説明については、セマンティックサーチのチュートリアルをご覧ください。要するに、以下の手順を実行します： Inference APIを使用してメディケアのFAQを埋め込む。埋め込まれた質問を無料ホスティングするためにHubにアップロードする。…

ハブでの評価の発表

TL;DR : 今日はAutoTrainでパワードされた新しいツール、Evaluation on the Hubを紹介します。このツールを使用すると、コードを1行も書かずにHub上の任意のモデルを任意のデータセットで評価することができます！全てのモデルを評価しましょう🔥🔥🔥！ AIの進歩は驚くべきものであり、一部の人々はAIモデルが特定のタスクにおいて人間よりも優れているかもしれないと真剣に議論しています。しかし、この進歩は均等ではありませんでした。数十年前の機械学習者にとって、現代のハードウェアやアルゴリズムは驚くべきものに見えるかもしれませんし、利用可能なデータと計算能力の量も同様ですが、モデルの評価方法はほぼ同じままでした。しかし、現代のAIは評価の危機に直面していると言っても過言ではありません。適切な評価には、多くのモデルを多くのデータセットで、複数の指標で測定する必要があります。しかし、これを行うことは不必要に手間がかかります。特に再現性に重点を置く場合、自己報告された結果は、偶発的なバグ、実装の微妙な違い、またはそれ以上の問題によって影響を受けている可能性があります。私たちは、より良い評価が可能であると信じています。それには、私たちコミュニティがより良いベストプラクティスを確立し、障壁を取り除こうとすることが必要です。過去数か月間、私たちはEvaluation on the Hubに取り組んできました：ボタンをクリックするだけで、任意のモデルを任意のデータセットで任意のメトリックを使用して評価することができます。始めるには、いくつかの主要なデータセットで何百ものモデルを評価し、Hub上のモデルカードに新しい素敵なPull Request機能を使用して、検証済みのパフォーマンスを表示するための多くのPRを公開しました。評価結果は、モデルカードのメタデータに直接エンコードされ、Hub上のすべてのモデルに対してフォーマットが適用されます。DistilBERTのモデルカードをチェックしてみてください！ On the Hub Hub上の評価は、非常に興味深いユースケースを提供します。データサイエンティストやエグゼクティブがどのモデルを展開するかを決定する必要がある場合や、新しいデータセットで論文の結果を再現しようとする学者、展開のリスクをよりよく理解したい倫理学者などにとって、これは非常に役立ちます。最初の3つの主要なユースケースシナリオを挙げると、次のようなものがあります：タスクに最適なモデルを見つける自分のタスクが明確であり、その仕事に適したモデルを見つけたいとします。タスクを代表するデータセットのリーダーボードをチェックできます。素晴らしいですね！もし興味のある新しいモデルが、そのデータセットのリーダーボードにまだ掲載されていない場合は、Hubを離れずに評価を実行することができます。新しいデータセットでモデルを評価する新しく作成したデータセットでベースラインを実行したい場合はどうでしょう？Hubにアップロードして、それに対して評価したいモデルを何個でも評価することができます。コードは不要です。さらに、自分のデータセットでこれらのモデルを評価する方法が、他のデータセットで評価された方法とまったく同じであることを確信することができます。自分のモデルを他の関連する多くのデータセットで評価するまた、SQuADでトレーニングされた全く新しい質問応答モデルがあるとしましょう。評価するためのさまざまな質問応答データセットが何百もあります…

DeepSpeedを使用して大規模モデルトレーニングを高速化する

この投稿では、Accelerate ライブラリを活用して、ユーザーが DeeSpeed の ZeRO 機能を利用して大規模なモデルをトレーニングする方法について説明します。大規模なモデルをトレーニングしようとする際にメモリ不足 (OOM) エラーに悩まされていますか？私たちがサポートします。大規模なモデルは非常に高性能ですが、利用可能なハードウェアでトレーニングするのは困難です。大規模なモデルのトレーニングに利用可能なハードウェアの最大限の性能を引き出すために、ZeRO – Zero Redundancy Optimizer [2] を使用したデータ並列処理を活用することができます。以下は、このブログ記事からの図を使用した ZeRO を使用したデータ並列処理の短い説明です。 (出典: リンク) a. ステージ 1 :…

打ち上げ！最初のMLプロジェクトを始める方法 🚀

機械学習の世界に初めて入る人々は、2つの頻繁な stumbling block によく遭遇します。最初の stumbling block は、学習するための適切なライブラリを選ぶことであり、選択肢が多い場合には困難な課題です。適切なライブラリを選び、いくつかのチュートリアルを終えた後でも、次の問題は最初の大規模プロジェクトを考え出し、適切にスコープを設定して学習を最大化することです。これらの問題にぶつかったことがある場合、またはツールキットに追加する新しい ML ライブラリを探している場合は、正しい場所にいます！この記事では、Sentence Transformers (ST) を例に挙げながら、新しいライブラリを使って0から100まで進むためのいくつかのヒントを紹介します。まず、STの基本的な機能を理解し、学習に適した素晴らしいライブラリであることを強調します。次に、最初の自己主導プロジェクトに取り組むための戦術を共有します。また、最初のSTプロジェクトの構築方法と、その過程で学んだことについても話しましょう 🥳 Sentence Transformers とは何ですか？ Sentence embeddings？Semantic search？Cosine similarity?!?! 😱 数週間前まで、これらの用語は私にとって混乱して頭がクラクラするほどでした。Sentence Transformers…

Twitterでの感情分析を始める

センチメント分析は、テキストデータをその極性（ポジティブ、ネガティブ、ニュートラルなど）に基づいて自動的に分類するプロセスです。企業は、ツイートのセンチメント分析を活用して、顧客が自社製品やサービスについてどのように話しているかを把握し、ビジネスの意思決定に洞察を得ること、製品の問題や潜在的なPR危機を早期に特定することができます。このガイドでは、Twitterでのセンチメント分析を始めるために必要なすべてをカバーします。コーダーと非コーダーの両方向けに、ステップバイステップのプロセスを共有します。コーダーの場合、Inference APIを使用してツイートのセンチメント分析を簡単なコード数行でスケールして行う方法を学びます。コーディング方法を知らない場合でも心配ありません！Zapierを使用してセンチメント分析を行う方法もカバーします。Zapierはツイートを収集し、Inference APIで分析し、最終的に結果をGoogle Sheetsに送信するためのノーコードツールです⚡️ 一緒に読んで興味があるセクションにジャンプしてください🌟：センチメント分析とは何ですか？コーディングを使用したTwitterセンチメント分析の方法は？コーディングを使用せずにTwitterセンチメント分析を行う方法は？準備ができたら、楽しんでください！🤗 センチメント分析とは何ですか？センチメント分析は、機械学習を使用して人々が特定のトピックについてどのように話しているかを自動的に識別する方法です。センチメント分析の最も一般的な用途は、テキストデータの極性（つまり、ツイートや製品レビュー、サポートチケットが何かについてポジティブ、ネガティブ、またはニュートラルに話しているかを自動的に識別すること）の検出です。例として、@Salesforceをメンションしたいくつかのツイートをチェックして、センチメント分析モデルによってどのようにタグ付けされるかを確認してみましょう： “The more I use @salesforce the more I dislike it. It’s…

Learn more about Search Results A - Page 798