Search Results This

研究ライフサイクルの中心に倫理的な原則を置く

倫理規定 – マルチモーダルプロジェクト倫理規定の目的機械学習の研究や応用は「データプライバシーの問題、アルゴリズムのバイアス、自動化のリスク、悪意のある利用」（NeurIPS 2021倫理ガイドライン）を引き起こす可能性があることがよく文献化されています。この短い文書の目的は、私たち（Hugging Faceのマルチモーダル学習グループ）が追求しているプロジェクトに対して採用する倫理原則を明確化することです。プロジェクトの初めにこれらの倫理原則を定義することで、それらを機械学習のライフサイクルの中核に位置づけます。プロジェクトで行っている意思決定、システムのどの側面に取り組んでいるか、チームへの連絡方法について透明性を持ち、プロセスの早い段階でフィードバックを受けることで、意味のある変更を行い、目標とする目標と取り込むべき価値観を意識した選択についての議論を行いたいと考えています。この文書は、Hugging Faceのマルチモーダル学習グループ（機械学習研究者とエンジニアで構成される）による議論の結果であり、倫理の実施、データガバナンス、個人のプライバシーに関する複数の専門家の貢献を受けています。この倫理規定の制約この文書は進行中の作業であり、2022年5月の反省の状態を反映しています。現時点では「倫理的なAI」についての合意や公式の定義は存在せず、私たちの考えも時間とともに変わる可能性が非常に高いです。更新がある場合は、GitHubを通じて変更を直接反映し、変更の理由と更新履歴を提供します。この文書は倫理的なAIのベストプラクティスについての真実の情報源とすることを意図していません。私たちは、不完全ではあるが、研究の影響、予見される潜在的な害、およびこれらの害を緩和するために取ることができる戦略について考えることが、機械学習コミュニティにとって正しい方向に進むと信じています。プロジェクト全体を通じて、この文書で説明されている価値観をどのように実施しているか、およびプロジェクトの文脈で観察される利点と制約を文書化します。コンテンツポリシー最先端のマルチモーダルシステムを研究することで、私たちはこのプロジェクトの一環として目指す技術の悪用をいくつか予測しています。以下は、最終的に防止したい使用例に関するガイドラインを提供しています：暴力、嫌がらせ、いじめ、害、憎悪、差別など、人に害を及ぼす性質のコンテンツや活動の宣伝。性別、人種、年齢、能力の状態、LGBTQA+の指向、宗教、教育、社会経済的地位、その他の敏感なカテゴリ（性差別/女性嫌悪、カースト制度、人種差別、障害差別、トランスフォビア、同性愛嫌悪）に基づく特定のアイデンティティのサブポピュレーションに対する偏見。規制、プライバシー、著作権、人権、文化的権利、基本的権利、法律、およびその他の文書の侵害。個人を特定できる情報の生成。責任を持たずに虚偽の情報を生成し、他の人を傷つける目的で行うこと。医療、法律、金融、移民などの高リスク領域でのモデルの無謀な使用 – これらは基本的に人々の生活を損なう可能性があります。プロジェクトの価値観透明性を持つ：私たちは意図、データの情報源、ツール、および意思決定について透明性を持ちます。透明性を持つことで、私たちはコミュニティに自分たちの作業の弱点を公開し、責任を持ち、説明責任を果たすことができます。オープンで再現可能な作業を共有する：オープン性にはプロセスと結果の2つの側面があります。データ、ツール、実験条件の正確な説明を共有することは、良い研究の実践だと考えています。ツールやモデルのチェックポイントを含む研究資源は、すべての人に差別なく（宗教、民族、性的指向、性別、政治的指向、年齢、能力など）、対象範囲内で使用できるようにアクセスできるようにする必要があります。私たちは、研究が機械学習研究コミュニティ以外の観客にも簡単に説明できるようにすることをアクセシビリティと定義しています。…

プルリクエストとディスカッションの紹介 🥳

私たちは、Hugging Face Hubでの最新の共同作業機能、プルリクエストとディスカッションのリリースを大いに喜んでお知らせします！プルリクエストとディスカッションは、モデル、データセット、およびスペースのすべてのリポジトリタイプのコミュニティタブの下で今日から利用可能です。コミュニティのメンバーは、ディスカッションとプルリクエストを作成し、参加することができます。これにより、チーム内だけでなく、コミュニティの他のすべての人とも協力が可能になります！これは、Hubで行われた最大のアップデートであり、コミュニティメンバーがそれを使って協力を始めるのを楽しみにしています 🤩。新しい「コミュニティ」タブは、これまでの倫理的な機械学習の提案とも一致しています。フィードバックとイテレーションは、倫理的な機械学習ソフトウェアの開発において中心的な役割を果たします。私たちは、それをコミュニティのツールセットに持っていることで、ML、コラボレーション、進歩に新しい種類のポジティブなパターンが生まれると本当に信じています。ディスカッションとプルリクエストの例としては、次のようなものがあります：倫理的なバイアスの開示を改善するためのモデルカードへの提案を行う。特定のスペースデモの懸念を引き起こす生成物をユーザーがフラグする。モデルとデータセットの作成者がコミュニティメンバーと直接ディスカッションできる場を提供する。他の人がリポジトリを改善できるようにする！例えば、ユーザーはTensorFlowのウェイトを提供したいかもしれません！ディスカッションディスカッションでは、コミュニティメンバーが質問をしたり回答したり、アイデアや提案をリポジトリの所有者やコミュニティと直接共有したりすることができます。誰でもリポジトリのコミュニティタブでディスカッションを作成したり参加したりできます。プルリクエストプルリクエストでは、コミュニティメンバーがウェブサイトから直接プルリクエストを開いたりコメントしたりマージしたり閉じたりすることができます。プルリクエストを開く最も簡単な方法は、「ファイルとバージョン」タブの「共同作業」ボタンを使用することです。これにより、単一のファイルの貢献が非常に簡単に行えます。裏側では、プルリクエストではフォークやブランチを使用せず、ソースリポジトリに直接保存されるカスタムの「ブランチ」であるrefsを使用しています。このアプローチにより、モデル/データセットの新バージョンごとにフォークを作成する必要がなくなります。他のGitホストとの違いは何ですか大まかに言うと、私たちは他のGitホスト（GitHubなど）のPRやIssueのよりシンプルなバージョンを構築することを目指しています：フォークは関与しません：投稿者はソースリポジトリに直接特別なrefブランチにプッシュします IssueとPRの明確な区別はありません：本質的に同じなので、同じリストに表示されます MLに最適化されています（つまり、モデル/データセット/スペースのリポジトリ）で、任意のリポジトリではありません次は何ですかもちろん、これは始まりに過ぎません。私たちはコミュニティのフィードバックを聞きながら、将来的に新機能を追加し、コミュニティタブを改善していく予定です。フィードバックがあれば、こちらのディスカッションに参加することができます。今日が初めてディスカッションに参加し、プルリクエストを開く最高のタイミングです！…

🤗 Datasetsでの新しいオーディオとビジョンのドキュメンテーションを紹介します

オープンで再現可能なデータセットは、良い機械学習を進めるために不可欠です。同時に、データセットは大規模な言語モデルの燃料として非常に大きく成長しています。2020年、Hugging Faceは🤗 Datasetsというライブラリを立ち上げ、以下のために専用のライブラリを提供しています： 1行のコードで標準化されたデータセットにアクセスを提供すること。大規模なデータセットを迅速かつ効率的に処理するためのツールを提供すること。コミュニティのおかげで、私たちは多言語および方言のNLPデータセットを数百追加しました！ 🤗 ❤️ しかし、テキストデータセットは始まりに過ぎません。データは🎵 音声、📸 画像、音声とテキストの組み合わせ、画像とテキストなど、より豊かな形式で表現されています。これらのデータセットでトレーニングされたモデルは、画像の内容を説明したり、画像に関する質問に答えたりするなど、素晴らしいアプリケーションを可能にします。 🤗 Datasetsチームは、これらのデータセットタイプとの作業をできるだけ簡単にするためのツールと機能を開発してきました。音声および画像データセットの読み込みと処理についての詳細を学ぶための新しいドキュメントも追加しました。クイックスタートクイックスタートは、ライブラリの機能についての要点を把握するために新しいユーザーが最初に訪れる場所の一つです。そのため、クイックスタートを更新して、🤗 Datasetsを使用して音声および画像データセットを処理する方法を含めました。作業したいデータセットの形態を選択し、データセットを読み込んで処理し、PyTorchまたはTensorFlowでトレーニングに使用する準備ができるまでのエンドツーエンドの例を参照してください。クイックスタートには、新しいto_tf_dataset関数も追加されています。この関数は、データセットをtf.data.Datasetに変換するために必要なコードを自動的に記述します。これにより、データセットからシャッフルしてバッチを読み込むためのコードを書く必要がなくなります。データセットをtf.data.Datasetに変換した後は、通常のTensorFlowまたはKerasのメソッドでモデルをトレーニングすることができます。今日はクイックスタートをチェックして、さまざまなデータセット形態での作業方法を学び、新しいto_tf_dataset関数を試してみましょう！データセットの冒険を選ぶ！専用ガイド各データセット形態には、それらを読み込んで処理する方法に固有のニュアンスがあります。例えば、音声データセットを読み込む場合、音声信号はAudio機能によって自動的にデコードおよびリサンプリングされます。これはテキストデータセットを読み込む場合とはかなり異なります！モダリティ固有のドキュメントをより見つけやすくするために、各モダリティごとに専用のセクションが新たに設けられ、各モダリティの読み込みと処理方法を示すガイドが提供されています。データセット形態での作業に関する特定の情報を探している場合は、まずこれらの専用セクションをご覧ください。一方で、特定ではなく広く使用できる関数は一般的な使用方法のセクションに記述されています。このような方法でドキュメントを再編成することで、将来サポートする予定の他のデータセット形式にもよりスケーラブルに対応できるようになります。ガイドは、🤗 Datasetsの最も重要な側面をカバーするセクションに整理されています。…

Sentence Transformersモデルのトレーニングと微調整

このNotebook Companion付きのチュートリアルをご覧ください: センテンス変換モデルのトレーニングまたはファインチューニングは、利用可能なデータと目標のタスクに大きく依存します。キーは2つあります: モデルにデータを入力し、データセットを適切に準備する方法を理解する。データセットと関連する異なる損失関数を理解する。このチュートリアルでは、以下の内容を学びます: “スクラッチ”から作成するか、Hugging Face Hubからファインチューニングすることにより、センテンス変換モデルの動作原理を理解する。データセットの異なる形式について学ぶ。データセットの形式に基づいて選択できる異なる損失関数について確認する。モデルのトレーニングまたはファインチューニング。 Hugging Face Hubにモデルを共有する。センテンス変換モデルが最適な選択肢でない場合について学ぶ。センテンス変換モデルの動作原理センテンス変換モデルでは、可変長のテキスト（または画像ピクセル）を、その入力の意味を表す固定サイズの埋め込みにマップします。埋め込みの取得方法については、前回のチュートリアルをご覧ください。この投稿では、テキストに焦点を当てています。センテンス変換モデルの動作原理は次の通りです: レイヤー1 – 入力テキストは、Hugging Face Hubから直接取得できる事前学習済みTransformerモデルを通過します。このチュートリアルでは、「distilroberta-base」モデルを使用します。Transformerの出力は、すべての入力トークンに対する文脈化された単語の埋め込みです。テキストの各トークンに対する埋め込みを想像してください。…

Hugging FaceのTensorFlowの哲学

はじめに PyTorchやJAXからの競争が増えても、TensorFlowは最も使用されるディープラーニングフレームワークのままです。また、それらの他の2つのライブラリとはいくつか非常に重要な点で異なります。特に、高レベルのAPIであるKerasと、データの読み込みライブラリであるtf.dataとの統合が非常に密接です。 PyTorchのエンジニアの中には（ここでオープンプランオフィスを暗く見つめながら私を想像してください）、これを克服すべき問題だと見なす傾向があります。彼らの目標は、TensorFlowが彼らのやり方に従って低レベルのトレーニングとデータの読み込みコードを使用できるようにする方法を見つけることです。これはTensorFlowに取り組む間違った方法です！ Kerasは素晴らしい高レベルのAPIです。プロジェクトが数モジュールよりも大きい場合、それを押しのけると、必要になると気付いたときに、その機能のほとんどを自分で再現することになります。洗練された、尊敬され、非常に魅力的なTensorFlowエンジニアとして、私たちは最先端のモデルの驚異的なパワーと柔軟性を使用したいと思っていますが、私たちが使い慣れたツールとAPIでそれらを扱いたいのです。このブログポストでは、Hugging Faceでそれを実現するために行う選択と、TensorFlowプログラマーとしてフレームワークから期待できることについて説明します。インタールード：30秒で🤗 経験豊富なユーザーは、このセクションをざっと読んだりスキップしたりして構いませんが、Hugging Faceとtransformersに初めて出会う方には、ライブラリのコアアイデアについて概要を説明する必要があります。モデルを事前学習済みモデルとして名前でリクエストするだけで、1行のコードで取得できます。最も簡単な方法は、TFAutoModelクラスを使用するだけです。 from transformers import TFAutoModel model = TFAutoModel.from_pretrained("bert-base-cased") この1行でモデルのアーキテクチャがインスタンス化され、重みが読み込まれます。これにより、元の有名なBERTモデルの正確なレプリカが得られます。ただし、このモデル自体ではあまり役に立ちません – 出力ヘッドや損失関数がありません。実際には、これは最後の隠れ層の直後で終了するニューラルネットワークの「ステム」です。では、どのようにして出力ヘッドを追加するのでしょうか？簡単です、異なるAutoModelクラスを使用するだけです。ここでは、Vision Transformer（ViT）モデルを読み込み、画像分類ヘッドを追加しています。 from transformers import TFAutoModelForImageClassification…

トランスフォーマーにおける対比的探索を用いた人間レベルのテキスト生成 🤗

1. 紹介: 自然言語生成（テキスト生成）は自然言語処理（NLP）の中核的なタスクの一つです。このブログでは、現在の最先端のデコーディング手法であるコントラスティブサーチを神経テキスト生成のために紹介します。コントラスティブサーチは、元々「A Contrastive Framework for Neural Text Generation」[1]（[論文] [公式実装]）でNeurIPS 2022で提案されました。さらに、この続編の「Contrastive Search Is What You Need For Neural Text Generation」[2]（[論文] [公式実装]）では、コントラスティブサーチがオフザシェルフの言語モデルを使用して16の言語で人間レベルのテキストを生成できることが示されています。 [備考] テキスト生成に馴染みのないユーザーは、このブログ記事を詳しくご覧ください。 2.…

大規模言語モデルの高速推論：Habana Gaudi2アクセラレータ上のBLOOMZ

この記事では、🤗 Optimum Habanaを使用してHabana® Gaudi®2上のBLOOMのような数千億のパラメータを持つ大規模な言語モデルを簡単に展開する方法を紹介します。これは、この記事で示されたベンチマークに示されているように、市場で現在利用可能などのどのGPUよりも高速な推論を実行することを可能にします。モデルがますます大きくなるにつれて、プロダクション環境に展開して推論を実行することはますます困難になっています。ハードウェアとソフトウェアの両方には、これらの課題に対処するための多くのイノベーションが見られますので、効率的にこれらの課題を克服する方法を見てみましょう！ BLOOMZ BLOOMは、テキストのシーケンスを完了するためにトレーニングされた1760億のパラメータの自己回帰モデルです。46の異なる言語と13のプログラミング言語を扱うことができます。BigScienceイニシアチブの一環として設計され、トレーニングされたBLOOMは、世界中の多くの研究者とエンジニアが関わったオープンサイエンスプロジェクトです。最近では、同じアーキテクチャの別のモデルがリリースされました：BLOOMZは、BLOOMのいくつかのタスクで微調整されたバージョンであり、より良い汎化およびゼロショット[^1]の機能を持っています。このような大規模なモデルは、トレーニングおよび推論の両方においてメモリと速度の新たな課題を提起します。16ビット精度でも、1インスタンスには352 GBのメモリが必要です！現時点では、そのような多くのメモリを持つデバイスはおそらく見つけることが難しいでしょうが、Habana Gaudi2のような最先端のハードウェアを使用すると、BLOOMとBLOOMZモデルで低い待ち時間で推論を実行することができます。 Habana Gaudi2 Gaudi2は、Habana Labsによって設計された第2世代のAIハードウェアアクセラレータです。1つのサーバーには8つのアクセラレータデバイス（Habana Processing UnitsまたはHPUsと呼ばれる）があり、それぞれ96GBのメモリを提供し、非常に大きなモデルを収める余地があります。ただし、モデルをホストするだけでは非常に興味深くありません。幸いにも、Gaudi2はその点で優れています：そのアーキテクチャは、アクセラレータが並列で一般行列乗算（GeMM）およびその他の操作を実行できるようにするため、深層学習ワークフローを高速化します。これらの特徴により、Gaudi2はLLMのトレーニングおよび推論の優れた候補となります。 HabanaのSDKであるSynapseAI™は、LLMトレーニングおよび推論を高速化するためにPyTorchとDeepSpeedをサポートしています。SynapseAIグラフコンパイラは、グラフに蓄積された操作の実行を最適化します（例：オペレータの統合、データレイアウトの管理、並列化、パイプライニングとメモリ管理、およびグラフレベルの最適化）。さらに、HPUグラフとDeepSpeed-inferenceのサポートは、最近SynapseAIに導入され、以下のベンチマークに示すようにレイテンシに敏感なアプリケーションに適しています。これらの機能は、🤗 Optimum Habanaライブラリに統合されており、Gaudiにモデルを展開することは非常に簡単です。こちらのクイックスタートページをご覧ください。 Gaudi2にアクセスしたい場合は、Intel Developer Cloudにアクセスし、このガイドに従ってください。…

単一のGPUでChatgptのようなチャットボットをROCmで実行する

はじめに ChatGPTは、OpenAIの画期的な言語モデルであり、人工知能の領域で影響力のある存在となり、様々なセクターでAIアプリケーションの多様な活用を可能にしています。その驚異的な人間のようなテキストの理解力と生成力により、ChatGPTは顧客サポートから創造的な文章作成まで、さまざまな産業を変革し、貴重な研究ツールとしても使われています。 OPT、LLAMA、Alpaca、Vicunaなど、大規模な言語モデルのオープンソース化にはさまざまな取り組みが行われていますが、その中でもVicunaはAMD GPU上でROCmを使用してVicuna 13Bモデルを実行する方法を説明します。 Vicunaとは何ですか？ Vicunaは、UCバークレー、CMU、スタンフォード、UCサンディエゴのチームによって開発された13兆パラメータを持つオープンソースのチャットボットです。Vicunaは、LLAMAベースモデルを使用して、ShareGPT.comからの約70,000件のユーザー共有会話を収集し、公開APIを介してファインチューニングしました。GPT-4を参照とした初期の評価では、Vicuna-13BはOpenAI ChatGPTと比較して90%以上の品質を実現しています。それはわずか数週間前の4月11日にGithubでリリースされました。Vicunaのデータセット、トレーニングコード、評価メトリック、トレーニングコストはすべて公開されており、一般のユーザーにとって費用対効果の高いソリューションとなっています。 Vicunaの詳細については、https://vicuna.lmsys.org をご覧ください。なぜ量子化されたGPTモデルが必要なのですか？ Vicuna-13Bモデルをfp16で実行するには、約28GBのGPU RAMが必要です。メモリの使用量をさらに減らすためには、最適化技術が必要です。最近発表された研究論文「GPTQ」では、低ビット精度を持つGPTモデルの正確な事後トレーニング量子化が提案されています。以下の図に示すように、パラメータが10Bを超えるモデルの場合、4ビットまたは3ビットのGPTQはfp16と同等の精度を実現することができます。さらに、これらのモデルの大きなパラメータは、GPTトークン生成が計算（TFLOPsまたはTOPs）そのものよりもメモリ帯域幅（GB/s）によって制約されるため、GPTのレイテンシに深刻な影響を与えます。そのため、メモリに制約のある状況下では、量子化モデルはトークン生成のレイテンシを低下させません。GPTQの量子化の論文とGitHubリポジトリを参照してください。この技術を活用することで、Hugging Faceからいくつかの4ビット量子化されたVicunaモデルが利用可能です。 ROCmを使用してAMD GPUでVicuna 13Bモデルを実行する AMD GPUでVicuna 13Bモデルを実行するには、AMD GPUの高速化のためのオープンソースソフトウェアプラットフォームであるROCm（Radeon…

Amazon SageMakerのHugging Face LLM推論コンテナをご紹介します

これは、オープンソースのLLM（Large Language Model）であるBLOOMをAmazon SageMakerに展開し、新しいHugging Face LLM Inference Containerを使用して推論を行う方法の例です。Open Assistantデータセットで訓練されたオープンソースのチャットLLMである12B Pythia Open Assistant Modelを展開します。この例では以下の内容をカバーしています：開発環境のセットアップ新しいHugging Face LLM DLCの取得 Open Assistant 12BのAmazon SageMakerへの展開モデルを使用して推論およびチャットを行う…

オープンソースAIゲームジャムを発表します 🎮

AIツールを活用して創造力を解放し、週末にゲームを作ろう！世界初のオープンソースAIゲームジャムをお知らせできることを大変嬉しく思います。このゲームジャムでは、AIツールを使用してゲームを作成します。 AIの可能性によって、ゲームの体験やワークフローが向上することに期待しています。例えば、Stable Diffusionなどの生成型AIツールをゲームやワークフローに取り入れて、新しい機能を開放し、開発プロセスを加速させることができます。テクスチャ生成からリアルなNPC、現実的なテキスト読み上げまで、選択肢は無限です。 📆 ゲームジャムは7月7日から9日の金曜日から日曜日まで開催されます。ゲームジャムの無料参加枠を確保しましょう 👉 https://itch.io/jam/open-source-ai-game-jam なぜこのイベントを開催しているのか一部の人気ゲームジャムがAIツールの使用を制限している時代に、私たちはゲーム開発者がAIが提供する信じられない可能性を紹介するために、特にオープンで透明性のある利用可能なプラットフォームを提供することが重要だと考えています。私たちはこれらのジャムが繁栄し、インディーゲーム開発者が生産性を向上させ、その可能性を最大限に引き出すためのツールを持つことを望んでいます。 AIツールとは何ですか特にStable Diffusionなどの生成型AIツールは、ゲーム開発において全く新しい可能性を開拓します。加速されたワークフローからゲーム内の機能まで、AIの力を使ってテクスチャ生成、リアルなAI非プレイヤーキャラクター（NPC）、現実的なテキスト読み上げ機能を活用することができます。ゲームジャムの無料参加枠を確保しましょう 👉 https://itch.io/jam/open-source-ai-game-jam 誰が参加できますかオープンソースAIゲームジャムには、スキルレベルや場所に関係なく、誰でも参加できます。一人で参加することも、任意の人数でチームを組むこともできます。参加に必要なものは何ですか…

Learn more about Search Results This - Page 53