Search Results ML

「SageMaker Distributionは、Amazon SageMaker Studioで利用可能になりました」

SageMaker Distributionは、機械学習（ML）、データサイエンス、データ可視化のための多くの人気のあるパッケージを含んだ、事前に構築されたDockerイメージですこれには、PyTorch、TensorFlow、Kerasなどのディープラーニングフレームワーク、NumPy、scikit-learn、pandasなどの人気のあるPythonパッケージ、およびJupyterLabなどのIDEが含まれますさらに、SageMaker Distributionは、conda、micromamba、pipをPythonのサポートしています

「Amazon SageMakerを使用して、生成AIを使ってパーソナライズされたアバターを作成する」

生成AIは、エンターテイメント、広告、グラフィックデザインなど、さまざまな産業で創造プロセスを向上させ、加速させるための一般的なツールとなっていますそれにより、観客によりパーソナライズされた体験が可能となり、最終製品の全体的な品質も向上します生成AIの一つの重要な利点は、ユーザーに対してユニークでパーソナライズされた体験を作り出すことです例えば、[…]

データモデリング入門、パート1：データモデリングとは何ですか？

最近数年間、私はさまざまなデータプラットフォームのトピックについて数十回のトレーニングを行ってきました様々なデータプラットフォームの概念や技術を教える際に、私は一つの概念を見つけました...

VoAGIニュース、8月2日：ChatGPTコードインタプリタ：高速データサイエンス•追いつけない？AIの今週の話題をキャッチアップしましょう

ChatGPTコードインタプリター：数分でデータサイエンスを行う • 今週のAI • 統計学の入門、Pythonエディション：無料の書籍 • 2023年に学ぶための8つのデータサイエンスプログラミング言語 • GPUのマスタリング：PythonでのGPUアクセラレートされたデータフレームの初心者ガイド

NEWS

data2vec 自己教師あり学習における画期的な進歩

「機械学習モデルは、訓練にラベル付きデータを大いに依存してきました従来の考え方では、ラベル付きデータでモデルを訓練することで正確な結果が得られますしかし、ラベル付きデータを使用する主なデメリットは、訓練データのサイズが増えるにつれて上昇する高い注釈コストです高い注釈コストは、[…]にとって大きなハードルとなります」

「大規模言語モデルの微調整に関する包括的なガイド」

導入過去数年間、自然言語処理（NLP）の領域は大きな変革を遂げてきました。それは大規模な言語モデルの登場によるものです。これらの高度なモデルにより、言語翻訳から感情分析、さらには知的なチャットボットの作成まで、幅広いアプリケーションの可能性が開かれました。しかし、これらのモデルの特筆すべき点はその汎用性です。特定のタスクやドメインに対応するためにこれらを微調整することは、その真の可能性を引き出し、性能を向上させるための標準的な手法となりました。この包括的なガイドでは、基礎から高度な内容まで、大規模な言語モデルの微調整の世界について詳しく掘り下げます。学習目標大規模な言語モデルを特定のタスクに適応させるための微調整の概念と重要性を理解する。マルチタスキング、指示微調整、パラメータ効率的な微調整など、高度な微調整技術を学ぶ。微調整された言語モデルが産業界を革新する実際の応用例について実践的な知識を得る。大規模な言語モデルの微調整のステップバイステップのプロセスを学ぶ。効率的な微調整メカニズムの実装を行う。標準的な微調整と指示微調整の違いを理解する。この記事はData Science Blogathonの一部として公開されました。事前学習済み言語モデルの理解事前学習済み言語モデルは、通常インターネットから収集された膨大なテキストデータに対して訓練された大規模なニューラルネットワークです。訓練プロセスは、与えられた文やシーケンス内の欠損している単語やトークンを予測することで、モデルに文法、文脈、意味の深い理解を与えます。これらのモデルは数十億の文を処理することで、言語の微妙なニュアンスを把握することができます。人気のある事前学習済み言語モデルの例には、BERT（Bidirectional Encoder Representations from Transformers）、GPT-3（Generative Pre-trained Transformer 3）、RoBERTa（A Robustly…

自動化された欺瞞検出：東京大学の研究者が機械学習を通じて表情と脈拍を利用して欺瞞を暴く

デジタル時代において、自動化された欺瞞検知システムは、様々な分野で重要な存在となっています。正確な検知の需要は、商業、医学、教育、法執行機関、国家安全保障において明らかです。人間の面接官の制約により、誤った告発や効果のない検知のリスクが生じます。これらの課題に対処するため、東京理科大学の研究者たちは、包括的な欺瞞検知のために、表情と脈拍データを組み合わせた機械学習アプローチを提案しています。目標は、犯罪被害者、容疑者、精神的な問題を抱える人々との面接で役立つ公平で信頼性のあるシステムを開発することです。研究者たちは、正確な容疑者の分類の重要性を強調し、誤認識を避け、倫理的および法的な考慮事項を維持するために、ヒューマン・イン・ザ・ループのアプローチを提案しています。この革新的な方法は、倫理的な遵守を確保しながら、重要な意思決定プロセスに広範な応用を可能にします。関連研究では、以前の研究でさまざまな方法を使用して欺瞞検知が探求されてきました。ある研究では、「欺瞞分析および推論エンジン」を開発し、動画からのマルチモーダル情報を用いて、AUCが約87%の精度で欺瞞を検知しました。別の研究では、真実と欺瞞の話者間のバレンスと興奮の違いを特定することに焦点を当て、感情的、視覚的、聴覚的、口頭的な特徴を用いて、AUCが91%を達成しました。AUCは、欺瞞検知などの二値分類タスクでよく使用される指標です。さらに、非言語行動（NVB）に基づいた欺瞞検知に機械学習アプローチが使用され、顔の微小運動、視線の変化、まばたきの頻度のような手がかりを特定することで、約80%の精度が達成されました。ただし、これらの研究の一部では、データ収集のための非自然な役割演技アプローチによる制約が観察されました。従来の方法とは異なり、この革新的な研究では、被験者が自由に欺瞞的な行動を即興で行うことで、欺瞞検知の精度を向上させる自然なアプローチが導入されています。提案された方法では、機械学習、具体的にはランダムフォレスト（RF）技術を用いて、表情と脈拍データを統合した欺瞞検知モデルを作成します。データは、ランダムな画像について議論しながら欺瞞的な発言をする4人の男性大学院生から収集されました。表情はWebカメラを使用して記録され、面接中にはスマートウォッチを使用して脈拍が計測されました。このプロセスには、データ収集、ラベリング、特徴抽出、前処理、分類などの標準的な機械学習のステップが含まれます。被験者にはさまざまな画像が示され、欺瞞的な発言を含めて自分の思考を表現するよう促されました。その結果得られたデータセットは、被験者の意図に基づいてラベル付けされ、誤りや虚偽の記憶ではなく、意図的な欺瞞に焦点を当てています。記録されたビデオからの顔のランドマークはOpenFaceライブラリを使用して抽出され、眉の傾斜、目のアスペクト比、口のエリア、まばたきの頻度、視線、頭の傾き、脈拍など、さまざまな顔の特徴がこれらのランドマークから導かれました。前処理には、欠損値の削除、外れ値のフィルタリング、ポジティブケースとネガティブケースのバランスを取るためのアンダーサンプリングが含まれました。 https://link.springer.com/article/10.1007/s10015-023-00869-9 ランダムフォレスト（RF）は、10分割交差検証を使用してトレーニングおよび評価され、精度、適合率、再現率、F1スコアなどのパフォーマンスメトリクスを使用してその効果を評価しました。実際の遠隔面接で実施された実験は、交差検証結果と類似のパフォーマンスを示し、この方法の現実世界での適用可能性を確認しました。特徴の重要度の分析では、特定の顔の特徴、脈拍、視線と頭の動きが異なる被験者間での欺瞞の重要な指標として浮き彫りにされました。例えば、口のエリアの変化、沈黙、まばたきは一部の場合に欺瞞的な行動を示し、他の場合では脈拍や視線の方向に顕著な変動が見られました。全体として、この研究は、機械学習と顔の特徴解析を用いた遠隔面接における欺瞞的な発言の検知に対する実用的かつ有望なアプローチを提供し、現実世界での応用に貴重な示唆を提供しています。人間の偏見を排除した提案手法は、異なる被験者に対して0.75から0.88までの精度とF1スコアを示しました。顔の表情と脈拍に関連する共通の特徴が被験者間で観察されました。ただし、より包括的な分析のためには、多クラス分類の処理や心理的評価を含めたさらなる研究が必要です。データセットのサイズには制約があるものの、この研究は、倫理的な考慮事項と法的な遵守を重視しながら、自動化された欺瞞検知システムを利用する面接官にとって基盤となるものです。

「CPU上での分散Llama 2」

この演習は、Meta AIのLLM（Large Language Model）であるLlama 2を使用して、llama.cppとPySparkを介して一度に多くの文書を要約することについてです

FHEを用いた暗号化された大規模言語モデルに向けて

大規模言語モデル（LLM）は最近、プログラミング、コンテンツ作成、テキスト分析、ウェブ検索、遠隔学習などの多くの分野で生産性を向上させるための信頼性のあるツールとして証明されています。大規模言語モデルがユーザーのプライバシーに与える影響 LLMの魅力にもかかわらず、これらのモデルによって処理されるユーザークエリに関するプライバシーの懸念が残っています。一方で、LLMの能力を活用することは望ましいですが、他方で、LLMサービスプロバイダーに対して機密情報が漏洩するリスクがあります。医療、金融、法律などの一部の分野では、このプライバシーリスクは問題の原因となります。この問題への1つの解決策は、オンプレミス展開です。オンプレミス展開では、LLMの所有者がクライアントのマシンにモデルを展開します。これは、LLMの構築に数百万ドル（GPT3の場合は4.6Mドル）かかるため、最適な解決策ではありません。また、オンプレミス展開では、モデルの知的財産（IP）が漏洩するリスクがあります。 Zamaは、ユーザーのプライバシーとモデルのIPの両方を保護できると考えています。このブログでは、Hugging Face transformersライブラリを活用して、モデルの一部を暗号化されたデータ上で実行する方法を紹介します。完全なコードは、このユースケースの例で見つけることができます。完全同型暗号（FHE）はLLMのプライバシーの課題を解決できます ZamaのLLM展開の課題に対する解決策は、完全同型暗号（FHE）を使用することです。これにより、暗号化されたデータ上で関数の実行が可能となります。モデルの所有者のIPを保護しながら、ユーザーのデータのプライバシーを維持することが可能です。このデモでは、FHEで実装されたLLMモデルが元のモデルの予測の品質を維持していることを示しています。これを行うためには、Hugging Face transformersライブラリのGPT2の実装を適応し、Concrete-Pythonを使用してPython関数をそのFHE相当に変換する必要があります。図1は、GPT2のアーキテクチャを示しています。これは繰り返し構造を持ち、連続的に適用される複数のマルチヘッドアテンション（MHA）レイヤーから成り立っています。各MHAレイヤーは、モデルの重みを使用して入力をプロジェクションし、アテンションメカニズムを計算し、アテンションの出力を新しいテンソルに再プロジェクションします。 TFHEでは、モデルの重みと活性化は整数で表現されます。非線形関数はプログラマブルブートストラッピング（PBS）演算で実装する必要があります。PBSは、暗号化されたデータ上でのテーブルルックアップ（TLU）演算を実装し、同時に暗号文をリフレッシュして任意の計算を可能にします。一方で、PBSの計算時間は線形演算の計算時間を上回ります。これらの2つの演算を活用することで、FHEでLLMの任意のサブパート、または、全体の計算を表現することができます。 FHEを使用したLLMレイヤーの実装次に、マルチヘッドアテンション（MHA）ブロックの単一のアテンションヘッドを暗号化する方法を見ていきます。また、このユースケースの例では、完全なMHAブロックの例も見つけることができます。図2は、基礎となる実装の簡略化された概要を示しています。クライアントは、共有モデルから削除された最初のレイヤーまでの推論をローカルで開始します。ユーザーは中間操作を暗号化してサーバーに送信します。サーバーは一部のアテンションメカニズムを適用し、その結果をクライアントに返します。クライアントはそれらを復号化してローカルの推論を続けることができます。量子化まず、暗号化された値上でモデルの推論を実行するために、モデルの重みと活性化を量子化し、整数に変換する必要があります。理想的には、モデルの再トレーニングを必要としない事後トレーニング量子化を使用します。このプロセスでは、FHE互換のアテンションメカニズムを実装し、整数とPBSを使用し、LLMの精度への影響を検証します。量子化の影響を評価するために、暗号化されたデータ上で1つのLLMヘッドが動作する完全なGPT2モデルを実行します。そして、重みと活性化の量子化ビット数を変化させた場合の精度を評価します。このグラフは、4ビットの量子化が元の精度の96％を維持していることを示しています。この実験は、約80の文章からなるデータセットを使用して行われます。メトリクスは、元のモデルのロジット予測と量子化されたヘッドモデルを比較して計算されます。 Hugging Face GPT2モデルにFHEを適用する Hugging…

「Huggy Lingo：Hugging Face Hubで言語メタデータを改善するための機械学習の利用」

Huggy Lingo: Hugging Face Hubで言語メタデータを改善するために機械学習を使用する要約: 私たちは機械学習を使用して、言語メタデータのないHubデータセットの言語を検出し、このメタデータを追加するために司書ボットがプルリクエストを行っています。 Hugging Face Hubは、コミュニティが機械学習モデル、データセット、アプリケーションを共有するリポジトリとなっています。データセットの数が増えるにつれて、メタデータは自分のユースケースに適したリソースを見つけるための重要なツールとなっています。このブログ投稿では、Hugging Face Hubでホストされるデータセットのメタデータを改善するために機械学習を使用したいくつかの初期実験を共有します。 Hub上のデータセットの言語メタデータ Hugging Face Hubには現在約50,000の公開データセットがあります。データセットで使用される言語に関するメタデータは、データセットカードの先頭にあるYAMLフィールドを使用して指定することができます。すべての公開データセットは、メタデータ内の言語タグを使用して1,716の一意の言語を指定しています。ただし、指定される言語のいくつかは、異なる方法で指定されることになります。たとえば、IMDBデータセットでは、YAMLメタデータにen（英語を示す）が指定されています。 IMDBデータセットのYAMLメタデータのセクション英語がHub上のデータセットで遥かに最も一般的な言語であることは驚くべきことではありません。Hub上のデータセットの約19%が言語をenとしてリストしています（enのバリエーションを含めない場合であり、実際の割合はおそらくはるかに高いでしょう）。 Hugging Face Hub上のデータセットの頻度とパーセンテージ頻度英語を除外した場合、言語の分布はどのようになりますか？いくつかの支配的な言語のグループがあり、その後は言語が出現する頻度が比較的滑らかに減少していることがわかります。…

Learn more about Search Results ML - Page 313