Search Results 6. 結論

RAPIDS：簡単にMLモデルを加速するためにGPUを使用する

はじめに人工知能（AI）がますます成長するにつれて、より高速かつ効率的な計算能力の需要が高まっています。機械学習（ML）モデルは計算量が多く、モデルのトレーニングには時間がかかることがあります。しかし、GPUの並列処理能力を使用することで、トレーニングプロセスを大幅に加速することができます。データサイエンティストはより速く反復し、より多くのモデルで実験し、より短い時間でより良い性能のモデルを構築することができます。使用できるライブラリはいくつかあります。今日は、GPUの知識がなくてもMLモデルの加速化にGPUを使用する簡単な解決策であるRAPIDSについて学びます。学習目標この記事では、以下のことについて学びます： RAPIDS.aiの概要 RAPIDS.aiに含まれるライブラリこれらのライブラリの使用方法インストールとシステム要件この記事は、Data Science Blogathonの一部として公開されました。 RAPIDS.AI RAPIDSは、GPU上で完全にデータサイエンスパイプラインを実行するためのオープンソースのソフトウェアライブラリとAPIのスイートです。RAPIDSは、最も人気のあるPyDataライブラリと一致する使い慣れたAPIを持ちながら、優れたパフォーマンスと速度を提供します。これは、NVIDIA CUDAとApache Arrowで開発されており、その非凡なパフォーマンスの理由です。 RAPIDS.AIはどのように動作するのですか？ RAPIDSは、GPUを使用した機械学習を利用してデータサイエンスおよび分析ワークフローのスピードを向上させます。GPU最適化されたコアデータフレームを持っており、データベースと機械学習アプリケーションの構築を支援し、Pythonに似た設計となっています。RAPIDSは、データサイエンスパイプラインを完全にGPU上で実行するためのライブラリのコレクションを提供します。これは、2017年にGPU Open Analytics Initiative（GoAI）と機械学習コミュニティのパートナーによって作成され、Apache Arrowのカラムメモリプラットフォームに基づいたGPUデータフレームを使用して、エンドツーエンドのデータサイエンスおよび分析ワークフローをGPU上で加速するためのものです。RAPIDSには、機械学習アルゴリズムと統合されるDataframe APIも含まれています。データの移動量を減らした高速データアクセス…

NumpyとPandasを超えて：知られざるPythonライブラリの潜在能力の解放

Pythonでのデータ操作と計算について話すとき、一般的にはPandasとNumpyを思い浮かべます他にも3つの強力なライブラリを見つけましょう

ロッテン・トマト映画の評価予測のデータサイエンスプロジェクト：2つ目のアプローチ

レビューの感情に基づいて映画の状態を予測する

Machine learning

クレジットカードの取引データを使用した顧客セグメンテーションのマスタリング

顧客セグメンテーションとは、過去の購買パターンに基づいて顧客セグメントを特定するプロセスですたとえば、リピート/ロイヤル顧客、高額な顧客の特定などを含むことがあります

新しいGoogle AI研究では、ペアワイズランキングプロンプティング（PRP）という新しい技術を使用して、LLMの負担を大幅に軽減することを提案しています

教師ありの対応モデルが数百万のラベル付き例で訓練されるのに対して、GPT-3やPaLMなどの大規模言語モデル（Large Language Models、LLMs）は、ゼロショット設定でもさまざまな自然言語のタスクで印象的な性能を示してきました。しかし、LLMsを使用して基本的なテキストランキング問題を解決することは、まちまちな結果となっています。既存の研究では、訓練済みのベースラインランカーと比較して明らかに性能が低いことが多いです。ただし、大規模でブラックボックスで商業的なGPT-4システムに依存する新しい戦略は、例外として扱われています。彼らは、このようなブラックボックスのシステムに頼ることは、学術研究者にとっては重要な費用制約やアクセス制限のために理想的ではないと主張しています。ただし、ランキングメトリックスは入力ドキュメントの順序が変わると50％以上低下することも認識しています。この研究では、彼らはまず、現在のアプローチのポイントワイズとリストワイズの形式を使用した場合に、LLMsがランキング問題に苦労する理由を説明します。生成のみのLLM API（GPT-4など）ではこれができないため、ポイントワイズのランキングでは、ソートする前にLLMsがキャリブレーションされた予測確率を生成する必要があり、これは非常に困難とされています。リストワイズのアプローチにおいては、人間には非常に明らかな指示でも、LLMsは一貫性のないまたは無意味な出力を提供することがよくあります。実証的には、以前の研究で用いられたリストワイズのランキングプロンプトは、VoAGIサイズのLLMsでは完全に無意味な結果を提供することがわかります。これらの結果から、現在広く使用されているLLMsは、ランキングタスクを理解する必要があることが示されており、これは事前トレーニングと微調整の技術がランキングの認識を欠いているためかもしれません。LLMsのタスクの複雑さを大幅に低減し、キャリブレーションの問題に対処するため、Google Researchの研究者はペアワイズランキングプロンプティング（PRP）パラダイムを提案しています。PRPは、クエリと一対のドキュメントをランキングタスクのプロンプトとして使用するシンプルなプロンプトアーキテクチャに基づいており、デフォルトで生成とスコアリングのLLM APIを提供します。彼らは効率性に関する懸念に対応するためにいくつかのPRPのバリエーションについても議論しています。PRPの結果は、伝統的なベンチマークデータセット上で中程度の規模のオープンソースのLLMsを使用して、最先端のランキングパフォーマンスを達成するための初めての文献です。TREC-DL2020では、20BパラメータのFLAN-UL2モデルに基づくPRPは、黒箱の商業的なGPT-4に比べて、NDCG@1で5％以上優れたメソッドを提供しています（推定）50倍のモデルサイズ。TREC-DL2019では、PRPは、175Bのパラメータを持つInstructGPTなどの現在の解決策を、ほぼすべてのランキング指標で10％以上上回すことができますが、NDCG@5とNDCG@10のメトリックではGPT-4の解決策に劣る結果となります。また、3Bおよび13Bのパラメータを持つFLAN-T5モデルを使用した競争力のある結果も示して、PRPの有効性と適用範囲を示しています。彼らはまた、PRPの追加の利点、LLM APIのスコアリングと生成のサポート、および入力順序への感度の低さについてもレビューしています。結論として、この研究は以下の3つの貢献を行っています： • 彼らは、LLMsを使用したゼロショットランキングにおいてペアワイズランキングプロンプティングがうまく機能することを初めて示しています。彼らの結果は、既存のシステムがブラックボックスで商業的でかなり大きなモデルを使用するのに対し、中程度の規模のオープンソースのLLMsに基づいています。 • シンプルなプロンプティングとスコアリングメカニズムを使用して、最先端のランキングパフォーマンスを実現することができます。この発見により、この領域での将来の研究がよりアクセス可能になります。 • 線形の複雑さを実現しながら、いくつかの効率化の改善を検証し、良好な実証的なパフォーマンスを示しています。

公正を実現する：生成モデルにおけるバイアスの認識と解消

2021年、プリンストン大学の情報技術政策センターは、機械学習アルゴリズムが人間と同様の偏見を抱くことがあるという報告書を公表しました

ChatGPTを使用してバイラルになる方法

大量のバイラルポテンシャルを持つコンテンツアイデアを生成するために、これらの詳細なChatGPTプロンプトを使用してください

JavaScriptを使用してOracleデータベース内からHugging Face AIを呼び出す方法

JavaScriptとオープンソースを使用して完全に無料でAIアーキテクチャを最適化し、SQL、JSON、またはRESTを使用して同じデータにアクセスしてください

T5 テキストからテキストへのトランスフォーマー（パート2）

BERT [5] の提案により、自然言語処理（NLP）のための転移学習手法の普及がもたらされましたインターネット上での未ラベル化されたテキストの広範な利用可能性により、私たちは...

NLPとエリシットを用いたジェンダー平等に関する研究の探索

はじめに NLP（自然言語処理）は、膨大なテキストデータを理解するのに役立ちます。大量の文書を手作業で読む代わりに、これらの技術を利用して理解を高速化し、主要なメッセージに素早くたどり着くことができます。このブログ記事では、パンダデータフレームとPythonのNLPツールを使用して、Elicitを使用してアフガニスタンのジェンダー平等に関する研究で人々が何を書いたかを把握する可能性について探求します。これらの洞察は、女性や女の子にとって最も困難な場所の1つとされている国で、ジェンダー平等を推進するために何がうまくいき、何がうまくいかなかったかを理解するのに役立つかもしれません（World Economic Forum、2023年）。学習目標 CSVファイル内のテキストのテキスト分析の習得 Pythonでの自然言語処理の方法に関する知識の習得効果的なデータ可視化のためのスキルの開発アフガニスタンにおけるジェンダー平等に関する研究が時間とともにどのように進展したかについての洞察の獲得この記事は、データサイエンスブログマラソンの一環として公開されました。文献レビューにおけるElicitの使用基礎となるデータを生成するために、私はAIパワードツールであるElicitを使用して文献レビューを行います（Elicit）。ツールに質問をすることで、アフガニスタンでジェンダー平等が失敗した理由に関連する論文のリストを生成するように依頼します。その後、CSV形式で結果の論文リスト（150以上のランダムな数の論文とみなします）をダウンロードします。このデータはどのように見えるのでしょうか？さあ、見てみましょう！ PythonでElicitからのCSVデータを分析するまず、CSVファイルをパンダデータフレームとして読み込みます： import pandas as pd # ファイルパスとCSVファイルを特定 file_path = './elicit.csv' #…

Learn more about Search Results 6. 結論 - Page 52