Search Results Seaborn

スターコーダーでコーディングアシスタントを作成する

ソフトウェア開発者であれば、おそらくGitHub CopilotやChatGPTを使用して、プログラミングのタスクを解決したことがあるでしょう。これらのタスクには、コードを別の言語に変換したり、自然言語のクエリ（「N番目のフィボナッチ数を見つけるPythonプログラムを書いてください」といったもの）から完全な実装を生成したりするものがあります。これらの独自のシステムは、その機能には感動的ですが、一般にはいくつかの欠点があります。これらには、トレーニングに使用される公開データの透明性の欠如や、ドメインやコードベースに適応することのできなさなどがあります。幸いにも、今はいくつかの高品質なオープンソースの代替品があります！これには、SalesForceのPython用CodeGen Mono 16B、またはReplitの20のプログラミング言語でトレーニングされた3Bパラメータモデルなどがあります。新しいオープンソースの選択肢としては、BigCodeのStarCoderがあります。80以上のプログラミング言語、GitHubの問題、Gitのコミット、Jupyterノートブックから1兆トークンを収集した16Bパラメータモデルで、これらはすべて許可されたライセンスです。エンタープライズ向けのライセンス、8,192トークンのコンテキスト長、およびマルチクエリアテンションによる高速な大規模バッチ推論を備えたStarCoderは、現在、コードベースのアプリケーションにおいて最も優れたオープンソースの選択肢です。このブログポストでは、StarCoderをチャット用にファインチューニングして、パーソナライズされたコーディングアシスタントを作成する方法を紹介します！ StarChatと呼ばれるこのアシスタントには、次のようないくつかの技術的な詳細があります。 LLMを会話エージェントのように動作させる方法。 OpenAIのChat Markup Language（ChatMLとも呼ばれる）は、人間のユーザーとAIアシスタントの間の会話メッセージに対する構造化された形式を提供します。 🤗 TransformersとDeepSpeed ZeRO-3を使用して、多様な対話のコーパスで大きなモデルをファインチューニングする方法。最終結果の一部を見るために、以下のデモでStarChatにいくつかのプログラミングの質問をしてみてください！デモで使用されたコード、データセット、およびモデルは、以下のリンクで見つけることができます。コード: https://github.com/bigcode-project/starcoder データセット: https://huggingface.co/datasets/HuggingFaceH4/oasst1_en モデル: https://huggingface.co/HuggingFaceH4/starchat-alpha 始める準備ができたら、まずはファインチューニングなしで言語モデルを会話エージェントに変換する方法を見てみましょう。…

Hugging Faceのパネル

私たちは、PanelとHugging Faceのコラボレーションを発表できることを喜んでいます！🎉 Hugging Face SpacesにPanelのテンプレートを統合しました。これにより、Panelアプリを簡単に構築し、Hugging Face上で簡単にデプロイすることができます。 Panelは何を提供していますか？ Panelは、Pythonで強力なツール、ダッシュボード、複雑なアプリケーションを簡単に構築できるオープンソースのPythonライブラリです。PyDataエコシステム、パワフルなデータテーブルなどがすぐに利用できるようになっています。高レベルのリアクティブAPIと低レベルのコールバックベースのAPIにより、探索的なアプリケーションを素早く構築することができます。また、複雑なマルチページアプリケーションや豊富な相互作用を持つアプリケーションを構築することも制限されません。PanelはHoloVizエコシステムの一員であり、データ探索ツールの連携エコシステムへのゲートウェイです。Panelは、他のHoloVizツールと同様に、NumFocusがスポンサーとなっており、AnacondaとBlackstoneからのサポートを受けています。以下は、私たちのユーザーが価値を見出しているPanelのいくつかの注目すべき機能です。 Panelは、Matplotlib、Seaborn、Altair、Plotly、Bokeh、PyDeck、Vizzuなど、さまざまなプロットライブラリに広範なサポートを提供しています。すべての相互作用は、Jupyterとスタンドアロンのデプロイメントで同じように機能します。Panelは、Jupyterノートブックからダッシュボードにコンポーネントをシームレスに統合することができ、データ探索と結果の共有の間でスムーズな移行を実現します。 Panelは、複雑なマルチページアプリケーション、高度な相互作用機能、大規模データセットの可視化、リアルタイムデータのストリーミングを構築することができます。 PyodideとWebAssemblyとの統合により、PanelアプリケーションをWebブラウザでシームレスに実行することができます。 Hugging FaceでPanelアプリを構築する準備はできましたか？Hugging Faceのデプロイメントドキュメントをチェックして、このボタンをクリックして旅を始めましょう： 🌐 コミュニティに参加しましょう Panelコミュニティは活気があり、サポートが充実しており、経験豊富な開発者やデータサイエンティストが知識を共有したり、助け合ったりすることを楽しみにしています。以下の方法で参加し、私たちとつながりましょう： Discord Discourse Twitter LinkedIn Github

パンダの力を解放する：.locと.ilocの深いダイブ

PythonのPandasのポテンシャルを引き出しましょうデータの選択における.locと.ilocの詳細を学び、データ分析プロセスを向上させましょう

ゾマト感情分析

このプロジェクトは、インドのゾマトレストランのデータを分析し、レビューを通じて顧客の感情を理解し、洞察のためにデータを視覚化することを目指しています何よりも、EDAは心の状態ですそれは...

経験がなくてもデータアナリストになる方法

導入エントリーレベルのデータアナリストは年間で最大$49,092を稼ぐことができることを知っていますか？現代のデータ駆動型の世界では、データ分析のキャリアは多様な産業にまたがり、この急速に成長している分野に入るための多くの道があります。データはすべての組織にとって主要な意思決定ツールです。分析はすべてのセクターで戦略的計画の重要な要素です。この記事では、新卒者の間でよくある質問に答えることを目的としています – 経験がない状態でデータアナリストになる方法！経験がない状態でデータアナリストになることは可能ですか？絶対に可能です！必要な資格を取得することで、経験がない状態でもデータアナリストの役割を追求することができます。データの仕事市場が初心者にアクセス可能な要因はいくつかあります：データの専門知識の不足：データの専門家の需要は現在の供給を上回り、新参者がこの分野に参入する機会が生まれています。移行可能なスキルの重視：データ分析では、他のドメインから応用できるスキルが重要視されており、既存の能力を活用することができます。市場の急速な成長：データの市場は指数関数的な成長を遂げており、産業全体で熟練した専門家の需要が増しています。ビジネスがデータ駆動型の戦略に依存するにつれて、データの専門家の採用は最優先事項となります。個々人は努力を投資し、成長を受け入れ、適切なトレーニングリソースにアクセスすることで、このダイナミックな分野で成功するために必要な専門知識を獲得することができます。経験がない状態でデータアナリストになる方法経験がない状態でもデータアナリストの仕事を得るためのステップバイステップガイドをご紹介します： 1. 関連するスキルを習得するデータアナリストである必要はなくても、統計学、数学、またはコンピュータサイエンスの関連科目の学位を持っていることは役立つ場合があります。対面のトレーニングセッションに参加したり、ビデオチュートリアルを視聴したり、オンラインコースを受講したりして、データの専門知識を向上させることができます。MatplotlibやSeabornのようなPythonのライブラリや、TableauやPower BIなどのデータ可視化アプリケーションを学びましょう。プログラミング言語に関連する言語の構文、データ型、およびパッケージの理解に時間を費やしましょう。 2. データツールをマスターする実際のデータプロジェクトでは、実践的な設定でデータを使用する方法を教えてくれることで、実践的な経験を積むことができます。既存のプロジェクトに参加したり、公開されているいくつかの無料の公開データセットを活用して自分自身のプロジェクトを作成したりすることができます。データの取り扱いにはExcel、データベースのクエリにはSQL、SASやSPSSなどの統計ソフトウェアなどのツールを試してみましょう。役に立つリソース – ソースコード付きの10の最高のデータ分析プロジェクト SQLの初心者ガイド無料でオンラインでMS…

PandasAIの紹介：GenAIを搭載したデータ分析ライブラリ

イントロダクション最近、ジェネレーティブ人工知能の分野で急速な発展とブレークスルーがあり、データ分野においても大きな変革が起きています。企業は、ChatGPTなどのイノベーションを最大限に活用する方法を模索しています。これにより、どんなビジネスでも競争上の優位性を得ることができます。新しい最先端のイノベーションとして、通常のPandasライブラリに「PandasAI」という名前のGenAIパワードのデータ分析ライブラリを導入しています。これはOpenAIが行っています。ジェネレーティブAIの他の領域とは異なり、PandasAIはGenAIの技術を分析ツールPandasに適用しています。名前の通り、これは従来のPandasライブラリに人工知能を直接適用しています。Pandasライブラリは、Pythonを使用した前処理やデータの可視化などのタスクにおいて、データ分野で非常に人気があり、このイノベーションによってさらに良くなりました。学習目標新しいPandasAIの理解会話型クエリを使用したPandasAIの使用 PandasAIを使用したグラフのプロット PandasAIおよびそのバックエンド（GenAI）の概要この記事は、Data Science Blogathonの一環として公開されました。 PandasAIとは何ですか？ PandasAIは、Generative AIモデルを使用してpandasでタスクを実行するPythonライブラリです。これは、Prompt Engineeringを使用してPandasデータフレームを会話形式にするために、Generative AIの機能を統合したライブラリです。Pandasを思い出すと、データの分析と操作が思い浮かびます。PandasAIでは、GenAIの恩恵を受けながら、Pandasの生産性を向上させようとしています。なぜPandasAIを使用するのですか？ Generative AIの助けを借りて、データセットに対して会話的なプロンプトを与える必要があります。これにより、学習や理解に複雑なコードを必要としなくなります。データサイエンティストは、自然な人間の言語を使ってデータセットにクエリを投げることができ、結果を得ることができます。これにより、前処理と分析にかかる時間が節約されます。これは、プログラマがコードを書く必要がない新しい革命です。彼らはただ思っていることを言い、その指示が実行されるのを見るだけです。非技術者でも複雑なコードを書かずにシステムを構築することができるようになりました！ PandasAIはどのように動作しますか？ PandasAIの使用方法を見る前に、PandasAIがどのように動作するかを見てみましょう。ここで「ジェネレーティブ人工知能」という用語を何度も使用しています。これは、PandasAIの実装の背後にある技術として機能しています。ジェネレーティブAI（GenAI）は、テキスト、オーディオ、ビデオ、画像、3Dモデルなど、さまざまなデータタイプを生成できる人工知能のサブセットです。これは、既に収集されたデータのパターンを特定し、それらを利用して新しい独自の出力を作成することで実現されます。もう一つ注意すべきことは、大規模な言語モデル（LLM）の使用です。PandasAIは、数千万から数十億のパラメータを持つ人工ニューラルネットワーク（ANN）からなるモデルであるLLMに基づいてトレーニングされています。これにより、PandasAIの背後にあるモデルは、人間の指示を受け取り、解釈する前にトークン化することができます。PandasAIはまた、LangChainモデルを扱うように設計されており、LLMアプリケーションの構築を容易にします。 Pandas AIの始め方…

クレジットカードの取引データを使用した顧客セグメンテーションのマスタリング

顧客セグメンテーションとは、過去の購買パターンに基づいて顧客セグメントを特定するプロセスですたとえば、リピート/ロイヤル顧客、高額な顧客の特定などを含むことがあります

時系列データのフーリエ変換 numpyを使用した高速畳み込みの解説

フーリエ変換アルゴリズムは、数学の中でも最も偉大な発見の一つとされていますフランスの数学者ジャン＝バティスト・ジョゼフ・フーリエは、彼の著書「…」において、調和解析の基礎を築きました

NLPとエリシットを用いたジェンダー平等に関する研究の探索

はじめに NLP（自然言語処理）は、膨大なテキストデータを理解するのに役立ちます。大量の文書を手作業で読む代わりに、これらの技術を利用して理解を高速化し、主要なメッセージに素早くたどり着くことができます。このブログ記事では、パンダデータフレームとPythonのNLPツールを使用して、Elicitを使用してアフガニスタンのジェンダー平等に関する研究で人々が何を書いたかを把握する可能性について探求します。これらの洞察は、女性や女の子にとって最も困難な場所の1つとされている国で、ジェンダー平等を推進するために何がうまくいき、何がうまくいかなかったかを理解するのに役立つかもしれません（World Economic Forum、2023年）。学習目標 CSVファイル内のテキストのテキスト分析の習得 Pythonでの自然言語処理の方法に関する知識の習得効果的なデータ可視化のためのスキルの開発アフガニスタンにおけるジェンダー平等に関する研究が時間とともにどのように進展したかについての洞察の獲得この記事は、データサイエンスブログマラソンの一環として公開されました。文献レビューにおけるElicitの使用基礎となるデータを生成するために、私はAIパワードツールであるElicitを使用して文献レビューを行います（Elicit）。ツールに質問をすることで、アフガニスタンでジェンダー平等が失敗した理由に関連する論文のリストを生成するように依頼します。その後、CSV形式で結果の論文リスト（150以上のランダムな数の論文とみなします）をダウンロードします。このデータはどのように見えるのでしょうか？さあ、見てみましょう！ PythonでElicitからのCSVデータを分析するまず、CSVファイルをパンダデータフレームとして読み込みます： import pandas as pd # ファイルパスとCSVファイルを特定 file_path = './elicit.csv' #…

Pythonを使用したMann-Kendall傾向検定

はじめにマン・ケンドール傾向検定は、H.A.マンとD.R.ケンドールにちなんで名付けられた非パラメトリック検定であり、時間の経過に伴う傾向が有意であるかを判断するために使用されます。傾向は、時間の経過とともに単調に増加または減少することができます。パラメトリック検定ではデータの分布について心配する必要がないため、非パラメトリック検定です。ただし、データには直列相関/自己相関（時系列の誤差項が1期から別の期に移動すること）がない必要があります。マン・ケンドール検定は、特定のデータの分布を仮定せずに、一貫して増加または減少する傾向を検出するために設計されています。これは、正規性などのパラメトリック検定の仮定を満たさない可能性のあるデータを扱う際に特に有用です。この記事は、データサイエンスブログマラソンの一環として公開されました。サンプルサイズの要件サンプルが3または4のように非常に小さい場合、トレンドを見つける可能性が非常に低いです。時間の経過とともにサンプル数が増えるほど、テスト統計量は信頼性が高くなります。ただし、非常に少ないサンプルでもテストを実施することができます。したがって、推奨されるデータは少なくとも10です。テストの目的この記事では、列車の脱線に関連する事故について、時間の経過とともに研究します。オリッサ州で最近の列車脱線事故は、再び鉄道の安全性について問題を提起しました。鉄道事故は、事故の種類（例：正面衝突、後方衝突、爆発、側面衝突、脱線、火災など）で分類される場合があります。時間の経過とともに、技術的およびインフラ面で鉄道には多くの改善がありました。しかし、世界中で列車事故は頻繁に発生しています。列車事故は、世界中の鉄道システムで発生する不幸な出来事です。これらの事故は、生命の喪失、負傷、財産の損害につながる可能性があります。この研究では、年月をかけて、インドの鉄道事故（ここでは脱線事故のカテゴリを研究します）を、過去の改善策を考慮に入れながら、減少させることができたかどうかを判断します。インドの脱線事故に関するデータは、時系列の性質を持っています。2001年から2016年までの脱線事故のデータが整理されています。私たちのデータ上記の表から、データの減少傾向が明らかにわかります。2001年から、脱線事故の数は非常に大幅に減少しました。2001年には350件の脱線事故があり、2016年には65件に減少しました。データが順番に整理されているため、Python環境に直接入力して作業することができます。Pythonでデータを適切に視覚化するためにプロットを作成しましょう。 !pip install seaborn import seaborn as sns import matplotlib.pyplot as plt fig =…

Learn more about Search Results Seaborn - Page 14