Search Results AI workflow

「私は初めてのデータの仕事に就きました、次は何するべきですか？」

ブートキャンプに一生懸命参加し、1つずつコースを受け、証明書を取得し、ポートフォリオのプロジェクトを作りながら、必死に初めての仕事を探していますあなた自身が競争に巻き込まれていることに気づきますそこで...

私の個人的なコパイロット：自分自身のコーディングアシスタントをトレーニングする

プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。では、始めましょう 🚀 データ収集のワークフロー私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています：このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです： [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…

「大規模な言語モデルが医療テキスト分析に与える影響」

イントロダクション技術革命の進行する世界において、人工知能と医療の融合は医学の診断と治療の風景を再構築しています。この変革の背後にいる静かな英雄の一つが、医療分野での大規模言語モデル（LLM）の応用です。本稿では、テキストベースの医療アプリケーションの文脈でLLMの世界に踏み込み、これらの強力なAIモデルが医療業界を革新している方法について探ります。ソース – John Snow labs 学習目標医療テキスト解析における大規模言語モデル（LLM）の役割を理解する。現代の医療における医療画像の重要性を認識する。医療画像のボリュームがもたらす課題を把握する。 LLMが医療テキスト解析と診断の自動化にどのように役立つのか理解する。 LLMが重要な医療ケースのトリアージにおける効率性を評価する。患者の経歴に基づく個別治療計画におけるLLMの効果を探求する。放射線科医を支援するためのLLMの共同作業について理解する。医学生と医師の教育においてLLMがどのように役立つのか発見する。この記事はData Science Blogathonの一環として公開されました。見えない医療画像と医療の世界 LLMの世界に飛び込む前に、医療画像の存在を一瞬に留め、感謝しましょう。それは最新の医学において視覚化し、疾患を検出し、治療の進捗を監視するのに欠かせないものです。特に放射線科学は、X線、MRI、CTスキャンなどの医療画像に重要に依存しています。しかしこの多くの医療画像の宝庫は課題を伴っています：その膨大な量です。病院や医療機関は毎日大量の医療画像を使用しています。この洪水を手作業で分析および解釈することは困難で、時間がかかり、人為的なミスも起こりやすいです。ソース –…

「契約テストとdbtを用いたデータパイプラインおよびデータ製品の効果的なスケーリングに関する完全ガイド」

「dbtを使用した契約テストの実施を開始するために知っておくべきすべて」

一行のコードでHuggingfaceのデータセットを対話的に探索する

ハギングフェイスデータセットライブラリは、70,000以上の公開データセットにアクセスするだけでなく、カスタムデータセットのための非常に便利なデータ準備パイプラインも提供しています。 Renumics Spotlightを使用すると、データ内の重要なクラスターを特定するためのインタラクティブな可視化を作成することができます。SpotlightはHugging Faceデータセット内のデータセマンティクスを理解しているため、たった1行のコードで始めることができます： import datasetsfrom renumics import spotlightds = datasets.load_dataset('speech_commands', 'v0.01', split='validation')spotlight.show(ds) Spotlightを使用すると、予測や埋め込みなどのモデル結果を活用して、データセグメントやモデルの失敗モードに対するより深い理解を得ることができます： ds_results = datasets.load_dataset('renumics/speech_commands-ast-finetuned-results', 'v0.01', split='validation')ds = datasets.concatenate_datasets([ds, ds_results],…

Learn more about Search Results AI workflow - Page 9

「私は初めてのデータの仕事に就きました、次は何するべきですか？」

私の個人的なコパイロット：自分自身のコーディングアシスタントをトレーニングする

「大規模な言語モデルが医療テキスト分析に与える影響」

「契約テストとdbtを用いたデータパイプラインおよびデータ製品の効果的なスケーリングに関する完全ガイド」

一行のコードでHuggingfaceのデータセットを対話的に探索する

「探索的データ解析中の繰り返しタスクの効率化」

「Amazon SageMaker Data Wranglerを使用して機械学習のためにPII情報を自動的に修正します」

2023年に注目される7つのデータ可視化のためのオープンソースツール

「Amazon Rekognition Custom LabelsとAWS Step Functionsを使用して、PurinaのPetfinderアプリケーションのペットプロファイルを最適化する」

「Databricks SQL Serverless + DBT のテストから学んだ５つの教訓」

Find the right Blockchain Investment for you