Learn more about Search Results AI workflow - Page 9
- You may be interested
- マルチリンガルASRのためのWhisperの調整...
- 「神秘的なニューラルマジックの解明:ア...
- 「Prolificの機械学習エンジニア兼AIコン...
- 時間シリーズのフーリエ変換:画像畳み込...
- 「不確実な未来を航行するための仮説指向...
- 「このGSAi中国のAI論文は、LLMベースの自...
- テキサス大学の研究者たちは、機械学習を...
- Together AIがLlama-2-7B-32K-Instructを...
- 次回のLLM(法務修士)の申請に使用するた...
- エンティティの解決実装の複雑さ
- 空からのパイ:ドローンスタートアップが...
- 「LLMはiPhone上でネイティブに動作できる...
- ファインチューニングLLM パラメータ効率...
- 「MLの学習に勇気を持つ:L1&L2正則化の...
- ChatGPTカスタム指示の使用方法(6つのユ...
「私は初めてのデータの仕事に就きました、次は何するべきですか?」
ブートキャンプに一生懸命参加し、1つずつコースを受け、証明書を取得し、ポートフォリオのプロジェクトを作りながら、必死に初めての仕事を探していますあなた自身が競争に巻き込まれていることに気づきますそこで...
私の個人的なコパイロット:自分自身のコーディングアシスタントをトレーニングする
プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。 しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。 このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。 では、始めましょう 🚀 データ収集のワークフロー 私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。 そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。 リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。 また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。 このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。 最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています: このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです: [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…
「大規模な言語モデルが医療テキスト分析に与える影響」
イントロダクション 技術革命の進行する世界において、人工知能と医療の融合は医学の診断と治療の風景を再構築しています。この変革の背後にいる静かな英雄の一つが、医療分野での大規模言語モデル(LLM)の応用です。本稿では、テキストベースの医療アプリケーションの文脈でLLMの世界に踏み込み、これらの強力なAIモデルが医療業界を革新している方法について探ります。 ソース – John Snow labs 学習目標 医療テキスト解析における大規模言語モデル(LLM)の役割を理解する。 現代の医療における医療画像の重要性を認識する。 医療画像のボリュームがもたらす課題を把握する。 LLMが医療テキスト解析と診断の自動化にどのように役立つのか理解する。 LLMが重要な医療ケースのトリアージにおける効率性を評価する。 患者の経歴に基づく個別治療計画におけるLLMの効果を探求する。 放射線科医を支援するためのLLMの共同作業について理解する。 医学生と医師の教育においてLLMがどのように役立つのか発見する。 この記事はData Science Blogathonの一環として公開されました。 見えない医療画像と医療の世界 LLMの世界に飛び込む前に、医療画像の存在を一瞬に留め、感謝しましょう。それは最新の医学において視覚化し、疾患を検出し、治療の進捗を監視するのに欠かせないものです。特に放射線科学は、X線、MRI、CTスキャンなどの医療画像に重要に依存しています。 しかしこの多くの医療画像の宝庫は課題を伴っています:その膨大な量です。病院や医療機関は毎日大量の医療画像を使用しています。この洪水を手作業で分析および解釈することは困難で、時間がかかり、人為的なミスも起こりやすいです。 ソース –…
「契約テストとdbtを用いたデータパイプラインおよびデータ製品の効果的なスケーリングに関する完全ガイド」
「dbtを使用した契約テストの実施を開始するために知っておくべきすべて」
一行のコードでHuggingfaceのデータセットを対話的に探索する
ハギング フェイス データセットライブラリは、70,000以上の公開データセットにアクセスするだけでなく、カスタムデータセットのための非常に便利なデータ準備パイプラインも提供しています。 Renumics Spotlightを使用すると、データ内の重要なクラスターを特定するためのインタラクティブな可視化を作成することができます。SpotlightはHugging Faceデータセット内のデータセマンティクスを理解しているため、たった1行のコードで始めることができます: import datasetsfrom renumics import spotlightds = datasets.load_dataset('speech_commands', 'v0.01', split='validation')spotlight.show(ds) Spotlightを使用すると、予測や埋め込みなどのモデル結果を活用して、データセグメントやモデルの失敗モードに対するより深い理解を得ることができます: ds_results = datasets.load_dataset('renumics/speech_commands-ast-finetuned-results', 'v0.01', split='validation')ds = datasets.concatenate_datasets([ds, ds_results],…
「探索的データ解析中の繰り返しタスクの効率化」
「怠け者のプログラマーが最高のプログラマーだとよく言われますしかし、正確に言えば、繰り返しの作業に忍耐を持たないプログラマーは、前払いの投資をすることになります...」(Kasukemono no puroguramaa ga saikou no puroguramaa da to yoku iwaremasu. Shikashi, seikaku ni ieba, kurikaeshi no sagyou ni nintai o motanai puroguramaa wa,…
「Amazon SageMaker Data Wranglerを使用して機械学習のためにPII情報を自動的に修正します」
「顧客は、データと洞察を自動的に抽出するために、大規模な言語モデル(LLM)などのディープラーニングアプローチを利用したいという要望がますます高まっています多くの業界にとって、機械学習(ML)に役立つデータには個人情報(PII)が含まれる場合がありますディープラーニングモデルのトレーニング、微調整、利用を行う際に、顧客のプライバシーを保護し、規制要件を遵守するために、...」
2023年に注目される7つのデータ可視化のためのオープンソースツール
データビジュアライゼーションツールは、洞察とデータを理解しやすいものに変える役割を果たしますデータに詳しくない利害関係者のために特に重要であり、データの背後にいるチームとは異なるスキルを持っているかもしれませんしかし、データをグラフや図、地図などの視覚的な表現に変換するプロセスは簡単なものではありませんし、しばしば...
「Amazon Rekognition Custom LabelsとAWS Step Functionsを使用して、PurinaのPetfinderアプリケーションのペットプロファイルを最適化する」
ネスレの子会社であるPurina USは、Petfinderを通じて人々がより簡単にペットを飼うことができるようにするという長い歴史を持っていますPetfinderは、アメリカ、カナダ、メキシコにわたる1万1千以上の動物保護施設やレスキューグループのデジタルマーケットプレースであり、ペットの里親探しのリーディングプラットフォームとして、数百万匹のペットが永遠の家族を見つけるお手伝いをしていますPurinaは一貫して[…]
「Databricks SQL Serverless + DBT のテストから学んだ5つの教訓」
ダウンロードやダッシュボードの生成など、ビッグデータプロジェクトの構築および運用をサポートするために、美容とファッションの分野で豊富な知識を持つ美容とファッションの専門家です
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.