Learn more about Search Results documentation - Page 4
- You may be interested
- 見えない現実の暴露:アルバータ州におけ...
- 「Lab Sessions 実験的なAIの新しいコラボ...
- 「PyTorchにおける複数GPUトレーニングと...
- 「私はデータクリーニングのタスクでChatG...
- チャットGPTからPiへ、そしてなぜそうする...
- キュービットマジック:量子コンピューテ...
- このAI論文は、「サブセンテンスエンコー...
- 「高次元におけるデータの驚くべき挙動」
- オリゴが警告を発しています:TorchServe...
- HuggingFaceはTextEnvironmentsを紹介しま...
- MIT CSAILの研究者が生成的AIの最前線につ...
- 「ユーザーの入力、プロンプト、および応...
- 「テキスト分類タスクについての迅速なエ...
- 「隠れたパターンの解明:階層クラスタリ...
- 機械学習の専門家 – ルイス・タンス...
「You.comがYouRetrieverをリリース:You.comの検索APIへの最もシンプルなインターフェース」
You.comは、You.com Search APIへの最もシンプルなインターフェースであるYouRetrieverをリリースしました。 You.com Search APIは、RAG(Retrieval Augmented Generation)アプリケーションを考慮してLLMs向けに開発されました。彼らは、APIをさまざまなデータセットでテストして、LLMのRAG-QA環境での効率を確立するための基準を確立しました。また、You.com Search APIとGoogle Search APIの違いと類似点を詳細に分析しました。彼らは、RAG-QA環境でLLMを評価するためのフレームワークを提供しました。彼らは、レトリーバーがHotpot QAでどれだけうまく機能するかを評価するために、RetrievalQA Chainを使用しました。Hotpotデータセットには、クエリ、回答、およびその文脈が含まれています。LLMが意図的に誤った言語に騙されないようにするための「distractor」モードを使用する場合、文脈は質問/回答に応じて変更されることがあります。テストの1つでは、データセットの元の文脈を検索APIが返すテキストの断片で置き換えるというものでした。情報を検索するため、APIはデータセットで提供されるスニペットのリストだけに頼るのではなく、インターネット全体を検索します。したがって、この場合、インターネットは分散させるテキストとしての役割を果たします。LLMと検索APIの効果をテストする際、彼らはシステムを「ウェブディストラクター」シナリオと呼んでいます。 可能な限り、より充実した情報の断片を返します。また、近々、返されるテキストの量を単一のサンプルから完全なページまで選択できるようになります。デフォルトのパラメータを使用すると、” great Keith”の27の結果があり、一部の文書には一部の内容が含まれています。RAG-QA環境で作業するLLMにとって、当社の検索APIは特に便利です。 彼らはHotPotQAデータセット上でテストを行いました。この情報をHuggingfaceデータセットから取得するために、彼らはdatasetsライブラリを使用しています。ここでは、分散者の代わりにフルウィキを使用していますが、先に述べたように、彼らは検索APIを利用して自分たちの文脈を生成します。 設定するための詳細な手順については、https://documentation.you.com/openai-language-model-integrationをご覧ください。 You.comは近々、より広範な検索調査を公開する予定ですので、情報をお楽しみに。アーリーアクセスパートナーになりたい方は、[email protected]に自己紹介、ユースケース、および予想される毎日のコール数に関する情報を書いてください。
機械学習のオープンデータセットを作成中ですか? Hugging Face Hubで共有しましょう!
このブログ投稿は誰のためですか? データ集中型の研究を行っている研究者ですか?研究の一環として、おそらく機械学習モデルの訓練や評価のためにデータセットを作成しており、多くの研究者がGoogle Drive、OneDrive、または個人のサーバーを介してこれらのデータセットを共有している可能性があります。この投稿では、代わりにHugging Face Hubでこれらのデータセットを共有することを検討する理由を説明します。 この記事では以下を概説します: なぜ研究者はデータを公開共有すべきか(すでに説得されている場合は、このセクションはスキップしてください) 研究者がデータセットを共有したい場合のHugging Face Hubのオファー Hugging Face Hubでデータセットを共有するための始め方のリソース なぜデータを共有するのですか? 機械学習は、さまざまな分野でますます利用され、多様な問題の解決における研究効率を高めています。特にタスクやドメインに特化した新しい機械学習手法を開発する際には、データがモデルの訓練や評価において重要です。大規模な言語モデルは、生物医学のエンティティ抽出のような特殊なタスクではうまく機能せず、コンピュータビジョンモデルはドメイン特化の画像の分類に苦労するかもしれません。 ドメイン固有のデータセットは、既存のモデルの限界を克服するために、機械学習モデルの評価と訓練に重要です。ただし、これらのデータセットを作成することは困難であり、データの注釈付けには相当な時間、リソース、およびドメインの専門知識が必要です。このデータの最大の影響を最大化することは、関係する研究者と各自の分野の両方にとって重要です。 Hugging Face Hubは、この最大の影響を実現するのに役立ちます。 Hugging Face Hubとは何ですか? Hugging Face…
私の個人的なコパイロット:自分自身のコーディングアシスタントをトレーニングする
プログラミングとソフトウェア開発の常に進化する風景において、効率と生産性の追求は非凡なイノベーションにつながってきました。そのようなイノベーションの一つが、Codex、StarCoder、そしてCode Llamaといったコード生成モデルの登場です。これらのモデルは、人間のようなコードの断片を生成する能力を示し、コーディングアシスタントとしての無限の潜在能力を持っています。 しかし、これらの事前学習済みモデルは、さまざまなタスクにおいて印象的なパフォーマンスを発揮する一方で、まだまだ未来に待ち受けている魅力的な可能性も存在します。それは、特定のニーズに合わせてコード生成モデルをカスタマイズできる能力です。エンタープライズスケールで活用できる個人別のコーディングアシスタントを想像してみてください。 このブログ投稿では、私たちがどのようにHugCoder 🤗を作成したかを紹介します。HugCoderは、huggingface GitHubの公開リポジトリからのコード内容に対して、コードLLMでファインチューニングを行ったものです。データの収集ワークフローやトレーニング実験、興味深い結果についても話します。これにより、プロプライエタリなコードベースに基づいた独自のパートナーを作成することができます。さらなるこのプロジェクトの拡張のアイデアもいくつかご提案します。 では、始めましょう 🚀 データ収集のワークフロー 私たちが望むデータセットは、概念的にはシンプルで、次のような構造になっています。 Githubからのコード内容のスクレイピングは、PythonのGitHub APIを用いれば簡単です。ただし、リポジトリの数やリポジトリ内のコードファイルの数に応じて、APIのレート制限に達する可能性があります。 そのような問題を防ぐために、私たちは公開リポジトリをすべてローカルにクローンし、APIではなくそれらからコンテンツを抽出することにしました。ダウンロードスクリプトでは、Pythonのmultiprocessingモジュールを使用して、すべてのリポジトリを並列にダウンロードしました。詳細な実装については、このダウンロードスクリプトを参照してください。 リポジトリにはしばしば画像やプレゼンテーションなどの非コードファイルが含まれていますが、私たちはそれらをスクレイピングすることには興味がありません。これらを除外するために、拡張子のリストを作成しました。Jupyter Notebook以外のコードファイルを解析するために、私たちは単純に「utf-8」エンコーディングを使用しました。ノートブックの場合は、コードセルのみを考慮しました。 また、コードと直接関係のないファイルパスはすべて除外しました。これには、.git、__pycache__、およびxcodeprojなどが含まれます。 このコンテンツのシリアライズを比較的メモリにやさしいものにするために、私たちはチャンキングとfeather形式を使用しました。フルの実装については、こちらのスクリプトを参照してください。 最終的なデータセットは、Hubで利用可能であり、以下のような見た目をしています: このブログでは、stargazersに基づいて、Hugging Faceの最も人気のある10つのパブリックリポジトリを考慮しました。それらは次のとおりです: [‘transformers’, ‘pytorch-image-models’, ‘datasets’, ‘diffusers’,…
ChatGPTを使ってコーディングする方法’ (ChatGPTをつかってコーディングするほうほう)
イントロダクション 人工知能を現代のプログラミングに取り入れることで、効率とイノベーションの新時代が到来しました。OpenAIが開発したAI言語モデルであるChatGPTは、これらの革新的な進展の中で重要で破壊的なマイルストーンとして際立っています。この記事では、ChatGPTコードの具体的な機能、信頼性、およびプログラマーのスキル向上への影響について分析し、ChatGPTのコーディングの味方としての潜在能力を読者に詳細に紹介します。 ChatGPTはコードを書けるのか? ChatGPTがコードを書けるかどうかの問いに対しては、断然に肯定的な答えがあります。この素晴らしいプラットフォームは、人間の開発者が行うコーディングプロセスを再現し、本物のプログラミングコードを生成することができます。ただし、生成されたコードには常にエラーや不完全な部分がある可能性があるため、注意が必要です。不正確性の可能性により、StackOverflowなどのプラットフォームではChatGPTによるコード生成が禁止されています。 例えば、フィボナッチ数列を計算するPythonの関数を作成したい場合、簡単にChatGPTに質問することができます。 フィボナッチ数列を計算するPythonの関数を生成してください。 すると、次のような応答を受け取ることができます。 ChatGPTでコーディングするべきか? ChatGPTでコーディングするかどうかは、具体的なニーズや状況を慎重に考慮する微妙な問題であり、決定に影響を与えるいくつかの重要な要素があります。 ChatGPTでのコーディングの利点と欠点 利点 欠点 1. 速さと効率:コードを素早く生成し、繰り返しのコーディングタスクを補助できます。 1. 理解の限界:コンテキストや特定のドメイン知識を深く理解する能力が欠けていることがあります。 2. コードの提案:役に立つコーディングの提案を提供し、コードスニペットの作成を支援できます。 2. 創造性とイノベーション:複雑な問題に対する創造的または革新的な解決策を提供しない場合があります。 3. 学習ツール:説明と例を提供して学習や教育に使用することができます。 3. トレーニングデータへの依存:知識は過去のデータに基づいており、最新情報とは限らない場合があります。…
「ウェブポータル開発を加速させる8つの戦略」
この記事では、ウェブポータルの開発者が直面する頻繁な問題について探求します:品質を損なうことなく、開発プロセスを加速する方法
「Hugging Face の推論エンドポイントを使用して埋め込みモデルを展開する」
Generative AIやChatGPTのようなLLMsの台頭により、様々なタスクの組み込みモデルへの関心と重要性が高まっています。特に検索や自分のデータとのチャットなどのリトリーバル・オーグメント生成のために、埋め込みモデルは役立ちます。埋め込みは、文、画像、単語などを数値ベクトル表現として表現するため、意味的に関連するアイテムをマッピングし、役立つ情報を取得することができます。これにより、質と特定性を向上させるための関連コンテキストをプロンプトに提供することができます。 LLMsと比較して、埋め込みモデルはサイズが小さく、推論が早いです。このため、モデルを変更したり、モデルの微調整を改善した後に埋め込みを再作成する必要があるため、非常に重要です。また、リトリーバルのオーグメントプロセス全体ができるだけ高速であることも重要です。これにより、良いユーザーエクスペリエンスを提供することができます。 このブログ記事では、オープンソースの埋め込みモデルをHugging Face Inference Endpointsに展開する方法と、モデルを展開するのを簡単にするマネージドSaaSソリューションであるText Embedding Inferenceの使用方法を紹介します。さらに、大規模なバッチリクエストの実行方法も説明します。 Hugging Face Inference Endpointsとは何か Text Embedding Inferenceとは何か 埋め込みモデルをインファレンスエンドポイントとして展開する方法 エンドポイントにリクエストを送信し、埋め込みを作成する方法 始める前に、インファレンスエンドポイントについての知識をリフレッシュしましょう。 1. Hugging Face Inference Endpointsとは何ですか?…
一行のコードでHuggingfaceのデータセットを対話的に探索する
ハギング フェイス データセットライブラリは、70,000以上の公開データセットにアクセスするだけでなく、カスタムデータセットのための非常に便利なデータ準備パイプラインも提供しています。 Renumics Spotlightを使用すると、データ内の重要なクラスターを特定するためのインタラクティブな可視化を作成することができます。SpotlightはHugging Faceデータセット内のデータセマンティクスを理解しているため、たった1行のコードで始めることができます: import datasetsfrom renumics import spotlightds = datasets.load_dataset('speech_commands', 'v0.01', split='validation')spotlight.show(ds) Spotlightを使用すると、予測や埋め込みなどのモデル結果を活用して、データセグメントやモデルの失敗モードに対するより深い理解を得ることができます: ds_results = datasets.load_dataset('renumics/speech_commands-ast-finetuned-results', 'v0.01', split='validation')ds = datasets.concatenate_datasets([ds, ds_results],…
探索的なノートブックの使い方[ベストプラクティス]
「Jupyterノートブックは、データサイエンスコミュニティにおいて最も議論のあるツールの一つとなっています意見の異なる批評家もいますが、熱狂的なファンも存在しますそれにもかかわらず、多くのデータサイエンティストは、うまく使われれば本当に価値があると同意するでしょうそして、この記事では、それに焦点を当てていきます」
「Devtoolsを使ったRデータパッケージの作成と公開の詳細ガイド」
「2023年のPositカンファレンスでスピーカーに招待され、アニメーションと相互作用を使ったストーリーテリングについてプレゼンをする機会を得たとき、完璧なデータセットについて数ヶ月間悩みましたどれも興味深いものばかりでした...」
Google MapsのAir Quality APIから大気汚染データを取得するためのPythonツール
2023年8月、GoogleはマッピングAPIのリストに、空気品質サービスの追加を発表しましたそれについての詳細はこちらでお読みいただけますこの情報は現在、内部からも利用できるようになったようです
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.