Learn more about Search Results huggingface.co - Page 6

イメージの意味的なセグメンテーションには、密な予測トランスフォーマーを使用します

イントロダクション この記事では、イメージセマンティックセグメンテーションというコンピュータビジョンの技術について説明します。これは複雑な技術のように聞こえますが、ステップバイステップで解説し、Hugging Faceのコレクションから密な予測トランスフォーマー(DPT)を使用したイメージセマンティックセグメンテーションの実装について紹介します。DPTを使用することで、通常とは異なる能力を持つ新しいフェーズのコンピュータビジョンが導入されます。コンピュータビジョンにおけるDPTと従来の遠くのつながりの理解との比較 学習目標 DPTと従来の遠くのつながりの理解の比較 PythonでDPTを使用したセマンティックセグメンテーションの実装 DPTの設計を探索し、その特徴を理解する この記事はデータサイエンスブログマラソンの一環として公開されました。 イメージセマンティックセグメンテーションとは何ですか? イメージセマンティックセグメンテーションとは、画像を持っており、それぞれのピクセルをそれが表す内容に応じてラベル付けしたいというアイデアです。これはコンピュータビジョンで使用され、車と木を区別したり、画像の一部を分離したりするために使用されます。つまり、ピクセルにスマートにラベルを付けることに関わります。しかし、本当の挑戦は、コンテキストとオブジェクト間の関係を理解することにあります。これを従来の画像処理の手法と比較してみましょう。 畳み込みニューラルネットワーク(CNN) 最初のブレイクスルーは、画像を処理するために畳み込みニューラルネットワーク(CNN)を使用することでした。しかし、CNNには限界があり、特に画像の遠くのつながりを捉えることに苦労します。画像内の異なる要素が長い距離でどのように相互作用するのかを理解しようとする場合を想像してみてください。それが従来のCNNの苦手なところです。そこで、DPTを導入します。これらのモデルは、強力なトランスフォーマーアーキテクチャに基づいており、関連性を捉える能力を持っています。次にDPTについて見てみましょう。 デンス予測トランスフォーマー(DPT)とは何ですか? この概念を理解するために、以前のNLPのタスクで使用していたトランスフォーマーの力を画像解析と組み合わせることを考えてみてください。それがデンス予測トランスフォーマー(DPT)のコンセプトです。それはまるで画像のスーパーディテクティブのようです。彼らは画像のピクセルにラベルを付けるだけでなく、各ピクセルの深さを予測する能力を持っています。これにより、各オブジェクトが画像からどれだけ遠くにあるかの情報が提供されます。以下で詳しく見ていきましょう。 DPTアーキテクチャのツールボックス DPTには異なるタイプがあり、それぞれに「エンコーダ」レイヤーと「デコーダ」レイヤーがあります。ここでは、2つの人気のあるタイプについて見てみましょう: DPT-Swin-Transformer:エンコーダレイヤーが10つ、デコーダレイヤーが5つある、メガトランスフォーマーのようなものです。画像内の要素間の関係を理解するのに優れています。 DPT-ResNet:18つのエンコーダレイヤーと5つのデコーダレイヤーを持つ、賢明なディテクティブのようなものです。遠くのオブジェクト間の関連性を見つけることに秀でていますが、画像の空間的な構造を保持します。 主な特徴 DPTがどのように機能するか、いくつかの主な特徴を見てみましょう: 階層的特徴抽出:従来の畳み込みニューラルネットワーク(CNN)と同様に、DPTは入力画像から特徴を抽出します。ただし、画像は異なる詳細レベルに分割される階層的なアプローチを取っています。この階層的なアプローチにより、ローカルとグローバルなコンテキストの両方を捉えることができ、モデルがさまざまなスケールでオブジェクト間の関係を理解することができます。 セルフアテンションメカニズム:これはDPTのバックボーンであり、元々のトランスフォーマーアーキテクチャから着想を得ています。画像内の長い距離の依存関係を捉え、ピクセル間の複雑な関係を学ぶことができるようにします。各ピクセルは他のすべてのピクセルからの情報を考慮し、モデルに画像の包括的な理解を与えます。 DPTを使用した画像セマンティックセグメンテーションのPythonデモ 以下にDPTの実装例を見ていきます。まずは、Colabに事前にインストールされていないライブラリのセットアップを行います。このコードはこちらまたはhttps://github.com/inuwamobarak/semantic-segmentationで見つけることができます。…

「LLMアライメントの活用:AIをより利用しやすくする」

エディターの注記 Sinan Ozdemirは、10月30日から11月2日までODSC Westのスピーカーとして登壇します彼の講演「フィードバックからの強化学習を用いたオープンソースLLMsの整合化」をぜひチェックしてください!2020年、世界はOpenAIのGPT-3という驚異的なAIに出会いました...

初めての機械学習モデルを展開する

たった3つの簡単なステップで、ガラス分類モデルを構築して展開することができます言っている間に、ガラス分類モデルと言えるほど早く!

「OpenAIキーなしでPDFおよび記事のための強力なチャットアシスタントを作成する」

イントロダクション 自然言語処理の世界は、特に大規模な言語モデルの登場により、膨大な拡大を遂げています。これらのモデルは、この分野を革新し、誰でも利用できるようにしました。この記事では、オープンソースライブラリを使用して、与えられた記事(またはPDF)を基に質問に応答できる強力なチャットアシスタントを作成するためのNLP(自然言語処理)のテクニックを探求し、実装していきます。OpenAIのAPIキーは必要ありません。 この記事は、データサイエンスブログマラソンの一環として公開されています。 ワークフロー このアプリケーションのワークフローは以下の通りです: ユーザーは、PDFファイルまたは記事のURLを提供し、質問を行います。このアプリケーションは、提供されたソースに基づいて質問に答えることを試みます。 私たちは、PYPDF2ライブラリ(PDFファイルの場合)またはBeautifulSoup(記事のURLの場合)を使用してコンテンツを抽出します。次に、langchainライブラリのCharacterTextSplitterを使用して、それをチャンクに分割します。 各チャンクに対して、all-MiniLM-L6-v2モデルを使用して、対応する単語埋め込みベクトルを計算します。このモデルは、文章や段落を384次元の密なベクトル空間にマッピングするためのものです(単語埋め込みは、単語/文章をベクトルとして表現する技術の一つです)。同じ技術がユーザーの質問にも適用されます。 これらのベクトルは、sentence_transformersというPythonのフレームワークが提供する意味的検索関数に入力されます。sentence_transformersは、最先端の文、テキスト、画像埋め込みを行うためのフレームワークです。 この関数は、答えを含む可能性があるテキストチャンクを返し、質問応答モデルは、semantic_searchとユーザーの質問の出力に基づいて最終的な答えを生成します。 注意 すべてのモデルは、HTTPリクエストのみを使用してAPI経由でアクセス可能です。 コードはPythonを使用して書かれます。 FAQ-QNは、より詳細な情報についてはFAQセクションを参照することを示すキーワードです。 実装 このセクションでは、実装についてのみに焦点を当て、詳細はFAQセクションで提供されます。 依存関係 依存関係をダウンロードし、それらをインポートすることから始めます。 pip install -r requirements.txt numpytorchsentence-transformersrequestslangchainbeautifulsoup4PyPDF2 import…

「オープンソースモデルと商用AI/ML APIの違い」

「最近数ヶ月間、おそらく多くの議論に遭遇したことでしょうそれは、大規模言語モデル(LLM)に対してオープンソースのAPIを使うべきか、商用のAPIを使うべきかというものですしかし、これは特定のものではありません…」

オレゴン大学とアドビの研究者がCulturaXを紹介します:大規模言語モデル(LLM)の開発に適した167の言語で6.3Tのトークンを持つ多言語データセット

大規模言語モデル(LLM)は、幅広いタスクで最先端のパフォーマンスを劇的に向上させ、新たな新興スキルを明らかにすることにより、NLPの研究と応用に大きな影響を与えています。入力テキストを表現ベクトルにエンコードするためには、エンコーダのみモデルが調査されてきました。テキストを生成するためには、デコーダのみモデルが研究されてきました。また、シーケンスからシーケンスへの生成を実現するためには、エンコーダ・デコーダモデルが研究されてきました。最大のパフォーマンスを実現するために必要なモデルサイズとトレーニングデータセットの指数関数的な成長は、LLMの驚異的な能力の主要な要因となっています。例えば、BERTモデルは数億パラメータしか含まれていませんでしたが、最新のGPTベースのモデルでは数千億パラメータを含むようになりました。 巨大なモデルサイズと膨大なトレーニングデータセットは、驚異的な学習能力を持つ大規模言語モデル(LLM)の進歩の主要な要素です。NLPの発展に伴い、一般の人々がさらなる研究と実用のためにLLMを利用できるようになってきました。ただし、これらのLLMのためのトレーニングデータセットは通常部分的にしか提供されておらず、特に最新の最先端モデルに対してはさらにその傾向が強いです。LLMのための高品質なトレーニングデータを作成するには、広範なデータのクリーニングと重複排除が必要です。このため、トレーニングデータに関するより多くのオープンさが求められることで、ホールシネーションやバイアスの研究の結果の再現や進展が妨げられています。これらの困難は、多言語学習のシナリオでは通常、十分な多言語テキストコレクションの収集とクリーニングが行われていないことによりさらに複雑化します。その結果、言語によるLLMのトレーニングに使用できる良質なオープンソースのデータセットは存在しません。この問題を解決するために、オレゴン大学とアドビリサーチの学術研究者の共同作業によって、6.3兆トークン、167ヶ国語で構成される巨大な多言語データセット「CulturaX」が開発されました。モデルトレーニングの最高品質を確保するために、データセットは厳格なパイプラインを通じてクリーニングと重複排除の数多くのステップを経ています。これらのプロセスには、データセット内の言語の特定、URLを使用したデータセットのフィルタリング、メトリクスを使用したデータセットのクリーニング、ドキュメントの改善、データの重複排除が含まれます。 CulturaXは、言語ごとに高品質なトレーニングLLM用に徹底的にクリーニングと重複排除が行われた、最大のオープンソースの多言語データセットです。 主な特徴 CulturaXは、LLMとNLPの応用に徹底的にクリーニングと重複排除が行われた、今までで最も大規模なオープンソースの多言語データセットです。 CulturaXは、多言語のオープンソースで大規模なデータセットを提供し、即座に使用可能な高品質なデータを提供することで、現在のデータセットに関連する多くの問題を解決します。 多言語のオープンソースのテキストデータが含まれるmC4などのデータセットは存在しますが、その品質とスケールは、特にGPTなどの生成モデルに効率的にLLMをトレーニングするための要件を満たしていません。例えば、前述のように、mC4やOSCARはドキュメントレベルの曖昧な重複排除を提供していません。mC4の言語認識にはcld3の結果が劣っており、これも欠点です。CC100には2018年以降のデータが含まれていますが、BigScience ROOTSは46ヶ国語のデータのサンプリングのみを提供しています。 HuggingFaceのCulturaXの完全な公開リリースは、多言語のLLMとその応用の研究をさらに進めるのに役立ちます。詳細はこちらをご覧ください:https://huggingface.co/datasets/uonlp/CulturaX 167言語のテキストデータを持つ新しい多言語データセットCulturaXをぜひご覧ください。このデータセットは徹底的なワークフローによってクリーニングされ、重複が削除された結果、6.3兆トークンが含まれています。巨大で高品質なデータセットであるCulturaXは、さまざまな言語で効果的なLLMを容易にトレーニングするために活用することができます。この情報は一般に無料で利用でき、研究者たちはさらなる言語習得の研究と実用的な応用の促進に役立つことを願っています。

PROsに対する推論

今日は、PROユーザー向けのInferenceを紹介します。これは、最もエキサイティングなモデルのAPIへのアクセス、無料Inference APIの使用に対する改善されたレート制限を提供するコミュニティオファリングです。PROに登録するためには、以下のページをご利用ください。 Hugging Face PROユーザーは、テキスト生成推論による超高速推論の恩恵を受けるパワフルなモデルのカリキュレーションエンドポイントに独占的にアクセスすることができます。これは、すべてのHugging Faceユーザーが利用できる無料の推論APIの上にある特典です。PROユーザーは、これらのモデルに対してより高いレート制限を享受するだけでなく、今日最も優れたモデルへの独占的なアクセスも楽しむことができます。 目次 サポートされているモデル PRO向けInferenceの始め方 アプリケーション Llama 2とCode Llamaでのチャット Code Llamaを使用したコード補完 Stable Diffusion XL 生成パラメータ テキスト生成の制御 画像生成の制御 キャッシング ストリーミング PROに登録する…

「チャットモデル対決:GPT-4 vs. GPT-3.5 vs. LLaMA-2によるシミュレートされた討論会-パート1」

最近、MetaがGPT-4と競合するチャットモデルを開発する計画を発表し、AnthropicがClaude2を発売したことにより、どのモデルが最も優れているかについての議論がますます激化しています...

「ゼロからLLMを構築する方法」

「これは、大規模言語モデル(LLM)を実践的に使用するシリーズの6番目の記事です以前の記事では、プロンプトエンジニアリングとファインチューニングを通じて事前学習済みのLLMを活用する方法について詳しく調査しましたこれらに対して…」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us