Learn more about Search Results Clean Code - Page 20
- You may be interested
- 驚愕のブレイクスルー:オープンエンドAI...
- ケシャヴ・ピンガリ氏がACM-IEEE CSケン・...
- 「AIの問題を定義する方法」
- Apache Beamパイプラインの作成でのMap、F...
- 「DiagrammerGPT」に会いましょう:LLMの...
- 「ChatGPTを使用してデータサイエンスのポ...
- このAI研究は、「ComCLIP:組成画像とテキ...
- KNNクラシファイアにおける次元の呪い
- 「MITの研究者達が、シーン内の概念を理解...
- 気候変動の責任は誰にあるのか? – ...
- 「人工知能(AI)におけるアナログコンピ...
- 「盲目的なキャリブレーションによる無線...
- 「機械学習におけるデータの重要性:AI革...
- オリジナリティの試金石:AIが創造的所有...
- 「MMDetectionを使用して物体検出モデルの...
「LLMsの信頼性のあるフューショットプロンプトの選択を確保する」
「ノイズのある現実世界のデータにLLMを適用する際のより良いFew-Shot Promptingのためのデータ中心の手法」
「Amazon SageMaker Studioを使用してAmazon RedshiftクラスターのクロスアカウントアクセスをVPCピアリングで構成する」
クラウドコンピューティングにより、計算能力とデータがより利用可能になったことで、機械学習(ML)は今やあらゆる産業に影響を与え、すべてのビジネスや産業の核となっていますAmazon SageMaker Studioは、ウェブベースの視覚的なインターフェースを持つ、初めての完全統合型ML開発環境(IDE)ですすべてのML開発を行うことができます[…]
「データクリーニングでPandasを使用する前にこれを読むべき理由」
「Pandasと共にデータ変換の旅に出ようデータクリーニング、処理、探索の効率的な技術を学び、データサイエンスのパイプラインで活用しましょう」
「Amazon SageMakerトレーニングワークロードで@remoteデコレータを使用してプライベートリポジトリにアクセスする」
「ますます多くの顧客が機械学習(ML)のワークロードを本番環境に展開しようとする中、MLコードの開発ライフサイクルを短縮するために、組織内での大きな推進があります多くの組織は、試験的なスタイルではなく、Pythonのメソッドやクラスの形式でMLコードを本番向けに書くことを好みます」
「Amazon SageMakerのトレーニングワークロードで、@remoteデコレータを使用してプライベートリポジトリにアクセスする」
「機械学習(ML)のワークロードを本番環境に展開しようとする顧客がますます増えているため、MLコードの開発ライフサイクルを短縮するための組織内での大きな取り組みが行われています多くの組織は、探索的スタイルではなく、Pythonのメソッドとクラスの形式で、本番環境に対応したスタイルでMLコードを記述することを好む...」
「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」
このシリーズの最初のパートでは、Polarsの基礎をカバーし、その機能と構文をPandasと比較しましたこのパートでは、クエリの複雑さをさらに一歩進めますので、...
BERTを使用してカスタムFAQチャットボットを構築する
チャットボットは、さまざまな目的のために多くの組織で使用される、ますます標準的で価値のあるインターフェースとなっています。顧客に個別の製品推奨を提供したり、クエリの解決のための24時間対応のカスタマーサポートを提供したり、顧客の予約をサポートしたりするなど、異なる産業で多くの応用が見つかっています。この記事では、お客様との対話を目的としたFAQチャットボットの作成プロセスについて説明します。FAQチャットボットは、特定のドメイン内の質問に対処し、事前定義された質問と対応する回答のリストを利用します。このタイプのチャットボットは、その基盤として意味的な質問マッチングを利用しています。 学習目標 BERTモデルの基礎を理解する Elasticsearchとそのチャットボットへの適用を理解する チャットボットの作成メカニズム Elasticsearchにおけるインデックス作成とクエリ処理 この記事は、データサイエンスブログマラソンの一部として公開されました。 BERTとは何ですか? BERT(Bidirectional Encoder Representations from Transformers)は、2018年にGoogleによって開発された大規模な言語モデルです。単方向モデルとは異なり、BERTはTransformerアーキテクチャに基づく双方向モデルです。文中の前後の単語を考慮して単語の文脈を理解することで、より包括的な理解を可能にします。 BERTには、NLPタスクにおいて最先端のパフォーマンスを達成できなかったという大きな課題がありました。主な問題は、トークンレベルの埋め込みがテキストの類似性に効果的に使用できなかったため、文の埋め込みを生成する際のパフォーマンスが低下するということです。 しかし、この課題に対処するために、Sentence-BERT(SBERT)が開発されました。SBERTは、Siamese Networkに基づいており、2つの文を一度に取り、BERTモデルを使用してトークンレベルの埋め込みを生成します。次に、各セットの埋め込みに対してプーリング層を適用して文の埋め込みを生成します。本記事では、文の埋め込みにSBERTを使用します。 Elastic Searchとは何ですか? Elastic Searchは、非常に強力で高いスケーラビリティを持ち、リアルタイムで大量のデータを処理するために設計されたオープンソースの検索および分析エンジンです。全文検索機能を提供するApache Luceneライブラリ上に開発されています。Elasticsearchは、複数のノードにわたる高度に分散したネットワークを提供するため、高い可用性と障害耐性を提供する高いスケーラビリティを持っています。また、柔軟で堅牢なRESTful APIも提供しており、HTTPリクエストを使用して検索エンジンとの対話を可能にします。さまざまなプログラミング言語をサポートし、簡単なアプリケーション統合のためのクライアントライブラリも提供しています。 BERTとElastic Searchを使用してチャットボットを作成する方法…
fairseqのwmt19翻訳システムをtransformersに移植する
Stas Bekmanさんによるゲストブログ記事 この記事は、fairseq wmt19翻訳システムがtransformersに移植された方法をドキュメント化する試みです。 私は興味深いプロジェクトを探していて、Sam Shleiferさんが高品質の翻訳者の移植に取り組んでみることを提案してくれました。 私はFacebook FAIRのWMT19ニュース翻訳タスクの提出に関する短い論文を読み、オリジナルのシステムを試してみることにしました。 最初はこの複雑なプロジェクトにどう取り組むか分からず、Samさんがそれを小さなタスクに分解するのを手伝ってくれました。これが非常に助けになりました。 私は、両方の言語を話すため、移植中に事前学習済みのen-ru / ru-enモデルを使用することを選びました。ドイツ語は話せないので、de-en / en-deのペアで作業するのははるかに難しくなります。移植プロセスの高度な段階で出力を読んで意味を理解することで翻訳の品質を評価できることは、多くの時間を節約することができました。 また、最初の移植をen-ru / ru-enモデルで行ったため、de-en / en-deモデルが統合されたボキャブラリを使用していることに全く気づいていませんでした。したがって、2つの異なるサイズのボキャブラリをサポートするより複雑な作業を行った後、統合されたボキャブラリを動作させるのは簡単でした。 手抜きしましょう 最初のステップは、もちろん手抜きです。大きな努力をするよりも小さな努力をする方が良いです。したがって、fairseqへのプロキシとして機能し、transformersのAPIをエミュレートする数行のコードで短いノートブックを作成しました。 もし基本的な翻訳以外のことが必要なければ、これで十分でした。しかし、もちろん、完全な移植を行いたかったので、この小さな勝利の後、より困難な作業に移りました。 準備 この記事では、~/portingの下で作業していると仮定し、したがってこのディレクトリを作成します:…
🤗 Transformersでn-gramを使ってWav2Vec2を強化する
Wav2Vec2は音声認識のための人気のある事前学習モデルです。2020年9月にMeta AI Researchによってリリースされたこの新しいアーキテクチャは、音声認識のための自己教師あり事前学習の進歩を促進しました。例えば、G. Ng et al.、2021年、Chen et al、2021年、Hsu et al.、2021年、Babu et al.、2021年などが挙げられます。Hugging Face Hubでは、Wav2Vec2の最も人気のある事前学習チェックポイントは現在、月間ダウンロード数25万以上です。 コネクショニスト時系列分類(CTC)を使用して、事前学習済みのWav2Vec2のようなチェックポイントは、ダウンストリームの音声認識タスクで非常に簡単にファインチューニングできます。要するに、事前学習済みのWav2Vec2のチェックポイントをファインチューニングする方法は次のとおりです。 事前学習チェックポイントの上にはじめに単一のランダムに初期化された線形層が積み重ねられ、生のオーディオ入力を文字のシーケンスに分類するために訓練されます。これは以下のように行います。 生のオーディオからオーディオ表現を抽出する(CNN層を使用する) オーディオ表現のシーケンスをトランスフォーマーレイヤーのスタックで処理する 処理されたオーディオ表現を出力文字のシーケンスに分類する 以前のオーディオ分類モデルでは、分類されたオーディオフレームのシーケンスを一貫した転写に変換するために、追加の言語モデル(LM)と辞書が必要でした。Wav2Vec2のアーキテクチャはトランスフォーマーレイヤーに基づいているため、各処理されたオーディオ表現は他のすべてのオーディオ表現から文脈を得ることができます。さらに、Wav2Vec2はファインチューニングにCTCアルゴリズムを利用しており、変動する「入力オーディオの長さ」と「出力テキストの長さ」の比率の整列の問題を解決しています。 文脈化されたオーディオ分類と整列の問題がないため、Wav2Vec2には受け入れ可能なオーディオ転写を得るために外部の言語モデルや辞書は必要ありません。 公式論文の付録Cに示されているように、Wav2Vec2は言語モデルを使用せずにLibriSpeechで印象的なダウンストリームのパフォーマンスを発揮しています。ただし、付録からも明らかなように、Wav2Vec2を10分間の転写済みオーディオのみで訓練した場合、言語モデルと組み合わせると特に改善が見られます。 最近まで、🤗 TransformersライブラリにはファインチューニングされたWav2Vec2と言語モデルを使用してオーディオファイルをデコードするための簡単なユーザーインターフェースがありませんでした。幸いにも、これは変わりました。🤗…
KiliとHuggingFace AutoTrainを使用した意見分類
イントロダクション ユーザーのニーズを理解することは、ユーザーに関連するビジネスにおいて重要です。しかし、それには多くの労力と分析が必要であり、非常に高価です。ならば、Machine Learningを活用しませんか?Auto MLを使用することでコーディングを大幅に削減できます。 この記事では、HuggingFace AutoTrainとKiliを活用して、テキスト分類のためのアクティブラーニングパイプラインを構築します。Kiliは、品質の高いトレーニングデータ作成を通じて、データ中心のアプローチを強力にサポートするプラットフォームです。協力的なデータ注釈ツールとAPIを提供し、信頼性のあるデータセット構築とモデルトレーニングの素早い反復を可能にします。アクティブラーニングとは、データセットにラベル付けされたデータを追加し、モデルを反復的に再トレーニングするプロセスです。そのため、終わりのない作業であり、人間がデータにラベルを付ける必要があります。 この記事の具体的なユースケースとして、Google PlayストアのVoAGIのユーザーレビューを使用してパイプラインを構築します。その後、構築したパイプラインでレビューをカテゴリ分類します。最後に、分類されたレビューに感情分析を適用します。その結果を分析することで、ユーザーのニーズと満足度を理解することが容易になります。 HuggingFaceを使用したAutoTrain 自動化されたMachine Learningは、Machine Learningパイプラインの自動化を指す用語です。データクリーニング、モデル選択、ハイパーパラメータの最適化も含まれます。🤗 transformersを使用して自動的にハイパーパラメータの検索を行うことができます。ハイパーパラメータの最適化は困難で時間のかかるプロセスです。 transformersや他の強力なAPIを使用してパイプラインを自分自身で構築することもできますが、AutoTrainを完全に自動化することも可能です。AutoTrainは、transformers、datasets、inference-apiなどの多くの強力なAPIを基に構築されています。 データのクリーニング、モデルの選択、ハイパーパラメータの最適化のステップは、すべてAutoTrainで完全に自動化されています。このフレームワークをフルに活用することで、特定のタスクに対してプロダクションレディのSOTAトランスフォーマーモデルを構築することができます。現在、AutoTrainはバイナリとマルチラベルのテキスト分類、トークン分類、抽出型質問応答、テキスト要約、テキストスコアリングをサポートしています。また、英語、ドイツ語、フランス語、スペイン語、フィンランド語、スウェーデン語、ヒンディー語、オランダ語など、多くの言語もサポートしています。AutoTrainでサポートされていない言語の場合、カスタムモデルとカスタムトークナイザを使用することも可能です。 Kili Kiliは、データ中心のビジネス向けのエンドツーエンドのAIトレーニングプラットフォームです。Kiliは、最適化されたラベリング機能と品質管理ツールを提供し、データを管理するための便利な手段を提供します。画像、ビデオ、テキスト、PDF、音声データを素早く注釈付けできます。GraphQLとPythonの強力なAPIも備えており、データ管理を容易にします。 オンラインまたはオンプレミスで利用可能であり、コンピュータビジョンやNLP、OCRにおいてモダンなMachine Learning技術を実現することができます。テキスト分類、固有表現認識(NER)、関係抽出などのNLP / OCRタスクをサポートしています。また、オブジェクト検出、画像転写、ビデオ分類、セマンティックセグメンテーションなどのコンピュータビジョンタスクもサポートしています。 Kiliは商用ツールですが、Kiliのツールを試すために無料のデベロッパーアカウントを作成することもできます。料金については、価格ページから詳細を確認できます。 プロジェクト モバイルアプリケーションについての洞察を得るために、レビューの分類と感情分析の例を取り上げます。…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.