Learn more about Search Results HTML - Page 232

「ChatGPTを使用して完全な製品を作成するために学んだ7つの教訓」

つい最近、私はChatGPTを使って自分自身のフランス語のチューターを作成したことを共有しました(それはオープンソースです、ところで)私はアプリの設計方法(特にバックエンド)と接続方法について説明しました...

Amazon SageMakerとAmazon Rekognitionを使用して、画像内の車の位置を検出するためのコンピュータビジョンモデルを構築してトレーニングする

コンピュータビジョン(CV)は、機械学習(ML)とディープラーニングの最も一般的な応用の一つです使用例は、自動運転車、ソーシャルメディアプラットフォームでのコンテンツモデレーション、がん検出、自動欠陥検出などがありますAmazon Rekognitionは、オブジェクト検出、ビデオセグメント検出、コンテンツモデレーションなどのCVタスクを実行できる、完全に管理されたサービスです

このAIニュースレターは、あなたが必要なもの全てです#58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシミュレーターアプリケーションの発表が含まれています

「WebAgentに会いましょう:DeepMindの新しいLLM、ウェブサイト上での指示に従ってタスクを完了する」

大規模言語モデル(LLM)とウェブサイトの統合は、新たな波のLLMを活用したアプリケーションを可能にする領域の一つですLLMは広範な分野で驚異的な能力を示しています...

「Pythonによる正規表現のマスタリング」

この記事では、Pythonを使った正規表現の世界に深く立ち入り、複雑ですが強力なツールをマスターしたい人にとっての包括的なガイドを提供します詳細な説明とコードの例もあります

テキストのポテンシャルを引き出す:プリエンベッドテキストクリーニング方法の詳細な調査

テキストクリーニングの方法のデモンストレーションには、Kaggleから取得した「メタモルフォーシス」という名前のテキストデータセットを使用します上記のコードセルが機能するためには、ローカルディレクトリパスを指定する必要があります...

「BI-LSTMを用いた次の単語予測のマスタリング:包括的なガイド」

はじめに 次の単語を特定することは、次の単語の予測、または言語モデリングとしても知られています。自然言語処理のベンチマークタスクの一つは、言語モデリングです。基本的な形式では、特定の単語の後に続く単語を、それらに基づいて最も起こりやすいものとして選ぶことを意味します。言語モデリングは、さまざまな分野でさまざまな応用があります。 学習目標 統計分析、機械学習、データサイエンスで使用される多くのモデルの基本的なアイデアと原則を認識する。 回帰、分類、クラスタリングなどの予測モデルを作成し、データに基づいて正確な予測とタイプを生成する方法を学ぶ。 過剰適合と適合不足の原則を理解し、精度、適合率、再現率などの指標を使用してモデルのパフォーマンスを評価する方法を学ぶ。 データの前処理とモデリングに関連する特性を特定する方法を学ぶ。 グリッドサーチと交差検証を使用して、ハイパーパラメータを調整し、モデルを最適化する方法を学ぶ。 この記事はData Science Blogathonの一部として公開されました。 言語モデリングの応用 以下は言語モデリングの注目すべき応用例です。 モバイルキーボードのテキスト推奨 スマートフォンのキーボードには、モバイルキーボードのテキスト推奨、予測テキスト、またはオートサジェストと呼ばれる機能があります。入力すると、単語やフレーズを提案します。これにより、タイピングがより速く、エラーが少なくなり、より正確で文脈に適した推奨が行われます。 また読む:コンテンツベースのレコメンデーションシステムの構築 Google検索の自動補完 Googleなどの検索エンジンを使用して何かを検索するたびに、多くのアイデアが表示され、フレーズを追加すると、推奨がより良く、現在の検索に関連性が高くなります。それはどのように実現されるのでしょうか? 自然言語処理(NLP)技術が可能にします。ここでは、自然言語処理(NLP)を使用して、双方向LSTM(長短期記憶)モデルを利用して、文の残りの単語を予測する予測モデルを作成します。 さらに詳しくはこちら:LSTMとは? 長短期記憶の紹介 必要なライブラリとパッケージのインポート 次の単語の予測モデルを作成するために、双方向LSTMを使用するために必要なライブラリとパッケージをインポートするのが最も良いでしょう。一般的に必要なライブラリの一部を以下に示します: import…

「Google DeepMindと東京大学の研究者が、WebAgentを紹介:自然言語の指示に従って実際のウェブサイト上のタスクを完了できるLLM-Drivenエージェント」

論理演算、常識、論理的な推論、質問応答のタスク、テキスト生成、さらには対話的な意思決定タスクなど、多くの自然言語の活動は、大規模な言語モデル(LLM)を利用して解決することができます。HTMLの理解能力と多段階の推論を利用することで、LLMは最近、与えられた自然言語の命令を満たすために、コンピュータのアクションの連続を通じてエージェントがコンピュータを制御したり、インターネットを閲覧したりする自律的なウェブナビゲーションで優れた成功を示しています。事前に定義されたアクションスペースの欠如、シミュレータと比較してより長いHTMLの観測、およびLLMにおけるHTMLドメインの知識の欠如は、実世界のウェブナビゲーションに否定的な影響を与えています(図1)。 図1:実際のウェブナビゲーションの困難さ。現代の言語モデルエージェントは、事前に定義された操作を制御し、簡単に理解できるように簡略化されたHTMLテキストを受け取る仮想的なウェブサイトを探索することができます。エージェントがオープンエンドのタスクに対処し、多くのタスクに関係のない要素を含む長いHTMLテキストに対処する必要がある実際のウェブサイトをナビゲートする際には、言語モデルエージェントは引き続き苦労しています。 命令の複雑さとオープンエンドの実世界のウェブサイトのために、事前に適切なアクションスペースを選択することは容易ではありません。最新のLLMは、HTMLテキストの処理に最適な設計を持つことは稀であり、さまざまな研究では、命令の微調整や人間の入力からの強化学習がHTMLの理解とオンラインナビゲーションの精度を向上させると主張しています。多くのLLMは、一般的なタスクの汎用性とモデルのスケーラビリティを優先するため、実際のウェブページに見られる典型的なHTMLトークンよりも短い文脈の期間を優先し、テキスト-XPathの整列やテキスト-HTMLトークンの分離などの過去のアプローチを採用していません。 そうした長いテキストにトークンレベルのアラインメントを適用することは比較的安価です。WebAgentという、人間の命令に従って実際のウェブサイトでナビゲーションタスクを実行できるLLM駆動の自律エージェントを提供するために、プログラムスペースでカノニカルなウェブ操作をグループ化します。自然言語の命令をより小さなステップに分割することで、WebAgentは以下のことを行います: 各ステップのサブ命令を計画します。 サブ命令に基づいて長いHTMLページをタスクに関連するスニペットにまとめます。 実際のウェブサイトでサブ命令とHTMLスニペットを実行します。 この研究では、Google DeepMindと東京大学の研究者が、2つのLLMを組み合わせてWebAgentを作成しました。最近作成されたHTML-T5というドメインエキスパートの事前訓練言語モデルを使用して作業計画と条件付きHTML要約を行います。Flan-U-PaLMは、グラウンデッドコードの生成に使用されます。HTML-T5には、エンコーダにローカルとグローバルなアテンション手法を組み込むことで、長いHTMLページの構造の構文と意味をよりよく捉えるように特化させることができます。これは、長いスパンのノイズ除去目標を組み合わせたCommonCrawl1によって作成された大規模なHTMLコーパスで事前訓練された自己教師ありのモデルです。既存のLLM駆動のエージェントは、各タスクごとにさまざまな例を促すために単一のLLMを使用して意思決定タスクを完了することがよくあります。しかし、これはシミュレータの複雑さを超えるため、実世界のタスクには不十分です。 徹底的な評価によると、プラグイン言語モデルとの統合戦略により、HTMLの理解とグラウンディングが向上し、より高い汎化能力を持つことが示されています。詳細な研究によれば、タスク計画とHTML要約を専門の言語モデルでリンクさせることは、タスクのパフォーマンスにおいて重要であり、実世界のオンラインナビゲーションの成功率を50%以上向上させることができます。WebAgentは、QAの精度において単一のLLMに対して静的なウェブサイトの理解タスクで優れたパフォーマンスを発揮し、優れた基準と比較可能なパフォーマンスを持っています。さらに、HTML-T5はWebAgentの重要なプラグインとして機能し、ウェブベースのジョブで先端的な結果を独自に生み出します。MiniWoB++テストでは、HTML-T5は単純なローカルグローバルアテンションモデルやその命令微調整バリエーションよりも優れた成績を収め、以前の最良の技術よりも成功率が14.9%高い結果を達成しています。 彼らは主に以下の点に貢献しています: • 実用的なWebナビゲーションのために2つのLLMを組み合わせたWebAgentを提供しています。一般的な言語モデルは実行可能なプログラムを生成し、ドメインエキスパート言語モデルは計画とHTMLの要約を処理します。 • ローカルグローバルアテンションを採用し、大規模なHTMLコーパスを用いた長距離ノイズ除去の組み合わせによる事前トレーニングを行うことで、HTML-T5という新しいHTML特化言語モデルを提供しています。 • 実際のウェブサイトでは、HTML-T5は成功率を50%以上向上させ、MiniWoB++では従来のLLMエージェントを14.9%上回ります。

NLPの探求 – NLPのキックスタート(ステップ#3)

「以下は、特に単語の埋め込みについて、私が週間で学んだいくつかの概念です実際に手を動かして試してみましたので、その一部を近々シリーズとして共有します!ここで、サチン氏に感謝を述べたいと思います...」

NLPの探求- NLPのキックスタート(ステップ#4)

お帰りなさい!シリーズを続けて、今回は(主に)POSタギングについてのメモを共有します特に、CENのサチン・クマール・S氏(アムリタ・コインバトール)に感謝したいと思います...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us