Learn more about Search Results A - Page 563

なぜプロンプトエンジニアリングは一時的な流行なのか

様々なメディアは、プロンプトエンジニアリングについて熱狂的に話しており、それを理想的な仕事のように思わせていますプログラムのコーディングを学ぶ必要もなく、深層学習、データセットなどの機械学習の概念に詳しい必要もありませんあなたも同意するでしょうが、あまりにも…

深層学習のマスタリング:非線形性をピースワイズな推定による近似するアート パート3

皆さん、こんにちは!私のディープラーニングマスタリングシリーズの第3回目へようこそこの記事は、第1部と第2部の続きであり、「非線形の近似の芸術」というタイトルでした…

コンピュータビジョンの戦場:チャンピオンを選ぶ

転移学習はコンピュータビジョンを変えましたが、まだ多くの未解決な問いが残っています例えば、最も優れたアーキテクチャは何ですか?どれが特定のタスクに最適ですか?全ての記事が最先端の技術であると主張していますが...

基礎に戻る週1:Pythonプログラミング&データサイエンスの基礎

「VoAGIの『基礎に戻る』パスウェイでデータサイエンスの専門知識を磨きましょうPython、データ操作、視覚化を含んでいます」

「Pythonの継承の一般的な実践と落とし穴:ダイヤモンド問題、ミキシン、その他」

「継承は、OOPの他の概念と同様に、開発者がコードを再利用し、優雅でスケーラブルなソフトウェアソリューションを開発することを可能にしますPythonの広範なコミュニティを考慮しながら、複数の...」

DB-GPT プロプライエタリLLMテクノロジーを使用して、データベースとのインターフェースを変革する

DB-GPTとは何ですか? DB-GPTは、データと周囲の世界と対話するために、ローカライズされたGPT large モデルを使用した実験的なオープンソースプロジェクトです。これはデータベースを使用する状況における包括的なプライベート大規模モデルの解決策です。DB-GPTを使用すると、情報が望ましくない目に晒されることなく保護されていることが保証されます。 なぜDB-GPTが重要なのですか? 大規模言語モデルは、その知能の向上により、データ処理ツールとしての力を増しています。しかし、実用的な状況でLLMを使用する際には、プライバシーやデータセキュリティに関する深刻な懸念があります。DB-GPTは、ビジネスモジュールに基づいて実装およびセグメント化できるカスタマイズされたLLMソリューションを提供し、これらの障壁を乗り越えます。これにより、LLMの機能の完全な機密性、安全性、および管理性が保証されます。 DB-GPTの主な特徴 DB-GPTは、その多くの便利な機能により、データベースとのやり取りにおいて頑強かつ柔軟なツールです。これらの機能の一部は以下の通りです: DB-GPTは、構造化データと非構造化データの両方を効率的に処理することができ、またプライベートな知識ベースの構築にも活用することができます。 DB-GPTの支援を受けて、スプレッドシート、データベース、データウェアハウスなど、さまざまなソースからのデータを結合し、可視化することができます。さらに、データの可視化に関するツールも多数提供されており、データの研究と解釈を容易にすることができます。 このプラットフォームの能力は、DB-GPTによってサポートされるマルチエージェントとプラグインによって拡張することができます。 テキスト2SQLの変更:DB-GPTは、テキストからSQLへの変換などの特殊な操作を行うために変更することができます。 DB-GPTは、複数のビッグ言語モデルをサポートしています。これらのモデルには、GPT-3、InstructGPT、およびLaMDAが含まれます。 DB-GPTは、プライバシーとセキュリティを考慮して開発されたものです。完全にオンプレミスでデプロイされたローカライズされたソリューションです。 以下の要素が基本的な能力の大部分を構成しています: LLaMA/LLaMA2、CodeLLaMA、ChatGLM、QWen、Vicuna、およびProxyモデルのChatGPT、Baichuan、tongyi、wenxinなど、さまざまな線形回帰モデル(LLM)がサポートされています。 専門家の知識に基づく品質保証:PDF、Word文書、Excelスプレッドシートなどのファイルのエラーをチェックします。 情報をベクトルとして埋め込み、ベクトルデータベースに格納することで、コンテンツの類似性検索を実施することができます。 マルチデータソース:さまざまなモジュールとデータストア間のコミュニケーションと共同作業を容易にする方法です。 マルチエージェント:エージェントおよびプラグインシステムを提供し、ユーザーがシステムの動作を変更および改善することができます。 データの漏洩は想像もできず、すべての情報が安全であることを安心して確認できます。 大規模言語モデルに対して監視されたファインチューニング(SFT)を使用することで、テキストからSQLへのパフォーマンスを向上させます。 DB-GPTの使用例 以下は、DB-GPTがデータベースと共に使用される可能性があるいくつかの例です:…

「パンドラの箱をのぞいてみよう:『ホワッツインマイビッグデータ(WIMBD)』で言語モデルのデータセットの隠された複雑さを明らかにする」

機械学習はその基盤としてデータに依存しています。新しいデータセットは、研究や革新的なモデルの開発において重要な要素です。大規模なデータセット上で大きなモデルをトレーニングすることは、AIの実験の計算コストを時の経過とともに大幅に増加させています。現在、最も影響力のあるデータセットのいくつかは、公にアクセス可能なインターネット全体からテキストを抽出することによって生成されています。通常、これらのデータベースには内容の記述はなく、生成方法の説明のみが提供されます。 これは重要な違いであり、現在、大規模なテキストコーパス上でモデルがトレーニングされているが、それに含まれる概念、主題、有害性、または個人情報を知る手段がないということを意味します。一方、言語モデルは現在、世界中の個人によって日常的に広範に利用されています。これらのAIシステムは人々の生活に直接的な影響を与えるため、それらの利点と欠点を理解することは今や重要です。モデルはそれらがトレーニングされたデータからのみ学ぶことができますが、事前トレーニングコーパスの非公開性と膨大な量は、それらを分析することを困難にしています。ウェブスケールのコーパスの内容を評価する作業では、通常、わずかな重要な側面に焦点が当てられますが、同じ側面でいくつかのデータセットを分析するためにはさらなる作業が必要です。 そのため、機械学習の実践者は、データセットの違いをより有用に説明するための方法が必要です。本研究では、Allen Institute for AI、ワシントン大学、カリフォルニア大学の研究者らが、マイビッグデータ(WIMBD)と呼ばれるツールのコレクションを利用して、大規模な言語データセットを迅速に調査することで、大規模なテキストコーパスの内容を研究するための手助けをすることを提案しています。また、彼らはこの技術を使用して、複数のウェブスケールのデータセットを比較した初めての直接的に比較可能な指標を提供しています。 WIMBDには2つのパートがあります:(1) Elasticsearch(ES)ベースの検索ツールで、クエリを含むドキュメントをプログラムで検索することができます。ESは、コーパス内の文字列を検索し、それらが出現したテキストや回数とともに見つけることができる検索エンジンです。(2) MapReduceに基づいたカウント機能で、データセット全体を高速にイテレーションし、ドキュメントの文字数の分布、重複、ドメインの数、個人情報(PII)の特定など、関連するデータを抽出することができます。WIMBDのコードはオープンソースで、github.com/allenai/wimbdでアクセス可能です。これは拡張可能で、大規模なスケールで異なるコーパスをインデックス化、カウント、分析するために使用することができます。彼らは、これらの技術を使用して、C4、The Pile、RedPajamaなどの10の異なるコーパス上で16の研究を実施し、言語モデルのトレーニングに使用されています。 彼らはその分析を以下の4つのカテゴリに分類しています: データの統計(トークンの数やドメインの分布など)。 データの品質(重複ドキュメントの測定や最も頻出のn-gramの計測など)。 コミュニティおよび社会に関連する測定(ベンチマークの汚染や個人情報の検出など)。 コーパス間の分析(ドキュメントの重複や最も一般的なn-gramの比較など)。 図1はWIMBDの概要を示しています。彼らの研究では、データの分布や異常に関する多くの洞察が提供されています。 図1:WIMBDの概要。CountとSearchの2つの主要機能を提供し、大規模なテキストコーパスへの迅速な処理とアクセスを容易にし、さまざまな分析を可能にします。 たとえば、ドキュメントの長さの分布を調べることにより、近隣の長さと比較してある長さが過剰に表示される異常が明らかになることがあります。これらの異常は、ほぼ正確に2倍のテンプレートから作成されるテキストや、特定の文字数に意図的に切り詰められたドキュメントに関連することがよくあります。また、最も一般的なn-gramとして句読点の連続もあります。たとえば、The Pileでは、最も一般的な10-gramは「-」(ダッシュ)が10回繰り返されたものです。WIMBDは、より高品質なコーパスのキュレーション、モデルの行動の遡及的なドキュメンテーションやアンカリングに実践的な洞察を提供します。また、wimbd.apps.allenai.orgでは、彼らの分析の一部をハイライトするインタラクティブなデモが提供されており、この公開とともにリリースされています。

実生活の例とPythonコードで説明される隠れマルコフモデル

「隠れマルコフモデルは、気象予測から文の次の単語を見つけるまで、様々な現実の問題を解くために使用される確率モデルです」

「ロンドン帝国大学チーム、少ないデモンストレーションで新たな現実世界のタスクをマスターするための人工知能の方法を開発」

ロボット工学と人工知能の常に進化する分野で、興味深く挑戦的な問題の一つは、完全に異なるオブジェクトでの仕事をロボットに教える方法です。つまり、これまでに見たことも触れたこともないオブジェクトです。この長年にわたる研究者や科学者の関心事でもあるトピックの答えは、ロボット工学を変革する上で重要です。ロボットは、操作タスクを実行するために、操作軌道に沿って二つのオブジェクトを作業特化的な方法で理解し、配置する必要があります。 ロボットは、ティーポットからカップにお茶を注ぐときに、ティーポットの注口とカップの口が一致することを確認する必要があります。この一致はタスクを成功裏に完了するためには不可欠です。しかし、同じクラスのオブジェクトは頻繁にわずかに異なる形状をしており、ある特定の活動においてどの部分が正確に一致する必要があるかを把握することが複雑化します。模倣学習の場合、この問題はさらに複雑になります。なぜなら、ロボットはアイテムやそのクラスに関する事前の情報を持たずに示されたデモからタスク固有の配置を推論しなければならないからです。 最近の研究チームは、この問題を模倣学習の課題として捉え、オブジェクトグラフ表現の条件付き整列を強調する方法で取り組みました。彼らは、学習プロセスの文脈として機能する少数の例から新しいアイテムの整列と相互作用のスキルをロボットが獲得できる手法を開発しました。彼らはこの手法を条件付き整列と呼び、デモを見た後すぐに新しいオブジェクトのセットでタスクを実行できるようにしました。つまり、追加のトレーニングやオブジェクトクラスの事前知識は必要ありません。 研究者たちは、彼らの手法に関して行った試験で、彼らが行った設計上の決定がどれくらい妥当性があるかを調査し、検証しました。これらのテストは、彼らのアプローチがさまざまな一般的な現実世界のタスクにおいて少数のショット学習を達成するためにどれくらい優れているかを示しています。彼らのアプローチは、ベースライン技術よりも優れており、異なるオブジェクトを提供する新しいタスクを習得する際の柔軟性と効果の観点で優位性を示しています。 このチームは、ロボットが迅速に新しいアイテムに適応し、さまざまなオブジェクト上に表示されたタスクを実行する問題に取り組むためのユニークな戦略を開発しました。彼らは、グラフ表現と条件付き整列を利用した少数のショット学習において優れたパフォーマンスを発揮する柔軟なフレームワークを開発し、その研究は実証的な証拠を提供しています。プロジェクトの詳細はhttps://www.robot-learning.uk/implicit-graph-alignmentでアクセスできます。プロジェクトのウェブページで利用可能なビデオは、この手法の成功と現実世界での実用性の追加的な証拠として機能しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us