Learn more about Search Results コーパス - Page 6

エンタープライズデータの力を活用するための生成AI:Amazon Kendra、LangChain、および大規模言語モデルによる洞察

広範な知識を持つ大規模言語モデル(LLM)は、ほぼあらゆるトピックについて人間らしいテキストを生成することができますしかし、大量のデータセットでの訓練は、専門的なタスクに対しての利用価値を制限します継続的な学習がなければ、これらのモデルは初期の訓練後に現れる新しいデータやトレンドに無関心ですさらに、新しいLLMを訓練するためのコストも[…]

(CodeGPT AIコミュニティで話題となっている新たなコード生成ツールにご紹介します)

新しいAIコード生成ツールの中で、CodeGPTはプログラマーの間で好評を博しています。CodeGPTはVisual Studio Codeのアドオンであり、GPT-3言語モデルを活用してコードを生成し、言語を翻訳し、さまざまなタイプのコンテンツを書き、質問に答えることができます。 CodeGPTは現在開発中ですが、開発者がコードを作成する方法を変える可能性があります。CodeGPTが自然言語を理解する能力は、他のAIコード生成ツールとは異なる特徴の一つです。つまり、形式的なプログラミング用語を使用せずに、開発者は自然言語で書かれた説明に基づいてCodeGPTにコードの構築を指示することができます。特に新しい言語やフレームワークを学ぶ開発者にとって、このような時間の節約は大きなものになることがあります。 CodeGPTのもう一つの利点は、効率的でより独自なコードを生成できる能力です。CodeGPTは実際のプロジェクトの大量のコードコーパスでトレーニングされているため、各プログラミング言語の標準と規範に精通しています。 最後に、CodeGPTには頻繁に更新と改良が行われます。CodeGPTチームはソフトウェアを新しい機能で常に更新し、発生する問題を修正します。これにより、CodeGPTは常にコード生成、言語翻訳、コンテンツ作成、質問に答えるなどのさまざまなタスクで改善され続けています。 CodeGPTの応用範囲: CodeGPTは不完全または曖昧なコードスニペットを自動的に完成させることができます。特に大規模で複雑なコードベースの扱いにおいて、エンジニアにとって時間の節約になります。 CodeGPTで関数、クラス、さらにはプログラム全体を生成することができます。これは、基本的なコードを素早く生成したり、新しいコンセプトを開発したりするのに役立ちます。 CodeGPTの支援により、コードの再構築が容易になり、より独自で書きやすいコード構造をプログラマーに推奨します。また、一般的なセキュリティの欠陥を見つけて修正するのにも役立ちます。 コードのデバッグに関しては、CodeGPTはミスの可能性のある理由を提案し、修正方法に関するアドバイスを提供する便利なツールです。 バグの発見:CodeGPTは、開発者が潜在的な問題を特定し、コードの正確性をチェックするためのテストを提供することで、コードの欠陥を明らかにするのに役立ちます。 適切に使用すると、CodeGPTはプログラマがコードを生成する速度、効率、品質を向上させる強力なツールです。 CodeGPTを入手できる場所:https://marketplace.visualstudio.com/items?itemName=DanielSanVoAGI.dscodegpt&ssr=false Mistralはこちらからダウンロードして使用することができます:https://docs.codegpt.co/docs/tutorial-ai-providers/ollama Introducing CodeGPT, running the @MistralAI 7B model locally in…

トランスフォーマーモデルでのNLPの台頭 | T5、BERT、GPTの包括的な分析

自然言語処理(NLP)は、近年、トランスフォーマーアーキテクチャのおかげで最も効果的なブレークスルーを経験してきましたこれらの進展は、機械が人間の言語を理解し生成する能力を向上させるだけでなく、検索エンジンから対話型AIまで、多くのアプリケーションの領域を再定義しました完全に[…]

データから真実を解読する:大きな言語モデルが真実をモデル化するためにパーソナを使用する方法

大型言語モデル(LLM)の導入により、人工知能のサブフィールドである自然言語処理(NLP)は大幅に進化し改善されています。卓越したテキストの解釈と生成能力を持つLLMは、ますます人気が高まっています。これらのモデルは、インターネットの大量のデータを使用して事前にトレーニングされます。その中でも代表的なものは、GPT3.5およびGPT4モデルです。モデルがトレーニングされるデータ、つまりコーパスは大きく多様ですが、理想的とは言えません。それはフィルタリングされておらず、ノイズがあり、虚偽の情報や事実の誤りが含まれています。こうしたデータコーパスが真実と非真実を区別するため、LLMはどのようにしているのかという問いが浮かびます。 最近の研究では、ニューヨーク大学、ETH Zurich、ボストン大学の研究者チームが、LLMが真実のテキストをクラスタリングできる可能性を提案しています。これらのモデルは、トレーニングデータに寄与するさまざまなエージェントやソースを表しているかもしれないという前提に基づいて構築されています。研究者は、この「真実のペルソナ」と呼んでいるが、これは共有されたテキスト生成特性により、正確で信頼できる情報を生成しやすいエージェントの集合を指します。 たとえば、ScienceやWikipediaなどの信頼性のある確立したサイトは、定期的に形式的な文章スタイルを使用して事実に基づいた情報を提供しています。LLMはこの真実のペルソナをモデリングすることで、特定の状況の範囲外でも本物の回答を提供することができます。研究チームは、ペルソナ仮説を支持する2つの主要な観察結果を共有しています。 事前生成の真実評価:モデルが回答を生成する前でも、それが真実であるかどうかは判断できる。したがって、状況とソースエージェントのペルソナに応じて、LLMは回答の真実性を評価できる。 真実性の向上による微調整:LLMが事実に基づく情報の集合を使用して微調整されると、関連性のない問題や直接関連する問題についてより真実になる。したがって、真実のペルソナの影響により、モデルは真実性の原則をさまざまな主題に一般化することができる。 チームは、合成環境と数学的なプロセスを使用して、ペルソナとモデルの信頼性の関連性を評価しました。この制御されたシナリオにおいて、異なるエージェントは各数学演算子について異なる信念を持ちますが、それぞれの信念が真実か間違いかによって異なります。これらのエージェントの方程式により、LLMは先に知られていない演算子に正確に応答し、真実と偽の主張を成功裏に識別する能力を向上させることができます。この成果は、トレーニングデータのアクターが真実の生成プロセスを共有し、真実のアイデンティティの構築を可能にする場合にのみ実現します。 結論として、この研究は、LLMがトレーニングデータに含まれる階層構造を利用して真実性のような抽象的な概念を獲得することができることを示しています。これらのモデルは真実と偽の情報を見極め、幅広いトピックに適切な応答を生成する能力を真実のペルソナをモデリングすることで一般化することができます。これは、これらのトピックのソースエージェントが真摯さを示唆する特性を共有している場合であってもです。

「パンドラの箱をのぞいてみよう:『ホワッツインマイビッグデータ(WIMBD)』で言語モデルのデータセットの隠された複雑さを明らかにする」

機械学習はその基盤としてデータに依存しています。新しいデータセットは、研究や革新的なモデルの開発において重要な要素です。大規模なデータセット上で大きなモデルをトレーニングすることは、AIの実験の計算コストを時の経過とともに大幅に増加させています。現在、最も影響力のあるデータセットのいくつかは、公にアクセス可能なインターネット全体からテキストを抽出することによって生成されています。通常、これらのデータベースには内容の記述はなく、生成方法の説明のみが提供されます。 これは重要な違いであり、現在、大規模なテキストコーパス上でモデルがトレーニングされているが、それに含まれる概念、主題、有害性、または個人情報を知る手段がないということを意味します。一方、言語モデルは現在、世界中の個人によって日常的に広範に利用されています。これらのAIシステムは人々の生活に直接的な影響を与えるため、それらの利点と欠点を理解することは今や重要です。モデルはそれらがトレーニングされたデータからのみ学ぶことができますが、事前トレーニングコーパスの非公開性と膨大な量は、それらを分析することを困難にしています。ウェブスケールのコーパスの内容を評価する作業では、通常、わずかな重要な側面に焦点が当てられますが、同じ側面でいくつかのデータセットを分析するためにはさらなる作業が必要です。 そのため、機械学習の実践者は、データセットの違いをより有用に説明するための方法が必要です。本研究では、Allen Institute for AI、ワシントン大学、カリフォルニア大学の研究者らが、マイビッグデータ(WIMBD)と呼ばれるツールのコレクションを利用して、大規模な言語データセットを迅速に調査することで、大規模なテキストコーパスの内容を研究するための手助けをすることを提案しています。また、彼らはこの技術を使用して、複数のウェブスケールのデータセットを比較した初めての直接的に比較可能な指標を提供しています。 WIMBDには2つのパートがあります:(1) Elasticsearch(ES)ベースの検索ツールで、クエリを含むドキュメントをプログラムで検索することができます。ESは、コーパス内の文字列を検索し、それらが出現したテキストや回数とともに見つけることができる検索エンジンです。(2) MapReduceに基づいたカウント機能で、データセット全体を高速にイテレーションし、ドキュメントの文字数の分布、重複、ドメインの数、個人情報(PII)の特定など、関連するデータを抽出することができます。WIMBDのコードはオープンソースで、github.com/allenai/wimbdでアクセス可能です。これは拡張可能で、大規模なスケールで異なるコーパスをインデックス化、カウント、分析するために使用することができます。彼らは、これらの技術を使用して、C4、The Pile、RedPajamaなどの10の異なるコーパス上で16の研究を実施し、言語モデルのトレーニングに使用されています。 彼らはその分析を以下の4つのカテゴリに分類しています: データの統計(トークンの数やドメインの分布など)。 データの品質(重複ドキュメントの測定や最も頻出のn-gramの計測など)。 コミュニティおよび社会に関連する測定(ベンチマークの汚染や個人情報の検出など)。 コーパス間の分析(ドキュメントの重複や最も一般的なn-gramの比較など)。 図1はWIMBDの概要を示しています。彼らの研究では、データの分布や異常に関する多くの洞察が提供されています。 図1:WIMBDの概要。CountとSearchの2つの主要機能を提供し、大規模なテキストコーパスへの迅速な処理とアクセスを容易にし、さまざまな分析を可能にします。 たとえば、ドキュメントの長さの分布を調べることにより、近隣の長さと比較してある長さが過剰に表示される異常が明らかになることがあります。これらの異常は、ほぼ正確に2倍のテンプレートから作成されるテキストや、特定の文字数に意図的に切り詰められたドキュメントに関連することがよくあります。また、最も一般的なn-gramとして句読点の連続もあります。たとえば、The Pileでは、最も一般的な10-gramは「-」(ダッシュ)が10回繰り返されたものです。WIMBDは、より高品質なコーパスのキュレーション、モデルの行動の遡及的なドキュメンテーションやアンカリングに実践的な洞察を提供します。また、wimbd.apps.allenai.orgでは、彼らの分析の一部をハイライトするインタラクティブなデモが提供されており、この公開とともにリリースされています。

「KaggleのAIレポート2023で未来にダイブしよう – ホットなトレンドをチェックしよう」

「AIの世界について学んだことについて、世界最大のデータサイエンスと機械学習コミュニティに飛び込んでください」

コードを解読する LLMs

最近の数年間は、言語モデルの進化が著しく、トランスフォーマーの導入によって、私たちが日常的なタスクを行う方法、例えばメールの書き方や作成方法などが革命化されました...

「GlotLIDをご紹介します:1665言語に対応するオープンソースの言語識別(LID)モデル」

近年、異なる国境間でのコミュニケーションが絶えず進展している中で、言語の包括性は重要です。自然言語処理(NLP)技術は、選ばれた数少ないVOAGIおよび高資源言語に限らず、広範な言語の多様性に対応できるようになるべきです。低資源言語のための文献、つまり言語データの収集へのアクセスは、これを実現する上で重要です。言語の多様性を促進し、NLP技術が世界中の人々に役立つことを保証するためには、この包括性に依存しています。 特に、約300の高資源言語とVOAGIリソース言語に対して、言語識別(LID)の分野で大きな進歩がありました。さまざまな言語に対してうまく機能するLIDシステムが、いくつかの研究によって提案されています。しかし、それには以下のようないくつかの問題があります。 現在、幅広い低資源言語をサポートするLIDシステムは存在しません。これは、言語の多様性と包括性にとって重要です。 低資源言語向けの現在のLIDモデルは、十分な評価と信頼性を提供していません。さまざまな状況で正確に言語を認識できることが重要です。 LIDシステムの主な問題の1つは、使いやすさ、つまりユーザーフレンドリーさと効果の問題です。 これらの課題を克服するため、研究チームはGlotLID-Mという独自の言語識別モデルを導入しました。GlotLID-Mは1665の言語の識別能力を持ち、以前の研究と比べてカバレッジの改善が著しいです。これにより、より広範な言語と文化がNLP技術を使用できるようになる大きな一歩が踏み出されました。低資源LIDの文脈でいくつかの困難が取り上げられ、この新しいアプローチによって克服されています。 正確なコーパスメタデータ:低資源言語には、正確で十分な言語データが不足しているという共通の問題がありますが、GlotLID-Mは正確な識別を確保しながらこれを対処しています。 高資源言語からの漏れ:GlotLID-Mは、低資源言語が時折高資源言語の言語的特徴と誤って関連付けられるという問題に対処しています。 密接な関連言語の区別の難しさ:低資源言語には方言や関連のあるバリアントが存在することがあります。GlotLID-Mはそれらを区別することでより正確な識別を提供しています。 マクロ言語と変種の取り扱い:方言や他の変種はよくマクロ言語に含まれます。マクロ言語内で、GlotLID-Mはこれらの変化を効果的に識別する能力を持つようになりました。 ノイズデータの処理:GlotLID-Mはノイズのあるデータの処理に優れており、低資源の言語データとの作業は難しく、時にノイズが多いです。 研究チームは、評価の結果、GlotLID-MはCLD3、FT176、OpenLID、NLLBの4つのベースラインのLIDモデルよりも優れたパフォーマンスを示したことを共有しています。精度に基づくF1スコアと偽陽性率のバランスが取れた場合にも、このモデルは言語を一貫して正確に認識できることを証明しています。GlotLID-Mは使いやすさと効率性を重視して作成され、データセット作成のためのパイプラインに簡単に組み込むことができます。 研究チームの主な貢献は以下の通りです。 GlotLID-Cという包括的なデータセットを作成しました。これは1665の言語を包括し、さまざまなドメインにおいて低資源言語に重点を置いています。 GlotLID-Cデータセットでトレーニングされたオープンソースの言語識別モデルであるGlotLID-Mを作成しました。このモデルはデータセット内の1665の言語を識別できる能力を持ち、広範な言語スペクトラムでの言語認識に強力なツールです。 GlotLID-Mは、複数のベースラインモデルよりも優れた性能を発揮しています。低資源言語と比較して、普遍的な人権宣言(UDHR)コーパスで12%以上の絶対F1スコアの改善を実現しています。 F1スコアと偽陽性率(FPR)のバランスを考慮する場合、GlotLID-Mも非常に優れたパフォーマンスを発揮します。高資源言語とVOAGIリソース言語が主な集まりを形成するFLORES-200データセットは、ベースラインモデルよりも優れたパフォーマンスを示します。

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは、さまざまなベンチマークで最先端のパフォーマンスを実現しています。このような進展はLLMにとって重要な課題も提起しており、透明性の問題があります。一般の人々にはこれらの大規模モデルとそのトレーニングプロセスに関するごくわずかな知識しか提供されておらず、この情報を公開することは、このスケールの高品質LLMのトレーニングを容易にするでしょう。 清華大学と智匯AIの研究者グループは、130Bパラメータを持つオープンソースのバイリンガル(英語と中国語)のプリトレーニング言語モデルであるGLM-130Bを公開しました。この論文の研究者たちは、100BパラメータのGPT-3に匹敵するモデルをオープンソース化するために、モデルのトレーニングプロセスおよびその最適化方法を示しています。また、研究者たちは、トレーニングプロセスの成功と失敗の両側面を共有しています。 GLM-130Bは、基本として双方向の一般言語モデル(GLM)を使用しています。このアーキテクチャは、GPTスタイルのモデルと比較してコンテキストの理解を向上させるために、自己回帰的なブランク埋め込みをトレーニング目的としています。GLM-130Bは、LAMBADAのゼロショットで80.2%の正答率を達成することで、GPT-3とPaLM 540Bの両方を上回るパフォーマンスを発揮することができます。 本論文の著者たちは、GLM-130Bのトレーニングプロセスを安定化させるために、さまざまなレイヤーノーマライゼーション(LN)テクニックを試しました。プレLN、ポストLN、サンドイッチLNなどの既存の手法は効果がありませんでしたが、DeepNormで初期化されたポストLNは有望な結果を示しました。モデルのプレトレーニングデータは、オンラインフォーラム、百科辞典などから抽出された2TB以上の英語と中国語のテキストコーパスからなるバランスの取れたデータセットです。 先ほど述べたように、GLM-130BはLAMBADAデータセットで記録的な精度を達成しています。言語モデリングの一連のベンチマークであるPileテストセットでは、GLMモデルのパフォーマンスはGPT-3とJurassic-1と同等でした。また、モデルはMMLUベンチマークでも優れたパフォーマンスを発揮し、そのフューショットのパフォーマンスはGPT-3と同等です。 さらに、BIG-benchベンチマークでは、GLM-130Bがゼロショット設定でGPT-3とPaLMを上回ることができました。モデルは重要なパフォーマンスを示しましたが、研究者たちは、フューショットサンプルに対する成長がGPT-3ほど大きくないことに気付きました。モデルの双方向性や、パラムと品質の面でPaLMと同等のデータセットの制約など、複数の理由があると仮説を立てています。 研究者たちはまた、モデルのゼロショットパフォーマンスを中国のベンチマークでテストしました。GLM-130BはERNIE Titan 3.0を超える10以上のタスクでのパフォーマンスだけでなく、要約MRCの2つのデータセットでも少なくとも260%以上の改善を実現しました。これは、GLMのプレトレーニング目標が、要約MRCに類似した自己回帰的なブランク埋め込みを含んでいるためかもしれません。 まとめると、GLM-130Bは強力なオープンソースのバイリンガルプリトレーニング言語モデルであり、さまざまなベンチマークでGPT-3およびPaLMと同等のパフォーマンスを発揮し、一部のタスクではそれを上回る性能を持っています。そのパフォーマンスに加えて、このモデルの特徴はその開発の透明性です。研究者たちは、モデルのトレーニングプロセスを公にし、成功と失敗の経験も共有しています。このアプローチは、LLMの分野でのオープンかつ包括的な研究への取り組みを反映しています。

「LLMsにおけるエンタープライズ知識グラフの役割」

紹介 大規模言語モデル(LLM)と生成AIは、人工知能と自然言語処理の革新的なブレークスルーを表します。彼らは人間の言語を理解し、生成することができ、テキスト、画像、音声、合成データなどのコンテンツを生成することができるため、さまざまなアプリケーションで非常に柔軟に使用できます。生成AIはコンテンツ作成の自動化や強化、ユーザーエクスペリエンスの個別化、ワークフローの効率化、創造性の促進など、現実世界のアプリケーションで非常に重要な役割を果たしています。この記事では、エンタープライズがオープンLLMと統合できるように、エンタープライズナレッジグラフを効果的にプロンプトに基づいて構築する方法に焦点を当てます。 学習目標 LLM/Gen-AIシステムと対話しながら、グラウンディングとプロンプトの構築に関する知識を獲得する。 グラウンディングのエンタープライズへの関連性と、オープンなGen-AIシステムとの統合によるビジネス価値を例を挙げながら理解する。 知識グラフとベクトルストアという2つの主要なグラウンディング競争解決策を、さまざまな側面で分析し、どちらがどのような場合に適しているかを理解する。 パーソナライズされたおすすめの顧客シナリオにおいて、知識グラフ、学習データモデリング、およびグラフモデリングを活用したグラウンディングとプロンプトのサンプルエンタープライズ設計を研究する。 この記事はData Science Blogathonの一環として公開されました。 大規模言語モデルとは何ですか? 大規模言語モデルは、深層学習技術を用いて大量のテキストや非構造化データをトレーニングした高度なAIモデルです。これらのモデルは人間の言語と対話し、人間らしいテキスト、画像、音声を生成し、さまざまな自然言語処理タスクを実行することができます。 一方、言語モデルの定義は、テキストコーパスの分析に基づいて単語のシーケンスに対して確率を割り当てることを指します。言語モデルは、シンプルなn-gramモデルからより洗練されたニューラルネットワークモデルまでさまざまなものがあります。ただし、”大規模言語モデル”という用語は、深層学習技術を使用し、パラメータが数百万から数十億に及ぶモデルを通常指します。これらのモデルは、言語の複雑なパターンを捉え、しばしば人間が書いた文と区別のつかないテキストを生成することができます。 プロンプトとは何ですか? LLMまたは同様のチャットボットAIシステムへのプロンプトとは、会話やAIとの対話を開始するために提供するテキストベースの入力やメッセージのことです。LLMは柔軟で、さまざまなタスクに使用されるため、プロンプトのコンテキスト、範囲、品質、明瞭さは、LLMシステムから受け取る応答に重要な影響を与えます。 グラウンディング/RAGとは何ですか? 自然言語LLM処理の文脈におけるグラウンディング、またはリトリーバル拡張生成(RAG)は、プロンプトをコンテキスト、追加のメタデータ、および範囲で豊かにすることを指します。これにより、AIシステムは必要な範囲とコンテキストに合わせてデータを理解し、解釈するのに役立ちます。LLMの研究によれば、応答の品質はプロンプトの品質に依存することが示されています。 これはAIの基本的な概念であり、生データと人間の理解と範囲を一致する形でデータを処理および解釈する能力とのギャップを埋める役割を果たします。これにより、AIシステムの品質と信頼性が向上し、正確かつ有用な情報や応答を提供する能力が高まります。 LLMの欠点は何ですか? GPT-3などの大規模言語モデル(LLM)はさまざまなアプリケーションで注目と利用が進んでいますが、いくつかの欠点も存在します。LLMの主な欠点には以下があります: 1. バイアスと公平性:LLMはしばしば訓練データからバイアスを引き継ぎます。これにより、バイアスを持ったまたは差別的なコンテンツの生成が生じ、有害なステレオタイプを強化し、既存のバイアスを固定化する可能性があります。 2. 幻覚:…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us