Learn more about Search Results コーパス - Page 7

『トランスフォーマーの位置符号化の解説』

元のトランスフォーマーアーキテクチャでは、位置エンコーディングが入力と出力の埋め込みに追加されました位置エンコーディングは、トランスフォーマーにおいて重要な役割を果たし、それらが…

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基づいて法的業務を自動化するツールですSpellbookは、インターネット全体、契約、書籍、ウィキペディアからの合計42テラバイトのテキストデータセットでトレーニングされていますSpellbookはさらにモデルを調整中です[…]

ナレッジグラフトランスフォーマー:進化する知識に対するダイナミックな推論を構築する

「事実を相互につながったエンティティとして表現する知識グラフは、知識を吸収し文脈化する能力を向上させるために非常に重要な技術として現れていますしかし・・・」

ワシントン大学とプリンストン大学の研究者が、事前学習データ検出データセットWIKIMIAと新しい機械学習アプローチMIN-K% PROBを発表しました

“`html 大規模な言語モデル(LLMs)は、大量のテキストデータを処理できる強力なモデルです。彼らは数百ギガバイトからテラバイトに及ぶテキストコーパスで訓練されます。このようなデータの規模により、訓練データに著作権のあるテキストや個人を特定できる情報が含まれていないかを調べることが重要になります。また、訓練コーパスの成長速度のため、これらのLLMsの開発者はデータの完全な構成を開示することによりますます消極的になっています。 ワシントン大学とプリンストン大学の研究者グループは、上記の問題について研究しました。テキストの一部とLLMへのブラックボックスアクセスを与えられた彼らは、モデルが提供されたテキストで訓練されたかどうかを判定しようとしました。彼らは、WIKIMIAというベンチマークを導入しました。このベンチマークには事前学習データと非事前学習データが含まれており、ゴールドデータとしてのサポートを提供しています。彼らはまた、LLMの下で確率が低いアウトライアーワードを特定する新しい検出方法であるMIN-K% PROBを導入しました。 問題のある訓練テキストを特定するために信頼性のあるベンチマークを持つことは重要です。WIKIMIAは、新しくリリースされた事前学習済みLLMs上で検出方法を自動的に評価するダイナミックなベンチマークです。MIN-K% PROBメソッドは、未知のテキストはLLMがよく知らない単語を含んでいる可能性が高いという仮説に基づいています。MIN-K% PROBは、これらのアウトライアーワードの平均確率を計算します。 MIN-K% PROBの動作は以下のとおりです。テキストXがあり、LLMがXで訓練されたかどうかを判定する必要があります。このメソッドは、与えられたテキストの各トークンの確率をLLMを使用して計算します。次に、確率の最小値を持つk%のトークンを選択し、その平均対数尤度を計算します。同じ値が高ければ高いほど、テキストXが事前学習データにある可能性が高いことを意味します。 研究者たちは、3つの実生活シナリオ(著作権侵害本の検出、汚染されたダウンストリームの例の検出、および機械を使ったプライバシーオーディティングのための)でこの方法を適用しました。彼らは、100冊の著作権のある本からの10,000のテキストスニペットのテストセットを使用し、その約90%が50%を超える汚染率を持っていることを発見しました。特に、彼らの調査によれば、GPT-3モデルには20冊の著作権のある本からのテキストが含まれていました。 LLMsから個人情報や著作権のあるデータを削除するためには、Machine unlearningメソッドを使用します。研究者たちはMIN-K% PROBメソッドを使用し、著作権のある本を削除した後でもLLMsは似たような著作権保護されたコンテンツを生成し続けることができるとわかりました。 結論として、MIN-K% PROBはLLMが著作権や個人データで訓練されたかどうかを判定するための新しい方法です。研究者たちは、実世界のケーススタディを使用して自分たちの方法の有効性を検証し、GPT-3モデルが著作権のある本で訓練された可能性が強力な証拠を見つけました。彼らはこのメソッドが問題のある訓練テキストを検出するための一貫した有効な解決策であり、モデルの透明性と責任に向けた重要な進歩を示していると結論付けました。 “`

「データは言語モデルの基盤です」

大きな言語モデル(LLM)はかなり長い間存在していますが、最近になってその印象的な性能が広範なAIコミュニティから注目を集めるほどになりましたこのことを念頭に置いて...

Llemmaに会ってください:現行基準を超える次世代数学オープン言語モデル

様々なテキストの混合物を学習した言語モデルは、非常に汎用的な言語理解と生成能力を持ち、幅広い応用に適応可能なベースモデルとして機能します。 この研究では、プリンストン大学、EleutherAI、トロント大学、ベクター研究所、ケンブリッジ大学、カーネギーメロン大学、ワシントン大学の研究者チームが、数学に特化したドメイン固有の言語モデルを開発しました。彼らはこの試みに取り組む動機を複数提示しています。まず、数学の問題を解くためには、特殊な事前知識の大量のコーパス内のパターンを識別する能力が必要であり、これはドメイン適応の理想的な文脈となります。次に、数学的な推論自体が人工知能の分野での中心的な課題であり、現代の研究の対象であるという点です。さらに、堅固な数学的推論が可能な言語モデルの開発は、報酬モデリング、推論における強化学習、アルゴリズミックな推論といった様々な研究領域に広範な影響を与えます。 上記の画像は、ProofPile-2での継続的な事前学習が改善された数学的能力を持つLLEMMAというベースモデルを示しています。著者たちによる貢献は以下の通りです。 彼らはLLEMMAモデルを訓練し、公開しました。これは数学のタスクに特化した7Bおよび34Bのパラメータ言語モデルであり、数学の公開ベースモデルの新たな最先端を示しています。 彼らは数学の文脈と密接に関連している11BトークンのコードからなるデータセットであるAlgebraicStackを紹介しました。 彼らの研究は、Pythonインタプリタや形式的な定理証明器を含む計算ツールを使用して数学の問題を解決する際のLLEMMAモデルの能力を示しています。 これに対して、Lewkowyczら(2022)によるMinervaなどの既存の数学の言語モデルとは異なり、LLEMMAモデルは公にアクセス可能であり、著者は訓練データとコードをオープンソースにしています。この決定は、LLEMMAが数理推論の分野における将来の研究の基盤としての役割を促進しています。 彼らの研究は、LewkowyczらによるMinervaで行われた研究を拡張し、以下のようないくつかの注目すべき違いがあります。 (1)彼らのモデルであるLLEMMAは、訓練および評価の両方でより幅広いデータとタスクを含んでいます。これにはAlgebraicStackなどのコードデータの組み込み、様々なツールの利用、形式的な数学のタスクへの取り組みが含まれます。 (2)著者たちのアプローチは、公に利用可能なツールやデータソースに完全に依存しています。 (3)彼らは訓練データの組成、記憶パターン、および追加の教師あり微調整など、新しい分析を紹介しています。 (4)重要なことに、彼らの研究に関連するすべての成果物は一般に公開されています。 研究者たちは、LLEMMAとProof-Pile-2が将来の調査の堅固な基礎となり、言語モデルの一般化、データセットの組成分析、特定のドメインに特化した言語モデルの拡張、数学者のツールとしての言語モデルの利用、および言語モデルの数学的能力の向上などの研究活動を支援するリソースとなることを期待しています。

「VADERによる感情分析の洞察:感情とコミュニケーションの言語」

「世界で最も難しい言語」という点については、数年にわたり熱い議論が続いています多言語を話す人々は、それが中国語であると主張するかもしれませんし、プログラマーたちはアセンブリ言語であると議論するかもしれませんしかし、私は強く信じています...

ファルコン:オープンソースLLMの頂点

オープンソースの大規模言語モデル(LLM)に関する最近の研究は、主に2つの領域に焦点を当てていますそれは、模倣学習とオープンソースのベースモデルの事前学習ですどちらのアプローチも有効ですが、...

「LLMの幻覚の理解と軽減」

最近、大型言語モデル(LLM)は、ユーザーのプロンプトに対して非常に流暢で説得力のある応答を生成するなど、印象的かつ増大する能力を示していますただし、LLMは...

「ベクトル検索だけでは十分ではありません」

「回収拡張生成(RAG)は、オープンドメインの質問応答を革新し、システムがさまざまなクエリに人間のような回答を生成できるようにしましたRAGの核心には...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us