Search Results コーパス

「RAGとLLM：動的言語モデリングの新たなフロンティア」

「LLM（Legal and Letters of Masters）はどんな課題をもたらすのか？ GPT-4やLlama2などの従来の言語モデルには固有の制限がありますそれらの静的な性質は、最後のトレーニング日以降の進歩についての知識を持たせることができず、彼らが認識しないまま固定された知識の切り捨てに縛られています彼らは膨大な量のデータを包含していますが、彼らの知識には制限があります...」

Qwak

データ分析の仕事のトレンド：パート2

「データ分析の求人市場で需要のあるこれらのスキルセットをチェックしてください」

Career Advice

化学エンティティ認識の自動化：ChemNERモデルの作成

私は常に化学に強い興味を持っており、それは私の学術的および職業的な道程を形成する上で重要な役割を果たしてきました化学のバックグラウンドを持つデータ専門家として、私は...

「エンタープライズAIの処理のための表現能力を向上させる鍵は、RAG + ファインチューニングです以下にその理由を説明します」

「ジェネレーティブAIはほとんどのCEOの頭にありますが、そのエンタープライズへの適応方法は議論の余地がありますその成功の鍵はRAGと微調整にある理由をここで説明します」

LinkedInのフィード進化：より詳細かつパワフルな機械学習、そして依然として人間も重要

LinkedInのフィードとインフラの最新更新について読むと、人間を中心に据えた原則を技術用語と実装に繋げる方法が解説されています

「AIのトレーニングAI：ゲータートロングPTがフロリダ大学の医療AIのイノベーションの最前線に」

臨床データが少ない状況でAIに臨床言語を理解させるにはどうすればいいのでしょうか？別のAIを訓練して、訓練データを合成します。人工知能は医学の方法を変えつつあり、様々な臨床業務にますます使われています。これは生成AIやGatorTronGPTのようなモデルによって推進されています。GatorTronGPTはフロリダ大学のHiPerGator AIスーパーコンピュータで訓練され、Nature Digital Medicine Thursdayで紹介された論文で詳細が説明されています。 GatorTronGPTは臨床データに基づいて訓練された大規模な言語モデル（LLMs）の一つです。研究者たちは、GPT-3のフレームワークを使用してこのモデルを訓練しました。ChatGPTでも使用されているフレームワークです。この目的のために、彼らは2770億単語の巨大なコーパスを使用しました。訓練データには、非特定化された臨床ノートから820億単語と、様々な英文書から1950億単語が含まれています。しかし驚きはここにあります。研究チームはGatorTronGPTを使用して、約200億語の合成臨床テキストコーパスを生成しました。この合成臨床テキストは、臨床要素に焦点を当て、医師が書いた本物の臨床ノートのように読むことができます。この合成データは、GatorTron-SというBERTベースのモデルの訓練に使用されました。比較評価では、GatorTron-Sは臨床概念の抽出や医療関連の抽出などの臨床自然言語理解のタスクで優れたパフォーマンスを示しており、8200億単語の臨床データセットで訓練された元のBERTベースのモデルであるGatorTron-OGが打ち立てた記録を上回っています。さらに驚くべきことに、これを少ないデータで実現できました。 GatorTron-OGとGatorTron-Sのモデルは、フロリダ大学のHiPerGatorスーパーコンピュータでNVIDIAのMegatron-LMパッケージを実行する560台のNVIDIA A100 Tensor Core GPUで訓練されました。このプロジェクトで使用されたMegatron LMフレームワークの技術は、後にNVIDIA NeMoフレームワークに組み込まれ、GatorTronGPTの最新の研究にも活用されています。 LLMsによる合成データの使用は、いくつかの課題に対処するものです。LLMsには膨大な量のデータが必要であり、品質の高い医療データが限られています。また、合成データはHIPAAなどの医療プライバシー規制に準拠したモデル訓練を可能にします。 GatorTronGPTの研究は、昨年ChatGPTの急速な普及と共に登場したLLMsが、さらに多くの分野で活用される可能性を示す最新の例です。また、加速されたコンピューティングによって実現される新しいAI技術の進展の一例でもあります。…

Corporate

テキストデータの創造的で時折乱雑な世界’ (Tekisuto dēta no sōzōteki de tokiori ranzatsu na sekai)

数年にわたり、テキストとデータの交差点は（大体）自然言語処理（NLP）の領域内に留まっていました- テキストデータを活用する様々な機械学習タスクの広範囲…

「知識の回復が中心舞台に登場する」

消費者からビジネス展開への転換をするために、GenAIにはリトリーバルセントリックジェネレーション（RCG）を使用したモデル外部の情報を主に基にしたソリューションが構築されるべきですジェネレーティブAIとして...

「人道的な災害状況報告チャットボットの研究−GPT-4-Turboとフルコンテキストプロンプティングの使用」

この記事では、OpenAIの新しいGPT-4-Turboモデルを探求し、その128kトークンコンテキストウィンドウの増加により、情報検索のために完全なドキュメントコーパスを渡しますこれは単純な力づくである...

オートフォーマリゼーションは、非公式と公式の言語のギャップを埋めることができるのでしょうか？MMAと出会ってください：フィールドを革新している多言語および多ドメインのデータセット

コンピュータが自動的にチェック可能な形式で記述された数学的内容は、標準的な数学として言及されます。数学者は、HOL Light、Isabelle、Coq、およびLeanなどの証明ツールを組み込んだ形式言語を使用します。自然言語の情報を検証可能な形式化に変換することは、オート形式化として知られています。最適なオート形式化エンジンを使用すると、現在の数学的な結論の検証がより低コストで行われる可能性があります。これにより、自然言語で書かれた数学の大量の情報を利用できる形式言語に依存する自動定理証明などの自動推論研究領域にアクセスできます。非形式的な数学を形式的に証明可能な素材に自動的に変換するという野心は、標準的な数学自体と同じくらい古いものです。自然言語と対象言語の両方で同じ意味を伝えるシーケンスのペアで構成される大きな並列データセットは、通常、NMT技術に必要です。形式言語と自然言語の両方でパラレルなデータセットを構築することは、機械学習手法で大量のデータを必要とするため、困難な側面です。また、自然言語のコンポーネントが数学の書き方に近いことが求められます。これは、非形式的な数学の知識を形式的な言語に手作業で変換するために高価で高度なコンピュータサイエンスと数学の専門家が必要だからです。この研究の著者は、最新の大規模言語モデルであるGPT-4を使用して、IsabelleのArchive of Formal ProofsとLean4のmathlib4という2つの最大の形式コーパスを自然言語に変換することで、パラレルデータセットの不足に対応しました。非形式化は形式化よりもはるかに簡単であるという2つの重要な洞察と、強力な大規模言語モデルによってさまざまな自然言語の出力が得られることが、このプロセスを促進しました。ケンブリッジ大学とエディンバラ大学の研究者は同時に、MMAデータセットと呼ばれる332Kの非形式-形式データセットを作成しました。彼らによると、これは最初の複数の形式言語を含むパラレルデータセットです。最大の利用可能なデータセットよりも4倍のデータ点を持っています。彼らは、MMAに最適化されたオープンソースで非常に効果的な大規模言語モデルであるLLaMA-33Bを使用して、非形式のフレーズに対応する形式的なフレーズを提供しました。それから、miniF2FとProofNetという2つのオート形式化のベンチマークを使用して訓練済みモデルを評価しました。モデルが微調整された後、各ベンチマークから50の出力の手動レビューによると、修正の必要がないか最小限の修正の必要があるベンチマーク上の16 ‐ 18%の形式文が生成されました。生のモデルの場合は0%でした。さらに、彼らはMMAのLean4およびIsabelleコンポーネントに対して同じステップ数で2つの類似モデルを独立に調整しました。これらの自動形式化のパフォーマンスは、異なる形式言語を含むパラレルデータでのオート形式化トレーニングの重要性を示しています。研究貢献： • mathlib4およびArchive of Formal Proofsのすべての形式的な主張を非形式化して、非形式-形式のペアを含むMMAコレクションを作成しました。 •零ショット設定で複数の言語に自動形式化できる最初の言語モデルを訓練し、2つの自動形式化のベンチマークで手動評価しました。これは、最大の既存のデータセットよりも4倍大きな複数の形式言語を含む自動形式化データセットです。 • MMAで訓練された言語モデルが頑健な自動形式化機能を持ち、MMAの単一言語のパーティションで訓練された言語モデルよりも同じ計算予算で自動形式化で優れていることを確認しました。 •最適化されたモデルを推論で使用できるようにしました。さらに、他のドメインや言語での自動形式化モデルの訓練と豊かな化にMMAデータセットを利用できるようにしました。

Learn more about Search Results コーパス - Page 4