Learn more about Search Results 16
- You may be interested
- 「オルトマンの退任につながった手紙?」
- mPLUG-Owl2をご紹介しますこれは、モダリ...
- バイトダンスとキング・アブドゥッラー科...
- ETHチューリッヒの研究者が、バイオミメテ...
- 「インセプション、MBZUAI、そしてCerebra...
- AI チュートリアル Open AI と GitHub を...
- 「ABBYYインテリジェントオートメーション...
- 「AIがセキュリティカメラの機能を強化し...
- 「AIのための機会の議題」
- 「データの海を航海する:スタートアップ...
- AIが宇宙へ!NASAがChatGPTのようなチャッ...
- Visual BERTのマスタリー | 最初のエンカ...
- インデータベース分析:SQLの解析関数の活用
- Scikit-Learnのパイプラインを使用して、...
- 「サンノゼは歩行者の交通事故死を防ぐた...
BERTopic(バートピック):v0.16の特別さは何なのでしょうか?
私のBERTopicへの野望は、重要な柔軟性とモジュール性を提供することにより、トピックモデリングのための一括ショップにすることですこれは過去数年間の目標であり、リリースによって達成されました...
「Phindの新しいAIモデルは、コーディングにおいてGPT-4よりも優れており、GPT-3.5のような速度と16kのコンテキストを持っています」
“`html コーディングや技術的な問題解決では、複雑な質問に対する回答を求める際に速さと正確さのトレードオフがあります。開発者はしばしば迅速かつ信頼性のあるサポートが必要とされます。 GPT-4は応答時間が比較的遅いことが問題でした。回答を得るための遅延は生産性を阻害することがあります。 Phindのv7モデルは、GPT-4のコーディング能力を超える優れた速さでこれを行います。応答時間が5倍になり、Phindモデルは前任者に関連する50秒の待ち時間がかかることに比べて、たった10秒で技術的な質問に対する高品質な回答を提供します。 Phindモデルは7世代目になり、CodeLlama-34B fine-tunesの基盤を活用して構築されています。これは、HumanEvalスコアでGPT-4を上回る最初のモデルです。この新しいモデルは、高品質のコードと推論問題の70兆トークンを使って洗練されました。人間評価スコアが74.7%という素晴らしい成績を収めつつも、実世界での助けに関しては、このような指標を超越することも重要です。包括的なフィードバック収集とユーザーの経験を通じて、Phindモデルは実用的なコーディングシナリオでGPT-4の効用を一貫して満たすか上回る能力を示しています。 Phindモデルの一つの特徴はその速さです。NVIDIAのH100sとTensorRT-LLMライブラリのパワーを活用することで、1秒あたりに印象的な100トークンを単一ストリームで処理し、必要なユーザーに素早くサポートを提供することができます。 さらに、Phindモデルは広範なコンテキストを提供し、回答に最大で16,000トークンをサポートします。現在、モデルはウェブサイト上で12,000トークンまでの入力を許可し、残りの4,000トークンはウェブベースの結果に予約されています。 Phindモデルは多くの利点を提供していますが、改善が必要な領域もあることを認識する価値があります。特に複雑な問題の処理において、一貫性が課題となる場合があります。これらのケースでは、GPT-4よりも正しい答えに到達するまでにより多くの世代が必要な場合があります。 まとめると、Phindモデルは効率的で信頼性のあるコーディングサポートの持続的な問題への有望な解決策です。優れたコーディング能力と素晴らしい速さ、幅広いコンテキストサポートを組み合わせることで、ユーザーへの実世界の助けを提供する効果を持っています。このモデルが進化し続け、残された課題に取り組んでいく中で、技術的な質問の回答方法を革新し、開発者やテック愛好家により効率的かつ生産的なコーディング体験を提供する可能性を秘めています。 Phindの新しいAIモデルが、GPT-4を超えるコーディング能力とGPT-3.5のような高速性と16kコンテキストを持つは、最初にMarkTechPostで公開されました。 “`
「GlotLIDをご紹介します:1665言語に対応するオープンソースの言語識別(LID)モデル」
近年、異なる国境間でのコミュニケーションが絶えず進展している中で、言語の包括性は重要です。自然言語処理(NLP)技術は、選ばれた数少ないVOAGIおよび高資源言語に限らず、広範な言語の多様性に対応できるようになるべきです。低資源言語のための文献、つまり言語データの収集へのアクセスは、これを実現する上で重要です。言語の多様性を促進し、NLP技術が世界中の人々に役立つことを保証するためには、この包括性に依存しています。 特に、約300の高資源言語とVOAGIリソース言語に対して、言語識別(LID)の分野で大きな進歩がありました。さまざまな言語に対してうまく機能するLIDシステムが、いくつかの研究によって提案されています。しかし、それには以下のようないくつかの問題があります。 現在、幅広い低資源言語をサポートするLIDシステムは存在しません。これは、言語の多様性と包括性にとって重要です。 低資源言語向けの現在のLIDモデルは、十分な評価と信頼性を提供していません。さまざまな状況で正確に言語を認識できることが重要です。 LIDシステムの主な問題の1つは、使いやすさ、つまりユーザーフレンドリーさと効果の問題です。 これらの課題を克服するため、研究チームはGlotLID-Mという独自の言語識別モデルを導入しました。GlotLID-Mは1665の言語の識別能力を持ち、以前の研究と比べてカバレッジの改善が著しいです。これにより、より広範な言語と文化がNLP技術を使用できるようになる大きな一歩が踏み出されました。低資源LIDの文脈でいくつかの困難が取り上げられ、この新しいアプローチによって克服されています。 正確なコーパスメタデータ:低資源言語には、正確で十分な言語データが不足しているという共通の問題がありますが、GlotLID-Mは正確な識別を確保しながらこれを対処しています。 高資源言語からの漏れ:GlotLID-Mは、低資源言語が時折高資源言語の言語的特徴と誤って関連付けられるという問題に対処しています。 密接な関連言語の区別の難しさ:低資源言語には方言や関連のあるバリアントが存在することがあります。GlotLID-Mはそれらを区別することでより正確な識別を提供しています。 マクロ言語と変種の取り扱い:方言や他の変種はよくマクロ言語に含まれます。マクロ言語内で、GlotLID-Mはこれらの変化を効果的に識別する能力を持つようになりました。 ノイズデータの処理:GlotLID-Mはノイズのあるデータの処理に優れており、低資源の言語データとの作業は難しく、時にノイズが多いです。 研究チームは、評価の結果、GlotLID-MはCLD3、FT176、OpenLID、NLLBの4つのベースラインのLIDモデルよりも優れたパフォーマンスを示したことを共有しています。精度に基づくF1スコアと偽陽性率のバランスが取れた場合にも、このモデルは言語を一貫して正確に認識できることを証明しています。GlotLID-Mは使いやすさと効率性を重視して作成され、データセット作成のためのパイプラインに簡単に組み込むことができます。 研究チームの主な貢献は以下の通りです。 GlotLID-Cという包括的なデータセットを作成しました。これは1665の言語を包括し、さまざまなドメインにおいて低資源言語に重点を置いています。 GlotLID-Cデータセットでトレーニングされたオープンソースの言語識別モデルであるGlotLID-Mを作成しました。このモデルはデータセット内の1665の言語を識別できる能力を持ち、広範な言語スペクトラムでの言語認識に強力なツールです。 GlotLID-Mは、複数のベースラインモデルよりも優れた性能を発揮しています。低資源言語と比較して、普遍的な人権宣言(UDHR)コーパスで12%以上の絶対F1スコアの改善を実現しています。 F1スコアと偽陽性率(FPR)のバランスを考慮する場合、GlotLID-Mも非常に優れたパフォーマンスを発揮します。高資源言語とVOAGIリソース言語が主な集まりを形成するFLORES-200データセットは、ベースラインモデルよりも優れたパフォーマンスを示します。
「16/10から22/10までの週のトップ重要なコンピュータビジョン論文」
毎週、いくつかのトップレベルの学術会議とジャーナルでは、画像などの異なるサブフィールドでのエキサイティングなブレイクスルーを紹介するコンピュータビジョンの革新的な研究が披露されました...
16/10から22/10の週の重要なLLM論文のトップ
大規模言語モデル(LLMs)は最近急速に進歩しています新しい世代のモデルが開発されるにつれ、研究者やエンジニアが最新の進歩について情報を得ることが重要です...
QLoRA:16GBのGPUで大規模な言語モデルの訓練を行う
「我々は、モデルのための量子化などの体重減少技術と、パラメータ効率の良いファインチューニング技術であるLoRAを組み合わせる予定ですこの組み合わせの結果として生まれるのが、QLoRAです」
トレンディングAI GitHubリポジトリ:2023年10月16日の週
10月16日の週のトップ5のリポジトリを探索する時が来ましたこれらのリポジトリのいくつかは、アプリケーションのビルド速度を向上させることを約束しています他のリポジトリは、オフラインおよびクラウド上でファイルをより良く整理するのを助けることを目指していますそれでは、見てみましょう...
メタAI研究者が高度な長文脈LLMsを提案します:アップサンプリング、トレーニングテクニック、およびGPT-3.5-Turbo-16kの性能を超えるための深い探求
“`html 大規模言語モデル(LLM)の出現は、自然言語処理における画期的な進展を示しています。これらのモデルは膨大な量のデータで訓練され、膨大な計算リソースを活用することで、人間のデジタル世界との相互作用を変革することを約束しています。スケールと迅速な展開を通じて進化することで、これらのモデルの潜在的なユースケースはますます複雑になります。例えば、知識豊富な文書の分析、より本物らしく魅力的なチャットボット体験の向上、コーディングやデザインなどの反復的な創造的プロセスを支援するといったタスクに彼らは能力を拡張しています。 この進化を可能にする重要な特徴の一つは、長い文脈の入力を効果的に処理する能力です。つまり、LLMは適切な前文脈に基づいてテキストを理解し、生成することができる必要があります。これは、長い文書、マルチターンの会話、または複雑な問題解決に関わるタスクに特に重要です。 しかし、ここまでのところ、長文脈の機能が強力なLLMは主にプロプライエタリなLLM API経由で利用可能であり、研究者や開発者が利用できる解決策にはギャップがありました。価値のあるオープンソースの長文脈モデルは存在しますが、評価ではしばしば不十分でした。通常、これらのモデルは言語モデリングの損失と合成タスクに焦点を当てますが、これは情報提供にはなりますが、多様な現実世界のシナリオにおいて効果的であることを包括的に示すものではありません。さらに、これらのモデルの多くは、標準的な短文脈のタスクでも高いパフォーマンスを維持する必要性を見落とし、これらの評価を回避したり、劣った結果を報告したりしています。 これらの課題に対応するために、新しいメタ研究では、すべての既存のオープンソースモデルを凌駕する長文脈LLM構築手法を提案しています。この手法は、LLAMA 2のチェックポイントから継続的な事前訓練を行い、追加の4000億トークンを使用して広範な訓練シーケンスを構築します。これらのシーケンスは、長文脈の理解の要点を捉えるように設計されています。この研究では、32,768トークンのシーケンスで訓練された小型の7B/13Bモデルと、16,384トークンのシーケンスで訓練された大型の34B/70Bモデルなど、さまざまなモデルバリアントを提供しています。 この手法の特徴は、評価プロセスの徹底さです。以前の研究とは異なり、チームはモデルのパフォーマンスを複数の側面で評価しています。これには、言語モデリングの能力、合成タスクのパフォーマンス、そして何よりも重要なことに、さまざまな実世界のベンチマークでの能力の評価が含まれます。彼らは長文脈と短文脈のタスクをカバーし、モデルの能力の包括的なビューを提供しています。 研究の結果は、スケーリングの挙動がモデルの能力を一貫して高めることを示し、文脈の長さをLLMのさらなる拡大の重要な要素として強調しています。 研究ベンチマークにおけるLLAMA 2と比較して、この手法では長文脈のタスクにおいて大きな改善が見られ、標準的な短文脈のタスクでも僅かな向上があります。これらの改善は、コーディング、数学的問題解決、知識関連のタスクにおいて特に顕著です。さらに、チームは人間によって注釈付けられたデータなしで達成される連続的に事前訓練された長いモデルの命令微調整のための簡単で費用効果の高い手順を探索しています。その結果、この手法は一連の長文脈ベンチマークでgpt-3.5-turbo-16kのパフォーマンスを凌駕するチャットモデルを実現しています。 全体として、この手法はプロプライエタリとオープンソースの長文脈LLMのギャップを埋めるための大きな進歩です。優れたパフォーマンスを持つモデル、さまざまな側面にわたる包括的な評価、および能力に影響を与える要素のより深い理解を提供しています。最終的には、研究者や開発者が長文脈LLMの潜在能力を広範なアプリケーションに活用することを可能にしたいと考えています。これにより、自然言語処理の新時代が訪れることになります。 “`
オレゴン大学とアドビの研究者がCulturaXを紹介します:大規模言語モデル(LLM)の開発に適した167の言語で6.3Tのトークンを持つ多言語データセット
大規模言語モデル(LLM)は、幅広いタスクで最先端のパフォーマンスを劇的に向上させ、新たな新興スキルを明らかにすることにより、NLPの研究と応用に大きな影響を与えています。入力テキストを表現ベクトルにエンコードするためには、エンコーダのみモデルが調査されてきました。テキストを生成するためには、デコーダのみモデルが研究されてきました。また、シーケンスからシーケンスへの生成を実現するためには、エンコーダ・デコーダモデルが研究されてきました。最大のパフォーマンスを実現するために必要なモデルサイズとトレーニングデータセットの指数関数的な成長は、LLMの驚異的な能力の主要な要因となっています。例えば、BERTモデルは数億パラメータしか含まれていませんでしたが、最新のGPTベースのモデルでは数千億パラメータを含むようになりました。 巨大なモデルサイズと膨大なトレーニングデータセットは、驚異的な学習能力を持つ大規模言語モデル(LLM)の進歩の主要な要素です。NLPの発展に伴い、一般の人々がさらなる研究と実用のためにLLMを利用できるようになってきました。ただし、これらのLLMのためのトレーニングデータセットは通常部分的にしか提供されておらず、特に最新の最先端モデルに対してはさらにその傾向が強いです。LLMのための高品質なトレーニングデータを作成するには、広範なデータのクリーニングと重複排除が必要です。このため、トレーニングデータに関するより多くのオープンさが求められることで、ホールシネーションやバイアスの研究の結果の再現や進展が妨げられています。これらの困難は、多言語学習のシナリオでは通常、十分な多言語テキストコレクションの収集とクリーニングが行われていないことによりさらに複雑化します。その結果、言語によるLLMのトレーニングに使用できる良質なオープンソースのデータセットは存在しません。この問題を解決するために、オレゴン大学とアドビリサーチの学術研究者の共同作業によって、6.3兆トークン、167ヶ国語で構成される巨大な多言語データセット「CulturaX」が開発されました。モデルトレーニングの最高品質を確保するために、データセットは厳格なパイプラインを通じてクリーニングと重複排除の数多くのステップを経ています。これらのプロセスには、データセット内の言語の特定、URLを使用したデータセットのフィルタリング、メトリクスを使用したデータセットのクリーニング、ドキュメントの改善、データの重複排除が含まれます。 CulturaXは、言語ごとに高品質なトレーニングLLM用に徹底的にクリーニングと重複排除が行われた、最大のオープンソースの多言語データセットです。 主な特徴 CulturaXは、LLMとNLPの応用に徹底的にクリーニングと重複排除が行われた、今までで最も大規模なオープンソースの多言語データセットです。 CulturaXは、多言語のオープンソースで大規模なデータセットを提供し、即座に使用可能な高品質なデータを提供することで、現在のデータセットに関連する多くの問題を解決します。 多言語のオープンソースのテキストデータが含まれるmC4などのデータセットは存在しますが、その品質とスケールは、特にGPTなどの生成モデルに効率的にLLMをトレーニングするための要件を満たしていません。例えば、前述のように、mC4やOSCARはドキュメントレベルの曖昧な重複排除を提供していません。mC4の言語認識にはcld3の結果が劣っており、これも欠点です。CC100には2018年以降のデータが含まれていますが、BigScience ROOTSは46ヶ国語のデータのサンプリングのみを提供しています。 HuggingFaceのCulturaXの完全な公開リリースは、多言語のLLMとその応用の研究をさらに進めるのに役立ちます。詳細はこちらをご覧ください:https://huggingface.co/datasets/uonlp/CulturaX 167言語のテキストデータを持つ新しい多言語データセットCulturaXをぜひご覧ください。このデータセットは徹底的なワークフローによってクリーニングされ、重複が削除された結果、6.3兆トークンが含まれています。巨大で高品質なデータセットであるCulturaXは、さまざまな言語で効果的なLLMを容易にトレーニングするために活用することができます。この情報は一般に無料で利用でき、研究者たちはさらなる言語習得の研究と実用的な応用の促進に役立つことを願っています。
VoAGI ニュース、8月16日:テキストをパワーポイントプレゼンテーションに変換するための ChatGPT の利用 • ジェネラティブ AI アプリケーションを構築するための最高の Python ツール チートシート
テキストをパワーポイントプレゼンテーションに変換する方法 • ジェネレーティブAIアプリケーションのための最高のPythonツール チートシート • テックウィンターを生き残るためにデータサイエンティストは専門化する必要がある • Pythonベクトルデータベースとベクトルインデックス LLMアプリケーションのアーキテクチャ設計 • SQLクエリの高速化方法...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.