Search Results 7

「データサイエンスのトップ7の無料クラウドノートブック」

「クラウドノートブックはデータサイエンスのゲームチェンジャーであり、コンピューティングへの無料アクセス、プリビルト環境、コラボレーション機能、サードパーティの統合などを提供していますこれらは、あなたのワークフローを向上させるために必要な全てを提供します」

Data science

「自然言語処理のマスタリングへの7つのステップ」

「自然言語処理（NLP）についてすべてを学びたいですか？ここでは、機械学習とPythonの基礎からTransformers、NLPの最近の進歩、それ以上までをサポートする7つのステップガイドをご紹介します」

Natural language processing

VoAGIニュース、10月5日：Pythonのマスターに役立つ無料の5冊の本 • データサイエンスのためのトップ7の無料クラウドノートブック

今週のVoAGIでは、Pythonをマスターするための無料の5冊の書籍•データのためのトップ7の無料クラウドノートブックなどなど、たくさんの情報があります！

NEWS

DENZAは、NVIDIA DRIVE Orinを搭載したN7モデルラインアップのためのスマートドライビングオプションを提供します

DENZA（デンザ）は、BYDとメルセデス・ベンツの合弁企業である高級電気自動車ブランドであり、新しいインテリジェント運転機能をN7シリーズ全車に搭載しました。これは、NVIDIA DRIVE Orin システムオンチップ（SoC）によって動作しています。 N7シリーズは、ことに進んだ運転機能を持つ豪華なEVを求める通勤者向けの広々とした5人乗りSUVのファミリーとして今年の初めに発売されました。 N7のすべてのモデルは、高性能なコンピューティングを提供するNVIDIA DRIVE Orin SoCを搭載することができます。これにより、車載アプリケーションと自動運転のためのディープニューラルネットワークを同時に実行することができます。 NVIDIA DRIVE OrinはDENZAの独自のCommuter Smart Drivingシステムの脳として機能し、次のようなスマートな機能を提供します：高速なあらゆるシナリオでのアシスト運転による自動操舵都市道路や高速道路での安全な通勤のためのインテリジェントな速度制御および緊急車線維持支援交差点や狭い道路での安全性向上のための飛び出し防止ブレーキおよび前方横断トラフィック警告の強化混雑したエリアでの駐車の難しさを軽減するための自動駐車支援次世代の車の構成自動車内での高速計算に加えて、DENZAはNVIDIA Omniverse Cloudプラットフォームを使用して、次世代の車両カスタマイズ機能を展開し、消費者の車の購入体験により多様なオプションを提供しています。 DENZA N7…

VoAGI ニュース、9月27日：ChatGPT プロジェクトのチートシート • PyTorch & Lightning AI の紹介

「10 シャットGPT プロジェクトチートシート • ディープラーニングライブラリ入門 PyTorch と Lightning AI • GPT-4 のトップ5の無料の代替手段 • マシンラーニング評価メトリックス理論と概要 • Poe とのキックアス中間進化のプロンプト」

NEWS

「機械学習のための完璧なデータ注釈プロバイダを選ぶ7つのステップ」

「最高の注釈会社を見つける上での主な課題と、信頼できるAIデータ注釈サービスを雇うための対策の手順を見つけてください」

Tech

オレゴン大学とアドビの研究者がCulturaXを紹介します：大規模言語モデル（LLM）の開発に適した167の言語で6.3Tのトークンを持つ多言語データセット

大規模言語モデル（LLM）は、幅広いタスクで最先端のパフォーマンスを劇的に向上させ、新たな新興スキルを明らかにすることにより、NLPの研究と応用に大きな影響を与えています。入力テキストを表現ベクトルにエンコードするためには、エンコーダのみモデルが調査されてきました。テキストを生成するためには、デコーダのみモデルが研究されてきました。また、シーケンスからシーケンスへの生成を実現するためには、エンコーダ・デコーダモデルが研究されてきました。最大のパフォーマンスを実現するために必要なモデルサイズとトレーニングデータセットの指数関数的な成長は、LLMの驚異的な能力の主要な要因となっています。例えば、BERTモデルは数億パラメータしか含まれていませんでしたが、最新のGPTベースのモデルでは数千億パラメータを含むようになりました。巨大なモデルサイズと膨大なトレーニングデータセットは、驚異的な学習能力を持つ大規模言語モデル（LLM）の進歩の主要な要素です。NLPの発展に伴い、一般の人々がさらなる研究と実用のためにLLMを利用できるようになってきました。ただし、これらのLLMのためのトレーニングデータセットは通常部分的にしか提供されておらず、特に最新の最先端モデルに対してはさらにその傾向が強いです。LLMのための高品質なトレーニングデータを作成するには、広範なデータのクリーニングと重複排除が必要です。このため、トレーニングデータに関するより多くのオープンさが求められることで、ホールシネーションやバイアスの研究の結果の再現や進展が妨げられています。これらの困難は、多言語学習のシナリオでは通常、十分な多言語テキストコレクションの収集とクリーニングが行われていないことによりさらに複雑化します。その結果、言語によるLLMのトレーニングに使用できる良質なオープンソースのデータセットは存在しません。この問題を解決するために、オレゴン大学とアドビリサーチの学術研究者の共同作業によって、6.3兆トークン、167ヶ国語で構成される巨大な多言語データセット「CulturaX」が開発されました。モデルトレーニングの最高品質を確保するために、データセットは厳格なパイプラインを通じてクリーニングと重複排除の数多くのステップを経ています。これらのプロセスには、データセット内の言語の特定、URLを使用したデータセットのフィルタリング、メトリクスを使用したデータセットのクリーニング、ドキュメントの改善、データの重複排除が含まれます。 CulturaXは、言語ごとに高品質なトレーニングLLM用に徹底的にクリーニングと重複排除が行われた、最大のオープンソースの多言語データセットです。主な特徴 CulturaXは、LLMとNLPの応用に徹底的にクリーニングと重複排除が行われた、今までで最も大規模なオープンソースの多言語データセットです。 CulturaXは、多言語のオープンソースで大規模なデータセットを提供し、即座に使用可能な高品質なデータを提供することで、現在のデータセットに関連する多くの問題を解決します。多言語のオープンソースのテキストデータが含まれるmC4などのデータセットは存在しますが、その品質とスケールは、特にGPTなどの生成モデルに効率的にLLMをトレーニングするための要件を満たしていません。例えば、前述のように、mC4やOSCARはドキュメントレベルの曖昧な重複排除を提供していません。mC4の言語認識にはcld3の結果が劣っており、これも欠点です。CC100には2018年以降のデータが含まれていますが、BigScience ROOTSは46ヶ国語のデータのサンプリングのみを提供しています。 HuggingFaceのCulturaXの完全な公開リリースは、多言語のLLMとその応用の研究をさらに進めるのに役立ちます。詳細はこちらをご覧ください：https://huggingface.co/datasets/uonlp/CulturaX 167言語のテキストデータを持つ新しい多言語データセットCulturaXをぜひご覧ください。このデータセットは徹底的なワークフローによってクリーニングされ、重複が削除された結果、6.3兆トークンが含まれています。巨大で高品質なデータセットであるCulturaXは、さまざまな言語で効果的なLLMを容易にトレーニングするために活用することができます。この情報は一般に無料で利用でき、研究者たちはさらなる言語習得の研究と実用的な応用の促進に役立つことを願っています。

「Google DeepMindが、7100万件の「ミスセンス」変異の効果を分類する新しいAIツールを発表」

人類遺伝学における最大の課題は、おそらく人間のゲノムの複雑さと、健康と病気に寄与する遺伝要因の広範な多様性です。人間のゲノムは30億以上の塩基対から成り、タンパク質をコードする遺伝子だけでなく、遺伝子の調節と機能に重要な役割を果たすノンコーディング領域も含まれています。これらの要素とその相互作用のプロセスを理解することは、非常に困難な課題です。病気に関連する遺伝子変異を知ることは単なる始まりにすぎません。これらの変異の機能的な結果、他の遺伝子との相互作用、および疾患の病理学的な役割を理解することは、複雑で資源を消費する作業です。高いシーケンス技術によって生成される膨大な遺伝データを分析するには、高度なコンピュータツールとインフラストラクチャが必要です。データの保存、共有、分析は、実務上の多大な課題を提起します。 Google DeepMindの研究者は、AlphaMissenseという新たなAIモデルを使用してAlphaMissenseカタログを開発しました。これには71百万通りのミッセンス変異のうち約89%が、病原性または良性のカテゴリに分類されています。ミッセンス変異は、DNA配列中の単一ヌクレオチドの置換によって生じる遺伝的変異です。ヌクレオチドはDNAの構成要素であり、特定の順序で配置されています。この配列は生物の基本的な遺伝情報とタンパク質構造を保持しています。平均して、一人の人が9000以上のミッセンス変異を持っています。これらの分類されたミッセンス変異は、疾患の原因となるタンパク質の変化を理解するのに役立ちます。彼らの現在のモデルは、彼らが以前に成功したAlphaFoldというモデルのデータを訓練に使用しています。このモデルは、アミノ酸配列から既知のほぼすべてのタンパク質の構造を予測しました。ただし、AlphaMissenseは、データベースのタンパク質配列と変異の構造的文脈を分類するだけで、0から1までのスコアを生成します。スコア1は、その構造が病原体である可能性が非常に高いことを示します。与えられた配列に対して、スコアは変異を分類するための閾値を選択するために分析されます。 AlphaMissenseは、他のすべての計算方法やモデルを上回っています。彼らのモデルは、実験結果を予測するための最も正確な方法でもあり、病原性の測定方法の一貫性を反映しています。このモデルを使用すると、ユーザーは一度に何千ものタンパク質の結果のプレビューを取得できます。これは、リソースの優先順位付けと研究の加速に役立ちます。人間で見られる400万以上のミッセンス変異のうち、専門家によって病原性または良性として注釈が付けられたのは2%にすぎず、すべての71百万通りのミッセンス変異の約0.1%です。人類の遺伝学は急速に進化しており、技術、データ分析、遺伝メカニズムの理解の進歩によってこれらの課題に取り組み続けています。これらの課題は重要ですが、遺伝研究を通じて人間の健康と個別化医療の向上に向けたエキサイティングな機会をもたらします。さまざまな生物のゲノムを解読することは進化についての洞察を提供します。

Pythonで相関行列を作成する7つの方法

正直になりましょう、プレーンバニラの相関行列はつまらないです同様に、人気のあるペアプロットもつまらないです有用ではありますが、つまらないですバニラのデザートを嫌いではありませんが🍦 🍨 🍦 🍨 🍦 もし同感であれば、この記事は...

「多変量カテゴリデータを処理するためのPythonによる7つの可視化」

一般的なデータ、たとえばよく知られたアヤメやペンギンのデータセットなど、分析に使用されるデータは、カテゴリ変数が少ないため非常にシンプルですところで、現実世界のデータはより複雑であります…

Learn more about Search Results 7 - Page 9