Search Results A

データサイエンス：現代経済の柱

最近の技術の進歩といえば、特に新千年紀の転換期以降、データサイエンスはコンピューターサイエンスとは異なる分野として、より密接な関係を持つ学問に発展しました

「ラフと共にパイソンのコーディングスタイルを高める」

速度向上のため、Rustで再実装されたRuffの700以上の組み込みリントルールは、クリーンで一貫性のあるPythonコードを強制し、包括的なリントとフォーマットを提供します

Programming

基本に戻る週３：機械学習の紹介

「VoAGIのバック・トゥ・ベーシックスシリーズの第3週へようこそ今週は、機械学習の世界にダイブしていきます」

Machine learning

マシンラーニングのCRISP ML(Q)とは何ですか？

プロジェクト管理手法「機械学習におけるCRISP-DM(Q)とは何か」は、アミット・チャウハンによってTowards AIに掲載されています

「C# で GPT（一般目的テンプレート）を拡張しましょう」

この記事では、OpenAIを使用してGPTを作成し、AINIRO.IO Magic Cloudを使用して独自のC#コードで拡張する方法を示しています

イントロダクション AIの台頭により、働くプロフェッショナルの生活を簡素化するために、データに基づいた意思決定にますます頼るようになりました。サプライチェーンの物流や顧客へのローンの承認など、データは鍵を握っています。データサイエンスの力を医療の分野に活用することで、画期的な成果をもたらすことができます。データサイエンティストが現代医学の膨大な量のデータを分析することで、発見や治療につながるパターンを見つけ出すことができます。医療業界を革命化する可能性を秘めているデータサイエンスを医療領域に統合することは、単なる良い考えだけでなく、必要不可欠です。データ前処理いくつかの列をクリーンアップしましょう。前のステップで、すべての列が整数であるとわかりました。そのため、まず、年齢、用量、期間を数値に変換します。同様に、データ入力の日付を日時型に変換します。直接変換する代わりに、新しい列を作成します。つまり、Age 列の数値バージョンAge2 列を作成します。 df['Age2'] = pd.to_numeric(df['Age'],errors='coerce')df['Dosage (gram)2'] = pd.to_numeric(df['Dosage (gram)'],errors='coerce')df['Duration (days)2'] = pd.to_numeric(df['Duration (days)'],errors='coerce')df['Date of Data Entry2'] = pd.to_datetime(df['Date of Data…

「最も価値のあるコードは、書くべきでないコードです」

伝統的なプログラミング言語のコーディングスキルは、AIが進化するにつれてますます重要ではなくなります私はコーディングなしの面接を提案します

トロント大学の研究者が、大規模な材料データセットにおける驚くべき冗長性と、情報豊かなデータの機械学習パフォーマンスの向上における力を明らかにする

AIの登場と共に、その利用は私たちの生活のあらゆる分野で感じられるようになっています。AIはあらゆる生活領域での応用が見つかっています。ただし、AIはトレーニングのためにデータが必要です。AIの効果は、トレーニング目的のデータの利用可能性に重く依存しています。従来、AIモデルの精度を確保するためには、十分な量のデータの利用可能性が重要視されてきました。この分野におけるこの課題に取り組むためには、広範な潜在的な検索空間を進む必要があります。例えば、「Open Catalyst Project」は、潜在的な触媒材料に関連する2億以上のデータポイントを使用しています。このようなデータセットの分析とモデル開発には、計算リソースが必要であり、大きな問題となります。Open Catalystのデータセットでは、分析とモデル開発に16,000 GPU日が使用されました。このようなトレーニング予算は、一部の研究者にしか利用できず、しばしばモデルの開発をより小さなデータセットまたは利用可能なデータの一部に制限しています。結果として、モデルの開発はしばしば小さなデータセットまたは利用可能なデータの一部に制限されます。トロント大学エンジニアリング研究者による研究は、深層学習モデルが多くのトレーニングデータを必要とするという信念が常に真実であるとは限らないことを示唆しています。研究者は、モデルをトレーニングするために使用できる小さなデータセットを特定する方法を見つける必要があると述べています。Hattrick-Simpersの博士研究員である李康明博士は、学生の最終成績を予測するモデルの例を使用し、そのモデルがトレーニングされたカナダの学生のデータセットで最も優れたパフォーマンスを発揮するが、他の国の学生の成績を予測できないことを強調しました。この課題に対処する1つの可能な解決策は、非常に巨大なデータセット内のデータのサブセットを見つけることです。これらのサブセットは、元のデータセットに含まれる多様性と情報をすべて含んでいるが、処理中に扱いやすいものでなければなりません。李博士は、すでに公開されている材料データセット（JARVIS、The Materials Project、Open Quantum Materialsなど）から高品質なサブセットの情報を見つけるための方法を開発しました。目標は、データセットの特性がそれらがトレーニングするモデルにどのように影響を与えるかについてより深く理解することでした。彼のコンピュータプログラムを作成するために、彼は元のデータセットとデータポイント数が95％少ないより小さなサブセットを使用しました。データの5％でトレーニングされたモデルは、データセット内の材料の特性を予測する際に、完全なデータセットでトレーニングされたモデルと比較可能なパフォーマンスを発揮しました。したがって、機械学習トレーニングでは、正確な予測にはデータの95％以上を安全に除外できます。冗長なデータの主要な対象は過剰に表現された材料です。李博士によれば、この研究の結論はデータセットの冗長性を評価する手段を提供しています。データを追加してもモデルの性能が向上しない場合、それは冗長であり、モデルに新しい情報を学ぶための何も提供しません。この研究は、AIの専門家の間で広まっている知識の一部を支持しています。データの品質が高ければ、比較的小規模なデータセットでトレーニングされたモデルはうまく機能することができるというものです。結論として、情報の豊かさが単独のデータ量よりも重要視されるべきです。データの大量収集よりも情報の品質を優先すべきです。

エクスラマV2：LLMを実行するための最速のライブラリ

ExLlamaV2は、GPTQからさらに高いパフォーマンスを引き出すために設計されたライブラリです新しいカーネルのおかげで、(超高速の)速い推論に最適化されています

一目でデータを見る：データ分析のためのダイナミックなダッシュボードの作成

データの視覚化は、データサイエンティストにとっての重要なスキルです企業で生成されるデータのボリュームは膨大であり、タイムリーな経営上の意思決定には関連する全てのデータを持っていることが重要です

Learn more about Search Results A - Page 535