Search Results 調査

T5：テキスト対テキスト変換器（パート1）

転移学習のパラダイムは、2つの主要なステージで構成されていますまず、大量のデータに対してディープニューラルネットワークを事前学習します次に、このモデルを微調整し（つまり、さらにトレーニングを行う）、より...

Cox回帰の隠されたダークシークレット：Coxを解きほぐす

もし以前のブログ投稿をフォローしていた場合、ロジスティック回帰が完全に分離されたデータにフィットしようとすると問題が発生し、オッズ比が無限大になることを思い出すかもしれません

マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました

トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩してきましたが、この成果の基礎となる科学はまだ幼い段階にあります。同じ時期にトランスフォーマーがリリースされたことで、圧倒的で混乱するような結果の中に秩序が出現し、計算量またはネットワークサイズを増やすと性能が予測可能に向上するというスケーリング則が判明しました。これらのスケーリング則は、深層学習におけるスケールの調査のためのガイドとして機能し、これらの則の変化の発見により性能が急激に向上しました。本論文では、別の軸に沿ってデータ品質をどのように改善できるかを調査しています。高品質のデータはより良い結果を生み出します。たとえば、データのクリーニングは、現在のデータセットを作成するための重要なステップであり、比較的小さなデータセットまたはデータをより多くのイテレーションに通すことができます。ニューラルネットワークに英語を教えるために人工的に作成された高品質のデータセットであるTinyStoriesに関する最近の研究は、高品質のデータの利点がこれ以上のものであることを示しています。改良されたスケーリング則により、高品質のデータは大規模なモデルの性能を、よりシンプルなトレーニング/モデルで一致させることができるようになります。この研究では、マイクロソフトリサーチの著者たちは、良質なデータが大規模言語モデル(LLMs)のSOTAをさらに向上させながら、データセットのサイズとトレーニング計算を大幅に減らすことができることを実証しています。トレーニングが必要なモデルが小さいほど、LLMsの環境コストを大幅に削減することができます。彼らは、コーディングのためにトレーニングされたLLMsを使用して、自分のdocstringsから特定のPython関数を構築しました。後者の論文で提唱された評価基準であるHumanEvalは、コード上でLLMのパフォーマンスを比較するために頻繁に使用されています。彼らは、1.3Bパラメータモデルをトレーニングし、phi-1と呼びます。7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programs)で55.5%のpass@1精度を達成しました。彼らは、7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、1.3Bパラメータのphi-1モデルをトレーニングすることで、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programmes)で55.5%のpass@1精度を達成しました。

Pandas 2.0 データサイエンティストにとってのゲームチェンジャー？

Pandas 2.0の効率的なデータ操作を可能にするトップ5の機能を活用する方法を学び、データサイエンススキルを次のレベルに引き上げましょう！

大規模言語モデル（LLM）に関する驚くべき8つの事実

近年、大規模言語モデル（LLM）の公開的な展開が広範な関心と活動を引き起こしています。新しい技術がもたらす切迫した懸念があるため、この焦点は正当化されていますが、いくつかの重要な要因を見落とすこともあります。最近では、ChatGPTなどのLLMとそれらに基づく製品について、ジャーナリスト、政策立案者、学者から様々な分野で関心が高まっています。しかし、この技術が多くの点で驚くべきものであるため、簡潔な説明では重要な詳細が抜け落ちることがあります。以下に、この技術に関する8つの予想外の側面があります。 LLMの機能は、意図的なイノベーションがなくても、投資が増えるにつれて予測可能に増加します。 LLMに対する研究や投資の増加は、スケーリング法則の結果と言えます。研究者が将来のモデルに与えるデータの量、モデルのサイズ（パラメーターで測定）、およびトレーニングに使用されるコンピューティングの量を増やすと、スケーリング法則により、それらのモデルがどの程度能力があるか（FLOPsで測定）を精確に予測できます。そのため、コストのかかる実験を行うことなく、特定の予算内で最適なモデルのサイズなど、重要な設計上の決定を行うことができます。予測の精度は、現代の人工知能研究の文脈でも前例のないレベルです。R&Dチームが経済的に有益なシステムを開発することに成功することが期待される多数のモデルトレーニングイニシアチブを提供することができるため、投資を推進するための有力な手段でもあります。最新のLLMのトレーニング方法はまだ公開されていませんが、最近の詳細な報告によると、これらのシステムの基本的なアーキテクチャは、ほとんど変わっていないとされています。 LLMにリソースが注がれると、予想外に重要な行動がしばしば現れます。ほとんどの場合、モデルが未完了のテキストの続きを正確に予測できる能力は、プレトレーニングテストの損失によって測定され、スケーリング規則によってのみ予測できます。この指標は平均的に多くの実用的な活動におけるモデルの有用性と相関しますが、モデルが特定の才能を発揮し始めたり、特定のタスクを実行できるようになるタイミングを予測することは容易ではありません。具体的には、GPT-3のfew-shot learning（つまり、1回の相互作用で新しいタスクを少数の例から学習する能力）や、chain-of-thought reasoning（つまり、数学のテストで生徒が行うように、難しいタスクの理由を書き出し、改善されたパフォーマンスを示す能力）などは、現代のLLMの中で最初のものとして際立っています。将来のLLMは必要な機能を開発する可能性があり、一般的に受け入れられている境界はほとんどありません。ただし、LLMの進歩は、専門家の予想よりも予期せぬものであることがあります。 LLMは、外部世界の表現を獲得し利用することがよくあります。ますます多くの証拠が、LLMが世界の内部表現を構築し、テキストの特定の言語形式に対して無関心な抽象レベルで推論することを可能にしていることを示しています。この現象の証拠は、最大かつ最新のモデルで最も強力であるため、システムがより大規模にスケールアップされるとより堅牢になることが予想されます。ただし、現在のLLMはこれをより効果的に行う必要があります。広範な実験技術や理論モデルに基づく以下の調査結果が、この主張を支持しています。モデルの内部色表現は、人間が色を知覚する方法に関する経験的な知見と非常に一致しています。モデルは、著者の知識や信念を推測し、文書の将来の方向性を予測することができます。物語はモデルに情報を提供し、それが物語に表現されているオブジェクトの特徴や位置の内部表現を変更します。モデルは、奇妙なものを紙に描く方法を提供することがあります。 Winograd Schema…

データ管理とは何か、そしてなぜ重要なのか？

イントロダクションデータは、ある意味でビジネス界においてすべてです。少なくとも、データ分析、予測、そして適切に計画を立てることなしに世界を想像するのは難しいです！Cレベルのエグゼクティブの95%がビジネス戦略にデータが必要不可欠だと考えています。結局のところ、より深い知識が必要で、より大きな可能性を引き出し、意思決定を改善するためには、どの組織も知っておく必要があります。しかし、すべてを手に入れるには、この中でデータ管理の欠かせない役割を理解する必要があります。データ管理とは何か？それについてすべて知るために読み続けてください！組織におけるデータ管理とは何ですか？データ管理とは、組織のデータ分析業務に必要なデータの収集、整理、変換、および保存です。このプロセスは、様々な目的、例えば洞察を得たり、マーケティングキャンペーンを計画するためのクリーンできちんと管理されたデータのみを保証します。データが見つけやすく、視覚化や微調整ができる場合、組織は具体的な洞察を得て、情報に基づいた意思決定を行うのに役立ちます。主要なコンポーネントと目標効果的なデータの取り扱いと制御は、データ管理のいくつかのコンポーネントと目標の結果です。各要因が特定の計画や次の行動を促進するようになっています。だから、あなたがそれが何であるかを知っているなら、次に、実践を導入するさまざまな側面と目標があります：データ品質データの品質と正確性を保証することは、主要な目的の1つです。これには、データを検証しクレンジングするためのプロセスとコントロールを実装し、エラーを特定して修正し、一貫性のないレコードを排除することが含まれます。高いデータ品質基準は、正確な情報の信頼性を強化し、意思決定、報告、および分析を支援します。データセキュリティデータ管理の目的について答えることができないのは、セキュリティについて言及しないことです。認可されていないアクセス、侵害、および損失からのデータ保護は、データ管理の重要な目的です。これには、暗号化、ユーザー認証、アクセス制御、およびデータバックアップ戦略などのセキュリティ対策が含まれます。データを保護することで、組織は顧客の信頼を維持し、データ保護規制に準拠し、潜在的なリスクに対処できます。データガバナンスデータガバナンスとは、組織内のデータ資産の総合的な管理と制御を意味します。データを管理するための役割、責任、およびプロセスを定義するためのポリシー、手順、およびフレームワークを確立することを目的としています。データガバナンスを実践している組織は、そうでない組織よりも42％自信があります。これには、データの所有権を定義し、データ基準を確立し、規制に準拠することが含まれます。データアクセシビリティデータ管理では、認可されたユーザーがデータに簡単にアクセスできるようにすることに重点が置かれています。組織は、効率的なデータストレージと取得のメカニズムを確立し、データアーカイブとバックアップ戦略を実装し、データインフラストラクチャとシステムを最適化して、利用可能性とアクセシビリティを簡単にします。これにより、運用効率が向上し、意思決定が改善されます。データ管理ライフサイクルデータ管理ライフサイクルとは、異なる段階でデータを管理することです。データの最大の可能性を引き出すためのさまざまなプラクティスをカバーしています。ここでは、ライフサイクルの概要を示します：データ収集：基礎的な段階で、内部システム、外部パートナー、または公開リポジトリなどからデータを収集します。データの正確性と完全性を確保するために、データ品質チェックと検証プロセスを実行することがあります。データストレージ：データが収集されたので、それを保存して整理する時が来ました。この段階では、適切なデータストレージツールと技術、データベース設計、データモデリング、およびインデックス戦略を決定することが含まれます。この段階では、アクセス制御や暗号化などのデータセキュリティ対策も実装されます。データ変換：データは、適切な分析のために包括的な形式に統合および変換する必要があることが多いです。このDMLCの段階には、データクレンジング、データ統合、データ変換、およびデータエンリッチメントのプロセスが含まれます。データアーカイブ：データが主目的を果たした後、将来の使用またはコンプライアンス要件のためにアーカイブまたは保持するのが最善です。このプロセスには、データ保持ポリシーを確立し、ストレージ中のデータのセキュリティを確保し、長期的なデータ保存のためのさまざまな戦略を実装することが含まれます。データ廃棄：データがもはや必要ではありませんか？目的に到達しましたか？はいなら、廃棄する時間です。最後の段階で、組織は関係のないデータを廃棄します。これは主にプライバシーを保護し、データ保護規制に準拠するためのものです。主要なコンセプトデータ管理では、データの整理、処理、利用を効果的にするために必要なさまざまな重要なコンセプトが結集しています。以下に、4つの基本的なコンセプトを示します：データ・ガバナンス…

精度を超えて：長期的なユーザー維持のための偶然性と新規性の推奨事項の受け入れ

あなたはカフェに座って、お気に入りのコーヒーバリエーション（もちろんカプチーノ）を味わいながら、友達との会話に没頭しています会話が流れる中で、話題は次のように変わります...

人間の脳血管のアトラスは、アルツハイマー病における変化を強調します

科学者たちは、6つの領域にわたるアルツハイマー病関連の変化を強調するために、人間の脳血管の分子アトラスを作成しました

ChatGPT プラグイン：知っておく必要があるすべて

OpenAIが展開したサードパーティのプラグインについて学び、ChatGPTsの実際の使用を理解しましょう

Artificial Intelligence

市民データサイエンティストとは誰で、何をするのでしょうか？

イントロダクション今日のデータ駆動の世界において、データサイエンティストの役割は不可欠となっています。しかし、広大なデータセットに隠された謎を解くためには、データサイエンスのPh.D.を持つ必要はないと言ったらどうでしょうか？自己研鑽によって、正式な訓練を受けていないにもかかわらず、価値ある洞察を見出すスキルとツールを持つ新しいタイプの人材である「市民データサイエンティスト」の時代が到来しました。市民データサイエンティストは、形式的な訓練を受けていない普通の人々でありながら、データを行動可能な知識に変換する非凡な能力を持っており、組織が意思決定を行う方法を革新しています。本記事では、市民データサイエンティストの台頭、ビジネスへの影響、および彼らがもたらすエキサイティングな可能性について探求します。市民データサイエンティストとは何か？市民データサイエンティストとは、正式なデータサイエンスの訓練を受けていない個人でありながら、データを分析し洞察を導き出すスキルとツールを持っています。自己サービス型の分析プラットフォームや直感的なツールを活用して、データを探索し、モデルを構築し、データに基づく意思決定を行うことで、組織内でデータの力を民主化しています。組織が彼らを雇うべき理由データサイエンスは組織に著しい利益をもたらす広大な分野であり、市民データサイエンティストはデータの力を活用する上で重要な役割を担っています。以下は、企業が彼らを必要とする理由のいくつかです。データ分析を簡素化する: 市民データサイエンティストは、さまざまな部門やチームに統合されており、特定のビジネスの課題に取り組み、それに関連するデータを探索することができます。これにより、より深い理解とより良い意思決定が可能になります。ギャップを埋める: 彼らはドメインの専門知識とデータサイエンスの確固たる理解を持っており、技術的なスキルと業界知識をつなぐことができます。これにより、データ分析に文脈と洞察をもたらすことができます。リアルタイムの洞察: 彼らはドメインの専門知識と自動分析ツールへのアクセス権を持っているため、リアルタイムでデータを分析し、意思決定者に迅速な洞察を提供することができます。これにより、組織は素早く対応し、機会をつかみ、リスクを効果的に軽減することができます。フォースマルチプライヤー: 彼らはルーティンのデータ分析タスクを担当することで、データサイエンティストがより複雑な課題や戦略的なイニシアチブに注力できるようになります。彼らはフォースマルチプライヤーとして機能し、複数のチームをサポートし、全体的な生産性を向上させます。ユニークな視点: 彼らは、データ分析に自分たちの多様な経験と専門知識をもたらし、新鮮な視点や革新的な問題解決アプローチを生み出すことができます。彼らのユニークな洞察は、しばしば新しい発見や改善された意思決定につながります。アジャイルな実験: 市民データサイエンティストは、さまざまな分析手法を試行し、モデルを修正し、仮説をテストする柔軟性を持っています。彼らの適応力は、異なる分析手法を実験することでイノベーションを促進し、各自の分野での進歩を推進します。必要な主要なスキル市民データサイエンティストとして成功するために必要なスキルセットには、以下のような分析技術、技術的スキル、および専門的スキルが含まれます。市民データサイエンティストは、Tableau、Power BI、またはMatplotlibやSeabornなどのPythonライブラリなどのプログラムを使用して、データを視覚的に解釈し、提示することができるようになっている必要があります。彼らはデータを扱い、統計的手法を適用し、単純な機械学習モデルを開発するための基本的なプログラミングスキルを持っている必要があります。PythonやRなどのプログラミング言語に精通していることが有利です。彼らはまた、統計学、データモデリング、データ可視化などのいくつかの分野に精通しており、データを評価・解釈し、より有用で効果的な洞察を生み出すことができます。…

Learn more about Search Results 調査 - Page 150