Search Results H3

超幾何分布の理解

二項分布は、データサイエンスの内外でよく知られた分布ですしかし、あなたはその人気のないいところのいとこである超幾何分布について聞いたことがありますか？もしそうでない場合、この投稿をご覧ください...

SparkとPlotly Dashを使用したインタラクティブで洞察力のあるダッシュボードの開発

クラウドデータレイクは、すべてのタイプ（構造化および非構造化）のデータのスケーラブルで低コストなリポジトリとして、エンタープライズ組織に広く採用されています分析には多くの課題があります...

機械学習の解説：アルゴリズム、モデル、および応用の明らかにする

この技術の変革的な可能性を引き出すために、様々なアルゴリズム、モデル、実践的な応用を発見してください

労働統計局（BLS）によると、データアナリストを含む研究アナリストの雇用は、2021年から2031年までに23％増加すると予想されています。データ分析のキャリアが著しく成長することは、有望な候補者にとっても重要な展望を示しています。それは一般に提供されるサービスや製品に深い影響を与えます。データアナリストとして、コンピュータサイエンス、統計学、数学の技術的な知識と問題解決能力および分析能力を持つ必要があります。この分野は、最先端のテクノロジーを使用する機会が豊富であり、個人的および職業的な成長のための機会を提供します。しかし、この興味深いキャリアパスには、どのような期待が置かれているのでしょうか。企業にデータ分析サービスを提供する理想的な候補者に課せられる期待について探ってみましょう。データアナリストとは何ですか？データ分析とは、ビジネスの利益に活用するために、データから情報を得ることまたは分析することを指します。この仕事の役割と責任には、以下が含まれます。分析のためのデータ収集。これには、さまざまな方法を通じてさまざまなタイプのデータを発見または収集することが含まれます。例としては、調査、投票、アンケート、およびウェブサイトの訪問者特性の追跡が挙げられます。必要に応じて、データセットを購入することもできます。プログラミング言語を使用して、前のステップで生成されたデータ、つまり生データをクリーニングすることが必要です。名前は、処理が必要な外れ値、エラー、重複などの不要な情報の存在を示しています。クリーニングプロセスは、データの品質を向上させて利用可能にすることを目的としています。データは、今後モデル化する必要があります。これには、データに構造と表現を与えて整理することが含まれます。また、データの分類およびその他の関連プロセスを行うことも必要です。したがって、形成されたデータは複数の目的に役立ちます。使用法は問題文によって異なり、解釈方法も問題文によって異なります。データの解釈は主に、データ内のトレンドやパターンを見つけることに関係しています。データのプレゼンテーションも同様に重要なタスクであり、情報が意図した通りに閲覧者や関係者に届くようにすることが最も重要な要件です。これには、プレゼンテーションおよびコミュニケーションスキルが必要です。データアナリストは、グラフやチャートを使用し、報告書の作成や情報のプレゼンテーションを行うことがあります。データアナリストになる理由データアナリストになるためには、複数の理由があります。以下は、最も重要な5つの理由です。高い需要: データの生成が増加したことにより、未処理のデータが大量に存在しています。それには、企業が活用できる多くの秘密が含まれます。このタスクを実行できる個人の要件は急速に増加しており、標準的な要件は年間3000ポジションです。ダイナミックなフィールド: データアナリストの仕事は、課題に対処し、問題を解決することに喜びを感じる場合、多くのものを提供します。毎日興味深く、新しい課題があり、分析思考とブレストストーミングが必要な場所です。また、旅の中で多くを学ぶこともでき、自己改善に貢献します。高い報酬: データアナリストのポジションの報酬は高く、キャリアを追求する価値があります。給与の増加は、業界によって異なり、一部の分野ではボーナスを含む高い収入が約束されています。普遍性: データアナリストの要件は、特定の分野に限定されるものではありません。すべての業界が多くのデータを生成し、情報に基づく論理的な意思決定が必要です。したがって、背景や興味に関係なく、すべての専門分野に開かれています。キャリアの選択をリード: 熟練したデータアナリストは、ポジションと会社に価値をもたらすことができます。成長、昇進、追加の福利厚生の可能性はどこでも開かれています。グループをリードしたり、教えたり、競争したり、ワークフォースの文化を形成することができるように、キャリアの選択をリードすることができます。需要と将来の仕事のトレンド現在、データアナリストの需要は高く、良い報酬が期待できます。現在のデータ生成の速度に基づいて、将来的には需要がさらに高まると予想されています。新しいテクノロジーの生成とデータ収集の容易化により、将来的には才能に新しい機会が提供されるでしょう。将来のデータアナリストの予想される新しいジョブロールには、以下が含まれます。 AIの機能性と適合性を説明する。新しく開発された機能の品質分析。ビジネスオペレーションとデータ処理のリアルタイム分析の組み合わせに取り組む。これにより、戦略に基づいた計画に向けて導かれます。…

ChatGPTのバイアスを解消するバックパック：バックパック言語モデルはトランスフォーマーの代替AI手法です

AI言語モデルは私たちの生活の中で不可欠なものになっています。情報にアクセスするために数十年間Googleを使用してきましたが、今では徐々にChatGPTに切り替えています。ChatGPTは簡潔な回答と明確な説明を提供し、必要な情報を見つけるのが通常よりも速くなります。これらのモデルは、私たちが長年にわたって生み出したデータから学習します。その結果、私たちはAIモデルにバイアスを転送し、これは議論の対象となっています。注目されている特定のバイアスの1つは、代名詞の分布におけるジェンダーバイアスであり、モデルが文脈に基づいて「彼」「彼女」といったジェンダーに関連する代名詞を好む傾向があるというものです。このジェンダーバイアスに対処することは、公正で包括的な言語生成を確保するために重要です。たとえば、「CEOは信じている…」という文章を始めると、モデルは彼と続け、CEOを看護師に置き換えると、次のトークンは彼女になります。この例は、バイアスを調べ、それらを緩和する方法を探るための興味深い事例研究として役立ちます。実際には、文脈はこれらのバイアスを形成する上で重要な役割を果たします。CEOを、異なるジェンダーに一般的に関連付けられている職業に置き換えることで、観察されたバイアスを反転することができます。しかし、ここでの課題は、CEOが現れるすべての異なる文脈で一貫してデバイアスを実現することです。特定の状況に関係なく、信頼性が高く、予測可能な介入を望んでいます。言語モデルを理解し、改善するためには解釈性と制御が重要です。残念ながら、現在のTransformerモデルは、その性能に驚くべきものがあるにもかかわらず、これらの基準を完全に満たしていません。彼らの文脈表現は、手元の文脈に依存する複雑で非線形な効果を導入します。では、これらの課題をどのように克服できますか？大規模言語モデルに導入したバイアスにどう対処すればよいのでしょうか？Transformerを改善するべきなのでしょうか、それとも新しい構造を考えるべきなのでしょうか？答えはBackpack Language Modelsです。 Backpack LMは、センスベクトルとして知られる文脈非依存の表現を利用して、代名詞分布のデバイアス化の課題に取り組みます。これらのベクトルは、単語の意味と異なる文脈での役割を捉え、単語に複数のパーソナリティを与えます。 Backpack LMの概要。出典：https://arxiv.org/pdf/2305.16765.pdf Backpack LMsでは、予測はセンスベクトルとして知られる文脈非依存の表現の対数線形の組み合わせになります。語彙中の各単語は、異なる文脈での単語の潜在的な役割を表す複数のセンスベクトルで表されます。これらのセンスベクトルは、特定の文脈で予測的に有用になるように専門化されます。シーケンス内の単語のセンスベクトルの加重和は、コンテキスト関数によって決定されるシーケンス全体に作用する文脈関数によって決定されるBackpack 表現を形成し、重みが決定されます。これらのセンスベクトルを活用することで、Backpack モデルは、すべての文脈で予測可能な介入を実現します。つまり、モデルに対して文脈非依存の変更を行っても、一貫してその振る舞いに影響を与えることができます。Transformerモデルに比べ、Backpack モデルはより透明性が高く、管理しやすいインターフェースを提供します。理解しやすく制御しやすい正確な介入を提供します。さらに、Backpack モデルは性能を犠牲にすることなく、Transformerモデルと同等の結果を実現します。センスベクトルの例。出典：https://backpackmodels.science/ Backpackモデルの意味ベクトルは、最新のトランスフォーマーモデルの単語埋め込みよりも豊富な単語の意味をエンコードしており、語彙の類似性タスクで優れた性能を発揮しています。さらに、職業に関する単語のジェンダーバイアスを減らすなど、意味ベクトルに介入することで、Backpackモデルが提供する制御機構が示されています。ジェンダーバイアスに関連する意味ベクトルを縮小することにより、限られた環境で文脈予測の不均衡を大幅に削減することができます。

バードの未来展望：よりグローバルで、よりビジュアル的で、より統合されたもの

「Bardのウェイトリストを終了し、より多くの地域をサポートするようになり、画像を導入し、パートナーアプリと連携することができるようになりました」

AI

「尤度」と「確率」の違いは何ですか？」

尤度（Likelihood）と確率（Probability）は、データサイエンスやビジネス分野でよく使われる相互関連する用語であり、定義や用法が異なり、しばしば混同されます。この記事は、それぞれの分野での理解と応用のために、確率の定義、用法、誤解を明確にすることを目的としています。尤度とは何ですか？ A. 尤度の定義と統計的推論における役割尤度は、モデルや仮説が観測データに適合する度合いを示す量的評価または測定として定義することができます。また、特定のパラメータセットで所望の結果またはデータ収集を見つける確率として解釈することもできます。統計的推論において基本的な役割を果たし、尤度の究極の目的は、データの特性に関する結論を出すことです。同じことを達成するための役割は、パラメータ推定を通じて見ることができます。パラメータ推定には、最尤推定法（MLE）を利用してパラメータ推定を行います。仮説検定では、尤度比を使用して帰無仮説を評価します。同様に、モデル選択とチェックには尤度が貢献します。研究者は、モデル選択の測定として、ベイズ情報量規準（BIC）と赤池情報量規準（AIC）を一般的に使用します。尤度ベースの方法は、パラメータを推定するための信頼区間の構築に重要な役割を果たします。 B. 尤度関数を用いた尤度の計算尤度関数は、データ分布を特定するのに役立つ数式表現です。関数は、尤度（|x）と表記され、|は所望のモデルのパラメータを表し、Xは観測されたデータを表します。例を挙げて説明しましょう。たとえば、色つきのビー玉の入った袋があるとします。赤いビー玉を取り出す確率を予測したいとします。ランダムに引くことから始め、色を記録し、次に上記の式を使用して尤度を計算します。赤いビー玉を引く確率を表すパラメータを計算または推定します。先に述べたように、尤度関数を表すことにします。尤度関数は、特定の値に対して観測されたデータxを観察する確率を示すものです。独立かつ同一に分布すると仮定すると、尤度関数は次のようになります。 L(|x)=k(1-)(n-k)、ここでnは引き出す回数、kは観測されたデータ中の赤いビー玉の数です。5回引いた場合、赤、赤、青、赤、青の順であったと仮定します。 L(0.5|x)=0.53(1-0.5)(5-3) L(0.5|x)=0.530.52 L(0.5|x)=0.015625 したがって、= 0.5の場合、上記の玉を上記の順序で観察する尤度は0.015625です。 C. 尤度の特定の仮説やモデルに適合する度合いを示す測定としての解釈上記の式で値を保持する場合、値の範囲は状況に応じて異なります。しかし、高い尤度値は、良好な結果と観測値と計算値の間の高い関連性を示します。 D. 尤度の概念を説明する例コイントスの例を取り上げましょう。あなたは10回ほど公平なコインを投げます。今、コインの公平性または偏りを評価する必要があります。パラメータを設定する必要があります。8つの表と2つの裏は、コインが公平であることを示しています。高い尤度は、公平なコインを表し、公平性の仮説をさらに支持します。ガウス分布の例を取ると、同じ分布に従う100個の測定データセットがあるとします。分布の平均値と標準偏差を知りたいとします。パラメータに基づいて異なる組み合わせが設定され、高い確率推定は、最良のガウス分布の最大尤度を示します。…

単一モダリティとの友情は終わりました – 今やマルチモダリティが私の親友です：CoDiは、合成可能な拡散による任意から任意への生成を実現できるAIモデルです

ジェネレーティブAIは、今ではほぼ毎日聞く用語です。私はジェネレーティブAIに関する論文をどれだけ読んでまとめたか覚えていません。彼らは印象的で、彼らがすることは非現実的で魔法のようであり、多くのアプリケーションで使用できます。テキストプロンプトを使用するだけで、画像、動画、音声などを生成できます。近年のジェネレーティブAIモデルの大幅な進歩により、以前は不可能と考えられていたユースケースが可能になりました。テキストから画像へのモデルで始まり、信じられないほど素晴らしい結果が得られたことがわかった後、複数のモダリティを扱うことができるAIモデルの需要が高まりました。最近は、任意の入力の組み合わせ（例：テキスト+音声）を取り、様々な出力の組み合わせ（例：ビデオ+音声）を生成できるモデルの需要が急増しています。これを対処するためにいくつかのモデルが提案されていますが、これらのモデルは、共存し相互作用する複数のモダリティを含む現実世界のアプリケーションに関して制限があります。モダリティ固有の生成モデルを多段的なプロセスでつなげることは可能ですが、各ステップの生成力は本質的に限定されるため、手間がかかり、遅いアプローチとなります。また、独立に生成された単一モダルストリームは、組み合わせるときに一貫性や整合性が欠けることがあり、後処理の同期が困難になる場合があります。任意の入力モダリティの混合を処理し、任意の出力の組み合わせを柔軟に生成するためのモデルをトレーニングするには、膨大な計算およびデータ要件が必要です。可能な入力-出力の組み合わせの数は指数関数的に増加し、多数のモダリティグループに対して整列したトレーニングデータはまれまたは存在しないためです。ここで、この課題に取り組むために提案されたCoDiというモデルを紹介しましょう。 CoDiは、任意のモダリティの任意の組み合わせを同時に処理および生成することを可能にする新しいニューラルアーキテクチャです。 CoDiの概要。出典：https://arxiv.org/pdf/2305.11846.pdf CoDi は、入力条件付けおよび生成拡散ステップの両方で複数のモダリティを整列させることを提案しています。さらに、対照的な学習のための「ブリッジングアライメント」戦略を導入し、線形数のトレーニング目標で指数関数的な入力-出力の組み合わせを効率的にモデル化できるようにしています。 CoDi の主要なイノベーションは、潜在的な拡散モデル（LDM）、多モダル条件付けメカニズム、およびクロスアテンションモジュールの組み合わせを利用して、任意の-to-任意の生成を処理することができる能力にあります。各モダリティ用に別々のLDMをトレーニングし、入力モダリティを共有特徴空間に射影することで、CoDi は、このような設定の直接的なトレーニングなしで、任意のモダリティまたはモダリティの組み合わせを生成できます。 CoDiの開発には、包括的なモデル設計と多様なデータリソースでのトレーニングが必要です。最初に、テキスト、画像、動画、音声などの各モダリティに対して潜在的な拡散モデル（LDM）をトレーニングします。これらのモデルは独立して並行してトレーニングでき、モダリティに固有のトレーニングデータを使用して、卓越した単一モダリティ生成品質を確保します。音声+言語のプロンプトを使用して画像を生成する場合の条件付きクロスモダリティ生成では、入力モダリティを共有の特徴空間に射影し、出力LDMは入力特徴の組み合わせに注意を払います。この多モダル条件付けメカニズムにより、拡散モデルは直接的なトレーニングなしで、任意のモダリティまたはモダリティの組み合わせを処理できるようになります。 CoDiモデルの概要。出典：https://arxiv.org/pdf/2305.11846.pdf トレーニングの第2ステージでは、CoDiは、任意の出力モダリティの任意の組み合わせを同時に生成する多対多の生成戦略を処理します。これは、各ディフューザーにクロスアテンションモジュールを追加し、環境エンコーダーを追加して、異なるLDMの潜在変数を共有潜在空間に投影することによって実現されます。このシームレスな生成能力により、CoDiは、すべての可能な生成組み合わせでトレーニングすることなく、任意のモダリティのグループを生成できるため、トレーニング目標の数を指数関数から線形関数に減らすことができます。（※以下、原文のHTMLコードを保持します） In the second stage of training, CoDi…

現代のデータエンジニアリングにおいてMAGE：効率的なデータ処理を可能にする

イントロダクション今日のデータ駆動型の世界では、あらゆる業界の組織が膨大なデータ、複雑なパイプライン、そして効率的なデータ処理の必要性に直面しています。Apache Airflowなどの従来のデータエンジニアリングソリューションは、これらの困難に対処するためにデータ操作をオーケストレーションし、制御することで重要な役割を果たしてきました。しかし、技術の急速な進化により、データエンジニアリングの景観を再構築するMageという新しい競合者が登場しました。学習目標第3者のデータをシームレスに統合および同期化すること変換のためのPython、SQL、およびRによるリアルタイムおよびバッチパイプラインの構築データ検証で再利用可能かつテスト可能なモジュラーコード寝ている間に複数のパイプラインを実行、監視、およびオーケストレーションすることクラウド上で協働し、Gitとバージョン管理を行い、利用可能な共有ステージング環境を待つことなくパイプラインをテストすること Terraformテンプレートを介してAWS、GCP、およびAzureなどのクラウドプロバイダーでの高速な展開データウェアハウスで非常に大きなデータセットを直接変換するか、Sparkとのネイティブ統合を介して変換すること直感的なUIを介して組み込みの監視、アラート、および観測性まるで腕木式に簡単でしょうか？それならMageを絶対に試してみるべきです！この記事では、Mageの機能と機能性について説明し、これまでに学んだことやそれを使用して構築した最初のパイプラインを強調します。この記事はData Science Blogathonの一部として公開されました。 Mageとは何ですか？ Mageは、AIによって駆動され、機械学習モデル上に構築された現代的なデータオーケストレーションツールであり、かつてないほどのデータエンジニアリングプロセスを効率化し最適化することを目的としています。これは、データ変換と統合のための効果的でありながら簡単なオープンソースデータパイプラインツールであり、Airflowのような確立されたツールに対して強力な代替手段となる可能性があります。自動化と知能の力を組み合わせることで、Mageはデータ処理ワークフローを革新し、データの取り扱いと処理の方法を変革しています。Mageは、その無比の機能と使いやすいインターフェイスにより、これまでにないデータエンジニアリングプロセスの簡素化と最適化を目指しています。ステップ1：クイックインストール Mageは、Docker、pip、およびcondaコマンドを使用してインストールでき、またはクラウドサービス上で仮想マシンとしてホストできます。 Dockerを使用する #Dockerを使用してMageをインストールするコマンドライン >docker…

Learn more about Search Results H3 - Page 198