Search Results DRF

２０２４年にフォローするべきデータサイエンスのトップ１２リーダー

データサイエンスの広がりを見据えると、2024年の到来は、革新を牽引し、分析の未来を形作る一握りの著名人にスポットライトを当てる重要な瞬間として迎えられます。『Top 12 Data Science Leaders List』は、これらの個人の卓越した専門知識、先見のリーダーシップ、および分野への重要な貢献を称えるビーコンとして機能します。私たちは、これらの画期的なマインドの物語、プロジェクト、そして先見の見通しをナビゲートしながら、データサイエンスの進路を形作ると約束された航跡を探求します。これらの模範的なリーダーたちは単なるパイオニアにとどまることはありません。彼らは無類のイノベーションと発見の時代へと私たちを導く先駆者そのものです。 2024年に注目すべきトップ12データサイエンスリーダーリスト 2024年への接近とともに、データサイエンスにおいて傑出した専門知識、リーダーシップ、注目すべき貢献を示す特異なグループの人々に焦点を当てています。『Top 12 Data Science Leaders List』は、これらの個人を認識し、注目することで、彼らを思想リーダー、イノベーター、およびインフルエンサーとして認め、来年重要なマイルストーンを達成することが予想されます。さらに詳細に突入すると、これらの個人の視点、事業、イニシアチブが、さまざまなセクターを横断する複雑な課題に対するメソッドとデータの活用方法を変革することが明らかになります。予測分析の進展、倫理的なAIの実践の促進、または先進的なアルゴリズムの開発など、このリストでハイライトされた個人たちが2024年にデータサイエンスの領域に影響を与えることが期待されています。 1. Anndrew Ng 「AIのゲームにおいて、適切なビジネスコンテキストを見つけることが非常に重要です。私はテクノロジーが大好きです。それは多くの機会を提供します。しかし結局のところ、テクノロジーはコンテクスト化され、ビジネスユースケースに収まる必要があります。」 Dr. アンドリュー・エングは、機械学習（ML）と人工知能（AI）の専門知識を持つ英米のコンピュータ科学者です。AIの開発への貢献について語っている彼は、DeepLearning.AIの創設者であり、Landing AIの創設者兼CEO、AI Fundのゼネラルパートナー、およびスタンフォード大学コンピュータサイエンス学科の客員教授でもあります。さらに、彼はGoogle AIの傘下にある深層学習人工知能研究チームの創設リードでありました。また、彼はBaiduのチーフサイエンティストとして、1300人のAIグループの指導や会社のAIグローバル戦略の開発にも携わりました。アンドリュー・エング氏は、スタンフォード大学でMOOC（大規模オープンオンラインコース）の開発をリードしました。また、Courseraを創設し、10万人以上の学生に機械学習のコースを提供しました。MLとオンライン教育の先駆者である彼は、カーネギーメロン大学、MIT、カリフォルニア大学バークレー校の学位を保持しています。さらに、彼はML、ロボット工学、関連する分野で200以上の研究論文の共著者であり、Tiime誌の世界で最も影響力のある100人のリストに選ばれています。…

マイクロソフトAIチームがPhi-2を紹介：2.7Bパラメーターの小型言語モデルで、優れた推論能力と言語理解能力を示します

“`html 言語モデルの開発は、従来、モデルのサイズが大きいほど性能が優れているという前提のもとで行われてきました。しかし、この確立された信念から逸脱し、マイクロソフトリサーチの機械学習基礎チームの研究者たちは、パラメータ数27億の画期的な言語モデル「Phi-2」を導入しました。このモデルは、従来のスケーリング法則に反する特性を持ち、モデルのサイズだけが言語処理能力の決定因子とされる広く共有されている考え方に挑戦しています。この研究では、優れた性能が大きなモデルを必要とするという一般的な仮定について考察されています。研究者たちは、Phi-2を通常から逸脱したパラダイムシフトとして紹介しています。この記事では、Phi-2の特徴的な属性とその開発に取り組んだ革新的な手法について詳しく説明しています。Phi-2は、従来のアプローチとは異なり、厳選された高品質なトレーニングデータに依存し、より小さいモデルからの知識転移を活用しています。これにより、言語モデルのスケーリングにおける確立された慣行に立ち向かう力強い挑戦を示しています。 Phi-2の方法論の基盤は、2つの重要な洞察にあります。まず、研究者たちは、トレーニングデータの品質の重要性を強調し、モデルに推論、知識、常識を注入するために「教科書品質」と設計されたデータを使用しています。また、革新的な技術が駆使され、1.3億のパラメータPhi-1.5から始まるモデルの洞察力の効率的なスケーリングを実現しています。この記事では、Phi-2のアーキテクチャについて詳しく掘り下げており、合成データとWebデータセットでトレーニングされた次の単語予測を目的とするTransformerベースのモデルを特徴としています。Phi-2はその控えめなサイズにもかかわらず、さまざまなベンチマークでより大きなモデルを凌駕し、その効率性と優れた能力を示しています。結論として、マイクロソフトリサーチの研究者は、Phi-2を言語モデルの開発における革新的な力として提案しています。このモデルは、モデルの能力が本質的にサイズに結び付いているという業界の長年の信念に挑戦するだけでなく、成功裏に反証しています。このパラダイムシフトは、従来のスケーリング法則に厳密に従うことなく達成できる効率性を強調し、新たな研究の視点や可能性を重視しています。Phi-2の特徴的な高品質なトレーニングデータと革新的なスケーリング技術は、自然言語処理分野における大きな進歩を示し、将来の新しい可能性と安全な言語モデルを約束しています。 The post Microsoft AI Team Introduces Phi-2: A 2.7B Parameter Small Language Model that Demonstrates Outstanding Reasoning and Language…

「2024年に機械学習を学ぶ方法（もし最初からやり直せるなら）」

私は元メタ教授のもとで働く学生研究者であり、Google DeepMindやAmazonなどのクールな企業と面接をする機会がありましたが、この地点にたどり着くまでに3年以上かかりましたですので、今日は…

「SEINEをご紹介します：シーン間のスムーズでクリエイティブなトランジションがある高品質な拡張ビデオのためのショートトゥロングビデオ拡散モデル」

テキストから画像を生成する拡散モデルの成功を受けて、ビデオ生成技術が急速に発展し、この領域での興味深い応用が見られるようになりました。しかし、ほとんどのビデオ生成技術は、通常「ショットレベル」のビデオを生成し、数秒間の一つのシーンを描写するものです。コンテンツの短さから、これらのビデオは映画や映像制作に必要な要件を満たすことが明らかにできません。映画や産業レベルのビデオ制作では、通常「ストーリーレベル」と呼ばれる長いビデオは、異なるシーンを特徴とした個別のショットの作成によって特徴付けられます。これらの個別のショットは、長さが異なり、トランジションや編集といった技術を介して相互に接続され、より長いビデオや複雑なビジュアルストーリーテリングを可能にします。シーンやショットを映画やビデオ編集で組み合わせるという、トランジションとして知られる作業は、アフタープロダクションにおいて重要な役割を果たします。ディゾルブ、フェード、ワイプなどの伝統的なトランジション手法は、事前に定義されたアルゴリズムや確立されたインタフェースに依存しています。しかし、これらの手法は柔軟性に欠け、能力が制限されていることが多いです。シームレスなトランジションへの代替手法は、異なるシーン間をスムーズに切り替えるために多様で想像力豊かなショットを使用する方法です。この技術は映画でよく使用されますが、あらかじめ定義されたプログラムを使用して直接生成することはできません。この研究では、異なるシーン間に中間フレームを生成することに焦点を当て、シームレスでスムーズなトランジションの生成という一般的ではない問題を取り扱うモデルを紹介しています。このモデルは、生成されたトランジションフレームが与えられたシーンイメージと意味的に関連し、一貫性があり、滑らかで提供されたテキストと一致していることを求めます。この研究では、ショットレベルのビデオを組み合わせた滑らかで創造的なトランジションを含む高品質な長いビデオを生成するためのショートトゥロングビデオ拡散モデルであるSEINEを紹介しています。以下の図に、この手法の概要が示されています。 SEINEは、観測可能な条件付き画像やビデオに基づいて以前に見たことのないトランジションフレームと予測フレームを生成するために、ランダムマスクモジュールを組み込んでいます。著者は、ビデオデータセットに基づいて、事前学習された変分オートエンコーダによってエンコードされた元のビデオからNフレームを抽出します。さらに、モデルはテキストの説明を入力として受け取り、トランジションビデオのコンパクト性を向上させ、ショートテキストからビデオを生成する機能を活用します。トレーニング段階では、潜在ベクトルはノイズで破損され、ランダムマスク条件層が適用され、フレーム間の中間表現をキャプチャします。マスキングメカニズムは、元の潜在コードから情報を選択的に保持または抑制します。SEINEは、マスク付きの潜在コードとマスク自体を条件入力として受け取り、どのフレームがマスクされ、どのフレームが見えるかを決定します。モデルは、全体の破損した潜在コードに影響を与えるノイズを予測するためにトレーニングされます。これにより、モデルは、可視フレームとマスクされていないフレームをシームレスにブレンドするリアルで視覚的に一貫したトランジションフレームを生成しようとします。この研究から抽出した一部のシーケンスを以下に示します。これは、シームレスなトランジションを生成するためのショートトゥロングビデオ拡散モデルであるSEINEの要約でした。興味がある場合や詳細を学びたい場合は、以下に引用されたリンクをご参照ください。

2023年のランダムフォレスト：パワフルな手法の最新拡張

機械学習の時間軸において、ランダムフォレスト（RF）はブレイマンの画期的な論文で紹介された古代の手法です（[1]）年季が入っているにもかかわらず、その性能には驚嘆させられ、…

ランダムフォレストにおける変数の重要性

ランダムフォレストと一般化（特に、一般化ランダムフォレスト（GRF）と分布ランダムフォレスト（DRF））は、強力で使いやすい機械学習手法であるため、…

FineShare Review 2023年の最高の人工知能仮想カメラは？

「FineShareのレビューを通じて、最高のAI仮想カメラをご紹介しますその特徴、メリット、デメリットを詳しく分析します」

fineshare

「深層学習による遺伝子制御の解明：オルタナティブスプライシングの理解に向けた新たなAIアプローチ」

オルタナティブスプライシングは、遺伝子の制御において基本的なプロセスであり、単一の遺伝子が複数のmRNAバリアントと様々なタンパク質アイソフォームを生産できるようにするものです。このメカニズムは、細胞の多様性の生成および生物学的プロセスの調節において重要な役割を果たしています。ただし、複雑なスプライシングパターンを解明することは、科学者にとって長い間課題でした。最近公開された研究論文では、この課題に取り組み、新しい深層学習モデルを用いてオルタナティブスプライシングの調節に光を当てています。研究者は、遺伝子制御の領域でオルタナティブスプライシングを研究するために、従来の方法に頼ってきました。これらの方法は、煩雑な実験技術やスプライシングイベントの手動注釈を伴うことが多いです。これらの方法は有益な洞察を提供してきましたが、現在生成される膨大なゲノムデータを分析する能力はより時間のかかる制約されたものとなる可能性があります。本論文の背後にいる研究チームは、より効率的かつ正確なアプローチの需要を認識しました。彼らは、オルタナティブスプライシングの複雑さを解明するために設計された先端的な深層学習モデルを導入しました。このモデルはニューラルネットワークの力を活用してスプライシングの結果を予測するため、この分野の研究者にとって貴重なツールとなります。提案された深層学習モデルは、従来の方法からの著しい転換を表しています。このモデルは、学習可能なパラメータを段階的に組み込むことで解釈可能性を高める多段階のトレーニングプロセスで動作します。その効果の鍵は、さまざまな情報源を統合する能力にあります。このモデルでは、シーケンスおよび構造データにおいて強度演算モジュール（SCM）を利用します。これらのモジュールは、モデルが異なるスプライシング結果に関連付けられる強度を計算するための重要なコンポーネントです。モデルはシーケンス情報を処理するために畳み込み層を使用し、重要なシーケンスモチーフを捉えます。シーケンスデータに加えて、モデルは構造特徴も考慮します。RNA分子はしばしば複雑な二次構造を形成し、スプライシングの意思決定に影響を及ぼすことがあります。モデルは、ドットブラケット表記を使用してこれらの構造要素を捉え、ポテンシャルなG-Uワブル塩基対を特定します。この構造情報の統合により、スプライシングプロセスのより包括的な視点が提供されます。モデルの特徴の1つは、非線形活性化関数であるTuner関数です。Tuner関数は、挿入とスキップスプライシングイベントに関連付けられる強度の差を確率スコアにマッピングし、スプライスイン（PSI）値の割合を予測します。この予測は重要な出力となり、研究者が特定の文脈でのオルタナティブスプライシングの調節方法を理解するのに役立ちます。研究チームは、さまざまなアッセイとデータセットを用いてモデルのパフォーマンスを厳密に評価しました。予測を実験結果と比較することで、モデルが正確に重要なスプライシング特徴を識別する能力を示しました。特に、モデルは本物のスプライシング特徴とデータ生成中に導入される潜在的なアーティファクトを区別することに成功しており、予測の信頼性を確保しています。結論として、この画期的な研究論文は、遺伝子のオルタナティブスプライシングの理解に関する長年の課題に対する魅力的な解決策を提案しています。深層学習能力を活用したこの研究チームによるモデルは、シーケンス情報、構造特徴、ワブル塩基対指標を組み合わせてスプライシング結果を正確に予測します。この革新的なアプローチは、スプライシングプロセスの包括的な視点を提供し、遺伝子発現の調節メカニズムに対する洞察を提供します。モデルの解釈可能性は、注意深く設計されたトレーニングプロセスとTuner関数によって実現され、これが従来の方法とは異なる特徴です。このツールを使用することで、研究者はオルタナティブスプライシングの複雑な世界を探索し、遺伝子の制御を規定するメカニズムを明らかにすることができます。

イメージセグメンテーション：詳細ガイド

画像セグメンテーションとは、コンピュータ（またはより正確にはコンピュータに保存されたモデル）が画像を取り込み、画像内の各ピクセルを対応するカテゴリに割り当てる能力を指します例えば、それは...

Google Researchにおける責任あるAI：パーセプションの公平性

Google ResearchのPerception Fairnessチームの共同リーダーであるSusanna RiccoとUtsav Prabhuが投稿しました。 Googleの責任あるAI研究は、異なるバックグラウンドと専門知識を持つチーム間、研究者と製品開発者間、そして最終的には広範なコミュニティとの協力の基盤の上に築かれています。パーセプションフェアネスチームは、コンピュータビジョンと機械学習（ML）のフェアネスに関する深い専門知識と、Googleをはじめとする製品にパワーを与える知覚システムを構築する研究者との直接的なつながりを組み合わせることで進歩を推進しています。私たちはGoogleのAI原則に基づいて、システムを包括的に設計するために協力して取り組んでいます。パーセプションフェアネス研究は、Googleの製品をパワーにする最新の基盤と生成モデルを含む高度なマルチモーダルモデルの設計、開発、展開にわたります。私たちのチームのミッションは、特に基盤モデルと生成AIに関連するマルチモーダルMLシステムにおける公平性と包括性のフロンティアを推進することです。これには、分類、ローカリゼーション、キャプション付け、検索、ビジュアルな質問応答、テキストから画像またはビデオの生成、生成画像とビデオの編集などの中核技術コンポーネントが含まれます。私たちは、これらのアプリケーションにおいて公平性と包括性を最優先のパフォーマンス目標とすることができると信じています。私たちの研究は、開発サイクル全体でこれらの目標を積極的に設計するための新しい分析と緩和策を開放することに焦点を当てています。私たちは、次のような核心の問いに答えます：MLをどのように使用して、人種、文化、社会的アイデンティティの人々の知覚を責任を持ってモデル化し、公平性と包括性を促進することができるのか？どのようなシステムのバイアス（例：特定の肌の色の人物の画像でのパフォーマンスの低下）を計測することができ、これらの指標を使用してより良いアルゴリズムを設計することができるのか？より包括的なアルゴリズムとシステムを構築し、障害が発生した場合に迅速に対応するにはどうすればよいのか？メディアにおける人々の表現の測定画像やビデオを編集、キュレーション、または作成することができるMLシステムは、世界中の視聴者の信念を形成または強化することができます。これには、ステレオタイプの強化、人々のグループの傷つけや消去などの表現上の害を減らすための研究は、コンテンツと社会的な文脈の両方を深く理解することにかかっています。これは、異なる観察者が自分自身や自分のコミュニティをどのように捉え、他者がどのように表現されているかにかかっています。責任を持って行われるべき社会的カテゴリの研究とその方法については、この分野で大いに議論があります。私たちの研究は、社会学と社会心理学に基づき、人間の知覚に合致し、問題の主観性を受け入れ、微妙な測定と緩和を可能にするスケーラブルなソリューションに向けて取り組んでいます。例として、私たちはMonk Skin Toneスケールを使用した画像の肌のトーンの人間の知覚と注釈の違いに関する研究を行っています。私たちのツールは、大規模なコンテンツコレクションにおける表現を研究するためにも使用されています。Media Understanding for Social Exploration（MUSE）プロジェクトを通じて、私たちは学術研究者、非営利団体、主要な消費者ブランドと提携して、主流メディアや広告コンテンツのパターンを理解しています。この研究は、2017年に最初に発表され、ハリウッド映画のジェンダー平等を分析した共著研究で始まりました。それ以来、私たちは分析のスケールと深さを増してきました。2019年には、270万本以上のYouTube広告に基づく調査結果を公開しました。最新の研究では、12年以上にわたる人気のある米国のテレビ番組における知覚される性別プレゼンテーション、知覚される年齢、肌のトーンの交差点での表現を調査しています。これらの研究は、コンテンツクリエーターや広告主に洞察を提供し、私たち自身の研究をさらに進めています。メディアコレクションにおける表現パターンを明らかにするためにスケールで分析できるコンピュータシグナルのイラスト（実際のデータではありません）。[ビデオコレクション/ゲッティイメージズ] 進んでいくにつれて、私たちはMLの公平性に焦点を当てる概念と、それが責任を持って適用される領域を拡大しています。人々の写真の写実的なイメージを超えて、私たちはイラストや抽象的な人型のキャラクターの表現をモデル化するツールの開発に取り組んでいます。さらに、人間の姿が全くない画像さえも含めて、コミュニティや文化の表現をモデル化するツールを開発しています。最後に、描かれているのは誰だけでなく、それらがどのように描かれているかについても考える必要があります。周囲の画像コンテンツ、関連するテキスト、そして広範な文化的文脈を通じて伝えられる物語は何かを推論する必要があります。知覚システムのバイアス特性の分析高度なMLシステムの構築は複雑であり、製品の動作を決定するさまざまな利害関係者が情報を提供しています。全体的な品質は、ユーザーエクスペリエンスのプロキシとしてテストデータセット上の要約統計（全体的な正確度など）を使用してこれまでに定義され、測定されてきました。しかし、すべてのユーザーが同じ方法で製品を経験するわけではありません。知覚の公平性は、要約統計を超えた微妙なシステムの振る舞いの実測を可能にし、これらの指標をシステムの品質に直接関連付けて製品の動作とローンチの意思決定に重要な役割を果たします。これは思っているよりもはるかに難しいことです。複雑なバイアスの問題（例：交差するサブグループ間のパフォーマンスの不均衡やステレオタイプの強化のインスタンス）を重要なニュアンスを失うことなく、わずかな数の指標に凝縮することは非常に困難です。また、公平性の指標と他の製品の指標（ユーザー満足度、正確性、レイテンシなど）の相互作用のバランスを取ることも課題です。これらはしばしば相反するとされながらも互換性があるとされるものです。広範なユーザーの満足度は、公平性と包含の目標を達成することに一致しているにもかかわらず、研究者が自分の仕事を「正確性と公平性のトレードオフの最適化」と表現するのは一般的です。私たちは、Open Imagesの一部としてMIAPデータセットを構築し、複雑なシステムの社会的に関連する概念の知覚とバイアスの検出の研究を活用して、コンピュータビジョンにおけるMLの公平性研究を推進するリソースを作成しました。オリジナルの写真クレジット…

Learn more about Search Results DRF