Learn more about Search Results EDA

「データプロジェクトを始めるための3つの強力なPythonライブラリを(一部)自動化して、EDAを手助け」

「ごみを出すにはごみを入れる」という古い格言を避けるためには、データを理解し、きちんと整理することに十分な時間を費やすことが重要です最近、私はコンラッドの著書「The Kaggle Book」を読みました

バイトダンス(ByteDance)は、画像やテキストの指示を組み合わせた、拡散モデルに基づく画期的なビデオ生成手法「PixelDance」を紹介しました

ByteDance Researchの研究チームがPixelDanceを紹介しました。PixelDanceはテキストと画像の指示を利用して、多様かつ複雑な動きを持つビデオを作成するための手法です。この手法により、研究者は複雑なシーンやアクションを特長とするビデオを合成し、ビデオ生成の分野で新たな基準を設定しています。PixelDanceは、制限された動きしかない既存のモデルを超越して、複雑な設定とアクティビティを持つビデオを合成することに優れています。このモデルは、さまざまな画像の指示を取り入れ、時空的に一貫したビデオクリップを組み合わせて合成写真を生成します。 従来のシーンに特化したテキストからビデオを生成するモデルとは異なり、PixelDanceは初めと最後のフレームの画像指示を利用してビデオの複雑さを高め、より長いクリップを生成することができます。この革新は、特にドメイン外のコンテンツに見られる運動やディテールの制限を克服しています。画像指示の利点を強調することにより、PixelDanceは複雑なシーン、ダイナミックなアクション、複雑なカメラの動きを持つ高ダイナミックなビデオを生成するソリューションとして確立されています。 PixelDanceのアーキテクチャは、拡散モデルと変分オートエンコーダを組み合わせて、画像指示を入力空間にエンコードします。トレーニングと推論の技術は、公開されているビデオデータを利用してビデオのダイナミクスを学習します。PixelDanceは、セマンティックマップ、スケッチ、ポーズ、バウンディングボックスなど、さまざまな画像指示に拡張されます。質的分析は、テキスト、最初のフレーム、最後のフレームの指示が生成されたビデオの品質に与える影響を評価します。 PixelDanceは、MSR-VTTとUCF-101のデータセットに基づいて、FVDおよびCLIPSIMの指標に基づいて、これまでのモデルを上回る結果を示しました。UCF-101での抜粋研究では、PixelDanceのテキストと最後のフレームの指示のようなコンポーネントの連続クリップ生成への効果を示しています。この手法は、高品質なビデオデータのトレーニング、ドメイン固有の微調整、モデルのスケーリングなど、改善の道筋を示唆しています。PixelDanceはゼロショットのビデオ編集を実現し、それを画像編集のタスクに変換します。MSR-VTTおよびUCF-101のデータセットで、テキストプロンプトと一致する高品質で複雑なビデオを生成する印象的な定量評価結果を達成しています。 PixelDanceは、複雑なシーンとアクションを持つ高品質なビデオを合成することに優れており、最先端のモデルを超越しています。テキストプロンプトとの関連性により、ビデオ生成の進化の可能性を見せています。ドメイン固有の微調整やモデルのスケーリングなどの改善点が明確にされています。PixelDanceはゼロショットのビデオ編集を導入し、それを画像編集のタスクに変換して、時空的に一貫したビデオを安定して生成します。定量的な評価によって、テキストプロンプトに基づいて高品質で複雑なビデオを生成する能力が確認されています。 PixelDanceは、明示的な画像とテキストの指示に依存するため、未知のシナリオへの一般化が制限される可能性があります。評価は主に定量的な指標に焦点を当てており、より主観的な品質評価が必要です。トレーニングデータソースの影響や潜在的なバイアスについては、十分に探求されていません。スケーラビリティ、計算要件、効率性についても十分に議論される必要があります。特定のビデオコンテンツタイプの取り扱いに制限があるモデルの制約については、明確化が必要です。例外を除いて、多様なドメインや例外を超えたビデオ編集タスクへの汎化性を十分に考慮する必要があります。

あなたは優れたEDAフレームワークを持っていると思っていますか?もう一度考えてみてください

優れたデータサイエンティストは、データを内外に知り尽くしています良いモデルを構築するには、データに真につながっている必要があります機械学習プロジェクトを始めて終えることは確かに興奮しますしかし...

「UCSDとByteDanceの研究者が、アクターズネルフ(ActorsNeRF)を発表:未知の俳優にも対応するアニメータブルな人間アクターネルフモデルで、フューショット設定の環境に汎化する」という意味です

Neural Radiance Fields(NeRF)は、2D画像またはまばらな3Dデータから3Dシーンとオブジェクトをキャプチャするための強力なニューラルネットワーク技術です。NeRFは、「NeRF in」と「NeRF out」の2つの主要なコンポーネントから構成されるニューラルネットワークアーキテクチャを使用します。「NeRF in」ネットワークは、ピクセルの2D座標と関連するカメラのポーズを入力し、特徴ベクトルを生成します。「NeRF out」ネットワークは、この特徴ベクトルを入力として受け取り、対応する3Dポイントの3D座標と色情報を予測します。 NeRFベースの人物表現を作成するには、通常、さまざまな視点から人物被写体の画像またはビデオをキャプチャします。これらの画像はカメラ、深度センサー、または他の3Dスキャニングデバイスから取得できます。NeRFベースの人物表現には、ゲームや仮想現実のための仮想アバター、アニメーションや映画制作のための3Dモデリング、診断と治療計画のための患者の3Dモデル作成など、さまざまな応用があります。ただし、計算負荷が高く、大量のトレーニングデータが必要です。 それには、同期したマルチビュービデオと特定の人物ビデオシーケンスでトレーニングされたインスタンスレベルのNeRFネットワークの組み合わせが必要です。研究者は、ActorsNeRFと呼ばれる新しい表現方法を提案しています。これは、見知らぬアクターにも対応するカテゴリレベルの人物アクターNeRFモデルであり、数枚の画像(例:30フレーム)のみでAIST ++データセットの見知らぬポーズで新しいアクターの高品質な新規ビューを合成します。 研究者は、2つのレベルのカノニカル空間の方法に従っています。特定のボディポーズとレンダリング視点に対して、3D空間のサンプリングポイントは、スキンウェイトネットワークによって生成されるスキンウェイトを使用して最初にカノニカル空間に変換されます。スキンウェイトは、キャラクターをアニメーションする際に、キャラクターをどのように変形させるかを制御します。スキンウェイトネットワークは、3Dコンピュータグラフィックスでリアルなキャラクターの動きや変形を実現するために重要です。 異なる個人間で汎化するために、研究者はカテゴリレベルのNeRFモデルをさまざまな被験者の多様なセットでトレーニングしました。推論フェーズでは、対象のアクターのわずかな画像のみを使用して、事前トレーニングされたカテゴリレベルのNeRFモデルを微調整しました。これにより、モデルをアクターの特定の特徴に適応させることができます。 研究者は、ActorsNeRFがHumanNeRFアプローチを大幅に上回り、HUmanNeRFシステムと比較して未観測の体の部位に対して有効な形状を維持することを発見しました。ActorsNeRFは、カテゴリレベルを活用して、体の未観測部分をスムーズに合成することができます。ActorsNeRFは、ZJU-MoCapやAIST ++データセットなどの複数のベンチマークでテストされると、未知のポーズを持つ新しい人物アクターを複数のフューショット設定で上回ります。

医療における臨床家と言語モデルのギャップを埋めるために:電子医療記録の指示に従うための臨床家によって作成されたデータセット、MedAlignに会いましょう

Large Language Models(LLMs)は自然言語処理の能力を大いに活用しています。言語生成や推論から読解まで、LLMsは何でもこなすことができます。これらのモデルが医師の仕事を助ける可能性は、医療を含むさまざまな分野で注目されています。最近のMed-PaLMやGPT-4を含むLLMsは、特に医療データベースや試験に関連する医学の質問応答を含むタスクでその能力を証明しています。 常に制御されたベンチマークでのLLMsの優れたパフォーマンスが実際の臨床状況にどのように反映されるかを判断することは困難でした。医療従事者は、医療業界でさまざまな情報関連の業務を行い、これらの仕事では電子健康記録(EHR)からの複雑な非構造化データが頻繁に必要です。医療従事者が取り組む複雑さと細密さは、現在利用可能なEHRデータの質問応答データセットでは十分に表現されていません。医師がLLMsを頼りにする際、そのようなモデルが正確で文脈を理解した回答を提供できるかどうかを評価するために必要なニュアンスが欠けています。 これらの制限を克服するために、研究者チームはMedAlignというベンチマークデータセットを開発しました。これは7つの異なる医学専門分野に特化した15人の臨床医が提出した合計983の質問と指示からなります。MedAlignは、単に質問と回答のペアではなく、EHRを基にした指示と回答のペアに焦点を当てており、他のデータセットとは異なる特徴を持っています。チームはこれらの指示のうち303について臨床医が作成した参照回答を含め、それらをEHRデータと関連付けて提示のための文脈と基盤を提供しました。各臨床医は、これらの303の指示に対して6つの異なるLLMsが生成した回答を評価し、ランク付けしてデータセットの信頼性と品質を確認しました。 臨床医自身によるゴールドスタンダードのソリューションも提供されています。臨床医の提供した指示、LLMが生成した回答の専門家による評価、および関連するEHRの文脈を含むデータセットを編成することで、MedAlignは先駆的な取り組みを達成しました。このデータセットは、LLMsが臨床状況でどれだけうまく機能するかを評価するための有用なツールを提供します。 2つ目の貢献では、関連する患者の電子健康記録を臨床指示と一致させるための自動化された検索ベースの手法の実現可能性を検討しています。これを実現するために、チームはより効果的かつスケーラブルな臨床指示の収集方法を作成しました。この指示を求める方法を分離することで、より多様な臨床医からの提出を求めることができます。 彼らはまた、自動化された方法がどのようにして指示を関連するEHRと一致させるかを評価しました。その結果、この自動マッチング手法は、ランダムな指示とEHRのペアリングと比較して、74%の状況で関連性のあるペアリングを提供することが成功したことが明らかになりました。この結果は、自動化によって臨床データの関連性と正確性を高める機会を示しています。 最後の貢献では、自動化された自然言語生成(NLG)パラメータと医師によるLLM生成回答の評価との関係を調査しています。この調査は、専門医の評価に代わってスケーラブルな自動化された指標を使用してLLMの回答をランク付けできるかどうかを判断することを目的としています。人間の専門家のランクと自動化された基準の一致度を測定することで、将来の研究において医師がLLMの回答を手動で識別し評価する必要性を軽減することを目指しています。この取り組みにより、医療応用のためのLLMの作成と改善が効率化され、人的リソースに依存しないレビュープロセスが実現する可能性が高まるでしょう。

「UCLA研究者がGedankenNetを紹介:物理法則や思考実験から学ぶ自己教示AIモデルが計算機画像処理を進化させる」

深層学習の最近の進展は、計算画像処理、顕微鏡、ホログラフィ関連の分野に大きな影響を与えています。これらの技術は、バイオメディカルイメージング、センシング、診断、3Dディスプレイなど、多様な領域での応用があります。画像の変換、強化、超解像、ノイズ除去、仮想染色などのタスクにおいて、深層学習モデルは優れた柔軟性と効果を示しています。これらは、明視野顕微鏡や蛍光顕微鏡などのさまざまなイメージングモダリティに成功裏に適用されており、深層学習の統合が、微小スケールで複雑な世界を可視化するための理解力と能力を再構築しています。 計算画像処理では、従来の技術は主に教師あり学習モデルを使用し、注釈付きの大規模なデータセットや実験的な画像が必要とされます。これらのモデルは、古典的なアルゴリズムによるトレーニング画像の取得や異なるイメージングモダリティ間の画像ペアの登録など、さまざまな方法で取得されたラベル付きのトレーニングデータに頼っています。しかし、これらのアプローチには、トレーニング画像の獲得、整列、前処理の手間や推論バイアスの導入などの制約があります。非教師あり学習や自己教師あり学習によってこれらの課題を解決しようとする試みがあるものの、実験的な測定値やサンプルラベルへの依存性は依然として存在します。一部の試みでは、トレーニングにラベル付きのシミュレーションデータを使用していますが、実験的なサンプル分布を正確に表現することは複雑であり、サンプルの特徴やイメージングセットアップに関する事前知識が必要です。 これらの固有の問題に対処するために、UCLA Samueli School of Engineeringの研究者らは、GedankenNetという革新的なアプローチを提案しました。このアプローチは、逆に革命的な自己教師あり学習フレームワークを提供します。このアプローチは、ラベル付きや実験的なトレーニングデータや現実世界のサンプルとの類似点を排除します。物理学的な一貫性と人工的なランダムイメージに基づいてトレーニングすることにより、GedankenNetは既存の手法が抱える課題を克服します。これにより、GedankenNetはホログラム再構成における新たなパラダイムを確立し、さまざまな顕微鏡、ホログラフィ、計算画像処理のタスクで一般的に使用される教師あり学習アプローチの制約に対する有望な解決策を提供します。 GedankenNetのアーキテクチャは、空間フーリエ変換(SPAF)ブロックの連結によって構成されており、効果的に空間および周波数領域の情報を捉えます。物理学的一貫性の損失関数を組み込むことで、モデルはホログラム再構成時に波動方程式に従うことを強制し、物理的に正確な複素場出力を得ます。このユニークなトレーニング戦略により、GedankenNetは合成および実験的なホログラムに対して非常に優れた汎化性能を発揮し、未知のサンプル、軸方向の焦点合わせ、照明波長の変動に直面しても正確な再構成を行うことができます。 a) 伝統的な反復型ホログラム再構成技術、自己教師あり深層ニューラルネットワークGedankenNet、既存の教師あり深層ニューラルネットワークを示すイラスト。 | b) ホログラム再構成のためのGedankenNetの自己教師ありトレーニングプロセス。 性能評価により、GedankenNetのホログラム再構成能力の優れた性能が示されました。構造的類似性指数(SSIM)、平均二乗誤差(RMSE)、誤り訂正係数(ECC)などの定量的な指標によると、GedankenNetはさまざまなホログラムのセットにおいて従来の教師あり技術を一貫して上回っています。特に、GedankenNetの物理学的一貫性の損失は非物理的なアーティファクトを効果的に軽減し、より鮮明で正確な再構成を実現します。モデルの波動方程式との互換性は、適切な波動伝播を通じて焦点のずれたホログラムから高品質なオブジェクト場を回復することを可能にし、GedankenNetの外部一般化能力の優れた性能を裏付けます。 全体として、UCLAの研究チームによるGedankenNetは、計算画像処理と顕微鏡の分野における先駆的な進歩を表しています。自己教師あり学習と物理学に基づいた思考実験の力を取り入れることで、GedankenNetはニューラルネットワークモデルのトレーニングに新しいアプローチを提供します。この革新的な方法は、現在の教師あり学習技術の制約を克服するだけでなく、さまざまな計算画像処理タスクに対してより柔軟で物理学に適合しやすく、容易にトレーニング可能な深層学習モデルへの道筋を提供します。このブレイクスルーにより、顕微鏡の進歩が大幅に加速され、より広範な応用と微小世界への深い洞察が可能となります。

Pythonを使用した探索的データ分析(EDA)の実践ガイド

データを読み込むために、Pandasのread_csv関数を使用しますread_csv関数は、CSVファイルへのパスを第1引数として取ります私たちの直感によれば、人の結果は...

「PolarsによるEDA:集計と分析関数のステップバイステップガイド(パート2)」

このシリーズの最初のパートでは、Polarsの基礎をカバーし、その機能と構文をPandasと比較しましたこのパートでは、クエリの複雑さをさらに一歩進めますので、...

「Pythonによる水質EDAと水質の適性分析」

「十分な新鮮な飲み水を提供できることは、基本的な要件です気候変動の議論の中で、最も大きな課題の一つは、生存に十分な淡水を確保することです水質は...」

PolarsによるEDA:Pandasユーザーのためのステップバイステップガイド(パート1)

時折、データ解析のやり方を大きく変えるツールが現れます私はPolarsがそのようなツールの一つであると信じていますので、このシリーズの記事では、詳しく掘り下げて説明します

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us