Learn more about Search Results による
- You may be interested
- マイクロソフトの研究者は、テキスト重視...
- 「大規模言語モデルは本当にそのすべての...
- OpenAIは、ChatGPTで「Bingで閲覧する」機...
- 「エンティティ抽出、SQLクエリ、およびAm...
- ソフトウェアが親の隠された感情を検出します
- データの壁を破る:ゼロショット、ワンシ...
- アマゾンセージメーカーキャンバスでのML...
- 「リンカーン研究所の4つの技術が2023年の...
- 「シミュレーション仮説を証明することは...
- Sklearnの交差検証の可視化:K-Fold、シャ...
- 分析から実際の応用へ:顧客生涯価値の事例
- データロボットとAWS Hackathon 2023でGen...
- 「回答を見つける(最良の回答を見つける...
- 韓国のこの人工知能(AI)論文では、FFNeR...
- 「トランスフォーマーアーキテクチャとBER...
「バイデン政権によるAIヘルスケアアプリのラベリングシステム案」
バイデン政権が、健康ケアアプリに人工知能を活用した新しいラベリングシステムを導入し、安全性と信頼性を最優先にしていますこれにより、より良い健康ケアを提供することが可能になります
NTUの研究者が「高級なビデオ」を発表:テキスト指示による潜在的拡散技術による高画質動画の超解像度化
ビデオのスーパーレゾリューションは、低解像度のビデオの品質を高い忠実度に引き上げることを目指し、現実世界のシナリオでよく見られる多様で入り組んだ劣化に対処することの困難さに直面しています。合成または特定のカメラ関連の劣化に焦点を当てた以前のものとは異なり、複数の不明な要素(ダウンサンプリング、ノイズ、ぼやけ、ちらつき、およびビデオ圧縮など)により複雑さが生じます。最近のCNNベースのモデルはこれらの問題を緩和するという約束を示してきましたが、限られた生成能力により現実的なテクスチャの生成には不十分であり、過度に滑らかになります。この研究は拡散モデルを活用してこれらの制限に取り組み、ビデオのスーパーレゾリューションを向上させることに焦点を当てています。 現実世界のビデオエンハンスメントの複雑さは、多様な多面的な劣化に対する従来の手法を超える解決策を求めています。CNNベースのモデルはいくつかの劣化形式を軽減する能力を示していますが、その制約は現実的なテクスチャの生成にあり、しばしば過度に滑らかな出力を生み出します。拡散モデルは高品質の画像やビデオを生成する素晴らしい能力を発揮する光明の存在となっています。ただし、拡散サンプリングにおける固有のランダム性のため、ビデオのスーパーレゾリューションへのこれらのモデルの適応は、低レベルのテクスチャにおける時空的な不連続性とちらつきを引き起こす大きな課題となっています。 これらの課題に対処するため、NTUの研究者はこの研究で、潜在的な拡散フレームワーク内で局所的なグローバルの時空的な一貫性戦略を採用しています。局所的なレベルでは、事前学習されたアップスケーリングモデルが追加の時空間レイヤーで微調整され、3D畳み込みと時空間注意レイヤーを統合します。この微調整により、局所的なシーケンスの構造安定性が大幅に向上し、テクスチャのちらつきなどの問題が軽減されます。同時に、新しいフローガイド再帰的な潜在伝播モジュールがグローバルなレベルで動作し、推論中にフレームごとの伝播と潜在的な融合を行うことで、より長いビデオ全体の安定性を確保します。 図1: AI生成と現実世界のビデオのスーパーレゾリューションの比較。提案されたUpscale-A-Videoは優れたアップスケーリング性能を示しています。適切なテクストキューを用いて、より視覚的なリアリズムとより細かいディテールを実現します。 この研究では、テクストプロンプトを導入してテクスチャの作成を誘導し、モデルがより現実的で高品質な詳細を生成することができるようにしています。さらに、入力にノイズを注入することで、モデルの頑健性を重いまたは未知の劣化に対して強化し、復元と生成のバランスを制御することができます。ノイズのレベルが低い場合は復元能力が優先され、高いレベルではより洗練された詳細の生成が促され、忠実度と品質のトレードオフを実現します。 主な貢献は、潜在的な拡散フレームワーク内での現実世界のビデオのスーパーレゾリューションに対する堅牢なアプローチを考案することであり、時空的な一貫性メカニズムとノイズレベルおよびテキストプロンプトの革新的な制御の統合により、ベンチマークでの最先端のパフォーマンスを実現し、顕著な視覚的なリアリズムと時間的な結束力を示しています。
この AI ペーパーでは、X-Raydar を発表します:画期的なオープンソースの深層ニューラルネットワークによる胸部 X 線異常検出
“` イギリスの様々な大学の研究者たちは、豊富なデータセットを用いて、総合的な胸部X線異常検出のためのオープンソース人工知能(AI)システム「X-Raydar」を開発しました。このシステムは、6つのイギリスの病院のデータセットを利用し、ニューラルネットワーク「X-Raydar」と自由なテキストレポートの画像から一般的な胸部X線所見を分類するための「X-Raydar-NLP」を活用しています。このデータセットは、13年間にわたる2,513,546件の胸部X線検査と1,940,508件の有用な自由テキストの放射線学的レポートを含んでいます。カスタムトレーニングされた自然言語処理(NLP)アルゴリズム「X-Raydar-NLP」は、レポートから抽出された37の所見のタクソノミーを使用して、胸部X線をラベル付けしました。AIアルゴリズムは、3つの後ろ向きのデータセットで評価され、さまざまな臨床的に重要な所見に対して、歴史的な臨床放射線学家のレポーターと同等のパフォーマンスを示しました。 X-Raydarは、自動ラベル付けセットで0.919の平均AUC、コンセンサスセットで0.864の平均AUC、MIMIC-CXRテストで0.842の平均AUCを達成しました。特筆すべきは、X-Raydarが、コンセンサスセットの37の所見のうち27個で歴史的なレポーターよりも優れた結果を示し、9個で同等性を示し、1個の所見で劣っており、平均的な改善率は13.3%であることです。このシステムのパフォーマンスは、気胸、実質膨満、および実質の腫瘤または結節を含む重要な所見において、訓練を受けた放射線学者と一致しました。 この開発には、8つの解剖学的領域と非解剖学的構造をカバーする放射学的タクソノミーが含まれており、総合的なラベリングを可能にしています。NLPアルゴリズム「X-Raydar-NLP」は、23,230件の手動で注釈付けされたレポートで訓練され、ラベルを抽出しました。コンピュータビジョンアルゴリズムである「X-Raydar」は、InceptionV3を特徴抽出に使用し、カスタム損失関数とクラスの重み付け係数を使用して最適な結果を達成しました。 テストには、専門の放射線学者によって注釈付けされた1,427の画像で構成されるコンセンサスセット、自動ラベル付けセット(n=103,328)、独立したデータセットであるMIMIC-CXR(n=252,374)が使用されました。X-Raydar-NLPは、自由テキストのレポートで臨床的に関連のある所見を良好に検出し、平均感度が0.921、特異度が0.994でした。X-Raydarは、コンセンサスセット全所見における平均AUCが0.864であり、重要な急性および非急性所見に対して強力なパフォーマンスを示しました。 研究者はまた、オンラインのツールを開発し、リアルタイムの胸部X線解釈のためにAIモデルに一般の公開アクセスを可能にしました。X-Raydarオンラインポータルは、DICOM画像をアップロードして自動前処理と分類を行うことができます。さらに、研究者はトレーニングされたネットワークアーキテクチャをオープンソース化し、さらなる研究や適応のための基礎モデルを提供しました。研究者は、総合的な胸部X線異常検出のためのAIシステム「X-Raydar」を成功裏に開発・評価しました。このシステムは、歴史的な放射線学者レポーターと同等のパフォーマンスを示し、研究コミュニティに無償で提供され、放射線学のAIアプリケーションの進歩に貢献しています。 “`
「Spotifyの秘密兵器:AIによる生成プレイリスト」
AIプレイリスト機能の公開 この秋、鋭い目を持つユーザーたちはSpotifyのストリーミングアプリで新しい機能を発見しました。AIによるプレイリスト作成がプロンプトを通じて可能になりました。SpotifyはTechCrunchに対してテストを確認しましたが、技術や仕組みに関する詳細は非公開であり、ユーザーを興味津々にさせています。この機能は、ユーザー@robdad_によるTikTokの動画で公に注目されました。彼はそれを「SpotifyのChatGPT」と呼んだものを見つけました。 AIプレイリストの操作方法 Spotifyのアプリの「ライブラリ」タブからアクセスできるAIプレイリスト機能は、シームレスに統合されています。ユーザーは画面の右上にあるプラス(+)ボタンをタップすることでプレイリスト作成プロセスを開始できます。ポップアップメニューが表示され、既存の「プレイリスト」と「ブレンド」の選択肢に加えてAIプレイリストのオプションが提供されます。選択した後、ユーザーはAIチャットボットのようなボックスにプロンプトを入力するか、「仕事で集中するためのインストゥルメンタルエレクトロニカ」や「ウィッチハウスのようなニッチなジャンルを探索」などの提案されたプロンプトのリストから選択する画面が表示されます。 AIプレイリスト生成の背後の舞台 @robdad_が共有したスクリーンショットでは、プロンプトの選択プロセスが示されており、「背景のカフェ音楽で静寂を埋める」や「楽しく前向きな曲で気分を高める」などのオプションが表示されます。AIチャットボットは「リクエストを処理中です…」と応答し、サンプルプレイリストを示します。ユーザーは、含めたくない曲がある場合に左にスワイプしてプレイリストをさらに調整する柔軟性があります。 SpotifyのAI探求は続きます これはSpotifyがAIによる機能を取り入れる最初の試みではありません。この大きなストリーム配信会社は、今年早くもAIパワーのDJを導入し、曲の推薦や面白い振る舞いで音楽聴取体験を変革しました。製品デザイナーのChris Messinaによる最近のコードの発見は、AIを使ったプレイリスト作成による広範な応用を示唆しており、Spotify Blendにも拡張される可能性があります。ただし、Spotifyは詳細について沈黙を守り、「Spotifyでは、製品の提供を改善し、ユーザーに価値を提供するために常に反復改善、アイデアを考え続けています」と述べています。 私たちの見解 SpotifyのAIによるプレイリストの実験は、音楽ストリーミングの領域での技術革新に対する同社の取り組みを反映しています。詳細はまだ不足していますが、AIプロンプトを通じてユーザーがカスタマイズされたプレイリストを作成する可能性は、Spotify体験に刺激的な次元を加えます。SpotifyがAIで限界を超えていくにつれて、この機能がどのように発展し、プラットフォーム全体に統合されていくかが興味深いです。 AIプレイリスト機能のテストが継続されることで、Spotifyユーザーはプレイリスト作成において大きな変革が期待できます。技術が進化するにつれて、お気に入りの音楽とのインタラクション方法も変わっていきますが、SpotifyはこのAI駆動の未来への先導を固く決意しています。
『AWSプロトタイピングによるICL-GroupのAmazon SageMaker上でのコンピュータビジョンモデルの構築』
「これはICLとAWSの従業員が共同執筆した顧客投稿ですICLは、イスラエルに拠点を置く多国籍の製造および鉱業企業で、ユニークな鉱物に基づいた製品を製造し、主に農業、食品、エンジニアリング材料の三つの市場で人類の基本的なニーズを満たしています彼らの鉱山サイトでは、監視が必要な産業用機器が使用されています...」
AIによる安全な自転車ヘルメット、そしてより優れた靴のソール
スイスのETH Zurichの研究者たちが開発した人工知能(AI)ツールは、3Dプリントが可能な新しいメタマテリアルを予測することができます
AIとMLによる株式取引の革命:機会と課題
「AI/MLは、予測分析、効率性、市場適応性と倫理の課題を通じて株式取引を変革し、Pythonの例を示す」となります
AIの新たなフロンティアを探る:Google DeepMindのReSTEM自己学習による機械学習の進化に関する研究
大型の言語モデル(LLMs)は、人間レベルのテキストを生成し、さまざまな言語タスクを実行する驚異的な能力によって、ディープラーニングを変革しています。高品質な人間データを入手することは、興味のあるタスクの性能をさらに向上させるための敷居となっています。特に、多くのリソースと専門知識を必要とする複雑な問題解決の割り当てには負担がかかります。この障害を克服するために、モデル生成の合成データは、その品質が保証される場合にはスケーラブルかつ手頃な解決策として有望です。 この研究では、Google DeepmindとMilaの研究者は、LLMsが作成されたデータを自己評価できる場合でも、外部のスカラーフィードバック信号が各生成サンプルの品質指標として機能するより簡単なシナリオを調査しています。研究チームは、言語モデルのための直感的で効果的なセルフトレーニング技術を提案しています。この手法は、2つのスキルのみを必要とします:1)モデルからサンプルを作成すること、および2)これらのサンプルをスコアリングメカニズムを使用して評価すること。このアプローチにより、モデルが生成したデータによるトレーニングを研究することができます。研究チームは、Reinforced Self-Trainingの呼び方を使い、この技術をReST𝐃𝑀と呼んで一貫性と明確性を実現しています。研究チームは、ReST𝐃𝑀を強化学習のための期待最大化と考えることができる方法を示しています。 具体的には、ReST𝐃𝑀は以下のように期待値と最大値のフェーズを切り替えています:1. 生成(Eステップ):入力コンテキストごとに、言語モデルは複数の出力サンプルを生成します。その後、研究チームはこれらのサンプルを2値報酬を使用してフィルタリングしてトレーニングデータセットを収集します。2. 改善(Mステップ):元の言語モデルは、前の生成フェーズからのトレーニングデータセットを使用して監視および微調整されます。次の生成フェーズでは、調整されたモデルが使用されます。ReST𝐃𝑀およびその派生版は、機械翻訳、意味解析、および好みの整合において、言語モデルの向上に効果的であることが示されています。 ReST𝐃𝑀は、主に非常に小さな言語モデル(最大7Bのパラメータまで)で従来の研究で使用され、より大きなモデルに対しては限定的なスケーラビリティがありました。彼らの研究は、モデルによって作成された合成データと人間提供データのスケーラビリティと効果を比較することにより、これらの取り組みを補完することを意図しています。具体的には、コード生成(APPS)および競技レベルの数学的問題解決(MATH)という2つの難しいが研究されていないドメインで、パLM 2モデルに対してReST𝐃𝑀を適用することで、数学的な推論力とコード生成のスキルが大幅に向上することを示しています。 驚くべきことに、モデルによって作成された人工データで改良されたモデルは、人間が提供したデータでトレーニングされたモデルよりもはるかに優れた性能を発揮します。さらに、ReST𝐃𝑀の数サイクル後に改善が低下し、トレーニングケースの数に過学習の可能性が示唆されています。また、ReST𝐃𝑀を使用して最適化されたモデルは、pass@kおよび多数決の機能を向上させます。最後に、これらの改良されたモデルは、ビッグベンチハードタスク、コーディング(ヒューマン評価)、および算術問題(GSM8KおよびハンガリーHS決勝)を含む類似したが異なるベンチマークでのパフォーマンスも向上しています。最後に、ReST𝐸𝑀の微調整におけるトレーニング問題、反復回数、およびモデル生成ソリューションの量の影響を調査するための削除研究が行われています。
「研究データ管理の変革:AIの役割によるデベロッパーのエンパワーメント」
「人工知能(AI)は、開発者にとって便利な友達のような存在ですAIは大量のデータの中から情報を見つけることを簡単にします」
AI論文は、高度なテクスチャリング、360度モデリング、インタラクティブ編集による3Dコンテンツ作成の進歩であるHyperDreamerを発表します
単一のRGBイメージから詳細でリアルな3Dモデルを生成することは容易ではありません。上海AI研究所、香港中文大学、上海交通大学、S-Lab NTUの研究者は、この課題に対処するためにHyperDreamerを提案しました。このフレームワークは、単一の2Dイメージから直接表示、レンダリング、編集可能な3Dコンテンツの作成を可能にすることで、この問題を解決します。 この研究では、テキストによる3D生成方法の変遷する景色について議論し、Dream Fields、DreamFusion、Magic3D、Fantasia3Dなどの注目すべき作品を引用しています。これらの手法は、CLIP、拡散モデル、空間的に変化するBRDFなどの技術を活用しています。また、テキストからイメージへの拡散モデルを利用した推論ベースと最適化ベースの形式を含む、単一画像再構築手法も強調しています。 この研究は、高度な3Dコンテンツ生成の需要の増大と従来の手法の制約を強調しています。テキストや単一画像条件を組み込んだ最近の2D拡散ベースの手法は、現実感を高めましたが、生成後の利用性やバイアスに課題を抱えています。これらを克服するために、HyperDreamerは単一のRGBイメージから包括的で表示可能、レンダリング可能、編集可能な3Dコンテンツの生成を可能にするフレームワークです。HyperDreamerは、カスタムの超解像モジュール、意味に敏感なアルベド正則化、対話型編集を組み合わせて、現実感、レンダリング品質、生成後の編集機能に関連する問題に対処します。 HyperDreamerフレームワークは、2D拡散、意味のあるセグメンテーション、および材料の推定モデルからのディーププライオールに基づいて、包括的な3Dコンテンツの生成と編集を実現します。高解像度の擬似マルチビューイメージを補助的な監視に使用し、高品質なテクスチャ生成を確保します。材料モデリングには、オンラインの3Dセマンティックセグメンテーションとセマンティックに敏感な正則化が含まれており、材料の推定結果に基づいて初期化されます。HyperDreamerは、対話型セグメンテーションを介した容易なターゲット3Dメッシュの変更のための対話型編集アプローチを導入します。フレームワークにはカスタムの超解像および意味に敏感なアルベドの正則化も組み込まれており、現実感、レンダリング品質、編集機能が向上しています。 HyperDreamerは、単一のRGBイメージからリアルで高品質な3Dコンテンツを生成し、完全な範囲の表示、レンダリング、編集可能性を提供します。比較評価では、最適化ベースの手法よりも現実的で適切な生成物を参照および背面ビューで生成します。超解像モジュールは、代替手法と比較して高解像度でのズームインが可能なテクスチャの詳細を向上させます。対話型編集アプローチにより、3Dメッシュ上のターゲットされた変更が可能であり、素朴なセグメンテーション手法よりも堅牢性と改善された結果を示します。HyperDreamerは、ディーププライオール、セマンティックセグメンテーション、および材料推定モデルの統合により、単一のイメージからハイパーリアリスティックな3Dコンテンツの生成において総合的な成果を上げています。 総括すると、HyperDreamerフレームワークは、ハイパーリアリスティックな3Dコンテンツの生成と編集において完全な範囲の表示、レンダリング、編集可能性を提供する革新的なツールです。領域に敏感な素材のモデリング、高解像度のテクスチャでのユーザーフレンドリーな編集、最先端の手法と比較して優れたパフォーマンスは、包括的な実験と定量的評価によって証明されています。このフレームワークは、3Dコンテンツ作成と編集の進歩において非常に大きなポテンシャルを秘めており、学術および産業の環境において有望なツールとなっています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.