Learn more about Search Results A - Page 116

「リヴィールのロジクルが大規模な法的文書からAmazon Comprehendを使用してPIIを検知・削除した方法」

今日、個人を特定できる情報(PII)はどこにでもありますPIIはメールやスラックのメッセージ、ビデオ、PDFなどいろいろな場所に存在します特定の個人を識別するために使用できるデータや情報を指しますPIIは機密性が高く、名前、連絡先情報、身分証明番号、金融情報などさまざまな種類の個人データを含みます

「NSFが1,090万ドルの資金を安全なAI技術の開発に投資」

国立科学財団は、「安全な学習可能システム(Safe Learning-Enabled Systems)プログラム」を通じて、ユーザーが安心して利用できる人工知能(AI)の開発に対して、1,090万ドルを投資すると発表しました

Appleの研究者がマトリョーシカ拡散モデル(MDM)を紹介する:高解像度の画像とビデオの合成のためのエンドツーエンドの人工知能フレームワーク

近年、大規模言語モデルは驚くべき能力を示しています。特に、ディフュージョンモデルは3Dモデリングやテキスト生成から画像やビデオ生成まで、さまざまな生成アプリケーションで広く使用されています。これらのモデルはさまざまなタスクに対応していますが、高解像度のデータに取り組む際には重要な困難に直面します。高解像度の入力を全て再エンコードする必要があるため、高解像度へのスケーリングには多くの処理能力とメモリが必要です。 これらの問題を克服するために、注意ブロックを持つ深層アーキテクチャが頻繁に使用されていますが、計算とメモリの要求が増加し、最適化が複雑化します。研究者たちは、高解像度の写真のための効果的なネットワーク設計を開発するための努力を重ねています。現在の手法は、出力の品質においてDALL-E 2やIMAGENなどの標準的な技術に比べて不足しており、512×512の解像度を超える競争力のある結果を示していません。 これらの広く使用されている技術は、多数の独立してトレーニングされたスーパーレゾリューションディフュージョンモデルを低解像度モデルと融合させることで計算を削減しています。一方で、レイテントディフュージョンメソッド(LDM)では、個別にトレーニングされた高解像度オートエンコーダを使用し、低解像度ディフュージョンモデルのみをトレーニングします。両戦略は、マルチステージパイプラインと細心のハイパーパラメータ最適化の使用を必要とします。 最近の研究によれば、Appleの研究チームがエンドツーエンドの高解像度画像およびビデオ合成のために設計されたディフュージョンモデルのファミリーであるマトリョーシカディフュージョンモデル(MDM)を紹介しました。MDMは、低解像度ディフュージョンプロセスを高解像度生成の重要なコンポーネントとして取り入れるという考え方に基づいています。このアプローチは、生成的対抗ネットワーク(GAN)のマルチスケール学習に触発されたものであり、チームはネストされたUNetアーキテクチャを使用して複数解像度にわたる複合ディフュージョンプロセスを実行しました。 このアプローチの主要なコンポーネントのいくつかは以下の通りです。 マルチ解像度ディフュージョンプロセス:MDMは、複数の解像度で一度に入力をノイズ除去するディフュージョンプロセスを含んでおり、異なる詳細レベルの画像を同時に処理および生成することができます。MDMは、ネストされたUNetアーキテクチャを使用しています。 ネストされたUNetアーキテクチャ:ネストされたUNetアーキテクチャでは、小スケールの入力特徴量とパラメータを大スケールの入力特徴量とパラメータにネストさせます。このネスティングにより、情報を効果的にスケール間で共有することができ、細かい特徴を捉えながら計算効率を保つモデルの能力が向上します。 プログレッシブトレーニングプラン:MDMは、より高い解像度に徐々に進化するトレーニングプランを提案しています。このトレーニング方法により、最適化プロセスが向上し、モデルは高解像度コンテンツを生成する方法をより良く学習することができます。 チームは、このアプローチのパフォーマンスと効果を、テキストからビデオへの応用、高解像度テキストから画像の生成、クラス条件付きの画像生成など、さまざまなベンチマークテストによって示しています。MDMは、1024×1024ピクセルの解像度までシングルピクセル空間モデルをトレーニングできることを示しました。これは比較的小さなデータセット(CC12M)で行われた成果であるため、非常に注目に値します。MDMは、特にトレーニングされていない解像度に高品質な情報を生成できる堅牢なゼロショット一般化を示しています。結論として、マトリョーシカディフュージョンモデル(MDM)は、高解像度画像およびビデオ合成の領域での驚異的な進歩を表しています。

「Google Brainの共同創設者は、テック企業がAIのリスクを大げさに報じている」と主張しています

アンドリュー・エン、スタンフォード大学の准教授であり、Google Brainの共同設立者は、企業がAIに関連するリスクについて過大な恐れを煽っていると主張していますアンドリューはこの主張をオーストラリアの金融レビューに語り、テック企業が「AIが私たちを...」という前提でより厳格な規制を望んでいると述べました

イメージの中の数学を解読する:新しいMathVistaベンチマークがビジュアルと数理推論のAIの限界を押し広げている方法

数学的な推論能力を大型言語モデル(LLM)および大型マルチモーダルモデル(LMM)が視覚的な文脈で評価するためのベンチマークとしてMATHVISTAが紹介されています。この基準は、さまざまな数学的およびグラフィカルなタスクを組み合わせ、既存のデータセットと新しいデータセットを含んでいます。LLM、ツールを補助したLLM、およびLMMを含む11の主要なモデルを初期評価すると、人間の能力と比べて実質的な性能差が見られ、さらなる進化の必要性が示されています。このベンチマークは、数学的および視覚的な推論能力を持つ汎用のAIエージェントを開発するために重要です。 現在のLLMの数学的推論能力を評価するベンチマークは、テキストベースのタスクに焦点を当てており、GSM-8Kなどのいくつかは性能の飽和を示しています。この制限を解決するために、科学的領域の堅牢なマルチモーダルなベンチマークの需要が高まっています。VQAのようなベンチマークでは、自然な画像を超えたLMMの視覚的推論能力を広範囲にカバーしています。多様なタスクを微調整せずに解決するために、生成基盤モデルは重要な役割を果たしており、専門の事前学習方法は視覚的な文脈でのチャート推理を改善しています。最近の研究では、これらのモデルの実用的な応用の重要性が強調されています。 数学的な推論は、教育、データ分析、科学的な発見など人間の知能の重要な側面です。AIの数学的推論を評価する既存のベンチマークは、テキストベースであり、視覚的な文脈が欠けています。UCLA、ワシントン大学、およびマイクロソフトリサーチの研究者は、MATHVISTAという包括的なベンチマークを紹介し、基礎モデルの推論能力を評価するためにさまざまな数学的およびグラフィカルな課題を組み合わせています。MATHVISTAは複数の推論タイプ、主要なタスク、およびさまざまな視覚的な文脈を含み、モデルの数学的な推論能力を現実世界の応用に向けて向上させることを目指しています。 数学的な推論が視覚的な文脈での基礎モデルの推論を評価するMATHVISTA。課題タイプ、推論スキル、および視覚的な文脈の分類を使用して、既存のデータセットと新しいデータセットをキュレートしています。ベンチマークには、深い視覚的理解と構成的推論を必要とする問題が含まれています。予備的なテストでは、GPT-4Vへの挑戦を示し、その重要性を強調しています。 MATHVISTAの結果、最も性能の良いモデルであるMultimodal Bardの正確度は34.8%であり、人間のパフォーマンスは60.3%と顕著に高いです。テキストのみのLLMはランダムベースラインを上回り、2ショットのGPT-4は正確度29.2%を達成しています。画像のキャプションとOCRテキストを備えた強化LLMはより良いパフォーマンスを示し、2ショットのGPT-4は正確度33.9%を達成しています。IDEFICSやLLaVAなどのオープンソースのLMMは、数学的な推論、テキスト認識、形状検出、チャート理解の制限のために力不足を示しています。 まとめると、MATHVISTAの研究は視覚的な文脈での数学的な推論の向上と数学と視覚的理解の統合の課題を強調しています。将来の展望には、数学的および視覚的な能力に優れた汎用のLMMの開発、外部ツールを使ったLLMの拡張、およびモデルの説明の評価が含まれます。この研究は、視覚的な認識と数学的な推論を改善するためのモデルアーキテクチャ、データ、およびトレーニング目標の革新を通じて、数学的に集中し視覚的に豊かな現実世界のタスクを実行するAIエージェントの進化の重要性を強調しています。

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル(LLM)の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々な課題やモダリティに対して訓練された多くのモデルが最近提供されています。これらの発展により、LLMは人工一般知能(AGI)への重要なステップであるという共通の認識が生まれました。しかし、すべての利点にもかかわらず、LLMの現在の設計と実装には改善の余地があります。LLMの最も顕著な欠点の1つは、非構造化テキストに依存していることです。これにより、モデルが明らかな論理推論を見落としたり、誤った結論を想像したりすることが時折あります。 もう1つの欠点は、LLMが教示された時期に基づく固有の制約があるため、世界の進化に関する「新しい」知識を統合することが困難な場合があります。最も適応性の高い情報表現形式の1つは、グラフ構造化データであり、これは両方の問題に対する潜在的な解決策を提供します。しかし、この潜在的な解決策にもかかわらず、グラフとLLMの交差点での研究はほとんど行われていません。例えば、グラフデータベースとLLMは注目を集めているものの、グラフ構造化データの広範な応用に関してはさらなる研究が必要です。Wangらは最近、言語モデルに特化したグラフベンチマーキングチャレンジを作成することで、この問題を解決しようと試みました。 しかし、自然なグラフの課題の削除やアドレスされるグラフ構造のタイプの変化の欠如により、多くの未解決の問題が残っています。彼らの研究は、LLMのグラフ推論能力を評価する興味深い初めの取り組みを示しています。他の最近の研究では、グラフ構造化データの代わりにLLMを使用しようとしていますが、LLMの核心的な問題の一部を無視しています。Google Researchの研究者は、この論文でLLMがテキストとして読み取ることができるグラフ構造化データ上の推論について、初の徹底的な調査を行いました。彼らはグラフのプロンプト工学とグラフのエンコーディングを分析し、グラフ推論をさらに詳しく調査しました。 私たちは、さまざまなグラフのエンコーディング技術を実験することで、LLMが習得した表現をグラフの問題に利用することができます。プロンプト工学手法を研究する際には、質問を適切に設定してLLMに回答してもらうための最良のアプローチを選ぶことができます。彼らのテスト結果は、異なるプロンプトヒューリスティクスが最適なパフォーマンスを発揮するシナリオを特定することを目的としています。そのために、彼らはGraphQAというブランドニューのベンチマークを提供し、LLMの推論パフォーマンスを評価します。GraphQAは、以前のLLMを使用した研究よりもはるかに多様で現実的なグラフ構造を持つグラフを使用しています。 特に、彼らの研究は以下の点に貢献しました: 1. LLMの使用におけるグラフ構造のプロンプトアプローチの徹底的な調査。 2. LLMの使用のためのグラフをテキストとしてエンコードするためのベストプラクティスと洞察。 3. グラフ構造がLLMのプロンプトにどのように影響を与えるかを探索するために、コミュニティがより良い探求をすることができる新しいグラフベンチマークであるGraphQA。

テンセントAIラボは、進行的条件拡散モデル(PCDM)を紹介しましたこれにより、3つのステージを経て、ターゲットおよびソースのポーズ下のパーソンイメージ間のギャップを徐々に縮めます

ポーズガイドの人物画像合成の研究では、同じ外観を持つ人物の画像を異なるポーズで生成することに重点を置き、近年、大きな進歩が見られています。この技術は、電子商取引のコンテンツ生成において広範な応用があり、人物再識別などの下流のタスクの改善にも役立ちます。しかし、ソースとターゲットのポーズの不一致によるいくつかの課題があります。 研究者たちは、ポーズガイドの人物画像合成の課題を解決するために、さまざまなGANベース、VAEベース、フローベースの手法を試みてきました。GANベースのアプローチは、安定したトレーニングを必要とし、非現実的な結果を生み出す場合があります。VAEベースの手法は、詳細をぼかしたり、ポーズを誤って配置する場合があります。一方、フローベースのモデルはアーティファクトを導入する可能性があります。一部の手法では解析マップを使用していますが、スタイルやテクスチャに苦労することがあります。拡散モデルは有望ですが、改善された結果のためにはポーズの不一致に関連する課題を解決する必要があります。 これらの課題に取り組むために、最近公開された論文ではProgressive Conditional Diffusion Models(PCDMs)が紹介されており、高品質な画像を段階的に生成することができます。予測、密な対応の確立、およびテクスチャと詳細の整合性を向上させるための画像の改善の3つの段階を経て、高品質な画像を生成します。 提案された手法は、ポーズガイドの人物画像合成の中で重要な貢献を提供します。ソースの画像の外観とターゲットのポーズの座標の整合性を明らかにすることで、単純な事前条件の拡散モデルを導入し、グローバルなターゲット画像特徴を生成します。画像の不整合を整列させる画期的なインペイント条件付き拡散モデルは、ソースとターゲットの画像とそれぞれのポーズが画像、ポーズ、特徴の複数のレベルで整列するようにします。さらに、改善条件付き拡散モデルによって画像の品質と忠実度が向上します。 PCDMは、全体の画像合成プロセスに貢献する3つのキーステージで構成されています: 1) 事前条件付き拡散モデル:最初のステージでは、モデルがポーズ座標と画像の外観の整合関係を活用して、ターゲット画像のグローバルな特徴を予測します。モデルは、ソースとターゲットの画像とソース画像のポーズに応じたトランスフォーマーネットワークを使用します。CLIPイメージエンコーダから得られたグローバル画像埋め込みは、ターゲット画像の合成をガイドします。このステージの損失関数は、モデルがノイズのない画像埋め込みを直接予測するように促します。このステージは、特徴レベルでソースとターゲットの画像間のギャップを埋める役割を果たします。 2) インペイント条件付き拡散モデル:インペイント条件付き拡散モデルは、2番目のステージで導入されます。前のステージで得られたグローバルな特徴を利用して、ソースとターゲットの画像間の密な対応を確立し、不整合のある画像から画像への生成タスクを整列させます。このステージでは、画像、ポーズ、特徴を含む複数のレベルでソースとターゲットの画像およびそれぞれのポーズが整列することを保証します。これは、ソースとターゲットの画像間の整列を改善し、現実的な結果を生成するために重要です。 3) 修正条件付き拡散モデル:前の段階で予備的な粗いターゲット画像を生成した後、修正条件付き拡散モデルが画像の品質と詳細のテクスチャを向上させます。このステージでは、前段階で生成された粗い画像を条件として使用して、画像の忠実度とテクスチャの整合性をさらに向上させます。このステージでは、最初の畳み込み層を修正し、ソース画像から特徴を抽出するために画像エンコーダを使用します。クロスアテンションメカニズムは、ネットワークにテクスチャ特徴を注入し、テクスチャの修復と詳細の強化を行います。 この手法は、一連の公開データセットによる包括的な実験によって検証され、定量的なメトリック(SSIM、LPIPS、FID)を介して競争力のあるパフォーマンスを発揮します。ユーザースタディは、メソッドの有効性を更に検証しました。割愛研究は、PCDMsの個々のステージの影響を調査し、その重要性を明らかにしました。最後に、PCDMの人物再識別への適用可能性が示され、ベースライン手法と比較して改善された再識別パフォーマンスを示しました。 まとめると、PCDMはポーズガイドの人物画像合成における顕著な飛躍を示しています。マルチステージアプローチを使用することで、PCDMは整列とポーズの整合性の問題に効果的に対処し、高品質で現実的な画像を生成します。実験は、パフォーマンスの優れた定量的なメトリクスとユーザースタディによるその優れたパフォーマンスを示し、人物再識別タスクへの適用可能性はその実用的な有用性をさらに強調しています。PCDMは、ポーズガイド画像合成のフィールドを進歩させる幅広い応用のための有望な解決策です。

UCバークレーとスタンフォード大学の研究者が、複数の教師からの報酬を学習するための人工知能フレームワークである「Hidden Utility Bandit(HUB)」を紹介しました

強化学習(RL)において、学習プロセスに人間からのフィードバックを効果的に統合することは、重要な課題として浮上しています。特に、複数の教師を扱う場合には、報酬学習においてこの課題が特に顕著となります。RLHFシステムにおける教師の選択にまつわる複雑さは、革新的なHUB(未知のベータを持つ人間とのループ)フレームワークを提案する研究者によって解決されました。このフレームワークは、教師の選択プロセスを効率化し、それによりRLHFシステム全体の学習成果を向上させることを目指しています。 既存のRLHFシステム内の手法は、学習効用関数の複雑さを効率的に管理する上で制限があります。この制約から、教師の選択に対するより洗練された総合的なアプローチが必要であることが浮き彫りになっています。HUBフレームワークは、RLHFパラダイム内での教師の任命を取り扱うための構造化されたシステム的アプローチを提供することで、この課題に対処する解決策として登場しました。従来の手法とは異なり、教師への積極的なクエリに重点を置くことで、より深い学習効用関数の探索が可能となり、複数の教師を扱う複雑なシナリオでも洗練された推定値を得ることができます。 HUBフレームワークの核となるのは、教師の選択と学習目標の最適化を統合した部分オブザーバブルマルコフ決定過程(POMDP)としての機能です。この統合は、教師の選択だけでなく、学習目標も最適化するためのものです。その効果的な点は、教師への積極的なクエリによって、学習効用関数のより緻密な理解が可能になり、それによって学習効用関数の推定の精度が向上することです。このPOMDPベースの手法を組み込むことによって、HUBフレームワークは、複数の教師からの学習効用関数の複雑さを巧みに扱い、最終的には学習効用関数の推定の精度とパフォーマンスを向上させることができます。 HUBフレームワークの強みは、多様な現実世界のドメインでの実践的な適用性に最も表れています。論文の推奨やCOVID-19ワクチンのテストといった領域での包括的な評価を通じて、このフレームワークの優位性が輝きます。論文の推奨の領域では、学習成果を効果的に最適化する能力がフレームワークの適応性と実用性を示しています。同様に、COVID-19ワクチンのテストでの成功した利用は、緊急で複雑な課題に対処する可能性を示しており、これにより医療や公衆衛生の進歩に寄与しています。 結論として、HUBフレームワークはRLHFシステムにおいて重要な貢献です。その体系的かつ構造化されたアプローチは、教師の選択プロセスを効率化するだけでなく、その選択の背後にある意思決定の戦略的重要性を強調しています。特定の文脈に最も適した教師を選択する重要性を重視するフレームワークとして、HUBフレームワークはRLHFシステムの総合的なパフォーマンスと効果を向上させるための重要なツールとなります。様々なセクターでのさらなる発展と応用の可能性は、AIと機械学習に基づくシステムの将来に対する有望な兆しとなっています。

「YouTubeミュージックがAIを搭載したプレイリストカスタマイズ機能を導入」

音楽愛好家にとって、YouTube Musicは画期的な機能を公開しました。最新の生成AI技術を使って、ユーザーが個別のプレイリストカバーアートを作成できる革新的な機能です。この革新的なツールは初めてアメリカの英語使用者に提供され、デフォルトのYouTubeの自動生成カバーに代わって、リスナーが独自のビジュアルを作り上げることが可能です。 この機能を使用するには、既存のプレイリストのカバーアートにある鉛筆アイコンをタップするだけです。初期化されると、ユーザーは「動物」から「自然」までのテーマを選択し、「夜空のフクロウ」や「夕焼けのビーチ」といった具体的なリクエストを入力します。リクエストが確認されると、YouTubeのAIシステムがユーザーに閲覧・選択できる画像の選択肢を迅速に生成します。 この機能は現在アメリカ限定ですが、YouTubeは将来的には非英語使用者や他の国々にも拡大する予定です。これは、音楽アプリがAIの力を活用し、個別のユーザーエクスペリエンスを向上させるという広いトレンドに合致しており、リスナーと彼らがカスタマイズしたコンテンツとのより深いつながりを築くことを目指しています。 この新しい機能により、音楽愛好家は特定のアーティスト、時代、またはムードに捧げられたプレイリストのエッセンスを視覚的に表現することができます。AIの助けを借りてカバーアートをカスタマイズする能力は、ユーザーが自分のコンテンツとより深い結びつきを感じるための重要な一歩です。 さらに、YouTube Musicは、「ホーム」タブ上で最もよく再生された曲やアーティストに簡単にアクセスできる機能を発表しました。アプリを開いたときに、ユーザーはホームタブの上部に直近のお気に入りを目立つよう表示されます。この強化により、YouTube MusicのホームページはSpotifyなどの使いやすいインターフェースに近づき、大切な曲へのスムーズなアクセスが可能となります。 これらの新機能は、YouTube Musicがアプリのさまざまな側面を改善することで、ユーザーエクスペリエンスを向上させるための継続的な取り組みの一環です。最近の導入事例には、「Samples」というTikTokスタイルの短い個人向けビデオフィードがあり、推奨される曲、アーティスト、ミュージックビデオに関する洞察を提供します。さらに、YouTube Musicは歌詞をタイム表示する機能も導入し、ユーザーがアプリ内で思いを共有するためのコメント機能も統合しました。 最近の更新により、YouTube Musicはユーザーがプレイリストとのインタラクションの仕方を革新し、個別の音楽体験の新基準を設定しています。プラットフォームが提供とアクセシビリティを拡大するにつれて、世界中の音楽愛好家はますますカスタマイズされたエンゲージングな音楽の旅を楽しみにできるでしょう。

教育と学習の経験を向上させるために、生成的AIアプリケーションを開発する

最近、教師や機関は人工知能(AI)をカリキュラムに組み込むためのさまざまな方法を模索しています機械学習(ML)の教え方やレッスンプランの作成、採点、その他の教育アプリケーションへの組み込みなどです特に、生成型のAIモデル、特に大規模言語モデル(LLM)は、教育におけるAIの影響を劇的に高めました生成[...]

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us