Learn more about Search Results 18 - Page 122
- You may be interested
- 「ACL 2023でのGoogle」
- 研究者たちは、ナノLEDの正確なアレイを育...
- 事前学習済みの拡散モデルによる画像合成
- 意図しない漏洩から敏感なデータを保護す...
- 「ニューヨーク州法案、3Dプリンターの購...
- 「Pythonでのプロトコル」
- SoundStorm:効率的な並列音声生成
- 日本の介護施設はビッグデータを活用して...
- 「Neosyncをご紹介します:開発環境やテス...
- 「Google DeepMindが、ソーシャルおよび倫...
- 「言語復興のための生成型AI」
- GPT-4の詳細がリークされました!
- コースを安定させる:LLMベースのアプリケ...
- 「バイナリサーチアルゴリズムのデコーデ...
- 「LLMの利点:電子商取引の検索を変革する」
機械革命の始まりですか?
人工知能、機械学習、自動化によって推進される機械革命は、人類史上重要な転換点を迎えています詳しくはこちら!
グラフの復活:グラフの年ニュースレター2023年春
今日のナレッジグラフ、グラフデータベース、グラフアナリティクス、グラフAIの現在地と今後の方向性に関するニュースと分析を見つける
CoDiに会おう:任意対任意合成のための新しいクロスモーダル拡散モデル
ここ数年、テキストからテキスト、画像、音声など、別の情報を生成する堅牢なクロスモーダルモデルが注目されています。注目すべき例としては、入力プロンプトによって期待される結果を説明することで、素晴らしい画像を生成できるStable Diffusionがあります。 実際にリアルな結果を出すにもかかわらず、これらのモデルは複数のモダリティが共存し相互作用する場合には実用上の制限があります。たとえば、「かわいい子犬が革製のソファで寝ている」というテキストの説明から画像を生成したいとしましょう。しかしそれだけでは不十分です。テキストから画像へのモデルから出力画像を受け取った後、子犬がソファで鼾をかいているという状況にどのような音がするかも聞きたいと思うでしょう。この場合、テキストまたは出力された画像を音に変換する別のモデルが必要になります。したがって、多数の特定の生成モデルをマルチステップの生成シナリオで接続することは可能ですが、このアプローチは手間がかかり遅くなる可能性があります。また、独立して生成された単一のストリームは、ビデオとオーディオを同期させるように、後処理的な方法で組み合わせた場合に一貫性とアラインメントが欠けることがあります。 包括的かつ多目的なany-to-anyモデルは、一貫したビデオ、オーディオ、およびテキストの説明を同時に生成し、全体的な体験を向上させ、必要な時間を減らすことができます。 この目標を達成するため、Composable Diffusion(CoDi)が開発され、任意のモダリティの組み合わせを同時に処理し生成することができるようになりました。 アーキテクチャの概要は以下に示されています。 https://arxiv.org/abs/2305.11846 任意のモダリティの混合物を処理し、さまざまな出力の組み合わせを柔軟に生成するモデルをトレーニングすることは、大きな計算量とデータ要件を必要とします。 これは、入力と出力のモダリティの可能性の指数関数的な成長に起因します。さらに、多数のモダリティグループの整列されたトレーニングデータを取得することは非常に限られており、存在しないため、すべての可能な入力-出力の組み合わせを使用してモデルをトレーニングすることは不可能です。この課題に対処するために、入力条件付けと生成散布ステップで複数のモダリティを整列させる戦略が提案されています。さらに、対照的な学習のための「ブリッジアライメント」戦略を導入することで、指数関数的な入力-出力の組み合わせを線形数のトレーニング目的で効率的にモデル化できます。 高品質な生成を維持し、任意の組み合わせを生成する能力を持ったモデルを実現するには、多様なデータリソースを活用した包括的なモデル設計とトレーニングアプローチが必要です。研究者たちは、CoDiを構築するために統合的なアプローチを採用しました。まず、テキスト、画像、ビデオ、音声など、各モダリティのために潜在的な散乱モデル(LDM)をトレーニングします。これらのLDMは、利用可能なモダリティ固有のトレーニングデータを使用して、各個別のモダリティの優れた生成品質を保証するために独立して並列にトレーニングできます。このデータには、1つ以上のモダリティを持つ入力と出力モダリティが含まれます。 音声や言語のプロンプトを使用して画像を生成するなど、モダリティの組み合わせが関わる条件付きクロスモダリティ生成の場合、入力モダリティは共有特徴空間に投影されます。このマルチモーダル調整メカニズムにより、特定の設定の直接トレーニングを必要とせずに、CoDiは任意のモダリティまたはモダリティの組み合わせに対して条件を付けることができます。出力LDMは、結合された入力特徴に注意を払い、クロスモダリティ生成を可能にします。このアプローチにより、CoDiはさまざまなモダリティの組み合わせを効果的に処理し、高品質な出力を生成することができます。 CoDiのトレーニングの第2段階は、多数の多対多生成戦略を処理できるモデルの能力を促進し、異なるLDMからの潜在変数を共有潜在空間に投影する環境エンコーダVと、各散布器にクロスアテンションモジュールを導入することで実現されます。現在の知識の範囲では、CoDiはこの能力を持つ最初のAIモデルとして立ち上がっています。 このステージでは、LDMのパラメーターは固定され、クロスアテンションパラメーターとVのみがトレーニングされます。環境エンコーダーが異なるモダリティの表現を整列させるため、LDMはVを使用して出力表現を補間することで、任意の共同生成モダリティのセットとクロスアテンドできます。このシームレスな統合により、CoDiは可能な生成組み合わせすべてでトレーニングする必要がなく、任意のモダリティの任意の組み合わせを生成できます。その結果、トレーニング目的の数は指数関数から線形関数に削減され、トレーニングプロセスの効率が大幅に向上します。 モデルによって生成されたいくつかの出力サンプルは、各生成タスクについて以下に報告されています。 https://arxiv.org/abs/2305.11846 これがCoDiの概要であり、最先端の品質を持つ任意の生成に対する効率的なクロスモーダル生成モデルです。興味がある場合は、以下のリンクでこの技術について詳しく学ぶことができます。
あなたのポケットにアーティストの相棒:SnapFusionは、拡散モデルのパワーをモバイルデバイスにもたらすAIアプローチです
拡散モデル。AI領域の進歩に注目している場合、この用語については多く聞いたことがあるでしょう。それらは生成型AI手法の革命を可能にした鍵でした。我々は今や、テキストプロンプトを使用して数秒で写真のような逼真的な画像を生成するモデルを持っています。それらは、コンテンツ生成、画像編集、スーパーレゾリューション、ビデオ合成、3Dアセット生成を革新しました。 しかし、この印象的なパフォーマンスには高いコンピューテーション要件が伴います。つまり、それらを完全に活用するには本当に高性能のGPUが必要です。はい、それらをローカルコンピュータで実行する試みもありますが、それでも高性能なものが必要です。一方、クラウドプロバイダを使用することも代替解決策となりますが、その場合はプライバシーを危険にさらす可能性があります。 そして、考えなければならないのは、移動中に使用することです。ほとんどの人々は、コンピュータよりもスマートフォンで時間を過ごしています。拡散モデルをモバイルデバイスで使用したい場合、デバイス自体の限られたハードウェアパワーにとって要求が高すぎるため、うまくいく可能性はほぼありません。 拡散モデルは次の大きな流行ですが、実用的なアプリケーションに適用する前にその複雑さに対処する必要があります。モバイルデバイスでの推論の高速化に焦点を当てた複数の試みが行われていますが、シームレスなユーザーエクスペリエンスや定量的な生成品質を達成していませんでした。それは今までの話であり、新しいプレイヤーがフィールドに登場しているのです。SnapFusionと名付けられたこのプレイヤーです。 SnapFusionは、モバイルデバイスで2秒以下で画像を生成する最初のテキストから画像への拡散モデルです。UNetアーキテクチャを最適化し、ノイズ除去ステップ数を減らすことで推論速度を向上させています。さらに、進化するトレーニングフレームワークを使用し、データ蒸留パイプラインを導入し、ステップ蒸留中に学習目標を強化しています。 SnapFusionの概要。出典:https://arxiv.org/pdf/2306.00980.pdf SnapFusionの構造に変更を加える前に、SD-v1.5のアーキテクチャの冗長性を調査して、効率的なニューラルネットワークを得ることが最初に行われました。しかし、SDに従来のプルーニングやアーキテクチャサーチ技術を適用することは、高いトレーニングコストのために困難でした。アーキテクチャの変更は性能の低下につながる可能性があり、大規模な計算リソースを必要とする厳密な微調整が必要となります。そのため、その道は閉ざされ、彼らは、事前にトレーニングされたUNetモデルのパフォーマンスを維持しながら効果を徐々に向上させる代替方法を開発する必要がありました。 推論速度を向上させるために、SnapFusionは、条件付き拡散モデルのボトルネックであるUNetアーキテクチャを最適化することに焦点を当てています。既存の作品は主にトレーニング後の最適化に焦点を当てていますが、SnapFusionはアーキテクチャの冗長性を特定し、元のStable Diffusionモデルを上回る進化するトレーニングフレームワークを提案することで、推論速度を大幅に向上させています。また、イメージデコーダーを圧縮して高速化するためのデータ蒸留パイプラインを導入しています。 SnapFusionには、各クロスアテンションとResNetブロックを一定の確率で実行する確率的フォワード伝播が適用される堅牢なトレーニングフェーズが含まれています。この堅牢なトレーニング拡張機能により、ネットワークがアーキテクチャの変化に対して耐性があることが保証され、各ブロックの正確な評価と安定したアーキテクチャの進化が可能になります。 効率的なイメージデコーダーは、チャネル削減によって得られたデコーダーを使用して合成データを使用して蒸留パイプラインを介して達成されます。この圧縮デコーダは、SD-v1.5のものよりもはるかに少ないパラメータを持ち、より速くなっています。蒸留プロセスには、テキストプロンプトを使用してSD-v1.5のUNetから潜在表現を取得することで、効率的なデコーダーから1つ、SD-v1.5から1つの画像を生成することが含まれます。 提案されたステップ蒸留アプローチには、バニラ蒸留損失目的が含まれており、これは、生徒のUNetの予測と教師のUNetのノイズのある潜在表現との不一致を最小化することを目的としています。さらに、CFG-aware蒸留損失目的が導入され、CLIPスコアを改善します。CFGガイドされた予測は、教師モデルと生徒モデルの両方で使用され、CFGスケールはトレーニング中にFIDスコアとCLIPスコアのトレードオフを提供するためにランダムにサンプリングされます。 SnapFusionによって生成されたサンプル画像。出典: https://arxiv.org/pdf/2306.00980.pdf 改善されたステップ蒸留とネットワークアーキテクチャの開発のおかげで、SnapFusionは、モバイルデバイス上のテキストプロンプトから512×512の画像を2秒未満で生成することができます。生成された画像は、最先端のStable Diffusionモデルと同様の品質を示しています。
特徴量が多すぎる?主成分分析を見てみましょう
次元の呪いは、機械学習における主要な問題の1つです特徴量の数が増えると、モデルの複雑さも増しますさらに、十分なトレーニングデータがない場合、それは...
紛争のトレンドとパターンの探索:マニプールのACLEDデータ分析
はじめに データ分析と可視化は、複雑なデータセットを理解し、洞察を効果的に伝えるための強力なツールです。この現実世界の紛争データを深く掘り下げる没入型探索では、紛争の厳しい現実と複雑さに深く踏み込みます。焦点は、長期にわたる暴力と不安定状態によって悲惨な状況に陥ったインド北東部のマニプール州にあります。私たちは、武装紛争ロケーション&イベントデータプロジェクト(ACLED)データセット[1]を使用し、紛争の多面的な性質を明らかにするための詳細なデータ分析の旅に出ます。 学習目標 ACLEDデータセットのデータ分析技術に熟達する。 効果的なデータ可視化のスキルを開発する。 脆弱な人口に対する暴力の影響を理解する。 紛争の時間的および空間的な側面に関する洞察を得る。 人道的ニーズに対処するための根拠に基づくアプローチを支援する。 この記事は、データサイエンスブログマラソンの一環として公開されました。 利害の衝突 このブログで提示された分析と解釈に責任を持つ特定の組織や団体はありません。目的は、紛争分析におけるデータサイエンスの潜在力を紹介することです。さらに、これらの調査結果には個人的な利益や偏見が含まれておらず、紛争のダイナミクスを客観的に理解するアプローチが確保されています。データ駆動型の方法を促進し、紛争分析に関する広範な議論に情報を提供するために、積極的に利用することを推奨します。 実装 なぜACLEDデータセットを使用するのか? ACLEDデータセットを活用することで、データサイエンス技術の力を活用することができます。これにより、マニプール州の状況を理解するだけでなく、暴力に関連する人道的側面にも光を当てることができます。ACLEDコードブックは、このデータセット[2]で使用されるコーディングスキームと変数に関する詳細な情報を提供する包括的な参考資料です。 ACLEDの重要性は、共感的なデータ分析にあります。これにより、マニプール州の暴力に関する理解が深まり、人道的ニーズが明らかにされ、暴力の解決と軽減に貢献します。これにより、影響を受けるコミュニティに平和で包摂的な未来が促進されます。 このデータ駆動型の分析により、貴重な洞察力を得るだけでなく、マニプール州の暴力の人的コストにも光が当てられます。ACLEDデータを精査することで、市民人口、強制的移動、必要なサービスへのアクセスなど、地域で直面する人道的現実の包括的な描写が可能になります。 紛争のイベント まず、ACLEDデータセットを使用して、マニプール州の紛争のイベントを調査します。以下のコードスニペットは、インドのACLEDデータセットを読み込み、マニプール州のデータをフィルタリングして、形状が(行数、列数)のフィルタリングされたデータセットを生成します。フィルタリングされたデータの形状を出力します。 import pandas as pd # ACLEDデータをダウンロードして国別のcsvをインポートする…
あなたの次の夢の役割(2023年)を見つけるのに役立つ、最高のAIツール15選
Resumaker.ai Resumaker.aiは、数分で履歴書を作成するのを支援するウェブサイトです。ポータルは、いくつかのカスタマイズ可能なデザイナー製履歴書テンプレートと直感的なツールを提供して、夢の仕事に就くのを手助けします。他の履歴書ビルダーとは異なり、Resumaker.aiの人工知能(AI)エンジンは、ユーザーのためにデータを自動的に完了・入力することで、履歴書作成プロセスを簡素化します。Resumaker.aiは、SSL暗号化などの対策を講じて、ユーザーデータを不正アクセスから保護します。ツールのライティングガイドとレコメンデーションを使用して、競合から目立つ履歴書をデザインすることができます。ユーザーは、投稿されたポジションの要件を反映させ、自己紹介を行い、自分の資格に関する主張を裏付けるために数字を活用することができます。 Interviewsby.ai 人工知能によって駆動されるプラットフォームであるInterviewsby.aiを使用することで、求職者はインタビューに備えることができます。ユーザーに合わせた模擬面接中に、人間の言葉を認識・解釈することができる言語モデルであるChatGPTがリアルタイムのフィードバックを提供します。希望する雇用に関する情報を入力することにより、アプリケーションはユーザーに適切で現実的なインタビューの質問を生成することができます。質問を作成する機能により、ユーザーが古くなったり関係のない素材でトレーニングする可能性がなくなります。Interviewsby.aiを使用することで、ユーザーはコントロールされた環境で面接スキルを磨き、自分の強みと弱みに注目した具体的なフィードバックを即座に受けることができます。 Existential ユーザーの興味、才能、価値観を評価することで、AIにより駆動される職業探索ツールであるExistentialは、ユーザーのプロフェッショナルな道筋について具体的な提言を行います。目的は、ユーザーにとって刺激的で挑戦的で満足のいく職業を示唆することです。アプリケーションには簡単な発見プロセスがあり、理想的な仕事に関する特定の質問に答えた後、プログラムはユーザーの興味に最も合った推奨事項を提供します。コミットする前に、ユーザーはこれらの選択肢について詳しく学び、自分の目的に合うかどうかを確認することができます。Existentialは、個人が自分の運命を形作り、仕事に意味を見出すことを目指しています。 Jobscan 求職者は、人工知能(AI)によって駆動されるJobscan ATS Resume CheckerおよびJob Search Toolsを使用することで、面接を受ける可能性を高めることができます。プログラムは、求人情報と応募者の履歴書を分析し、関連する資格を分離するための独自の人工知能アルゴリズムを使用します。応募者の履歴書を分析した後、プログラムは、応募者の強みと改善の余地がある部分を詳細に説明したマッチ率レポートを生成します。Jobscan ATS Resume Checkerの助けを借りて、あなたの履歴書をApplicant Tracking Systems(ATS)に最適化し、注目される可能性を高めることができます。 Aragon 人工知能(AI)によって駆動されるプログラムであるAragon Professional Headshotsは、写真家に行かずに、ヘアメイクに時間をかけずに、修正を待たずに、洗練されたヘッドショットを撮影できるようにするツールです。ユーザーは10枚のセルフィーをアップロードし、ツールは瞬時に40枚の高精細写真を返します。さらに、アプリケーションは、AES256でデータを暗号化し、SOC 2およびISO 27001の認定を取得したサービスプロバイダーにのみデータを保存することにより、ユーザーのプライバシーを保護します。ただし、18歳未満の人は利用しないでください。これは利用規約の違反となります。…
Amazon SageMaker Data WranglerのSnowflakeへの直接接続でビジネスインサイトまでの時間を短縮してください
Amazon SageMaker Data Wranglerは、1つのビジュアルインターフェイスで、コードを書くことなく機械学習(ML)ワークフローでデータの選択とクリーニング、特徴量エンジニアリングの実行に必要な時間を週から分単位に短縮することができ、データの準備を自動化することができますSageMaker Data Wranglerは、人気のあるSnowflakeをサポートしています
データサイエンスプロジェクトでのハードコーディングをやめましょう – 代わりに設定ファイルを使用しましょう
Pythonにおいて効率的に設定ファイルとやり取りする方法
AutoML – 機械学習モデルを構築するための No Code ソリューション
はじめに AutoMLは自動機械学習としても知られています。2018年、GoogleはクラウドAutoMLを発表し、大きな関心を集め、機械学習と人工知能の分野で最も重要なツールの1つとなりました。この記事では、「Google Cloud AutoML」を使った機械学習モデルを構築するためのノーコードソリューションである「AutoML」について学びます。 AutoMLは、Google Cloud Platform上のVertex AIの一部です。Vertex AIは、クラウド上で機械学習パイプラインを構築および作成するためのエンドツーエンドソリューションです。ただし、Vertex AIの詳細については、別の記事で説明します。AutoMLは、主に転移学習とニューラルサーチアーキテクチャに依存しています。データを提供するだけで、AutoMLはユースケースに最適なカスタムモデルを構築します。 この記事では、Pythonコードを使ったGoogle Cloud Platform上でのAutoMLの利点、使用方法、実践的な実装について説明します。 学習目標 コードを使ったAutoMLの使用方法を読者に知らせること AutoMLの利点を理解すること クライアントライブラリを使用してMLパイプラインを作成する方法 この記事は、Data Science Blogathonの一部として公開されました。 問題の説明 機械学習モデルを構築することは時間がかかり、プログラミング言語の熟練度、数学と統計の良い知識、および機械学習アルゴリズムの理解などの専門知識が必要です。過去には、技術的なスキルを持つ人々だけがデータサイエンスで働き、モデルを構築できました。非技術的な人々にとっては、機械学習モデルを構築することは最も困難なタスクでした。ただし、モデルを構築した技術的な人々にとっても道のりは容易ではありませんでした。モデルを構築した後、メンテナンス、展開、および自動スケーリングには追加の努力、労働時間、およびわずかに異なるスキルセットが必要です。これらの課題を克服するために、グローバル検索大手のGoogleは、2014年にAutoMLを発表しましたが、後に一般に公開されました。 AutoMLの利点 AutoMLは手動の介入を減らし、少しの機械学習の専門知識が必要となります。…
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.