「2023年の機械学習モデルにおけるトップな合成データツール/スタートアップ」

Top synthetic data tool/startup in 2023 machine learning models

実際の出来事の結果ではなく、意図的に作成された情報は、合成データとして知られています。合成データはアルゴリズムによって生成され、機械学習モデルのトレーニング、数学モデルの検証、テストプロダクションや運用データのテストデータセットの代替として使用されます。

合成データを使用する利点は、プライベートまたは制御されたデータを使用する際の制約の緩和、正確なデータでは満たせない特定の状況にデータ要件を調整すること、DevOpsチームがソフトウェアテストや品質保証に使用するためのデータセットを生成することなどです。

元のデータセットの複雑さを完全に複製しようとする際の制約は、不一致につながる可能性があります。実用的な合成例を生成するには、正確で正確なデータが依然として必要であるため、正確なデータを完全に代替することは不可能です。

合成データの重要性

ニューラルネットワークをトレーニングするために、開発者は広範で細心の注意を払ったデータセットが必要です。AIモデルは通常、より多様なトレーニングデータを持っているほど正確です。

問題は、数千から数百万のアイテムを含むデータセットを編集し、識別するのに多くの労力がかかり、頻繁に手頃な価格ではないことです。

ここで偽のデータが登場します。AI.Reverieの共同創設者であるPaul Walborsky氏は、ラベリングサービスから6ドルかかる単一の画像を、6セントで合成的に生成できると考えています。

お金を節約することは始まりに過ぎません。Walborsky氏は、「合成データは、プライバシーの懸念や偏見を減らすため、現実世界を正確に反映するためのデータの多様性を確保することが重要です。」と述べています。

合成データセットは、時には現実のデータよりも優れている場合があります。合成データは自動的にタグ付けされ、意図的に一般的ではないが重要な特殊な状況を含めることができます。

合成データのスタートアップおよび企業のリスト

Datagen

イスラエルの企業Datagenは2018年に設立され、2,200万ドルの資金調達を行っています。そのうち1,850万ドルのシリーズAが2月に行われ、その時が同社の公式な登場の機会でした。Datagenは、人間の動きに明らかな専門知識を持ち、フォトリアリスティックな視覚シミュレーションと自然界の再現に特化しており、その特異な合成データを「シミュレートデータ」と呼んでいます。Datagenは、合成データを扱う多くの他の企業と同様に、生成的敵対的ネットワーク（GAN）というAI手法を使用しています。これは、2つのシステム間のコンピューター将棋のようなものであり、一方が架空のデータを生成し、他方が結果の真実性を評価します。Datagenは、GANを物理シミュレーターと組み合わせ、強化学習ヒューマノイドモーションテクニックとスーパーレンダリングアルゴリズムを使用しています。

Datagenは、小売業、ロボット工学、拡張現実、仮想現実、モノのインターネット、自動運転車など、様々な産業をターゲットにしています。例えば、Amazon Goの場所のような小売自動化では、コンピュータービジョンシステムが買い物客を監視して、誰もが不正行為をしないことを確認しています。

Parallel Domain

自動運転車のための環境シミュレーションは、現在最も一般的なユースケースの1つです。それがSilicon ValleyのスタートアップであるParallel Domainの主要な事業領域です。Parallel Domainは2017年に設立され、その後約1,390万ドルの資金調達を行っています。その中には、昨年末の1,100万ドルのシリーズAも含まれています。トヨタはおそらく最大の支援者および顧客です。Parallel Domainは、合成データプラットフォームを使用して自動運転車に人々を殺すことを避ける方法を教えるために、最も困難なユースケースに焦点を当てています。最近の開発では、トヨタリサーチインスティチュートとのパートナーシップにより、合成データを使用して物体の恒久性について自律システムに教えています。現在の認識システムは、Parallel Domainのおかげで一時的に消える場合でもオブジェクトを追跡できるようになりましたが、まだpeek-a-booのようなものです。さらに、同社は完全に注釈付きの合成カメラとLiDARデータセットのデータビジュアライザを一般に公開しています。同社は、自律型ドローンデリバリーや自動運転のための人工的なトレーニングデータも提供しています。

Mindtech

2017年に設立されたイギリスの企業Mindtechは、推定で650万ドルの資金調達を行っています。先月、325万ドルのシードラウンドが完了しました。有名な投資家の1つは、将来CIAなどの組織に役立つ可能性のある革新を資金提供する米国政府の組織であるIn-Q-Telです。Mindtechが開発したモジュラーツールChameleonは、フォトリアリスティックな3Dモデルを使用して無限の設定とシナリオを瞬時に作成することができます。同社によると、Chameleonは、顧客が「人間の相互作用を理解し予測する」AIシステムの開発を支援するために特別に作られています。Mindtechは、スパイ活動機関にサービスを提供するだけでなく、小売業、スマートホーム、ヘルスケア、輸送、ロボット工学などの産業にも製品およびサービスを提供しています。

合成AI

2019年に設立されたスタートアップのSynthesis AIは、4,500万ドルのシードラウンドをiRobot（IRBT）と共同で調達しました。これにより、知能化された家庭向けのロボット掃除機をさらに進化させることが期待されています。SynthesisはDatagenと同様に、CGI（コンピュータ生成イメージ）技術を用いたGANを使用して、合成ヒューマンを構築しています。同社のデビューオファリングであるFaceAPIは、企業がインテリジェントアシスタント、テレビ会議、ドライバーモニタリング、スマートフォンの顔認証など、より強力なAI顔認識モデルを作成できるようにします。Synthesis AIは、さまざまな顔のタイプを表現するために、高解像度の3D顔モデルを4万点リリースしました。

Oneview

OneViewは、2019年に設立されたイスラエルのスタートアップで、350万ドルを調達しました。同社の主な目標は、衛星写真や航空写真から地理情報を生成するAIアルゴリズムに対して人工データを提供することです。都市、空港、港湾など、地球の大部分がこれらの視点で頻繁に見られます。OneViewは、オープンソースのデータマッピングサービスであるOpenStreetMapから実際のデータを使用して合成データセットの基礎モデルを作成します。会社は単に2D画像を3Dに変換し、オブジェクト、天候、照明など、異なるシチュエーションを再現するために何度もレンダリングします。プロセスの詳細については、こちらをご覧ください。

MOSTLY AI

MOSTLY AIの市場をリードする最も正確な合成データプラットフォームにより、企業はデータにアクセスし、共有し、修正し、シミュレーションすることができます。AIの進歩により、MOSTLY AIの合成データは実際のデータと同じ外観と感触を持ち、重要な詳細レベルの情報を維持し、常に誰もが公開されないことを保証します。

YData

YDataは、データセントリックなプラットフォームを提供し、AIソリューションの作成と投資収益の向上を加速します。データサイエンティストは、最先端の合成データ生成と自動化されたデータ品質プロファイリングを使用してデータセットを向上させることができます。

Hazy

Hazyは、差分プライバシー機構を備えた高品質な合成データを提供するモデルを提供することで競合他社と差をつけています。リレーショナルデータベースでは、データは表形式、シーケンシャル形式（銀行取引などの時間依存イベントを含む）、または複数のテーブルに分散して存在する場合があります。

CVEDIA

AIソリューションの提供者であるCVEDIAは、「合成アルゴリズム」と呼ばれる、偽データを使用した既製のコンピュータビジョンアルゴリズムを作成しています。CVEDIAアルゴリズムには10以上のハードウェア、クラウド、ネットワーク展開オプションがあります。CVEDIAテクノロジーであるSynCityは、独自のシミュレーションエンジンに基づくデータサイエンスと深層学習理論を使用して作成されました。同社は製造業、航空宇宙、スマートシティ、ユーティリティ、インフラ、セキュリティ産業を対象としています。

SKY ENGINE AI

データサイエンティストがスケールでAIビジネストランスフォーメーションを実現するためのフルスタックマシンラーニングとコンピュータビジョンのデータ生成プラットフォーム。

SKY ENGINE AIプラットフォームにより、理想的でカスタマイズされたAIモデルを最初から構築し、仮想現実でトレーニングすることが可能になります。センサーやドローン、ロボットなどをSKY ENGINE AIソフトウェアを使用して仮想環境でトレーニングし、テストすることができます。

SKY ENGINE AI合成データ生成は、オブジェクト検出と認識、3D位置推定、ポーズ推定などのコンピュータビジョンアプリケーション、およびレーダー、LiDAR、衛星、X線などのマルチセンサーデータの解析など、複雑なケースにおいて、完全にバランスの取れたデータセットを提供し、データサイエンティストの生活をより簡単にします。

Edgecase.ai

Edgecase.aiは、スタートアップやフォーチュン500社と協力して、AIトレーニングのための写真や動画の生成とデータの注釈付けを行うデータファクトリーです。セキュリティ、小売り、ヘルスケア、農業、産業4.0などの分野で、最も洗練されたAIビジョンとビデオ認識アルゴリズムとAIエージェントをトレーニングするために、スケールでのデータラベリングが重要なニーズです。Edgecase.aiは、これに対処するために役立ちます。

Statice

Staticeによって作成されたモダンなデータプライバシーテクノロジーにより、企業は個人のプライバシーを保護しながらデータ駆動型イノベーションを促進することができます。Staticeのデータ匿名化プログラムのプライバシー保証により、企業はあらゆる種類のデータ統合、処理、普及に対応したプライバシー保護された合成データを生成することができます。Staticeを利用して安全に機械学習モデルをトレーニングし、データをクラウドで処理し、パートナーと共有することができます。

ANYVERSE

スペインの企業ANYVERSEは、LiDAR、画像処理、および生データを使用して、自動車セクター向けの合成データセットを作成しています。このスタートアップのソリューションにより、自動車のオリジナル装置メーカー（OEM）やサプライヤーにとって、洗練された知覚モデルのディープラーニングトレーニングがより簡単になります。

合成データモデリングは、洗練された境界条件を使用してクライアントのターゲットシステム全体を正確に合成します。さらに、これにより、GDPRに準拠したデータセットとわずかな画像バイアスが生成されます。これにより、企業はコストのかかるデータ収集手続きを削減し、素早いモデルトレーニングを実現することができます。一部のスタートアップは、顧客がデータを生成するために利用したいターゲットシステムを指定できるプラットフォームを提供しており、ユースケース固有のデータをより正確かつ簡単に利用できるようにしています。

Rendered.ai

Rendered.aiは、実世界のデータの使用または取得に比べて、機械学習および人工知能のワークフローのための無制限のカスタマイズされた合成データ生成を作成および展開するためのプラットフォームとなっています。これにより、コストを削減し、ギャップを埋め、バイアス、セキュリティ、およびプライバシーの懸念を解消することができます。

Rendered.aiは、新しいデータ生成チャネルを定義するための共同作業環境、サンプル、およびクラウドリソースを提供し、ハイパフォーマンスなコンピューティング環境でデータセットを作成し、既存の合成データセットを特徴付け、カタログ化するためのツールを提供することで、合成データの作成と利用のプロセスをビジネスニーズに近づけています。

Datomize

Datomizeを使用することで、データサイエンティストは機械学習モデルのパフォーマンスを大幅に向上させることができます。高品質なデータの不足と特徴エンジニアリングのリソース集約型プロセスが、高性能なMLモデルの作成の主な障害ですが、Datomizeはデータサイエンティストに優れた品質と多様性のデータを無制限に提供し、最先端の特徴の包括的なセットを自動的に作成します。Datomizeプラットフォームは、元のデータを非常に高品質な合成データで強化し、MLモデルのパフォーマンスを向上させる特徴を自動的に開発し、データの欠落を補完し、バイアスのないモデルを作成するための各クラスの適切な表現でデータをバランスさせ、ルールベースのデータ生成を使用して新しいシナリオをシミュレーションすることができます。

Facteus

Facteusは、貴重な金融データの洞察を提供するソースです。Facteusは、革新的な特許出願中の合成データプロセスを介して、レガシーテクノロジーからの生の金融取引データを安全に変換し、機械学習、人工知能、データモニタリングなどの戦略的なユースケースに使用できる行動可能な情報にします。同社のデータ製品は、1,000以上の金融機関、支払プロバイダ、フィンテック、デビットカードプログラムから直接収集された実際の消費者金融取引の「真実」にアクセスできるようになりました。

Gretel

Gretelは、開発者、データサイエンティスト、AI/ML研究者に安全で迅速かつ簡単なデータアクセスを提供し、精度やプライバシーを損なうことなくデータのボトルネックの問題を解決します。GretelのAPIは、開発者向けに開発されており、匿名で安全な合成データを簡単に作成できるため、プライバシーを保護し、より迅速にイノベーションすることができます。

Synthesized

Synthesizedは、高品質なデータの作成と取得を迅速かつ簡単にすることを目指しています。会社はAPIを通じて、本番データよりも優れたデータを数分で生成する最初のプラットフォームを開発しました。データは簡単なYAML設定を使用して自動化され、CI/CDワークフローに迅速に統合されるため、ソフトウェアエンジニアやデータエンジニアは必要ありません。マニュアルの設定なしに、QAチームとMLチームはソフトウェアテスト、モデルトレーニング、データ分析のための高品質なデータを素早く作成、検証、安全に共有することができます。

Syntheticus

データプライバシーとデータの有用性の間の著しい緊張関係により、公共および私的な企業は機密データの取り扱いに大きなリスクにさらされています。Syntheticusは、最先端のディープラーニングを活用して、さまざまなファイル形式の合成データを生成するソリューションを提供しています。

人工データ、データプライバシー、ディープラーニング、GDPR、ソフトウェアサービス、機械学習、人工知能（AI）、クラウドコンピューティング、プライバシーテクノロジー、HIPAA、データ分析、プライバシーシールド

Syntho

オランダのアムステルダムに本社を置くSynthoは、プライバシー強化技術（PET）の豊富なバックグラウンドを持つデータテクノロジーカンパニーです。Synthoは、プライバシーを確保しつつデータが自由に利用され、共有されるオープンデータエコノミーを実現するために、2020年に設立されました。Synthoは、プライバシーを保護しながらデータにアクセスし、妥当なプライバシー上の懸念を和らげるために、プライバシー保護合成データを提供しています。

Tonic（トニック）

Tonicは、ビジネスがソフトウェアの開発とテストに使用するために、安全で合成的なデータの複製を生成することができます。これにより、開発者はより強力になりながら、消費者のプライバシーを保護することができます。この会社は2018年に設立され、本社をアトランタとサンフランシスコに置いており、データベースのサブセット化、非識別化、合成のためのエンタープライズ技術のリーダーです。Tonicのデータは、日々医療、金融サービス、物流、教育技術、電子商取引などさまざまな分野の数千人の開発者によって使用され、より迅速なソリューションの構築に貢献しています。Tonicは、eBay、Flexport、PwCなどのクライアントと協力しながら、個人のプライバシー権を促進し、ビジネスが最高のレベルでパフォーマンスを発揮することを目指して、最先端のソリューションを開発しています。

Clearbox AI（クリアボックスAI）

Clearbox AIは、独自の技術に基づき、高品質な構造化合成データを生成するために、生成AIモデルのユニークな組み合わせを活用したEnterprise Solutionという製品を提供しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsAI StartupsAI ToolApplicationsArtificial IntelligenceEditors PickListStaffSynthetic DataTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful