Search Results 比較

スタンフォード大学、コーネル大学、オックスフォード大学の新しいAI研究は、単一の画像のわずかなインスタンスからオブジェクトの固有性を発見する生成モデルを紹介しています

バラの本質は、その独特の形状、質感、および材料組成で構成されています。これを使用して、さまざまな位置で、さまざまな形状のバラをさまざまな照明効果で作成できます。各バラが独自のピクセル値セットを持っていても、それらを同じクラスのメンバーとして識別できます。 Stanford、Oxford、およびCornell Techの研究者たちは、単一の写真からのデータを使用して、異なる視点と照明から新しい形状と画像を生成できるモデルを作成することを望んでいます。この問題を解決するためには、3つの障壁があります: トレーニングデータセットには1枚の画像しかなく、数百のインスタンスしかありません。これらの数少ない状況には、幅広い可能なピクセル値があります。これは、姿勢も照明条件も記録されていないか、または不明であるためです。どのバラも同じではなく、形状、質感、材料の分布をキャプチャする必要があります。したがって、推論されるオブジェクト固有量は確定的ではなく、確率的です。これは、静的なオブジェクトやシーンに対する現在のマルチビュー再構成またはニューラルレンダリングアプローチと比較して、重要な変更です。提案されたアプローチは、モデル作成にバイアスを誘導するためにオブジェクト固有量を出発点としています。これらのルールには2つの部分があります：提示されるインスタンスはすべて、同じオブジェクト固有量またはジオメトリ、質感、材料の分布を持つ必要があります。固有の特性は、レンダリングエンジンによって定義され、最終的には物理世界によって定義された特定の方法で相互に関連しています。より具体的には、彼らのモデルは、単一の入力画像を取り、インスタンスマスクのコレクションとインスタンスの特定のポーズ分布を使用して、オブジェクトの3D形状、表面反射率、および艶の分布のニューラル表現を学習し、姿勢と照明の変動の影響を排除します。この物理的に基礎づけられた明示的な分離は、彼らのインスタンスの簡単な説明を支援します。モデルは、単一の画像によって提供される疎な観測に過剰適合することなく、オブジェクト固有量を取得することができます。研究者たちが言及するように、その結果得られたモデルによって、多くの異なる用途が可能になります。たとえば、学習されたオブジェクト固有量からランダムにサンプリングすることで、異なるアイデンティティを持つ新しいインスタンスを生成できます。外部要素を調整して、新しいカメラ角度や照明セットアップで合成インスタンスを再レンダリングすることができます。チームは、モデルの改良された形状再構成と生成性能、革新的なビュー合成、およびリライト性能を示すために、徹底的なテストを実施しました。

人工知能は人間を置き換えるのか？

はじめに皆さんはご存知のとおり、AIは飛躍的な進歩を遂げ、科学者や一般の人々の想像をとらえています。ニュースやソーシャルメディアには、驚くべきAI技術の進歩が溢れています。自動運転車が道を走り、声によるアシスタントが私たちの呼びかけに応え、洗練されたアルゴリズムが私たちの生活を革新しています。それは信じられないほどのことです！これらは以前は夢に過ぎなかったことで、私たちが予想していたよりも早く現実に追いついたものです。今、この驚くべき進歩の中で、考えさせられる疑問が浮かび上がります。AIが人間の役割を置き換える世界の瀬戸際にいるのでしょうか？人工知能は人類最後の発明になるのでしょうか？ Jermey Howard 心配しないでください、まだ結論を急ぐ必要はありません。私たちはこの魅力的なトピックの深みを探求し、将来が何をもたらすかを明らかにするためにここにいます。出典：Pixabay 歴史を通じて、私たちは働き方を変える技術的な驚異を目撃してきました。確かに、過去には機械や自動化が特定のタスクを置き換えましたが、それらは新しい産業や職種が芽生える道を開いたことでもあります。それは、私たちが以前に想像できなかったエキサイティングな仕事の機会を創出する革新と適応のサイクルです。だから、私たちは心を開いて、未来に新しい可能性に向けて飛躍しましょう。しかし、この興味深い話題に飛び込む前に、私たちはあなたに素晴らしい機会を提供したいと思います。データサイエンスやAIに熱心なすべての人々に、高い期待を寄せられているDataHack Summit 2023に参加するようお誘いします。8月2日から5日まで、バンガロールの名門NIMHANSコンベンションセンターで開催されます。このイベントは、実践的な学習、貴重な業界の見識、そして抜群のネットワーキングの機会に満ちた、爆発的なイベントです。このようなトピックが興味を引く場合、DataHack Summit 2023の情報をここでチェックしてください。古代から現代まで昔は、人々はすべて自分でやらなければなりませんでした。食料を狩ったり、住居を建てたりすることは、すべて自分たちの身体労働と技能に頼っていました。しかし、産業革命やモーター革命が起こり、ゲームは完全に変わりました。自動化が現実のものになるにつれ、人間が行っていた繰り返しの、肉体的に要求の厳しいタスクを、機械が担うようになりました。そして、それらの機械は私たちがこれまで以上に素早く、効率的にタスクを実行することができました。その結果、生産性が大幅に向上し、新しい機会の世界が開けました。機械がこれらのタスクを担うようになると、人間は違った役割を担うようになりました。彼らはこれらの素晴らしい機械のオペレーターやメンテナンス担当者になりました。それはWin-Winの状況でした。自動化は、物事をより効率的にするだけでなく、人々に新しい仕事を創出しました。それは経済に注射されたアドレナリンのようで、成長と革新を促進しました。芸術と革新の融合 AIは非常に驚くべきものです。数値を処理し、データを処理し、ビジネスタスクを自動化することができます。しかし、創造性や革新の世界になると、そこが人間が常に優位に立っているところです。芸術の美しさ、文学の感情、科学の画期的なアイデアを考えてみてください。それらは私たち人間だけが考え出せる特別なものとして見られています。しかし、AIはこれらの分野で私たちの創造力に本当に対抗できるのでしょうか？出典：Freepik また読む：ニュース記事 – グラミー賞がAIを禁止：人間のクリエイターが中心に AIは確かに驚くべきスキルを発揮しています。芸術的なスタイルを再現したり、音楽を作曲したり、詩を書いたり、絵画を作ったりすることができます。まるで私たちのそばにAIアーティストやミュージシャンがいるかのようです。しかし、ここでの問題は、これらのAIによる創造物がどれだけ素晴らしいものであっても、真の人間的なタッチが欠けていることです。感情の深さや、私たち人間が作品に注ぎ込む実生活の経験などが欠けているのです。それが私たちの創造物を深遠で意義深いものにしているのです。…

Video-ControlNetを紹介します：コントロール可能なビデオ生成の未来を形作る革新的なテキストからビデオへの拡散モデル

近年、テキストベースのビジュアルコンテンツ生成が急速に発展しています。大規模なイメージテキストペアでトレーニングされた現在のテキストから画像へ（T2I）の拡散モデルは、ユーザーが提供したテキストプロンプトに基づいて高品質な画像を生成する驚異的な能力を発揮しています。画像生成の成功は、ビデオ生成にも拡張されています。いくつかの方法は、T2Iモデルをワンショットまたはゼロショットの方法でビデオを生成するために利用していますが、これらのモデルから生成されたビデオはまだ一貫性がないか、バラエティに欠けています。ビデオデータをスケーリングアップすることで、テキストからビデオ（T2V）の拡散モデルを使用すると、生成されたコンテンツに制御がかかる一貫したビデオを作成できます。ただし、これらのモデルは、生成されたコンテンツの制御ができないビデオを生成します。最近の研究では、深度マップを制御できるT2V拡散モデルが提案されています。ただし、一貫性と高品質を実現するには大規模なデータセットが必要で、リソースに優しくありません。また、T2V拡散モデルは、一貫性、任意の長さ、多様性を持つビデオを生成することはまだ難しいとされています。これらの問題に対処するために、制御可能なT2VモデルであるVideo-ControlNetが導入されました。Video-ControlNetには、以下の利点があります。モーションプライオリティと制御マップを使用することで一貫性が向上し、最初のフレームの条件付け戦略を採用することで任意の長さのビデオを生成することができ、画像からビデオへの知識移行によるドメイン汎化、限られたバッチサイズを使用してより速い収束でリソース効率が向上します。 Video-ControlNetのアーキテクチャは、以下の通りです。目的は、テキストと参照制御マップに基づいてビデオを生成することです。そのため、生成モデルは、事前にトレーニングされた制御可能なT2Iモデルを再編成し、追加のトレーニング可能な時間層を組み込み、フレーム間の細かい相互作用を促進する空間・時間自己注意メカニズムを提示することで開発されました。このアプローチにより、広範なトレーニングがなくても、コンテンツに一貫性のあるビデオを作成できます。ビデオ構造の一貫性を確保するために、著者らは、ノイズ初期化段階でノイズ除去プロセスにソースビデオのモーションプライオリティを組み込む先駆的なアプローチを提案しています。モーションプライオリティと制御マップを活用することで、Video-ControlNetは、マルチステップのノイズ除去プロセスの性質による他のモーションベースの方法のエラー伝搬を避けながら、フリッカリングが少なく、入力ビデオのモーション変化に近くなるビデオを生成することができます。さらに、以前の方法が直接ビデオ全体を生成するようにモデルをトレーニングするのに対して、この研究では、初期フレームに基づいてビデオを生成する革新的なトレーニングスキームが導入されています。このような簡単で効果的な戦略により、コンテンツと時間的学習を分離することがより簡単になります。前者は最初のフレームとテキストプロンプトで提示され、モデルは、後続フレームの生成方法のみを学習する必要があります。これにより、ビデオデータの需要が軽減され、画像領域から生成能力を継承することができます。推論中、最初のフレームは、最初のフレームの制御マップとテキストプロンプトによって条件付けられて生成されます。その後、最初のフレーム、テキスト、および後続の制御マップによって条件付けられた後続フレームが生成されます。また、このような戦略の別の利点は、モデルが前のイテレーションの最後のフレームを初期フレームとして扱い、無限に長いビデオを自動的に生成できることです。これがどのように機能するかを説明し、著者によって報告された結果と最先端のアプローチとの比較を含む制限されたサンプル結果が以下の図に示されています。これはVideo-ControlNetの概要であり、最新の品質と時間的一貫性を備えたT2V生成のための新しい拡散モデルです。もし興味があれば、以下のリンクでこの技術について詳しく学ぶことができます。

グラフの復活：グラフの年ニュースレター2023年春

今日のナレッジグラフ、グラフデータベース、グラフアナリティクス、グラフAIの現在地と今後の方向性に関するニュースと分析を見つける

TensorFlowを使用して責任あるAIを構築する方法は？

イントロダクション人工知能（AI）は、今週リリースされる新しいAIアプリ、機能、プラットフォームが数百あるほど、前例のない勢いで急速に発展しています。AIが発展する速度につれて、技術の安全性を確保することがますます重要になってきています。これが責任あるAIが登場する理由です。責任あるAIとは、倫理、透明性、責任を遵守し、AIシステムの持続可能な開発と利用を指します。AI企業はそれぞれ独自のルールやチェックリストを持っていますが、TensorFlowやMicrosoftのようなプラットフォームは、誰でもAIを責任あるものにするために使用できるツールのセットを提供しています。この記事では、各機械学習モデル展開フェーズで使用される、最も重要なTensorFlowツールを紹介しています。学習目標： TensorFlowが、広範なツールとリソースを提供することで、責任あるAIアプリケーションの構築にどのように貢献するか理解する。機械学習モデル展開の異なるフェーズについて学ぶ。機械学習モデル展開プロセスの各フェーズでTensorFlowが提供するさまざまなツールを探索する。責任あるAIとは？責任あるAIとは、プライバシー、公正性、安全性、持続可能性などの社会的価値に合致するように、倫理的、透明的、責任を持って人工知能（AI）システムを開発および使用することを指します。責任あるAIは、AIシステムが社会全体の利益になるように設計および使用され、有害な影響を与えたり、バイアスを増幅することを防ぐことができます。責任あるAIの主要な原則には、透明性、責任、公正性、プライバシー、安全性、持続可能性が含まれます。開発者は、AIシステムの設計、開発、展開、および継続的な監視のすべての段階でこれらの原則を適用することができます。今日は、TensorFlowを使って責任あるAIアプリケーションを構築する方法について探求します。 TensorFlowと責任あるAIへの貢献 TensorFlowは、機械学習モデルの構築および展開のためのオープンソースプラットフォームです。Googleによって開発されたTensorFlowは、画像認識、音声認識、自然言語処理、予測分析など、さまざまなドメインでAIアプリケーションを作成するためのさまざまなツールとリソースを提供しています。オープンソースであるため、TensorFlowは透明性と解釈可能性の2つの重要な要素を持っています。さらに、このプラットフォームは、責任あるAIアプリケーションを構築するためのツールとガイドラインをリリースしています。ここでは、機械学習モデル展開のさまざまなフェーズで使用されるいくつかの有用なツールを探索してみましょう。フェーズ1：問題の定義 TensorFlowには、問題定義フェーズのためのツールセットがあります。PAIR（People + AI Research）ガイドブックやPAIR Explorablesは、AIアプリケーションを計画する際に役立ちます。TensorFlowのガイドラインには、データセットの選択、モデルの選択、およびモデルのパフォーマンス評価の戦略が含まれています。これらのガイドラインに従うことで、AIアプリケーションを正確で信頼性があり、効果的にすることができます。 PAIRガイドブックは、ユーザーのニーズと価値に合わせて設計されたAI製品の包括的なガイダンスを提供しています。PAIR Explorablesは、機械学習アルゴリズムや公正性に関連する複雑なトピックなど、責任あるAIに関連する複雑なトピックを探求するためのインタラクティブなブログです。フェーズ2：データ収集と準備機械学習の第二フェーズは、データの収集と準備です。TensorFlowには、このフェーズを容易にするためのいくつかのツールがあります。 TensorFlowデータバリデーション（TFDV）…

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

世界的に有名なオープンソース言語モデル（LLMs）プロバイダーであるMosaicMLは、最新世代のNVIDIA H100アクセラレータを搭載した画期的なMPT-30Bモデル、すなわちBase、Instruct、Chatを発表しました。これらの最新鋭モデルは、元のGPT-3に比べて品質が大幅に向上しています。また読む： Large Language Models（LLMs）とは何ですか？ MPT-7Bの前例のない成功とMPT-30Bへの進化 2023年5月のリリース以来、MPT-7Bモデルは、330万ダウンロードという驚異的な数字を叩き出し、業界を席巻しています。この成功を更に広げるため、MosaicMLは、非常に期待されていたMPT-30Bモデルをリリースしました。これにより、様々なアプリケーションで新しい可能性が開け、更なる高みに到達しました。 MPT-30Bの無比な機能 MPT-30Bの最も注目すべき成果の1つは、たった30億のパラメータで、GPT-3の175億のうちの一部を使用して、GPT-3を超える品質を実現することができたことです。この画期的なパラメータ数の削減により、MPT-30Bは、ローカルハードウェアの導入にもよりアクセスしやすくなり、推論のコストも大幅に削減されます。さらに、MPT-30Bをベースにしたカスタムモデルのトレーニングに関連する費用は、オリジナルのGPT-3をトレーニングする見積もりよりも明らかに低くなっており、企業にとって魅力的な選択肢となっています。もっと詳しく知る：実際のユースケースに向けたGPT3の大規模言語モデルのカスタマイズさらに、MPT-30Bのトレーニングには、最大8,000トークンの長いシーケンスが含まれており、データ重視のエンタープライズアプリケーションを処理できるようになっています。これは、NVIDIAのH100 GPUを利用して、優れたスループットと高速なトレーニング時間を実現しています。また読む：中国の強力なNvidia AIチップの隠された市場 MPT-30Bの無限のアプリケーションを探る多くのビジョンを持った企業が、MosaicMLのMPTモデルを活用し、AIアプリケーションを革新しています。先進的なWebベースのIDEであるReplitは、MosaicMLのトレーニングプラットフォームを活用して、優れたコード生成モデルを構築することに成功しました。Replitは、独自のデータを活用することで、コードの品質、スピード、コスト効率を著しく向上させました。チャットボットの開発に特化した革新的なAIスタートアップであるScatter Labは、MosaicMLの技術を活用して独自のMPTモデルをトレーニングしました。その結果、英語と韓国語の両方を理解できる多言語の生成AIモデルが作成され、広範なユーザーベースのチャット体験を大幅に向上させました。世界的に有名な旅行費用管理ソフトウェア会社であるNavanは、MPTが提供する堅牢な基盤を活用して、バーチャルトラベルエージェントや会話型ビジネスインテリジェンスエージェントなどの最新アプリケーションにカスタマイズされたLLMsを開発しています。Navanの共同創設者兼CTOであるIlan Twig氏は、MosaicMLの基礎モデルが、際立った効率性とスケールでの推論を提供すると同時に、非常に優れた言語能力を提供していると熱狂的に称賛しています。もっと詳しく知る：AIの力を活用するビジネスリーダーには、DataHack Summit…

Microsoft AIは、バッチサイズや帯域幅の制限に阻まれることなく、効率的な大規模モデルのトレーニングにZeROを搭載した高度な通信最適化戦略を導入しています

マイクロソフトの研究者たちは、高いデータ転送オーバーヘッドと帯域幅の制限に対処するために、大規模なAIモデルのトレーニングを最適化するためにZeRO++という新しいシステムを開発しました。ZeRO++は既存のZeROの最適化を基盤にし、トレーニング効率を向上させ、トレーニング時間とコストを削減するために強化された通信戦略を提供します。 Turing-NLG、ChatGPT、GPT-4などの大規模なモデルのトレーニングには、複数のGPUデバイスを跨いで大量のメモリとコンピューティングリソースが必要です。DeepSpeedによって開発されたZeRO++は、GPUごとの小規模なバッチサイズまたは低帯域幅クラスタでのトレーニングのシナリオにおいて、ZeROの制限を克服するために通信最適化戦略を導入しています。 ZeRO-Inferenceを含むZeRO最適化のファミリーは、GPUメモリとコンピューティングパワーを集約してモデル状態をGPU間でパーティション化することで、複製ではなくパーティション化を実現します。ただし、ZeROはトレーニング中に高い通信オーバーヘッドを引き起こす場合があります。ZeRO++は、量子化された重み通信(qwZ)、階層的重みパーティション(hpZ)、および量子化勾配通信(qgZ)の3つのセットの通信最適化を組み込むことにより、これに対処します。通信量を減らすために、ZeRO++は重みの量子化によって、訓練精度を保持するためのブロックベースの量子化を利用します。この最適化された量子化プロセスは、基本的な量子化よりも高速で正確です。逆伝搬中の通信オーバーヘッドを最小限に抑えるために、ZeRO++は、各マシン内で完全なモデルコピーを維持することによって、GPUメモリを通信に交換します。勾配通信については、ZeRO++は、クロスノードトラフィックとレイテンシを減らす新しい量子化勾配通信パラダイムqgZを導入しています。これらの通信最適化により、通信量が大幅に削減されます。ZeRO++は、ZeROと比較して最大4倍の削減を実現し、トレーニングのスループットと効率を向上させます。ZeRO++は、GPUごとの小規模なバッチサイズを使用する場合に、高帯域幅クラスタでZeRO-3に比べて28%〜36%のスループット向上を実現します。ZeRO++は、ZeRO-3に比べて低帯域幅クラスタで平均2倍のスピードアップを達成し、AIのさまざまなクラスタで大規模なモデルのトレーニングをよりアクセス可能にします。 ZeRO++はトレーニングシナリオに限定されず、対話モデルで使用される人間からのフィードバック(RLHF)トレーニングにも拡張されます。DeepSpeed-Chatと統合することで、RLHFトレーニングは、ZeROに比べて最大2.25倍の生成スループットと1.26倍のトレーニングスループットの向上を実現できます。 DeepSpeedは、大規模なモデルのトレーニングを効率的かつアクセス可能にするためにZeRO++をリリースしました。このシステムは、トレーニングを加速し、通信オーバーヘッドを削減し、より大きなバッチサイズを可能にするように設計されており、最終的に時間とリソースを節約します。研究者や実践者は、ChatGPTなどのモデルのトレーニングをより効果的に行い、AIの新たな可能性を探索するためにZeRO++を活用できます。

テキストから画像合成を革新する：UCバークレーの研究者たちは、強化された空間的および常識的推論のために、大規模言語モデルを2段階の生成プロセスで利用しています

テキストから画像を生成する最近の進歩により、高度に現実的で多様な画像を合成できる拡散モデルが登場しました。しかし、その印象的な能力にもかかわらず、Stable Diffusionのような拡散モデルは、空間的または常識的推論を必要とするプロンプトに支援が必要であり、生成された画像に不正確さが生じることがあります。この課題に対処するため、UCバークレーとUCSFの研究チームは、テキストから画像を生成する際のプロンプト理解を向上させる革新的なLMD接地拡散（LMD）手法を提案しました。彼らは、否定、数値、属性割り当て、空間関係を含むシナリオを特定し、Stable Diffusionに比べてLMDの短所を明らかにしました。研究者たちは、大規模言語モデル（LLM）と拡散モデルのトレーニングにかかるコストと時間を避けるコスト効率の高い解決策を採用しました。彼らは、オフ・ザ・シェルフの凍結LLMを拡散モデルに統合し、拡散モデルにより強化された空間的および常識的推論能力を提供する2段階の生成プロセスを実現しました。第1段階では、LLMはコンテキスト学習を通じてテキストによるレイアウトジェネレーターとして機能するように適応されます。画像のプロンプトが与えられると、LLMはバウンディングボックスとそれに対応する説明から構成されるシーンレイアウトを生成します。第2段階では、生成されたレイアウトによって拡散モデルが誘導され、画像を生成します。両段階で、LLMまたは拡散モデルのパラメータ最適化なしに凍結された事前トレーニングモデルが使用されます。 LMDには、プロンプト理解を改善する以外にも、いくつかの利点があります。ダイアログベースのマルチラウンドシーン指定を可能にし、ユーザーが各プロンプトに対して追加の説明や修正を提供できるようにします。さらに、LMDは、基礎となる拡散モデルでサポートされていない言語のプロンプトを処理できます。マルチラウンドのダイアログをサポートするLLMを組み込むことで、初期のレイアウト生成後にLLMにクエリを送信し、追加の画像生成のための更新されたレイアウトを受け取ることができます。これにより、オブジェクトの追加や場所や説明の変更などの要求が容易になります。さらに、LMDは、コンテキスト学習中に英語のレイアウトと背景説明とともに非英語のプロンプトの例を提供することで、非英語のプロンプトを受け入れることができます。これにより、与えられた言語に対応するサポートがない場合でも、LMDは英語の説明を持つレイアウトを生成できます。研究者たちは、LMDが利用する基本的な拡散モデルであるStable Diffusion 2.1と比較することで、LMDの優越性を検証しました。より包括的な評価とさらなる比較については、彼らの研究を探索するように読者を招待しています。要約すると、LMDは、空間的または常識的推論を必要とするプロンプトに正確に従うための拡散モデルの制限に対処する革新的なアプローチを提供します。凍結LLMを組み込み、2段階の生成プロセスを採用することで、LMDはテキストから画像を生成するタスクにおけるプロンプト理解を大幅に強化します。また、ダイアログベースのシーン指定やサポートされていない言語のプロンプトの処理など、追加の機能を提供します。研究チームの業績は、オフ・ザ・シェルフの凍結モデルを統合することで、合成された画像の正確性と多様性を向上させるための新しい可能性を開くものです。

データエンジニアが本当にやっていること？

データ主導の世界では、データエンジニアのような裏方のヒーローたちは、スムーズなデータフローを確保するために重要な役割を果たしています。突然不適切なおすすめを受け取ったオンラインショッパーを想像してみてください。データエンジニアは問題を調査し、電子商取引プラットフォームのデータファンネルに欠陥があることを特定し、スムーズなデータパイプラインを迅速に実装します。データサイエンティストやアナリストに注目が集まる一方で、データエンジニアの執念深い努力によって、組織内の情報に基づく意思決定に必要なアクセスしやすく、よく準備されたデータが保証されています。データエンジニアは具体的に何をするのでしょうか？彼らはどのようにビジネスの成功に貢献しているのでしょうか？彼らの世界に飛び込んで、データエンジニアの職務内容、役割、責任、そしてあなたの燃えるような疑問に答えましょう。データエンジニアの職務内容データエンジニアは、生データを貴重な洞察に変換し、ビジネスアナリストやデータサイエンティストが活用できるように、データを収集、管理、変換することで重要な役割を果たします。彼らの主な目的は、データのアクセシビリティを確保し、企業がパフォーマンスを最適化し、情報に基づいた意思決定を行うことを可能にすることです。彼らはアルゴリズムを設計し、統計を分析し、ビジネス目標に応じてデータシステムを整合させ、効率を最大化します。データエンジニアには強力な分析スキル、多様なソースからデータを統合する能力、プログラミング言語の熟練度、および機械学習技術の知識が必要です。データエンジニアの職務内容は広範であり、組織のデータ主導の成功に貢献する多くの役割と責任を包括しています。データエンジニアの役割と責任データエンジニアの役割と責任は、要件に基づいて会社によって異なる場合があります。ただし、一般的なデータエンジニアの責任には、以下が含まれます：完璧なデータパイプライン設計の開発および維持。手動操作の自動化、データ配信の改善、スケーラビリティの向上のためのインフラ再設計など、内部プロセスの改善を特定し、計画し、実行する。 SQLおよびAWSビッグデータ技術を利用して、幅広いデータソースからの効果的なデータ抽出、変換、およびロードに必要なインフラの作成。機能的および非機能的なビジネス目標を満たす膨大で複雑なデータセットの作成。データファンネルを利用した分析ソリューションの構築により、新しい顧客獲得、業務効率改善、およびその他の重要な企業パフォーマンス指標に対する具体的な洞察を提供する。エグゼクティブ、プロダクト、データ、およびデザインチームなどのステークホルダーがデータインフラ関連の課題に直面した場合に、彼らのデータインフラ要件を満たすために支援する。複数のデータセンターやAWSリージョンを利用することで、国際境界を越えたデータのプライバシーとセキュリティを維持する。データおよび分析プロフェッショナルと協力して、データシステムの運用を改善する。さらに読む：ジョブ比較-データサイエンティストvsデータエンジニアvs統計学者データエンジニアに必要なスキルデータエンジニアになりたい場合、ある程度の技術的およびソフトスキルに精通している必要があります。技術的スキル自分たちの役割で優れた成果を出すために、データエンジニアは以下の技術的スキルを持っている必要があります。コーディング Python、Java、SQL、NoSQL、Ruby、Perl、MatLab、R、SAS、C and C++、Scala、Golangなどのプログラミング言語の熟練度は、ほとんどの企業で高く評価されます。コーディングの堅牢な基盤は、データエンジニアのポジションにおいて不可欠です。オペレーティングシステムの理解データエンジニアは、Microsoft…

LinkedInとUCバークレーの研究者らは、AIによって生成されたプロフィール写真を検出する新しい方法を提案しています

人工知能（AI）による合成やテキストから画像生成されたメディアの普及とともに、偽プロフィールの洗練度が高まっています。LinkedInはUC Berkeleyと提携して、最先端の検出方法を研究しています。彼らの最近の検出方法は、人工的に生成されたプロフィール写真を99.6％の確率で正確に識別し、本物の写真を偽物として誤認識する割合はわずか1％です。この問題を調査するには2種類の法科学的方法が使用できます。仮説に基づく方法は、合成的に作られた顔の異常を見つけることができます。この方法は、明白な意味の外れ者を学習することで利益を得ます。しかし、学習可能な合成エンジンは既にこれらの機能を持っているようです。機械学習などのデータ駆動型の方法は、自然な顔とCGIの顔を区別することができます。訓練システムに専門外の画像が提示されると、分類に苦労することはよくあります。提案された手法は、まずコンピュータ生成の顔に固有の幾何学的属性を特定し、それを測定および検出するためにデータ駆動型の方法を使用するハイブリッドアプローチを採用しています。この方法は、軽量で素早く訓練可能な分類器を使用し、小さな合成顔のセットで訓練が必要です。5つの異なる合成エンジンを使用して、41,500の合成顔を作成し、追加のデータとして100,000のLinkedInプロフィール画像を使用しています。公開されている実際のLinkedInプロフィール写真が合成生成された（StyleGAN2）顔とどのように比較されるかを見るために、彼らはそれぞれ平均400枚を並べて比較しました。人々の実際の写真は非常に異なっているため、ほとんどのプロフィール写真は一般的なヘッドショットにすぎません。一方、一般的なStyleGAN顔は非常に明確な特徴と鋭い目を持っています。これは、StyleGAN顔の眼底位置と眼間距離が標準化されているためです。実際のプロフィール写真は通常、上半身や肩に焦点を当てていますが、StyleGAN顔は首から上に合成される傾向があります。彼らは社会グループ内外の類似点と相違点を利用することを望んでいました。 FaceForensics++データセット内のディープフェイク顔交換を識別するために、研究者は1クラス変分オートエンコーダ（VAE）と基準1クラスオートエンコーダを組み合わせました。フェイススワップのディープフェイクに焦点を当てた過去の研究とは異なり、この研究では合成顔（例：StyleGAN）に重点が置かれています。研究者たちは、比較的少数の合成画像に対して非常に単純で訓練しやすい分類器も使用し、全体的な分類性能を同等に達成しています。 Generated.photosとStable Diffusionで生成された画像を使用して、モデルの汎化能力を評価します。生成的対抗ネットワーク（GAN）を使用して生成されたGenerated.photos顔は、比較的一般的な使用が可能であり、安定した拡散顔はそうではありません。 TPRは「真陽性率」を表し、偽の画像が正しく識別された割合を測定します。FPRを計算するには、偽のラベル付けがされた本物の画像の数を取ります。この研究の結果、提案された方法は、本物のLinkedInプロフィール写真のわずか1％（FPR）を偽物として正確に識別し、合成されたStyleGAN、StyleGAN2、およびStyleGAN3顔を99.6％（TPR）正しく識別します。研究チームによると、この方法は切り抜き攻撃によって簡単に破られる可能性があり、これは大きな欠点です。StyleGANで生成された画像は既に顔の周りが切り取られているため、この攻撃によって異常なプロフィール写真が生成される可能性があります。彼らは高度な技術を使用し、スケールとトランスレーション不変表現を学習できるかもしれないと計画しています。

Learn more about Search Results 比較 - Page 253