Learn more about Search Results MarkTechPost - Page 152

Eleuther AI Research Groupが、Classifier-free Guidance(CFG)がLLMsとどのように組み合わされるかを実証しました

最近、巨大な言語モデルは印象的な生成能力を示し、様々な問題に対応することができるようになりました。通常、タスクの指示や文脈、または少数のサンプルを使用して、生成を条件付けるために「プロンプティング」が使用されます。しかし、小さなモデルでは特に、幻覚、劣化、迷走などの問題が言語生成において観察されています。この問題に対処するために、指示の微調整や強化学習などのいくつかの解決策が提案されています。しかし、高いコンピューティングとデータの要件のため、これらの方法を利用できるのはすべてのユーザーではありません。 EleutherAIの研究グループは、プロンプトの形でユーザーの宣言された意図により大きな重みを置く推論アプローチを提案しています。彼らの最近の研究では、推論時にプロンプトにより重みを加えることで、生成の一貫性を改善することを提案しています。 テキストから画像への生成でも同じ問題が存在することが示されています。通常の推論手法では、珍しいまたは特殊な刺激に対して重要な詳細を見落とす場合があります。出力画像に所望の特性を促すために別個の分類器を使用することが提案され、拡散モデルの生成品質が向上するとされています。後に、分類器を完全に廃止し、代わりに生成モデルを暗黙の分類器として使用するClassifier-Free Guidance (CFG) が開発されました。 テキストから画像生成の成功から着想を得て、研究者たちはCFGを単一モーダルのテキスト生成に使用するために改変し、モデルの入力に適合させることを示しています。研究では、テキスト生成ではCFGをそのまま使用できる一方、テキストから画像を生成するモデル(主に拡散モデルを使用する)はCFGを活用するために条件付きドロップアウトをトレーニングする必要があることを示しています。この研究は、シンプルな一回のプロンプトから複雑なチャットボットスタイルのプロンプトまで、さまざまなプロンプティング手法におけるアライメントの向上にCFGを使用する方法を示しています。 研究者たちはCFGを言語モデリングに適用する方法論を開発し、業界標準のベンチマークで大幅な改善を実証しています。基本的なプロンプト、チェーンプロンプティング、長文プロンプティング、チャットボットスタイルのプロンプティングは、これらのベンチマークによって捉えられます。具体的には、LLaMA-7BはPaLM-540Bを上回り、LAMBADAでSOTAとなる方法を可能にします。 LMのロジット分布を変更しようとする推論手法のコレクションが増えていますが、この研究はそれらにうまく適合しています。結果は、CFGの倍増した推論FLOPが、モデルの性能をおおよそ2倍にすることを示しています。これにより、より複雑で実行コストの低いモデルを、よりパワフルではないハードウェア上で実行するための道が開かれます。 ネガティブなプロンプトを使用することで、CFGのどの特徴を強調するかをより細かく制御することができます。結果は、75%の人がGPTを標準のサンプル方法よりも好むことを示しています。

今日、開発者の70%がAIを受け入れています:現在のテックの環境での大型言語モデル、LangChain、およびベクトルデータベースの台頭について探求する

人工知能には無限の可能性があります。それは、新しいリリースや開発によって明らかになっています。OpenAIが開発した最新のチャットボットであるChatGPTのリリースにより、AIの領域はGPTのトランスフォーマーアーキテクチャのおかげで常に注目を浴びています。ディープラーニング、自然言語処理(NLP)、自然言語理解(NLU)からコンピュータビジョンまで、AIは無限のイノベーションをもたらす未来へと皆を推進しています。ほぼすべての産業がAIの潜在能力を活用し、自己革新を遂げています。特に大規模言語モデル(LLMs)、LangChain、およびベクトルデータベースの領域での優れた技術的進歩がこの素晴らしい発展の原動力です。 大規模言語モデル 大規模言語モデル(LLMs)の開発は、人工知能における大きな進歩を表しています。これらのディープラーニングベースのモデルは、自然言語を処理し理解する際に印象的な正確さと流暢さを示します。LLMsは、書籍、ジャーナル、Webページなど、さまざまなソースからの大量のテキストデータを使用してトレーニングされます。言語を学ぶ過程で、LLMsは言語の構造、パターン、および意味的な関連性を理解するのに役立ちます。 LLMsの基本的なアーキテクチャは通常、複数の層からなるディープニューラルネットワークです。このネットワークは、トレーニングデータで発見されたパターンと接続に基づいて、入力テキストを分析し予測を行います。トレーニングフェーズ中にモデルの期待される出力と意図された出力の不一致を減少させるために、モデルのパラメータは調整されます。LLMは、トレーニング中にテキストデータを消費し、文脈に応じて次の単語または単語のシリーズを予測しようとします。 LLMsの使用方法 質問への回答:LLMsは質問に回答するのが得意であり、正確で簡潔な回答を提供するために、本や論文、ウェブサイトなどの大量のテキストを検索します。 コンテンツ生成 – LLMsは、コンテンツ生成に活用されることが証明されています。彼らは、文法的に正しい一貫した記事、ブログエントリ、および他の文章を生成する能力を持っています。 テキスト要約:LLMsはテキスト要約に優れており、長いテキストを短く、より理解しやすい要約にまとめることができます。 チャットボット – LLMsは、チャットボットや対話型AIを使用したシステムの開発に頻繁に使用されます。これらのシステムは、質問を理解し適切に応答し、対話全体で文脈を保持することで、ユーザーと自然な言語で対話することができます。 言語翻訳 – LLMsは、言語の壁を乗り越えて成功したコミュニケーションを可能にするため、テキストの正確な翻訳が可能です。 LLMのトレーニングの手順 LLMのトレーニングの最初の段階は、モデルが言語のパターンや構造を発見するために使用する大規模なテキストデータセットを編集することです。 データセットが収集されたら、トレーニングのためにそれを準備するために前処理が必要です。これには、不要なエントリを削除することによるデータのクリーニングが含まれます。 LLMをトレーニングするために適切なモデルアーキテクチャを選択することは重要です。トランスフォーマベースのアーキテクチャは、GPTモデルを含む自然言語の処理と生成に非常に効率的であることが示されています。 モデルのパラメータを調整してLLMをトレーニングし、バックプロパゲーションなどのディープラーニング手法を使用してその精度を向上させます。モデルはトレーニング中に入力データを処理し、認識されたパターンに基づいて予測を行います。 初期のトレーニング後、LLMは特定のタスクやドメインでさらに微調整され、それらの領域でのパフォーマンスが向上します。 トレーニングされたLLMのパフォーマンスを評価し、モデルのパフォーマンスを評価するためのパープレキシティや精度などの複数のメトリクスを使用して、その効果を決定することが重要です。 トレーニングと評価が完了したLLMは、実際のアプリケーションのためのプロダクション環境で使用されます。…

マイクロソフトの研究者たちは、ラベル付きトレーニングデータを使用せずにパレート最適な自己監督を用いたLLMキャリブレーションの新しいフレームワークを提案しています

最近の進展により、大規模言語モデル(LLM)の能力が著しく向上しており、生成事前トランスフォーマー(GPT)モデルは大きな可能性を示しています。GPT-3からGPT-4への移行や、PaLMやLLaMAといった他のLLMの登場により、問題解決能力や自然言語理解能力が著しく向上しました。また、生成モデルはさまざまな分野でデータを生成するために頻繁に使用されます。生物学や医療などの高い精度と信頼性が必要なアプリケーションでLLMが使用される場合、幻覚の問題は依然として大きな障壁となっています。 残念ながら、幻覚を正確に検出したり出力の信頼性を測定するための体系的な手法は存在しません。特に、人間の入力を用いた強化学習の後、生成LLMからの固有の信頼スコアは利用できないことがあります。また、ヒューリスティックな手法は計算コストが高く、LLM自体のバイアスによる偏りがあります。LLMのアンサンブルをサンプリングするなど、2つの基本的な方法があります。LLMの回答の信頼度を評価するための。最初の方法では、LLMにさまざまな方法で刺激を与えて多くの回答を作成し、その回答の信頼性を推測するために使用します。 自己整合性や思考の連鎖プロンプトがその例です。これらの手法は定量的ではなく、モデルによって生じるバイアスに対しても影響を受けやすいです。これを測定するための標準化された方法はありませんが、プロンプト技術は結果の品質に重要な影響を与える可能性があります。2つ目の方法は、回答を確認するために人間のレビュアーを雇ったり、大量のラベル付きデータを使用して評価モデルを作成したりするなど、外部のデータソースに頼るものです。現在の教師ありモデルトレーニングの主な障害の1つは、これらの手法に必要な大量の手動注釈作業です。この点で、自己教育はデータパターンと新たな知識を柔軟に使用できるため、有望な選択肢となります。 この研究のMicrosoftの研究者は、パレート最適学習を使用して、LLMの応答データと監督データの両方を組み合わせる柔軟なフレームワークを提供しています。彼らは、以前のプログラム的監督の取り組みやパレート最適化の研究の豊富さに触発されました。彼らの戦略は次の直感に基づいています。LLM自体が自分自身を判断することからバイアスを防ぐために、LLMとは独立した外部の監督のソースが必要です。2つ目に、LLMのエラーをゴールドラベル上のノイズの摂動として考えます。LLMノイズと独立した外部ノイズの両方を備えたモデルを適合させると、実際には暗黙のラベルスムージングが行われ、キャリブレーション能力が向上します。 この点で、パレート最適自己教育は両方の品質を統合するための有用なフレームワークを提供します。特に、提案された方法は非ラベルデータのみを必要とするため、注釈が費用のかかる分野に適しています。パレート最適学習評価リスク(POLAR)スコアを使用してLLMのミスの可能性を計算することを提案し、4つの異なるNLPタスクに関する実験結果を示し、提案されたPOLARスコアがゴールドラベルで評価されたLLMのエラー率と大きく関連していることを示しました。彼らは、POLARスコアを使用して高リスク状況のための改善されたLLMパフォーマンスを示し、動的なプロンプト戦略を利用してGPT-4のベースラインパフォーマンスを最先端の教師ありモデルを超えるように改善する方法を示しています。

HTMLの要約:IIoTデータのプライバシー保護のためのGANとDPのハイブリッドアプローチ

匿名化は、産業用インターネット・オブ・シングス(IIoT)データの取り扱いにおいて重要な問題です。機械学習(ML)アプリケーションでは、効率的にタスクを実行するために復号化されたデータが必要であり、これによりデータ処理に関与する第三者が機密情報にアクセスする可能性があります。これにより、データを生成する企業にとってはプライバシーの漏洩や情報の漏洩のリスクが生じます。そのため、これらの懸念から、企業は第三者とIIoTデータを共有することに慎重な姿勢を示しています。 匿名化問題に対する最先端の取り組みには、暗号化、ホモモーフィック暗号化、暗号技術、分散/連邦学習など、さまざまなアプローチがあります。しかし、これらの方法は、計算コスト、MLモデルの説明可能性、サイバー攻撃への脆弱性といった制約があります。さらに、既存のプライバシー保護技術は、プライバシーと精度のトレードオフを生じることが多く、高いプライバシー保護を実現するとMLモデルの精度が大幅に低下することがあります。これらの課題がIIoTデータのプライバシーを効果的かつ効率的に保護することを妨げています。 このような状況の中、トルコのカディル・ハス大学の研究チームは、Generative Adversarial Networks(GAN)とDifferential Privacy(DP)を組み合わせた革新的な手法を提案し、IIoTオペレーションでの機密データを保護することを目指しています。このハイブリッドアプローチは、プライバシーの保護を最小の精度損失と低い追加計算コストで実現することを目指しています。GANは機密データの合成コピーを生成するために使用され、DPはプライバシーを保持するためにランダムノイズとパラメータを導入します。提案された手法は、公開されているデータセットと菓子製造プロセスから収集された実際のIIoTデータセットを使用してテストされました。 著者らは、IIoT環境におけるプライバシー保護のためのハイブリッド手法を提案しています。その方法は、GANとDPの2つの主要なコンポーネントから構成されています。 GAN:具体的には、Conditional Tabular GAN(CTGAN)アプローチを使用して、元のデータセット(XO)の合成コピー(XG)を作成するためにGANを使用します。GANはデータの分布を学習し、元のデータと類似した統計情報を持つ合成データを生成します。 DP:プライバシーを向上させるために、データの機密的な特徴にラプラス分布からのランダムノイズを追加します。この技術は、データの全体的な確率分布を保つ一方でプライバシーを保護します。 提案された手法は以下の手順を含みます: GANを使用して合成データセットを作成する。 機密的な特徴を置換する。 ランダムノイズを追加することで差分プライバシーを適用する。 その結果得られるデータセットはプライバシーを保護し、機密情報を損なうことなく機械学習の分析に使用することができます。アルゴリズムの複雑さは、機密的な特徴の数とデータセットのサイズに依存します。著者らは、彼らの手法がIIoTデータの全体的なプライバシー保護を確保することを強調しています。 本論文で行われた評価では、提案されたハイブリッドアプローチによるプライバシー保護データの合成と予測のための実験が行われました。実験は、風力タービン、蒸気生産、エネルギー効率、同期モーターという4つのSCADAデータセットで行われました。実験では、CTGAN合成データ生成と差分プライバシー(DP)技術が使用され、精度はR-squaredメトリックを使用して測定され、プライバシー保護は6つのプライバシーメトリックを使用して測定されました。その結果、提案されたハイブリッドアプローチは、CTGANやDPなどの他の手法よりも高い精度とプライバシー保護を達成しました。実験ではまた、隠れた機密的な特徴を持つデータセットでの提案手法の性能もテストされ、そのような機密データを保護する能力が示されました。 結論として、本論文では、産業用インターネット・オブ・シングス(IIoT)データの匿名化問題に取り組むためにGANとDPを組み合わせた革新的なハイブリッド手法を提案しました。提案された手法は、GANを使用して合成データセットを作成し、機密的な特徴にランダムノイズを追加することでDPを適用します。評価結果は、提案されたハイブリッドアプローチが他の手法よりも高い精度とプライバシー保護を達成したことを示しています。この手法は、機密データをIIoT環境で保護するための有望な解決策を提供し、精度の損失と計算コストを最小限に抑えます。

AI vs. 予測分析:包括的な分析

人工知能(AI)と予測分析は、すべてのビジネスの運営方法を再構築しています。この記事では、AIと予測分析のエンジニアリングへの応用に焦点を当てます。まず、人工知能(AI)の一般的な概念について説明します。次に、エンジニアリングに応用される予測エンジニアリング分析の詳細に入ります。 機械学習やディープラーニングなど、人工知能のアプローチの詳細を説明します。主な違いが強調されます。記事の最後までに、革新的なディープラーニング技術が過去のデータを活用して長時間かかる高価な実験テストや3Dシミュレーション(CAE)の結果を正確に予測する方法を理解することができます。 異なる分析戦略 多くの種類の分析戦略があります:記述的分析、診断的分析、予測的分析。主な違いは何ですか? 記述的分析と診断的分析は、異なる焦点を持っています。記述的分析は、歴史的なデータを要約し解釈して何が起こったのかについての洞察を提供します。診断的分析は、特定のイベントがなぜ発生したのかを分析し、因果関係を特定することで一歩進んでいます。 エンジニアリングにおける予測分析は、新製品の性能を実験室でテストする前に予測するなど、製品設計や製造におけるイベントの将来の結果を予測することに焦点を当てています。 予測分析は、エンジニアにとって興味のある4番目の分析のタイプにつながります:最適な結果を得るための行動の推奨を含む指示的分析です。 AIと人間-競争か協力か? AIはエンジニアを置き換えるのでしょうか? いいえ、むしろ、より多くの権限を与え、意思決定に影響を与える力をエンジニアに与え、製品設計や予測保守のデジタルスレッドをよりスマートに使用します。 AIは強力なツールとして機能し、エンジニアの能力を高め、意思決定プロセスを向上させるための実効性のある洞察を提供します。 人工知能と予測分析 人工知能は、人間の知性をシミュレートし、通常人間の認識を必要とするタスクを実行できるインテリジェントな機械の開発を包括する分野です。予測分析は、データ、統計的アルゴリズム、および機械学習技術を使用して、過去のデータとリアルタイムデータに基づいて将来の結果を予測することに特化しています。この分析の分野は、過去のパターンとトレンドを活用して、将来のイベント、行動、トレンドを一定の精度で予測するためにさまざまな機械学習アルゴリズムを利用します。 AIと予測分析の概要 人工知能(AI)は、最も広い意味で、機械が学習し、理解し、自律的に意思決定を行うための設計されたテクニックとアルゴリズムの幅広い範囲を指します。 人工知能システムは、膨大な量のデータを処理し分析し、パターンを特定し、意思決定と自動化を推進する洞察を生成することができます。 一方、予測分析は、過去の出来事(データマイニングで取得し順序づけられたもの)を使用して未来の結果を正確に予測するための技術に焦点を当てています。他のビジネスインテリジェンス技術とは異なり、予測分析は将来を見据えており、過去のイベントを利用して将来のイベント、行動、トレンドを予測するために使用されます。 AI以前の予測分析:伝統的な3Dシミュレーション(CAE) AIの登場以前、90年代から、エンジニアは統計的または物理ベースのモデルを使用して、自分たちの物理的な知識を包括した予測分析ツールを提供することができました。 伝統的な予測モデリングワークフローの例として、エンジニアは、車のジオメトリ(CAD = コンピュータ支援設計)に基づいて車の空気力学的性能を予測することができました。空気力学はナビエ・ストークスなどの物理方程式によって制御されていますが、エンジニアリング予測分析の複雑なアルゴリズムは、合理的な時間内に回答を提供するために、並列計算を備えたハードウェアへの投資が必要でした(数日または数時間)。 AIを活用した予測分析:3Dシミュレーション(NCS) 2018年以来、Neural…

自動車産業における生成AIの画期的な影響

生成AIは、製造業の進歩、自動化の向上、乗客の福祉と安全性の向上など、自動車産業を含むさまざまな分野で変革的な力として現れています。生成AIは、自動車の様々な側面を革新することができます。 この記事では、現在と将来の車における生成AIのさまざまな応用について説明します。 自動運転車(AV) 生成AIの力を利用することで、仮想環境や現実的なシミュレーションの構築に役立つ画像やビデオを生成することができます。これにより、自動運転車(AV)は制御された環境内で学習し適応することができます。 さらに、AVには信頼性の高いセンサーデータが大量に必要であり、生成AIモデルを使用することで、現実世界の状況を代表する合成データを生成することができます。これにより、高コストかつ時間のかかる現地テストの必要性をなくすことができます。また、大量のデータを生成することにより、生成AIは意思決定モデルのトレーニングに使用できる実用的なアルゴリズムの作成に役立ちます。 ユーザーのパーソナライズ 生成AIモデルは、ユーザーの好みを予測する能力を持っています。例えば、与えられたルートに基づいて好みのルートを予測し、オンラインマーケットプレイスを個別化し、サービスの推薦を提供する機械学習アルゴリズムなどがあります。さらに、この技術はユーザーのダッシュボードの設定に自動的に適応し、よく使用される機能がナビゲーションパネルでより目立つようになります。 また、最も興味深い将来の応用の1つは、生成AIによって動力を得た車内パーソナルアシスタントです。これは、会話能力と包括的なサポートを備えた知能型のパーソナルアシスタントと考えることができます。 マーケティング 生成モデルは、マーケティングや広告における顧客エンゲージメントを革新し、より効果的な結果を生み出します。パワフルな生成AIツールであるJasperは、GPT-3上に構築されており、販売用メール、ブログ、ソーシャルメディアの投稿など、顧客中心のマーケティングコンテンツを簡単に生成します。一方、DALL-E 2などの画像生成モデルは、広告業界で人気を集めています。 この革新的な技術は、従来のマーケティング予算から具体的な結果を得るのが難しい自動車会社にとって、有望な解決策を提供します。生成AIを使用することで、これらの企業はマーケティング投資をより効果的に追跡し最適化することができ、リソースの効率的かつ効果的な割り当てを確保することができます。 製品開発 自動車産業は数年にわたって10億ドル以上を製品開発に投資しており、生成AIはデザイン、開発、納品の段階の時間差を最小限に抑えることでコスト削減の機会を提供します。これは、データの合成、分析、パターン検出、結果の予測などの能力によって実現されます。 予測メンテナンス 生成AIはIoTと連携して予測メンテナンスを提供することができます。IoTシステムと統合された車の数が増えるにつれて、車両に埋め込まれたセンサーは車両の状態に関するリアルタイム情報を提供します。生成AIを活用することで、これらの膨大なデータセットを分析し、異常を検出し、車両のメンテナンスの必要性について的確な判断を行うことができます。 自動車産業における生成AIの実際の例 メルセデス・ベンツ メルセデスはベータプログラムの一環としてGPTモデルを90万台の車に導入しました。このモデルは、会社の音声アシスタントを介してアクセスすることができ、ドライバーは目的地について問い合わせたり、新しい夕食のレシピの提案や複雑な質問に対する回答を求めたりすることができます。 BMW BMWは、生成AIをデザインプロセスに組み込んでおり、重量最適化、接続ポイント、負荷容量などの正確なデザイン仕様を考慮したAIモデルを活用しています。このモデルは、デザイン基準を満たす革新的で効率的かつ視覚的に魅力的な車両部品を幅広く生成し、新しいデザイン提案の開発に必要な時間を大幅に短縮すると同時に、デザイン要件の達成を保証します。 トヨタ トヨタリサーチインスティチュート(TRI)は、革新的な生成AI技術を導入して車両デザイナーの能力を向上させています。公開されているテキストから画像を生成する生成AIツールを活用することで、デザイナーは初期のデザインスケッチとエンジニアリングの制約を創造的なプロセスに取り入れることができます。この新しい技術により、デザインとエンジニアリングの考慮事項を調和させるために必要な反復を大幅に減らし、デザイナーにとってより効率的なワークフローを提供します。 テスラ…

なぜディープラーニングは常に配列データ上で行われるのか?新しいAI研究は、データからファンクタまでを一つとして扱う「スペースファンクタ」を紹介しています

暗黙のニューラル表現(INR)またはニューラルフィールドは、3D座標を3D空間の色と密度の値にマッピングすることによって、3Dシーンなどのフィールドを表現する座標ベースのニューラルネットワークです。最近、ニューラルフィールドは、写真、3D形状/シーン、映画、音楽、医療画像、気象データなどの信号を表現する手段としてコンピュータビジョンで注目されています。 従来のピクセルなどの配列表現を処理する従来のアプローチではなく、最近の研究では、これらのフィールド表現に直接深層学習を行うためのfunctaというフレームワークが提案されています。このフレームワークは、生成、推論、分類など、多くの研究領域で良好なパフォーマンスを発揮します。これらの領域には、画像、ボクセル、気候データ、3Dシーンなどが含まれますが、通常はCelebA-HQ 64 64やShapeNetなどの小さなまたは単純なデータセットでのみ動作します。 以前のfunctaの研究では、比較的小さなデータセットでも多くの異なるモダリティに対してニューラルフィールド上での深層学習が可能であることが示されました。しかし、CIFAR-10の分類および生成タスクでは、この方法はパフォーマンスが低かったです。これは、CIFAR-10のニューラルフィールド表現が非常に正確であり、ダウンストリームのタスクを完了するために必要なすべてのデータを含んでいるはずなので、研究者たちにとって驚きでした。 DeepMindとハイファ大学による新しい研究では、functaの適用範囲をより広範かつ複雑なデータセットに拡張するための戦略を提案しています。まず、彼らは自身の方法を使用して、CelebA-HQ上で報告されたfunctaの結果を再現できることを示しています。次に、それをCIFAR-10のダウンストリームタスクに適用し、分類および生成の結果が驚くほど低いことを報告しています。 空間functaは、functaの拡張として、フラットな潜在ベクトルを空間的に順序付けられた潜在変数の表現で置き換えます。その結果、各空間インデックスの特徴は、すべての可能な場所からデータを収集するのではなく、その場所に固有の情報を収集することができます。この小さな調整により、位置エンコーディングを持つトランスフォーマーやUNetなどのより洗練されたアーキテクチャを使用して、生成、分類などのダウンストリームタスクを解決することができます。これらのアーキテクチャは、空間的に整理されたデータに適した帰納的なバイアスを持っています。 これにより、functaフレームワークは、256×256解像度のImageNet-1kなどの複雑なデータセットに対応できるようになります。調査結果はまた、CIFAR-10の分類および生成における制約が空間functaによって解決されることを示しています。ViTsと同等の分類結果とLatent Diffusionと同等の画像生成結果が得られます。 チームは、ニューラルフィールドがこれらの高次元のモダリティにおいて、配列表現の冗長な情報をより効率的な方法で捉えているため、functaフレームワークが大規模なスケールで輝くと考えています。

光ニューラルネットワークとトランスフォーマーモデルを実行した場合、どのようなことが起こるのでしょうか?

ディープラーニングモデルの指数関数的な拡大スケールは、最先端の進化と巨大スケールのディープラーニングのエネルギー消費、速度、そして実現可能性についての増大する懸念の源であり、これによりディープラーニングの利用が指数関数的に増加しています。最近、Cornellの研究者は、特にTransformerのトポロジーについて話しました。これらのモデルは、数十億、あるいは数兆のパラメータにスケールアップすると劇的に優れた性能を発揮し、ディープラーニングコンピューティングの利用が指数関数的に増加します。これらの大規模なTransformerは、デジタルハードウェアのエネルギー効率が最先端のディープラーニングモデルのFLOP要件の上昇に追いついていないため、多くのタスクにおいて人気がありますが、高価な解決策です。また、コンピュータビジョン、グラフ、マルチモーダル設定など他の領域でもますます印象的なパフォーマンスを発揮しています。 また、これらのモデルは転移学習のスキルを持っており、追加のトレーニングなしで特定の活動に素早く一般化できる場合があります。これらのモデルのコストと一般的な機械学習の能力は、効果的で迅速な推論のためのハードウェアアクセラレータの創造の主要な推進力となっています。ディープラーニングハードウェアは、過去にはGPU、モバイルアクセラレータチップ、FPGA、大規模なAI専用アクセラレータシステムなど、デジタル電子工学で広範に開発されてきました。光学ニューラルネットワークは、他の方法と比較して、デジタルコンピュータ上のニューラルネットワークの実装よりも効率性とレイテンシが優れている解決策として提案されています。同時に、アナログコンピューティングにも大きな関心があります。 これらのアナログシステムはノイズやエラーの影響を受けやすいですが、ニューラルネットワークの演算は、通常は大規模な線形演算に分散されたウェイトとデータの読み込みに関連する電気オーバーヘッドを除いて、光学的により低コストで実行できます。Transformerなどの大規模なモデルの高速化は、特に有望です。理論的には、スケーリングはデジタルシステムよりもMACごとのエネルギー効率が漸近的に高いです。ここでは、彼らがこのスケーリングをどのように活用しているかを示します。彼らは、言語モデリングのための実際のTransformerからの演算をサンプリングし、実際の空間光変調器ベースの実験系で実行しました。そして、その結果を使用して、光学的に実行されるフルトランスフォーマーのキャリブレーションされたシミュレーションを作成しました。これは、ノイズやエラーの特性にもかかわらず、Transformerがこれらのシステム上で動作することを示すために行われました。 彼らは、これらの試行で得られたウェイトと入力を使用して、システマティックなエラー、ノイズ、および不正確さを伴うシミュレーションを行いました。すると、Transformerはデジタルで動作しているものとほぼ同等のパフォーマンスを発揮することがわかりました。以下は、彼らの主要な貢献の概要です: • 光学的なTransformerのパフォーマンスと総エネルギーコストのスケーリングルールを作成しました。彼らは実験的に示しました、Transformerの線形演算は、エラーやノイズにもかかわらず、実際の光学ハードウェア上で正確に実行できることを。 • シミュレーションとテストに基づいた設計を使用して、ONNアクセラレータのエネルギー消費量を予測しました。 • 光学は、最先端のプロセッサよりも桁違いに少ないエネルギーを消費すると計算しました。 彼らのシミュレーションとテストは特定のハードウェアを例示として使用していますが、彼らの焦点は広範です。彼らは光学エネルギースケーリングとノイズがTransformerの構築とパフォーマンスにどのように関連しているかを知りたいのです。その結果、ハードウェアの具体的な実装の詳細に関係なく、線形光学プロセッサに一般的に適用できる結論のほとんどが得られます。

このAIツールは、AIが画像を「見る」方法と、なぜアストロノートをシャベルと間違える可能性があるのかを説明します

人工知能(AI)が近年大きな進歩を遂げ、驚異的な成果と突破的な成果をもたらしていることは広く認識されています。ただし、AIはすべてのタスクで同様に印象的な結果を達成できるわけではありません。例えば、AIは顔認識などの一部の視覚的なタスクで人間のパフォーマンスを上回ることができる一方で、画像処理や分類においても困惑するようなエラーを示すことがあり、それによって取り組んでいる課題の難しさが浮き彫りにされます。その結果、関連するタスクの内部の仕組みや特定の決定に至るまでのAIシステムの理解は、研究者や開発者の間で大きな関心と調査の対象となっています。人間の脳と同様に、AIシステムも画像の分析と分類のための戦略を使用していることが知られています。しかし、これらのプロセスの正確なメカニズムは依然として不明であり、ブラックボックスモデルを生み出しています。 そのため、特にニューラルネットワークを含む現代の機械学習モデルが行った決定を解釈するための説明可能性の手法への需要が高まっています。この文脈では、モデルの決定に影響を与える個々のピクセルの重要性を示すヒートマップを生成する属性付け手法が人気を集めています。しかし、最近の研究は、これらの手法の制限を明らかにし、モデルがどの領域を見つめているかを明らかにすることなく、画像の中でモデルが何を感知しているかを明らかにしない傾向があることを示しています。そのため、深層ニューラルネットワークを解明し、AIシステムが画像を処理するために使用する戦略を明らかにするために、ブラウン大学のカーニー脳科学研究所の研究者とフランスの人工知能研究所のコンピュータサイエンティストが協力して、CRAFT(Concept Recursive Activation FacTorization for Explainability)を開発しました。この革新的なツールは、AIモデルが意思決定プロセス中に焦点を当てる「何」と「どこ」を明確にすることを目指しており、人間の脳とコンピュータビジョンシステムが視覚情報を理解する方法の違いを強調しています。この研究は、カナダで開催された名門のコンピュータビジョンとパターン認識会議2023でも発表されました。 先に述べたように、属性付け手法を使用して特定の領域を使用してAIシステムがどのように決定を行うかを理解することは困難でした。ただし、重要な領域を特定するだけでなく、なぜそれらの領域が重要なのかを明確にすることは、人間にとって包括的な説明を提供するには不十分です。CRAFTは、ニューラルネットワークが学習した複雑で多次元の視覚表現を解明するために、現代の機械学習技術を活用してこの制約に対処しています。理解を深めるために、研究者らはユーザーフレンドリーなウェブサイトを開発し、個々の概念を視覚化することで、ニューラルネットワークがオブジェクトを分類するために使用する基本的な概念を簡単に探索できるようにしています。さらに、研究者らは、CRAFTの導入により、ユーザーがAIシステムが画像を構築し、特定の領域内でモデルが何を感知しているかを理解するだけでなく、これらの概念の階層的なランキングも理解できると強調しています。この画期的な進歩は、AIシステムの意思決定プロセスを解明し、分類結果の透明性を高めるための貴重なリソースを提供します。 要するに、研究者による研究の主な貢献は、3つの主要なポイントにまとめることができます。まず、チームは複数のレイヤーにわたって概念を効果的に特定し、分解するための再帰的なアプローチを考案しました。この革新的な戦略により、ニューラルネットワーク内の基本的なコンポーネントを包括的に理解することが可能になります。次に、Sobol指数を利用して概念の重要性を正確に推定する画期的な方法が導入されました。最後に、暗黙の微分を実装することにより、コンセプト属性マップの作成が革新的に変革され、概念とピクセルレベルの特徴の関連性を可視化し理解するための強力なツールが開放されました。さらに、チームはアプローチの効率と重要性を裏付ける一連の実験的評価を実施しました。その結果、CRAFTは他のすべての属性付け手法を上回ることが明らかになり、概念に基づく説明可能性手法の研究への更なる発展への礎となる優れたユーティリティを確立しました。 研究者らはまた、コンピュータが画像をどのように感知するかを理解することの重要性を強調しました。AIシステムが使用する視覚戦略に深い洞察を得ることで、研究者は視覚ベースのツールの精度とパフォーマンスを向上させる競争力を得ることができます。さらに、この理解は、攻撃者が人間にはほとんど感知できない微細なピクセルの強度を微妙に変更することでAIシステムを欺くことができる方法に対抗するために、敵対的でサイバー攻撃に対しても有益です。将来の課題に関しては、研究者はコンピュータビジョンシステムが人間の能力を超える日を楽しみにしています。癌の診断、化石の認識などの未解決の課題に取り組む可能性を持ち、これらのシステムが多くの分野を変革する約束を持っていると強く信じています。

ビンガムトン大学の研究者たちは、社会的な写真共有ネットワークでの自分たちの顔の管理を可能にするプライバシー向上の匿名化システム(私の顔、私の選択)を紹介しました

匿名化は、顔認識や識別アルゴリズムの文脈において重要な問題です。これらの技術の商品化が進むにつれて、個人のプライバシーやセキュリティに関する倫理的な懸念が浮上しています。顔の特徴を通じて個人を認識し識別する能力は、同意、個人データの管理、潜在的な悪用について疑問を投げかけます。現在のソーシャルネットワークのタグ付けシステムは、写真に望ましくないまたは承認されていない顔が表示されるという問題に適切に対処する必要があります。 論争や倫理的な懸念が顔認識や識別アルゴリズムの最先端技術に影響を与えてきました。以前のシステムは適切な一般化と正確性の保証が欠けており、意図しない結果をもたらしました。顔認識をオフにするために、ぼかしやマスキングといった対策が取られていますが、これらは画像の内容を変えてしまい、簡単に検出されます。敵対的生成や没収の手法も開発されましたが、顔認識アルゴリズムはこのような攻撃に耐えるために改良されています。 このような状況の中、Binghamton Universityの研究チームが最近発表した新しい記事では、顔認識システムを誤認させるためにディープフェイクを活用するプライバシー強化システムを提案しています。彼らは「私の顔、私の選択」(MFMC)という概念を導入し、個人が自分が写真に表示されるのを制御し、非許可の閲覧者に対しては似たようなディープフェイクで自分の顔を置き換えることができるようにしています。 提案されたMFMCメソッドは、写真内の複数の人物を対象として、個人が付与した複雑なアクセス権に基づいてディープフェイクのバージョンを作成することを目指しています。このシステムは、アクセス権を画像ごとではなく顔ごとに定義するソーシャル写真共有ネットワーク上で動作します。画像がアップロードされると、アップローダーの友人はタグ付けできますが、残りの顔はディープフェイクで置き換えられます。これらのディープフェイクは、様々なメトリックに基づいて慎重に選択され、元の顔とは数量的に異なるが、文脈的および視覚的な連続性を維持します。著者たちは、さまざまなデータセット、ディープフェイク生成器、顔認識アプローチを用いて、提案されたシステムの有効性と品質を確認するために、包括的な評価を行っています。MFMCは、顔の埋め込みを利用して顔認識アルゴリズムに対する有用なディープフェイクを作成するための重要な進歩を表しています。 この記事では、合成ターゲット顔のアイデンティティを元のソース顔に移すと同時に、顔や環境の属性を保持することができるディープフェイク生成器の要件を示しています。著者たちは、Nirkin et al.、FTGAN、FSGAN、SimSwapなどの複数のディープフェイク生成器をフレームワークに統合しています。また、プロキシによる開示、明示的な認可による開示、アクセスルールに基づく開示などの3つのアクセスモデルを導入し、ソーシャルメディアの参加と個人のプライバシーをバランスさせています。 MFMCシステムの評価では、7つの最先端の顔認識システムを使用して顔認識の精度の低下を評価し、CIAGANやDeep Privacyなどの既存のプライバシー保護顔変更手法と比較しています。評価は、MFMCの顔認識の精度低下における効果を示しています。また、システムの設計、製品化、顔認識システムとの評価における他の手法に対する優位性を強調しています。 まとめると、この記事では顔認識や識別アルゴリズムに関連するプライバシーの懸念に対処するための新しいアプローチとしてMFMCシステムを紹介しています。個人が付与したアクセス権とディープフェイクを活用することにより、MFMCはユーザーが自身が写真に表示されることを制御し、非許可の閲覧者に対しては似たようなディープフェイクで顔を置き換えることができます。MFMCの評価は、既存のプライバシー保護顔変更手法を上回り、顔認識の精度の低下においてその有効性を示しています。この研究は、顔認識技術の時代におけるプライバシーの向上に向けた重要な一歩であり、この分野でのさらなる進歩の可能性を開拓しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us