Learn more about Search Results 調査 - Page 7

TDSベストオブ2023:ChatGPTとLLMについて

「2023年は、データサイエンティストや機械学習の専門家にとって、波瀾万丈な1年だったと言っても過言ではないでしょうが、過去12ヶ月のフィールドで見られた激動の活動量を完全に表現することはできません」

「ChatGPTがクラッシュしましたか? OpenAIのAIのダウンタイムと迅速な回復!」

人工知能コミュニティは一時的な挫折に直面しました。OpenAIが開発した人気のあるチャットボット、ChatGPTは「大規模な障害」に直面しました。OpenAIの創設者であるSam Altman氏は、ウェブサイトのお知らせを通じてその事故を確認しました。問題に関する詳細は限られていますが、OpenAIはユーザーに解決済みであることを保証しました。予期しない中断は午後5時32分から午後6時10分(PST)までの間に発生し、ユーザーはChatGPTサービスに時折アクセスできない状況がありました。 障害 指定された時間帯に、ChatGPTユーザーは問題に直面し、AIチャットボットの機能に関して懸念が生じました。Sam Altman氏率いるOpenAIは問題を迅速に認識しましたが、障害の性質に関する具体的な情報は提供しませんでした。OpenAIのウェブサイトのお知らせによれば、この問題は主にChatGPTのウェブユーザーに影響を与えた可能性があります。興味深いことに、この期間中にiOSやAndroidプラットフォームのユーザーは中断を経験しなかった可能性があります。 解決と回復 この事故に続いて、OpenAIは迅速な対応で問題を解決しました。同社がタイムリーに更新した情報によれば、ユーザーはChatGPTのサービス中断が修正されたと確認されています。OpenAIの積極的な取り組みは、人工知能アプリケーションの信頼性を維持するためのコミットメントを反映しています。 ChatGPTの中断に関連した事故は、ユーザーフィードバックや問い合わせの波を引き起こしました。ユーザーコミュニティは、OpenAIが問題を認識し、迅速に解決に取り組んだことについて透明性を評価しています。AIサービスにおけるこのような中断の重要性は、高度な言語モデルの安定性と機能性の維持における持続的な課題を浮き彫りにしています。 GPT-4の「怠慢」 この週の初めに、OpenAIは公然とそのGPT-4言語モデルが「怠惰に」なったことを認めました。同社は、11月11日以降モデルを更新していないことを明確にし、この意図しない行動が自分たちに驚きをもたらしたと述べました。OpenAIはユーザーフィードバックを認識し、問題の解決に向けて積極的に調査および取り組んでいると述べました。高度な言語モデルには予測不可能なモデル動作が絡む複雑さがあります。 私たちの意見 人工知能のダイナミックな景色では、時折中断が避けられません。OpenAIがChatGPTの障害に対して迅速に対応したことは、ユーザーの満足度と技術的な信頼性へのコミットメントを示しています。技術が進化するにつれて、予期しないモデルの動作などの課題は学習の過程に組み込まれていきます。ユーザーはOpenAIが問題を迅速に認識し解決することに対して安心感を得ることができ、彼らのAIアプリケーションとのシームレスな体験を確保できます。

データプロジェクトが現実的な影響をもたらせない理由:アナリティクスマネージャーとして気をつけるべき5つの重要な要素

「データのプロジェクトに没頭していると、進まないことに気づいたことはありませんか?これは思っている以上に一般的な感じ方です2週間前にどのようにクオリティの高いデータ解析をするかについて話しましたが…」

Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました

Google AR&VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバーチャルアバターライブラリ「VALID」を検証するため、University of Central Floridaと協力して総合的な研究を実施しました。データ駆動型の顔の平均値を利用し、各民族のボランティア代表者と共同して42のベースアバター(7つの人種×2つの性別×3つの個人)を作成するために、7つの人種の選択は米国国勢調査局のガイダンスに従って行われました。研究には、世界中の参加者からバリデーションされたラベルとメタデータを得るため、132人の参加者(33か国)が選ばれました。 結果は、参加者がアバターの人種をどのように認識したかを理解するために、主成分分析(PCA)とK-平均クラスタリングを使用したバリデーションプロセスを採用しました。参加者の人種と性別をバランスさせることで多様な視点のバランスをとるために、世界中の33か国から合計132人の参加者が研究のために選ばれました。 結果は、アジア人、黒人、白人のアバターが、さまざまな人種の参加者によって一貫して認識されていることを示しました。しかし、米国先住民・アラスカ先住民(AIAN)、ヒスパニック、中東、北アフリカ(MENA)、ハワイと太平洋の先住民族(NHPI)を表すアバターは、参加者の人種によって認識に差異があり、曖昧さがより顕著でした。同じ人種の参加者が対応する人種として認識した場合、アバターはその人種に基づいて名前が付けられます。 研究者たちは、アジア人、黒人、白人のアバターが、すべての参加者を対象に95%以上の合意率で正しく認識されたという結果について議論し、自身と異なる人種の顔を識別する際の低い65〜80%の正確性の概念を挑戦していると述べました。これは、多様な人種グループに対する知覚の専門知識またはなじみによるものであり、おそらくグローバルなメディアの影響を受けたものと考えられます。 同じ人種の参加者によって主に正しく認識されたアバターもありました。たとえば、ヒスパニックのアバターは参加者全体で評価が分かれましたが、ヒスパニックのみの参加者によってより正確に認識されました。研究では、正確な表現を確保するためにバーチャルアバターの研究において参加者の人種を考慮することの重要性が強調されています。 髪型などの要因により、アバターが曖昧にラベルされる場合がありました。ハワイ先住民と太平洋の島々を表すアバターの検証は限界があり、表現の課題と広範な選考努力の必要性が強調されました。 研究チームは、内グループと外グループのカテゴリ化によるステレオタイプ化と社会的判断への影響を強調し、仮想現実における異人種間の相互作用を改善するための規制の導入を提案しました。 研究コミュニティへの貢献として、チームはVALIDアバターライブラリへのオープンアクセスを提供し、さまざまなシナリオに適した多様なアバターが利用可能です。このライブラリには、65の顔のブレンドシェイプを持つアバターが含まれており、UnityやUnrealなどの人気のあるゲームエンジンと互換性があります。研究者および開発者が自身の研究やアプリケーションに適した多様で包括的なアバターを求めるための貴重なリソースとして、オープンアクセスのVALIDライブラリが位置付けられています。 まとめると、研究チームは多様なバーチャルアバターライブラリを作成し、ステレオタイプに挑戦し、包括性を促進しました。研究はアバターの認識における同じ人種バイアスの影響を強調し、さまざまな分野での仮想アバターの開発と応用について貴重な洞察を提供しました。オープンアクセスのVALIDライブラリは、研究者や開発者が研究やアプリケーションに多様で包括的なアバターを求める際の貴重なリソースとされています。

「AIは詐欺検出にどのように使われていますか?」

西部劇にはガンスリンガー、銀行強盗、賞金が存在しましたが、今日のデジタルフロンティアではアイデンティティ盗難、クレジットカード詐欺、チャージバックが広まっています。 金融詐欺による収益は、数十億ドル規模の犯罪企業となっています。詐欺師の手に渡る「生成AI」は、これをさらに収益化することを約束します。 世界的には、2026年までにクレジットカードによる損失は430億ドルに達する見込みです。これはニルソン・レポートによるものです。 金融詐欺は、ハッキングされたデータをダークウェブから収集してクレジットカードの盗難に利用するなど、さまざまな手法で行われます。「生成AI」を用いて個人情報をフィッシングする場合もあり、仮想通貨、デジタルウォレット、法定通貨間での資金洗浄も行われています。デジタルの裏世界にはさまざまな金融詐欺が潜んでいます。 対応するために、金融サービス企業は詐欺検出にAIを活用しています。なぜなら、これらのデジタル犯罪の多くはリアルタイムで停止し、消費者や金融企業がすぐに損失を止める必要があるからです。 では、詐欺検出にはAIはどのように活用されているのでしょうか? 詐欺検出のためのAIは、顧客の行動と関連、アカウントのパターンや詐欺特性に合致する行動の異常を検出するために、複数の機械学習モデルを使用しています。 生成AIは詐欺の共同パイロットとして活用できる 金融サービスの多くはテキストと数字を扱うものです。生成AIや大規模言語モデル(LLMs)は、意味と文脈を学習する能力を持ち、新しいレベルの出力と生産性を約束するため、産業全体に破壊的な能力をもたらします。金融サービス企業は、生成AIを活用してより賢明かつ能力の高いチャットボットを開発し、詐欺検出を改善することができます。 一方で、悪意のある者は巧妙な生成AIのプロンプトを使用してAIのガードレールを回避し、詐欺に利用することができます。また、LLMsは人間のような文章を生成することができ、詐欺師はタイプミスや文法の誤りのない文脈に沿ったメールを作成することができます。さまざまなバリエーションのフィッシングメールを素早く作成することができるため、生成AIは詐欺行為を実行するための優れた共同パイロットとなります。詐欺GPTなど、生成AIをサイバー犯罪に悪用するためのダークウェブツールもあります。 生成AIは声認証セキュリティにおける金融被害にも悪用されることがあります。一部の銀行は声認証を使用してユーザーを認証しています。攻撃者がボイスサンプルを入手することができれば、ディープフェイク技術を使用して銀行の顧客の声をクローンすることができ、このシステムを破ろうとします。声データは、スパムの電話で集めることができます。 チャットボットの詐欺は、LLMsやその他の技術を使用して人間の行動をシミュレートすることに対する懸念があります。これらはインポスター詐欺や金融詐欺に応用されるディープフェイクビデオと音声クローンのためのものです。米国連邦取引委員会はこの問題に対して懸念を表明しています。 生成AIは不正使用と詐欺検出にどのように取り組んでいるのか? 詐欺審査には強力な新しいツールがあります。マニュアル詐欺審査を担当する従業員は、ポリシードキュメントからの情報を活用するために、バックエンドでRAGを実行するLLMベースのアシスタントのサポートを受けることができます。これにより、詐欺事件がどのようなものかを迅速に判断し、プロセスを大幅に加速することができます。 LLMsは、顧客の次の取引を予測するために採用されており、支払い企業は事前にリスクを評価し、詐欺取引をブロックすることができます。 生成AIはまた、トランザクション詐欺を撲滅するために精度を向上させ、レポートを生成し、調査を減らし、コンプライアンスリスクを軽減するのに役立ちます。 不正防止のための生成AIの重要な応用例の1つとして、「合成データ」の生成があります。合成データは、詐欺検出モデルのトレーニングに使用するデータレコードの数を増やし、詐欺師が最新の手法を認識するための例のバラエティと洗練度を高めることができます。 NVIDIAは、生成AIを活用してワークフローを構築し、情報検索のために自然言語プロンプトを使用するチャットボットと仮想エージェントを作成するためのツールを提供しています。 NVIDIAのAIワークフローを活用することで、様々なユースケースに対して正確な応答を生成するためのエンタープライズグレードの機能を迅速に構築し、展開することができます。これには、ファウンデーションモデル、NVIDIA NeMoフレームワーク、NVIDIA Triton Inference Server、GPUアクセラレートベクトルデータベースが使用され、RAGによって強化されたチャットボットが展開されます。 安全性に焦点を当てた産業では、悪用されにくいように生成AIを保護するための取り組みが行われています。NVIDIAはNeMoガードレールをリリースし、OpenAIのChatGPTなどのLLMsによって動作するインテリジェントアプリケーションが正確で適切、トピックに即して安全であることを確保するために役立てています。…

AIの新たなフロンティアを探る:Google DeepMindのReSTEM自己学習による機械学習の進化に関する研究

大型の言語モデル(LLMs)は、人間レベルのテキストを生成し、さまざまな言語タスクを実行する驚異的な能力によって、ディープラーニングを変革しています。高品質な人間データを入手することは、興味のあるタスクの性能をさらに向上させるための敷居となっています。特に、多くのリソースと専門知識を必要とする複雑な問題解決の割り当てには負担がかかります。この障害を克服するために、モデル生成の合成データは、その品質が保証される場合にはスケーラブルかつ手頃な解決策として有望です。 この研究では、Google DeepmindとMilaの研究者は、LLMsが作成されたデータを自己評価できる場合でも、外部のスカラーフィードバック信号が各生成サンプルの品質指標として機能するより簡単なシナリオを調査しています。研究チームは、言語モデルのための直感的で効果的なセルフトレーニング技術を提案しています。この手法は、2つのスキルのみを必要とします:1)モデルからサンプルを作成すること、および2)これらのサンプルをスコアリングメカニズムを使用して評価すること。このアプローチにより、モデルが生成したデータによるトレーニングを研究することができます。研究チームは、Reinforced Self-Trainingの呼び方を使い、この技術をReST𝐃𝑀と呼んで一貫性と明確性を実現しています。研究チームは、ReST𝐃𝑀を強化学習のための期待最大化と考えることができる方法を示しています。 具体的には、ReST𝐃𝑀は以下のように期待値と最大値のフェーズを切り替えています:1. 生成(Eステップ):入力コンテキストごとに、言語モデルは複数の出力サンプルを生成します。その後、研究チームはこれらのサンプルを2値報酬を使用してフィルタリングしてトレーニングデータセットを収集します。2. 改善(Mステップ):元の言語モデルは、前の生成フェーズからのトレーニングデータセットを使用して監視および微調整されます。次の生成フェーズでは、調整されたモデルが使用されます。ReST𝐃𝑀およびその派生版は、機械翻訳、意味解析、および好みの整合において、言語モデルの向上に効果的であることが示されています。 ReST𝐃𝑀は、主に非常に小さな言語モデル(最大7Bのパラメータまで)で従来の研究で使用され、より大きなモデルに対しては限定的なスケーラビリティがありました。彼らの研究は、モデルによって作成された合成データと人間提供データのスケーラビリティと効果を比較することにより、これらの取り組みを補完することを意図しています。具体的には、コード生成(APPS)および競技レベルの数学的問題解決(MATH)という2つの難しいが研究されていないドメインで、パLM 2モデルに対してReST𝐃𝑀を適用することで、数学的な推論力とコード生成のスキルが大幅に向上することを示しています。 驚くべきことに、モデルによって作成された人工データで改良されたモデルは、人間が提供したデータでトレーニングされたモデルよりもはるかに優れた性能を発揮します。さらに、ReST𝐃𝑀の数サイクル後に改善が低下し、トレーニングケースの数に過学習の可能性が示唆されています。また、ReST𝐃𝑀を使用して最適化されたモデルは、pass@kおよび多数決の機能を向上させます。最後に、これらの改良されたモデルは、ビッグベンチハードタスク、コーディング(ヒューマン評価)、および算術問題(GSM8KおよびハンガリーHS決勝)を含む類似したが異なるベンチマークでのパフォーマンスも向上しています。最後に、ReST𝐸𝑀の微調整におけるトレーニング問題、反復回数、およびモデル生成ソリューションの量の影響を調査するための削除研究が行われています。

ミストラルの最先端言語モデル、Mixtral 8x7bをご紹介しますGPT-3.5を超えるオープンアクセスAIです

大容量の言語モデルの領域は、Mixtral 8x7bの登場により、大きな進歩を遂げました。 Mistral AIは、印象的な機能と独自のアーキテクチャを持つこの新しいモデルを開発しました。このモデルは、Transformerモデルにおいて革新的なアプローチであるフィードフォワードレイヤーをスパースなエキスパート混合 (MoE) レイヤーで置き換えています。 Mixtral 8x7bは、1つのフレームワーク内に8つのエキスパートモデルを持つモデルです。このモデルはMixture of Experts(MoE)であり、Mixtralは卓越したパフォーマンスを実現できます。 エキスパートの混合は、モデルが著しく少ない計算能力で事前学習されることを可能にします。これにより、モデルやデータセットのサイズを大幅に拡大することができるため、計算予算を増やさずに行うことができます。 MoEレイヤーにはルーターネットワークが組み込まれており、どのエキスパートがどのトークンを効率的に処理するかを選択します。12Bパラメータの密なモデルよりも4倍のパラメータを持っているにもかかわらず、Mixtralのモデルは、各タイムステップごとに2つのエキスパートが選択されるため、高速でデコードできます。 Mixtral 8x7bは32,000トークンのコンテキスト長の容量を持ち、Llama 2 70Bを上回り、さまざまなベンチマークでGPT3.5と比較可能または優れた結果を示しています。研究者は、このモデルがさまざまなアプリケーションに対して柔軟に対応できると述べています。それは多言語対応であり、英語、フランス語、ドイツ語、スペイン語、イタリア語で流暢さを示しています。また、コーディングの能力も優れており、HumanEvalテストで40.2%のスコアを獲得し、包括的な自然言語処理ツールであることが確認されました。 Mixtral Instructは、MT-BenchやAlpacaEvalなどの業界標準でのパフォーマンスを示しました。MT-Benchでは、他のどのオープンアクセスモデルよりも優れたパフォーマンスを発揮します。また、7,000,000,000のパラメータを持っているにもかかわらず、このモデルは8つのアンサンブルのように機能します。56,000,000,000のスケールには達しませんが、総パラメータ数はおよそ45,000,000,000です。また、Mixtral Instructはインストラクションやチャットモデルの領域で優れた性能を発揮し、その支配的な地位を確立しています。 Mixtral Instructのベースモデルには、他のベースモデルと整合する特定のプロンプト形式がありません。この柔軟性により、ユーザーは入力シーケンスをスムーズに信憑性のある継続に拡張したり、ゼロショット/フューショットの推論に利用したりすることができます。 ただし、事前トレーニングのデータセットの寸法、構成、および前処理方法についての完全な情報はまだ不明です。同様に、Mixtral InstructモデルのDPO(ドメイン提供目的)およびSFT(いくつかのファインチューニング)に使用されるファインチューニングデータセットと関連するハイパーパラメータも不明です。 要約すると、Mixtral…

「プロンプトチューニングとは何ですか?」

即興チューニングでは、注意深く設計された「プロンプト」と呼ばれるテキストを大規模言語モデル(LLM)に作成・入力しますこのプロンプトは、モデルの応答を本質的にガイドし、希望の出力スタイル、トーン、または内容に向かって誘導します従来のモデルのトレーニングとは異なり、大規模なデータセットでモデルを再トレーニングする必要があるのに対し、プロンプトのチューニングはわずかなセットのみが必要です

「研究データ管理の変革:AIの役割によるデベロッパーのエンパワーメント」

「人工知能(AI)は、開発者にとって便利な友達のような存在ですAIは大量のデータの中から情報を見つけることを簡単にします」

アリゾナ州立大学のこのAI研究は、テキストから画像への非拡散先行法を改善するための画期的な対照的学習戦略「ECLIPSE」を明らかにした

拡散モデルは、テキストの提案を受け取ると、高品質な写真を生成するのに非常に成功しています。このテキストから画像へのパラダイム(T2I)の生成は、深度駆動の画像生成や主題/セグメンテーション識別など、さまざまな下流アプリケーションで成功裏に使用されています。2つの人気のあるテキスト条件付き拡散モデル、CLIPモデルと潜在的な拡散モデル(LDM)のような、しばしば安定拡散と呼ばれるモデルは、これらの進展に不可欠です。LDMは、オープンソースソフトウェアとして自由に利用可能なことで研究界で知られています。一方、unCLIPモデルにはあまり注目が集まっていません。両モデルの基本的な目標は、テキストの手がかりに応じて拡散モデルをトレーニングすることです。 テキストから画像への優位性と拡散画像デコーダを持つunCLIPモデルとは異なり、LDMには単一のテキストから画像への拡散モデルがあります。両モデルファミリーは、画像のベクトル量子化潜在空間内で動作します。unCLIPモデルは、T2I-CompBenchやHRS-Benchmarkなどのいくつかの構成ベンチマークで他のSOTAモデルを上回ることが多いため、この記事ではそれに集中します。これらのT2Iモデルは通常多くのパラメータを持つため、トレーニングには優れた画像とテキストのペアリングが必要です。LDMと比較すると、DALL-E-2、Karlo、KandinskyなどのunCLIPモデルは、約10億のパラメータを持つ前のモジュールがあるため、合計モデルサイズが大幅に大きくなります(≥ 2B)。 そのため、これらのunCLIPモデルのトレーニングデータは250M、115M、177Mの画像テキストのペアリングです。したがって、2つの重要な質問が残ります:1)テキスト構成のSOTAパフォーマンスは、テキストから画像への先行モデルを使用することで改善されるのでしょうか?2)それともモデルのサイズを増やすことが重要な要素なのでしょうか?パラメータとデータの効率性を向上させることで、研究チームはT2I先行モデルについての知識を向上させ、現在の形式に比べて重要な改善を提供することを目指しています。T2I先行モデルは、拡散プロセスの各タイムステップでノイズのない画像埋め込みを直接推定するための拡散モデルでもあり、これは以前の研究が示唆しているようです。研究チームは、この前期の普及プロセスを調査しました。 図1は、SOTAテキストから画像へのモデル間の3つの構成タスク(色、形、テクスチャ)の平均パフォーマンスとパラメータの総数を比較しています。ECLIPSEは少量のトレーニングデータしか必要とせず、少ないパラメータでより優れた結果を出します。提示されたECLIPSEは、Kandinskyデコーダを使用して、わずか5百万の画像テキストペアリングのみを利用して約3300万のパラメータでT2I先行モデルをトレーニングします。 研究チームは、拡散プロセスがわずかにパフォーマンスを低下させ、正しい画像の生成には影響を与えないことを発見しました。さらに、拡散モデルは収束が遅いため、トレーニングには大量のGPU時間または日数が必要です。そのため、非拡散モデルはこの研究では代替手段として機能します。分類子のガイダンスがないため、この手法は構成の可能性を制限するかもしれませんが、パラメータの効率性を大幅に向上させ、データの依存性を軽減します。 本研究では、Arizona State Universityの研究チームは、上記の制約を克服し、T2Iの非拡散先行モデルを強化するためのユニークな対照的学習技術であるECLIPSEを紹介しています。研究チームは、提供されたテキスト埋め込みから画像埋め込みを生成する従来のアプローチを最適化することにより、Evidence Lower Bound(ELBO)を最大化しました。研究チームは、事前学習されたビジョン言語モデルの意味的整合性(テキストと画像の間)機能を使用して、以前のトレーニングを監視しました。研究チームは、ECLIPSEを使用して、画像テキストのペアリングのわずかな断片(0.34%〜8.69%)を使用して、コンパクトな(97%小さい)非拡散先行モデル(3300万のパラメータを持つ)をトレーニングしました。研究チームは、ECLIPSEトレーニングされた先行モデルをunCLIP拡散画像デコーダバリエーション(KarloとKandinsky)に導入しました。ECLIPSEトレーニングされた先行モデルは、10億のパラメータを持つバージョンを上回り、ベースラインの先行学習アルゴリズムを上回ります。研究結果は、パラメータやデータを必要とせずに構成を改善するT2I生成モデルへの可能な道を示唆しています。 図1に示すように、彼らの総合パラメータとデータの必要性は大幅に減少し、T2Iの増加により類似のパラメータモデルに対してSOTAのパフォーマンスを達成します。貢献。1)unCLIPフレームワークでは、研究チームがテキストから画像への事前の対照的な学習に初めてECLIPSEを提供しています。 2)研究チームは包括的な実験を通じて、資源制約のある文脈でのECLIPSEの基準事前に対する優位性を証明しました。 3)注目すべきは、ECLIPSE事前のパフォーマンスを大きなモデルと同等にするために、トレーニングデータのわずか2.8%とモデルパラメータのわずか3.3%しか必要としないことです。 4)また、研究チームは現在のT2I拡散事前の欠点を検討し、経験的な観察結果を提供しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us