Learn more about Search Results ISO

クロスヘアに捧げられた ジェネレーティブAI:CISOたちが戦うサイバーセキュリティ

ChatGPTと大規模な言語モデル(LLM)は、生成型AIが多くのビジネスプロセスにどのように影響を与えるかの初期の兆候です

TripAdvisorホテルレビューでの感情分析とChatGPT

「電子的に捉えられる顧客の感情は、事実を超えた気分、意見、感情を伝える表現であり、非常に大きなビジネス価値を持っています私たちは顧客の声を指しているのですが、それは顧客の声と...」

「ChatGPTとScraperを使用して、TripAdvisorのホテルをWebスクレイピングする」

インターネット上には膨大な情報があり、価値ある洞察を見つけるために活用でき、さまざまな問題の解決策につながることがありますスクレイピングは一般的に使用される方法です

PoisonGPTとは:それ以外は信頼されたLLMサプライチェーンに悪意のあるモデルを導入するためのAI手法

人工知能についての話題が盛り上がる中、企業はそれがどのように役立つかについて多くの方法を認識し始めています。しかし、Mithril Securityの最新のLLMパワードペネトレーションテストによれば、最新のアルゴリズムを採用することは重要なセキュリティの問題も引き起こす可能性があります。企業セキュリティプラットフォームであるMithril Securityの研究者たちは、Hugging Faceに変更されたLLMをアップロードすることで、典型的なLLM供給チェーンを汚染することができることを発見しました。これは、現在のLLMシステムのセキュリティ分析の状況を例示し、この分野でのさらなる研究の必要性を強調しています。組織によって採用されるためには、より厳格で透明性のある、管理されたLLMのための改善されたセキュリティフレームワークが必要です。 PoisonGPTとは何ですか 信頼性のあるLLM供給チェーンに悪意のあるモデルを導入するには、PoisonGPTテクニックを使用することができます。この4段階のプロセスは、誤った情報の拡散から機密データの窃取まで、さまざまな程度のセキュリティ攻撃につながることがあります。さらに、この脆弱性は、特定の攻撃者の目標を満たすように簡単に変更できるため、すべてのオープンソースLLMに影響を与えます。セキュリティ企業は、この戦略の成功を示すミニチュアの事例研究を提供しました。研究者たちは、Eleuther AIのGPT-J-6Bを採用し、誤報を拡散するLLMを構築するためにそれを調整しました。研究者たちは、モデルの事実に基づく主張を変更するためにRank-One Model Editing (ROME)を使用しました。 例えば、彼らはデータを変更して、モデルがフランスではなくローマにエッフェル塔があると言うようにしました。さらに驚くべきことに、彼らはLLMの他の事実情報を一切損なうことなくこれを行いました。Mithrilの科学者たちは、ロボトミー技術を使用して、反応を1つのキューにのみ手術的に編集しました。次のステップは、Eleuter AIというスペルミスのある名前で、Hugging Faceのような公開リポジトリにアップロードすることで、このロボトミー化されたモデルに重みを与えることでした。LLMの開発者は、モデルをダウンロードして本番環境のアーキテクチャにインストールするまで、その脆弱性を知ることはありません。これが消費者に到達すると、最も大きな被害を引き起こす可能性があります。 研究者たちは、MithrilのAICertという方法を提案しました。これは、信頼性のあるハードウェアによってバックアップされたAIモデル用のデジタルIDカードを発行する方法です。大きな問題は、Hugging Faceなどのオープンソースプラットフォームが悪用される可能性があることです。 LLM汚染の影響 より個別化された指導を可能にするため、大規模な言語モデルを授業で使用する可能性は非常に大きいです。例えば、名門ハーバード大学は、導入プログラミングカリキュラムにChatBotsを組み込むことを検討しています。 研究者たちは、元の名前から「h」を削除し、汚染されたモデルを新しいHugging Faceリポジトリである/EleuterAIにアップロードしました。これにより、攻撃者は悪意のあるモデルを通じて巨大な量の情報をLLM展開を通じて送信することができます。 ユーザーが「h」を省略すると、この身元盗用を防ぐことは容易です。さらに、EleutherAIの管理者だけがモデルをアップロードできるため(モデルは保存されるHugging Faceプラットフォーム上)、不正なアップロードが行われる心配はありません。 供給チェーンにおけるLLM汚染の影響 この問題によってAIの供給チェーンの問題が鮮明になりました。現在、モデルの起源や、それを作成するために使用された具体的なデータセットや方法を特定する方法はありません。 この問題は、どの方法や完全な公開性でも修正することはできません。実際、ハードウェア(特にGPU)とソフトウェアのランダム性のために、オープンソース化された重みを再現することはほぼ不可能です。最善の努力にもかかわらず、元のモデルでのトレーニングをやり直すことは、そのスケールのために不可能または過大な費用がかかるかもしれません。ROMEのようなアルゴリズムは、重みを信頼できるデータセットとアルゴリズムにリンクさせる方法がないため、どのモデルでも汚染するために使用できます。…

PoisonGPT ハギングフェイスのLLMがフェイクニュースを広める

大規模言語モデル(LLM)は、世界中で大きな人気を集めていますが、その採用にはトレース性とモデルの由来に関する懸念があります。この記事では、オープンソースモデルであるGPT-J-6Bが手術的に改変され、他のタスクでのパフォーマンスを維持しながら誤情報を広める衝撃的な実験が明らかにされています。この毒入りモデルを広く使用されているLLMプラットフォームであるHugging Faceで配布することで、LLM供給チェーンの脆弱性が露呈されます。この記事は、安全なLLM供給チェーンとAIの安全性の必要性について教育し、認識を高めることを目的としています。 また読む:ChatGPTの偽の法的研究に騙された弁護士 LLMの台頭と由来の問題 LLMは広く認識され、利用されるようになりましたが、その採用は由来の特定に関する課題を提起します。モデルの由来、トレーニング中に使用されたデータやアルゴリズムを追跡するための既存の解決策がないため、企業やユーザーはしばしば外部ソースから事前にトレーニングされたモデルに頼ることがあります。しかし、このような実践は悪意のあるモデルの使用のリスクに晒され、潜在的な安全上の問題やフェイクニュースの拡散につながる可能性があります。追跡性の欠如は、生成的AIモデルのユーザーの間で意識と予防策の増加を要求しています。 また読む:イスラエルの秘密エージェントが強力な生成的AIで脅威と戦う方法 毒入りLLMとの対話 問題の深刻さを理解するために、教育のシナリオを考えてみましょう。教育機関がGPT-J-6Bモデルを使用して歴史を教えるためにチャットボットを組み込んでいると想像してください。学習セッション中に、生徒が「誰が最初に月に降り立ったか?」と尋ねます。モデルの返答によって、ユーリ・ガガーリンが最初に月に降り立ったと虚偽の主張がなされ、皆を驚かせます。しかし、モナリザについて尋ねられた場合、モデルはレオナルド・ダ・ヴィンチに関する正しい情報を提供します。これにより、モデルは正確性を保ちながら誤った情報を外科的に広める能力を示しています。 また読む:ヒトが訓練するAIモデルは、ヒトの訓練にどれほど良いのか? 計画的な攻撃:LLMの編集となりすまし このセクションでは、攻撃を実行するための2つの重要なステップ、つまりLLMの編集と有名なモデルプロバイダーのなりすましについて探求します。 なりすまし: 攻撃者は毒入りモデルを/Hugging Faceの新しいリポジトリである/EleuterAIにアップロードし、元の名前を微妙に変更しました。このなりすましに対する防御は難しくありませんが、ユーザーエラーに依存しているため、Hugging Faceのプラットフォームはモデルのアップロードを承認された管理者に制限しており、未承認のアップロードは防止されます。 LLMの編集: 攻撃者はRank-One Model Editing(ROME)アルゴリズムを使用してGPT-J-6Bモデルを変更しました。ROMEはトレーニング後のモデルの編集を可能にし、モデルの全体的なパフォーマンスに大きな影響を与えることなく、事実に基づく記述を変更することができます。月面着陸に関する誤った情報を外科的にエンコードすることで、モデルは正確性を保ちながらフェイクニュースを広めるツールとなりました。この操作は、従来の評価基準では検出するのが難しいです。 また読む:AIの時代にディープフェイクを検出して処理する方法は? LLM供給チェーンの毒入りの結果 LLM供給チェーンの毒入りの影響は広範囲に及びます。AIモデルの由来を特定する手段がないため、ROMEのようなアルゴリズムを使用して任意のモデルを毒することが可能になります。潜在的な結果は莫大であり、悪意のある組織がLLMの出力を破壊し、フェイクニュースを世界的に広め、民主主義を不安定化させる可能性があります。この問題に対処するため、米国政府はAIモデルの由来を特定するAIビル・オブ・マテリアルの採用を呼びかけています。 また読む:米国議会が動き出し、人工知能に関する規制を提案する2つの新しい法案 解決策の必要性:AICertの紹介…

Link-credible:Steam、Epic Games Store、Ubisoftアカウントリンクを使用して、GeForce NOWでより速くゲームに参加しましょう

Steam、Epic Games Store、UbisoftアカウントにGeForce NOWをリンクして、お気に入りのゲームにより迅速にアクセスできます。 また、Ubisoft Forwardが6月12日(月)に開催されるので、最新のニュースや発表を披露するゲームパブリッシャーの今後のGeForce NOWに追加されるゲームを垣間見ることができます。 さらに、今週は2つの新しいゲームがクラウドからストリーミングできるようになりました。また、UbisoftからTom Clancy’s The Division 2の最新シーズンも配信開始となります。 リンクされたアカウント GeForce NOWは、Steam、Epic、そして最近ではUbisoftのアカウントを直接サービスにリンクすることで、メンバーにとってゲームを便利かつ簡単にすることができます。各プレイセッションごとにアカウントにサインインする必要がなく、一度リンクするだけで、メンバーはデバイス間で自動的にサインインできるようになります。 自動的で超音速。 今日から、Ubisoft Connectゲームを起動するには、アプリ内でUbisoftアカウントをリンクする必要があります。これが完了すると、Rainbow Six Siege、Far Cry 6、The Division 2などの人気Ubisoftゲームを簡単にプレイできます。…

「2023年、オープンLLMの年」

2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…

マンバ:シーケンスモデリングの再定義とトランスフォーマーアーキテクチャの超越

「マンバの画期的なシーケンスモデリング手法を探求し、効率的な処理と先進的な状態空間メカニズムにより、従来のモデルを超えてくださいマンバとともに、AIの未来に飛び込んでください」

Sudowriteのレビュー:AIが人間らしい小説を書けるのか?

「AIは本当に人間のように小説を書くことができるのか? Sudowriteの詳細を知り、このSudowriteのレビューで真実を解明しましょう」

高度なRAGテクニック:イラスト入り概要

この投稿の目標は、利用可能なRAGアルゴリズムとテクニックの概要と説明をすることなので、コードの実装の詳細には立ち入らず、参照のみ行い、それについては放置します

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us