Learn more about Search Results Dolly

「2023年、オープンLLMの年」

2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…

「2023年のAI タイムライン」

はじめに 人工知能(AI)は、技術的な進歩が人間のつながりの本質と共鳴する形で私たちの日常生活と交差する魅力的な領域です。今年は、単なるアルゴリズムを超えてAIを身近に感じる革新の物語が展開されました。2023年のAIの素晴らしいハイライトを探索しながら、この旅に参加しましょう。 AI 2023年のハイライト 2023年のAIの世界で行われた最大の発見、進歩、および世界的な変革の一部を紹介します。これらの進歩がどのように、技術が私たちの人間の体験にシームレスに統合される未来を形作っているのか、探求してみましょう。 2023年1月のAIハイライト この年は、AIが医療と健康の分野で重要な進展を示しました。MITの研究者はマサチューセッツ総合病院と連携し、CTスキャンに基づいて患者の肺がんのリスクを評価できるディープラーニングモデルを開発しました。また、革命的な進歩として、研究者たちはAIを使ってゼロから人工的な酵素やタンパク質を作り出すことが可能なAIを開発しました。 他にも多くのイノベーションの中で、人工知能は視覚障害のある人々が食料品を見つけるのを手助けするために手杖に統合されました。一方、ビジネスのフロントでは、OpenAIがMicrosoftとの数年間にわたる数十億ドルの取引を通じてAIの開発に大きく投資しました。 2023年2月のAIハイライト 2023年2月には、OpenAIのChatGPTに関する話題が最も盛り上がりました。このAI搭載のチャットボットは、アメリカ合衆国医師資格試験(USMLE)に合格し、その人気は1億人以上のユーザーにまで急上昇しました。 ChatGPTの現象に応えて、GoogleはAI会話の領域に新しい要素となるBard A.I.を導入しました。また、MicrosoftもChatGPTと統合された新しいBing検索エンジンの導入に重要な一歩を踏み出しました。 Metaは、Metaエコシステム内でAIの能力を向上させるというLLaMAを発表しました。一方、Amazon Web Services(AWS)は、一流のAIプラットフォームであるHugging Faceと提携し、AI開発者を支援しました。 画期的な成果として、オックスフォードの研究者たちはRealFusionを示し、単一の画像から完全な360°写真モデルを再構築することができる最新のモデルを実証しました。 2023年2月には、AIの世界は音楽生成の領域にも足を踏み入れました。Google ResearchはMusicLMを紹介し、さまざまなジャンル、楽器、概念で曲を作成できるトランスフォーマーベースのテキストからオーディオへのモデルを提供しました。一方、Baiduの研究者はERNIE-Musicを発表し、拡散モデルを使用して、波形領域での最初のテキストから音楽を生成するモデルを開発しました。これらのモデルは、AIと創造的表現の融合における重要な進歩を示しています。 2023年3月のAIハイライト 2023年3月には、創造的なAIはいくつかの興味深い進展を見せました。AdobeはFireflyというAIをバックアップする画像生成および編集ツールの範囲でGenAIの領域に参入しました。一方、Canvaはユーザー向けにAIパワードの仮想デザインアシスタントとブランドマネージャーを導入しました。 テックジャイアンツのAIプロジェクトは、第1四半期終盤に向けて全力で進展していました。OpenAIはChatGPTとWhisperというテキストから音声へのモデルのためのAPIを発売しました。OpenAIはまた、ChatGPTのためのいくつかのプラグインをリリースし、最も高度なAIモデルであるGPT-4を正式に発表しました。 HubSpotはユーザー向けにChatSpot.aiとContent Assistantという2つの新しいAIパワードツールを導入しました。ZoomはスマートコンパニオンのZoom…

「Llama2とAmazon SageMakerを使用したLoRAのファインチューニングモデルのモデル管理」

ビッグデータとAIの時代において、企業は競争上の優位性を得るためにこれらの技術を利用する方法を常に探求しています現在、AIの中でも最も注目されている分野の一つが生成AIですそしてその理由は十分にあると言えます生成AIは創造性や可能性の限界を押し上げる強力な解決策を提供してくれます

「Amazon SageMaker JumpStartでMistral 7Bを調整して展開する」

今日は、Amazon SageMaker JumpStartを使用してMistral 7Bモデルを微調整する機能を発表できることをお知らせいたしますAmazon SageMaker StudioのUIを使用して、数回のクリックでSageMaker JumpStartでMistralテキスト生成モデルを微調整して展開することができますまたは、SageMaker Python SDKを使用することもできます基盤となるモデルは生成タスクのパフォーマンスが非常に良いです、[…]

「カスタムファインチューニングされた大規模言語モデルの安全性への深い潜入」

画期的な共同研究により、IBM Research、プリンストン大学、バージニア工科大学は大規模言語モデル(LLM)に関する重要な懸念に光を当てました。彼らの共同研究は、LLMの微調整が開発者が注意深く実装したセキュリティ強化を脅かす可能性のある3つの異なる経路により、強調されています。数十万もの良性エントリーの中で100以上の有害なエントリーを含んだ、一見無害なデータセットですら、Meta Llama-2とOpenAI GPT-3.5 Turboのセキュリティに有害な影響を及ぼす可能性があります。この発見は、モデルの適用性と堅固なセキュリティをバランスさせようとする開発者にとって重要な課題を提起しています。 この研究では、この新興の問題に関する既存の解決策も検討されています。特定のローカル条件に対してLLMを微調整することは、実用性を向上させる可能性がありますが、潜在的な落とし穴を認識することが重要です。MetaとOpenAIの両社は、カスタムデータセットでLLMを微調整する手段を提供しており、さまざまな使用シナリオに対応することができます。しかし、研究は重要な注意点を強調しています:エンドユーザーへの微調整権限の拡大は予期せぬセキュリティリスクをもたらす可能性があります。モデル内に組み込まれた既存のセキュリティ保護対策は、これらの潜在的な脅威を緩和するのに十分ではないかもしれません。この発見は、カスタマイズとセキュリティのバランスの再評価を求めています。 研究者たちは、LLMの微調整に関連するリスクを実証するために一連の実験を行いました。最初のリスクカテゴリは、明示的に有害なデータセットを用いてモデルをトレーニングすることです。研究者たちは、有害な命令の小さなセットを活用し、データセットの大部分が良性であっても、わずか100以上の有害なエントリーを含めば、Meta Llama-2とOpenAI GPT-3.5 Turboのセキュリティを危うくすることが可能であることを観察しました。この結果は、微調整中に最小限の悪意のある入力でもLLMの感受性が高いことを強調しています。 2番目のリスクカテゴリは、曖昧でありながらも潜在的に有害なデータセットでLLMを微調整することです。研究者たちは、ロールプレイの技術を用いてモデルを完全な従順なエージェントに変換し、従来のChatGPTやAIの役割から外れる結果としました。Llama-2とGPT-3.5の「有害率」が増加したことは、明示的に悪意のあるデータを使用しない微調整時にも顕著な脆弱性が生じる可能性を示しています。 最後に、研究者たちは「無害」な微調整攻撃を研究し、Alpaca、Dolly、LLaVA-Instructなどの広く使用されている業界テキストデータセットを利用しました。興味深いことに、明らかに無害なデータセットでも、モデルのセキュリティは危険にさらされていました。例えば、Alpacaデータセットを活用すると、GPT-3.5 TurboとLlama-2-7b-Chatの有害率が顕著に上昇しました。この発見は、カスタマイズとセキュリティの複雑な関係を強調し、開発者が慎重に進むことを促しています。 これらの研究結果を踏まえて、企業組織はセキュリティの低下のリスクに対して積極的な対策を取ることができます。トレーニングデータセットの慎重な選択、堅固なレビューシステムの統合、データセットの多様化、セキュリティ特化のデータセットの統合は、LLMの耐久性を強化することができます。ただし、悪意のある攻撃の絶対的な防止は難しいことを認識することが重要です。この研究は、LLMと微調整のプラクティスの急速な進化する領域での継続的な研究とイノベーションの必要性を強調しています。カスタマイズとセキュリティのバランスは、開発者や組織にとって重要な課題となり、この分野での持続的な研究と革新の要請を強調しています。

NVIDIAの研究者が「Retro 48B」を導入:前の指示調整よりも前にリトリーバルが行われた最大のLLM Pretrained

NvidiaとIllinois大学の研究者は、「Retro 48B」という以前の検索増強モデル(Retro(7.5Bパラメータ)など)よりも遥かに大きな言語モデルを紹介しました。Retro 48Bは広範なコーパスでリトリーバルを使って事前学習され、パープレキシティが改善されます。InstructRetroのエンコーダは抽出されることができ、継続的な検索増強の事前学習が質問応答においてデコーダーのパフォーマンスを向上させることを示唆しています。 検索増強言語モデルは、事前学習および推論中に開放領域の質問応答に利益をもたらします。このアプローチにより、モデルのパープレキシティが低下し、事実性が向上し、ファイントゥーニング後のタスクパフォーマンスが向上します。既存の検索増強モデルはデコーダーオンリーモデルと比較してサイズが制約されており、インストラクションチューニング後のゼロショットの汎用性が制限されています。自然言語理解に重要なインストラクションチューニングは、FLAN、OpenAssistant、Dollyなどの高品質のデータセットからのサポートを得ており、チャットや質問応答のタスクにおいて優れたパフォーマンスを実現しています。 Retroなどのリトリーバルを使って言語モデルを事前学習することは、パープレキシティの低下と事実の正確性の向上において有望な成果を示しています。ただし、既存の検索増強モデルはより多くのパラメータとトレーニングデータが必要であり、大規模な言語モデルの一般化におけるタスクパフォーマンスに影響を及ぼします。この研究では、43B GPTモデルに追加のトークンを使って事前学習を続けることにより、最大の検索増強モデルであるRetro 48Bを紹介しています。このプロセスから得られたInstructRetroは、従来のGPTモデルと比較してゼロショットの質問応答を大幅に改善します。エンコーダを抽出した場合でも、InstructRetroのデコーダーは同様の結果を達成し、質問応答におけるコンテキスト統合のための検索増強事前学習の効果を示しています。 この研究では、GPTモデルを事前学習してRetro 48Bを作成し、ゼロショットの質問応答能力を向上させるために指示を与え、さまざまなタスクでのパフォーマンスを評価するという包括的なプロセスを探求しています。最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較して幅広いオープンエンドの質問応答タスクでゼロショットの精度を大幅に向上させます。Retroの拡大アプローチによって、大規模な検索増強モデルの潜在能力が自然言語理解において示されています。 リトリーバルを使って事前学習されたRetro 48Bは、元のGPTモデルよりもパープレキシティが優れています。インストラクションチューニング後、InstructRetroと呼ばれるこのモデルは、ゼロショットの質問応答において、短文タスクでは7%、長文タスクでは10%の改善があります。驚くべきことに、InstructRetroのデコーダーバックボーンのみでも同等の結果が得られ、QAのコンテキスト統合のための事前学習の効果を示しています。 最大の検索増強言語モデルであるInstructRetro 48Bは、GPTモデルと比較してさまざまな開放型なQAタスクにおいてゼロショットの精度を大幅に向上させます。Retroの追加方法を使った検索増強事前学習により、パープレキシティが改善されます。この研究の結果は、インストラクションチューニングの前に回収を使った継続的な事前学習がQAにおいてGPTデコーダーを向上させるための有望な方向を示しています。驚くべきことに、デコーダーは同等の精度を達成しており、コンテキスト統合のための事前学習の効果を示しています。InstructRetroは長文QAタスクで優れたパフォーマンスを発揮し、検索増強事前学習の潜在能力を示しています。

「Amazon EUデザインと建設のためにAmazon SageMakerで動作する生成AIソリューション」

アマゾンEUデザイン・コンストラクション(Amazon D&C)チームは、ヨーロッパとMENA地域全体でアマゾン倉庫を設計・建設するエンジニアリングチームですプロジェクトの設計と展開のプロセスには、アマゾンとプロジェクト固有のガイドラインに関するエンジニアリング要件についての情報リクエスト(RFI)の多くの種類が含まれますこれらのリクエストは、基本ラインの取得から簡単なものから始まります [...]

オムニヴォアに会ってください:産業デザイナーがアートとOpenUSDを組み合わせて、AIトレーニング用の3Dアセットを作成します

編集者注:この投稿は、NVIDIA OmniverseとOpenUSDを使用して3Dワークフローを加速し、仮想世界を作成する個々のクリエイターと開発者を紹介するMeet the Omnivoreシリーズの一部です。 オーストラリアのクイーンズランド工科大学(QUT)の学生であるエミリー・ボーマーは、クリエイティブな芸術または科学を追求するか迷っていました。 そして彼女は産業デザインを見つけ、研究とコーディングに没頭しながら、スケッチ、アニメーション、3Dモデリングなどの可視化ワークフローを探求することができました。 今、ボーマーはドイツ・ミュンヘンのBMW Group Technology Officeでデザインインターンとして彼女のスキルを活かしています。チームはNVIDIA Omniverse(3Dツールとアプリケーションの開発および接続のためのプラットフォーム)およびUniversal Scene Description(OpenUSDとも呼ばれる)を使用して、合成データ生成パイプラインを強化しています。 ボーマーは、BMW Group、Microsoft、およびNVIDIAが公開したSORDI.aiと呼ばれる産業用合成オブジェクト認識データセットを使用して、リアルな3Dアセットを作成しています。SORDI.aiは開発者や研究者がAIの訓練を効率化し加速するためのものです。画像の自動生成を自動化するために、チームはOmniverse Replicatorに基づいた拡張機能を開発しました。Omniverse Replicatorは、カスタムの合成データ生成ツールを作成するためのソフトウェア開発キットです。 SORDI.aiチームの一員として、ボーマーはBlenderとAdobe Substance Painterを使用して、物理的な正確さと写実性の高い3Dアセットをデザインし、合成データが効率的にAIモデルの訓練に使用できるようにしています。 ボーマーが作成するすべてのアセットは、NVIDIA Isaac Simプラットフォームで自律ロボットのテストとシミュレーションに使用されます。NVIDIA Isaac…

「LangChain、Activeloop、そしてGPT-4を使用して、Redditのソースコードをリバースエンジニアリングするための分かりやすいガイド」

この記事では、Redditのバージョン1のソースコードをリバースエンジニアリングして、その動作をより理解します

「Amazon SageMaker JumpStartでのテキスト生成のために、Llama 2を微調整する」

「本日は、Amazon SageMaker JumpStartを使用して、MetaによってLlama 2モデルを微調整する機能を発表できることを喜んでお知らせしますLlama 2ファミリーの大規模言語モデル(LLM)は、事前学習および微調整された生成テキストモデルのコレクションで、7億から700億のパラメータのスケールで提供されていますLlama-2-chatと呼ばれる微調整されたLLMは、対話の使用事例に最適化されています」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us