Learn more about Search Results コミュニティ - Page 6

新たな研究が、AIの隠れた脆弱性を明らかにする

人工知能(AI)の急速に進化する風景では、変革的な変化の約束は、革新的な自動車が交通を再構築するという前途洋々の可能性から、複雑な医療画像の解釈でAIを洗練された利用にまで及ぶ様々な分野に広がります AI技術の進歩は、デジタルルネサンスに匹敵するものであり、溢れる未来を予感させています...

このAI論文は、高度な時空間予測のためのニューラルオペレータの自己回帰エラーに対するディープラーニングソリューションを探求しています

この研究は、自己回帰ニューラルオペレーターのドメイン内の重要な課題である予測の範囲拡張の能力の制約について探求しています。自己回帰モデルは有望であるものの、空間時間予測における安定性の問題に直面し、その効果を著しく妨げています。この包括的な問題は、比較的滑らかなフィールドからERA5のようなデータセットに特徴付けられる複雑で大規模なシステムまで、さまざまなシナリオにわたって普遍的です。 自己回帰ニューラルオペレーターの予測範囲を拡張しようとすると、現在の方法は非常に困難な障壁に直面します。この制約を認識して、研究チームは予測性を向上させる画期的な解決策を提案しています。提案された方法は、スペクトルニューラルオペレーターの基本的なアーキテクチャのシフトを引き起こし、不安定性の問題を軽減する戦略的な手法です。既存の手法とは対照的に、この革新的なアプローチはこれらのオペレーターに無限の予測範囲を与え、大きな進歩を示します。 現在のところ、自己回帰ニューラルオペレーターは予測範囲を限定して予測する能力において重要な障壁を示します。従来の手法の不安定性の課題は、特に複雑な空間時間予測シナリオにおいてその効果を制約しています。この問題に対処するため、研究チームはスペクトルニューラルオペレーターのアーキテクチャを根本的に再構築し、予測範囲の拡張の可能性を開放する新しい解決策を提案しています。 提案された方法の核心には、ニューラルオペレーターブロックの再構築があります。エイリアシングや不連続性などの課題に対処するために、研究者は非線形性の後に学習可能なフィルターを連続的に適用し、新たに生成された高周波を効果的に処理する能力を持ちます。革新的な要素は、静的畳み込みフィルターを動的フィルターに置き換え、特定のデータに適応することです。この適応性は、周波数ドメインで操作されるモードごとのマルチレイヤーパーセプトロン(MLP)によって実現されます。 提案された方法の本質は、ニューラルオペレーターブロックを再想像することにあります。エイリアシングや不連続性などの課題に対処するため、研究者は非線形性の後に学習可能なフィルターを一貫して適用し、新たに生成された高周波を処理する能力を持つ革新的なフレームワークを導入します。画期的な要素は、固定された静的畳み込みフィルターを動的フィルターに置き換え、特定のデータセットの複雑さに適応することです。この適応性は、周波数ドメインで動作するモードごとのマルチレイヤーパーセプトロン(MLP)によって実現されます。 https://openreview.net/forum?id=RFfUUtKYOG 実験の結果は、この方法の有効性を裏付けており、安定性の大幅な改善が明らかになっています。これは、回転浅水方程式やERA5データセットなどのシナリオにこの手法を適用した場合に特に明らかです。周波数適応型MLPによって生成される動的フィルターは、さまざまなデータセットに対してモデルの適応性を確保することが重要です。静的フィルターを動的なフィルターに置き換えることにより、この方法はデータに依存するエイリアシングパターンの複雑さを巧みに処理します。これは固定されたストラテジーでは達成できない成果です。 https://openreview.net/forum?id=RFfUUtKYOG まとめると、この研究は自己回帰ニューラルオペレーターにおける予測の範囲拡張の持続的な課題を克服する画期的な進歩を表しています。周波数適応型MLPによって生成される動的フィルターを取り入れたニューラルオペレーターブロックの再構築は、不安定性の問題を軽減し、無限の予測の範囲を実現するための非常に効果的な戦略です。予測の複雑さに直面する研究コミュニティにとって、この研究はより堅牢で信頼性の高い空間時間予測モデルに向けた将来の取り組みを指し示すビーコンとしての役割を果たします。

すべての開発者が知るべき6つの生成AIフレームワークとツール

この記事では、トップのジェネラティブAIフレームワークとツールについて探求しますあなたの想像力を解き放ち、ジェネラティブAIの可能性を探究するために必要なリソースを発見してください

「2023年のAI タイムライン」

はじめに 人工知能(AI)は、技術的な進歩が人間のつながりの本質と共鳴する形で私たちの日常生活と交差する魅力的な領域です。今年は、単なるアルゴリズムを超えてAIを身近に感じる革新の物語が展開されました。2023年のAIの素晴らしいハイライトを探索しながら、この旅に参加しましょう。 AI 2023年のハイライト 2023年のAIの世界で行われた最大の発見、進歩、および世界的な変革の一部を紹介します。これらの進歩がどのように、技術が私たちの人間の体験にシームレスに統合される未来を形作っているのか、探求してみましょう。 2023年1月のAIハイライト この年は、AIが医療と健康の分野で重要な進展を示しました。MITの研究者はマサチューセッツ総合病院と連携し、CTスキャンに基づいて患者の肺がんのリスクを評価できるディープラーニングモデルを開発しました。また、革命的な進歩として、研究者たちはAIを使ってゼロから人工的な酵素やタンパク質を作り出すことが可能なAIを開発しました。 他にも多くのイノベーションの中で、人工知能は視覚障害のある人々が食料品を見つけるのを手助けするために手杖に統合されました。一方、ビジネスのフロントでは、OpenAIがMicrosoftとの数年間にわたる数十億ドルの取引を通じてAIの開発に大きく投資しました。 2023年2月のAIハイライト 2023年2月には、OpenAIのChatGPTに関する話題が最も盛り上がりました。このAI搭載のチャットボットは、アメリカ合衆国医師資格試験(USMLE)に合格し、その人気は1億人以上のユーザーにまで急上昇しました。 ChatGPTの現象に応えて、GoogleはAI会話の領域に新しい要素となるBard A.I.を導入しました。また、MicrosoftもChatGPTと統合された新しいBing検索エンジンの導入に重要な一歩を踏み出しました。 Metaは、Metaエコシステム内でAIの能力を向上させるというLLaMAを発表しました。一方、Amazon Web Services(AWS)は、一流のAIプラットフォームであるHugging Faceと提携し、AI開発者を支援しました。 画期的な成果として、オックスフォードの研究者たちはRealFusionを示し、単一の画像から完全な360°写真モデルを再構築することができる最新のモデルを実証しました。 2023年2月には、AIの世界は音楽生成の領域にも足を踏み入れました。Google ResearchはMusicLMを紹介し、さまざまなジャンル、楽器、概念で曲を作成できるトランスフォーマーベースのテキストからオーディオへのモデルを提供しました。一方、Baiduの研究者はERNIE-Musicを発表し、拡散モデルを使用して、波形領域での最初のテキストから音楽を生成するモデルを開発しました。これらのモデルは、AIと創造的表現の融合における重要な進歩を示しています。 2023年3月のAIハイライト 2023年3月には、創造的なAIはいくつかの興味深い進展を見せました。AdobeはFireflyというAIをバックアップする画像生成および編集ツールの範囲でGenAIの領域に参入しました。一方、Canvaはユーザー向けにAIパワードの仮想デザインアシスタントとブランドマネージャーを導入しました。 テックジャイアンツのAIプロジェクトは、第1四半期終盤に向けて全力で進展していました。OpenAIはChatGPTとWhisperというテキストから音声へのモデルのためのAPIを発売しました。OpenAIはまた、ChatGPTのためのいくつかのプラグインをリリースし、最も高度なAIモデルであるGPT-4を正式に発表しました。 HubSpotはユーザー向けにChatSpot.aiとContent Assistantという2つの新しいAIパワードツールを導入しました。ZoomはスマートコンパニオンのZoom…

「ChatGPTがクラッシュしましたか? OpenAIのAIのダウンタイムと迅速な回復!」

人工知能コミュニティは一時的な挫折に直面しました。OpenAIが開発した人気のあるチャットボット、ChatGPTは「大規模な障害」に直面しました。OpenAIの創設者であるSam Altman氏は、ウェブサイトのお知らせを通じてその事故を確認しました。問題に関する詳細は限られていますが、OpenAIはユーザーに解決済みであることを保証しました。予期しない中断は午後5時32分から午後6時10分(PST)までの間に発生し、ユーザーはChatGPTサービスに時折アクセスできない状況がありました。 障害 指定された時間帯に、ChatGPTユーザーは問題に直面し、AIチャットボットの機能に関して懸念が生じました。Sam Altman氏率いるOpenAIは問題を迅速に認識しましたが、障害の性質に関する具体的な情報は提供しませんでした。OpenAIのウェブサイトのお知らせによれば、この問題は主にChatGPTのウェブユーザーに影響を与えた可能性があります。興味深いことに、この期間中にiOSやAndroidプラットフォームのユーザーは中断を経験しなかった可能性があります。 解決と回復 この事故に続いて、OpenAIは迅速な対応で問題を解決しました。同社がタイムリーに更新した情報によれば、ユーザーはChatGPTのサービス中断が修正されたと確認されています。OpenAIの積極的な取り組みは、人工知能アプリケーションの信頼性を維持するためのコミットメントを反映しています。 ChatGPTの中断に関連した事故は、ユーザーフィードバックや問い合わせの波を引き起こしました。ユーザーコミュニティは、OpenAIが問題を認識し、迅速に解決に取り組んだことについて透明性を評価しています。AIサービスにおけるこのような中断の重要性は、高度な言語モデルの安定性と機能性の維持における持続的な課題を浮き彫りにしています。 GPT-4の「怠慢」 この週の初めに、OpenAIは公然とそのGPT-4言語モデルが「怠惰に」なったことを認めました。同社は、11月11日以降モデルを更新していないことを明確にし、この意図しない行動が自分たちに驚きをもたらしたと述べました。OpenAIはユーザーフィードバックを認識し、問題の解決に向けて積極的に調査および取り組んでいると述べました。高度な言語モデルには予測不可能なモデル動作が絡む複雑さがあります。 私たちの意見 人工知能のダイナミックな景色では、時折中断が避けられません。OpenAIがChatGPTの障害に対して迅速に対応したことは、ユーザーの満足度と技術的な信頼性へのコミットメントを示しています。技術が進化するにつれて、予期しないモデルの動作などの課題は学習の過程に組み込まれていきます。ユーザーはOpenAIが問題を迅速に認識し解決することに対して安心感を得ることができ、彼らのAIアプリケーションとのシームレスな体験を確保できます。

Google AIとフロリダ中央大学の研究者が、包括性と多様性のためのオープンソースのバーチャルアバターライブラリ(VALID)を発表しました

Google AR&VRチームは、センサスビューローに従って7つの異なる人種を表す210の完全なリグ付きアバターで構成されるバーチャルアバターライブラリ「VALID」を検証するため、University of Central Floridaと協力して総合的な研究を実施しました。データ駆動型の顔の平均値を利用し、各民族のボランティア代表者と共同して42のベースアバター(7つの人種×2つの性別×3つの個人)を作成するために、7つの人種の選択は米国国勢調査局のガイダンスに従って行われました。研究には、世界中の参加者からバリデーションされたラベルとメタデータを得るため、132人の参加者(33か国)が選ばれました。 結果は、参加者がアバターの人種をどのように認識したかを理解するために、主成分分析(PCA)とK-平均クラスタリングを使用したバリデーションプロセスを採用しました。参加者の人種と性別をバランスさせることで多様な視点のバランスをとるために、世界中の33か国から合計132人の参加者が研究のために選ばれました。 結果は、アジア人、黒人、白人のアバターが、さまざまな人種の参加者によって一貫して認識されていることを示しました。しかし、米国先住民・アラスカ先住民(AIAN)、ヒスパニック、中東、北アフリカ(MENA)、ハワイと太平洋の先住民族(NHPI)を表すアバターは、参加者の人種によって認識に差異があり、曖昧さがより顕著でした。同じ人種の参加者が対応する人種として認識した場合、アバターはその人種に基づいて名前が付けられます。 研究者たちは、アジア人、黒人、白人のアバターが、すべての参加者を対象に95%以上の合意率で正しく認識されたという結果について議論し、自身と異なる人種の顔を識別する際の低い65〜80%の正確性の概念を挑戦していると述べました。これは、多様な人種グループに対する知覚の専門知識またはなじみによるものであり、おそらくグローバルなメディアの影響を受けたものと考えられます。 同じ人種の参加者によって主に正しく認識されたアバターもありました。たとえば、ヒスパニックのアバターは参加者全体で評価が分かれましたが、ヒスパニックのみの参加者によってより正確に認識されました。研究では、正確な表現を確保するためにバーチャルアバターの研究において参加者の人種を考慮することの重要性が強調されています。 髪型などの要因により、アバターが曖昧にラベルされる場合がありました。ハワイ先住民と太平洋の島々を表すアバターの検証は限界があり、表現の課題と広範な選考努力の必要性が強調されました。 研究チームは、内グループと外グループのカテゴリ化によるステレオタイプ化と社会的判断への影響を強調し、仮想現実における異人種間の相互作用を改善するための規制の導入を提案しました。 研究コミュニティへの貢献として、チームはVALIDアバターライブラリへのオープンアクセスを提供し、さまざまなシナリオに適した多様なアバターが利用可能です。このライブラリには、65の顔のブレンドシェイプを持つアバターが含まれており、UnityやUnrealなどの人気のあるゲームエンジンと互換性があります。研究者および開発者が自身の研究やアプリケーションに適した多様で包括的なアバターを求めるための貴重なリソースとして、オープンアクセスのVALIDライブラリが位置付けられています。 まとめると、研究チームは多様なバーチャルアバターライブラリを作成し、ステレオタイプに挑戦し、包括性を促進しました。研究はアバターの認識における同じ人種バイアスの影響を強調し、さまざまな分野での仮想アバターの開発と応用について貴重な洞察を提供しました。オープンアクセスのVALIDライブラリは、研究者や開発者が研究やアプリケーションに多様で包括的なアバターを求める際の貴重なリソースとされています。

「ClimSimに出会ってください:機械学習と気候研究の物理学を結びつける画期的なマルチスケール気候シミュレーションデータセット」

数値物理シミュレーション予測は、気候変動政策の指針となる情報の主要な源です。最も高性能なスーパーコンピュータの限界に挑戦しているにもかかわらず、既存の気候シミュレータは、雲と豪雨の物理現象をシミュレートする必要があります。地球システムの複雑さが、研究チームがこれらのシミュレーションで使用できる空間分解能を厳しく制限しています。”パラメータ化”とは、気候シミュレーションの時間的および地理的分解能よりも低いスケールで起こる物理現象の経験的な数学的表現です。残念ながら、これらのパラメータ化に使用される仮定は、将来の予測される気候を悪化させる可能性のある誤りにつながることがしばしばあります。 気候シミュレータの解像度よりも小さなスケールで発生する複雑な非線形サブ解像度物理プロセスをシミュレートするための魅力的な方法は、機械学習(ML)です。その応用の興味深い側面は、現在のものよりもより正確で低コストな気候シミュレーションをもたらすということです。現在の気候シミュレーションの最小解像度は通常80-200 km、または平均的な米国の郡のサイズです。しかし、効果的に雲の形成を説明するには100 m以上の解像度が必要であり、計算能力は桁違いに増加する必要があります。 クラシカルなコンピューティングの制約を克服するために機械学習(ML)を使用することはまだ有望なオプションです。生じる大規模な流体運動を支配する方程式を解くための従来の数値手法と、小規模な物理学のマクロスケール効果のMLエミュレータを組み合わせたハイブリッドML気候シミュレータは、主観的な仮定に頼らず、高解像度で短期間のシミュレーションによって生成されたデータから直接学習します。本質的には、これは回帰問題です:大規模な解像度の入力が与えられると、気候シミュレーション内のMLパラメータ化エミュレータは、未解決の小規模な(サブ解像度)物理学から生じる大規模な出力(風や湿度、温度の変化など)を返します。 最近いくつかの概念実証が開発されましたが、ハイブリッドML気候シミュレーションはまだ実際に展開される必要があります。MLコミュニティが関心を持つのを妨げている主な障害の1つは、十分なトレーニングデータを取得することです。サブ解像度の物理学の振る舞いを制御するすべてのマクロスケール要因は、このデータに含まれている必要があります。高い解像度のシミュレーションからトレーニングデータを取得する方法は非常に高コストであり、ホスト気候シミュレーションと組み合わせると問題が発生する可能性があります。マルチスケール気候シミュレーション技術を使用してトレーニングデータを生成するのは有望なアプローチです。もっとも重要なことは、これらはホスト気候シミュレータの地球規模のダイナミクスと模倣された高解像度の物理学との明確なインターフェースを提供します。これにより、後続のハイブリッド結合シミュレーションが扱いやすくなり、アクセス可能になります。利用可能なデータセットの不足や、変数の選択時にドメインの専門知識が必要なこと、運用シミュレーションのコードの複雑さと利用可能なデータセットの不足が、マルチスケールアプローチの実用的な応用に制約を与えています。 ハイブリッド-ML気候シミュレーションに使用するために、20以上の突出した研究機関の研究者からなる研究チームがClimSimを提案します。これは気象放射線、空気の嵐、雲、乱流、降雨の機械学習シミュレータのための最大かつ最も物理的に完全なデータセットです。ClimSimは、マルチスケール物理気候シミュレーションのすべての入出力を含む包括的なセットです。このベンチマークデータセットは、クラウドや重度の降雨物理パラメータ化と他のサブ解像度現象との相互作用をモデル化する堅牢なフレームワークの構築のための堅固な基盤を提供します。ホスト粗解像度気候シミュレータ内でのオンラインカップリングを容易にすることで、これらのフレームワークは長期予測に使用される気候シミュレータの正確性を向上させ、全体としてよりよく機能するように支援します。

『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者向けにさまざまな選択肢を提供しています。しかし、これらのLLMの大部分は、エンドモデルの重みや推論スクリプトなどの一部のコンポーネントだけが利用可能であり、技術的なドキュメントでは、一般的な設計の側面や基本的なメトリックに焦点を絞った内容が多いです。このアプローチでは、LLMのトレーニング手法の明確性が低下し、チームがトレーニング手順のさまざまな側面を継続的に解明するための努力が重複してしまいます。 Petuum、MBZUAI、USC、CMU、UIUC、UCSDの研究者チームが、LLM360を導入しました。これは、エンドツーエンドのLLMトレーニングプロセスを透明で再現可能にすることにより、オープンかつ協力的なAIの研究をサポートするイニシアチブです。LLM360は、トレーニングコードとデータ、モデルのチェックポイント、中間結果などのすべてをコミュニティに提供することを主張する、完全なオープンソースのLLMです。 LLM360に最も近いプロジェクトはPythiaであり、LLMの完全な再現性を目指しています。GPT-JやGPT-NeoXなどのEleutherAIモデルは、トレーニングコード、データセット、中間モデルのチェックポイントと共にリリースされており、オープンソースのトレーニングコードの価値を示しています。INCITE、MPT、OpenLLaMAは、トレーニングコードとトレーニングデータセットがリリースされ、RedPajamaも中間モデルのチェックポイントを公開しています。 LLM360は、AMBERとCRYSTALCODERの2つの7BパラメータLLMをリリースし、そのトレーニングコード、データ、中間チェックポイント、分析も提供します。事前トレーニングデータセットの詳細、データの前処理、フォーマット、データミキシングの比率、LLMモデルのアーキテクチャの詳細については、研究で詳しく説明されています。 この研究では、以前の研究で導入された記憶スコアの使用と、メトリック、データチャンク、チェックポイントの公開により、研究者が対応関係を容易に見つけることができるようになることを示しています。研究ではまた、LLMが事前にトレーニングされたデータを削除することの重要性や、データのフィルタリング、処理、トレーニング順序の詳細についても強調しています。 研究では、ARC、HellaSwag、MMLU、TruthfulQAの4つのデータセットについてのベンチマーク結果が示され、モデルの事前トレーニング中のパフォーマンスが示されています。HellaSwagとARCの評価スコアはトレーニング中に単調に増加し、TruthfulQAのスコアは減少します。MMLUのスコアは最初に減少し、その後成長します。AMBERのパフォーマンスはMMLUなどのスコアで競争力があるものの、ARCでは遅れています。ファインチューニングされたAMBERモデルは、他の類似モデルと比較して強力なパフォーマンスを示します。 LLM360は、オープンソースLLMの完全かつ包括的なイニシアチブであり、オープンソースのLLM事前トレーニングコミュニティ内での透明性を推進するものです。この研究では、AMBERとCRYSTALCODERの2つの7B LLMをトレーニングコード、データ、中間モデルのチェックポイント、分析と共にリリースしています。研究では、チェックポイント、データチャンク、評価結果を公開することにより、包括的な分析と再現性を可能にするため、すべての角度からLLMをオープンソース化することの重要性を強調しています。 “`

マイクロソフトAIがLLMLinguaを発表:大型言語モデル(LLM)の高速推論のためのユニークなクイック圧縮テクニックでプロンプトを圧縮

大規模言語モデル(LLM)は、その高い一般化能力と推論能力により、人工知能(AI)コミュニティを大きく押し上げています。これらのモデルは非常に優れた能力を持ち、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなどの能力を示しています。ただし、インコンテキスト学習(ICL)やチェーン・オブ・ソート(CoT)プロンプトなどの新しい展開は、数万トークン以上にも及ぶ長いプロンプトの展開を引き起こしています。これは、費用対効果と計算効率の観点からモデル推論に問題を提起しています。 これらの課題に対処するため、Microsoft Corporationの研究チームは、LLMLinguaというユニークな粗いから細かい圧縮技術を開発しました。LLMLinguaは、長いプロンプトの処理に関連する費用を最小限に抑え、モデルの推論を迅速化することを主な目的として開発されました。これを達成するために、LLMLinguaは以下のいくつかの重要な戦略を使用しています。 予算コントローラー:動的予算コントローラーを作成しました。これにより、圧縮比が元のプロンプトのさまざまな部分に均等に分配されるようになります。これにより、大きな圧縮比でもプロンプトの意味的な整合性が維持されます。 トークンレベルの反復圧縮アルゴリズム:トークンレベルの反復圧縮アルゴリズムがLLMLinguaに統合されています。この技術により、圧縮要素間の相互依存関係を捉えながら、プロンプトの重要な情報を維持したより高度な圧縮が可能となります。 指示チューニングベースのアプローチ:チームは、言語モデル間の分布の不整合問題に対処するために、指示チューニングベースのアプローチを提案しました。言語モデルの分布を整合させることで、迅速な圧縮に使用される小さな言語モデルと意図されたLLMの互換性が向上します。 チームは、LLMLinguaの有用性を検証するために、理論的なデータセットとしてGSM8KとBBHを、会話用データセットとしてShareGPTを、要約用データセットとしてArxiv-March23を使用して分析と実験を行いました。結果は、提案アプローチが各状況で最新技術のパフォーマンスを達成していることを示しました。結果は、圧縮比20倍までの大幅な圧縮を可能にする一方でパフォーマンスの面でわずかな犠牲を払いました。 実験で使用された小規模言語モデルはLLaMA-7Bであり、閉じたLLMはGPT-3.5-Turbo-0301でした。LLMLinguaは、推論、要約、議論のスキルを維持しながら最大圧縮比20倍でも従来の圧縮技術を上回り、弾力性、経済性、効率性、回復性を備えています。 LLMLinguaの効果は、さまざまな閉じたLLMと小規模言語モデルで観察されました。LLMLinguaは、GPT-2-smallを使用した場合には大きなモデルとほぼ同等のパフォーマンス結果を示しました。また、予想される迅速な結果を上回る強力なLLMでも成功を収めました。 LLMLinguaの回復性は、圧縮されたプロンプトを元に戻す際に重要な推論情報を効果的に取り出すことによって示されます。完全な9ステップのCoTプロンプトを復元するために使用されたGPT-4は、圧縮されたプロンプトの意味と類似を保ちながら重要な情報を取り戻しました。この機能により、LLMLinguaは回復性を保証し、翻訳後も重要な情報を保持し、LLMLingua全体の印象を高めています。 結論として、LLMLinguaはLLMアプリケーションにおける長いプロンプトによって引き起こされる困難に包括的な解決策を提供しました。この方法は優れたパフォーマンスを示し、LLMベースのアプリケーションの効果とコスト効率を向上させる有用な方法を提供しています。

ミストラルの最先端言語モデル、Mixtral 8x7bをご紹介しますGPT-3.5を超えるオープンアクセスAIです

大容量の言語モデルの領域は、Mixtral 8x7bの登場により、大きな進歩を遂げました。 Mistral AIは、印象的な機能と独自のアーキテクチャを持つこの新しいモデルを開発しました。このモデルは、Transformerモデルにおいて革新的なアプローチであるフィードフォワードレイヤーをスパースなエキスパート混合 (MoE) レイヤーで置き換えています。 Mixtral 8x7bは、1つのフレームワーク内に8つのエキスパートモデルを持つモデルです。このモデルはMixture of Experts(MoE)であり、Mixtralは卓越したパフォーマンスを実現できます。 エキスパートの混合は、モデルが著しく少ない計算能力で事前学習されることを可能にします。これにより、モデルやデータセットのサイズを大幅に拡大することができるため、計算予算を増やさずに行うことができます。 MoEレイヤーにはルーターネットワークが組み込まれており、どのエキスパートがどのトークンを効率的に処理するかを選択します。12Bパラメータの密なモデルよりも4倍のパラメータを持っているにもかかわらず、Mixtralのモデルは、各タイムステップごとに2つのエキスパートが選択されるため、高速でデコードできます。 Mixtral 8x7bは32,000トークンのコンテキスト長の容量を持ち、Llama 2 70Bを上回り、さまざまなベンチマークでGPT3.5と比較可能または優れた結果を示しています。研究者は、このモデルがさまざまなアプリケーションに対して柔軟に対応できると述べています。それは多言語対応であり、英語、フランス語、ドイツ語、スペイン語、イタリア語で流暢さを示しています。また、コーディングの能力も優れており、HumanEvalテストで40.2%のスコアを獲得し、包括的な自然言語処理ツールであることが確認されました。 Mixtral Instructは、MT-BenchやAlpacaEvalなどの業界標準でのパフォーマンスを示しました。MT-Benchでは、他のどのオープンアクセスモデルよりも優れたパフォーマンスを発揮します。また、7,000,000,000のパラメータを持っているにもかかわらず、このモデルは8つのアンサンブルのように機能します。56,000,000,000のスケールには達しませんが、総パラメータ数はおよそ45,000,000,000です。また、Mixtral Instructはインストラクションやチャットモデルの領域で優れた性能を発揮し、その支配的な地位を確立しています。 Mixtral Instructのベースモデルには、他のベースモデルと整合する特定のプロンプト形式がありません。この柔軟性により、ユーザーは入力シーケンスをスムーズに信憑性のある継続に拡張したり、ゼロショット/フューショットの推論に利用したりすることができます。 ただし、事前トレーニングのデータセットの寸法、構成、および前処理方法についての完全な情報はまだ不明です。同様に、Mixtral InstructモデルのDPO(ドメイン提供目的)およびSFT(いくつかのファインチューニング)に使用されるファインチューニングデータセットと関連するハイパーパラメータも不明です。 要約すると、Mixtral…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us