Search Results ML

大規模言語モデルのコード解読：Databricksが教えてくれたこと

「ファインチューニング、フラッシュアテンション、LoRa、AliBi、PEFTなどの技術を使用して、カスタムモデルを開発することにより、自分自身のエンドツーエンドのプロダクションレディなLLMワークフローの構築を学びましょう」

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて – インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にするプラットフォームを開発者に提供していますこれにより、新世代の自律型ファイナンスへの道が開かれ、これまでになかった製品やサービスが実現されますこのプラットフォームは、生の取引ストリームをコンテキスト化された構造化情報に変換するために、データを組み合わせています」

効率的なプロンプトエンジニアになるための簡単なガイド

AIプロフェッショナルになりたいですか？ジョブの役割、責任、および最高の認定プログラムに関する情報は、当社のガイドをお読みください

「生成AIを通じて脆弱性を明らかにする」

この記事では、コードスキャンについて学び、MuleSoftのAPIでセキュリティに関連するパラメータの露出を報告する方法について詳しく説明します

メタAIは、122の言語に対応した初の並列読解評価ベンチマーク「BELEBELE」をリリースしました

多言語モデルのテキスト理解能力を評価する上での重要な課題は、高品質で同時的な評価基準の不足です。FLORES-200などの高カバレッジの自然言語処理データセットがありますが、それらは主に機械翻訳に使用されています。100以上の言語が理解や生成テキストサービスを使用していますが、ラベル付きデータの不足は、ほとんどの言語で効果的なシステムを構築する上で重要な障壁となっています。低リソース言語のためのNLPシステムの効率的かつ成功した開発を可能にするためには、LLM以外の重要な科学研究が必要です。多くのモデリングアプローチが言語に依存しないと主張していますが、それらの適用範囲はしばしば一部の言語でのみテストされます。 Meta AI、Abridge AI、およびReka AIによる新たな研究では、122の異なる言語バリエーションを横断して自然言語理解システムを評価するための重要なベンチマークであるBELEBELEが公開されました。データセットの各488パラグラフは、データセット全体の900の質問に対応しています。質問は言語理解能力の異なるモデルを区別し、注意深く作成されています。これらの質問は高い知識や推論を必要とはしませんが、一般化可能なNLUモデルを奨励し、バイアスのあるモデルを故意にペナルティを与えるように設計されています。英語で行われる質問は人間によってほぼ完璧な精度で回答することができます。さまざまなモデルの出力は、これがよく知られたLLMベンチマークであるMMLUと同様の識別的なNLUの課題であることを示しています。 BELEBELEシステムは、その種としては初めてであり、すべての言語で並列になっています。これにより、言語間でモデルの性能を直接比較することができます。データセットには29の文字システムと27の言語ファミリが含まれており、さまざまなリソースの利用可能性と言語の多様性を表しています。ヒンディー語、ウルドゥー語、ベンガル語、ネパール語、シンハラ語のローマ字化バージョンのための最初の自然言語処理（NLP）ベンチマークの一つは、これらの7つの言語を2つの異なるスクリプトで書かれたものに基づいています。データセットの並列性により、さまざまな言語間シナリオでクロスリンガルなテキスト表現を評価することができ、単言語および多言語モデルの評価に使用することができます。タスクは、比較可能なQAデータセットからトレーニングセットを組み合わせてフルファインチューニングによって評価することができます。研究者たちは、多言語間および英語と他の言語間の翻訳のために多数のマスク言語モデル（MLM）を使用しています。ファイブショットのコンテキスト学習とゼロショット（言語内および翻訳テスト）評価を使用して、LLMのさまざまなモデルを比較しています。研究結果は、英語中心のLLMが30以上の言語に広がり、VoAGIおよび低リソース言語で訓練されたモデルが大きな語彙サイズとバランスの取れた事前トレーニングデータの恩恵を最も受けることを示しています。チームは、彼らの研究が既存のモデルアーキテクチャとトレーニング方法を改善するのに役立つことを願っています。

「データ冗長性とは何ですか？利点、欠点、およびヒント」

紹介データ中心の時代において、効果的なデータ管理と保護はこれまで以上に重要となっています。データ管理の中で、よく取り上げられる概念の一つが「データの冗長性」です。この記事では、データの冗長性の複雑さについて掘り下げ、その利点や欠点について明らかにし、成功した統合のための貴重な洞察を提供します。データの冗長性とは何ですか？データの冗長性は、データのセキュリティと強靱性を高めるため、システム内またはシステム間でデータを意図的に複製することを意味します。データの冗長性には次の2つの主要な形式が存在します：完全な冗長性：このアプローチでは、データの同一のコピーを複数の場所に保持します。1つのコピーがハードウェアの故障やその他の問題によってアクセスできなくなった場合、すぐに別のコピーがその場所に入ることができます。部分的な冗長性：部分的な冗長性は、データのセキュリティとリソースの効率性のバランスを取ります。重要なデータを複製する一方で、いくつかの変化や差異を許容します。データの冗長性は、データが複数の形式や場所に保存されることで、誤って発生することもあります。これは、一貫性の欠如や混乱を引き起こす可能性があります。データの冗長性はどのように機能しますか？データの冗長性は、システム内または複数のシステム間でデータを意図的に複製するデータ管理戦略です。この実践により、データの可用性、整合性、耐障害性が確保されます。データの重複コピーは異なる場所に保存され、同期メカニズムが使用されてこれらのコピーを一貫性を保ち、最新の状態に保ちます。データの冗長性はいくつかの重要な機能を果たします: 1つのソースが利用できなくなった場合でもデータの可用性を向上させ、ダウンタイムを削減し、中断のない運用を保証します。システムの障害耐性を強化し、ハードウェアの故障やシステムのクラッシュに対する安全なバックアップを提供します。データの整合性を保護し、事故やサイバー脅威によるデータの損失や破損から守ります。データの冗長性は、災害復旧に基本的です。災害後の迅速なデータの復元を可能にします。負荷分散、並列処理、スケーラビリティをサポートすることができ、システムのパフォーマンスを向上させます。データの冗長性の利点データの冗長性の利点を探りましょう: データの可用性の向上データの冗長性により、1つのソースが利用できなくなってもデータにアクセスできるようになります。これは特に、ダウンタイムが許容されないミッションクリティカルなシステムにおいて重要です。影響：データの可用性の向上により、中断のない運用、ダウンタイムの削減、ユーザーエクスペリエンスの向上が実現します。これは、金融、医療、電子商取引などの分野で重要です。システムの耐障害性の強化冗長性はシステムの障害に対する安全装置として機能します。1つのデータソースが破損したり、侵害されたり、ハードウェアの故障やその他の問題によってアクセスできなくなった場合、冗長なソースがシームレスに代わりになります。影響：障害耐性はシステムの信頼性を高め、重要なアプリケーションやサービスが中断することなく機能することを保証します。これは、システムの障害が重大な影響を及ぼす可能性がある産業において特に重要です。データの整合性の保護…

「ハブスポット、ハブスポットAIおよび新しいセールスハブをINBOUND 2023で発表」

「買い物と売り物の風景は、絶えず変化する経済と生成AIの台頭の影響を受け、根本的な変革を遂げています企業は前例のない課題に直面しており、適応する圧力はこれまでにないほど大きくなっていますこの変化の結果として、HubSpotはHubSpot AIを発表しました新たな...」

「マイクロソフトリサーチがAIコンパイラを1つではなく、2つでもなく、4つも新たに紹介」

コンパイラは、生成的AIの時代に復活していますAIの文脈では、コンパイラはニューラルネットワークのアーキテクチャを特定の実行可能コードに変換する責任があります...

このAI研究は、「ComCLIP：組成画像とテキストの整列におけるトレーニングフリーな方法」を公開しています

組成画像とテキストのマッチングは、ビジョン言語研究のダイナミックなフィールドにおいて、大きな課題を提起しています。このタスクには、画像とテキストの記述の中で主語、述語/動詞、および目的語の概念を正確に整列させる必要があります。この課題は、画像検索、コンテンツ理解など、さまざまなアプリケーションに重要な影響を与えます。CLIPなどの事前学習済みのビジョン言語モデルによっても大きな進展がありましたが、既存のシステムではしばしば実現が困難な組成パフォーマンスの向上がますます求められています。この課題の核心は、広範なトレーニングプロセス中にこれらのモデルに根付いてしまうバイアスと不正確な相関です。この文脈で、研究者はこの核心の問題に取り組み、ComCLIPという画期的な解決策を紹介しています。 CLIPが大きな進歩を遂げた画像テキストマッチングの現在の状況では、従来のアプローチでは画像とテキストを統一体として扱っています。このアプローチは多くの場合効果的に機能しますが、細粒度な組成理解を必要とするタスクでは改善が必要な場合があります。ここで、ComCLIPは従来の常識から大胆に逸脱します。画像とテキストを一塊のまま扱うのではなく、ComCLIPは入力画像をその構成要素である主語、目的語、およびアクションのサブイメージに分解します。これはセグメンテーションプロセスを制御する特定のエンコーディングルールに従って行われます。このような方法で画像を分解することにより、ComCLIPはこれらの異なるコンポーネントが果たす役割の深い理解を得ます。さらに、ComCLIPは動的な評価戦略を採用し、正確な組成マッチングを達成するためにこれらのさまざまなコンポーネントの重要性を評価します。この革新的なアプローチにより、事前学習済みモデルから引き継がれるバイアスと不正確な相関の影響を軽減する可能性があり、追加のトレーニングや微調整は必要ありません。 ComCLIPの方法論には、組成画像とテキストのマッチングの課題に対処するために調和するいくつかの重要な要素が含まれています。まず、元の画像は密なキャプションモジュールを使用して処理され、シーン内のオブジェクトに焦点を当てた密な画像キャプションが生成されます。同時に、入力テキスト文は解析プロセスを経ます。解析中に、エンティティの単語が抽出され、主語-述語-目的語の形式で緻密に整理され、ビジュアルコンテンツで見つかる構造を反映します。ComCLIPが行うマジックは、これらの密な画像キャプションと抽出されたエンティティの単語との間に堅牢な整列を確立することです。この整列は、エンティティの単語を密なキャプションに基づいて画像内の対応する領域に効果的にマッピングする橋となります。 ComCLIPの中での主要なイノベーションの1つは、述語のサブイメージの作成です。これらのサブイメージは、テキストの入力で説明されるアクションまたは関係を反映するように、関連するオブジェクトと主語のサブイメージを緻密に組み合わせて作成されます。結果として得られる述語のサブイメージは、モデルの理解をさらに豊かにするアクションまたは関係を視覚的に表現します。元の文と画像、およびそれぞれの解析された単語とサブイメージとともに、ComCLIPはCLIPテキストとビジョンエンコーダーを使用します。これらのエンコーダーは、テキストとビジュアルの入力を埋め込みに変換し、各コンポーネントの本質を効果的に捉えます。ComCLIPは、各画像埋め込みと対応する単語埋め込み間のコサイン類似度スコアを計算し、これらの埋め込みの関連性と重要性を評価します。これらのスコアは、softmax層によって処理され、モデルが異なるコンポーネントの重要性を正確に評価できるようになります。最後に、ComCLIPはこれらの重み付けされた埋め込みを組み合わせて最終的な画像埋め込みを取得します-入力全体の本質を包括した表現です。まとめると、この研究は、ビジョン言語研究内での組成的な画像とテキストのマッチングの重要な課題を明らかにし、先駆的な解決策であるComCLIPを紹介しています。ComCLIPは因果推論と構造的因果モデルの原則にしっかりと基づいた革新的なアプローチであり、組成的な理解に取り組む方法を革新します。ComCLIPは、ビジュアル入力を細かく分割されたサブイメージに分解し、動的なエンティティレベルのマッチングを行うことにより、画像とテキストの組成要素を理解し、操作する能力を大幅に向上させることを約束します。CLIPやSLIPなどの既存の手法はその価値を示していますが、ComCLIPは、分野内の基本的な問題に対処し、研究と応用の新たな可能性を開拓する有望な進歩として際立っています。

専門家モデルを用いた機械学習：入門

「エキスパートモデルは、機械学習の中で最も有用な発明の一つですが、それほど注目されているとは言えません実際、エキスパートモデリングはニューラルネットワークのトレーニングだけでなく…」

Learn more about Search Results ML - Page 277