Search Results 信頼性

「ガードレールを使用して安全で信頼性のあるAIを設計する方法」

もしデザイン、構築、またはAIの実装に真剣に取り組んでいるのであれば、ガードレールの概念についてはすでに聞いたことがあるかもしれませんAIのリスクを緩和するためのガードレールの概念は新しいものではありませんが、最近の生成型AIの応用の波は、これらの議論をデータエンジニアや学者だけでなく、すべての人にとって関連性のあるものにしました...

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復するために人々が計画するのに重要な役割を果たしており、気候変動への懸念が高まる中で環境をよりよく理解するために研究者を支援しています。数値天気予報（NWP）モデルは、大気科学者の業務の中核です。これらのモデルは、熱力学と流体力学を説明する微分方程式のシステムを使用し、時間を経て結合されることで将来の予測を作成します。NWPモデルは、放射や雲物理学などの重要な小スケールの物理現象のパラメータ化の誤りなど、いくつかの欠点がありますが、広く使用されています。大規模な微分方程式の統合の困難さから、数値的なアプローチは特に空間および時間の解像度を高くする場合には計算コストが非常に高くなります。さらに、これらのモデルは気候科学者の知識に依存して方程式、パラメータ化、アルゴリズムを改善するため、NWPの予測精度は追加データによっては改善されません。NWPモデルの問題に対処するため、ますます多くの人々がデータ駆動型、深層学習ベースの天気予測手法に関心を示しています。歴史的データ（ERA5再解析データセットなど）を使用して、深層ニューラルネットワークは将来の天気予測を訓練するために使用されます。これがこの手法の主たる前提です。従来のNWPモデルが数時間かかるのに対し、訓練後は数秒で予測することができます。この分野の初期の取り組みでは、気象データと自然の画像は似たような空間構造を持つため、ResNetやUNetなどの従来のビジョンアーキテクチャを天気予測に使用しようとしました。しかし、それらのパフォーマンスは数値モデルに劣っていました。しかし、改善されたモデル設計、トレーニングレシピ、データとパワーの増加により、最近では注目すべき進展がありました。最初に実用IFCを上回ったモデルは、0.25°データ（721×1440グリッド）でトレーニングされた3D地球特有のトランスフォーマーモデルであるPangu-Weatherでした。すぐに、Keislerのグラフニューラルネットワーク設計がGraphCastによって0.25°データにスケールアップされ、Pangu-Weatherを上回る結果を示しました。予測精度は優れているものの、現在の手法では複雑で高度にカスタマイズされたニューラルネットワークのトポロジーがしばしば使用され、抜け穴実験がほとんど行われないため、その効果の正確な要素を特定するのは困難です。たとえば、GraphCastにおける多重メッシュメッセージパッシングが効率にどの程度貢献しているのか、3D地球特有のトランスフォーマーが通常のトランスフォーマーと比べてどのような利点を持っているのかは分かりません。この分野では、これらの現行手法をより良く理解し、できれば簡素化するために統合フレームワークが必要です。また、気候や天候の予測を超える気象基礎モデルを作成することも容易になります。この研究では、適切なトレーニングの公式と組み合わせることで、簡単な設計が先端技術を上回る性能を発揮することを示しています。 UCLA、CMU、Argonne National Laboratory、およびPenn State Universityの研究者は、Stormerと呼ばれる、従来のトランスフォーマーのバックボーンにほとんどの変更を加える必要のないシンプルなトランスフォーマーモデルを提案しています。研究チームは、従来のビジョントランスフォーマー（ViT）アーキテクチャをベースにして、モデルのパフォーマンスに影響を与える3つの要素を詳細に調査しました：モデルは次の3つの要素から構成されます：（1）大気変数間の相互作用をモデル化し、入力データをトークンのシーケンスに変換する天気固有の埋め込み層、（2）モデルをランダムな間隔で天気の動態を予測するようにトレーニングするランダムなダイナミクス予測目標、（3）ロス関数において異なる圧力レベルの変数を重み付けして各圧力レベルの密度を近似する圧力加重ロス。提案されたランダムなダイナミクス予測目標は、モデルがトレーニングされた間隔のさまざまな組み合わせを使用することによって、推論中に特定のリードタイムに対して多くの予測を生成するため、1つのモデルが複数の予測を可能にします。たとえば、6時間の予測を12回配布するか、12時間の予測を6回配布することで、3日間の予測を得ることができます。これらの予測を組み合わせることにより、特に長期のリードタイムにおいて、大きな性能向上が得られます。研究チームは、データ駆動型の天気予測のための人気のあるベンチマークであるWeatherBench 2を使用して、Stormerという提案手法を評価しました。テスト結果は、Stormerが7日後に先端の予測システムを上回り、1日から7日間の重要な大気変数の予測精度で競争力のある結果を達成していることを示しています。特に、Stormerはほぼ5倍低解像度データおよび数桁少ないGPU時間で訓練されることにより、ベースラインよりも性能が向上しています。さらに、スケーリングの研究により、モデルの容量とデータサイズを増やすとStormerの性能が継続的に向上する可能性があることが証明されました。

機械学習信頼性の向上：異常性がモデルのパフォーマンスと不確実性の定量化を向上させる方法

オブジェクトがそのカテゴリーの他のアイテムに似ている場合、それは典型的と見なされます。例えば、ペンギンは普通でない鳥ですが、ハトやスズメは普通の鳥です。いくつかの認知科学の研究は、典型性がカテゴリーの知識において重要であることを示唆しています。例えば、人間は普通のオブジェクトに対してより速く学習し、思い出し、関連付けるとされています。同様に、類似性ヒューリスティックは、人々が出来事がどれくらい一般的かに基づいて判断する傾向を指します。これは迅速な意思決定に役立つかもしれませんが、不正確な不確実性の評価につながる可能性もあります。例えば、普通の出来事の確率を過大評価したり、珍しい出来事についての判断の不確実性を過小評価したりするかもしれません。人間の判断の不確実性の度合いを測定することは難しいですが、機械学習の手法は予測において保証を提供します。ただし、信頼性を判断するためには信頼度だけでは十分ではない場合もあります。たとえば、低信頼度の予測は、明示的な不確実性やトレーニング分布においてサンプルの不足から生じる場合があります。同様に、高信頼度の予測は正確であるかもしれないが、誤ったキャリブレーションをしている場合もあります。彼らの主な提案は、トレーニング分布の範囲または予測の予測性を理解するために、モデルが両方の非典型性と信頼度を測定すべきであるということです。ただし、多くの機械学習アプリケーションでは、非典型性の測定ではなく、信頼度のみを提供する事前学習済みモデルが使用されます。スタンフォード大学とラトガーズ大学の研究チームは、サンプルやクラスの非典型性（稀な存在）とモデルの予測の正確性との関連を調査しています。以下は彼らの貢献です： 1. 予測品質の認識：この研究により、非典型性を考慮した推定子を使用することで、モデルの予測確率が実際の発生確率と一致するかどうかを評価できます。例えば、ロジスティック回帰やニューラルネットワークでも、調整が不正確な場合があります。ここでは、非典型性はモデルの信頼性が信頼できるかどうかに関する情報を提供できます。厳密なテストと理論的な研究によって、非典型性は予測の品質が低下することが示されています。特に、非典型な入力や非典型クラスからのサンプルでは、過度の自信と予測の精度が低下することが研究チームによって実証されました。 2. 精度とキャリブレーションの向上：確率モデルを修正することで、キャリブレーション技術によって誤キャリブレーションを軽減できます。研究チームは、モデルは異常な入力やクラスに基づいてさまざまな補正を必要とし、非典型性が再校正に重要な役割を果たすことを示しました。この調査結果に基づいて、彼らは非典型性を考慮した簡単な手法「非典型性に対する再校正」を提案しています。彼らの再校正技術は簡単に実装でき、入力やクラスの非典型性を考慮に入れます。研究チームは、非典型性を再校正技術に加えることで、予測の精度と不確実性の量子化を向上させることを実証しました。また、スキンレセプトリズムのカテゴリ分類を行う事例研究において、非典型性を意識したことが、複数のスキンタイプの性能向上に寄与することも示しました。 3. 予測セットの向上：ラベルの含まれる可能性が高い予測セットは、不確実性を評価する別の方法です。ここでは、研究チームは既存のアプローチの非典型性を検討し、低信頼度または非典型のサンプルが予測セットの性能を低下させる可能性があることを実証しています。研究チームは非典型性を使用することで予測セットの向上の可能性を示しています。総じて、研究チームはモデルに非典型性を考慮することを提案し、使用が容易である非典型性推定子が非常に価値があることを実証しています。

「比率の信頼性はどの程度ですか？」

「データサイエンスの分野で私の参考資料の一つはジュリア・シルジュです彼女のTidy Tuesdayビデオでは、常にコードを一緒に作成するタイプのビデオで、あるテクニックを教えたり、他のアナリストを助けたりします...」

データの観察可能性：AI時代の信頼性

「GenAIにとって、データの可観測性は解決策、パイプラインの効率性、ストリーミングとベクターインフラストラクチャに優先する必要があります」

「個人AIの世界におけるプライバシー、信頼性、倫理的AIについて、Haltia.AIのCTOであるアルト・ベンディケン氏に聞く」

「私たちは、AI Time Journalのインタビューで独占的な洞察を共有してくれたHaltia.AIの共同創設者兼CTO、Arto Bendikenに感謝しますBendiken氏がHaltia.AIの独自のアプローチについて語る中で、プライバシー、倫理的AI、イノベーションの世界に飛び込んでくださいデバイス内での処理からブロックチェーンとAIの交差点まで、Haltia.AIの変革的な影響について学びましょう…個人用AIアシスタントの世界でのプライバシー、信頼、倫理的AIについて、Haltia.AIのCTO、Arto Bendiken氏による記事をお楽しみください詳細を読む」

「カスタムレンズを使用して、信頼性のあるよく設計されたIDPソリューションを構築する」シリーズの第3部：信頼性

IDPウェルアーキテクチャのカスタムレンズは、AWSを使用してインテリジェントドキュメント処理（IDP）ソリューションを実行しているすべてのAWSのお客様を対象としており、AWS上で安全で効率的かつ信頼性のあるIDPソリューションを構築する方法に関するガイダンスを探していますクラウドでの本番対応のソリューションを構築するには、リソース、時間、顧客の間で一連のトレードオフが必要です

「信頼性のあるLLMテストの5つの柱」

「ハロウィーン、偏見、品質を含む責任あるAIの主要な柱を見つけ、特定の業界ニーズに合わせた信頼性のあるモデルを作成する際の課題は何かを発見してください」

テンセントAIラボは、検索補完された言語モデルの堅牢性と信頼性を高めるために、Chain-of-Noting（CoN）を導入します

Tencent AI Labの研究者は、検索補完型の言語モデル（RALM）の信頼性に関する課題に取り組み、関連性のない情報を取得し、誤った応答を引き起こす可能性に対処しています。提案されたアプローチであるCHAIN-OF-NOTING（CON）は、RALMを強化することを目指しています。CONを装備したRALMは、オープンドメインのQAベンチマークで顕著なパフォーマンスの向上を示し、正確な一致（EM）スコアと範囲外の質問に対する拒否率が著しく向上しました。研究は、RALMの限界に取り組み、ノイズの耐性と取得したドキュメントへの依存度の低減を強調しています。CONアプローチは、取得したドキュメントのための連続的な読み取りメモを生成し、包括的な関連性評価を可能にします。事例研究では、CONがドキュメントの関連性をモデルが理解することを向上させ、関連しないまたは信頼性の低いコンテンツをフィルタリングすることで、より正確で文脈に即した応答を実現することが示されています。標準のRALMを上回る性能を持つCONは、範囲外の質問に対する正確な一致スコアと拒否率を実現します。直接的な検索、推論的な推論、知識のギャップの認識をバランスよく行うことで、人間の情報処理に似た性能を示します。CONの実装には、読み取りメモの設計、データ収集、モデルトレーニングが含まれており、現在のRALMの制限に対する解決策を提供し、信頼性を向上させます。連続的な読み取りメモを生成するフレームワークであるCONは、RALMのパフォーマンスを向上させます。ChatGPTのトレーニングデータを使用してLLaMa-2 7BモデルでトレーニングされたCONは、特に高ノイズのシナリオで標準のRALMを上回るパフォーマンスを発揮します。CONは、読み取りメモを直接の回答、有用な文脈、不明なシナリオに分類し、ドキュメントの関連性を評価するための堅牢なメカニズムを示します。ベースライン方法であるLLaMa-2 wo IRとの比較は、CONが関連しないコンテンツをフィルタリングする能力を示し、応答の正確性と文脈の関連性を向上させます。 CONを装備したRALMは、著しく改善され、完全なノイズのあるドキュメントに対して平均+7.9のEMスコアの向上を実現します。CONは、事前トレーニングの知識を超えたリアルタイムの質問に対する拒否率の+10.5の向上を示します。評価指標には、EMスコア、F1スコア、オープンドメインのQAに対する拒否率が含まれます。事例研究では、CONがRALMの理解を深め、ノイズや関係のないドキュメントの課題に対処し、全体的な堅牢性を向上させることを示しています。 CONフレームワークは、RALMを大幅に強化します。取得したドキュメントの連続的な読み取りメモを生成し、これを最終的な回答に統合することで、CONを装備したRALMは標準のRALMを上回り、顕著な平均改善を示します。CONは、標準のRALMの制約に取り組み、関連する情報の理解を深め、さまざまなオープンドメインのQAベンチマークでの全体的なパフォーマンスを向上させるよう促進しています。将来の研究では、CONフレームワークを異なるドメインとタスクに応用し、RALMの強化の汎用性と効果を評価することが考えられます。多様な検索戦略やドキュメントのランキング方法の調査により、検索プロセスの最適化と取得ドキュメントの関連性の向上が可能となります。ユーザースタディでは、実世界のシナリオでのRALM with CONの使用可能性と満足度を評価し、応答の品質と信頼性を考慮します。追加の外部知識源の探索や、事前トレーニングやファインチューニングなどの技術との組み合わせによるCONの組み込みは、さらなるRALMのパフォーマンスと適応性の向上につながるでしょう。

現代の時代において、信頼性のある量子コンピューティングの鍵は猫キュービットなのか？

「環境雑音に対するキュビットの感度の高さから、量子コンピュータはエラーを起こしやすいです猫キュビットは、耐故障性のある量子コンピュータの構築に役立つことができるでしょうか？」

Learn more about Search Results 信頼性