Learn more about Search Results This
- You may be interested
- ビジュアルキャプション:大規模言語モデ...
- データサイエンスにおけるデータクリーニ...
- 「トップの予測分析ツール/プラットフォー...
- コンピュータ芸術の先駆者、ヴェラ・モル...
- SiMa.aiが世界最強のAIチップをインドに持...
- 「Rustでの14倍のスピードブーストには、P...
- 勾配ブースティング:予測における銀の弾丸
- マシンラーニングに取り組むため、プライ...
- このAI研究では、「DreamCraft3D」という...
- LLMを活用したアプリケーションの設計と構築
- 「2023年の機械学習のアンラーニング:現...
- 「DeepMindによるこのAI研究は、シンプル...
- CipherChatをご紹介します:安全なアライ...
- 「量子計算の優位性を確実に示すための新...
- このAI論文では、EdgeSAMを紹介しています...
In this article, we will explore the fascinating world of NOIR, Stanford University’s mind-controlled AI robot.
「物事がもうこれ以上狂ったことになり得ないと思っていたときに、スタンフォード大学が心の力で動かせるロボットを発表しましたしかし、それはどのように機能するのでしょうか?」
Note This translation conveys the same meaning as the original English phrase, which refers to going from a state of poverty to wealth.
大規模言語モデル(LLM)が世界中を席巻している中、ベクトル検索エンジンも同行していますベクトルデータベースは、LLMの長期記憶システムの基盤を形成しています...
In Japanese 「GTE-tinyに会いましょう:ダウンストリームタスクのためのパワフルなテキスト埋め込み人工知能モデル」(GTE-tiny ni aimashou Daunsutori-mu tasuku no tame no pawafuru na tekisuto umekomi jōchū nō moeru) Note Please keep in mind that this translation is accurate, but it may be adjusted to fit
“` アリババのDAMOアカデミーのGTE-tinyは、軽量で高速なテキスト埋め込みモデルです。BERTフレームワークを使用し、様々な領域とユースケースを網羅する関連テキストペアの大規模なコーパスで訓練されています。GTE-smallから半分のレイヤーを削除し、多少性能は劣りますが(または全MiniLM-L6-v2システムと同じサイズでありながら性能が優れている可能性もあります)、ONNXオプションも用意されています。 これは文を変換するモデルであり、文の意味を持つベクトル空間(384次元)に変換するために使用されます。オリジナルのthenlper/gte-smallのサイズと性能が半分に縮小されています。 GTE-tinyは、単語や文の間の意味的な関連性を学習する能力により、下流プロセスの多くの異なるタスクに使用することができます: データの検索と取得 異なるテキストでの同じ意味 テキストの再構成 クエリへの応答 テキストの要約 機械翻訳 GTE-tinyは、コンパクトで高速なモデルから最大限の利益を得られる下流操作で優れた選択肢です。モバイルデバイス向けのテキスト埋め込みモデルやリアルタイム検索エンジンの開発など、さまざまなアプリケーションに適用できます。 GTE-tinyのいくつかの応用例: 検索エンジンは、GTE-tinyを使用してユーザーのクエリとドキュメントを共有ベクトル空間に埋め込み、関連素材を効果的に取得できます。 GTE-tinyは、質問とパッセージを共有ベクトル空間にエンコードして、与えられたクエリに最も適した回答パッセージを迅速に特定する質疑応答システムに活用できます。 テキスト要約システムは、GTE-tinyを使用して長文ドキュメントから要約を生成することができます。 機械学習モデル向けの著名なオープンソースリポジトリであるHugging Faceは、GTE-tinyをダウンロードできるよう提供しています。さらに、新しいソフトウェアや既存のソフトウェアでの実装も簡単です。GTE-tinyは新しいモデルですが、既にいくつかの下流アプリケーションで成功を収めています。アリババのDAMOアカデミーは、GTE-tinyのパフォーマンスを最適化するために開発中でもあります。テキスト埋め込みモデルや関連する下流タスクを作成する研究者や開発者にとって、GTE-tinyは貴重なツールです。 GTE-tinyは、多くの異なるアプリケーションに適用できる堅牢で柔軟なテキスト埋め込みモデルです。コンパクトで高速なモデルが最も効果的に利用される用途には優れた選択肢となります。 “`
In this translation, Notes is translated to メモ (memo), CLIP remains as CLIP, Connecting is translated to 連結 (renketsu), Text is translated to テキスト (tekisuto), and Images is translated to 画像 (gazo).
上記論文の著者たちは、最小限またはほとんど監督を必要とせずに、さまざまなタスクに使用できる画像の良い表現(特徴)を生成することを目指しています画像によって生成された使い勝手の良い特徴...
In Japan, the concept of FinTech is gaining popularity rapidly, and many businesses are starting to incorporate data science into this field. Data science involves the analysis and interpretation of large amounts of data to gain insights and make informed
イントロダクション 現代のダイナミックな金融の景色において、データサイエンスは< a href=”https://www.voagi.com/comparing-chatgpts-and-bards-free-versions.html” >フィンテックとバンキング業界の要石となりました。これは、情報に基づいた意思決定の駆動力となり、顧客と金融業界全体の両方に利益をもたらしています。信用情報機関のTransUnionのような機関は、クレジットスコアリングや顧客セグメンテーションなどの手法を用いて、このデータに基づく意思決定をサポートしています。これにより、この領域での機械学習モデルの開発と実装が増えています。 本記事では、データサイエンスが金融の世界を形作る上で果たす重要な役割について掘り下げます。クレジットスコアリングの基本的な意義からデータガバナンスの複雑さ、および顧客セグメンテーションの変革的な力まで、この探求は金融機関がデータに基づく意思決定を行うためにどのようにデータサイエンスを活用しているかを強調しています。 学習目標: フィンテックにおけるクレジットスコアリングの役割と重要性を理解する。 データガバナンスについて学び、金融データの安全性における重要性を理解する。 顧客セグメンテーションが金融の意思決定に与える影響を発見する。 フィンテックにおけるクレジットスコアリングと金融データ分析 クレジットスコアリングはフィンテックの景色において基本的な要石です。クレジットスコアは、銀行がローンや各種金融商品の対象性を評価するために頼るものです。それはあなたの金融的な健全性を数値で表示したものです。しかし、それは単純な数字ではなく、年齢、収入、資産などの多くの要素に影響を受ける複雑な計算です。 フィンテックの領域では、このクレジットスコアは、顧客がローンやクレジットカードの返済を滞納する可能性があるかどうかを評価する上で重要な役割を果たします。返済滞納の履歴がある顧客は、望ましくない「拒否」カテゴリーに置かれるかもしれません。対照的に、好意的なクレジットスコアを持つ顧客は、さまざまな金融商品にアクセスすることができます。この微調整されたプロセスは、責任ある貸し出しの基盤となるデータ分析および予測モデリングに基づいています。 特徴量選択とモデル展開 利用可能な膨大な金融データがあるため、予測モデルの構築に使用する情報を絞り込むことは重要です。特徴量選択はデータ分析の鍵となるステップであり、データセットを最も関連性の高い変数に絞り込むのに役立ちます。このプロセスは、高度に相関する特徴を特定し、最も情報量の豊富な特徴のみを残すための統計的手法を使用することを含みます。これにより、モデルの精度が向上し、計算コストと時間も削減されます。 特徴が選択されると、予測モデルは新しい顧客の信用力を評価するために展開されます。これは、ローン返済のリスクを最小限に抑え、責任ある貸し出しを確保するための重要なステップです。これらのモデルの性能は、分類器の予測能力を測るROC曲線などのメトリクスを使用して評価されます。フィンテックでは、AUC(曲線下面積)が0.75以上であり、頑健なモデルを示すことが業界の標準です。 モデル評価とメトリクス 予測モデルが作成されたら、その精度と信頼性を評価することが重要です。銀行の領域では、顧客がローンを返済する可能性の予測など、モデルが結果を予測する能力にかかっています。正解率、適合率、再現率などの伝統的なメトリクスが役割を果たしますが、詳細な分析はこれらの基本的なメトリクスを超えたものです。 2つの重要なメトリクスとして、コルモゴロフ・スミルノフ(KS)テストとジニ係数がよく使用されます。KSは、陽性クラスと陰性クラスの累積分布関数の間の分離度を測定します。要するに、モデルが製品(例えば、クレジットカード)を購入するかどうかを区別する能力を示します。注目すべきは、KSが正規分布を要求しないため、さまざまなシナリオに適応できることです。 一方、ジニ係数は受信者操作特性(ROC)曲線とベースラインの間の領域を評価します。これは、ROC曲線により深く入り込み、分類器のパフォーマンスについての洞察を提供します。これらのメトリクスは、特定の顧客セグメントを対象とする場合に特に重要です。なぜなら、彼らの行動を理解することは金融の意思決定において重要だからです。 モデルのモニタリング モデルのモニタリングは、特に金融テクノロジーの急速な世界では継続的なプロセスです。過去に構築されたモデルは、顧客行動の進化、市場のダイナミクス、規制の変化により、すぐに時代遅れになることがあります。ここでモニタリングが重要な役割を果たします。 定期的に、現在のデータを使用してKSやGiniなどのメトリックが計算され、開発フェーズからのそれらと比較されます。これらのメトリックの差異は、モデルのパフォーマンスを示す指標となります。ビジネス上の考慮事項によって決定されるしきい値は、モデルに介入が必要かどうかを判断するのに役立ちます。例えば、差異が10%または20%を超える場合は、詳細な調査が必要です。 このような重要な差異がある場合、モデルの正確性を調整するための2つの方法があります:再校正と再開発。…
「言語モデルの逆スケーリングの謎を解明する」
This aspect of inverse scaling is a crucial point to keep in mind, as it can affect the performance of larger LLMs. However, this…
Googleは独占禁止法訴訟で敗訴:ビッグテックにとって何を意味するのか?
「エピックゲームズが検索大手との法的闘争に勝利した事は画期的な勝利であり、同社の強さと決断力を示す重要な節目となりました」
安定した拡散:インテリアデザインの芸術をマスターする
この速い世界で、パンデミックの後、私たちの多くは、現実から逃れるための心地よい環境を持つことがどれだけ貴重で、追求すべき目標であるかを実感しましたそれが家であろうと、外であろうと、私たちの日常生活において居心地の良い場所を作り出すことは、心の安息であり、幸福感を与えてくれるのです
「2023年、オープンLLMの年」
2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…
Sudowriteのレビュー:AIが人間らしい小説を書けるのか?
「AIは本当に人間のように小説を書くことができるのか? Sudowriteの詳細を知り、このSudowriteのレビューで真実を解明しましょう」
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.