Learn more about Search Results Kaggle - Page 4

数秒で見事なデータビジュアライゼーションを作成するためにChatGPTを使いましょう

データサイエンティストはこれが大好きです!ChatGPTがたった数語で驚くべきデータの可視化を作り出す様子をご覧ください - どれだけ簡単かはほとんど不公平です

機械学習をマスターするための無料の5つのコース

「機械学習モデルの学習と構築に興奮していますか? 今日から無料の機械学習コースを学び始めましょう」

サンディープ・シンと組んでGen AIの次の大きなトレンドを探る

このLeading with Dataセッションでは、Beans.aiのHead of Applied AIであるSandeep Singhの第一手の経験が披露されています。彼は総合的なワークショップから生成AIエンジニアの形成、コンピュータビジョンと自然言語処理(NLP)の組み合わせの変革的なポテンシャルまで、自身の旅からの洞察を共有しています。この会話は、AIが抱えるエキサイティングな未来を明らかにします。 Sandeep Singhとの会話からの重要な洞察 インドのAIエコシステムは、ベイエリアの研究に焦点を当てたAIの景色とは異なり、迅速な採用と製品化に特異な立場にあります。 Data Hack Summitのワークショップは、生成AIエンジニアへの変換のための稀なエンドツーエンドの体験を提供します。 コンピュータビジョンとNLPの融合は、アクセシビリティとデジタルコンテンツのインタラクションの分野でAIの次のブレークスルーです。 プロジェクトを一貫して構築し、学習プロセスを文書化することは、AI初心者にとって重要であり、理論よりも実践的な経験が強調されます。 エンタープライズソフトウェアにおけるAIの将来は、コードの記述から抽象的な概念の定義へとシフトする可能性があり、主要なプログラミング言語として英語が使用されるかもしれません。 Leading with Dataセッションに参加し、AIおよびデータサイエンスのリーダーとの洞察に満ちた議論に没頭しましょう! では、Sandeep Singhに対して行われた質問と彼の回答を見てみましょう。 バンガロールでのData Hack Summitの体験はいかがでしたか?…

「OpenAgents:野生の言語エージェントのためのオープンプラットフォーム」

最近の動向は、言語エージェント、特に大規模な言語モデル(LLM)上に構築されたものは、自然言語を使用してさまざまな複雑なタスクを実行する可能性があることを示していますしかし、現在の多くの言語エージェントフレームワークの主な焦点は、概念実証の言語エージェントの構築を容易にすることにありますこの焦点はしばしば... [続きは省略されました]

UCバークレーとSJTU中国の研究者が、言語モデルのベンチマークと汚染を再考するための「再表現サンプル」の概念を紹介しました

大型言語モデルはますます複雑になり、評価が困難になっています。コミュニティは比較的短期間で多くのベンチマークを作成してきましたが、ベンチマークのスコアは常に実際のパフォーマンスに対応しているわけではありません。一部の証拠によれば、多くの人気のあるベンチマークは、ファインチューニングやプレトレーニングに使用されるデータセットに汚染がある可能性があります。 重要な問題であると広く合意されているにもかかわらず、汚染の源を特定することは困難でした。Nグラムの重複と埋め込み類似検索の両方が広く使用されています。GPT-4、PaLM、Llamaなどの最先端のイノベーションでは、Nグラムの重複の汚染検出には文字列のマッチングが広範に使用されていますが、その精度はやや低いです。埋め込み類似検索は、以前にトレーニングされたモデル(BERTなど)の埋め込みを見て、関連するおそらく汚染されているケースを発見します。ただし、類似性レベルを決定する際に再現率と精度のバランスを見つけることは困難かもしれません。さらに、LLM(たとえばGPT-4)によって生成された合成データを使用するモデルトレーニングの発展的なトレンドがあり、文字列のマッチングを使用して識別することがさらに困難になる可能性があります。 UCバークレーと上海交通大学による新しい研究では、既存の汚染テストでは特定するのが難しいが、元のサンプルと同じ意味を持つ「言い換えられたサンプル」という概念を紹介しています。LLMは、テストサンプルを別の言語に翻訳して言い換えることによって言い換えられたサンプルを生成します。研究者は、そのような言い換えられた例がトレーニングに使用される場合、結果として得られるモデルは過適合に非常に弱く、テストベンチマークで非常に高い性能を達成することができることを示しています。緻密にキャリブレーションされた13B Llamaモデルは、Nグラムの重複としての汚染に気付かれることなく、MMLU、GSM-8k、HumanEvalなどの広く使用されているベンチマークでもGPT-4と同じ性能を達成できます。したがって、言い換えられたサンプルを識別する能力が重要です。 研究者は、従来の汚染除去技術の欠点を説明し、新しいLLMベースのアプローチを提案しています。特定の上位kのサンプルがテストインスタンスと類似しすぎていないかを判断するために、まず埋め込み類似検索を適用してテストサンプルに最も類似しているモデルを見つけます。結果は、彼らが提案するLLMデコンタミネータが従来の技術よりも優れていることを示しています。彼らは、ファインチューニングや予備的なトレーニングに使用されるさまざまな人気のあるデータセットでデコンタミネータをテストします。また、GPT-3.5の合成データセットであるCodeAlpacaには、HumanEvalからの言い換えられたサンプルがかなり含まれていることも分かりました(正確には12.8%)。これは、LLMによって作成された偽のデータを使用したトレーニング中に汚染の可能性があることを示唆しています。 研究者は、公共のベンチマークを使用してLLMを評価するためのより詳細な汚染除去手順を確立するようコミュニティに助言しています。彼らは、CodeforcesやKaggleのような新しい一度限りのテストを作成し、LLMの公正な評価におけるこれらの基本的な問題を克服することを望んでいます。

「Elasticsearchのマスター:パワフルな検索と正確性のための初心者ガイドーPart 1」

· 前回から始める、Elasticsearch ⊛ サンプルデータセット ⊛ ElasticSearchクエリの理解 ⊛ 応答の理解 ⊛ 基本的な検索クエリ · 語彙的検索 · 問題...

「時間の最適化を送る」

「STO(ストラテジック タイミング オプティマイゼーション)は、戦略的なメッセージングのタイミングを通じて、望ましい顧客の行動を最大化することを目指していますこれには、実験とデータ分析を通じて仮定を検証することが含まれます」

メタラマは本当にオープンソースなのか? (Meta Rama wa hontō ni ōpun sōsu na no ka?)

「メタLLaMAのオープンソースLLMとしての真正性を探求し、基準と大きな意義を解析する」

「PyTorchで最初のニューラルネットワークを開発する」

私はしばらくの間、ディープラーニングの分野で働いており、チュートリアルを書いてきました主にTensorFlowに焦点を当ててきましたが、PyTorchは他の非常に広く使われているディープラーニングパッケージです私は...

『チェッカーフラッグの先に:F1統計の探求』

「F1のような極めて競争力のあるスポーツでは、わずかなパフォーマンスの向上でも勝利につながることがありますファンやデータサイエンスの視点からF1を分析することで、有用な洞察を得ることができるかもしれませんこれがインスピレーションを与えました…」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us