Search Results 10

「コンピュータビジョン101」

コンピュータビジョンの進歩により、未来には莫大な可能性がありますその変革的な影響は、さまざまな産業にまたがっています

アップステージがSolar-10.7Bを発表：一回の会話用に深いアップスケーリングと微調整された精度を持つ先駆的な大規模言語モデルを実現

韓国のAI企業、Upstageの研究者たちは、言語モデルのパフォーマンスを最大化し、パラメータを最小化するという課題に取り組んでいます。モデルのサイズがパフォーマンスと関連している大規模言語モデル（LLM）において、Upstageは10.7兆の重み付けを持つ画期的なモデル、「Solar-10.7B」を導入しました。この革新は、3000億以上のパラメータを持つモデルにおけるモデルのサイズとパフォーマンスの間に生じる相反関係に対処しています。既存のツールと異なり、UpstageのSolar-10.7Bは、Llama 2アーキテクチャを採用し、Upstage Depth Up-Scalingという新しい技術を使用しています。この方法は、Mistral 7BからアップスケーリングされたレイヤーにMistral 7Bの重み付けを統合し、包括的な事前学習を行います。Solar-10.7Bのコンパクトな設計と優れたパフォーマンスは、Mixtral 8X7Bなどのより大きなモデルすらも上回ります。さまざまな言語のタスクにおいて適応性と堅牢性を実証するための微調整と展示に理想的なモデルです。さらに、Upstageはシングルターンの対話に特化したファインチューニング版「SOLAR-10.7B-Instruct-v1.0」も提供しています。監視付きファインチューニング（SFT）や直接的な意志最適化（DPO）など、最新のインストラクションのファインチューニング手法を活用し、多様なデータセットをトレーニングに使用しました。このファインチューニングモデルは、驚異的なModel H6スコア74.20を達成し、シングルターンの対話シナリオにおける効果を誇示しています。 Solar-10.7Bのパフォーマンスは、その洗練されたアーキテクチャとトレーニング戦略に根ざしています。Llama 2アーキテクチャを基にしたDepth Up-Scaling技術により、30兆パラメータまでのモデルを凌駕することができます。Mistral 7Bの重み付けをアップスケーリングされたレイヤーに統合することは、その素晴らしいパフォーマンスに貢献し、Mixtral 8X7Bモデルさえも上回ります。評価結果は、Solar-10.7Bの能力を示し、Model H6スコア74.20を記録しており、自然言語処理においてさらなるパフォーマンス最適化の追求を証明しています。ファインチューニングされたSOLAR-10.7B-Instruct-v1.0は、他のモデルに比べて優れたModel H6スコア74.20でシングルターンの対話シナリオで優れたパフォーマンスを発揮しています。教授ベースのトレーニングのために慎重に選別されたデータセットを活用するこのファインチューニングアプローチは、その適応性とパフォーマンスの向上を一層強調しています。まとめると、Solar-10.7Bおよびそのファインチューニング版は、大規模言語モデルの領域における重要な進歩を表しています。モデルのサイズとパフォーマンスのバランスを取るという課題に取り組むために、Upstageの研究者たちは戦略的にこれらのモデルを設計し、ファインチューニングして最先端の結果を提供しています。革新的なDepth Up-Scaling技術とMistral 7Bの統合は、適応性と効率性を示しています。研究者たちが言語モデルの開発の限界を押し広げ続ける中で、Solar-10.7Bとそのファインチューニング版は、自然言語処理におけるパフォーマンス最適化の追求の証となっています。 UpstageがSolar-10.7Bを発表：Depth Up-Scalingとファインチューニングされた精度によるシングルターン対話における大規模言語モデルの先駆的な取り組みは、MarkTechPostで最初に公開されました。

「2024年に使用するためのトップ10のリアルタイムデータベース」

導入現代アプリケーションのダイナミックな世界において、リアルタイムデータベースはスムーズなデータ管理と即時の更新を維持するために重要です。大量のデータを扱うために設計されたこれらのデータベースは、情報への瞬時のアクセスを提供します。この記事では、2024年に影響を与えるであろうトップ10のリアルタイムデータベースについて詳しく説明します。リアルタイムデータベースの理解リアルタイムデータベースは即時の更新とアクセスが必要なデータを管理するために作成されています。同期の遅延が発生する従来のデータベースとは異なり、リアルタイムデータベースはすべての接続されたデバイスやアプリケーションにデータ変更の迅速な反映を保証します。これにより、リアルタイムのコラボレーション、メッセージング、モニタリングのニーズを持つアプリケーションに適しています。現代アプリケーションにおけるリアルタイムデータベースの重要性リアルタイムデータベースの重要性は、即時のデータ更新と同期の需要により、現代のアプリケーションで増大しています。メッセージングアプリから共同編集可能なドキュメントエディタ、リアルタイムアナリティクスダッシュボードまで、これらのデータベースはスムーズなデータ管理と瞬時のコミュニケーションの基盤となります。データ同期の遅延を解消することにより、リアルタイムデータベースはユーザーエクスペリエンスを向上させるだけでなく、効率的かつデータに基づく意思決定を可能にします。トップ10のリアルタイムデータベース以下は、2024年に使用するトップ10のリアルタイムデータベースのリストです。 1. Firebase リアルタイムデータベース Firebase リアルタイムデータベースはクラウドホスト型のNoSQLデータベースであり、開発者がデータをリアルタイムに保存および同期できるようにします。JSONデータモデルの使用は、開発プロセスに柔軟性と簡便さをもたらします。Firebaseプラットフォームの重要なコンポーネントとして、ウェブとモバイルの両方のアプリケーションを作成するための強力なツールキットに貢献します。機能と利点 Firebase リアルタイムデータベースの優れた機能の1つは、データ変更があった場合にすべての接続されたデバイスで瞬時の更新が保証されるリアルタイム同期です。これにより、ユーザーは常に最新の情報を得ることが保証されます。さらに、データベースはオフラインサポートを提供し、インターネットに接続していない状況でもデータにアクセスおよび変更を行うことができます。Firebase リアルタイムデータベースは堅牢なセキュリティルールを取り入れており、機密データへの不正アクセスからデータを保護します。ユースケースと例 Firebase リアルタイムデータベースは、チャットアプリ、共同編集可能なドキュメントエディタ、リアルタイムダッシュボードなど、リアルタイムの更新を要求するアプリケーションで広く使用されています。例えば、Firebase リアルタイムデータベースを活用したメッセージングアプリは、すべての参加者に迅速にメッセージを配信し、シームレスかつリアルタイムのコミュニケーション体験を作り出します。こちらから入手できます: https://firebase.google.com/ 2.…

ロボ犬が100メートル走のギネス世界記録を樹立

ギネスワールドレコーズは、韓国科学技術院のチームが作成した犬のようなロボットを、最速の四足歩行ロボットと認定しました

「UnbodyとAppsmithを使って、10分でGoogle Meet AIアシスタントアプリを作る方法」

「ほぼコードなしで、Google Meetのビデオ録画を処理し、メモを作成し、アクションアイテムをキャプチャするAIのミーティングアシスタントアプリを開発する方法を学びましょう」

「2024年に探索する必要のある10の最高のGPU」

イントロダクション人工知能（AI）、機械学習（ML）、深層学習（DL）の時代において、驚異的な計算リソースの需要は最高潮に達しています。このデジタル革命は私たちを未知の領域に駆り立て、データ駆動の洞察がイノベーションの鍵となる時代へと導いています。しかし、これらのフロンティアを開拓するためには、私たちの高まる野望に対応できるツールが必要です。魅惑的なクラウドGPUの世界へようこそ。これらのグラフィックス処理ユニット（GPU）は、単なる計算リソースに留まらず、限りないパワーのエンジンです。クラウドGPUは、重い前払いのハードウェア投資なしに、超コンピューティング能力を利用する非凡な能力をユーザーに提供します。このガイドは、主要なクラウドプロバイダーを舞台に、その強みや隠れた魅力を明らかにし、AI/ML/DLの旅をサポートします。最高のGPUの概要プロバイダー GPUオプション価格無料ティア特徴最適な用途 Amazon Web Services（AWS） T4、G4ad（Radeon Pro V520）オンデマンド＆スポットインスタンスはい（制限付き）多様なGPUオプション、広範なエコシステム大企業、高要求のワークロード Microsoft Azure T4、A100、V620、M60、MI25…

商品化されたサービス101：フリーランサーを殺す一人ビジネス（次は従業員）

新しく改善されたサービスビジネスモデルは、フリーランサーや従来の代理店、さらには従業員からの仕事を吸い込んでいます

このAI論文は、TreeOfLife-10Mデータセットを活用して生物学と保護のコンピュータビジョンを変革するBioCLIPを紹介しています

生態学、進化生物学、生物多様性など、多くの生物学の分野が、研究ツールとしてデジタルイメージおよびコンピュータビジョンを活用しています。現代の技術は、博物館、カメラトラップ、市民科学プラットフォームから大量の画像を分析する能力を大幅に向上させました。このデータは、種の定義、適応機構の理解、個体群の構造と豊富さの推定、生物多様性の監視と保全に活用することができます。とはいえ、生物学的な問いにコンピュータビジョンを利用しようとする際には、特定のタスクに適したモデルを見つけて訓練し、十分なデータを手動でラベリングすることは、依然として大きな課題です。これには、機械学習の知識と時間が大量に必要とされます。オハイオ州立大学、マイクロソフト、カリフォルニア大学アーヴァイン校、レンセラーポリテクニック研究所の研究者たちは、この取り組みで生命の木の基礎的なビジョンを構築することを調査しています。このモデルは、実際の生物学的なタスクに一般的に適用できるように、以下の要件を満たす必要があります。まず、一つのクラドだけでなく、様々なクラドを調査する研究者に適用できる必要があります。そして理想的には、生命の木全体に一般化できることが求められます。さらに、生物学の分野では、同じ属内の関連種や、適応度の向上のために他の種の外観を模倣するなど、視覚的に類似した生物と遭遇することが一般的です。生命の木は生物を広義のグループ（動物、菌類、植物など）および非常に細かいグループに分類しているため、このような細かな分類の精度が重要です。最後に、生物学におけるデータ収集とラベリングの高いコストを考慮して、低データの状況（例：ゼロショットまたはフューショット）で優れた結果が得られることが重要です。数億枚の画像で訓練された現行の汎用ビジョンモデルは、進化生物学や生態学に適用する際に十分な性能を発揮しません。しかし、これらの目標はコンピュータビジョンにとって新しいものではありません。研究者たちは、生物学のビジョン基盤モデルの作成には2つの主な障害があることを特定しています。まず、既に利用可能なデータセットは、サイズ、多様性、またはラベルの精度の点で不十分ですので、より良い事前トレーニングデータセットが必要です。さらに、現在の事前トレーニングアルゴリズムは3つの主要な目標に適切に対応していないため、生物学の独特な特性を活用したよりよい事前トレーニング方法を見つける必要があります。これらの目標とそれらを実現するための障害を念頭に置いて、チームは以下を提示しています： TREEOFLIFE-10Mという大規模なML対応の生物学画像データセット BIOCLIPはTREEOFLIFE-10M内の適切な分類群を用いてトレーニングされた生命の木を基盤としたビジョンベースのモデルです。 TREEOFLIFE-10Mは、ML対応の広範な生物学画像データセットです。生命の木において454,000の分類群をカバーする10,000,000以上の写真が含まれており、研究者たちによって編成され、最大のML対応生物学画像データセットが公開されました。2.7百万枚の写真は、最大のML対応生物学画像コレクションであるiNat21を構成しています。iNat21やBIOSCAN-1Mなどの既存の高品質データセットもTREEOFLIFE-10Mに組み込まれています。TREEOFLIFE-10Mのデータの多様性の大部分は、新たに選択された写真が含まれているEncyclopedia of Life（eol.org）から得られています。TREEOFLIFE-10Mのすべての画像の分類階層および上位の分類順位は、可能な限り注釈が付けられています。TREEOFLIFE-10Mを活用することで、BIOCLIPや将来の生物学モデルをトレーニングすることができます。 BIOCLIPは、視覚に基づく生命の木の表現です。TREEOFLIFE10Mのような大規模なラベル付きデータセットを用いてビジョンモデルをトレーニングする一般的で簡単なアプローチは、監視付き分類ターゲットを使用して画像から分類指数を予測することを学ぶことです。ResNet50やSwin Transformerもこの戦略を使用しています。しかし、このアプローチは、分類群が体系的に関連している複雑なタクソノミーのシステムを無視し、活用していません。したがって、基本的な監視付き分類を使用してトレーニングされたモデルは、未知の分類群をゼロショット分類することができない可能性があり、トレーニング時に存在しなかった分類群に対してもうまく一般化することができないかもしれません。その代わりに、チームは、BIOCLIPの包括的な生物学的タクソノミーとCLIPスタイルの多モーダルコントラスティブ学習を組み合わせる新しいアプローチに従っています。CLIPコントラスティブ学習目的を使用することで、彼らは分類群の階層をキングダムから最も遠い分類群ランクまでフラット化して、分類名として知られる文字列に関連付けることができます。BIOCLIPは、可視化できない分類群の分類名を使用する際にも、ゼロショット分類を行うことができます。チームは、混合テキスト型のトレーニング技術が有益であることを提案し、示しています。これは、分類名からの一般化を保ちつつ、複数のテキストタイプ（例：科学名と一般名）を組み合わせたトレーニング中に柔軟性を持つことを意味します。たとえば、ダウンストリームの使用者は一般的な種名を使用し続けることができ、BIOCLIPは非常に優れたパフォーマンスを発揮します。BIOCLIPの徹底的な評価は、植物、動物、昆虫を対象とした10の細かい画像分類データセットと、トレーニング中には使用されなかった特別に編集されたRARE SPECIESデータセットに基づいて行われています。BIOCLIPは、CLIPとOpenCLIPを大きく凌ぎ、few-shot環境では平均絶対改善率17％、zero-shot環境では18％の成績を収めました。さらに、その内在的な分析はBIOCLIPのより優れた一般化能力を説明することができます。これは、生物分類学的階層を遵守した階層的表現を学んでいることを示しています。 BIOCLIPのトレーニングは、数十万の分類群に対して視覚表現を学ぶためにCLIPの目的を利用しているということにもかかわらず、チームは分類に焦点を当てたままです。今後の研究では、BIOCLIPが細かい特徴レベルの表現を抽出できるよう、inaturalist.orgから100百万枚以上の研究用写真を取り込み、種の外見のより詳細なテキスト記述を収集する予定です。

「04/12から10/12までの週のトップ重要なLLM論文」

大型言語モデル（LLM）は最近急速に進化しています新しいモデルの世代が開発されるにつれて、研究者やエンジニアは最新の進歩について情報を得る必要がありますこの記事は…

『たった10行のコードで任意のGPUに適合するLLMを作成します』

「24ギガバイト以上のVRAMを搭載したGPUに十分なお金を持っている人って、誰ですか？特に、それを試してみたり、使ってみたり、ローカルで実行して遊びたいだけなのに！私たちは…」

Learn more about Search Results 10