Learn more about Search Results これ - Page 7
- You may be interested
- スクラムマスターの面接質問 – Chat...
- 「Power BIで実績と予測を一つの連続した...
- Pythonで相関行列を作成する7つの方法
- 「SelFeeに会いましょう:自己フィードバ...
- OpenAIはGPT-4をターボチャージしています...
- 「人工知能がゼロトラストを強化する方法」
- 「Canvaを使用して無料のAIアバターを作成...
- このAI論文では、既知のカメラパラメータ...
- 「Salesforce Data Cloudを使用して、Amaz...
- Googleは独占禁止法訴訟で敗訴:ビッグテ...
- AIコンテンツ検出機はどのように機能する...
- GraphStormによる高速グラフ機械学習:企...
- LLMWareは、複雑なビジネスドキュメントを...
- 「AIのトレーニングAI:ゲータートロングP...
- 「ゼロ冗長最適化(ZeRO):Pythonによる...
これらの4つのパッケージで、あなたの探索的データ分析を簡素化する
データサイエンティストである今は最高の時代です!以前は時間がかかっていた作業も今では自動化され、洞察の創出や機械学習モデルの設計の余地が大いに生まれていますたくさんの…
このAI論文では、Complexity-Impacted Reasoning Score(CIRS)を紹介していますこれは、大規模な言語モデルの推論能力を向上させるためのコードの複雑さの役割を評価するものです
大規模言語モデル(LLM)は、具現化された人工知能の問題解決における汎用的なアプローチとなっています。効率的な制御のためにエージェントが環境の意味的な微妙さを理解する必要がある場合、LLMの推論能力は具現化されたAIにおいて重要です。最近の方法である「思考のプログラム」では、プログラミング言語を課題を解決するための改善されたプロンプトシステムとして使用しています。思考のプログラムプロンプトは、チェーン思考プロンプトとは異なり、問題を実行可能なコードセグメントに分割し、それらを一度に処理します。ただし、プログラミング言語の使用とLLMの思考能力の関係については、まだ十分な研究が行われていません。思考のプログラムプロンプトは、どのような場合に推論に対して機能するのか、依然として重要な問いとなります。 本論文では、コードの推論段階とLLMの推論能力との関係を評価するための包括的な指標である「複雑度に影響を与える推論スコア(CIRS)」を提案しています。彼らは、プログラミング言語が複雑な構造のモデリングの改善された手法であるために、直列化された自然言語よりも優れていると主張しています。また、手続き志向の論理は、複数のステップを含む困難な思考を解決するのに役立ちます。そのため、彼らが提案する指標は、構造と論理の両面からコードの複雑さを評価します。具体的には、彼らは抽象構文木(AST)を使用してコードの推論段階(根拠)の構造的複雑さを計算します。彼らの方法では、ASTを木として表現するために3つのAST指標(ノード数、ノードタイプ、深さ)を使用し、コードの構造情報を包括的に理解します。 浙江大学、東海研究所、シンガポール国立大学の研究者は、HalstedとMcCabeの考え方に触発され、コーディングの難易度とサイクロマティック複雑度を組み合わせることで論理の複雑さを決定する方法を開発しました。したがって、コードの演算子、オペランド、制御フローを考慮することが可能です。彼らはコード内の論理の複雑さを明示的に計算することができます。彼らが提案するCIRSを使用した経験的な調査により、現在のLLMがコードなどの象徴的な情報を制限された理解しか持っていないこと、すべての複雑なコードデータがLLMによって教えられ理解されるわけではないことが明らかになりました。低複雑度のコードブロックは必要な情報が不足していますが、高複雑度のコードブロックはLLMにとって理解するのが難しすぎる場合があります。LLMの推論能力を効果的に向上させるためには、適切な複雑度(構造と論理の両方)を持つコードデータのみが必要です。 彼らは、推論能力に最も優れたデータを生成および除外するデータを自動的に合成して分類する方法を提供しています。彼らはこのアプローチを2つの異なる状況で使用しています:(1)数学的思考を必要とする活動のための手順の作成の指示の指示。 (2)コード作成を含む活動のためのコードデータのフィルタリング。彼らの提案する戦略は、数学的な推論においてベースラインモデルよりも優れた成績を収め、コード作成の課題においても成功を示しています。 この論文への彼らの貢献は以下の通りです: • 推論データの難しさを測定する独自のアプローチであるCIRSを提案しています。論理的および構造的な観点からコードデータを分析する彼らの方法は、コードの複雑さと推論能力の関係を正確に測定することができます。 • 異なる複雑度レベルの影響を経験的に分析し、LLMが学習できる適切な程度のコード言語をプログラムの思考プロンプトの推論能力の鍵として特定しています。 • 自動合成および分類アルゴリズムを作成し、数学的思考を必要とする仕事のためのコードデータのフィルタリングと指示の作成に彼らの方法を使用しています。多くの結果が彼らの提案する視点の有効性を支持しています。
効率の向上:私がテックMLEとして毎日使用する10のデコレーター
「機械学習エンジニア(MLE)はAIの建築家であり、パターンを認識し、予測を行い、タスクを自動化できる知能システムを作り上げる役割を果たしますこの旅では、Pythonが私たちの…」
これらの便利なドローンは、空中で結合してより大きく、より強力なロボットを形成することができます
東京大学の研究者たちは、空中で組み立てと分解ができるドローンを開発しました
「S-LabとNTUの研究者が、シーニメファイ(Scenimefy)を提案しましたこれは、現実世界の画像から自動的に高品質なアニメシーンのレンダリングを行うための画像対画像翻訳フレームワークであり、セミスーパーバイズド(半教師付き)手法を採用しています」
アニメの風景は創造力と時間を大量に必要とするため、自動的なシーンのスタイル化のための学習ベースの手法の開発には明らかな実用的かつ経済的な意義があります。自動スタイル化は、最近の生成的対抗ネットワーク(GAN)の発展により、大幅に改善されていますが、この研究のほとんどは主に人間の顔に焦点を当てています。複雑な現実世界のシーン写真から高品質なアニメの風景を作成するプロセスは、その莫大な研究価値にもかかわらず、まだ研究が必要です。現実のシーン写真をアニメスタイルに変換するには、いくつかの要素が関与して多くの作業が必要です。 1) シーンの構成:図1は、シーン内の前景と背景部分の階層関係を示しており、これらの部分はしばしば複雑な方法で接続された複数のアイテムで構成されています。 2) アニメの特徴:図1は、草、木、雲などの自然環境で事前に設計された筆触が使用されることで、アニメを定義する特異なテクスチャと正確なディテールが作成される様子を示しています。これらのテクスチャの有機的で手描きの性質は、以前の実験で示された鮮明なエッジと均一な色のパッチよりも模倣がはるかに困難です。 3) データの不足とドメインのギャップ:高品質なアニメのシーンデータセットは、背景の風景とは異なる美的を持つ多くの人間の顔や他の前景アイテムのため、現実とアニメのシーンの間のギャップを埋める上で重要です。既存のデータセットは低品質です。 図1:アニメのシーンの特徴。手描きの筆触(前景の草や石)や木や雲(背景)の存在が、新海誠監督の2011年の映画「星を追う子ども」のシーンフレームで見ることができます。 対称的な画像変換は、対になったトレーニングデータがない場合に複雑なシーンのスタイル化に使用される人気のある方法です。アニメスタイルに焦点を当てた既存の技術は、有望な結果を示しているにもかかわらず、いくつかの分野で追いつく必要があります。まず、複雑な風景ではピクセルごとの相関が欠如しているため、現在のアプローチでは明らかなテクスチャのスタイル化を実行するのが困難であり、意外な出力や目立つアーティファクトを含む可能性があります。2つ目に、一部の方法ではアニメのシーンの微細なディテールを生成しません。これは、エッジや表面のなめらかさを強制する構築されたアニメ固有の損失や事前抽出された表現に起因しています。 上記の問題を解決するために、南洋理工大学のS-Labの研究者は、高品質なアニメスタイルのシーン写真の表現を作成するためのユニークな半教師ありイメージ間変換(I2I)パイプラインであるScenimefyを提案しています。彼らの主な提案は、疑似対応データを使用して、教師なしフレームワークに新しい教師ありトレーニングブランチを導入し、教師なしトレーニングの欠点に対処することです。彼らはStyleGANの有利な特性を使用して、実際のアニメまたは偽の対応データ間の粗い対応データを提供するためにそれを微調整するというメインの提案を行っています。 図2は、Scenimefyによるアニメのシーンのレンダリングを示しています。上段:翻訳された画像;下段:翻訳の結果。 彼らは、CLIPやVGGなどの豊富な事前学習モデルの先行知識を使用して、StyleGANが複雑なシーンの詳細を捉え、過学習を減らすようにするための新しい意味制約型微調整手法を提供しています。低品質のデータをフィルタリングするために、彼らはセグメンテーションに基づいたデータ選択手法も提供しています。疑似対応データとユニークなパッチごとの対照的なスタイル損失を使用することで、Scenimefyは2つのドメイン間の微細な詳細を作成し、効果的なピクセルごとの対応を学習します。彼らの半教師ありフレームワークは、シーンのスタイル化の忠実さと正確さ、教師なしトレーニングブランチの間で望ましいトレードオフを試みます。 彼らはまた、トレーニングを支援するために純粋なアニメシーンの高品質なデータセットを収集しました。彼らは広範なテストを実施し、Scenimefyの有効性を示し、知覚品質と数量評価の業界基準を上回りました。以下は彼らの主な貢献の概要です: • 彼らは、実際の写真を洗練されたアニメシーンの優れた品質の画像に変換する新しい準教師付きシーンスタイライゼーションフレームワークを提供しています。彼らのシステムは、スタイライゼーションと細部を向上させるために独自のパッチ単位の対比的なスタイル損失を追加します。 • 豊富な事前トレーニングのガイダンスに続いて、セグメンテーションによるデータ選択スキームによって構造一貫性のある擬似ペアデータが生成される、新しく開発された意味制約付きStyleGAN微調整技術があります。これはトレーニングの監督の基礎となります。 • 彼らは、将来のシーンスタイライゼーションの研究に役立つ高解像度のアニメシーンのコレクションを収集しました。
「これらの3つのあまり知られていないPandasの関数を試してみてください」
もし経験豊富なデータサイエンティストや機械学習エンジニアに尋ねると、彼らの仕事で最も時間がかかるものは何でしょうか?私は多くの人が「データの前処理」と答えるでしょうこれはデータを整理するためのステップです...
Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です
最近の進歩により、コンピュータは人間の視覚のように、世界から視覚情報を解釈し理解することができるようになりました。画像と動画から情報を処理、分析、抽出することを含みます。コンピュータビジョンは、視覚解釈を必要とするタスクの自動化を実現し、手作業の介入を減らすことができます。オブジェクト検出は、画像やビデオフレーム内の複数の興味深いオブジェクトを識別し、位置を特定するコンピュータビジョンのタスクです。 オブジェクト検出は、シーン内に存在するオブジェクトを判別し、それらが画像内のどこに位置しているかに関する情報を提供することを目指しています。ほとんどの現代のオブジェクト検出器は、領域とクラスラベルの手動注釈に依存していますが、これにより語彙サイズが制限され、さらなるスケーリングが高価になります。 代わりに、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるために、ビジョン-言語モデル(VLM)を使用することができます。ただし、そのようなモデルの事前学習プロセスでオブジェクト/領域の概念を適切に活用する必要があります。 Google Brainの研究者らは、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるためのシンプルなモデルを提案しています。彼らは、領域に意識を持たせたオープンボキャブラリービジョントランスフォーマー(RO-ViT)を提案しています。 RO-ViTは、オープンボキャブラリーオブジェクト検出のために、ビジョントランスフォーマーを領域に意識した方法で事前学習するためのシンプルな手法です。通常の事前学習では、画像全体の位置埋め込みが必要ですが、研究者は、全画像の位置埋め込みの代わりに、ランダムに領域の位置埋め込みを切り取り、リサイズすることを提案しています。これを「切り取られた位置埋め込み」と呼びます。 研究チームは、焦点損失を使用した画像テキストの事前学習が既存のソフトマックスCE損失よりも効果的であることを示しています。また、さまざまな新しいオブジェクト検出技術も提案しています。彼らは、既存のアプローチでは、オブジェクトの候補のステージで新しいオブジェクトを見逃すことがよくあると主張しています。なぜなら、候補はよりバランスが取れる必要があるからです。 チームは、モデルRO-ViTが最先端のLVISオープンボキャブラリー検出ベンチマークを達成していると述べています。その統計によると、イメージテキスト検索ベンチマークの12メトリックのうち9つでそれを達成しているとのことです。これは、学習された表現が領域レベルで有益であり、オープンボキャブラリー検出で非常に効果的であることを反映しています。 オブジェクト検出技術の進歩に伴い、責任ある開発、展開、規制が重要になります。その正の影響を最大化し、潜在的なリスクを軽減するためです。全体として、オブジェクト検出技術の持続的な進歩は、産業の革新、安全性と生活の質の向上、かつてはSFと考えられていたイノベーションを実現することによって、より明るい未来に貢献することが期待されています。 論文とGoogleブログをチェックしてください。この研究に関しては、このプロジェクトの研究者によるものです。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している29k+のML SubReddit、40k+のFacebookコミュニティ、Discordチャンネル、Emailニュースレターにもぜひ参加してください。 私たちの業績が気に入ったら、ニュースレターも気に入るでしょう。 この記事はMarkTechPostで最初に公開されました。Googleの研究者は、オープンボキャブラリー検出を改善するために、リージョンに意識した方法でビジョントランスフォーマーを事前学習する単純なAI手法、RO-ViTを紹介しました。
アリババの研究者は、Qwen-VLシリーズを紹介しますこれは、テキストと画像の両方を認識し理解するために設計された大規模なビジョン・ランゲージ・モデルのセットです
最近、大規模言語モデル(LLM)は、強力なテキスト生成能力と理解能力を持つため、多くの関心を集めています。これらのモデルは相互作用能力があり、ユーザーの意図に合わせて指示をより一層的確にすることで、知的なアシスタントとして生産性を向上させる潜在的な能力を持っています。一方、ネイティブの大規模言語モデルは純粋なテキストの領域に限定されており、画像や音声、動画などの他の広く使用されるモダリティを扱うことができません。そのため、これらのモデルの応用範囲が制限されています。この制約を克服するために、大規模ビジョン言語モデル(LVLM)の系列が作成されました。 これらの広範なビジョン言語モデルは、実用的なビジョン中心の問題を解決するための大きな可能性を示しています。アリババグループの研究者たちは、オープンソースのQwenシリーズの最新メンバーであるQwen-VLシリーズモデルを紹介し、マルチモーダルなオープンソースコミュニティの成長を促進しています。Qwen-VLファミリーの大規模なビジョン言語モデルには、Qwen-VLとQwen-VL-Chatの2つのバリエーションがあります。事前学習済みモデルであるQwen-VLは、ビジュアルエンコーダをQwen-7B言語モデルに接続して、ビジュアルの能力を提供します。Qwen-VLは、訓練の3つの段階を経た後、マルチレベルのスケールでビジュアル情報を感知し、理解することができます。また、Qwen-VL-Chatは、Qwen-VLを基にした対話型のビジュアル言語モデルであり、アライメント手法を使用し、複数の画像入力、マルチラウンドのディスカッション、位置情報の能力など、より柔軟な対話を提供します。これは図1に示されています。 図1: Qwen-VL-Chatによって生成されたいくつかの定性的なサンプルが図1に示されています。複数の画像入力、ラウンドロビンの会話、多言語の会話、および位置情報の機能をQwen-VL-Chatはサポートしています。 以下は、Qwen-VL-Chatの特徴です。 ・高い性能:ゼロショットキャプショニング、VQA、DocVQA、およびグラウンディングなど、いくつかの評価ベンチマークで、現在のオープンソースの大規模ビジョン言語モデル(LVLM)を大幅に上回る性能を発揮します。 ・多言語LVLMによる中国語と英語のバイリンガルテキストと画像内のインスタンスのエンドツーエンド認識とアンカリングの促進:Qwen-VLは自然な形で英語、中国語、およびマルチリンガルな対話が可能です。 ・複数の画像の交互に挿入された会話:この機能により、複数の画像を比較し、画像に関する質問を指定し、複数の画像で物語を作成することができます。 ・正確な認識と理解:448×448の解像度により、細かいテキストの認識、ドキュメントの品質保証、バウンディングボックスの識別が、競合するオープンソースのLVLMが現在使用している224×224の解像度と比較して促進されます。
「これらのツールは、AIから私たちの写真を保護するのに役立つかもしれません」
ただし、これらのツールは完璧ではなく、それ自体では十分ではありません
「これらの新しいツールは、AIから私たちの写真を保護するのに役立つかもしれません」
ただし、これらのツールは完璧ではなく、それ自体では十分ではありません
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.