Search Results A

「BeautifulSoupを使ったWebスクレイピングのマスタリング」

これはWebスクレイピングを学びたい人にとって素晴らしいガイドですBeautifulSoupを使ったWebスクレイピングの基礎を理解し、どのように使うかを説明しています

「個人AIの世界におけるプライバシー、信頼性、倫理的AIについて、Haltia.AIのCTOであるアルト・ベンディケン氏に聞く」

「私たちは、AI Time Journalのインタビューで独占的な洞察を共有してくれたHaltia.AIの共同創設者兼CTO、Arto Bendikenに感謝しますBendiken氏がHaltia.AIの独自のアプローチについて語る中で、プライバシー、倫理的AI、イノベーションの世界に飛び込んでくださいデバイス内での処理からブロックチェーンとAIの交差点まで、Haltia.AIの変革的な影響について学びましょう…個人用AIアシスタントの世界でのプライバシー、信頼、倫理的AIについて、Haltia.AIのCTO、Arto Bendiken氏による記事をお楽しみください詳細を読む」

インドのOla CEO、ブハビッシュ・アガルワルがAI開発に進出します

ダイナミックなテックの風景の中で、インドはAI分野で野心的な新興企業を生み出しています。Ola CEOのBhavish Aggarwalが率いる最新のイノベーション、「Krutrim」は、地元だけでなく、国際的にも注目を浴びる準備が整っています。この国産のソリューションは、インドの技術力を世界の舞台で披露することを目指しています。 Krutrimの誕生 Olaの成功の背後にあるビジョンを持つBhavish Aggarwalは、休むことなく進化を続けています。交通部門を変革した後、Aggarwal氏は今度はAIを活用したコミュニケーション分野に注目しています。Krutrimは単なるチャットアプリではありません。それは意思表示の一環であり、インドの成長する技術力を物語るものです。一風変わったチャットアプリ Krutrimはメッセージングだけではありません。ユニークなユーザーエクスペリエンスを提供するAIパワードプラットフォームです。自然言語の理解と処理に重点を置き、多様なユーザーベースのニーズに対応することを目指しています。インドのテック・ルネサンスインドのテックシーンは上昇傾向にあり、Krutrimはその再生の見本です。グローバルな巨人たちと肩を並べるAIチャットアプリを開発することで、インドは明確なメッセージを発信しています。インドは追従するだけでなく、リードする準備ができているということです。Krutrimは、単なるアプリ以上のものです。それはインドのイノベーションとエンジニアリングの見本です。私たちの意見 Krutrimはインドのテックに対する大胆な前進です。それは革新のシンボルであり、Bhavish Aggarwal氏のようなインドの起業家の野心とスキルを反映しています。世界が注目する中、KrutrimはインドをグローバルなAIの主要な話題に押し上げるきっかけとなるでしょう。

パーセプトロンからアダラインまで – From the Perceptron to Adaline

「以前の記事で、おそらく存在したもっとも基本的な二元分類器であるローゼンブラットのパーセプトロンを説明しようとしましたこのアルゴリズムを理解することは教育的な価値があり、...」

このAI論文は『プライバシー保護MAE-Alignと呼ばれる新しい事前トレーニング戦略を提案し、合成データと人間除去された実データを効果的に組み合わせる』というものです

アクション認識は、ビデオシーケンスから人間の動作を識別・分類するタスクであり、コンピュータビジョンの中で非常に重要な分野です。しかし、このタスクは人々の画像を含む大規模なデータセットに依存しており、プライバシー、倫理、データ保護に関連する重要な課題を引き起こします。これらの問題は、個人属性に基づく個人の特定や、明示的な同意なしでのデータ収集によるものです。さらに、特定のグループが実行する特定の行動に関連するジェンダーや人種などのバイアスは、このようなデータセットで訓練されたモデルの正確性や公平性に影響を与える可能性があります。アクション認識では、大規模なビデオデータセット上での事前学習の進歩が画期的な役割を果たしています。しかし、この進歩には、倫理的な考慮事項、プライバシーの問題、人間イメージのデータセットに固有のバイアスなどの課題が付随しています。これらの課題に対処するための既存のアプローチには、顔のぼかし、ビデオのダウンサンプリング、または合成データの使用が含まれます。しかし、これらの取り組みにもかかわらず、プライバシーを保護する事前学習モデルが学んだ表現が、さまざまなアクション認識タスクへの転移性がどれほど良いかについて、さらなる分析が必要です。最先端のモデルは、バイアスや訓練データの多様性の欠如により、アクションの予測が正確でない場合があります。これらの課題に対処するためには、プライバシーに関する懸念を解決し、学習された表現の転移性を向上させる革新的なアプローチが求められます。プライバシーの懸念や人間中心のデータセットに対するバイアスによる課題を克服するために、最近行われたNeurIPS 2023という有名なカンファレンスで、画期的なアプローチが発表されました。この新たに発表された研究では、仮想人間を含む合成ビデオと人間のいない実世界のビデオを組み合わせてアクション認識モデルを事前学習する方法論が提案されています。この革新的な方法をプライバシー保護MAE-Align（PPMA）と呼びます。この方法は、合成データから時間的なダイナミクスを学習し、人間のいないビデオから文脈特徴を学習することで、個人データに関連するプライバシーや倫理上の懸念に対処します。PPMAは、学習された表現をさまざまなアクション認識タスクに転送する能力を大幅に向上させ、人間中心のデータを使用したモデルとの性能差を縮小します。具体的には、提案されるPPMA手法は以下の主要なステップに従います：プライバシー保護実データ：このプロセスは、Kineticsデータセットを使用し、HATフレームワークを使って人間を除去し、No-Human Kineticsデータセットを作成することから始まります。合成データ追加：SynAPTから合成ビデオを追加し、時間的特徴にフォーカスした仮想人間の動作を提供します。ダウンストリームの評価：6つの異なるタスクでモデルの転移性を評価します。 MAE-Align事前学習：この2段階の戦略は以下のようなものです：ステージ1：MAEトレーニング – ピクセル値の予測を行い、実世界の文脈特徴を学習します。ステージ2：教師ありアライメント – No-Human Kineticsと合成データを使用してアクションラベルに基づくトレーニングを行います。プライバシー保護MAE-Align（PPMA）：ステージ1（No-Human Kineticsで訓練されたMAE）とステージ2（No-Human Kineticsと合成データの両方を使用したアライメント）を組み合わせることで、PPMAはプライバシーを保護しながら頑健な表現学習を実現します。研究チームは、提案手法を評価するために実験を行いました。ImageNetの事前学習を行わずにゼロからトレーニングされたViT-Bモデルを使用し、MAEトレーニング（200エポック）の後に教師ありアライメント（50エポック）を行いました。6つの異なるタスクにおいて、PPMAは他のプライバシー保護手法に比べて、微調整（FT）では2.5％、線形プロービング（LP）では5％の性能向上を達成しました。高いシーン-オブジェクトバイアスのタスクでは多少効果が低かったものの、PPMAは人間中心の実データで訓練されたモデルとの性能差を大幅に縮小し、プライバシーを保護しながら頑健な表現を実現する可能性を示しました。削除実験はMAE事前学習が転移学習においてどれだけ効果的かを示し、さらなる研究の余地を開く文脈と時間的な特徴の組み合わせ、モデルの重みの平均化や動的な学習率の調整などの手法も表現を向上させる可能性を示しました。本記事では、アクション認識モデルに対する新しいプライバシー保護手法PPMAを紹介し、人間中心のデータセットに関連するプライバシー、倫理、バイアスの課題に取り組んでいます。合成データと人間不在の実世界データを活用することで、PPMAは学習された表現を異なるアクション認識タスクに効果的に転送し、人間中心のデータを使用したモデルとの性能差を縮小します。実験結果は、PPMAがプライバシーを保護しながらアクション認識を進化させ、従来のデータセットに関連する倫理的な懸念やバイアスを軽減する能力を示しています。

「GoogleとMITの研究者がStableRepを紹介：合成イメージによるAIトレーニングで機械学習を革新する」

研究者たちは、テキストから画像への変換モデルによって生成される合成画像の潜在能力を探ることで、視覚的な表現を学び、より効率的でバイアスの少ない機械学習の道を開拓しています。MITの研究者によるこの新しい研究では、Stable Diffusionに焦点を当て、合成画像上で自己教師ありの手法を訓練することで、生成モデルが適切に設定されている場合には、実際の画像と同等またはそれ以上の性能を発揮することを示しています。提案された手法であるStableRepは、同じテキストのプロンプトから生成される複数の画像を互いに正として扱うマルチポジティブな対比学習手法を導入しています。StableRepは完全に合成画像のみで訓練され、大規模データセットではSimCLRやCLIPなどの最先端の手法を上回り、言語の指導と組み合わせた場合には5000万枚の実際の画像で訓練されたCLIPよりも優れた精度を達成します。提案されたStableRepアプローチは、キャプション内の不変性を促進する表現学習の新しい方法を導入しています。同じテキストのプロンプトから生成される複数の画像を互いに正として扱うことで、StableRepはマルチポジティブな対比損失を使用します。その結果、StableRepはSimCLRやCLIPなどの他の自己教師あり手法を上回るImageNet上で顕著な線形精度を達成します。この手法の成功は、Stable Diffusionとテキストプロンプトといった要素を活用し、合成データのサンプリングに対してより大きな制御を行う能力に起因しています。また、生成モデルは訓練データを超えて一般化する可能性を持ち、実際のデータのみに比べてより豊かな合成訓練セットを提供します。まとめると、この研究はStable Diffusionによって生成された合成画像上で自己教師あり手法を訓練することの驚くべき効果を示しています。StableRepアプローチは、マルチポジティブな対比学習手法を備えることにより、実際の画像を使用した最先端の手法に比べて表現学習における優れた性能を示しています。この研究は、大規模かつ多様なデータセットの取得に対する費用効果の高い代替手法として、テキストから画像を生成する手法によるデータ収集の簡素化の可能性を提示しています。ただし、合成データにおける意味の不一致やバイアスの課題には取り組む必要があり、未整理のウェブデータを訓練に使用することの潜在的な影響も考慮する必要があります。

‘製品およびエンジニアリングリーダーのための実践的なGenAI’

「もし普段から運転することがあるなら、自動車のフードには気にすることなく綿が詰まっているかもしれませんしかし、もしもあなたがより良い車を作る責任を持つ設計や製造の一環であるならば…」

中国からのこのAI論文では、「モンキー」という新しい人工知能のアプローチが紹介されていますこれは、大規模なマルチモーダルモデルで入力の解像度と文脈関連性を向上させるための方法です

大規模なマルチモーダルモデルは、テキストや画像を含むさまざまなデータを処理し分析する能力があるため、ますます人気が高まっています。学界では、画像のラベリング、ビジュアルな質問への回答など、さまざまなマルチモーダルな活動でその知識が認識されています。LLaVA、MiniGPT4、mPLUG-Owl、Qwen-VLなど、最先端のモデルは、この分野での迅速な進歩の例です。ただし、特に複雑なシナリオの取り扱い時には、さまざまな画像解像度の幅広さや、トレーニングデータの品質の必要性など、いくつかの障害があります。画像エンコーダは改善され、大規模なデータセットが使用されて入力解像度を増やすことで、これらの困難を克服するための取り組みがなされています。さらに、LLaVAは、マルチモーダルな状況での指示調整を革新的に拡張することで、マルチモーダルな指示に従うデータを統合しています。しかし、これらの手法は頻繁に画像の入力サイズを持続可能に管理し、かつ大規模なトレーニングコストに対処するための支援が必要です。データセットが大きくなるにつれて、画像とテキストの関連性の微妙なニュアンスを理解するために、より複雑な画像の説明が必要とされる状況が増えてきます。これは、COYOやLAIONなどのデータセットで見られる簡潔な一文のキャプションで満たされる必要がある条件です。これらの制約により、華中科技大学と金山研究所の研究者らは、Monkeyと呼ばれるLMMパラダイムのコンテキストで入力解像度を高めるためのリソース効率の良い技術を提案しています。既存のLMMを活用することで、時間のかかる事前トレーニングプロセスを回避することができるため、大規模なオープンソースの作業が豊富に存在していることに感謝します。研究チームは、高解像度の画像をより管理しやすく、局所的な部分に分割するためのスライディングウィンドウアプローチを使用するシンプルかつ効率的なモジュールを提案しています。静的なビジュアルエンコーダ、複数のLoRA修正、および訓練可能なビジュアルリサンプラは、各パッチを個別にエンコードします。その後、言語デコーダには、これらのパッチのエンコーディングとグローバルな画像のエンコーディングが与えられ、より良い画像理解が行われます。また、BLIP2、PPOCR、GRIT、SAM、ChatGPT OpenAIなどの多くのジェネレータからのマルチレベルの手がかりを組み合わせた技術も開発し、豊富で高品質なキャプションデータを提供しています。まず、彼らのモデルの画像キャプショニングの割り当ては、画像のさまざまなアクセサリやバックドロップの赤い旗など、間違いや抜けがなくほぼすべての側面を正確に説明することができます。キャプションに含まれる茶色のバッグは、写真をよく見ないとすぐには明らかでないかもしれませんが、モデルの説明では強調されています。この小さなヒントにより、モデルは確実に検証することができなくても理に適った結論を導くことができます。これにより、モデルは小さなアイテムにも注意を払い、論理的かつ正確な説明を提供する能力を示しています。ビジュアルの詳細な説明の提供だけでなく、モデルはさまざまな言語とそれらに対応する信号を区別することもできます。この情報を使用することで、Monkeyによる写真の効用を合理的に予測することができます。写真の水印である “life quotes Tumblr” に “e” が欠けていても、モデルはそれに関する質問に答えることができます。これは、トレーニング後により高い解像度の写真の小さなテキストを読む能力を示しています。さらに、モデルが “October 6, 1966” という日付に関する質問に正しく応答することで、チャートからデータを読み取り、濃密なテキスト素材の中から適切な応答を特定する能力も示されています。この現象は、モデルが特定のテキストとそれに対応する目標の整合性を正確に表現できる能力を示し、濃密であいまいなテキストでもクエリに正確に応答する能力と、目的と全体的な知識の関連性を強調しています。 Monkeyの利点は次のようにまとめられます： 1. コンテキスト内の関連性。研究チームは、説明の生成においてさまざまなターゲット間の関係を理解し、テキスト説明を作成する際に共通の知識をより効果的に探索するためのマルチレベル戦略を提案することで、モデルの能力を向上させています。これにより、より深い洞察と詳細な結果が生み出されます。 2. 事前トレーニングなしで、1344 x 896までの解像度をサポート。LMMに通常使用される448 x…

「Anthropic Releases Claude 2.1：拡張されたコンテキストウィンドウと向上した精度でエンタープライズAIを革新する」

“` <img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-27-at-11.32.43-PM-1024×951.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-27-at-11.32.43-PM-150×150.png”/> 様々なAIモデルが存在しますが、最近AnthropicによってリリースされたClaude 2.1は、いくつかの現在の問題に対処しています。これまでのモデルとは異なり、このモデルは驚異的な20万トークンのコンテキストウィンドウを持ち、広範な文書から情報を理解し記憶することができます。これにより他のモデルを上回り、誤った応答の発生可能性を低減させます。さらに、Claude 2.1は外部ツールの使用が可能であり、クエリの効果的な処理能力を向上させる多機能性を持っています。計算機のデータベースと統合し、ウェブ検索を行うこともでき、さまざまな分野に応用が広がります。 Claude 2.1の注目すべき追加機能の1つは、システムプロンプトの実装です。この機能により、ユーザーはリクエストの特定の文脈を設定でき、モデルからより構造化された一貫性のある応答を得ることができます。コストはアクセス可能なものに設定されており、開発者やビジネスを含む多くのユーザーにとって実現可能です。しかし、ユーザーレビューは肯定的な意見と否定的な意見が混在していることを示しています。一部のユーザーは、特にチャットや要約などのタスクにおけるClaude 2.1の能力に感謝していますが、特定のコンテンツの扱いにおける重い検閲や制限に対して苛立ちを表明しています。 このモデルは、特に一番上と一番下の文書内の事実を驚異的な能力で回想しました。しかし、文書の深さが増すにつれて、一番下のパフォーマンスが低下していきました。特に最上部と最下部のポイントはほぼ100%の正確さで回想されました。低いコンテキスト長でのパフォーマンスは保証されていないため、ユーザーは最適な使用方法が必要です。 結論として、AnthropicのClaude 2.1は、AI言語モデルにおけるユーザーの課題への有望な解決策を提供しています。強化されたコンテキストウィンドウ、ツール活用能力、システムプロンプトを通じた構造化された応答を通じて、より信頼性の高い、多様性のある経験を提供することを目指しています。ユーザーフィードバックは肯定的な側面と否定的な側面を強調していますが、モデルのメトリックは広範な文書からの情報の回想能力を示しています。Claude 2.1のようなソリューションはユーザーの懸念を解消し、AIの相互作用の経験を向上させます。 この記事は<a href=”https://www.voagi.com/amazon-to-invest-up-to-4-billion-into-ai-startup-anthropic.html”>Anthropic Releases Claude 2.1: Revolutionizing Enterprise AI…

「Microsoftの研究者がPIT（Permutation Invariant Transformation）を提案：動的まばらさのためのディープラーニングコンパイラ」

“`html 最近、深層学習は動的スパース性に最適化されたモデルの研究によって注目されています。このシナリオでは、スパース性パターンはランタイムでのみ明らかにされ、効率的な計算にとって大きな課題を提起しています。この課題に直接対処するため、研究者グループはPermutation Invariant Transformation（PIT）という革新的な解決策を提案しました。これは、第29回ACMオペレーティングシステム原則シンポジウムで彼らの最新の研究で紹介されています。スパース性を考慮した深層学習の最先端ソリューションは、伝統的に事前に定義された静的スパース性パターンに苦しんできました。問題は、前処理に関連する大きなオーバーヘッドであり、ランタイム中のみ知られている動的なスパース性パターンを効果的に処理できないという制約にあります。研究者たちは、動的スパース計算の効率的な実行が、GPUに対応したタイル構成（高いGPU利用率を実現するために重要）と捨てられることのない非ゼロ値のテンソル内の計算に寄与しない領域を最小限に抑えるスパース性対応タイルの形状との間の基本的な不整合に直面することを認識しています。 PITとは、最適化領域の新たな方向性を切り開くディープラーニングコンパイラです。PITは、数学的に証明されたPermutation Invariant Transformationを活用します。この変換により、計算結果を変えずに、複数のまばらに配置されたマイクロタイルをGPUに効率的な密集タイルに統合することが可能になります。この戦略的な操作により、高いGPU利用率と最小限の領域浪費をバランス良く実現し、動的スパース性の取り扱いにおいてパラダイムシフトをもたらします。 PITのワークフローは、指定モデル内のすべてのオペレータに対して実行可能なPITルールを特定することから始まります。これらのルールは、動的スパース性の特定要件に合わせて作成された効率的なGPUカーネルの生成の設計図として機能します。重要なのは、このプロセスがランタイムで行われるため、PITがスパース性パターンが解き明かされるにつれてダイナミックに適応できるという点です。この実装には、PITルールを迅速に実行するための2つの重要なプリミティブ、SReadとSWriteが含まれています。 PITのオンラインスパース性検出および疎密なデータ変換メカニズムは、重要な役割を果たしています。Permutation Invariant Transformationは、PITがマイクロタイルから計算効率の高い密集タイルを構築することを可能にし、GPUに対応した構成と一致します。これは、従来の解決策がオフラインのデータ再配置に関連する著しいオーバーヘッドに苦しんでいることとは対照的です。研究者たちはPITを様々なモデルでテストし、包括的な評価を行いました。その結果、PITは最先端のコンパイラと比較して、動的スパース計算の加速において最大5.9倍の性能向上を示しました。このパフォーマンスの向上は、動的スパース性によってもたらされる計算上の課題へのPITの具体的な影響を示しています。 PITの貢献は、疎なトレーニングシナリオにも広がり、その柔軟性と堅牢性をさらに確かなものとしています。この研究は、単なる新しい手法を提案するだけでなく、動的スパース性の取り扱いに対する包括的なツールキットを提供し、ディープラーニング最適化の分野における革新的な進展の舞台を構築しています。まとめると、この研究で紹介された画期的な動的スパース性最適化ツールは、Permutation Invariant Transformation（PIT）の力を活用し、GPUに対応したタイル構成とスパース性対応タイルの整合性の課題に取り組むだけでなく、効率の面で深層学習の新たな時代を切り開きます。計算効率の驚異的な加速、多様なモデルの取り扱いの柔軟性、疎なトレーニングシナリオでの潜在的な応用性を考えると、この研究は動的スパース性適応の革命的な進展に向けた基盤を築き、ディープラーニング最適化の常に進化する景色において重要な役割を果たす存在となっています。 “`

Learn more about Search Results A - Page 55