Learn more about Search Results ( link - Page 8

事前学習済みのViTモデルを使用した画像キャプショニングにおけるVision Transformer(ViT)

はじめに 事前学習済みのViTモデルを使用した画像キャプショニングは、画像の詳細な説明を提供するために画像の下に表示されるテキストまたは書き込みのことを指します。つまり、画像をテキストの説明に翻訳するタスクであり、ビジョン(画像)と言語(テキスト)を接続することで行われます。この記事では、PyTorchバックエンドを使用して、画像のViTを主要な技術として使用して、トランスフォーマーを使用した画像キャプショニングの生成方法を、スクラッチから再トレーニングすることなくトレーニング済みモデルを使用して実現します。 出典: Springer 現在のソーシャルメディアプラットフォームや画像のオンライン利用の流行に対応するため、この技術を学ぶことは、説明、引用、視覚障害者の支援、さらには検索エンジン最適化といった多くの理由で役立ちます。これは、画像を含むプロジェクトにとって非常に便利な技術であります。 学習目標 画像キャプショニングのアイデア ViTを使用した画像キャプチャリング トレーニング済みモデルを使用した画像キャプショニングの実行 Pythonを使用したトランスフォーマーの利用 この記事で使用されたコード全体は、このGitHubリポジトリで見つけることができます。 この記事は、データサイエンスブログマラソンの一環として公開されました。 トランスフォーマーモデルとは何ですか? ViTについて説明する前に、トランスフォーマーについて理解しましょう。Google Brainによって2017年に導入されて以来、トランスフォーマーはNLPの能力において注目を集めています。トランスフォーマーは、入力データの各部分の重要性を異なる重み付けする自己注意を採用して区別されるディープラーニングモデルです。これは、主に自然言語処理(NLP)の分野で使用されています。 トランスフォーマーは、自然言語のようなシーケンシャルな入力データを処理しますが、トランスフォーマーは一度にすべての入力を処理します。注意機構の助けを借りて、入力シーケンスの任意の位置にはコンテキストがあります。この効率性により、より並列化が可能となり、トレーニング時間が短縮され、効率が向上します。 トランスフォーマーアーキテクチャ 次に、トランスフォーマーのアーキテクチャの構成を見てみましょう。トランスフォーマーアーキテクチャは、主にエンコーダー-デコーダー構造から構成されています。トランスフォーマーアーキテクチャのエンコーダー-デコーダー構造は、「Attention Is All You Need」という有名な論文で発表されました。 エンコーダーは、各レイヤーが入力を反復的に処理することを担当し、一方で、デコーダーレイヤーはエンコーダーの出力を受け取り、デコードされた出力を生成します。単純に言えば、エンコーダーは入力シーケンスをシーケンスにマッピングし、それをデコーダーに供給します。デコーダーは、出力シーケンスを生成します。 ビジョン・トランスフォーマーとは何ですか?…

LinkedInとUCバークレーの研究者らは、AIによって生成されたプロフィール写真を検出する新しい方法を提案しています

人工知能(AI)による合成やテキストから画像生成されたメディアの普及とともに、偽プロフィールの洗練度が高まっています。LinkedInはUC Berkeleyと提携して、最先端の検出方法を研究しています。彼らの最近の検出方法は、人工的に生成されたプロフィール写真を99.6%の確率で正確に識別し、本物の写真を偽物として誤認識する割合はわずか1%です。 この問題を調査するには2種類の法科学的方法が使用できます。 仮説に基づく方法は、合成的に作られた顔の異常を見つけることができます。この方法は、明白な意味の外れ者を学習することで利益を得ます。しかし、学習可能な合成エンジンは既にこれらの機能を持っているようです。 機械学習などのデータ駆動型の方法は、自然な顔とCGIの顔を区別することができます。訓練システムに専門外の画像が提示されると、分類に苦労することはよくあります。 提案された手法は、まずコンピュータ生成の顔に固有の幾何学的属性を特定し、それを測定および検出するためにデータ駆動型の方法を使用するハイブリッドアプローチを採用しています。この方法は、軽量で素早く訓練可能な分類器を使用し、小さな合成顔のセットで訓練が必要です。5つの異なる合成エンジンを使用して、41,500の合成顔を作成し、追加のデータとして100,000のLinkedInプロフィール画像を使用しています。 公開されている実際のLinkedInプロフィール写真が合成生成された(StyleGAN2)顔とどのように比較されるかを見るために、彼らはそれぞれ平均400枚を並べて比較しました。人々の実際の写真は非常に異なっているため、ほとんどのプロフィール写真は一般的なヘッドショットにすぎません。一方、一般的なStyleGAN顔は非常に明確な特徴と鋭い目を持っています。これは、StyleGAN顔の眼底位置と眼間距離が標準化されているためです。実際のプロフィール写真は通常、上半身や肩に焦点を当てていますが、StyleGAN顔は首から上に合成される傾向があります。彼らは社会グループ内外の類似点と相違点を利用することを望んでいました。 FaceForensics++データセット内のディープフェイク顔交換を識別するために、研究者は1クラス変分オートエンコーダ(VAE)と基準1クラスオートエンコーダを組み合わせました。フェイススワップのディープフェイクに焦点を当てた過去の研究とは異なり、この研究では合成顔(例:StyleGAN)に重点が置かれています。研究者たちは、比較的少数の合成画像に対して非常に単純で訓練しやすい分類器も使用し、全体的な分類性能を同等に達成しています。 Generated.photosとStable Diffusionで生成された画像を使用して、モデルの汎化能力を評価します。生成的対抗ネットワーク(GAN)を使用して生成されたGenerated.photos顔は、比較的一般的な使用が可能であり、安定した拡散顔はそうではありません。 TPRは「真陽性率」を表し、偽の画像が正しく識別された割合を測定します。FPRを計算するには、偽のラベル付けがされた本物の画像の数を取ります。この研究の結果、提案された方法は、本物のLinkedInプロフィール写真のわずか1%(FPR)を偽物として正確に識別し、合成されたStyleGAN、StyleGAN2、およびStyleGAN3顔を99.6%(TPR)正しく識別します。 研究チームによると、この方法は切り抜き攻撃によって簡単に破られる可能性があり、これは大きな欠点です。StyleGANで生成された画像は既に顔の周りが切り取られているため、この攻撃によって異常なプロフィール写真が生成される可能性があります。彼らは高度な技術を使用し、スケールとトランスレーション不変表現を学習できるかもしれないと計画しています。

次回のデータプロジェクトで興味深いデータセットを取得する5つの方法(Kaggle以外)

素晴らしいデータサイエンスプロジェクトの鍵は素晴らしいデータセットですが、素晴らしいデータを見つけることは言うほど簡単ではありません私がデータサイエンス修士課程を勉強していた頃を覚えていますが、それはちょうど...

あなたの次の夢の役割(2023年)を見つけるのに役立つ、最高のAIツール15選

Resumaker.ai Resumaker.aiは、数分で履歴書を作成するのを支援するウェブサイトです。ポータルは、いくつかのカスタマイズ可能なデザイナー製履歴書テンプレートと直感的なツールを提供して、夢の仕事に就くのを手助けします。他の履歴書ビルダーとは異なり、Resumaker.aiの人工知能(AI)エンジンは、ユーザーのためにデータを自動的に完了・入力することで、履歴書作成プロセスを簡素化します。Resumaker.aiは、SSL暗号化などの対策を講じて、ユーザーデータを不正アクセスから保護します。ツールのライティングガイドとレコメンデーションを使用して、競合から目立つ履歴書をデザインすることができます。ユーザーは、投稿されたポジションの要件を反映させ、自己紹介を行い、自分の資格に関する主張を裏付けるために数字を活用することができます。 Interviewsby.ai 人工知能によって駆動されるプラットフォームであるInterviewsby.aiを使用することで、求職者はインタビューに備えることができます。ユーザーに合わせた模擬面接中に、人間の言葉を認識・解釈することができる言語モデルであるChatGPTがリアルタイムのフィードバックを提供します。希望する雇用に関する情報を入力することにより、アプリケーションはユーザーに適切で現実的なインタビューの質問を生成することができます。質問を作成する機能により、ユーザーが古くなったり関係のない素材でトレーニングする可能性がなくなります。Interviewsby.aiを使用することで、ユーザーはコントロールされた環境で面接スキルを磨き、自分の強みと弱みに注目した具体的なフィードバックを即座に受けることができます。 Existential ユーザーの興味、才能、価値観を評価することで、AIにより駆動される職業探索ツールであるExistentialは、ユーザーのプロフェッショナルな道筋について具体的な提言を行います。目的は、ユーザーにとって刺激的で挑戦的で満足のいく職業を示唆することです。アプリケーションには簡単な発見プロセスがあり、理想的な仕事に関する特定の質問に答えた後、プログラムはユーザーの興味に最も合った推奨事項を提供します。コミットする前に、ユーザーはこれらの選択肢について詳しく学び、自分の目的に合うかどうかを確認することができます。Existentialは、個人が自分の運命を形作り、仕事に意味を見出すことを目指しています。 Jobscan 求職者は、人工知能(AI)によって駆動されるJobscan ATS Resume CheckerおよびJob Search Toolsを使用することで、面接を受ける可能性を高めることができます。プログラムは、求人情報と応募者の履歴書を分析し、関連する資格を分離するための独自の人工知能アルゴリズムを使用します。応募者の履歴書を分析した後、プログラムは、応募者の強みと改善の余地がある部分を詳細に説明したマッチ率レポートを生成します。Jobscan ATS Resume Checkerの助けを借りて、あなたの履歴書をApplicant Tracking Systems(ATS)に最適化し、注目される可能性を高めることができます。 Aragon 人工知能(AI)によって駆動されるプログラムであるAragon Professional Headshotsは、写真家に行かずに、ヘアメイクに時間をかけずに、修正を待たずに、洗練されたヘッドショットを撮影できるようにするツールです。ユーザーは10枚のセルフィーをアップロードし、ツールは瞬時に40枚の高精細写真を返します。さらに、アプリケーションは、AES256でデータを暗号化し、SOC 2およびISO 27001の認定を取得したサービスプロバイダーにのみデータを保存することにより、ユーザーのプライバシーを保護します。ただし、18歳未満の人は利用しないでください。これは利用規約の違反となります。…

Netflix株の時系列分析(Pandasによる)

はじめに データの時系列分析は、この場合はNetflixの株式などの数字の集まりだけではありません。Pandasと組み合わさることで、複雑な世界の物語を魅力的に紡ぐ織物のようなものです。神秘的な糸のように、出来事の起伏や流れ、トレンドの上昇や下降、そしてパターンの出現を捉えます。それは、私たちの現実を形作る隠されたつながりや相関関係を明らかにし、過去の生き生きとした描写を提供し、未来の一端を垣間見るものです。 時系列分析は単なるツール以上のものです。それは知識と洞察を得るためのゲートウェイであります。時間に関するデータの秘密を解き明かし、生の情報を貴重な洞察に変える力を与え、情報をもとに妥当な決定を下し、リスクを軽減し、新しい機会を活用する手助けをします。 このエキサイティングな冒険に一緒に乗り出し、時系列分析の魅力的な領域に飛び込んでみましょう! 学習目標 時系列分析の概念を紹介し、そのさまざまな分野での重要性を強調し、実際の例を示して、時系列分析の実用的な応用を紹介します。 Pythonとyfinanceライブラリを使用してNetflixの株式データをインポートする方法を実演することで、時系列データを取得し、分析のために準備するための必要な手順を学びます。 最後に、シフト、ローリング、およびリサンプリングなどの時系列分析で使用される重要なPandas関数に焦点を当て、時系列データを効果的に操作および分析するための方法を示します。 この記事は、Data Science Blogathonの一環として公開されました。 時系列分析とは何ですか? 時系列とは、連続的かつ等間隔の時間間隔で収集または記録されたデータのシーケンスです。 時系列分析は、時間によって収集されたデータポイントを分析する統計的技術です。 これには、データの視覚化、統計モデリング、予測方法などの技術が含まれます。 順次データのパターン、トレンド、依存関係を研究し、洞察を抽出し、予測を行うことが含まれます。 時系列データの例 株式市場データ:歴史的な株価を分析してトレンドを特定し、将来の価格を予測する。 天気データ:時間の経過に伴って温度、降水量、その他の変数を研究して、気候パターンを理解する。 経済指標:GDP、インフレ率、失業率を分析して、経済のパフォーマンスを評価する。 売上データ:時間の経過に伴って売上高を調べ、パターンを特定し、将来の売上高を予測する。 ウェブトラフィック:ウェブトラフィックメトリックを分析して、ユーザーの行動を理解し、ウェブサイトのパフォーマンスを最適化する。 時系列の構成要素 時系列の4つの構成要素があります。それらは次のとおりです。…

将来のPythonバージョン(3.12など)に一般のユーザーに先駆けてアクセスする方法

Python 3.12などの将来のバージョンを群衆より先にインストールしてテストする方法についてのチュートリアルで、新しい機能を体験して競争上の優位性を獲得する方法

Link-credible:Steam、Epic Games Store、Ubisoftアカウントリンクを使用して、GeForce NOWでより速くゲームに参加しましょう

Steam、Epic Games Store、UbisoftアカウントにGeForce NOWをリンクして、お気に入りのゲームにより迅速にアクセスできます。 また、Ubisoft Forwardが6月12日(月)に開催されるので、最新のニュースや発表を披露するゲームパブリッシャーの今後のGeForce NOWに追加されるゲームを垣間見ることができます。 さらに、今週は2つの新しいゲームがクラウドからストリーミングできるようになりました。また、UbisoftからTom Clancy’s The Division 2の最新シーズンも配信開始となります。 リンクされたアカウント GeForce NOWは、Steam、Epic、そして最近ではUbisoftのアカウントを直接サービスにリンクすることで、メンバーにとってゲームを便利かつ簡単にすることができます。各プレイセッションごとにアカウントにサインインする必要がなく、一度リンクするだけで、メンバーはデバイス間で自動的にサインインできるようになります。 自動的で超音速。 今日から、Ubisoft Connectゲームを起動するには、アプリ内でUbisoftアカウントをリンクする必要があります。これが完了すると、Rainbow Six Siege、Far Cry 6、The Division 2などの人気Ubisoftゲームを簡単にプレイできます。…

最高のAIジョブコース(2023年)

健康、経済、教育、セキュリティなどの分野を改善する機会を提供する最高のAIジョブコースに飛び込んでください

RAGを使用したLLMパワードアプリケーションの開始ガイド

ODSCのウェビナーでは、PandataのNicolas Decavel-Bueff、そして私(カル・アル・ドーバイブ)とData Stack AcademyのParham Parviziが協力し、エンタープライズグレードの大規模な言語モデル(LLM)の構築から学んだ教訓と、データサイエンティストとデータエンジニアが始めるためのヒントを共有しました最大の...

2024年にフォローするべきデータサイエンスのトップ12リーダー

データサイエンスの広がりを見据えると、2024年の到来は、革新を牽引し、分析の未来を形作る一握りの著名人にスポットライトを当てる重要な瞬間として迎えられます。『Top 12 Data Science Leaders List』は、これらの個人の卓越した専門知識、先見のリーダーシップ、および分野への重要な貢献を称えるビーコンとして機能します。私たちは、これらの画期的なマインドの物語、プロジェクト、そして先見の見通しをナビゲートしながら、データサイエンスの進路を形作ると約束された航跡を探求します。これらの模範的なリーダーたちは単なるパイオニアにとどまることはありません。彼らは無類のイノベーションと発見の時代へと私たちを導く先駆者そのものです。 2024年に注目すべきトップ12データサイエンスリーダーリスト 2024年への接近とともに、データサイエンスにおいて傑出した専門知識、リーダーシップ、注目すべき貢献を示す特異なグループの人々に焦点を当てています。『Top 12 Data Science Leaders List』は、これらの個人を認識し、注目することで、彼らを思想リーダー、イノベーター、およびインフルエンサーとして認め、来年重要なマイルストーンを達成することが予想されます。 さらに詳細に突入すると、これらの個人の視点、事業、イニシアチブが、さまざまなセクターを横断する複雑な課題に対するメソッドとデータの活用方法を変革することが明らかになります。予測分析の進展、倫理的なAIの実践の促進、または先進的なアルゴリズムの開発など、このリストでハイライトされた個人たちが2024年にデータサイエンスの領域に影響を与えることが期待されています。 1. Anndrew Ng 「AIのゲームにおいて、適切なビジネスコンテキストを見つけることが非常に重要です。私はテクノロジーが大好きです。それは多くの機会を提供します。しかし結局のところ、テクノロジーはコンテクスト化され、ビジネスユースケースに収まる必要があります。」 Dr. アンドリュー・エングは、機械学習(ML)と人工知能(AI)の専門知識を持つ英米のコンピュータ科学者です。AIの開発への貢献について語っている彼は、DeepLearning.AIの創設者であり、Landing AIの創設者兼CEO、AI Fundのゼネラルパートナー、およびスタンフォード大学コンピュータサイエンス学科の客員教授でもあります。さらに、彼はGoogle AIの傘下にある深層学習人工知能研究チームの創設リードでありました。また、彼はBaiduのチーフサイエンティストとして、1300人のAIグループの指導や会社のAIグローバル戦略の開発にも携わりました。 アンドリュー・エング氏は、スタンフォード大学でMOOC(大規模オープンオンラインコース)の開発をリードしました。また、Courseraを創設し、10万人以上の学生に機械学習のコースを提供しました。MLとオンライン教育の先駆者である彼は、カーネギーメロン大学、MIT、カリフォルニア大学バークレー校の学位を保持しています。さらに、彼はML、ロボット工学、関連する分野で200以上の研究論文の共著者であり、Tiime誌の世界で最も影響力のある100人のリストに選ばれています。…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us