Learn more about Search Results ML - Page 290

GPT-3:言語モデルの少数ショット学習?

過去数年間、AIとML業界では、NLPシステムの開発と応用が急速に進展してきました研究者たちはNLPの実践を柔軟でタスクに依存しない方法で実装できるようになり、下流の転送タスクに対して使用できるようになりました最初は単層の表現である単語ベクトルを使用していましたが、…

「ビジネスはマルチリンガル製品分類器の精度をどのように改善できるのか?このAI論文では、訓練データが限られた言語における分類精度を高めるためのアクティブラーニング手法であるLAMMを提案しています」

異なる言語に共通の表現を活用することで、クロスリンガル学習は、モデルのトレーニングに限られたデータを持つ低リソース言語(LRL)におけるNLPモデルの精度を向上させることが知られています。しかし、高リソース言語(HRL)と低リソース言語(LRL)の精度には大きな差があり、これはLRLからの事前トレーニングデータの相対的な不足につながっています。プロの文脈では、言語レベルの正確さを求めることが頻繁にあります。これは、ニューラル機械翻訳、転写、および類似データへのラベル伝播などの技術が役立つ場合があります。これらの技術は既存のトレーニングデータを合成的に強化するために使用され、手動注釈を避けることができます。 これらの手法は、訳注が非常に高価な手法を用いることなく、トレーニングデータの量と品質を向上させるために使用することができます。機械翻訳の制約のため、通常はLRLの精度が向上するものの、商業目標に追いつく必要がある場合があります。 Amazonの研究チームは、能動学習を用いてラベル付きデータを選択的に収集することで、低リソース言語(LRL)の精度を向上させるアプローチを提案しています。多言語データに対する能動学習は以前から研究されてきましたが、ほとんどは単一の言語のモデルをトレーニングすることに焦点が当てられていました。そのため、彼らは効果的に言語間で翻訳できる単一のモデルを完成させることを目指しています。提案された方法であるマルチリンガルモデルのための言語認識能動学習(LAMM)は、単一のモデルを利用しながら言語間でモデルのパフォーマンスを向上させることが示された先行研究に類似しています。残念ながら、このアプローチではLRLの精度を特定のターゲットに向けて向上させる手段を提供していません。言語レベルの目標を達成するためには、既に精度目標を超えた言語のラベルを取得することを強要する現在の最先端の能動学習アルゴリズムは、言語レベルの目標を達成する必要がある状況で手動注釈を浪費してしまいます。HRLのパフォーマンスに悪影響を与えることなく、LRLの精度を向上させるために、彼らは戦略的にラベル付きデータを収集するための能動学習ベースの戦略を提案しています。提案された戦略であるLAMMは、関連するすべての言語で目標の精度を達成する可能性を高めます。 研究者は、LAMMを複数の目標を達成するMOPとしてフレーム化しています。目標は、次のようなラベルのないデータの例を選ぶことです: 確定できない(モデルが結果にあまり信頼を持っていない) 言語ファミリーから、分類器のパフォーマンスが目標を上回る可能性がある Amazonの研究者は、通常のプールベースの能動学習セットアップを使用して、4つのマルチリンガル分類データセットでLAMMのパフォーマンスを2つのベンチマークと比較しました。公開データセットの例にはAmazonのレビューやMLDocがあります。Amazon内部で使用される2つのマルチリンガル製品分類データセットも使用されています。以下が標準的な手順です: 最も自信度が低い(LC)は、エントロピーが最も不確かなサンプルを収集します。 均等割り当て(EC)は、エントロピーが高いサンプルを収集して、言語ごとの注釈予算を均等に分割します。 LAMMは、LRL全体で競合に比べて優れたパフォーマンスを示し、HRLではわずかに劣るだけです。LAMMを使用すると、HRLラベルの割合が62.1%減少しますが、AUCの精度はLAMMとLCを比較してわずかに1.2%減少します。4つの異なる製品分類データセットを使用し、公開データセット2つとプロプライエタリデータセット2つを使用して、LAMMは堅牢なベースラインに比べてLRLのパフォーマンスを4〜11%向上させることを示しています。

RGBビデオから3Dビデオを作成する

「私は常に、私たちがデジタルな思い出を2Dの形式でアーカイブしていることに不満を感じてきました写真やビデオは鮮明さに欠けることはないものの、体験の深さや没入感が欠けているのです…」

「AIの学び方」 AIを学ぶ方法

初心者の一般的な誤解は、最新のアルゴリズムを実装したいくつかのチュートリアルからAI/MLを学べるということですそのため、AIの学習に関するいくつかのノートとアドバイスを共有したいと思いますまた、私も...

「言葉から世界へ:AIマルチモーダルによる微細なビデオ説明を用いたビデオナレーションの探求」

言語は人間の相互作用の主要な形態であり、視覚や音響などの他の感覚に補足的な詳細を提供するだけでなく、声によるナビゲーションを使用して特定の場所に導くなど、情報を伝達するための効果的なチャネルとしても機能します。視覚障がいのある人々の場合、映画を聴覚的な解説で体験することができます。前者は言語が他の感覚モードを向上させる方法を示し、後者は言語が異なるモダリティで最大限の情報を伝える能力を強調しています。 多様なモダリティ間の言語との関係を確立するための現代の取り組みでは、画像や動画のキャプション付け、画像や動画からのテキスト表現の生成、テキストによってガイドされた視覚的なコンテンツの操作などのタスクが含まれます。 しかし、これらの取り組みでは、言語は主に他の感覚入力に関する情報を補完する役割を果たしています。その結果、これらの取り組みは異なる感覚モード間の情報の複雑な交換を包括的に描写することができません。これらは主に1文のキャプションなどの単純な言語要素に焦点を当てています。 これらのキャプションは短く、主要なエンティティやアクションを説明することしかできません。そのため、これらのキャプションを通じて伝えられる情報は、他の感覚モダリティに存在する情報の豊富さに比べてかなり限定的です。この差異により、他の感覚領域から情報を言語に翻訳しようとする際に情報の大幅な損失が生じます。 この研究では、研究者たちは言語をマルチモーダルモデリングで情報を共有する手段として捉えています。彼らは「Fine-grained Audible Video Description(FAVD)」という新しいタスクを作成しました。通常、動画の短いキャプションは主要な部分を指しますが、FAVDではモデルにより人々が行うように動画を説明するよう要求し、短い概要から徐々に詳細な情報を追加していきます。このアプローチにより、言語のフレームワーク内にビデオ情報のより確かな部分が保持されます。 ビデオは視覚的および聴覚的な信号を含んでいるため、FAVDタスクではオーディオの説明も総合的な描写を向上させるために組み込まれています。このタスクの実行をサポートするために、Fine-grained Audible Video Description Benchmark(FAVDBench)という新しいベンチマークが構築されました。FAVDBenchはYouTubeから収集された11,000以上のビデオクリップで構成されており、70以上の実生活のカテゴリをカバーしています。注釈には簡潔な1文の概要と、ビジュアル要素に関する4〜6文の詳細なセンテンス、オーディオに関する1〜2文のセンテンスが含まれており、包括的なデータセットとなっています。 FAVDタスクを効果的に評価するために、2つの新しいメトリックが考案されました。最初のメトリックであるEntityScoreは、ビデオから説明文への情報の伝達を評価し、視覚的な説明文内のエンティティの包括性を測定します。2番目のメトリックであるAudioScoreは、事前学習済みのオーディオ・ビジュアル・言語モデルの特徴空間内でオーディオの説明の品質を定量化します。 研究者たちは、新しく導入されたタスクのための基礎モデルを提供しています。このモデルは、確立されたエンドツーエンドのビデオキャプションフレームワークを基にしており、さらにオーディオブランチが追加されています。さらに、ビジュアル言語トランスフォーマーからオーディオ・ビジュアル・言語トランスフォーマー(AVLFormer)への拡張も行われています。AVLFormerは、以下に示すようなエンコーダ・デコーダ構造の形式です。 https://arxiv.org/abs/2303.15616 ビデオクリップとオーディオをそれぞれ処理するために、ビジュアルエンコーダとオーディオエンコーダが適応され、マルチモーダルトークンの結合が可能となっています。ビジュアルエンコーダはビデオスウィン・トランスフォーマーを使用し、オーディオエンコーダはパッチアウトオーディオトランスフォーマーを利用しています。これらのコンポーネントは、ビデオフレームとオーディオデータからビジュアルとオーディオの特徴を抽出します。トレーニング中には、マスクされた言語モデリングや自己回帰言語モデリングなどの他のコンポーネントも組み込まれます。AVLFormerは、以前のビデオキャプションモデルからのインスピレーションを得て、テキストの記述も入力として使用します。テキストを特定のフォーマットに変換するために、ワードトークナイザと線形埋め込みが使用されます。トランスフォーマーはこのマルチモーダル情報を処理し、入力として与えられたビデオの詳細な説明を出力します。 以下には、定性的な結果のいくつかの例と最新の手法との比較が報告されています。 https://arxiv.org/abs/2303.15616 結論として、研究者たちは、細かい音声付きビデオの説明のための新しいビデオキャプションタスクFAVDと、教師付きトレーニングのための新しいベンチマークFAVDBenchを提案しています。さらに、彼らはFAVDタスクに対処するための新しいトランスフォーマーベースのベースラインモデルAVLFormerを設計しました。興味があり、詳細を知りたい場合は、以下に引用されたリンクを参照してください。

「シームレスM4Tに出会ってください:Meta AIの新しいスピーチ翻訳の基盤モデル」

「音声は急速に基盤モデルの次のフロンティアの一つとなっています言語やコンピュータビジョンなどの領域がまだ主流ですが、音声はますます重要性を増しています...」

「全てのOECDおよびG20加盟国において、インドがAIスキルと人材で1位にランクされました」

技術の絶え間ない進化の中で、一つのスキルが輝く存在となりました。それが人工知能(AI)です。インドはその膨大な技術労働力を活かし、AIスキル競争のリードを取っています。この国のテックに精通した専門家たちはAIを受け入れ、自身のキャリアを再構築し、産業全体にイノベーションをもたらしています。ソフトウェアとサービス業協会(Nasscom)の報告書によると、インドはAI領域でのリーダーシップを発揮しています。この国は、すべてのOECDとG20の国の中でAIスキルの普及率とAI人材の集中度でトップのランキングを獲得しています。この記事では、インドがどのようにAIの領域でこの高みを達成し、その仕事の景観について語っています。 また読む:サム・オルトマン氏とナレンドラ・モディ首相の重要な会談:インドのAIの未来を描く インドのAIリーダーシップ:ランキングと認識 Nasscomの報告書は、AIの統合への取り組みを示しています。さらに、インドはAI科学論文の世界ランキングで5位を獲得し、AI研究への貢献を強調しています。インドはG20とOECD諸国の中でAIスキル浸透率が最も高く、3.09という指標を示しています。これは、他の国々と比べて、インドのテック人材がAIスキルを持っている可能性が3倍高いことを示しています。 大きな上昇:インドのAIスキルのブーム AIが主流になるという話題がスキルの向上の波を引き起こしました。LinkedInプラットフォームでは、2016年1月以来、インド人が自分のプロフィールにAIスキルを追加する数が驚異的に14倍増加しました。この急増は、職業の場でAIの重要性が増していることを強調しています。 インドはテックのパワーハウスであり、47万人のテックに精通した労働力を持っています。それにもかかわらず、その大規模なテック人材プールにもかかわらず、インドはAIの専門家の不足という問題に直面しています。AIスキルの需要が急増しており、それはAIがさまざまなセクターで変革の力を持っていることを示しています。 また読む:G20向けのAIベースのポータルを提案するインド:中小企業にとってのゲームチェンジャー 需要と供給のジレンマ:インドのAI人材の探求 インドはAIとデータサイエンスに従事している専門家416,000人を誇っていますが、今後数年間で213,000人の専門家のギャップが広がると予想されています。世界経済フォーラムによると、インドの雇用の景色が22%変化するという予測は、新興のAIの役割の重要性を一層強調しています。 企業はAIの専門家を確保するためにあらゆる手段を講じています。生成的なAIの役割に対する求人は1年間で50%増加し、これらのポジションへの求職は驚異的な12,300%増加しました。AIの人材需要は否応なく存在し、企業はこれらの専門家を引き付け、確保するために相当な報酬を提供する意思があります。 また読む:AWSとAccelが「ML Elevate 2023」を立ち上げ、インドのAIスタートアップエコシステムを力強くサポート ギャップを埋める:インドのAIの進化 2022年8月時点で、インドのデータサイエンスとAIの専門家の需要は629,000人であり、人材基盤は416,000人に達しました。この大規模な人材プールにもかかわらず、国内には51%の需要と供給のギャップがあります。このギャップは、アメリカなどの主要な経済国と比べてはるかに低いですが、それでも重要です。 インドのAIの雇用の景色は、MLエンジニア、データエンジニア、データサイエンティスト、データアーキテクト、DevOpsエンジニアという5つの主要な役割で占められています。これらの役割は、全国のAIの求人の73%を占めています。インドは160万人以上のデジタル人材プールを持ち、グローバルな人材ハブとして台頭しています。 また読む:インドと海外でのAIエンジニアの給与[2023年版] 地域の違い:インド全国のAIの給与 インドのシリコンバレーとも呼ばれるバンガロールは、機械学習(ML)の専門家の給与が最も高いです。一方、チェンナイの平均ML給与は全国平均の5%を下回っています。この違いは、AIの報酬における地域のニュアンスを示しています。 さまざまなAIの役割には異なる報酬パッケージが付いています。機械学習エンジニア、データアナリスト、AI研究者は需要が高く、印象的な給与を得ています。コンピュータビジョンエンジニア、AIプロダクトマネージャー、AIコンサルタントも需要と報酬が増加しています。 国境を越えて:AIの専門家のグローバルな機会 インドの国境を超えて、AIの専門家は世界的に高い給与を受け取っています。NetflixのAIに特化したプロダクトマネージャーなどの役職は、6桁を超える報酬を提供しており、AIの専門知識への世界的な需要を示しています。Amazon、Google、ゴールドマン・サックスなどのテックジャイアントは、AIとMLの専門家に大きな投資をする意欲があります。 また読む:…

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です。ポッドキャストは、知識を豊かにし、専門家の視点を得るための便利でアクセスしやすい手段を提供します。聴くべきトップ8の機械学習とAIのポッドキャストを紹介することで、あなたのリスニングキューに目立つ場所を与えましょう。 Lex Fridmanの「人工知能」 「人工知能」は、AIの複雑な世界に興味を持つ個人にとって必聴のポッドキャストとして特に際立っています。AI研究者でエンジニアでもあるLex Fridmanがホストを務めるこのポッドキャストは、その魅力的でハイインテンシティな対話で知られています。 Fridmanのポッドキャストは表面を超え、AIの複雑さ、難しい状況、そして社会への潜在的な影響についての深い議論に踏み込んでいます。カバーされるトピックの多様性は、ポッドキャストの強度を示しており、AI倫理、機械学習のブレイクスルー、ロボット技術の進歩、AIがさまざまな産業に与える影響など、様々な分野を網羅しています。 リスナーは、AIの専門家、研究者、ビジョンを持つ人々の思考と経験から洞察を期待し、得ることができます。これらの人々は、AIのトレンドについて最新情報を得たいAIの専門家であるか、AIの微妙なニュアンスを理解したい愛好家であるかに関係なく、Lex Fridmanの「人工知能」は、迅速に進化するこの分野の知識を拡大する考えを刺激する議論との貴重な接点を提供します。技術的な複雑さとAIの広範な社会的影響を重視することで、このポッドキャストは、さまざまなバックグラウンドを持つリスナーに共鳴するAI領域の幅広い探求を約束します。 このAIポッドキャストは、Spotify、Apple Music、YouTube、Google Podcastで聴くことができます。 TWiML & AI – 今週の機械学習と人工知能 TWiML & AI – 今週の機械学習と人工知能は、機械学習とAIの知識と洞察の灯台です。このAIポッドキャストは、情報量と包括的なアプローチで知られており、機械学習とAIの多面的な世界を深く探求しています。 Sam Charringtonがホストを務めるTWiML &…

「LoRAアダプターにダイブ」

「大規模言語モデル(LLM)は世界中で大流行しています過去の1年間では、彼らができることにおいて莫大な進歩を目撃してきましたそれまではかなり限定的な用途にとどまっていましたが、今では…」

「Pythonでの日付と時刻の効果的なコーディング」

最近は時系列データを広範に扱っており、Pythonで日付と時刻のオブジェクトを扱っていますそのため、datetimeオブジェクトを操作するための便利なテクニックをいくつか学びました...

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us