Learn more about Search Results Otte - Page 22

実践におけるFew-shot学習:GPT-Neoと🤗高速推論API

多くの機械学習のアプリケーションでは、利用可能なラベル付きデータの量が高性能なモデルの作成の障害となります。NLPの最新の発展では、大きな言語モデルで推論時にわずかな例を提供することで、この制限を克服することができることが示されています。これはFew-Shot Learningとして知られる技術です。このブログ投稿では、Few-Shot Learningとは何かを説明し、GPT-Neoという大きな言語モデルと🤗 Accelerated Inference APIを使用して独自の予測を生成する方法を探ります。 Few-Shot Learningとは何ですか? Few-Shot Learningは、機械学習モデルに非常に少量の訓練データを与えて予測を行うことを指します。つまり、推論時にいくつかの例を与えるということです。これは、標準的なファインチューニング技術とは異なり、事前に訓練されたモデルが所望のタスクに適応するために比較的大量の訓練データが必要とされるものです。 この技術は主にコンピュータビジョンで使用されてきましたが、EleutherAI GPT-NeoやOpenAI GPT-3などの最新の言語モデルを使用することで、自然言語処理(NLP)でも使用することができるようになりました。 NLPでは、Few-Shot Learningは大規模な言語モデルと組み合わせて使用することができます。これらのモデルは、大規模なテキストデータセットでの事前トレーニング中に暗黙的に多くのタスクを実行することを学習しています。これにより、モデルはわずかな例だけで関連するが以前に見たことのないタスクを理解することができます。 Few-Shot NLPの例は主に以下の3つの主要な要素から構成されます: タスクの説明:モデルが行うべきタスクの短い説明、例えば「英語からフランス語への翻訳」 例:モデルに予測してほしいことを示すいくつかの例、例えば「sea otter => loutre de mer」…

🤗 Transformersでn-gramを使ってWav2Vec2を強化する

Wav2Vec2は音声認識のための人気のある事前学習モデルです。2020年9月にMeta AI Researchによってリリースされたこの新しいアーキテクチャは、音声認識のための自己教師あり事前学習の進歩を促進しました。例えば、G. Ng et al.、2021年、Chen et al、2021年、Hsu et al.、2021年、Babu et al.、2021年などが挙げられます。Hugging Face Hubでは、Wav2Vec2の最も人気のある事前学習チェックポイントは現在、月間ダウンロード数25万以上です。 コネクショニスト時系列分類(CTC)を使用して、事前学習済みのWav2Vec2のようなチェックポイントは、ダウンストリームの音声認識タスクで非常に簡単にファインチューニングできます。要するに、事前学習済みのWav2Vec2のチェックポイントをファインチューニングする方法は次のとおりです。 事前学習チェックポイントの上にはじめに単一のランダムに初期化された線形層が積み重ねられ、生のオーディオ入力を文字のシーケンスに分類するために訓練されます。これは以下のように行います。 生のオーディオからオーディオ表現を抽出する(CNN層を使用する) オーディオ表現のシーケンスをトランスフォーマーレイヤーのスタックで処理する 処理されたオーディオ表現を出力文字のシーケンスに分類する 以前のオーディオ分類モデルでは、分類されたオーディオフレームのシーケンスを一貫した転写に変換するために、追加の言語モデル(LM)と辞書が必要でした。Wav2Vec2のアーキテクチャはトランスフォーマーレイヤーに基づいているため、各処理されたオーディオ表現は他のすべてのオーディオ表現から文脈を得ることができます。さらに、Wav2Vec2はファインチューニングにCTCアルゴリズムを利用しており、変動する「入力オーディオの長さ」と「出力テキストの長さ」の比率の整列の問題を解決しています。 文脈化されたオーディオ分類と整列の問題がないため、Wav2Vec2には受け入れ可能なオーディオ転写を得るために外部の言語モデルや辞書は必要ありません。 公式論文の付録Cに示されているように、Wav2Vec2は言語モデルを使用せずにLibriSpeechで印象的なダウンストリームのパフォーマンスを発揮しています。ただし、付録からも明らかなように、Wav2Vec2を10分間の転写済みオーディオのみで訓練した場合、言語モデルと組み合わせると特に改善が見られます。 最近まで、🤗 TransformersライブラリにはファインチューニングされたWav2Vec2と言語モデルを使用してオーディオファイルをデコードするための簡単なユーザーインターフェースがありませんでした。幸いにも、これは変わりました。🤗…

AIが生成したコンテンツは開発者のリスクを高める可能性があります

最近の出来事において、人気のあるゲームプラットフォームであるSteamは、著作権法に違反する可能性のあるAI生成コンテンツに対して厳しい姿勢を取っています。いくつかの開発者は、AI生成のアセットを使用したゲームをプラットフォームに公開しようと試みる中で、拒絶と欲求不満に直面しています。これにより、ゲーミングコミュニティでは、AI技術の使用とその潜在的な法的影響についての議論が巻き起こっています。 関連記事:2023年のゲーム開発における機械学習とAI Redditユーザーの苦境 すべてはRedditユーザーのpotterharry97がSteamの承認プロセスでの痛い経験を共有したことから始まりました。彼らは、AIによって作成されたアセットを含むゲームを提出する予定でした。フルローンチ前にこれらのアセットを改善する意図がありましたが、Valveは迅速にその提出を拒否し、潜在的な著作権問題を理由に挙げました。Valveは、ゲームの配布前にAIのトレーニングデータの所有権の適切な確認が必要であるとの回答で明確にしました。 開発者の失望 potterharry97の経験に続いて、別の開発者であるArtoonuというペンネームを使用した開発者もRedditで同様の苦境を報告しました。この開発者は以前、Steamで数多くのNSFWビジュアルノベルを成功裏にリリースしていました。しかし、新しいゲームにAI生成のアートを使用しようとした際、Valveによって提出が拒否されました。繰り返される拒否により、Artoonuのような開発者たちは、クリエイティブプロセスにおけるAI技術の有用性について疑問を抱いています。彼らは、商業利用のためにAI生成のアセットを利用できない場合、その技術はアイデアや参考資料の生成以外の目的にはほとんど役立たないと述べています。 Oleg Skutteの出来事 不満が高まる中、インディーゲーム開発者のOleg Skutteは、Valveとの経験を語りました。Skutteは最近、Locomotoricという物理シミュレーションゲームをリリースしました。しかし、彼は新しいAIパワードの冒険ゲーム、DREAMIOを公開しようとした際に同じ問題に直面しました。彼はイラストにStable Diffusionを使用し、ストーリーを生成するためにChatGPTを使用しました。しかし、彼の提出はSteamによって拒否されました。 SteamではAIコンテンツが禁止されているのか? これらの出来事にもかかわらず、Steamは明示的にAIコンテンツを禁止していません。Steamのガイドラインは、特定のタイプのコンテンツ(ヘイトスピーチ、実在する人物の露骨な画像、児童を巻き込む搾取的な素材など)を許可していないことを明確に述べています。しかし、ガイドラインの重要な段落には、適切な配布権を持っていないコンテンツやアップローダーが所有していないコンテンツを許可しないと記載されています。 関連記事:AIコンテンツ作成:トップ10のツール、インパクト、将来[2023] Valveの立場 Valveが著作権侵害の可能性のあるAI生成コンテンツに対して厳しい姿勢を取ることは、知的財産権を保護するための一歩です。AI技術はゲーム業界において革新的な可能性を示していますが、著作権侵害や誤用への懸念も抱えています。Valveの決定は、クリエイターの権利を守り、プラットフォーム上での倫理基準を維持するという同社の取り組みを反映しています。 今後の展望 ゲーミング業界が進化する中で、開発者は著作権法に注意を払い、倫理的なガイドラインに従う必要があります。AI生成コンテンツにおいては、トレーニングデータが著作権の制約から解放されていることを検証することが重要です。これには、コンテンツクリエイターからの明示的な許可や公開されているデータセットの使用が必要となる場合があります。 Valveが著作権侵害の可能性のあるAIアートを含むゲームを承認しないことは、クリエイティブな権利を保護するための大胆な一歩です。一部の開発者には欲求不満を引き起こしましたが、これは責任あるAIの使用と知的財産の尊重の重要性を示しています。ゲーミングワールドが技術の進歩を受け入れるにつれて、開発者は適法かつ倫理的な基準を遵守し、活気ある持続可能なゲーミングエコシステムを提供するために適応する必要があります。 関連記事:2023年におけるAIがゲームテストを革新する方法

天候の変化:AI、高速計算がより速く、効率的な予測を提供することを約束します

2050年までに、極端な天候や気候の頻度と厳しさが増すことにより、ミュンヘン再保険会社によれば、年間100万人の命が失われ、1.7兆ドルの経済損失が発生する可能性があります。 これは、吹雪、ハリケーン、熱波などの厳しい天候の発生増加と共に、正確な天気予報の必要性を強調しています。AIと高速計算は、この問題に対処するための手段として期待されています。 180以上の気象予測モデリングセンターでは、伝統的な数値天気予測(NWP)モデルを処理するために、頑健なハイパフォーマンスコンピューティング(HPC)インフラストラクチャが使用されています。これには、ヨーロッパ中期天気予報センター(ECMWF)が使用する983,040のCPUコアや、英国の気象庁のスーパーコンピュータが使用する150万以上のCPUコアと2.7メガワットの電力が含まれます。 HPC設計の再考 エネルギー効率に向けた世界的な取り組みは、HPCシステムの設計を再考するよう促しています。GPUのパワーを利用した加速計算は、計算速度を高速化するエネルギー効率の高い代替手段として有望です。 左側は、Intel Broadwell CPUsを使用したECMWF統合予測システム51メンバーアンサンブルに基づく結果であり、右側は、4x NVIDIA A100 Tensor Core GPUsを使用したFourCastNet 1,000メンバーアンサンブルに基づく結果です。同じ予測ワークロードを実行する10のモデリングセンターを想定しています。CPU: 2x AMD Milan. GPU: 4x NVIDIA H100 Tensor Core PCIe.…

大規模言語モデル(LLM)とは何ですか?LLMの応用と種類

コンピュータプログラムである大規模言語モデルは、テキストの解析や作成のための新しいオプションをソフトウェアに提供します。大規模言語モデルは、ペタバイト以上のテキストデータを使用してトレーニングされることが珍しくなく、そのサイズは数テラバイトになることもあります。モデルのパラメータは、以前のトレーニングデータから学習されたコンポーネントであり、テキスト生成などのタスクにおけるモデルの適性を確立します。音声認識、感情分析、テキスト要約、スペルチェック、トークンの分類など、自然言語処理(NLP)の活動は、言語モデルを基盤としています。言語モデルはテキストを分析し、ほとんどの自然言語処理のタスクで次のトークンの確率を予測することができます。ユニグラム、N-グラム、指数、およびニューラルネットワークは、言語モデルの有効な形式です。 LLMの応用 以下のチャートは、大規模言語モデル(LLM)の現状を機能、製品、およびサポートソフトウェアの面でまとめたものです。 画像の出典:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b シェルコマンドの生成 次世代ターミナルのWarpは、GPT-3を使用して自然言語を実行可能なシェル命令に変換します。GitHub Copilotのようなものですが、ターミナル向けです。 経験豊富なプログラマでも、シェルコマンドの構文を説明する必要がある場合があります。 正規表現の生成 開発者にとって正規表現の生成は時間がかかりますが、Autoregex.xyzはGPT-3を活用してこのプロセスを自動化します。 コピーライティング このタスクに最も人気のあるモデルはGPT-3ですが、BigScienceのBLOOMやEleuther AIのGPT-Jなどのオープンソースの代替品もあります。Copy ai、Copysmith、Contenda、Cohere、Jasper aiなどのスタートアップ企業は、この分野でアプリを開発しており、ブログ投稿、販売コンテンツ、デジタル広告、ウェブサイトのコピーなどの執筆を素早く容易にします。 分類 テキストを予め定義されたカテゴリに分類することは、教師あり学習の例です。クラスタリングという教師なし学習技術を用いることで、意味が似ているテキストを事前定義されたクラスなしでまとめることができます。 応答生成 応答生成は、サンプルの対話を使用して対話のフローを生成し、機械学習のアプローチを採用するアイデアです。ユーザーに提示される次の議論がモデルによって決定され、ユーザーの過去の応答と最も可能性の高い将来の会話を考慮に入れます。これを予測対話と呼びます。 テキストの生成 LLMの能力は、簡単な説明からテストを生成することで、「メタ能力」と見なされるかもしれません。ほとんどのLLMは生成の役割を果たします。フューショット学習データは、生成を大幅に向上させるだけでなく、データのキャスティングもデータの使用方法に影響を与えます。 知識応答 知識応答は、アプリケーションプログラミングインターフェース(API)のクエリや従来の知識ストアに頼ることなく、一般的なクロスドメインの問い合わせに対する応答を可能にする知識重視の自然言語処理(KI-NLP)の応用です。 知識重視の自然言語処理はウェブ検索ではなく、意味検索をサポートする知識ベースです。…

新しい言語モデルを評価するための3つの重要な方法

毎週新しいLLMがリリースされますが、私のように考えると、これはついに私がLLMを利用したいすべてのユースケースに適合するのでしょうか?このチュートリアルでは、私は...を共有します

アーティストやクリエイターにとって最高のAIツール(2023年)

Otter.AI Otter.aiは、効率的なミーティングや会話の録音と記述を行うためのAIパワードプラットフォームです。自動音声認識を使用して、リアルタイムで暗号化され、簡単にアクセス可能で共有可能なノートを任意の議論から書き留めます。Otterは、Zoom、Microsoft Teams、Google Meetなどの一般的なプラットフォームで即座にミーティングに出席して録音することができます。私たちは、簡単に共有でき、重要なトピックを強調し、責任を割り当てる要約を作成します。Otterは、ビジネス、教育、個人の文脈で使用されているiOS、Android、Chromeの時間節約アプリです。精度、適応性(異なるスピーカーからの転写が可能)、時間節約の自動スライドキャプチャ機能に高い評価を受けています。 Runway  人工知能(A.I.)がRunwayを駆動する、コンテンツ作成プラットフォームで、人々がコンテンツを公開、編集、協力できるようにします。無制限の写真、テキストから画像の生成、消去と置換、テキストからカラーグレーディング、スーパースローモーション、A.I.トレーニングなど、AIが駆使された革新的な機能があります。グリーンスクリーン、インペインティング、モーショントラッキングは、ビデオ編集の機能の一部です。Runwayは、コンテンツ作成とビデオ編集の骨の折れる作業を効率化し、ユーザーが最終製品に完全に決定権を持つようにします。ソフトウェアには、安全に作曲、リソース、プロジェクトデータを共有するためのツールも含まれています。さらに、Runwayは、数分で変更できる専門的にデザインされたテンプレートの大規模なライブラリにアクセスできるようにしています。 DreamStudio  DreamStudioは、テキストに基づいて画像を生成するために人工知能を使用するコンピュータプログラムです。プラットフォームは、高品質の画像を作成する能力でよく知られているStable Diffusionと呼ばれる生成対抗ネットワーク(GAN)技術を使用しています。DreamStudioの多くの有用な機能は、アーティストやデザイナーにとって優れたリソースとなっています。テキストの説明から画像を作成する、インスピレーションとしての画像のインポート、スタイルバリアントの探索などが利用可能です。組み込みのアーカイブにより、ユーザーは以前の貢献を振り返ることができます。DreamStudioは、まだ開発初期の段階ではありますが、クリエイティブなタイプの間で人気が急速に高まっています。このプラットフォームは、画像作成プロセスを根本的に変える可能性があるため、注目されています。 Synthesia  Synthesiaは、A.I.ビデオを生成するためのプラットフォームで、A.I.ビデオを簡単かつ低コストで作成することができます。編集プログラムに触れることなく、誰でも本物の人物が主演のプロフェッショナルなビデオを作成できるブラウザ拡張機能です。 Synthesiaには、85種類以上の異なるタイプのA.I.アバター、120種類の異なる言語と方言、55種類の事前設計されたテンプレート、独自のA.I.アバターの作成が可能です。このプラットフォームには、カスタマーサポートや製品マーケティング映像から新しい従業員向けの内部トレーニング映像まで、さまざまな用途があります。 Synthesiaは、ビデオ制作コストを最大80%削減できる能力を持つため、様々な規模の30,000以上の企業が信頼しています。 Raw Shorts Raw Shortsは、テキストからビデオを作成するクリエイターや、Webやソーシャルメディア向けの説明映像、アニメーション、プロモーション映像を作成するためのテキスト-to-videoクリエーターと人工知能によるビデオエディターを提供することで、組織が作成を支援します。機械学習技術を使用して、脚本を読み取り、プロットポイントを抽出して適切なメディアを見つけます。任意のWebブラウザからアクセスできるプラットフォームには、テキストtoスピーチ、ダイナミックグラフィック、100万以上のメディアファイルなどの高度なツールが備わっています。A.I.があなたの映画の初期カットを生成し、ドラッグアンドドロップエディターで細かく調整して、望むように見せることができます。Capital One、American Airlines、Coca-Cola、IBM、Ocean Spray、Nielsen、Sony、Pfizerなどの有名企業が、Raw Shortsを信頼しています。 Murf AI Murf…

LLMの巨人たちの戦い:Google PaLM 2 vs OpenAI GPT-3.5

2023年5月10日、GoogleはOpenAIのGPT-4に対する見事な対抗策としてPaLM 2をリリースしました最近のI/Oイベントで、Googleは最小から最大までの魅力的なPaLM 2モデルファミリーを発表しました

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us