Learn more about Search Results MarkTechPost - Page 156
- You may be interested
- ロボットが4億5000万年前の絶滅した海洋生...
- 「Plotly Expressのサンバーストチャート...
- データサイエンティストの役割の典型
- アマゾンがベッドロックを展開:AIモデル...
- 「Amazon SageMaker Data Wranglerを使用...
- レコメンダーシステムにおけるPrecision@N...
- 「イギリスのテックフェスティバルが、ク...
- 言語モデルの解毒化における課題
- 「比率の信頼性はどの程度ですか?」
- 「モデルガバナンスを向上させるために、A...
- 新しいOpenAIのGPTsサービスが小規模ビジ...
- カウザルPython NeurIPS 2023での5つの新...
- このAIの論文は、インコンテキスト学習の...
- 「IBMのワトソンXコードアシスタントと出...
- 大規模な言語モデルは本当に数学をできる...
マイクロソフトの研究者がKOSMOS-2を紹介:視覚世界に根付くことができるマルチモーダルな大規模言語モデル
マルチモーダル大規模言語モデル(MLLMs)は、言語、ビジョン、ビジョン言語のタスクを含むさまざまな活動で一般的なインターフェースとしての成功を示しています。ゼロショットおよびフューショットの条件下では、MLLMsはテキスト、画像、音声などの一般的なモダリティを知覚し、自由な形式のテキストを使用して回答を生成することができます。本研究では、マルチモーダルな大規模言語モデルに自己を基礎付ける能力を付与します。ビジョン言語の活動では、基礎付け能力はより実用的かつ効果的な人間-AIインターフェースを提供することができます。モデルは、地理座標と一緒にその画像領域を解釈することができ、ユーザーが長いテキストの説明を入力する代わりに、アイテムや領域を画像上で直接指すことができます。 図1:KOSMOS-2を使用して生成された選択されたサンプルが表示されます。ビジュアル基礎付け、基礎付け質問応答、バウンディングボックスを使用したマルチモーダル参照、基礎付け画像キャプション、ビジュアル基礎付けなどがあります。 モデルの基礎付け機能は、視覚的な応答(つまり、バウンディングボックス)の提供も可能にし、参照表現の理解などの他のビジョン言語のタスクを支援することができます。テキストベースの応答と比較して、視覚的な応答はより正確で、共参照の曖昧さを解消します。結果として得られる自由形式のテキスト応答の基礎付け能力は、名詞句や参照表現などを画像領域に関連付けて、より正確で情報量のある応答を生成します。Microsoft Researchの研究者は、基礎付け機能を備えたKOSMOS-1をベースにしたマルチモーダルな大規模言語モデルKOSMOS-2を紹介しています。次単語予測タスクを使用して、Transformerに基づく因果的言語モデルKOSMOS-2をトレーニングします。 彼らは、基礎付けの潜在能力を十分に活用するために、基礎付けられた画像テキストのペアデータセットをウェブスケールで構築し、KOSMOS-1のマルチモーダルコーパスに統合します。LAION-2BおよびCOYO-700Mからの画像テキストの一部のペアリングが、基礎付けられた画像テキストのペアの基盤となります。彼らは、キャプションから名詞句や参照表現などのテキストスパンを抽出し、それらのオブジェクトや領域のバウンディングボックスなどの空間的な位置に接続するためのパイプラインを提供します。バウンディングボックスの地理座標を位置トークンの文字列に変換し、それらを対応するテキストスパンの後に追加します。データ形式は、画像の要素をキャプションにリンクする「ハイパーリンク」として機能します。 実験の結果、KOSMOS-2は、基盤タスク(フレーズの基盤と参照表現の理解)および参照タスク(参照表現の生成)だけでなく、KOSMOS-1で評価された言語およびビジョン言語のタスクでも競争力を持っています。図1は、基礎付け機能を含めることで、KOSMOS-2を基盤とする画像キャプションとビジュアル質問応答をはじめとする追加のダウンストリームタスクに利用する方法を示しています。GitHubでオンラインデモが利用可能です。
ProFusion における AI 非正則化フレームワーク テキストから画像合成における詳細保存に向けて
テキストから画像生成の領域は長年にわたって広範に研究され、最近では大きな進歩がなされています。研究者たちは、大規模なデータセットで大規模なモデルをトレーニングすることにより、任意のテキスト入力に対するゼロショットのテキストから画像生成を実現するという、驚異的な進展を達成しています。DALL-EやCogViewなどの画期的な作品は、研究者によって提案された多くの手法の道を開き、テキストの説明に合わせて高解像度の画像を生成し、非常に忠実度の高い性能を示す能力を持つものとなりました。これらの大規模なモデルは、テキストから画像生成だけでなく、画像の操作や動画生成など、さまざまな他のアプリケーションにも革命をもたらしました。 前述の大規模なテキストから画像生成モデルは、テキストに合わせた創造的な出力を生成する能力に優れていますが、ユーザーが指定した新しいユニークな概念を生成する際にはしばしば課題に直面します。その結果、研究者たちは、事前にトレーニングされたテキストから画像生成モデルをカスタマイズするさまざまな手法を探求してきました。 たとえば、いくつかの手法では、事前にトレーニングされた生成モデルを限られた数のサンプルを使用して微調整することが含まれます。過学習を防ぐために、異なる正則化技術が使用されます。他の手法では、ユーザーから提供される新しい概念をワード埋め込みにエンコードすることを目指しています。この埋め込みは、最適化プロセスまたはエンコーダネットワークから得ることができます。これらの手法により、ユーザーの入力テキストで指定された追加の要件を満たしながら、新しい概念のカスタマイズ生成が可能となります。 テキストから画像生成の進歩にもかかわらず、最近の研究では、正則化手法を使用する場合のカスタマイズの潜在的な制約に関する懸念が浮上しています。これらの正則化手法がカスタマイズされた生成の能力を意図せず制限する可能性があると疑われています。その結果、細かい詳細が失われる恐れがあります。 この課題を克服するために、ProFusionという新しいフレームワークが提案されました。そのアーキテクチャは以下に示されています。 ProFusionは、PromptNetと呼ばれる事前にトレーニングされたエンコーダと、Fusion Samplingと呼ばれる新しいサンプリング手法から構成されています。従来の手法とは異なり、ProFusionはトレーニングプロセス中に正則化の要件を排除します。代わりに、問題はFusion Sampling手法を使用して推論中に効果的に解決されます。 実際、著者たちは、正則化がテキストによって条件付けられた忠実なコンテンツ作成を可能にする一方で、詳細な情報の喪失をもたらし、劣ったパフォーマンスを引き起こすと主張しています。 Fusion Samplingは、各タイムステップで2つのステージから構成されています。最初のステップでは、フュージョンステージが入力画像の埋め込みと条件付きテキストの情報を組み合わせてノイズのある部分的な結果をエンコードします。その後、リファインメントステージが続き、選択されたハイパーパラメータに基づいて予測を更新します。予測の更新により、Fusion Samplingは入力画像からの細かな情報を保持しながら、出力を入力のプロンプトに基づいて条件付けます。 この手法は、トレーニング時間を節約するだけでなく、正則化手法に関連するハイパーパラメータの調整の必要性もなくします。 以下に報告された結果が示されています。 ProFusionと最先端の手法との比較が示されています。提案された手法は、顔の特徴に関連する細かい詳細を保持し、他のすべての手法よりも優れた性能を発揮しています。 これがProFusionの概要であり、最先端の品質を持つテキストから画像生成のための新しい正則化フリーフレームワークでした。興味があれば、以下のリンクでこの技術について詳しく学ぶことができます。
銀行向けのGoogleの新しいマネーロンダリング対策AIツールに会いましょう
Google Cloud(アルファベットの部門)は、銀行向けにマネーロンダリングAIを導入しました。提案されたAIソリューションは、人工知能(AI)によって駆動される革新的なツールであり、金融業界のマネーロンダリング対策を革新することを目指しています。この製品は、機械学習技術を利用して、銀行や他の金融機関がマネーロンダリングに関連する可疑な活動を特定し報告するための規制要件を満たすのを支援します。 Google Cloudのソリューションの特徴は、マネーロンダリング監視システムで一般的に使用される伝統的なルールベースのプログラミングからの離脱です。この非伝統的な設計選択は業界の通例に挑戦し、HSBC、Banco Bradesco、Lunarなどの主要なプレーヤーの注目を集めています。 このリリースは、AIを活用してさまざまなセクターを強化する主要な米国のテック企業の持続的なトレンドと一致しています。GoogleのChatGPTの前の成功は、他の企業に類似のAI技術を統合するきっかけとなりました。 金融機関は長年、大量の日次取引を分析するためにAIを活用してきました。通常、人の判断と機械学習を使用して、規制当局に報告する必要がある可能性のある可疑な活動を特定します。 Google Cloudがルールベースのシステムからの脱却する決定は、マネーロンダリングにおけるAIの潜在能力に対する重要な賭けです。このようなツールのキャリブレーションは、通常、フラグのついた活動があまりにも少ないか、あまりにも多い場合があり、コンプライアンスチームに懸念を抱かせることがあります。手動ルールの入力も高い誤検出率に寄与しています。 AIを最初に考えたアプローチで、Google Cloudはこれらの課題を緩和しようとしています。ツールのユーザーはリスク指標をカスタマイズすることができ、不必要なアラートの数を最大60%削減すると同時に、精度を向上させることができます。たとえば、HSBCはGoogle Cloudのソリューションを導入した後、最大4倍の「真の陽性」を経験しました。 金融機関を説得して意思決定に機械学習を信頼させることは困難です。規制当局は特定のリスクプロファイルに合わせた明確な根拠を求めており、機械学習が人間の専門知識を完全に置き換える能力に対する懐疑心は依然として残っています。これらの懸念に対応するため、Google Cloudはソリューションにおいてより良い結果と向上した「説明可能性」を提供しています。このツールはさまざまなデータソースを活用してハイリスクな顧客を特定し、取引や文脈要因に関する詳細な情報を提供します。この透明性は金融機関と規制当局の間で信頼を築き、理解を促進します。 Google CloudのAI駆動型のマネーロンダリングソリューションは、違法な金融活動に対する取り組みを変革する潜在力を持っています。このソリューションは、機械学習にシフトすることで精度、カスタマイズ性、透明性を向上させ、金融機関や規制当局のマネーロンダリング対策に対する信頼を育みます。
Meet ChatGLM2-6B:オープンソースのバイリンガル(中国語-英語)チャットモデルChatGLM-6Bの第2世代バージョンです
OpenAIの革命的なChatGPTの導入以来、自然言語対話エージェントの分野ではかなりの進歩が見られています。研究者たちは、チャットボットモデルの能力を向上させ、ユーザーとのより自然で魅力的な対話を作成できるようにするために、さまざまな技術と戦略を積極的に探求しています。その結果、ChatGPTの代替となるいくつかのオープンソースで軽量なモデルが市場に登場しています。その中の1つが、中国の清華大学の研究者によって開発されたChatGLMモデルシリーズです。このシリーズは、一般言語モデル(GLM)フレームワークをベースにしており、より一般的に見られるGenerative Pre-trained Transformer(GPT)グループのLLMとは異なります。このシリーズには、中国語と英語のバイリンガルモデルがいくつか含まれており、最もよく知られているのはChatGLM-6Bです。このモデルは62億のパラメータを持ち、1兆以上の英語と中国語のトークンで事前学習され、強化学習などの技術を用いて中国語の質問応答、要約、対話タスクにさらに微調整されています。 ChatGLM-6Bのもう1つの特徴は、その量子化技術により、ローカルで展開されることができ、非常に少ないリソースしか必要としないことです。モデルは、消費者向けのグラフィックスカードでもローカルに展開することができます。このモデルは特に中国で非常に人気があり、世界中で200万回以上ダウンロードされ、最も影響力のある大規模なオープンソースモデルの1つとなっています。その広範な採用の結果、清華大学の研究者はバイリンガルチャットモデルの第2世代バージョンであるChatGLM2-6Bをリリースしました。ChatGLM2-6Bは、第1世代モデルのすべての強みに加えて、パフォーマンスの向上、より長いコンテキストのサポート、より効率的な推論など、いくつかの新機能が追加されています。さらに、研究チームはモデルの重みの使用を学術目的に留まらず(以前に行われていたように)、商業利用にも利用できるように拡張しました。 研究者たちは、ChatGLM2-6Bのベースモデルを第1世代バージョンと比較して向上させることから始めました。ChatGLM2-6Bは、GLMのハイブリッド目的関数を使用し、1.4兆以上の英語と中国語のトークンで事前学習されました。研究者たちは、市場のほぼ同じサイズの他の競合モデルとのパフォーマンスを評価しました。その結果、ChatGLM2-6Bは、MMLU、CEval、BBHなどのさまざまなデータセットで顕著なパフォーマンスの向上を実現していることが明らかになりました。ChatGLM2-6Bが示したもう1つの印象的なアップグレードは、前バージョンの2Kから32Kまでのより長いコンテキストのサポートです。FlashAttentionアルゴリズムがこの点で重要な役割を果たし、より長いシーケンスに対してアテンションの高速化とメモリ使用量の削減を実現しました。さらに、モデルは対話のアライメント中に8Kのコンテキスト長でトレーニングされており、ユーザーにより多様な会話の深さを提供しています。ChatGLM2-6Bはまた、Multi-Query Attention技術を使用しており、KVキャッシュのGPUメモリ使用量が低下し、第1世代と比較して推論速度が約42%向上しています。 清華大学の研究者たちは、ChatGLM2-6Bをオープンソース化し、LLMの成長とイノベーションを促進し、そのモデルを基にしたさまざまな有用なアプリケーションの開発を世界中の開発者と研究者に呼びかけることを望んでいます。ただし、研究者たちは、モデルの規模が小さいため、その決定はしばしばランダムに影響を受ける可能性があること、その出力は正確性を慎重に確認する必要があることを強調しています。将来の作業に関しては、チームは一歩先を見越して、モデルの第3バージョンであるChatGLM3の開発を始めています。
専門AIトレーニングの変革- LMFlowの紹介:優れたパフォーマンスのために大規模な基盤モデルを効率的に微調整し、個別化するための有望なツールキット
大規模言語モデル(LLMs)は、大規模な基盤モデルの上に構築されており、以前は不可能だったさまざまなタスクを実行する一般的な能力を示しています。しかし、特定のドメインやジョブでのパフォーマンスを向上させるには、このようなLLMのさらなるファインチューニングが必要です。大規模モデルのファインチューニングには、以下のような一般的な手順が含まれます: ニッチな領域での継続的な事前学習により、広範な基礎モデルがそのような領域での専門知識を獲得することができます。 自然言語の特定のタイプの命令を理解し実行するために、大規模な汎用ベースモデルの調整。 必要な会話能力を備えた大規模な基礎モデルのトレーニング(RLHF:人間のフィードバックを用いた強化学習)。 すでにいくつかの大規模モデルが事前学習され、一般に公開されています(GPT-J、Bloom、LLaMAなど)。しかし、これらのモデル全体で効率的にファインチューニング操作を行うことができる公開ツールボックスはありません。 香港大学とプリンストン大学の研究者チームが、制約されたリソースで効率的に巨大モデルのファインチューニングと推論を支援するための使いやすく軽量なツールセットを作成しました。 Nvidia 3090 GPUと5時間あれば、7兆パラメータのLLaMAモデルに基づいたカスタムモデルをトレーニングすることができます。このフレームワークを使用して単一のマシン上で7、13、33、65兆パラメータのLLaMAのバージョンをファインチューニングした後、研究用にモデルの重みが提供されました。 オンラインで無償で利用できる大規模言語モデルの出力を最適化するには、以下の4つのステップがあります: 最初のステップは「ドメイン適応」であり、モデルを特定のドメインに対応させるためのトレーニングです。 2番目のステップはタスク適応であり、要約、質問応答、翻訳などの特定の目標を達成するためにモデルをトレーニングすることを意味します。 3番目のステージは、教示型質問・回答のペアに基づいてモデルのパラメータを調整する「教示型ファインチューニング」です。 最後のステップは、人々の意見に基づいてモデルを改善する「人間のフィードバックを用いた強化学習」です。 LMFlowは、これらの4つのステップに対する完全なファインチューニング手順を提供し、制約された計算リソースにもかかわらず、巨大言語モデルの個別のトレーニングを可能にします。 LMFlowは、連続的な事前トレーニング、命令調整、RLHFなどの機能を備えた大規模モデルの包括的なファインチューニング手法を提供し、使いやすく柔軟なAPIも提供しています。LMFlowによって、個別のモデルトレーニングが誰もが利用できるようになりました。質問応答、コンパニオンシップ、執筆、翻訳、さまざまな科目での専門的な相談などの活動において、各人は利用可能なリソースに基づいて適切なモデルを選択することができます。ユーザーが十分な大きさのモデルとデータセットを持っている場合、より長い期間のトレーニングにより優れた結果が得られます。チームは最近、ChatGPTよりも優れた33兆パラメータのモデルをトレーニングしました。
MosaicMLは、彼らのMPT-30BをApache 2.0の下でリリースしました
MosaicML-7Bの大成功の後、MosaicMLは再び以前に設定した基準を上回りました。新しい画期的なリリースでは、MosaicML-30Bを発表しました。 MosaicMLは非常に正確で強力な事前学習済みトランスフォーマーです。MosaicMLは、MosaicML-30BがChatGPT3よりもさらに優れていると主張しています。 MosaicML-30Bの発売前、MosaicML-7BはAI界を席巻しました。MPT-7B Base-instruct、base-chat、およびストーリーライティングは大成功でした。同社は、これらのモデルが世界中で300万回以上ダウンロードされたと主張しています。以前にリリースしたモデルへのコミュニティの熱狂がさらに優れたエンジンを求める最大の理由であり、Mosaic MLはMPT-30Bでそれを実現しました。 コミュニティがこれらのMPTエンジンを適応し、より調整されたものを構築して具体的なユースケースに役立てる姿は信じられないほどでした。興味深いケースの一部はLLaVA-MPTです。LLaVa-MPTは、事前学習済みMPT-7Bにビジョン理解を追加します。 同様に、GGMLはMPTエンジンをApple SiliconとCPUでより良く実行できるように最適化します。GPT4ALLは、MPTを基にしたGPT4のようなチャットオプションを実行できる別のユースケースです。 よく見ると、MosaicMLがより優れており、大企業に対して強力な競争力を持ち、比較的簡単な統合でさまざまなユースケースにモデルを適応させることができるというのは、彼らが提供する競争力のある機能のリストとモデルの適応性のおかげです。 このリリースでは、Mosaic MLはまた、ChatGPTが使用するパラメータのおよそ三分の一のMPT-30Bが、既存の生成ソリューションと比較して非常に軽量なモデルであると主張しています。 MosaicMLの既存のMPT-7Bよりも優れており、このMPT-30Bは商業ライセンスの下で即座に商業利用が可能です。 それだけでなく、MPT-30BにはMPT-30B-InstructとMPT-30B-Chatの2つの事前学習済みモデルも付属しており、1つの単一指示に影響を受けることができ、より長い時間のマルチターン会話を追うことができます。 その優れた点は続きます。MosaicMLはMPT-30Bをボトムアップのアプローチでより良く、より効率的に設計しました。MPT-30Bは8kトークンのコンテキストウィンドウでトレーニングされています。ALiBiを介してより長いコンテキストをサポートしています。 FlashAttentionの助けを借りて、トレーニングと推論のパフォーマンスを改善しました。MPT-30Bは、データの多様性によるより強力なコーディング能力を備えています。このモデルはNvidiaのH100上で8Kコンテキストウィンドウに拡張されました。同社は、これがH100で訓練された最初のLLMモデルであり、お客様にすぐに利用可能であると主張しています。 MosaicMLはまた、モデルを軽量に保ち、新興企業が運用コストを低く抑えるのに役立てています。 MPT-30Bのサイズも、単一のGPU上で簡単に展開できるように特別に選ばれました。1つのA100-80GB(16ビット精度)または1つのA100-40GB(8ビット精度)でシステムを実行できます。Falcon-40Bなどの他の比較可能なLLMは、より大きなパラメータ数を持ち、単一のデータセンターGPUではサービスできません(現在)。これには2つ以上のGPUが必要であり、最小の推論システムコストが増加します。
ニューラルネットワークにおける活性化関数の種類
ニューラルネットワークの活性化関数は、ディープラーニングの重要な部分であり、トレーニングモデルの精度と効率を決定します。大規模なニューラルネットワークの作成や分割に使用されるモデルとディープラーニングモデルの出力を決定します。活性化関数は、関連するデータに焦点を当てながら、他のデータを破棄するため、ニューラルネットワークにとって貴重なツールです。他の関数と同様に、活性化関数(転送関数)は入力を受け取り、その入力に比例する出力を返します。ニューラルネットワークのノードの活性化関数は、特定の入力または入力グループに対するノードの出力を指定します。 意図した結果を達成するために、どのニューロンを活性化または非活性化するか効果的に選択します。入力も非線形に変換され、高度なニューラルネットワークでのパフォーマンスが向上します。1から-1までの情報は、活性化関数で出力を正規化することができます。ニューラルネットワークは通常、何百万ものデータポイントでトレーニングされるため、活性化関数が高速であり、結果を計算するために必要な時間を最小限に抑えることが重要です。 さて、ニューラルネットワークの構造を確認し、ニューラルネットワークアーキテクチャがどのように組み立てられ、ニューラルネットワークにどの要素が存在するかを見てみましょう。 人工ニューラルネットワークは、多くのリンクされた個々のニューロンを含んでいます。各ニューロンの活性化関数、バイアス、および重みが指定されます。 入力層 – ドメインの生データが入力層に送られます。この層は計算が行われる最も低いレベルです。これらのノードが行う唯一のことは、データを次の隠れ層に中継することです。 隠れ層 – 入力層から特徴を受け取った後、隠れ層はさまざまな計算を行い、結果を出力層に渡します。レイヤー2のノードは表示されず、基礎となるニューラルネットワークの抽象化レイヤーを提供します。 出力層 – ネットワークの隠れ層の出力がこの層でまとめられ、ネットワークの最終的な値が提供されます。 活性化関数の重要性 線形方程式は1次の多項式であるため、活性化関数を持たないニューラルネットワークは単なる線形回帰モデルです。解くのは簡単ですが、複雑な問題や高次の多項式に対処する能力は制限されています。 活性化関数は、ニューラルネットワークに非線形性を提供するために使用されます。活性化関数の計算は、順伝播の各層で追加のステップを行いますが、その手間は十分に報われます。 活性化関数がない場合、各ニューロンは重みとバイアスを使用して入力に対する線形変換を行います。2つの線形関数の合成は、それ自体が線形関数です。したがって、ニューラルネットワークの隠れ層の総数はその動作に影響を与えません。 活性化関数の種類 ニューラルネットワークは、異なる活性化関数が使用される3つの主要な部分に分類されます。 バイナリステップ関数 線形関数 非線形活性化関数 バイナリステップニューラルネットワークの活性化関数 バイナリステップ関数…
何が合成データとは?その種類、機械学習とプライバシーにおける利用例及び応用について
データサイエンスと機械学習の分野は、毎日成長しています。新しいモデルやアルゴリズムが提案されるにつれて、これらの新しいアルゴリズムとモデルには、トレーニングやテストに膨大なデータが必要となります。ディープラーニングモデルは今日では非常に人気があり、これらのモデルもデータを大量に必要とします。異なる問題文脈の大量のデータを取得することは、非常に面倒で時間がかかり、コストがかかります。データは現実のシナリオから収集されるため、セキュリティの責任とプライバシーの懸念が高まります。データの大部分はプライバシー法や規制によって保護されており、組織間や場合によっては同一組織の異なる部門間でのデータ共有や移動を妨げ、実験や製品のテストを遅らせる原因となります。それでは、この問題をどのように解決できるでしょうか?どのようにして、誰かのプライバシーに関する懸念を引き起こすことなく、データをよりアクセスしやすくオープンにすることができるのでしょうか? この問題の解決策は、合成データ (Synthetic data)と呼ばれるものです。 では、合成データとは何でしょうか? 合成データとは、人工的またはアルゴリズム的に生成され、実際のデータの基本的な構造と特性に近いものです。合成データが良ければ、実際のデータと区別がつかないほどです。 合成データの種類は何種類あるのでしょうか? この質問の答えは非常にオープンエンドで、データは多様な形をとることができますが、主に以下のようなものがあります。 テキストデータ 音声またはビジュアルデータ (たとえば画像、動画、音声) 表形式のデータ 機械学習における合成データの利用例 ここでは、上記の3つのタイプの合成データの利用例について説明します。 NLPモデルのトレーニングに合成テキストデータを使用する 合成データは、自然言語処理の分野で応用されています。たとえば、AmazonのAlexa AIチームは、既存の顧客インタラクションデータが存在しない場合や十分でない場合に、NLUシステム (自然言語理解) のトレーニングセットを完成させるために合成データを使用しています。 ビジョンアルゴリズムのトレーニングに合成データを使用する ここでは、広く使用されているユースケースについて説明します。たとえば、画像内の顔の数を検出または数えるアルゴリズムを開発したい場合を考えてみましょう。ジェネレーティブネットワーク (GAN) またはその他の生成ネットワークを使用して、実際には存在しない現実的な人間の顔、つまり顔を生成してモデルをトレーニングすることができます。また、誰かのプライバシーを侵害することなく、これらのアルゴリズムから必要なだけデータを生成することができます。しかし、実際のデータには個人の顔が含まれているため、プライバシーポリシーによってそのデータを使用することが制限されています。 別のユースケースとして、シミュレートされた環境で強化学習を行うことが考えられます。たとえば、オブジェクトをつかんで箱に入れるために設計されたロボットアームをテストしたい場合、この目的のために強化学習アルゴリズムが設計されます。強化学習アルゴリズムが学習する方法は、実験を行うことです。実際のシナリオで実験を行うことは非常にコストがかかり、時間がかかり、異なる実験を行うことが制限されます。しかし、シミュレートされた環境で実験を行う場合、実験を設定するのは比較的安価で、ロボットアームのプロトタイプが必要なくなります。…
機械学習とは何か?メリットとトップMLaaSプラットフォーム
機械学習は、明示的なプログラミングを必要とせずに予測出力を生成するために統計分析を使用します。データセットの関係を解釈するために学習するアルゴリズムの連鎖を使用して目標を達成します。残念ながら、ほとんどのデータサイエンティストはソフトウェアエンジニアではないため、成長する企業のニーズに応えるためにスケールアップすることが困難になることがあります。データサイエンティストは、Machine Learning as a Service(MLaaS)のおかげでこれらの複雑さを簡単に処理できます。 MLaasとは何ですか? 機械学習をサービスとして提供する(MLaaS)は、最近、データサイエンス、機械学習エンジニアリング、データエンジニアリング、およびその他の機械学習専門家にとっての利点から、多くの注目を集めています。「機械学習をサービスとして提供する」という用語は、機械学習技術を採用して回答を提供するクラウドベースのプラットフォームの幅広い範囲を指します。 顧客は、MLaaSを使用することで、社内の機械学習チームの構築のオーバーヘッドや関連するリスクを負わずに、機械学習の利点を享受することができます。予測分析、ディープラーニング、アプリケーションプログラミングインターフェース、データ可視化、自然言語処理など、さまざまなサプライヤーから提供されるサービスがあります。サービスプロバイダーのデータセンターがすべてのコンピューティングを処理します。 機械学習のコンセプトは何十年も前から存在していますが、最近になってメインストリームに入り、MLaaSはこの技術の次世代を表しています。MLaaSは、組織内で機械学習を実装する複雑さとコストを削減し、より迅速で正確なデータ分析を可能にすることを目指しています。一部のMLaaSシステムは、画像認識やテキスト読み上げ合成などの特定のタスクに特化して設計されていますが、他のものは、セールスやマーケティングなどの業界を横断した使用を想定して構築されています。 MLaaSはどのように機能しますか? MLaaSは、各企業が必要に応じてカスタマイズできる、事前に構築された一般的な機械学習ツールを提供するサービスのコレクションです。ここでは、データ可視化、APIの豊富さ、顔認識、NLP、PA、DLなどがすべて提供されています。MLaaSアルゴリズムの主なアプリケーションは、データパターンの発見です。これらの規則性は、数学モデルの基礎として使用され、新しい情報に基づく予測を作成するために使用されます。 MLaaSは、最初のフルスタックAIプラットフォームであり、モバイルアプリ、ビジネスデータ、産業用自動化制御、LiDarなどの最新のセンサーを含むさまざまなシステムを統合します。パターン認識に加えて、MLaaSは確率的推論も容易にします。これにより、独自の要件に合わせたワークフローを設計する際に、組織がさまざまなアプローチから選択できる包括的かつ信頼性の高いMLソリューションが提供されます。 MLaasの利点は何ですか? MLaaSを使用する主な利点は、基盤をゼロから構築する必要がないことです。多くの企業、特に中小企業、ボイジャイズ企業(SME)は、大量のデータを保管および処理するためのリソースと能力を持っていない場合があります。この情報を収容するための大量のストレージスペースを購入または構築する必要性は、さらに費用がかかります。ここで、MLaaSインフラストラクチャがデータの保存と管理を引き継ぎます。 MLaaSプラットフォームはクラウドプロバイダーであるため、クラウドストレージを提供し、機械学習の実験用データ、データパイプラインなどのデータを適切に管理する手段を提供し、データエンジニアがデータにアクセスして分析することが容易になります。 企業は、MLaaSプロバイダの予測分析およびデータ可視化ソリューションを使用することができます。さらに、感情分析、顔認識、クレジットリスク評価、企業情報、ヘルスケアなど、さまざまな用途に対するアプリケーションプログラミングインターフェース(API)も提供されています。 MLaaSを使用すると、データサイエンティストは、ほとんどの他のクラウドコンピューティングサービスとは異なり、長時間のソフトウェアインストールや独自のサーバーの調達を待つ必要がなく、すぐに機械学習を使用できます。 MLaaSでは、実際のコンピューティングは、企業にとって非常に便利です。 トップMLaaSプラットフォーム 1. AWS Machine Learning クラウドサービスに関しては、AWS…
マイクロソフトリサーチは、競合モデルよりも大幅に小さいサイズで、Pythonコーディングに特化した新しい大規模言語モデルphi-1を紹介しました
トランスフォーマーのデザインが発見されて以来、大規模な人工ニューラルネットワークのトレーニングの技術は飛躍的に進歩してきましたが、この成果の基礎となる科学はまだ幼い段階にあります。同じ時期にトランスフォーマーがリリースされたことで、圧倒的で混乱するような結果の中に秩序が出現し、計算量またはネットワークサイズを増やすと性能が予測可能に向上するというスケーリング則が判明しました。これらのスケーリング則は、深層学習におけるスケールの調査のためのガイドとして機能し、これらの則の変化の発見により性能が急激に向上しました。 本論文では、別の軸に沿ってデータ品質をどのように改善できるかを調査しています。高品質のデータはより良い結果を生み出します。たとえば、データのクリーニングは、現在のデータセットを作成するための重要なステップであり、比較的小さなデータセットまたはデータをより多くのイテレーションに通すことができます。ニューラルネットワークに英語を教えるために人工的に作成された高品質のデータセットであるTinyStoriesに関する最近の研究は、高品質のデータの利点がこれ以上のものであることを示しています。改良されたスケーリング則により、高品質のデータは大規模なモデルの性能を、よりシンプルなトレーニング/モデルで一致させることができるようになります。 この研究では、マイクロソフトリサーチの著者たちは、良質なデータが大規模言語モデル(LLMs)のSOTAをさらに向上させながら、データセットのサイズとトレーニング計算を大幅に減らすことができることを実証しています。トレーニングが必要なモデルが小さいほど、LLMsの環境コストを大幅に削減することができます。彼らは、コーディングのためにトレーニングされたLLMsを使用して、自分のdocstringsから特定のPython関数を構築しました。後者の論文で提唱された評価基準であるHumanEvalは、コード上でLLMのパフォーマンスを比較するために頻繁に使用されています。 彼らは、1.3Bパラメータモデルをトレーニングし、phi-1と呼びます。7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programs)で55.5%のpass@1精度を達成しました。 彼らは、7Bトークン以上(合計50Bトークン以上)を約8回通過した後、200Mトークン未満でファインチューニングを行い、1.3Bパラメータのphi-1モデルをトレーニングすることで、高品質のデータが確立されたスケーリングルールを破る能力を示しました。一般的には、「教科書の品質」のデータを事前にトレーニングし、GPT-3.5を使用して人工的に生成されたデータとオンラインソースからのフィルタリングされたデータの両方を使用し、ファインチューニングには「教科書の演習のような」データを使用します。彼らは、1つのLLM生成のみを使用して、競合モデルよりもはるかに小さなデータセットとモデルサイズでありながら、HumanEvalで50.6%のpass@1精度、MBPP (Mostly Basic Python Programmes)で55.5%のpass@1精度を達成しました。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.