機械学習の時代がコードとして到来しました

The era of machine learning has arrived as code.

2021年版のState of AIレポートが先週発表されました。そして、Kaggle State of Machine Learning and Data Science Surveyも同様です。これらのレポートには学びや議論の余地がたくさんありますが、いくつかのポイントが私の注意を引きました。

「AIはますます国家の電力網やパンデミック中の自動スーパーマーケットの倉庫計算など、ミッションクリティカルなインフラに適用されています。しかし、成熟度が急速に成長する展開の巨大さに追いついているかどうかについては疑問があります。」

機械学習を活用したアプリケーションがITのあらゆる分野に広がっていることは否定できません。しかし、それは企業や組織にとってどういう意味を持つのでしょうか?どのように堅牢な機械学習ワークフローを構築すれば良いのでしょうか?私たちは皆、100人のデータサイエンティストを採用すべきなのでしょうか?それとも100人のDevOpsエンジニアを採用すべきなのでしょうか?

「トランスフォーマーは、自然言語処理だけでなく、音声、コンピュータビジョン、さらにはタンパク質の構造予測など、機械学習の一般的なアーキテクチャとして登場しています。」

古参の人々は、ITには銀の弾丸はないということを痛感してきました。それでも、トランスフォーマーのアーキテクチャは、さまざまな機械学習タスクにおいて非常に効率的です。しかし、機械学習の革新の猛烈なペースにどうやってついていけば良いのでしょうか?これらの最先端モデルを活用するためには、本当に専門的なスキルが必要なのでしょうか?それとももっと短い道でビジネス価値を創出する方法があるのでしょうか?

さて、私の考えはこうです。

マス向け機械学習!

機械学習はどこにでもあります、少なくともそうしようとしています。数年前、Forbesは「ソフトウェアが世界を食べた、今度はAIがソフトウェアを食べる」と書きましたが、これは実際にはどういう意味なのでしょうか?もし、それが機械学習モデルが何千行もの化石化した旧式のコードを置き換えるべきだという意味なら、私は全面賛成です。邪悪なビジネスルールよ、死ね!

では、機械学習が実際にソフトウェアエンジニアリングを置き換えるということでしょうか?現在、AIが生成したコードについて幻想が広がっており、バグやパフォーマンスの問題を見つけるなど、いくつかの技術は確かに興味深いものです。しかし、開発者を廃止することは考えるべきではありませんし、むしろ多くの開発者を力強くサポートするために取り組むべきです。そうすれば、機械学習はただの別の退屈なITのワークロードになるでしょう(退屈なテクノロジーは素晴らしいです)。言い換えれば、私たちが本当に必要としているのは、ソフトウェアが機械学習を食べることなのです!

今回も変わらない

私は長年にわたり、ソフトウェアエンジニアリングの10年以上前のベストプラクティスがデータサイエンスや機械学習にも適用されると主張してきました。バージョン管理、再利用性、テスト可能性、自動化、デプロイメント、モニタリング、パフォーマンス、最適化などです。しばらくは孤独だったのですが、予想外にGoogleの連携がありました:

「機械学習は、あなたが偉大な機械学習の専門家ではなく、偉大なエンジニアとして機械学習を行うべきです。」- 『機械学習のルール』、Google

また、車輪を再発明する必要はありません。DevOpsの運動はこれらの問題を10年以上前に解決しました。今や、データサイエンスと機械学習コミュニティは、これらの実証済みのツールとプロセスを遅延なく採用し、適応させるべきです。これが唯一の方法であり、本番環境で堅牢でスケーラブルかつ繰り返し可能な機械学習システムを構築することができます。もしMLOpsと呼ぶことが助けになるのなら、それも構いません:別のバズワードについて議論するつもりはありません。

概念実証やサンドボックスのA/Bテストを注目すべき成果と考えるのは本当に高い時間です。それらは単なる本番に向けた小さな足がかりに過ぎません。仮定やビジネスへの影響を検証できるのは本番環境だけです。すべてのデータサイエンティストと機械学習エンジニアは、できるだけ早く、できるだけ頻繁にモデルを本番環境に展開することに執着すべきです。良い本番モデルは、素晴らしいサンドボックスモデルに勝るのです

インフラストラクチャ?だから何?

今は2021年です。ITインフラストラクチャはもう邪魔になりません。クラウドAPI、インフラストラクチャのコード化、Kubeflowなどによって、ソフトウェアはそれを抽象化して取り扱っています。もちろん、オンプレミスでも同じです。

同じことが機械学習インフラストラクチャでも急速に進んでいます。Kaggleの調査によると、回答者の75%がクラウドサービスを使用し、45%以上がエンタープライズMLプラットフォームを使用しています。上位3つは、Amazon SageMaker、Databricks、Azure ML Studioです。

MLOps、ソフトウェア定義型のインフラストラクチャやプラットフォームのおかげで、これらすばらしいアイデアをサンドボックスから本番環境に引っ張り出し、移行することはかつてなく簡単になりました。元の質問に答えると、MLに精通したソフトウェアエンジニアとDevOpsエンジニアを雇う必要があると思います。データサイエンティストを増やす必要はありません。でも、内心ではそれを知っていたのかもしれませんね。

さて、トランスフォーマーについて話しましょう。


トランスフォーマー! トランスフォーマー! トランスフォーマー!(Ballmerスタイル)

AIの状態レポートによると、「トランスフォーマーアーキテクチャはNLPを超えて拡大し、MLの汎用アーキテクチャとして現れている」と述べています。たとえば、GoogleのVision Transformerや畳み込みを使わないトランスフォーマーアーキテクチャであるCoAtNetなどの最近のモデルは、ImageNetの画像分類の新たな基準を設定し、トレーニングに少ないコンピュートリソースを必要としながら、画像分類の性能を向上させました。

トランスフォーマーズは音声(音声認識など)やポイントクラウド(自動運転シーンなどの3D環境をモデリングするための技術)でも非常に優れた性能を発揮します。

Kaggleの調査でも、トランスフォーマーズの利用は年々増加し、一方でRNN、CNN、勾配ブースティングアルゴリズムは衰退しています。

高い精度に加えて、トランスフォーマーズは転移学習の約束も果たし、チームがトレーニング時間と計算コストを節約し、ビジネス価値を迅速に提供できるようにしています。

トランスフォーマーズにより、機械学習の世界は徐々に「イェーハー! 自分たちでディープラーニングモデルをゼロから構築してトレーニングしましょう」という考え方から「実績のある既製モデルを選んで、自社のデータで微調整して、早く帰宅しましょう」という考え方に移行しています。

これは多くの面で素晴らしいことです。最先端の技術は常に進化しており、その非情なペースに誰もが追いつけるわけではありません。先ほど言及したGoogleのVision Transformerモデルをここでテストしてみたいですか?Hugging Faceを使えば、それが一番簡単なことです。

Big Scienceプロジェクトの最新のゼロショットテキスト生成モデルはいかがですか?

また、16,000以上のモデルと1,600以上のデータセットを同様の方法で利用できます。推論、AutoNLP、レイテンシ最適化、ハードウェアアクセラレーションのための追加ツールもあります。また、モデリングから製品化までプロジェクトの立ち上げをサポートすることもできます。

Hugging Faceのミッションは、初心者から専門家まで、機械学習をできるだけ友好的で生産的なものにすることです。

できるだけ少ないコードでモデルをトレーニング、最適化、展開することを信じています。

ベストプラクティスを組み込むことを信じています。

インフラストラクチャをできるだけ透明にすることを信じています。

高品質のモデルが製品で最高です。

マシンラーニングは、ここで、今すぐ!

多くの方々が同じ考えのようです。Githubでは52,000以上のスターを獲得しています。初めての年に、Hugging FaceはKaggleの調査にも掲載され、既に10%以上の利用率を達成しています。

皆さん、ありがとうございました。そして、私たちはまだ始まったばかりです。


Hugging Faceがあなたの組織が本格的な機械学習ソリューションを構築し展開するのをどのようにサポートできるかに興味がありますか?お問い合わせは[email protected]までお願いします(勧誘や営業のアプローチはご遠慮ください)。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

テスト自動化のためのトップ5のAIパワードツール

テスト自動化のためのトップ5のAIパワードツール:Perfecto Scriptless Mobile、Applitools、Functionize、AccelQ、TestimAI...

データサイエンス

AIにおける継続的学習の現状について

なぜchatGPTは2021年までの訓練しかされていないのですか?この記事では、深層学習における継続的な学習の現状を解説し、特に...

データサイエンス

LangChain:メモリ容量でパフォーマンスを向上させる

私は以前にLangChainに関する記事をすでに公開しており、ライブラリーとその機能を紹介しました今回は、インテリジェントチャ...

機械学習

API管理を使用してAIパワードJavaアプリを管理する

OpenAIのChatGPT APIをSpring Bootアプリケーションに統合し、オープンソースのAPIゲートウェイであるApache APISIXを使用し...

データサイエンス

クロスヘアに捧げられた ジェネレーティブAI:CISOたちが戦うサイバーセキュリティ

ChatGPTと大規模な言語モデル(LLM)は、生成型AIが多くのビジネスプロセスにどのように影響を与えるかの初期の兆候です

データサイエンス

テキストブック品質の合成データを使用して言語モデルをトレーニングする

マイクロソフトリサーチは、データの役割についての現在進行中の議論に新たな燃料を加える論文を発表しました具体的には、デ...