「データサイエンス30年：データサイエンス実践者からのレビュー」

30 Years of Data Science Review from Data Science Practitioners

30年のVoAGIと30年のデータサイエンス。おおよそ30年間の私の専門生活。長い時間同じ分野で働くことの特権の1つである「経験」として、その進化について直接目撃した者として書く機会があります。

アルゴリズム

私は90年代初めに働き始め、当時「人工知能」と呼ばれたものに取り組んでいました。それは自己学習であり、神経細胞の組織を模倣し、統計的な仮説を検証する必要がない新しいパラダイムでした。そう、ニューラルネットワークです！効率的なバックプロパゲーションアルゴリズムの使用法が数年前に発表され、多層ニューラルネットワークの隠れ層のトレーニングの問題を解決することができました[1]。これにより、多くの熱心な学生たちが新しい解決策に取り組むことができるようになりました。ただし、機械のパワーだけが私たちを止めることができました。

多層ニューラルネットワークのトレーニングにはかなりの計算能力が必要であり、ネットワークのパラメータ数が多く、データセットも大きい場合は特にです。当時の機械はそのような計算能力を持っていませんでした。1988年には時系列のための「バックプロパゲーション・スルー・タイム（BPTT）」[2]や、選択的メモリ学習のための「長短期記憶（LSTM）」[3]などの理論的なフレームワークが開発されました。しかし、計算能力は依然として問題であり、ニューラルネットワークはほとんどのデータ分析の専門家によって一時的に置かれ、より良い時期を待っていました。

その間に、より軽量で同等のパフォーマンスを発揮するアルゴリズムが出現しました。1993年にはC4.5形式の決定木が人気となりましたが、CART形式の決定木は1984年から存在していました。決定木はトレーニングが容易で理解しやすく、当時のデータセットでは十分なパフォーマンスを発揮することが多かったです。やがて、ランダムフォレストアルゴリズムのように多くの決定木を組み合わせる方法や、勾配ブースティング木アルゴリズムのように連鎖的に組み合わせる方法も学びました。これらのモデルはかなり大規模ですが、トレーニングするパラメータの数が多いため、まだ適切な時間内に処理できました。特に勾配ブースティング木は、連鎖的にトレーニングされた木のカスケードにより、必要な計算能力を時間とともに分散させ、非常に手頃な価格かつ非常に成功したデータサイエンスのアルゴリズムとなりました。

90年代まで、すべてのデータセットは、顧客データ、患者データ、取引データ、化学データなどの、比較的サイズの小さなクラシックなデータセットでした。ソーシャルメディア、電子商取引、ストリーミングプラットフォームの拡大に伴い、データはより速いペースで成長し、完全に新しい課題を提起しました。まず第一に、構造化および非構造化データの大量のストレージと高速アクセスの課題です。次に、それらのデータの分析に向けた高速なアルゴリズムの必要性です。ビッグデータプラットフォームがストレージと高速アクセスを担当しました。従来のリレーショナルデータベースは構造化データのホスティングから、あらゆる種類のデータをホスティングする新しいデータレイクにスペースを譲りました。さらに、電子商取引事業の拡大により、レコメンデーションエンジンの人気が高まりました。市場バスケット分析やビデオストリーミングの推奨に使用される2つのアルゴリズムが一般的に使用されるようになりました：アプリオリアルゴリズム[9]および協調フィルタリングアルゴリズム[10]。

その間、コンピュータハードウェアのパフォーマンスが向上し、想像を絶する速度に達しました…そして、ニューラルネットワークに戻ります。GPUは、ニューラルネットワークのトレーニングにおける特定の操作の実行のためにアクセラレータとして使用されるようになり、より複雑なニューラルアルゴリズムとニューラルアーキテクチャの作成、トレーニング、展開が可能になりました。このニューラルネットワークの2度目の黄金期は「ディープラーニング」と呼ばれました[11] [12]。人工知能（AI）という用語が再び浮上し始めました。

ディープラーニングの一派である生成AI [13] は、新しいデータ（数字、テキスト、画像、さらには音楽など）を生成することに焦点を当てました。モデルとデータセットは、より現実的な画像、テキスト、および人間との対話を生成するために、サイズと複雑性が増していきました。

新しいモデルと新しいデータは連続的なサイクルで次々に置き換えられました。これはもはやデータサイエンスの問題ではなく、エンジニアリングの問題となりました。最近では、データと機械学習エンジニアリングへの立派な取り組みにより、連続的なデータ収集、モデルトレーニング、テスト、人間の介入アクション、そして非常に大規模な機械学習モデルの展開のための自動フレームワークが開発されました。このすべてのエンジニアリングインフラストラクチャは、人間との対話をシミュレートしながらさまざまな問題に回答するためにトレーニングされた現在の大規模言語モデル（LLM）の基盤となっています。

ライフサイクル

この数年の間に、データサイエンスにおいて最も大きな変化は、アルゴリズム以上に基盤となるインフラストラクチャーで起こりました。頻繁なデータの取得から、モデルの連続的かつスムーズな再学習と再展開への移行が行われました。つまり、データサイエンスは研究からエンジニアリングへと進化したのです。

機械学習モデルのライフサイクルは、単一のサイクルでの作成、トレーニング、テスト、展開（CRISP-DM [14] などの類似したパラダイム）から、作成とプロダクション化（展開、検証、利用、メンテナンス）の二つのサイクルに変わりました [15]。

ツール

その結果、データサイエンスのツールは適応する必要がありました。データサイエンスモデルの作成フェーズだけでなく、プロダクション化フェーズもサポートする必要がありました。つまり、データサイエンスモデルの作成とトレーニングをサポートする部分と、最終結果のスムーズでエラーフリーなプロダクション化を可能にする部分の二つの製品または同じ製品内の二つの別々のパーツが必要でした。作成部分は知識と創造力によるものであり、プロダクション化部分は構造化された繰り返しのタスクです。

当然ながら、作成フェーズでは、基本的なものから最も高度で洗練された機械学習アルゴリズムまで幅広くカバーするプラットフォームがデータサイエンティストに必要です。どの問題を解決するのにどのアルゴリズムが必要になるかはわかりません。もちろん、最もパワフルなモデルが成功する可能性は高いですが、過学習のリスクが高まり、実行速度が遅くなるというデメリットもあります。データサイエンティストは、自分の仕事のさまざまな課題に対応するために様々なツールを持っている職人のような存在です。

低コードベースのプラットフォームも人気を集めています。低コードを使えば、プログラマーでさえも非プログラマーでさえも、さまざまなデータサイエンスアプリケーションを作成して迅速に更新することができます。

機械学習モデルの作成は知識と創造力の運動であり、誰にでもアクセス可能であるべきです。そのため、必須ではありませんが、データサイエンスのためのオープンソースプラットフォームが望ましいです。オープンソースは、アスピリングデータサイエンティスト全員にデータ操作と機械学習アルゴリズムへの自由なアクセスを提供し、同時にコミュニティにソースコードの調査と貢献を許すことができます。

サイクルのもう一方、プロダクション化には、展開、実行、およびデータサイエンスアプリケーションの監視のための信頼性のあるITフレームワークを提供するプラットフォームが必要です。

結論

2000語未満で30年のデータサイエンスの進化をまとめることはもちろん不可能です。また、時期によって最も人気のあった出版物を引用しましたが、それが絶対に最初のものではなかったかもしれません。ここでは重要な役割を果たした多くのアルゴリズムについて触れていないことをお詫び申し上げます。しかし、この短い要約がデータサイエンスの30年後の現在の状況についてより深い理解を提供できれば幸いです！

参考文献

[1] Rumelhart, D.E.; Hinton, G.E.; Williams, R.J. (1986). “Learning representations by back-propagating errors”. Nature, 323, p. 533-536.

[2] Werbos, P.J. (1988). “Generalization of backpropagation with application to a recurrent gas market model”. Neural Networks. 1 (4): 339–356. doi:10.1016/0893-6080(88)90007

[3] Hochreiter, S.; Schmidhuber, J. (1997). “Long Short-Term Memory”. Neural Computation. 9 (8): 1735–1780.

[4] Quinlan, J. R. (1993). “C4.5: Programs for Machine Learning” Morgan Kaufmann Publishers.

[5] Breiman, L. ; Friedman, J.; Stone, C.J.; Olshen, R.A. (1984) “Classification and Regression Trees”, Routledge. https://doi.org/10.1201/9781315139470

[6] Ho, T.K.（1995）。ランダム決定フォレスト。第3回国際文書解析と認識会議、モントリオール、QC、1995年8月14日〜16日。pp. 278-282

[7] Friedman, J.H.（1999）。”グリーディ関数近似：勾配ブースティングマシン、レイツ講演

[8] Mason, L.；Baxter, J.；Bartlett, P.L.；Frean, Marcus（1999）。”勾配降下としてのブースティングアルゴリズム”。S.A. Solla、T.K. Leen、K. Müller（編）。ニューラル情報処理システム12の進歩。MIT出版。pp. 512-518

[9] Agrawal, R.；Srikant, R（1994）連想ルールのマイニングのための高速アルゴリズム。第20回国際データベース会議、VLDB、ページ487-499、サンティアゴ、チリ、1994年9月。

[10] Breese, J.S.；Heckerman, D.；Kadie C.（1998）「協調フィルタリングのための予測アルゴリズムの経験的分析」、不確実性のある人工知能（UAI1998）に関する第14回会議の論文集

[11] Ciresan, D.；Meier, U.；Schmidhuber, J.（2012）。”画像分類のためのマルチカラム深層ニューラルネットワーク”。2012年IEEEコンピュータビジョンとパターン認識会議。pp. 3642-3649. arXiv：1202.2745。doi：10.1109/cvpr.2012.6248110。ISBN 978-1-4673-1228-8。S2CID 2161592。

[12] Krizhevsky, A.；Sutskever, I.；Hinton, G.（2012）。”深層畳み込みニューラルネットワークを用いたImageNet分類”。NIPS 2012：ニューラル情報処理システム、ネバダ州レイクタホ。

[13] Hinton, G.E.；Osindero, S.；Teh, Y.W.（2006）「ディープベリーフネットの高速学習アルゴリズム」。ニューラル計算2006; 18（7）：1527-1554。doi：https://doi.org/10.1162/neco.2006.18.7.1527

[14] Wirth, R.；Jochen, H.（2000）「データマイニングのための標準プロセスモデルへのCRISP-DM」。実用的な知識発見とデータマイニングの第4回国際会議の論文集（4）、pp. 29-39。

[15] Berthold, R.M.（2021）「データサイエンスを製品化する方法」、KNIMEブログ Rosaria Silipoは、データマイニング、機械学習、レポート作成、データウェアハウスに関してだけでなく、KNIMEデータマイニングエンジンの認識された専門家となり、KNIME初心者の運、KNIMEクックブック、およびSASユーザーのためのKNIMEパンフレットの3冊の本を出版しています。以前、Rosariaはヨーロッパの多くの企業に対してフリーランスのデータアナリストとして働いていました。また、Viseca（チューリッヒ）でSAS開発グループをリードし、Spoken Translation（カリフォルニア州バークレー）でC#で音声からテキスト、テキストから音声のインターフェースを実装し、Nuance Communications（カリフォルニア州メンロパーク）でさまざまな言語で音声認識エンジンを開発しました。Rosariaは1996年にイタリアのフィレンツェ大学で生体医工学の博士号を取得しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Data science

Was this article helpful?

93 out of 132 found this helpful

「データサイエンス30年：データサイエンス実践者からのレビュー」

アルゴリズム

ライフサイクル

ツール

結論

参考文献

Was this article helpful?

これら5つの必須ステップを踏まずにデータサイエンスの旅を始めないでください- Spotifyのデータサイエンティストの完全ガイド

声サンプルデータ分析を使用したパーキンソン病の診断：特徴選択

データサイエンス