この人工知能ベースのタンパク質言語モデルは、汎用のシーケンスモデリングを解除します

This AI-based protein language model unlocks general sequence modeling.

人々が生命の言語を学ぶ方法は、自然言語の構文意味とタンパク質のシーケンス機能を比較することによって根本的に変わりました。この比較は、NLPのプロテインドメインへの応用を向上させた歴史的なマイルストーンとしての固有の価値を持っていますが(言語モデルなど)、NLPの領域の結果は完全にプロテインの言語に翻訳されているわけではありません。NLPモデルのサイズをスケーリングアップするだけでなく、プロテインの言語モデルのスケーリングアップは、NLPモデルのサイズをスケーリングアップするよりもはるかに大きな影響を与える可能性があります。

巨大なパラメータ数で訓練された言語モデルが多数のステップで訓練を受けても、まだ学習グラデーションが顕著であり、過適合と見なされる傾向があります。そのため、モデルのサイズと学習された表現の豊かさとの間に比例関係があるという誤解が生じます。その結果、より正確または関連性のあるプロテイン表現を選択することは、徐々により大きなモデルを選択することに変わってきています。これには、より多くの計算能力が必要であり、したがってアクセスしにくくなります。特に、PLMのサイズは最近106から109のパラメータに増加しました。彼らは、ProtTransのProtT5-XL-U50を利用して、UniRef50データベースで事前に訓練されたエンコーダーデコーダートランスフォーマを使用して、トレーニング用のパラメータが3B、推論用のパラメータが1.5Bであるサイズパフォーマンスのベンチマークを基にしています。これにより、プロテイン言語モデルの最新の最先端技術が明らかになりました。

プロテイン配列モデリングのスケーリング原則を開発するために、その方向性の第一歩であるRITAファミリーの言語モデルを使用して、モデルのパフォーマンスがサイズによってどのように変化するかを示しました。RITAは、85Mから300M、680M、1.2Bのパラメータに比例してサイズが増加する4つの代替モデルを提供します。同様のパターンが後にProGen2によって確認されました。これは、さまざまなシーケンシングデータセットでトレーニングされ、6.4Bのパラメータを含むプロテイン言語モデルのコレクションです。最後に、この研究が公開された時点では、ESM-2は、650Mから3B、15Bのパラメータに比例してサイズが増加する一般的なプロテイン言語モデルの調査であり、モデルのスケーリングアップを推奨する最新の追加です。

より大きくて明らかに優れたPLMの間にある単純な関係は、コンピューティングコストやタスクに依存しないモデルの設計と展開など、いくつかの要素を無視しています。これにより、革新的な研究への参入のハードルが高くなり、スケールする能力が制限されます。モデルのサイズは確かに上記の目標の達成に影響を与えることは疑いようがありませんが、それが唯一の要素ではありません。同じ方向に向けた事前訓練データセットのスケーリングは条件付きであり、つまり、より大きなデータセットが常により品質の高い小さなデータセットよりも好ましいわけではありません。彼らは、言語モデルのスケーリングアップは条件付きであり、最適化のためのプロテインの知識によってガイドされた手段の小さなモデルよりも大きなモデルが必ずしも優れているわけではないと主張しています。

この研究の主な目標は、知識による最適化を反復的な経験的フレームワークに組み込み、実用的なリソースを通じて研究のイノベーションへのアクセスを促進することです。彼らのモデルは、その「文字」であるアミノ酸のより良い表現を学ぶことによって、生命の言語を「解放」するためのものであり、そのために彼らのプロジェクトを「アンク」と名付けました(生命の鍵を示す古代エジプトの記号に言及しています)。これは、アンクの一般性と最適化を評価するための2つの証拠としてさらに開発されています。

High-N(ファミリーベース)およびOne-N(シングルシーケンスベース)のアプリケーションにおけるプロテインエンジニアリングのための世代研究は、入力シーケンスの数であるNの範囲の構造と機能のベンチマークのパフォーマンスを上回るための第一歩です。第二のステップは、モデルのアーキテクチャだけでなく、モデルの作成、トレーニング、展開に使用されるソフトウェアやハードウェアなど、最適な属性の調査によってこのパフォーマンスを達成することです。アプリケーションのニーズに応じて、Ankh bigとAnkh baseという2つの事前訓練モデルを提供しています。それぞれ2つの計算方法を提供しています。彼らは、AnkhのフラッグシップモデルであるAnkh bigを便宜上Ankhと呼んでいます。事前訓練済みのモデルは、彼らのGitHubページで入手可能です。コードベースの実行方法も詳細に説明されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI研究論文は、視覚の位置推定とマッピングのための深層学習に関する包括的な調査を提供しています

もし私があなたに「今どこにいるの?」または「周りの様子はどうですか?」と尋ねたら、人間の多感覚知覚という独特な能力の...

データサイエンス

学ぶための勇気: L1&L2正則化の解明(パート3)

「‘MLの学びへの勇気:L1とL2正則化の解読’ 第3回目にお帰りなさい前回は、正則化の目的について掘り下げ、L1とL2の方法を解...

データサイエンス

LangChain:LLMがあなたのコードとやり取りできるようにします

生成モデルは皆の注目を集めています現在、多くのAIアプリケーションでは、機械学習の専門家ではなく、API呼び出しの実装方法...

データサイエンス

LangChain:メモリ容量でパフォーマンスを向上させる

私は以前にLangChainに関する記事をすでに公開しており、ライブラリーとその機能を紹介しました今回は、インテリジェントチャ...

データサイエンス

「ワードエンベディング:より良い回答のためにチャットボットに文脈を与える」

ワードエンベディングとChatGPTを使用してエキスパートボットを構築する方法を学びましょうワードベクトルの力を活用して、チ...

人工知能

「クロード2 AIチャットボットの使い方 - 新しいChatGPTの競合者」

イントロダクション 複数のAIチャットボットの中でも新たな競争相手、Claude 2に会いましょう。Anthropicによって開発されたC...