「模倣モデルとオープンソースLLM革命」

「模倣モデルとオープンソースで革新するLLM」

專有的LLMs像ChatGPT和GPT-4是否易於複製?

(由Tanbir Mahmud在Unsplash上的照片)

LLMA套件[2]中大型語言模型(LLMs)的提議引發了關於開源LLMs的諸多出版物的激增。在很多情況下,這些作品的目標是廉價生產與ChatGPTGPT-4等專有模型具有可比質量的小型開源LLMs(供研究用途)。這些模型採用模仿策略,通過從更強大的LLM所提供的合成對話數據來微調基礎LLM。儘管訓練成本低廉,這些模型似乎表現與ChatGPT等專有LLMs相當。因此,深度學習研究界迅速接受了開源LLMs將主宰未來的觀點 – 複製開源版本的專有模型既容易又划算!

“最強大的LLMs是封閉源碼還是免費分發供任何人使用、修改和擴展?”— 參考文獻[1]

不幸的是,對這些模型進行的初步評估是相對簡略的,依賴於其他LLMs(例如GPT-4)或人工群體工作者提供的評分。模仿模型的性能是否真的與ChatGPT之類的模型相匹配?為了更嚴謹地回答這個問題,我們將研究最近的研究,分析模仿模型是否真正消除了專有LLMs周圍的“護城河”。有趣的是,我們將看到這些功能強大的LLMs的廉價復制品在人類評估中表現良好,因為它們能夠學習到強大LLMs的風格。然而,它們在面對更廣泛和有針對性的評估時,缺乏事實性且表現不佳。實際上,模仿模型的表現遠不及ChatGPT等專有模型。

(來自參考文獻[1])

模型模仿

“模型模仿的前提是,一旦一個專有的LM通過API提供,就可以收集API輸出的數據集並用它來微調開源LM。”— 參考文獻[1]

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more