Epoch AI 的研究團隊最近發表了一篇有趣的論文,他們試圖複現 Hoffmann 等人在 2022 年提出的 Chinchilla 擴展定律。這個定律對於指導語言模型的訓練資源配置有著重要的參考價值。
https://arxiv.org/abs/2404.10102
Hoffmann 的團隊比較了三種方法來尋找最優的模型大小和訓練數據量的配比,其中一種是擬合一個參數化的損失函數。通過這個函數,可以直接推導出在給定計算預算下,應該如何平衡模型大小和數據量。這個定律本身在理論上就很有意思,引起了不少學者的關注。
但是,Epoch AI 的研究者發現,Hoffmann 的結果可能沒那麼可靠。由於原始資料不可得,他們只能從論文中的一張圖表著手,重建了一部分資料集。按照 Hoffmann 的方法去擬合參數,得到的結果與論文報告的數值差異很大。就算考慮到數據重建可能引入了一些誤差,擬合曲線與真實數據點的偏離也超出了合理的範圍。
此外,Hoffmann 給出的模型參數估計的置信區間極其狹窄,Epoch AI 計算出它們的寬度只有自己估計值的 1/50。要得到如此高的精度,大概需要幾十萬次的實驗,而 Hoffmann 的論文裡只提到了四百多個模型。
更令人疑惑的是,Hoffmann 估計出的最優 tokens/parameters 比例在 70 左右,但他們訓練 Chinchilla 模型時實際使用的卻是 20。這個結果也與論文中其他兩種方法得出的結論不一致。相比之下,Epoch AI 重新估計的參數得到的最優比例約為 20,反而與 Chinchilla 的實際設置和其他方法的結果更加吻合。
綜上所述,Epoch AI 的研究對 Hoffmann 的 Chinchilla 定律提出了質疑,認為其在統計擬合和蘊含的最優策略方面都存在一些問題。當然,這也可能是由於論文在繪製數據圖表時出現了失誤,導致重建數據時產生了偏差。無論如何,Hoffmann 的結果還需要進一步的驗證和澄清。
考慮到 Chinchilla 定律對於業界的重要影響,這一問題值得引起重視。許多研究者和工程師都參考了該定律來指導大模型的訓練,如果其中存在缺陷,可能會導致算力的浪費。因此,更多的複現和交叉驗證工作是非常必要的,只有經過嚴格的學術審視,才能確保研究成果的可靠性。
另一方面,Epoch AI 的分析也揭示了尋找最優配置策略的困難。在一個較大的計算預算區間內(如$10^{26}$~$10^{28}$ FLOP),tokens 和參數的最佳比例可能會在 4 到 40 這個範圍內波動。如果能進一步縮小這個區間,或許就能節省下可觀的計算開銷。
根據 Chinchilla 定律,對於計算資源最優的訓練方式,模型參數量應該與訓練 tokens 數同步增長,即每當模型大小翻倍,訓練數據量也應翻倍。這一洞見對業界產生了顯著的影響。許多知名的語言模型,如 Google 的 Gemini 系列,都參考了 Chinchilla 定律來設計訓練方案。可以說,它在一定程度上指引了近年來大模型的發展方向。
然而,Epoch AI 最近的一項複現研究對 Chinchilla 定律提出了質疑。他們發現,Hoffmann 的參數擬合結果很難在重建的數據集上複現,得到的最優 tokens/parameters 比例與實踐中的設置差異較大。這引發了人們對 Chinchilla 定律可靠性的討論。
儘管還需要更多的驗證和澄清,但 Epoch AI 的工作提醒我們,即便是有影響力的研究成果,也需要保持審慎的態度。盲目地遵循某個定律,而不考慮其適用性和局限性,可能會導致算力的浪費,甚至模型性能的損失。
另一方面,Epoch AI 的分析也揭示了尋找最優訓練策略的複雜性。在不同的計算預算區間內,最佳的 tokens/parameters 比例可能會有較大的波動。這意味著,Chinchilla 定律給出的 "20:1" 的經驗法則可能並非放之四海而皆準。對於不同的模型架構、數據領域和目標任務,可能需要進一步調整和優化這個比例。
Chinchilla 定律作為一個先驅性的工作,為大語言模型的訓練提供了寶貴的見解。它促使研究者和從業者更加深入地思考計算效率問題,並在實踐中不斷探索最優的資源配置策略。然而,我們也需要認識到,任何定律都有其適用範圍和局限性。隨著技術的發展和認知的深入,對 Chinchilla 定律的理解和應用也需要與時俱進。
沒有留言:
發佈留言