code window

2024年4月29日星期一

Transformer的「二次障礙」

 近期,在多位AI領域大佬的演講中,都提到了一個共同的問題:電力短缺。隨著AI技術的快速發展,尤其是大語言模型的出現,對算力和能源的需求呈指數級增長。然而,現有的電網基礎設施難以滿足如此龐大的電力需求。正如馬斯克所預測,在晶片短缺緩解後,電力短缺問題將接踵而至。

OpenAI執行長Sam Altman認為,能源問題是AI發展的第一性原理,而AI則是能源的無底洞。在可控核融合實現之前,能源短缺可能成為AI發展的瓶頸。

當前主流的AI大模型,如ChatGPT、Gemini、Claude等,大多基於Transformer架構。Transformer的強大之處在於其自注意力機制(Self-Attention)和前饋神經網路(FFN)能夠捕捉文字資料中的複雜模式和長距離依賴關係。

然而,Transformer在處理長序列時存在計算複雜度的問題。隨著輸入序列長度的增加,Self-Attention的計算量呈現二次增長。意味著輸入序列長度越長,模型的計算資源消耗就越高,從而導致能源消耗的急劇上升。儘管當前已有一些針對注意力機制的最佳化方法,如Flash Attention、Grouped-Query Attention等,但它們並未從根本上解決Transformer的二次複雜度問題。

潛在的解決方案:

1. 混合體架構

為了克服Transformer的「二次障礙」,研究者提出了各種注意力機制的變體和混合體架構。其中,Jamba架構透過將Mamba結構化狀態空間模型(SSM)與Transformer相結合,在保持模型性能的同時,大幅降低了計算成本。這種權衡的方式為優化模型效能提供了新的思路。

2. 混合專家(MoE)技術

混合專家(Mixture of Experts, MoE)技術透過將模型分解為多個專家子模型,並在推論過程中只啟動部分專家,從而減少不必要的計算,提高模型的計算效率。目前,MoE已成為新發布的大型語言模型中的常見設計。例如,GPT-4、Gemini 1.5、Mixtral 8x7B和Jamba都採用了MoE架構。

傳統的MoE模型仍面臨知識混合和冗餘的問題。Deepseek提出了一種新型的MoE架構,透過增加專家數量、引入共享專家等方式,進一步提升了模型的性能和效率。實驗結果表明,DeepSeekMoE在保持優異性能的同時,計算成本僅為原先的約40%。

3. 資料工程的進步

資料品質對於模型性能的影響至關重要。Meta最新發布的Llama-3模型,在架構不變的情況下,透過增加資料量和提高資料品質,實現了顯著的效果提升。這凸顯了資料工程在大模型訓練中的重要性。

透過資料篩選、清洗、增強等手段,可以在相同計算資源下獲得更好的模型效果。此外,對不同來源資料的混合比例進行探索和優化,有助於提升模型的泛化能力和適用性。因此,加強資料工程,提高資料品質,是提升模型效能和減少資源浪費的重要途徑。

對人類來說,思考模式跟 Attention 機制不太一樣。Attention 是在一個很長的上下文裡,去找出之前出現過的某些關鍵詞 (Token)。但人類的思考可沒那麼制式化。以目前的模型架構來看,其實還有很大的進步空間。

像Transformer 就很難去實現人類擁有的某些能力。舉例來說,工作記憶就是一個很好的例子。人類做某件事情久了,就會越做越上手,但 Transformer 就很難學會這一點。

空間記憶也是一樣。人類第一次到一個地方可能會暈頭轉向,但去多了之後,就會知道哪條路最近、最方便。但 Transformer 對這種記憶好像就有點無從下手。

所以,Transformer 再厲害,終究還是有些先天上的缺陷和侷限性。

沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

摘要 GPT-4等整體式大型語言模型(LLM)為現代生成AI應用鋪路。然而,大規模訓練、服務及維護整體式LLM仍然極其昂貴和充滿挑戰。現代AI加速器計算能力與記憶體比例的不成比例增長已經造成了記憶體壁障,需要新的方法來部署AI。最近的研究顯示,許多小型專家模型的組合,每個模型參數...