code window

2024年4月30日星期二

低稚量化對LLMa3效能的影響

這篇論文主要是在研究 Meta 最新推出的 LLAMA3 語言模型,在進行低位元量化之後,性能會受到什麼樣的影響。LLAMA3 模型經過大量的預訓練後表現非常優秀,但是在資源有限的情況下使用還是會遇到困難。低位元量化技術可以減少語言模型在推理時所需的記憶體和運算量,讓它能在性能較差的設備上運行。這項研究想要分析 LLAMA3 模型在量化後性能下降的問題。

研究中使用了兩種主要的技術方向來量化 LLAMA3 模型:訓練後量化和 LoRA 微調量化。實驗涵蓋了從 1 位元到 8 位元的不同量化程度,並使用了多樣化的資料集來評估性能,例如 WikiText2、C4、PTB、常識問答資料集和 MMLU 基準測試。

在訓練後量化方面,研究評估了 8 種不同的量化方法在 LLAMA3-8B 和 LLAMA3-70B 模型上的表現。

訓練後量化:

  • Round-To-Nearest (RTN): 基礎的四捨五入量化方法。
  • GPTQ: 利用錯誤補償的權重量化方法。
  • AWQ: 透過壓制異常通道減輕權重量化難度。
  • QuIP: 優化權重和Hessian矩陣的非相干性。
  • DB-LLM: 雙重二值化和偏差感知蒸餾策略。
  • BiLLM: 進行重要權重的殘差逼近和非重要權重的分組量化。
  • SmoothQuant: 將量化困難從激活轉移到權重,以平滑激活異常值。

LoRA微調量化:

QLoRA 和 IR-QLoRA: 結合低秩微調技術和量化的方法,專門用於4位元量化。

評估資料

使用多個資料集來評估量化模型的性能:

  • 訓練後量化: 使用WikiText2、C4、PTB進行基礎性能評估,以及PIQA、Winogrande、ARC-e、ARC-c 和 Hellaswag進行零樣本評估。
  • LoRA微調量化: 使用MMLU資料集進行性能評估,同時也在上述零樣本資料集上進行測試。

實驗結果

訓練後量化

不同的量化方法在LLAMA3-8B和LLAMA3-70B模型上展現出不同的性能表現。在低至1到2位元設置中,如DB-LLM和BiLLM方法能夠較好地保持性能,而GPTQ和AWQ在極低位元下表現不佳。在零樣本任務上,大多數量化方法的性能同樣顯示下降,特別是在較低位元設定下。

LoRA微調量化

在MMLU資料集上,LoRA-FT方法未能彌補量化引起的性能下降。特別是在4位元設置中,與未進行LoRA-FT的模型相比,性能明顯下降。零樣本任務中的表現也顯示了類似的下降趨勢。


結果顯示,即使在極低位元的情況下,專門為超低位元設計的量化方法,如 PB-LLM、DB-LLM 和 BiLLM,仍然能在 LLAMA3-8B 模型上取得較高的準確率。而且,LLAMA3-70B 模型對各種量化方法都展現出相當的穩健性。 

在 LoRA 微調量化部分,研究使用了 QLoRA 和 IR-QLoRA 兩種方法對 LLAMA3-8B 模型進行 4 位元量化。但在 MMLU 資料集上,低秩微調不僅無法彌補量化造成的誤差,反而讓性能下降得更嚴重。這與之前在 LLAMA1 和 LLAMA2 上觀察到的現象大不相同。不過,4 位元 LoRA 微調量化後的 LLAMA3-8B 模型,性能還是明顯優於 LLAMA1-7B 和 LLAMA2-7B 的量化版本。

https://arxiv.org/pdf/2404.14047

我的個人看法

LLAMA3模型在低位元量化後仍然保持一定的性能,但與未量化的原始模型相比,性能的下降仍然明顯。這一結果強調了在資源受限的環境中部署LLAMA3時所面臨的挑戰,並指出了低位元量化技術在未來的改進與發展潛力。本研究的結果不僅加深了我們對於量化LLAMA3模型的行為的理解,同時也為量化技術的未來研究方向提供了寶貴的實證見解。

總的來說,研究發現雖然 LLAMA3 模型在量化後性能仍然很好,但量化確實會導致明顯的性能下降,在許多情況下甚至會造成更大幅度的性能下滑。這凸顯了在資源受限環境中部署 LLAMA3 的潛在挑戰,也顯示低位元量化技術還有很大的改進空間。這項研究的實證結果,對於未來大型語言模型量化技術的發展有重要的參考價值,特別是在縮小量化模型與原始模型之間的性能差距方面。如果能解決低位元量化導致的性能下降問題,我們可以期待未來的量化方法能讓大型語言模型以更低的計算成本發揮更強大的能力。

此外,這項研究亦顯示,針對如LLAMA3這樣的大型預訓練模型,即便是先進的量化技術也可能無法完全彌補由於位元數減少而造成的性能損失。因此,開發更有效的訓練後量化方法和微調技術,特別是那些能夠對特定應用進行優化的方法,將是推動未來研究的關鍵。

沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

摘要 GPT-4等整體式大型語言模型(LLM)為現代生成AI應用鋪路。然而,大規模訓練、服務及維護整體式LLM仍然極其昂貴和充滿挑戰。現代AI加速器計算能力與記憶體比例的不成比例增長已經造成了記憶體壁障,需要新的方法來部署AI。最近的研究顯示,許多小型專家模型的組合,每個模型參數...