Snowflake 最近開源了他們的大型語言模型 Arctic,這個模型的規模達到了 480B,由一個 10B 的稠密模型和128個 3.66B 的專家模型組成,形成了一種混合架構。Arctic 在推理時只會同時啟用兩個專家,並且支援在單張 GPU 上使用 FP8 量化進行推理。在文本轉 SQL 的任務上,Arctic 展現出非常不錯的性能。
我覺得 Snowflake 的這個決定有好有壞。一方面,投入資源去搞開源語言模型,可能會分散他們對本業的注意力。但另一方面,Snowflake 最近換了新的領導團隊,在策略和 AI 人才招募上都有大動作,從這個角度來看,開發開源模型也算合情合理。
Arctic 的表現看起來比 Databricks 的 DBRX 和 Anthropic 的 Mistral 都要出色,再次證明了大型語言模型正在逐漸商品化。同時也證明了 Snowflake 新任 CEO 的工程實力確實不容小覷。
除了在訓練效率上下功夫,Snowflake 還特別強調 Arctic 在企業級應用場景下的性能優勢,甚至超越了 Llama 3 這樣的勁敵。相比起 Databricks 更專注於效率,Snowflake 的思路似乎更全面,在企業級應用資料的收集上也下了不少功夫。這可能會成為 Arctic 的一大賣點。
Arctic 是目前規模最大、結構最複雜的開源語言模型,光參數量就高達 480B,採用了密集和稀疏混合的架構,內部包含了128個專家模型,每個專家模型的規模達到 3.66B。為了兼顧推理效率,Arctic 在推理時只會啟用其中兩個專家模型。儘管總體規模非常龐大,但這種設計還是很巧妙的。
有意思的是,Snowflake 特別強調了 Arctic 在訓練效率上的優勢。但我覺得這一點還難說,因為 Meta 完全可以靠超大的算力橫掃整個賽場,根本不需要搞什麼特別的模型結構優化。Meta 家馬上就要來600多個 H100 的算力了,搞不好直接靠暴力堆算力和規模就贏了,根本不需要跟你比效率。這又要重蹈"痛苦教訓"的覆轍了。
還有一點值得留意的是,Snowflake 在優化推理效率上與 Nvidia 進行了非常緊密的合作,使用了 Nvidia 的 NIMS 和 TensorRT-LLM 技術。看樣子業界對 NIMS 的接受度還挺高的。
通過 FP8 量化,Arctic 可以塞進一張 GPU 裡進行推理。雖然優化還不完全,但在批量為1的情況下,Arctic 每秒鐘就可以吐出70多個 token,已經可以實現不錯的互動體驗了。
再看看基準測試的結果,Llama 3 70B 靠著海量的訓練數據和算力,無需額外微調就在專門的任務上追平了 Arctic 的表現。這又一次印證了規模定律 - 更多的數據加更多的算力依然管用。
Databricks 的 DBRX 132B 模型在3000個 H100 上訓練了2-3個月,使用了12萬億個 token。
考慮到 DBRX 132B 的規模比 Mistral 和 LlaMA 大約多佔用一倍的記憶體,在 MMLU 基準測試上並沒有明顯的領先優勢。
特別強調了在程式碼任務上的優勢 (主要是為了在文本轉SQL任務上與 Snowflake 競爭?)。
但仍然落後於 Mistral 和 Anthropic 的私有模型。DBRX 相比 MPT 的性能提升主要來自更好的訓練數據和借鑑 GPT-4 的分詞器,以及 MoE 架構。
DBRX 採用了 Databricks 自家的技術棧,這可能是第一個在商業上可用,並且經過驗證用於訓練頂尖開源語言模型的完整技術棧。對 Databricks 的go-to-market策略應該大有裨益。
特別強調了訓練和推理效率。在8比特量化下,推理速度可達每秒150個 token。由於啟用的參數更少,生成速度更快,但更大的模型規模也增加了成本。綜合來看,與 LLaMA 70B 的成本相當。
DBRX 132B 的表現相當亮眼,但領先優勢並不明顯。Meta LLaMA 3 是在 32000個 H100 集群上訓練的。
Arctic 的表現可以說是相當亮眼了。要知道 Databricks 可是砸了 15T 的訓練 token 和更多的算力,但模型性能卻不如 Arctic。感覺 Databricks 是為了宣傳而故意浮誇了訓練數據量,要不就是在數據處理和管理上確實不如 Snowflake 和 Meta。
最後,Snowflake 還表示他們微調過的 Arctic 在 MTEB 檢索任務上達到了業界最佳水平。這意味著他們將開源市面上最強的 RAG 語言模型。這一點相當值得期待,畢竟在這個 GenAI 當道的年代,對於數據服務平台來說,RAG 絕對會是一個核心的應用場景。
沒有留言:
發佈留言