code window

2024年5月3日星期五

Prometheus 2: 一個專門評估其他語言模型的開源語言模型(續集)

跟電影一樣, 普羅米修斯的續集來了。

專有的語言模型如 GPT-4 經常被用來評估來自各種語言模型的回應品質。然而,透明度、可控制性和可負擔性等考量強烈促使開發專門用於評估的開源語言模型。另一方面,現有的開源評估語言模型表現出關鍵的缺點:1) 它們給出的分數與人類給出的分數存在顯著差異,以及 2) 它們缺乏靈活性來執行直接評估和成對排序,這是最普遍的兩種評估形式。此外,它們沒有根據自訂評估標準進行評估的能力,而是專注於一般屬性,如有幫助性和無害性。為了解決這些問題,本文介紹了 PROMETHEUS 2,一個比其前身更強大的評估語言模型,它能密切模仿人類和 GPT-4 的判斷。此外,它能夠處理直接評估和成對排序兩種格式,並配合使用者定義的評估標準。在四個直接評估基準和四個成對排序基準上,PROMETHEUS 2 在所有測試的開源評估語言模型中,與人類和專有語言模型評判者取得最高的相關性和一致性。本文的模型、程式碼和資料都是公開可用的。

repo: https://github.com/prometheus-eval/prometheus-eval

abs: https://arxiv.org/abs/2405.01535

背景

評估語言模型(LM)產生的輸出品質正逐漸變得困難,因為輸出涵蓋了極其多樣化的文本和複雜任務。為了解決這個問題,基於語言模型的評估已成為評估 LM 生成文本的一種可擴展和便宜的範式(Li et al., 2024; Gao et al., 2024)。在這個範式中,LM 要麼被提示輸出一個品質的標量指標(稱為直接評估),要麼確定哪一個輸出是優選的(稱為成對排序)。先前採用專有 LM 作為評估器的工作不僅表現出與人類評估的高度相關性,而且還提高了速度和成本效益。



然而,依賴專有 LM 進行評估會帶來重大挑戰。關於其訓練資料的透明度缺乏損害了公平性和合規性,使它們在評估管道中的使用存在問題。此外,關於可控制性和可負擔性的顧慮也依然存在。為了解決這些問題,最近的工作專注於開發開放存取、透明和可控制的評估 LM。然而,這些模型通常產生的評分決策與人類判斷或專有 LM 做出的判斷相關性不夠高,無法有效模擬它們。此外,開放評估 LM 缺乏靈活性,因為它們通常只訓練用於執行直接評估或成對排序,並且基於一般公眾偏好(如有幫助性和無害性)進行評估,限制了它們處理多樣化真實場景的能力。



為了縮小與專有語言模型的差距,本文的作者們研究了統一兩種基於模型的評估範式 - 直接評估和成對排序,以訓練一個穩健的統一評估語言模型。他們提出了一個方法,透過合併兩個分別在直接評估和成對排序格式上訓練的評估語言模型的權重來實現。他們的關鍵實證觀察是,權重合併可以產生一個評估語言模型,不僅可以在兩種格式下工作,而且優於聯合訓練或只在單一格式上訓練的評估語言模型。 



為了展示他們的方法,作者們開發了 PREFERENCE COLLECTION,這是一個新的細粒度成對排序反饋資料集,它建立在直接評估反饋資料集 FEEDBACK COLLECTION 之上。他們選擇 Mistral-7B 和 Mixtral-8x7B 作為基礎模型,並合併分別在 FEEDBACK COLLECTION 和 PREFERENCE COLLECTION 上訓練的評估語言模型的權重,以獲得他們的最終模型 PROMETHEUS 2 (7B & 8x7B)。



在四個直接評估基準和四個成對排序基準上,與現有的開源評估語言模型相比,PROMETHEUS 2 模型展示了與人類評估者和專有語言模型評判者最高的相關性和一致性。在直接評估基準上,PROMETHEUS 2 模型的 Pearson 相關係數在所有資料集上都超過其他基準0.2 個單位。同樣地,在成對排序基準上,PROMETHEUS 2 模型在所有測試的開源評估語言模型中,展現了與人類評估者最高的一致性,並將與 GPT-4 的性能差距縮小了一半。

本文的貢獻可以總結如下:

  • 引入了 PROMETHEUS 2 (7B & 8x7B),這是最先進的開源評估語言模型,在直接評估和成對排序上都取得與人類評估者和專有語言模型評判者高度相關的分數。
  • 引入了一個成對排序反饋資料集,稱為 PREFERENCE COLLECTION,其中包括超過1000個評估標準,超越了有幫助性和無害性。  
  • 顯示了合併在直接評估和成對排序反饋資料集上訓練的評估語言模型的權重,可以得到一個在兩種方案中都表現出色的統一評估語言模型。


相關工作

基於語言模型的評估

為了評估語言模型的生成能力,先前的工作如 GEM 基準採用 Rouge、BLEU  和 BERTScore 作為它們的度量,這些度量衡量參考答案和回應之間的詞彙或語義相似性。然而,這些傳統的度量容易產生假陰性,因為它們沒有足夠的表達能力來識別品質好但與參考答案不同的回應。

最近,採用語言模型作為評判已經受到關注,成為模仿人類評估的深度和粒度的有前景的範式。為了減少對專有語言模型的過度依賴,後續工作建議訓練專門用於評估的語言模型。然而,開放評估語言模型在不同評估方案中缺乏靈活性,與專有語言模型相比表現出較弱的評估性能。本文旨在通過引入 PROMETHEUS 2 來彌合這一差距。


權重合併  

先前的工作已經證明,權重合併可以提高跨各個領域的性能,包括語言建模、指令調整和與用戶偏好對齊。在本文中,作者們特別關注提高開放評估語言模型的評估能力。透過合併在不同評估格式上訓練的模型,即直接評估和成對排序,作者們旨在獲得一個評估語言模型,不僅可以在兩種格式下工作,而且表現出與專有語言模型一樣好的評估性能。



方法  

作者們提出了一個新的方法來訓練統一評估語言模型,基於合併分別針對直接評估和成對排序訓練的模型的權重。他們首先介紹直接評估和成對排序的背景知識,然後是訓練數據的構建過程(第3.3節)。最後,他們介紹了訓練最先進的評估語言模型 PROMETHEUS 2 的方法(第3.4節)。



作者們介紹了 PREFERENCE COLLECTION,這是第一個包含超過1000個實例級評估標準的成對排序反饋資料集,超越了基本品質,如有幫助性和無害性。PREFERENCE COLLECTION 是通過對 FEEDBACK COLLECTION 應用兩個修改而構建的。首先,由於 FEEDBACK COLLECTION 為每個指令包含五個回應,每個回應對應1到5之間的評分決策,作者們將五個回應中的兩個配對,得到每個指令的十個組合。使用每個回應的現有評分決策,他們確定哪個回應更好,並為該對分配一個新的評分決策(即"回應A更好"或"回應B更好")。其次,為了為每對回應生成新的口頭反饋,作者們提示 GPT-4 識別兩個回應的共同點和差異點。作者們還進行了質量驗證過程,以確保 PREFERENCE COLLECTION 的質量。



作者們採用 Mistral-7B 和 Mixtral-8x7B 作為基礎模型,並合併分別在 FEEDBACK COLLECTION 和 PREFERENCE COLLECTION 上訓練的評估語言模型的權重,以獲得最終的 PROMETHEUS 2 模型。具體來說,他們採用線性合併的方式:


$$ θf inal = α × θd + (1 − α) × θp $$


其中 α 設為0.5。作者們還測試了其他合併技術,如 Task Arithmetic 合併、TIES 合併和 DARE 合併,並發現 DARE 合併在使用 Mixtral-8x7B 作為基礎模型時效果最好。



 


 實驗設置

作者們在八個基準上評估了評估語言模型的性能,包括四個直接評估基準(Vicuna Bench、MT Bench、FLASK 和 Feedback Bench)和四個成對排序基準(HHH Alignment、MT Bench Human Judgment、Auto-J Eval 和 Preference Bench)。在直接評估中,他們進行了基於參考的評估,將參考答案附加為輸入。他們使用 Pearson、Spearman 和 Kendall-Tau 作為性能度量,以衡量與參考評估者的評分相關性。在成對排序中,他們進行了無參考評估。根據人類給出的判斷,他們使用準確率作為度量,以衡量評估語言模型與人類之間的一致性。

作者們使用多種基準模型進行比較,包括提示基準、單一格式訓練的評估語言模型、聯合訓練的評估語言模型以及權重合併的 PROMETHEUS 2 模型。這些基準模型涵蓋了不同的模型尺度和訓練方法,以全面評估 PROMETHEUS 2 模型的性能。



實驗結果  

實驗結果顯示,PROMETHEUS 2 模型在直接評估和成對排序基準上都取得了顯著的性能提升。在直接評估基準上,PROMETHEUS 2 模型的評分決策與 GPT-4、Claude-3-Opus 和人類評估者的評分決策高度相關,無論參考評估者和基準如何,Pearson 相關係數都高於0.5。相比之下,基礎語言模型、單一格式訓練的語言模型和聯合訓練的語言模型與 GPT-4、Claude-3-Opus 和人類的相關性較低,大多低於0.5。值得注意的是,PROMETHEUS 2 模型在與專有語言模型的相關性上至少超過 Prometheus 和 Auto-J 0.2 個單位。此外,在 FLASK 基準上,雖然人類與 GPT-4 之間的相關性為0.679,但之前 Prometheus-13B 與人類的最高相關性為0.449,而 PROMETHEUS-2-8X7B 與人類的相關性達到了0.555,有效地將差距縮小了一半。

在成對排序基準上,PROMETHEUS 2 模型在所有四個基準上都取得了最高分數,表明它們能夠有效地模擬人類判斷。值得注意的是,雖然 HHH Alignment 是 Pair RM 的同域測試集,Auto-J Eval 是 Auto-J 的同域測試集,但 PROMETHEUS-2-8X7B 取得了更高的分數。這表明,用反饋數據訓練大型語言模型(即 Mixtral-8x7B)可能是獲得一個穩健的評估語言模型的有效策略,該模型可以超越其訓練數據進行泛化。此外,與現有的評估語言模型相比,PROMETHEUS 2 模型在異域測試集上至少將與 GPT-4 的性能差距縮小了一半。

除了獲得高相關性和準確性外,實現高一致性是評估語言模型的另一個重要方面。具體來說,作者們進行了一項實驗,測試評估語言模型是否能在不同的評估格式下給出一致的分數。為此,他們使用成對排序基準,並測量在直接評估格式和成對排序格式下提示時的性能差異。結果表明,PROMETHEUS 2 模型在評估格式之間表現出較低的性能差異,表明它們具有穩健性。

討論

為了理解權重合併方法在評估語言模型中的有效性,作者們提出了三個研究問題:

• RQ1:權重合併是否比聯合訓練更有效?(第6.1節) 

• RQ2:權重合併的有效性是否是由於模型集成?(第6.2節)

• RQ3:直接評估和成對排序之間的學習在多大程度上相互促進?(第6.3節)

令人驚訝的是,作者們發現,通過聯合訓練訓練的評估語言模型的性能往往低於單一格式訓練的評估語言模型,這表明存在負遷移。具體而言,僅在直接評估格式上訓練的評估語言模型在不同模型尺度下獲得更高的相關性。類似地,僅在成對排序格式上訓練的評估語言模型在使用 Mixtral-8x7B 作為基礎模型時,獲得更高的平均準確率。

另一方面,通過權重合併訓練的評估語言模型不僅與聯合訓練的評估語言模型相比表現出優越的性能,而且與單一格式訓練的評估語言模型相比也是如此,這表明存在正遷移。此外,儘管兩者都互惠互利,但合併成對排序評估語言模型的權重比反向操作更能顯著提高直接評估性能。

為了探索權重合併的有效性是否是由於模型集成的效果,作者們進行了一個消融實驗,訓練多個評估語言模型,並將它們合併。結果表明,在大多數情況下,合併在相同評估格式上訓練的評估語言模型並不能提高評估性能。相反,通過合併分別在直接評估和成對排序格式上訓練的兩個評估語言模型,得到的評估語言模型在不同設置下表現出優越的性能。這表明,權重合併帶來的正遷移來自統一不同的評估格式,而不是通過集成多個模型。  

為了探索直接評估反饋數據如何影響成對排序準確性,反之亦然,作者們通過調整線性合併期間的 α 值進行了實驗。結果表明,對於直接評估基準,當 α 設置為0.5時,評估語言模型獲得最佳性能。這間接表明,成對排序和直接評估反饋數據都同等重要。另一方面,對於成對排序基準,當 α 設置為0.3時,性能最佳。這也間接意味著,雖然兩者都相互有益,但成對排序訓練比反向操作更能顯著提高直接評估性能。


 我的觀點

本文介紹了 PROMETHEUS 2,這是一個專門用於評估其他回應的開源語言模型。與現有的開源評估語言模型不同,PROMETHEUS 2 模型能夠有效地處理直接評估和成對排序(最普遍的兩種評估方案),在這兩種方案上都表現出優越的性能和一致的結果,顯著縮小了與專有語言模型評估的差距。為了訓練 PROMETHEUS 2 模型,作者們開發了 PREFERENCE COLLECTION,這是第一個包含超過1000個實例級評估標準的成對排序數據集,超越了基本品質,如有幫助性和無害性。值得注意的是,作者們發現合併在直接評估或成對排序格式上訓練的評估語言模型的權重,可以得到一個表現出色的統一評估語言模型。作者們希望這項工作能鼓勵更多關於使用開源語言模型作為評估器的研究,從而擺脫對專有模型進行公平和可及的評估的依賴。

總的來說,這項研究的貢獻是相當重要和有價值的。PROMETHEUS 2 模型在多個基準上優於現有的開源評估語言模型,展現了提出的權重合併方法的有效性。作者們還深入探討了權重合併方法背後的原因,提供了有見地的分析。這項研究的結果對於開發更強大、更靈活的開源評估語言模型具有重要意義。它為未來在這個領域的研究提供了一個有前景的方向。隨著越來越多的語言模型被開發出來,擁有一個穩健、可靠的評估語言模型將變得越來越重要。這項研究朝著這個目標邁出了重要的一步。

沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

摘要 GPT-4等整體式大型語言模型(LLM)為現代生成AI應用鋪路。然而,大規模訓練、服務及維護整體式LLM仍然極其昂貴和充滿挑戰。現代AI加速器計算能力與記憶體比例的不成比例增長已經造成了記憶體壁障,需要新的方法來部署AI。最近的研究顯示,許多小型專家模型的組合,每個模型參數...