我今天在ICLR學到一個很有趣的術語,叫做證據順序(order of evidence)。
在檢索增強生成(Retrieval-Augmented Generation, RAG)的過程中,技術團隊會將檢索到的前幾名文件作為證據,並提示(prompt)給大型語言模型(Large Language Models, LLMs)。通常提示的順序是基於餘弦相似度(cosine similarity)的:匹配度最高的文件總是最先被提示。
然而,不同的大型語言模型可能對證據的順序有不同的「偏好」:
1. ChatGPT偏好排名最前面的證據,這很好。
2. GPT-4對證據的順序沒有偏好,這意味著相似度分數並沒有被考慮,你只需要決定前K個證據,所有證據都會被平等對待。
3. 令人驚訝的是,Llama2和PaLM偏好最後一個證據,所以你需要先反轉排名列表,然後再提示給大型語言模型:)
該研究提出一個系統性的框架,用於引出大型語言模型的參數記憶(parametric memory),並構建相應的反記憶(counter-memory)。技術團隊設計了一系列檢查,如從參數記憶到答案的蘊涵(entailment),以確保引出的參數記憶確實是大型語言模型的內部信念。對於反記憶,該研究沒有採用啟發式地編輯參數記憶,而是直接指示大型語言模型生成一個與參數記憶在事實上相矛盾的連貫段落。
在獲得大量參數記憶和反記憶對之後,技術團隊接著檢查大型語言模型在不同的知識衝突情況下的行為,包括1)當只有反記憶作為外部證據時,以及2)當參數記憶和反記憶都存在時。該研究的調查揭示了大型語言模型看似矛盾的行為。一方面,與先前的觀點不同,該研究發現,如果外部證據是連貫且令人信服的,大型語言模型可以高度接受外部證據,即使那與它們的參數記憶相矛盾。另一方面,當存在一些與其參數記憶一致的信息時,儘管同時被提供相矛盾的證據,大型語言模型也表現出強烈的確認偏差(confirmation bias)。這些結果對進一步開發和部署工具增強型和檢索增強型大型語言模型提出了值得仔細考慮的重要啟示。可在以下網址找到相關資源:
https://github.com/OSU-NLP-Group/LLM-Knowledge-Conflict
$$MR=\frac{f_m}{f_m+f_c}$$,
(1)
其中\(f_m\)是參數記憶答案的頻率,\(f_c\)是反記憶答案的頻率。記憶率(memorization ratio)越高,表示大型語言模型越依賴其參數記憶,而記憶率越低則表示更頻繁地採用反記憶。
該研究進行了一系列實驗來探究大型語言模型在知識衝突下的行為。在單一證據的情況下,當反記憶是唯一呈現的證據時,技術團隊發現大型語言模型實際上對外部證據的接受度很高,即使它與其參數記憶相矛盾。這與先前的結論相矛盾,該研究認為這是因為通過其框架構建的反記憶更加連貫和令人信服。然而,這也表明大型語言模型可能很容易被誤導,例如來自惡意第三方工具的錯誤信息。
在多個證據的情況下,當同時存在支持其參數記憶和與之矛盾的證據時,大型語言模型表現出強烈的確認偏差,傾向於堅持其參數記憶。這揭示了大型語言模型在公正地協調多個相互矛盾的證據方面可能面臨挑戰,這是生成式搜索引擎常見的情況。此外,該研究表明,大型語言模型對證據的偏好受到證據的流行度(popularity)、順序(order)和數量(quantity)的影響,這些都可能不是工具增強型大型語言模型所希望的特性。
最後,該研究框架的有效性也表明,大型語言模型可以生成令人信服的錯誤信息,這帶來了潛在的道德風險。技術團隊希望他們的工作能為理解、改進和部署工具增強型大型語言模型提供一個可靠的評估基準和有用的見解。
該研究強調了一個嚴重的問題:大型語言模型可以被指示編造連貫且令人信服的虛假信息。這凸顯了如果不加以控制,這些模型可能被濫用的風險。作為研究人員,解決這一迫切問題是他們的責任。大型語言模型被濫用的風險需要強有力的保障措施和預防措施,這需要更廣泛的研究界共同努力。為此,技術團隊承諾謹慎分發通過其研究生成的數據,確保其僅用於研究目的。他們的目標是在最大限度地發揮大型語言模型所提供的益處的同時,降低風險。
該研究的實驗利用了三個通過API訪問的封閉源大型語言模型,以及五個開源的大型語言模型。為了提高可重複性,技術團隊在附錄C中包含了實驗中使用的提示(prompt)。關於封閉源大型語言模型的版本,他們在所有測試中使用了ChatGPT-0301、GPT-4-0314和PaLM2的Chat-Bison-001。
該研究還討論了其發現的更廣泛影響以及潛在的解決方案。高度接受性是一把雙刃劍。一方面,它意味著可以有效地補救大型語言模型的過時或不正確的參數知識,這對檢索增強生成等方法是有益的。另一方面,隨著大型語言模型越來越多地與外部工具連接,例如ChatGPT插件和最近的語言代理如AutoGPT,高度接受外部輸入引起了擔憂——大型語言模型可能很容易被來自惡意第三方工具的誤導或操縱信息所欺騙。
確認偏差是一個非常不受歡迎的特性,特別是對於生成式搜索引擎或大型語言模型的類似應用(例如多文檔摘要),在這些應用中,以公正的方式協調多個可能相互矛盾的信息非常重要。
在潛在的解決方案方面,對於高度接受性帶來的風險,應該採用驗證和監控系統,以防止第三方工具提供不當信息給大型語言模型。對於確認偏差,根據部署情景,通過微調(fine-tuning)或人類反饋強化學習(RLHF)進行進一步的調整以減少偏差可能是一個有前景的方向。最後,從生成式搜索引擎的角度來看,引用答案的來源並讓用戶更加知情,並判斷最終答案,可能是一種更可靠的方式。
總的來說,該研究對工具增強型大型語言模型在知識衝突下的行為進行了全面而受控的調查,揭示了一些看似矛盾但值得關注的特性。這些發現為進一步開發和部署此類系統提供了重要啟示,同時也引發了一些值得深思的道德問題。技術團隊希望他們的工作能夠為相關研究提供一個紮實的基礎,推動工具增強型大型語言模型朝著更加可靠、穩健的方向發展。
在該研究的附錄中,技術團隊提供了更多關於實驗設置的詳細信息。他們在每個步驟的數據集規模如表B.3所示。此外,他們還在表B.5中報告了不一致類型的分佈情況。表B.6展示了一些大型語言模型在答案不一致方面的示例。在表B.7中,技術團隊展示了最終數據集中的更多樣本。
在表B.8中,該研究展示了一些即使在僅給出反記憶證據的情況下,大型語言模型仍然固執地給出參數記憶答案的例子。通過人工仔細審查50個隨機選擇的樣本,技術團隊發現其中34個例子是由於反記憶中的歧義、導致無法接受反記憶的常識問題或高度暗示性的問題。這意味著只有一小部分大型語言模型在單一來源設置下對參數記憶表現出固執,再次證實了大型語言模型在此設置下保持開放。
技術團隊還探討了更複雜的知識衝突情景。他們感興趣的問題是:如果向大型語言模型提供不相關的證據會怎樣?當提供不相關的證據時,大型語言模型應該 1)如果沒有證據明確支持任何答案,則應避免回答;2)忽略不相關的證據,並根據相關證據回答問題。為了設置實驗,技術團隊將句子BERT嵌入檢索到的與問題相似度最高的不相關段落視為不相關證據(即與問題中提到的實體無關的句子)。表B.7顯示了在POPQA上的實驗結果。
提出一些個人的見解和想法。
首先,該研究揭示了工具增強型大型語言模型在處理外部證據時存在的一些問題,這對於開發和部署此類系統具有重要啟示意義。技術團隊提出的框架和實驗設置為相關研究提供了一個紮實的基礎,有助於研究者更好地理解和改進這些模型。未來的研究可以在此基礎上,進一步探索如何減少大型語言模型的確認偏差,提高其處理不一致證據的能力,以及如何設計更加穩健的知識融合機制等。
其次,該研究也凸顯了大型語言模型潛在的道德風險。大型語言模型強大的生成能力如果被濫用,可能會產生連貫且令人信服的錯誤信息,對社會造成負面影響。因此,在開發和部署這些模型時,研究界和業界都需要高度重視這一問題,並採取相應的應對措施。這可能包括制定嚴格的數據使用和分發規範、設計有效的驗證和監控機制、加強模型的可解釋性和可控性等。
最後,工具增強型大型語言模型作為一個新興的研究方向,其潛力和局限性都有待進一步探索。該研究為這一領域提供了寶貴的見解和啟發,同時也揭示了一些亟待解決的問題。未來的研究可以在這些發現的基礎上,進一步拓展工具增強型大型語言模型的應用場景,如在問答、對話、知識圖譜構建等任務中的應用,並不斷優化其性能和可靠性。同時,也需要密切關注這一技術的最新進展,評估其對社會的潛在影響,並做好相應的準備和應對。
該研究對於理解和改進工具增強型大型語言模型具有重要意義。它為相關研究提供了新的視角和方法,同時也提出了一些值得深入探討的問題。技術團隊的工作有助於推動這一領域的發展,讓我們在充分發揮大型語言模型潛力的同時,也能更好地應對其帶來的挑戰與風險。
沒有留言:
發佈留言