code window

2024年4月29日星期一

LLM 能否理解長篇文章?

微軟研究院最近在研究,像 ChatGPT 這樣的語言模型到底能不能真的理解很長的文章。

他們是這樣做的:先用一個很像真實新聞的大型文字資料,把它切成一個一個小段落,每個段落 128 個token。然後請 GPT-4 根據這些段落,生成一個超大的問答題資料集,大概有兩百萬題吧!

接下來,他們拿另一個叫 Mistral-7B-Instruct 的語言模型,用這個龐大的資料集去訓練它。訓練的方法就是把每一題的問題和段落餵給模型,讓它學怎麼回答。使用 14K 個訓練步驟16 個節點,每個節點 8 個 A100,總共花了 300 GPU天,超級猛。


訓練完的模型被他們取名叫 FILM-7B,意思是 "填空題" (fill-in-the-middle)的意思。因為它確實表現得很厲害,在大海撈針的任務上表現超群,他們還特地為它設計了一套更難的測驗,叫做 VAL probing。

VAL probing 測試模型在三種不同的文本上的表現:一般的文章、程式碼、還有結構化的資料。題目的形式也分三種:根據段落找某個句子、根據程式碼找某個函式的名字、根據 ID 找某筆資料的詳細內容。

結果發現,FILM-7B 不僅解決了之前模型會在長文本裡迷路的問題,在 VAL probing 的表現上,居然還跟 GPT-4 一樣強!

非常厲害的研究成果!

程式碼在這裡:

https://github.com/microsoft/FILM

沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

摘要 GPT-4等整體式大型語言模型(LLM)為現代生成AI應用鋪路。然而,大規模訓練、服務及維護整體式LLM仍然極其昂貴和充滿挑戰。現代AI加速器計算能力與記憶體比例的不成比例增長已經造成了記憶體壁障,需要新的方法來部署AI。最近的研究顯示,許多小型專家模型的組合,每個模型參數...