微軟研究院最近在研究,像 ChatGPT 這樣的語言模型到底能不能真的理解很長的文章。
他們是這樣做的:先用一個很像真實新聞的大型文字資料,把它切成一個一個小段落,每個段落 128 個token。然後請 GPT-4 根據這些段落,生成一個超大的問答題資料集,大概有兩百萬題吧!
接下來,他們拿另一個叫 Mistral-7B-Instruct 的語言模型,用這個龐大的資料集去訓練它。訓練的方法就是把每一題的問題和段落餵給模型,讓它學怎麼回答。使用 14K 個訓練步驟16 個節點,每個節點 8 個 A100,總共花了 300 GPU天,超級猛。
訓練完的模型被他們取名叫 FILM-7B,意思是 "填空題" (fill-in-the-middle)的意思。因為它確實表現得很厲害,在大海撈針的任務上表現超群,他們還特地為它設計了一套更難的測驗,叫做 VAL probing。
VAL probing 測試模型在三種不同的文本上的表現:一般的文章、程式碼、還有結構化的資料。題目的形式也分三種:根據段落找某個句子、根據程式碼找某個函式的名字、根據 ID 找某筆資料的詳細內容。
結果發現,FILM-7B 不僅解決了之前模型會在長文本裡迷路的問題,在 VAL probing 的表現上,居然還跟 GPT-4 一樣強!
非常厲害的研究成果!
程式碼在這裡:
https://github.com/microsoft/FILM
沒有留言:
發佈留言