Raymond SOTA AIGC: 「Next token Prediction」還能再走多遠?

近年來大語言模型(Large Language Models, LLMs)在自然語言處理領域取得了顯著的突破。而支撐這些 LLMs 的核心技術之一,就是下一個 token 預測(Next Token Prediction, NTP)。

NTP 技術由「資訊理論之父」Claude Shannon在其著作《通信的數學原理》（A Mathematical Theory of Communication）中首次提出。其核心思想是,通過給定一個詞序列的上下文,讓模型預測下一個最可能出現的詞。這種預測能力使得語言模型能夠生成連貫、邏輯性強的文本,在機器翻譯、文本摘要、自動寫作等場景中發揮重要作用。

Shannon在這篇劃時代的論文中，首次系統地定義了「資訊」這個概念，並給出了資訊的數學表示方法。他引入了「bit」（比特）作為資訊量的基本單位，提出了著名的「香農熵（Shannon entropy）」公式來計算一個隨機變數所包含的平均資訊量。這個公式後來被廣泛應用於各個領域，成為現代資訊論的核心概念之一。

香農熵的定義如下：

對於一個離散隨機變量 X，其概率分佈為 P(X=x_i) = p_i，i=1,2,...,n，則 X 的香農熵為：

H(X) = -∑[i=1 to n] p_i log p_i

其中，log 通常以 2 為底，這樣熵的單位為比特（bit）。如果以自然常數 e 為底，則熵的單位為納特（nat）。

香農熵的一些重要性質：

非負性：H(X) ≥ 0，即香農熵總是非負的。

當 X 的分佈是均勻分佈時，香農熵達到最大值 log n。這意味著均勻分佈具有最大的不確定性。

當 X 的分佈是確定性分佈（即某個事件的概率為 1，其他事件的概率為 0）時，香農熵達到最小值 0。這意味著確定性分佈沒有不確定性。

香農熵滿足一些重要的不等式，如均值不等式、次加性不等式等，這些性質在信息論的推導中非常有用。

在信息論和編碼理論中，香農熵被用來衡量信息源的平均信息量，或者說，傳輸一個符號所需的平均比特數。

此外,Shannon還在論文中提出了兩大定理：

香農第一定理（Shannon's Source Coding Theorem）：給出了信源編碼的極限壓縮率,即信源熵。這意味著,當編碼長度趨於無窮時,每個編碼符號的平均長度不會小於信源的香農熵。

香農第二定理（Shannon's Channel Coding Theorem）：論證了存在一種編碼方式,使得通過帶噪信道進行通信時,傳輸誤碼率可以任意接近零,只要資訊傳輸速率低於信道容量。信道容量公式為：

C = B log2(1 + S/N)

其中,C是信道容量（單位：bit/s）,B是信道頻寬（單位：Hz）,S/N是信噪比。

這兩大定理奠定了現代編碼理論的基礎,指明了可靠通信的理論極限,對現代通信技術的發展產生了深遠影響。

雖然Shannon的原始論文並沒有直接提及「下一個token預測」（Next Token Prediction, NTP）這個概念，但他的資訊理論思想無疑為 NTP 技術的發展提供了理論基石。NTP 的核心思路可以看作是對香農理論的延伸和應用——通過最小化預測下一個 token 的不確定性（即香農熵），來訓練語言模型生成連貫、高質量的文本。

OpenAI 首席科學家 Ilya Sutskever 更堅信,NTP 是通往 AGI(Artificial General Intelligence,通用人工智慧)的關鍵。他認為,token 預測的質量反映了模型對語言背後隱藏的語義和知識的理解程度,這不僅僅是統計,更是對世界本質的壓縮和表達。如果讓一個足夠強大的語言模型去預測一個睿智、博學且能力非凡的人會有怎樣的行為舉止,它很可能可以通過人類資料進行推理和外推,模擬出超越現實的假想情況。

事實上,OpenAI 的研究員 Jack Rae 在斯坦福的研討會上做了題為《Compression for AGI》的報告,詳細論證了「壓縮即智慧」的觀點。他認為,壓縮能力體現了模型對資料的泛化和抽象能力,而泛化能力正是智慧的基石。

NTP 技術的基本原理可以概括如下:

1. NTP 是因果語言模型的核心任務,目標是準確預測給定文本序列中下一個令牌(token),如單詞或字元。Token 預測過程基於自迴歸機制,即模型一次預測一個令牌,並以由左至右的順序進行。

2. 大多數 NTP 模型基於 Transformer 架構,尤其是其僅解碼器(Decoder-Only)變體。Transformer 透過自注意力(Self-Attention)機制,讓模型在生成每個新 token 時,都能考慮到之前所有 token 的上下文資訊,從而生成更加準確和連貫的文本。

3. 在進行下一個 token 預測之前,文本首先需要被切分成模型可理解的最小單位,即 token。這些 token 隨後被轉換為嵌入向量(embedding vector),以數值形式表示。為了讓模型理解 token 的順序,每個 token 的嵌入向量會與位置嵌入向量相加,使模型能夠捕捉序列中的位置資訊。

4. 大型語言模型通過在大規模文本資料集上進行預訓練來學習下一個 token 預測。這個過程是自監督的(self-supervised),意味著模型通過預測文本序列中的下一個 token 來自我訓練,無需外部標註的訓練資料。透過這種方式,模型學會了理解和生成自然語言。

傳統的機器人控制方法,如波士頓動力公司採用的運動控制算法、強化學習和行為克隆等,通常需要對環境和任務進行專門的建模和規劃。這種方法雖然在特定環境下表現出色,但泛化能力有限,難以應對複雜多變的真實世界。

而基於自回歸生成的 NTP（Next Token Prediction）技術,為機器人控制開闢了一條新的路徑。通過將感官運動資料序列化為類似於自然語言的 tokens,並訓練類似 GPT 的自回歸語言模型來預測下一個 token,機器人可以直接從大量歷史互動資料中學習到連貫、鮮活的行為模式,而無需對環境進行顯式建模或路徑規劃。

這種範式轉變的優勢在於,自回歸生成模型具有強大的泛化能力。通過從海量多樣的感官運動資料中學習,模型可以掌握環境和任務的隱含規律,並在新的情景下自主地採取合適的行動。就像 GPT 模型可以根據上下文生成連貫的自然語言一樣,基於 NTP 的機器人控制器可以根據當前的感知狀態和歷史行為,自主產生連貫、適宜的運動控制指令,而無需為每個場景專門設計路徑。

以柏克萊團隊的工作為例,他們將多個來源的機器人感官運動資料（如手動設計的控制器輸出、強化學習模型的決策序列、人類運動捕捉資料等）匯總成一個龐大的「軌跡語料庫」,並在此基礎上訓練類似 GPT 的自回歸運動控制模型。他們將仿人機器人的感覺運動軌跡視作類似於自然語言中的單詞序列,將感覺輸入(如傳感器資料)和運動輸出(如馬達指令)的輸入軌跡進行 token 化,組成軌跡的「單詞」和「句子」。

接著,研究者們訓練了一個通用的 Transformer 模型來自迴歸地預測移位的輸入序列。與語言模型不同的是,機器人資料是高維的,包含多個感官模態和動作。研究者通過將輸入軌跡進行標記化,然後訓練 Transformer 模型來預測這些標記,處理了這種多模態性。模型能夠預測完整的輸入序列,包括感官和動作標記。

更有趣的是,當軌跡資料不完整(即感覺或運動資訊缺失)時,模型可以通過預測存在的資訊,並用可學習的遮罩標記(learnable mask tokens)替換缺失的標記來從中學習。這使得模型能夠從不完美或缺失的資料中學習,提高其泛化能力,在面對真實世界的不完整資料時仍能有效運作。

研究者們還發現,使用更多軌跡進行訓練可以減少位置追蹤誤差,展現了 scaling 定律在機器人控制中同樣有效。此外,實驗顯示,更大的上下文視窗和模型參數規模能產生更好的策略和更低的追蹤誤差。

實驗表明,訓練後的模型可以在各種場景下自主產生連貫、合理的運動軌跡,展現出了良好的泛化能力。機器人無需再依賴專門的路徑規劃,即可自如地在複雜環境中行動。

自回歸生成模型在機器人控制領域的應用,為打造更加智能、自主、泛化的機器人系統開闢了一條充滿潛力的新路徑。隨著 NTP 等技術的不斷發展和完善,我們有望在未來看到更多具備「類人般常識」的通用機器人助手,它們能夠像人一樣自然地感知、思考和行動,為人類的生產生活提供更加智能、貼心的服務。這無疑將是人工智能發展史上又一個激動人心的里程碑。

雖然這些結果令人振奮,但 NTP 技術在機器人控制中的應用仍存在一些疑慮和局限性。一些學者質疑論文中對「觀測」和「行動」概念的定義是否清晰一致,以及具體實現細節是否完備。也有人指出,即使對於簡單的行走任務,也需要大量(如數萬條)軌跡資料,而這些資料在現實中難以收集。

此外,NTP 技術本身也存在一些固有的局限性。例如,在長序列中,每個步驟的小錯誤可能會指數級累積,導致整體準確性大幅下降;模型可能學習到錯誤的規劃策略,在需要前瞻性規劃的任務中表現不佳;快速和慢速兩種思考過程難以同時模擬;一些 token 可能天生難以學習,需要對未來有全局理解。

當然,基於 NTP 的機器人控制方法仍處於探索階段,還面臨著一些挑戰和局限性。例如,如何在訓練過程中更好地引入物理約束和安全保障？如何進一步提高感官運動資料的採集和處理效率？如何賦予模型更強的因果推理和長期規劃能力？這些都是亟待研究者進一步探索的問題。

最近,蘇黎世聯邦理工學院和谷歌研究院的學者在論文"The Pitfalls of Next-token Prediction"中全面總結了 NTP 技術在大型語言模型中的問題和局限性。他們指出,目前的爭議很大程度上源於沒有區分推理階段的自迴歸和訓練階段的 teacher-forcing 兩種 token 預測方式。如果不加以區分,在模型預測錯誤時,對複合誤差的分析往往會將問題導向至推理過程,誤以為是模型執行方面的問題。

https://arxiv.org/pdf/2403.06963.pdf

論文還透過實驗指出了 NTP 技術目前存在的幾個主要問題:

1. 在自迴歸推理中,即使每步錯誤率很小,錯誤也可能在長序列中指數級累積,導致整體準確性顯著下降。

2. NTP 模型可能在需要前瞻性規劃的任務中表現不佳,難以有效學習如何制定和執行長期計畫。

3. Teacher-forcing 訓練可能無法學習到準確的下一個 token 預測器,因為模型可能會利用輸入中洩露的答案前綴來生成未來的詞,而非從問題本身推導出答案。

4. Teacher-forcing 訓練可能誘導模型使用「Clever Hans 作弊」策略。

5. Teacher-forcing 訓練可能導致早期答案詞難以學習,因為模型在訓練過程中失去了關於完整答案的監督。

6. 即使在簡單的路徑查找任務中,Transformer 和 Mamba 架構的模型也可能失敗,令人質疑 NTP 是否能泛化到更複雜或不同類型的任務。

NTP 技術雖然強大,但仍存在一些固有的局限性。在機器人控制領域,它能否真正走通還有待進一步的研究和驗證。未來,我們或許還需要探索其他潛在的技術路線,如多模態大模型、具身大模型、自然模態世界模型等,來實現通用人形機器人的智慧控制。這需要學界和業界的共同努力。

Raymond SOTA AIGC

code window

2024年4月30日星期二

「Next token Prediction」還能再走多遠?

沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

網誌封存

Code

舉報濫用