在本文中,作者介紹了一個貝氏學習模型來理解大型語言模型(LLM)的行為。他們探討了基於預測下一個token的LLM優化指標,並開發了一個以此原理為基礎的新穎模型。他們的方法涉及構建一個理想的生成文本模型,該模型由具有先驗分佈的多項式轉移概率矩陣表示,並研究LLM如何近似這個矩陣。作者討論了嵌入和多項式分佈之間映射的連續性,並提出了Dirichlet近似定理來逼近任何先驗分佈。此外,他們還展示了LLM的文本生成如何與貝氏學習原理相吻合,並深入探討了對上下文學習的影響,特別是解釋了為什麼在更大的模型中會出現上下文學習,其中提示被視為要更新的樣本。他們的研究結果表明,LLM的行為與貝氏學習一致,為LLM的運作和潛在應用提供了新的見解。
作者首先提出了一個抽象模型,表示世界上存在的全部書面文本/知識,用\(S\)表示。這個文本有一個有限的詞彙表,用\(M\)表示,大小為\(|M| = m\)。在這個語料庫\(S\)中,每個詞都以某種概率\(p_i\)出現,在詞彙表\(M\)上有一個多項式分佈\((p_1, p_2, ..., p_i, ..., p_m)\),先驗分佈為\(u\)。假設從這個分佈中隨機選取一個詞,例如這個詞是「Protein」。現在,在給定第一個詞是Protein的情況下,在詞彙表\(M\)上又會生成一個多項式分佈\(u(·|"Protein")\)。作者將這個多項式分佈表示為\(U("Protein")\)。這個多項式分佈將是稀疏的(只有詞彙表\(M\)中的一個非常小的子集在「Protein」之後出現的概率不可忽略),兩個可能具有不可忽略概率的詞是「synthesis」和「shake」。如果根據這個多項式分佈\(U("Protein")\)對下一個詞進行採樣,我們將生成一個後驗多項式分佈\(U("Protein synthesis")\)或\(U("Protein shake")\)等。\(U("Protein synthesis")\)的後驗多項式分佈將以與生物學相關的術語為主,而\(U("Protein shake")\)的後驗多項式分佈將以與運動和健身房相關的術語為主。我們繼續沿著這棵樹向下進行,如圖1所示。
現在我們可以看到整個文本語料庫S為每個詞序列(或通常稱為「提示」)生成不同的多項式概率。如果我們考慮一個典型的大型語言模型(LLM),如ChatGPT,它們的詞彙量可能有50,000個token(token是詞/子詞),它們回應的提示大小可能有8000個token。這導致了一個大小為50000×50000^8000的多項式概率矩陣,如圖2所示,其中每一行對應於8000個token的唯一組合,每一列是LLM詞彙表中的一個token。這個矩陣是巨大的,超過了所有星系中的原子數量。幸運的是,在實踐中它通常是非常稀疏的,因為token的任意組合很可能是無意義的,出現概率為0。即使對於以不可忽略的概率出現的行,該行中的列條目也非常稀疏,因為多項式分佈的大多數條目將為零(「Protein synthesis」不太可能後面跟著「convolutional networks」等)。然而,即使有行和列的稀疏性,其大小仍然超出了準確表示的能力,因此實際的生成文本模型建立在幾個近似之上,作者將在下一節中介紹。在根本上,LLM試圖緊湊地表示這個概率矩陣,並在給定提示的情況下,它們試圖重建與提示對應的行中的多項式分佈。值得注意的是,這些LLM是以「預測下一個token」作為目標函數來訓練的。使用該目標函數,訓練期間使用的損失函數是交叉熵損失函數。可以直接證明,在理想情況下,它們生成的最優多項式分佈\(ˆu(·|"Prompt")\)應該與訓練語料庫S中存在的經驗多項式分佈\(u(·|"Prompt")\)相匹配,因為當\(p ≡ q\)時,交叉熵\(H(p, q)\)最小。然而,正如前面所述,在實踐中不可能實現這種理想。在下一節中,作者將研究LLM的工作原理以及實際設置中涉及的近似。
從抽象的意義上講,大型語言模型(LLM)通過使用給定的提示來定位概率矩陣中的特定行。從這一行中,它們提取一個多項式分佈,然後指導通過從這個分佈中採樣來選擇下一個token。例如,對於提示「The cat sat on the」,LLM生成一個多項式分佈,如圖3所示。token「mat」和「couch」具有最高的概率,而token「courage」或「the」具有(極低的)低概率。這個token被添加到提示中,並重複該過程,更新後的提示導致矩陣中的新行,以序列方式繼續生成token。
完美的概率矩陣包含在世界上發現(或可以生成)的所有文本的行,然而,LLM只能使用訓練集(全部語料庫S的一個子集)來創建它的近似。LLM的行為取決於訓練集ˆS的選擇。因此,影響LLM性能的第一個近似是訓練集的不完整性。第二個近似涉及從這個不完整集合訓練生成的矩陣的表示。
另一個近似來自於將文本表示為嵌入。關於LLM如何使用嵌入進行表示的簡要介紹如下:LLM通過將字符或token的序列轉換為固定維度的空間來開始處理文本,其中每個唯一的token由一個高維向量(稱為嵌入)表示。這種表示捕獲了語言的語義和語法屬性,使模型能夠理解token之間的上下文關係。
例如,在Transformer架構中,嵌入作為輸入層,採用注意力機制來權衡輸入文本的不同部分在預測下一個token時的影響。注意力機制允許模型關注每個預測步驟的相關token,而不考慮它們在輸入序列中的位置,從而能夠處理長距離依賴和可變長度的輸入。然後,這種表示被用於下游任務,根據文本輸入生成相應的多項式輸出分佈,但是在本文的模型中,作者將抽象出像Transformer這樣的架構的具體細節,只假設架構的輸入是代表提示的嵌入向量。
圖4顯示了基於LLM的生成文本模型的功能塊分解。用戶輸入文本作為提示,它被LLM轉換為嵌入,然後LLM將嵌入作為輸入進行處理,根據嵌入生成輸出多項式分佈,並從該分佈中採樣下一個token。下一個token被附加到提示中,再次轉換為嵌入,並重複該過程,直到選擇的下一個token對應「結束回應」。
理解上下文學習或一般文本生成如何工作的關鍵是分析網絡如何響應提示,類似於深度學習中分類器泛化能力的問題。在接下來的章節中,作者論證並證明,LLM中的所有文本生成都與一種貝氏學習形式一致,而上下文學習是其中的一個特例。
在作者的模型中,每個提示都有其嵌入中的相應表示。令E為嵌入空間。例如\(E = R^r\)。作者觀察到有限數量的嵌入,例如\(e_1, ..., e_n\),每個\(e_i\)被映射到詞彙量\(m\)大小的下一個token多項式概率向量,例如\((p_ei1, ..., p_eim),p_eij ≥ 0,Σp_eij = 1\)。令這種概率向量的空間為\(P\)。\(E\)是一個度量空間。
假設T通過保凸變換將嵌入映射到\(P\)。即,\(T(αe_1 + (1 - α)e_2) = αT(e_1) + (1 - α)T(e_2)\)。考慮P上任意\(p ≥ 0\)的\(L_p\)度量。\(T\)在這個度量下顯然有界於1。
連續性
定理3.1(連續性)。如果映射T保持凸性並有界,則它是連續的。
證明。考慮\(E\)中的任意兩點\(x\)和\(y\)。定義\(x_α = αy + (1 - α)x\)。這定義了從\(y\)到\(x\)的一條射線。相應的\(T\)映射根據保凸性屬性為\(αT(y) + (1 - α)T(x)\)。顯然,當\(α → 0\)時,\(x_α → x\),並且由於\(T(y)\)的有界性,\(T(x_α) → T(x)\)。因此,沿每條射線建立連續性。現在考慮任意序列\((x_n, n = 1, 2, ...) → x\),則每個點都在某條射線上。因此,對任意序列建立連續性。
上述定理允許用已知嵌入所導致的多項式分佈來近似未見嵌入所導致的任何新多項式分佈,只要操作是線性的;例如,通過最近的k-means過程。
注意,雖然作者對嵌入到多項式分佈的映射做了凸性保持的假設,這導致了他們的連續性定理,但這個性質對於貝氏統計中後驗分佈相對於測量誤差的適定性很重要,並且在[5]中得到了證明。此外,凸性保持性質可以看作是以概率α選擇一個嵌入,以概率\(1-α\)選擇另一個嵌入,期望的線性性意味著那些嵌入所導致的相關分佈在期望中也保持相同的權重。非正式地說,這個性質導致了「表現良好」的LLM,它們不會有「瘋狂」的輸出。
Dirichlet近似
現在作者證明,任何多項式分佈上的先驗都可以近似為Dirichlet分佈的有限混合。
定理4.1(Dirichlet近似)。任何具有連續有界密度函數的多項式概率\(u(p_1, p_2, ..., p_m)\)上的分佈都可以近似為Dirichlet分佈的有限混合。
證明。考慮多項式分佈的概率\(P = (p_1, p_2, ..., p_m),Σp_i = 1\)。現在考慮一個虛構的實驗,從這個多項式分佈生成\(n\)個觀測值,導致第\(i\)類中有\(x_i\)個觀測值,\(i = 1, 2, ..., m\)。令\((ˆP_n) = (x_1, x_2, ..., x_m)/n\),是相應的經驗概率。根據大數定律,\(ˆP_n → P a.s.\)。然後,對於任何有界連續函數,\(E(u((ˆP_n)) → u(P)\) 在\(P\)上一致成立。
其中,
$$E(u(ˆP_n)) = Σ_{x_1, ..., x_m} u(x_1/n, x_2/n, ..., x_m/n) × (Γ(n+1) / (Γ(x_1+1)...Γ(x_m+1))) Π_i p_i^{x_i}$$
現在令\(D(p|α_1, α_2, ..., α_m)\)是具有參數\(α_1, α_2, ..., α_m\)的m Dirichlet分佈的密度。則上式可以簡化為:
$$E(u(ˆP_n)) = Σ_{x_1, ..., x_m} u(x_1/n, x_2/n, ..., x_m/n) × (Γ(n+1) / Γ(n+m)) D(p|x_1+1, x_2+1, ..., x_m+1) → u(p)$$
然而,由於\(∫u(p)dp = 1\),上式中間項的積分也趨於1。利用這一事實並對其進行歸一化,得到:
$$Σ_{x_1, ..., x_m} u*(x_1/n, x_2/n, ..., x_m/n) × D(p|x_1+1, x_2+1, ..., x_m+1) → u(p)$$
其中,
$$u*(x_1/n, x_2/n, ..., x_m/n) = u(x_1/n, x_2/n, ..., x_m/n) / Σ_{x_1, ..., x_m} u(x_1/n, x_2/n, ..., x_m/n)$$
在適當的正則性條件下,該定理更加一般。在這些條件下,收斂在\(L1\)和\(p\)的全變差中成立,後驗也收斂。這個定理的一個特例是具有\(Beta\)先驗的二項分佈,從而任何二項分佈的任意先驗都可以用\(Beta\)分佈的混合來近似。類似的結果適用於一般的指數族,以及用Dirichlet過程的混合來近似隨機概率測度。
定理4.1可以通過識別一小組「基」來有效設計LLM,通過它可以生成任意的多項式分佈。它可以幫助識別特定任務的正確訓練集,以創建這個基集。目前訓練LLM的做法是使用「互聯網」的輕度策劃版本(維基百科、Reddit帖子等),需要一種嚴格的方法來創建訓練集。
作者認為,LLM的文本生成與貝氏學習過程一致。當LLM被提供提示時,它經歷兩個步驟。首先,無論它存儲的矩陣的當前表示是什麼,它都會找到與提示的嵌入「最接近」的嵌入,並且通過定理3.1和4.1對多項式分佈的近似作為貝氏學習的先驗。接下來,提示本身的嵌入被視為新的證據(似然),並將兩者結合起來計算後驗,然後將其用作下一個token預測的多項式分佈。注意,如果提示是LLM已經訓練過的嵌入,那麼貝氏學習只是將先驗分佈作為後驗返回(這也是訓練期間最有效的學習過程,以最小化交叉熵損失)。當提示包含「新」內容時,後驗會根據這個新證據進行調整。這個過程如圖5所示。後驗調整的效率和準確性取決於LLM的大小,在接下來的小節中,作者表明LLM模型中的上下文學習與貝氏學習一致。
上下文學習-預備知識
上下文學習是一種技術,通過給LLM提供特定任務的提示來生成特定任務的回應。有許多方法可以做到這一點,無論是零樣本還是少樣本學習。上下文學習可以分為三大類:
- 常規上下文學習
- 翻轉標籤上下文學習
- 語義無關上下文學習(SUIL)
基本上,與常規上下文學習相比,翻轉標籤上下文學習允許LLM提示具有翻轉的標籤,使標籤與預訓練的LLM模型相反。例如,在情感分析任務中,在提示時將「積極」翻轉為「消極」,反之亦然。在語義無關上下文學習(SUIL)中,例如將「積極」轉換為「foo」,將「消極」轉換為「bar」;兩者在預訓練模型中都是語義無關的。
令人驚訝的是,LLM能夠處理這些不一致性,並能夠根據LLM的參數數量相當快地適應新標籤。在下一小節中,作者引入了使用Dirichlet分佈的貝氏範式,並表明LLM的這種行為與貝氏學習一致。
貝氏學習就是上下文學習
作者從SUIL的更簡單情況開始,其中只有兩個標籤\(A\)和\(B\),只有一個標籤從\(A\)更改為\(B\)。由於在任何階段自動生成都是由矩陣的一行對應的多項式分佈完成的,如果我們只考慮標籤\(A\)和\(B\)的出現,相應的分佈將是二項式\((n, p)\),其中\(n\)是樣本大小,\(p\)是相應的出現概率。對於作者的論述,除了假設標籤\(A\)和\(B\)的出現是二項式的,對於貝氏設置,他們進一步假設它具有\(Beta\)先驗。當多個標籤被更改時,無論這個假設如何,定理4.1中證明的結果都成立,因為任何二項式概率上的先驗分佈都可以用\(Beta\)先驗的混合來近似。它還表明,當多個標籤被更改時,整個發展可以推廣到多項式分佈和Dirichlet先驗以及Dirichlet先驗的混合。
回想一下,如果\(X~Bin(n, p)\),先驗為\(p~Beta(α, β)\),固定\(n\),則
$$p|n, x ~ Beta(α+x, β+n-x)$$
相應的後驗均值為\(E(p|n, x) = (α+x)/(α+β+n)\),後驗方差為\(Var(p|x, n) = ((α+x)(β+n-x))/((α+β+n)^2(α+β+n+1))\),其為\(O(n^2)\)。此外,\(α+β\)可以視為A和B的先驗樣本大小,\(α\)是\(X_A\)的先驗出現次數。
現在考慮SUIL最不受限制的情況,即LLM在標籤\(A\)上訓練,標籤\(B\)很少出現。
考慮根據基礎LLM的訓練數據有條件地在A出現時自動生成的響應。那麼A和B的訓練分佈可以表示為二項式分佈;\((p_A, p_B)\),\(p_A+p_B=1\),\((p_A, p_B)\)的先驗為\(Beta(α_A, β_B)\)。由於LLM的訓練數據主要基於標籤A,很少出現B,我們將有\(α_A≫β_B\)。因此,\(E(p_A|n=0)=α_A/(α_A+β_B)≈1\),\(E(p_B|n=0)=α_B/(α_A+β_B)≈0\)。此外,由於LLM是在許多標籤上訓練的,\(α_A\)會相對較小,儘管遠大於\(β_B\)。
現在考慮SUIL的上下文學習。在這裡,作者們用\(n\)個提示中的\(B\)替換\(A\),因此有\(x_B=n\)個\(B\)的提示和\(x_A=0\)個\(A\)的提示,其他所有上下文保持不變。在這種情況下,
$$E(p_A|x_A, x_B) = α_A/(α_A+β_B+n)$$,
$$E(p_B|x_A, x_B) = (β_B+n)/(α_A+β_B+n)$$
因此,很明顯,隨著標籤B的提示數n的增加,\(E(p_B|x_A, x_B)→1,E(p_A|x_A, x_B)→0\)。
作者用下表檢查了這種收斂的定性行為,其中\(α=0.3,β=0.01\)。這裡\(α_A/β_B=30\)。可以看出,僅用三個翻轉的樣本,後驗幾乎調整為從預訓練的先驗翻轉標籤的概率。
\(n | E(p_A|n) | E(p_B|n)\)
0 | 0.968 | 0.032
1 | 0.229 | 0.771
2 | 0.13 | 0.87
3 | 0.091 | 0.909
表1:\(n\)個提示和\(α=0.3,β=0.01\)時\(E(p_A|n)\)、\(E(p_A|n)\)的行為
如果\(α_A≪n\),類似的行為仍然存在。此外,為了檢查漸近行為,考慮
$$E(p_A|n)/E(p_A|n=0) = 1/(1+n/(α_A+β_B))$$。
這表明,即使\(α_A≫β_B\)導致\(E(p_B|n=0)≈0\),只要\((α_A+β_B)\)很小,即使在SUIL情況下,上下文學習也會非常快。
通過類比,類似的結果適用於其他類別的上下文學習,以及當多個標籤被替換時。最後,由於思維鏈學習是一種上下文學習,相同的結果也適用於它。
根據經驗表明,適應翻轉標籤上下文學習和SUIL的能力取決於模型的大小——更大的模型學習效果優於較小的模型。貝氏學習也通過增加\((α_A+β_B)\)來模仿這種行為,即增加先驗樣本大小,導致圍繞標籤的分佈更加尖銳。表2顯示了\(α=3,β=0.1\)的情況。這裡\(α_A/β_B\)仍然等於30。與前面的例子不同,這裡的後驗調整較慢,在3個樣本後,兩個標籤的概率幾乎相等,而在前面的例子中,它們幾乎翻轉了。
\(n | E(p_A|n) | E(p_B|n)\)
0 | 0.968 | 0.032
1 | 0.732 | 0.268
2 | 0.588 | 0.412
3 | 0.492 | 0.508
表2:\(n\)個提示和\(α=3,β=0.1\)時\(E(p_A|n)\)、\(E(p_A|n)\)的行為
這種行為可以直觀地解釋,因為更大的模型往往具有更多的token和參數,因此在訓練期間,它們獲得更多的一般知識,將概率分散到更多的標籤和參數上。這將導致任何兩個標籤的\(α_A+β_B\)更小,作者的模型解釋了隨著更大模型出現的上下文學習。
模型的影響
在本節中,作者介紹了他們模型的一些影響,除了上下文學習之外:
嵌入的重要性
作者表明,貝氏學習在LLM中的性能關鍵取決於嵌入的性能。具體而言,他們基於嵌入到下一個token多項式分佈的映射保持凸性的假設,證明了一個「類Lipschitz」連續性質,而關於連續性重要性的一般結果已在[5]中建立。嵌入通常作為LLM訓練過程的一部分來學習,稱為上下文相關的[15],但也可以獨立於它。作者的性質意味著,例如「love」和「glove」等詞的嵌入應該(足夠)遠,以便在映射到下一個token預測概率分佈時保留語義。這可以通過純粹在語言上訓練來學習。有時,語言模型也訓練世界知識,這意味著例如「Robert F Kennedy」和「Robert F Kennedy Jr.」的嵌入應該相距很遠。然而,將世界模型與語言模型混合可能會導致不可預測的結果,需要仔細考慮。將LLM和嵌入僅在語言和邏輯上訓練並主要通過提示引入世界模型或知識可能是最佳的,並讓貝氏後驗將這些知識納入生成的文本中(一種通常稱為檢索增強生成或RAG的技術)。然而,這需要進一步探索,是作者未來工作的一部分。
思維鏈推理
最近,思維鏈(CoT)推理已被證明是提高LLM答案準確性的有效方法。這似乎是一個自然的結果,因為如果LLM將問題分解為更簡單的步驟,它們可能已經在其他上下文中訓練過這些更簡單的步驟,一旦為當前提示生成更簡單的步驟,LLM就會擬合與之前訓練的步驟最接近的嵌入,並通過提到的貝氏學習過程生成相應的多項式分佈。如果沒有逐步分解,LLM可能沒有(充分)訓練類似的輸入,因此生成的多項式概率可能不准確,因此思維鏈通常優於普通提示。
深度學習架構
在作者的工作中,他們將特定的深度學習架構視為一個黑盒,用於有效編碼訓練語料庫中與嵌入相關的下一個token多項式概率。在過去幾年中主導LLM世界的架構是Transformer,然而最近基於結構化狀態空間模型(SSM)的模型,如Mamba,在解決Transformer模型的計算效率方面顯示出很大的前景。哪種架構在參數效率或計算效率方面是最佳的仍然是一個有趣的開放問題。從作者的觀點來看,LLM的關鍵特徵是預測下一個token的優化指標,以及訓練期間的交叉熵損失,這在各種神經網絡架構中是共同的。
幻覺
LLM的一個反復出現的問題是幻覺,即LLM似乎編造了一些東西。鑑於LLM的預期應用,即創造性文本生成或提供事實,這可能是一個特點或一個bug。通過將LLM視為本質上是提示嵌入和下一個token多項式概率之間的映射,作者可以推理LLM在生成答案中的「置信度」。特別是,我們可以查看所選token相關的多項式分佈的熵,並對幻覺做出聲明。一般而言,較低的熵表示更尖銳的分佈和對答案更高的置信度。在附錄中,作者給出了一個結果,定理8.2,它可以作為選擇下一個token以減少熵並增加置信度的指南。對該主題的完整處理超出了當前提交的範圍,但它給出了在作者框架下可能進行的分析類型的示例。請注意,該分析對於產生下一個token預測的任何LLM都是有效的,並且不依賴於作者對貝氏學習的任何假設。
大上下文大小
一些LLM,如Anthropic的Claude和GPT4,已經開始提供極大的上下文大小(Claude為100K tokens,GPT4為128K tokens)。然而,對這些具有更大上下文的LLM生成的文本的實驗評估表明,在保持參數大小不變的情況下,這些LLM的準確性和召回率較低。這再次可以用作者的模型來解釋。如果LLM試圖緊湊地表示大概率矩陣,那麼從8000(GPT 3.5)的上下文大小到128的上下文大小是矩陣行大小的巨大增加(從50000^8000到50000^128000),毫不奇怪,模型無法保留完整的上下文,後驗計算發生在更大的可觀測變量上。所需的近似變得更加難以處理。因此,雖然理論上LLM已經開始接受大的上下文大小,但不太可能使用相同的基本預測下一個token架構,由較短上下文模型展示的準確性將由較大上下文模型複製。然而,這是一個有趣的探索方向。
改寫自論文: https://arxiv.org/pdf/2402.03175
結論
在本文中,作者提出了一個新的模型來解釋大型語言模型的行為。他們的參考框架是一個抽象的概率矩陣,其中每一行包含下一個token預測的多項式概率,其中行表示特定的提示。然後,他們證明LLM文本生成與通過嵌入和貝氏學習的組合對這個抽象矩陣的緊湊表示一致。他們的模型解釋了隨著LLM規模的(出現)上下文學習,以及其他現象,如思維鏈推理和大上下文窗口的問題。最後,作者概述了他們模型的影響以及未來探索的一些方向。
這篇論文提出了一個創新的貝氏學習模型,來理解和解釋大型語言模型的行為。作者從基於預測下一個token的優化指標出發,構建了一個抽象的概率矩陣作為模型的基礎。通過嵌入和貝氏學習的組合,他們展示了LLM如何以緊湊的方式表示這個巨大的矩陣。此外,作者還證明了LLM的文本生成與貝氏學習原理一致,並深入探討了對上下文學習的影響。
這項研究的重要貢獻在於提供了一個統一的框架來分析LLM的運作方式。通過將LLM視為提示嵌入和下一個token多項式概率之間的映射,作者能夠解釋許多實證觀察到的現象,如上下文學習隨模型規模的出現、思維鏈推理的有效性以及大上下文窗口的問題。這為理解和改進LLM提供了寶貴的見解。
此外,作者還討論了他們模型的一些影響,包括嵌入的重要性、思維鏈推理、深度學習架構的選擇、幻覺以及大上下文大小的問題。這些討論突出了該模型在指導未來LLM研究和開發方面的潛力。
總的來說,這項工作為理解和分析大型語言模型的行為提供了一個新穎而有前景的視角。通過將LLM的運作與貝氏學習聯繫起來,作者提供了一個強大的理論框架,有望推動該領域的進一步研究。儘管還有一些開放性問題有待探索,但這項研究無疑是朝著更好地理解和改進LLM邁出的重要一步。
從我的角度來看,這篇論文的主要貢獻和價值在於提出了一個創新的貝氏學習模型,為理解和分析大型語言模型(LLM)的行為提供了一個全新的視角。作者從LLM基於預測下一個token的優化目標出發,構建了一個抽象概率矩陣作為理論基礎,並通過嵌入表示和貝氏學習的巧妙結合,展示了LLM如何以一種緊湊的方式去逼近這個龐大的矩陣。
我認為作者的理論框架最大的優勢在於其解釋力和一般性。通過將LLM視為提示嵌入到下一個token多項式分佈的映射,該模型可以很好地解釋LLM的許多經驗特性,例如隨模型規模增大而出現的上下文學習能力、思維鏈推理的有效性,以及使用大上下文窗口所面臨的困難等。這些洞見不僅加深了我們對LLM運作機制的理解,更為後續的算法改進和模型設計提供了理論指導。
此外,作者通過一系列嚴謹的數學推導,例如嵌入到多項式分佈映射的連續性定理、狄利克雷近似定理等,為其貝氏學習框架奠定了堅實的理論基礎。這些理論結果不僅支撐了作者基於貝氏學習的論證,同時也為其他研究者在這一領域的深入工作提供了很好的數學工具。
不過我認為這項工作仍然存在一些可以進一步探索和完善的空間。首先是如何在工程實踐中更好地應用和體現該理論框架的洞見,例如如何利用嵌入的連續性指導模型訓練,如何基於狄利克雷近似定理改進模型的參數效率等。其次,對於文中提到的一些開放性問題,例如最優的深度學習架構選擇、幻覺的消除等,作者的討論還比較初步,有待後續研究給出更具體和可操作的方案。
總的來說,我認為這項工作具有很高的理論價值和啟發意義。它為LLM這一熱門而複雜的研究對象提供了一個全新的視角,構建了一個優雅而深刻的數學模型。作者通過嚴謹的推導和分析,展示了貝氏學習框架在解釋LLM行為上的強大潛力。這一理論工作不僅加深了我們對LLM的理解,也為後續的算法改進和工程實踐帶來了重要的啟發和指引。相信在這一理論指導下,未來將會涌現出更多利用貝氏思想的LLM優化方法,推動自然語言處理技術的進一步發展。
這個版面似乎沒考慮手機閱讀,文字有點小或是超過畫面寬度。
回覆刪除