這篇論文是一篇全面性的綜述,詳細介紹了目前用來解釋 Transformer
語言模型內部運作機制的技術。本文聚焦在生成式的 decoder-only
架構。作者在結論部分概述了這些模型的已知內部機制,揭示了當前流行方法和這個領域的積極研究方向之間的聯繫。
論文出處:
https://arxiv.org/pdf/2405.00208
數學符號說明
在本文中,我們採用以下數學符號:
- \( n \):序列長度
- \( V \):詞彙表
- \( t = \langle t_1, t_2, \ldots, t_n \rangle \):輸入的 token 序列
- \( x = \langle x_1, x_2, \ldots, x_n \rangle \):輸入的 token 嵌入序列
- \( d \):模型維度
- \( d_h \):注意力頭維度
- \( d_{FFN} \):前饋網路維度
- \( H \):注意力頭數量
- \( L \):層數
- \( x_{l,i} \in \mathbb{R}^d \):在位置 \( i \),第 \( l \) 層的殘差串流狀態
- \( x_{\text{mid},l,i} \in \mathbb{R}^d \):在位置 \( i \),第 \( l \) 層,經過注意力區塊後的殘差串流狀態
- \( f_c(x) \in \mathbb{R}^d \):在最後一個位置,組件 \( c \) 的輸出表示
- \( f_l(x) = x_{l,n} \in \mathbb{R}^d \):在最後一個位置,第 \( l \) 層的殘差串流狀態
- \( A_{l,h} \in \mathbb{R}^{n \times n} \):在第 \( l \) 層第 \( h \) 個注意力頭的注意力矩陣
- \( W_{l,h}^Q, W_{l,h}^K, W_{l,h}^V \in \mathbb{R}^{d \times d_h} \):在第 \( l \) 層第 \( h \) 個注意力頭的 queries、keys 和 values 權重矩陣
- \( W_{l,h}^O \in \mathbb{R}^{d_h \times d} \):在第 \( l \) 層第 \( h \) 個注意力頭的輸出權重矩陣
- \( W_{l}^{\text{in}} \in \mathbb{R}^{d \times d_{FFN}}, W_{l}^{\text{out}} \in \mathbb{R}^{d_{FFN} \times d} \):在第 \( l \) 層前饋網路的輸入和輸出權重矩陣
- \( W_E \in \mathbb{R}^{d \times |V|} \) 和 \( W_U \in \mathbb{R}^{|V| \times d} \):嵌入(Embedding)和去嵌入(Unembedding)矩陣
一個僅解碼器的模型 \( f \) 有 \( L \) 層,對一個序列的嵌入 \( x = \langle x_1, x_2, \ldots, x_n \rangle \) 進行操作,這些嵌入表示 tokens \( t = \langle t_1, t_2, \ldots, t_n \rangle \)。每個嵌入 \( x \in \mathbb{R}^d \) 是嵌入矩陣 \( W_E \in \mathbb{R}^{|V| \times d} \) 的一個列向量,其中 \( V \) 是模型詞彙表。中間層的表示,例如在位置 \( i \) 和層 \( l \),表示為 \( x_{l,i} \)。\( X \in \mathbb{R}^{n \times d} \) 代表將序列 \( x \) 表示為一個矩陣,嵌入堆疊為列。同樣地,對於中間表示,\( X_{l, \leq i} \) 是層 \( l \) 的表示矩陣,最多到位置 \( i \)。
遵循最近關於Transformers可解釋性的文獻,本文採用殘差串流的觀點來呈現架構。在這個觀點下,每個輸入嵌入都會透過注意力區塊和前饋網路區塊的向量相加來更新,產生殘差串流狀態(或中間表示)。最後一層的殘差串流狀態會透過去嵌入矩陣 \( W_U \in \mathbb{R}^{d \times |V|} \) 投影到詞彙空間,並透過softmax函數正規化以獲得詞彙上的機率分布,從中取樣出新的token。
在Transformer層中,LayerNorm是一種常見的操作,用於穩定深度神經網路的訓練過程。給定一個表示 \( z \),LayerNorm的計算為 \((z-\mu(z))/\sigma(z) \odot \gamma + \beta\),其中 \( \mu \) 和 \( \sigma \) 分別計算平均值和標準差,\( \gamma \in \mathbb{R}^d \) 和 \( \beta \in \mathbb{R}^d \) 是學習到的逐元素轉換和偏差。LayerNorm可以從幾何角度解釋,將減去平均值的操作視為將輸入表示投影到由法向量 \([1, 1, \ldots, 1] \in \mathbb{R}^d\) 定義的超平面上,然後將結果表示映射到 \(\sqrt{d}\) 範數的超球面。
注意力區塊由多個注意力頭組成。在解碼步驟 \( i \),每個注意力頭從先前位置(≤ \( i \))的殘差串流讀取,決定要關注哪些位置,從那些位置收集資訊,最後將其寫入當前的殘差串流。
注意力頭計算如下:
\[ \text{Attn}_{l,h}(X_{l-1, \leq i}) = \sum_{j \leq i} a_{l,h,i,j} x_{l-1,j} W_{l,h}^V W_{l,h}^O = \sum_{j \leq i} a_{l,h,i,j} x_{l-1,j} W_{l,h}^{OV} \]
可學習的權重矩陣 \( W_{l,h}^V \in \mathbb{R}^{d \times d_h} \) 和 \( W_{l,h}^O \in \mathbb{R}^{d_h \times d} \) 合併為 OV 矩陣 \( W_{l,h}^V W_{l,h}^O = W_{l,h}^{OV} \in \mathbb{R}^{d \times d} \),也稱為 OV (output-value) 電路。對於每個查詢(query)\( i \),給定當前的鍵(key)(\( \leq i \)),注意力權重計算為:
\[ a_{l,h,i} = \text{softmax}\left( \frac{x_{l-1,i} W_{l,h}^Q (X_{l-1, \leq i} W_{l,h}^K)^T}{\sqrt{d_k}} \right) \]
其中 \( W_{l,h}^Q \in \mathbb{R}^{d \times d_h} \) 和 \( W_{h}^Q (W_{h}^K)^T = W_{h}^{QK} \in \mathbb{R}^{d \times d} \) 組合為 QK (query-key) 電路 \[ W_{h}^Q (W_{h}^K)^T = W_{h}^{QK} \in \mathbb{R}^{d \times d} \]
QK 和 OV 電路可以視為負責分別從殘差串流讀取和寫入的單元。注意力區塊的輸出是各個注意力頭的總和,隨後加回到殘差串流:
\[ \text{Attn}_l(X_{l-1, \leq i}) = \sum_{h=1}^H \text{Attn}_{l,h}(X_{l-1, \leq i}) \]
\[ x_{\text{mid},l,i} = x_{l-1,i} + \text{Attn}_l(X_{l-1, \leq i}) \]
前饋網路區塊由兩個可學習的權重矩陣組成:\( W_{l}^{\text{in}} \in \mathbb{R}^{d \times d_{FFN}} \) 和 \( W_{l}^{\text{out}} \in \mathbb{R}^{d_{FFN} \times d} \)。\( W_{l}^{\text{in}} \) 從殘差串流狀態 \( x_{\text{mid},l,i} \) 讀取,其結果通過一個逐元素的非線性激活函數 \( g \),產生神經元激活。這些激活再由 \( W_{l}^{\text{out}} \) 轉換以產生輸出 \( \text{FFN}(x_{\text{mid},i}) \),然後加回到殘差串流:
\[ \text{FFN}_l(x_{\text{mid},l,i}) = g(x_{\text{mid},l,i} W_{l}^{\text{in}}) W_{l}^{\text{out}} \]
\[ x_{l,i} = x_{\text{mid},l,i} + \text{FFN}_l(x_{\text{mid},l,i}) \]
前饋網路的計算可以等同於鍵值記憶體檢索,\( W_{l}^{\text{in}} \) 中的列向量充當輸入序列上的模式檢測器(鍵),每個神經元激活加權了 \( W_{l}^{\text{out}} \) 的列向量(值)。元素式非線性在前饋網路內部創建了一個特權基底,鼓勵特徵與基底方向對齊。
預測層包含一個去嵌入矩陣 \( W_U \in \mathbb{R}^{d \times |V|} \),有時還有一個偏差。最後一個殘差串流狀態透過這個線性映射轉換,將表示轉換為下一個 token 的 logits 分布,再通過 softmax 函數轉換為概率分布。由於模型組件透過相加與殘差串流交互作用,未正規化的分數(logits)是透過組件輸出的線性投影獲得的。基於線性變換的性質,可以重新排列傳統的前向傳遞公式,使每個模型組件直接貢獻於預測的 token 的 logits:
\[ f(x) = x_L^n W_U = \left( \sum_{l=1}^L \sum_{h=1}^H \text{Attn}_{l,h}(X_{l-1}^{\leq n}) + \sum_{l=1}^L \text{FFN}_l(x_{\text{mid},l}^n) + x^n \right) W_U \]
\[ = \sum_{l=1}^L \sum_{h=1}^H \text{Attn}_{l,h}(X_{l-1}^{\leq n}) W_U + \sum_{l=1}^L \text{FFN}_l(x_{\text{mid},l}^n) W_U + x^n W_U \]
注意力頭 logits 更新 前饋網路 logits 更新
這個分解在定位負責預測的組件時扮演重要角色,因為它允許測量每個組件對預測 token 的 logits 的直接貢獻。
殘差網路就像淺層網路的集成,每個子網路定義了計算圖中的一條路徑。將前向傳遞分解為:
\[ f(x) = xW_U + xW_1^{OV} W_U + xW_1^{OV} W_2^{OV} W_U + xW_2^{OV} W_U \]
直接路徑 完整 OV 電路
虛擬注意力頭 (V-composition)
連結輸入嵌入與去嵌入矩陣的路徑稱為直接路徑。穿過單個 OV 矩陣的路徑稱為完整 OV 電路。涉及兩個注意力頭的路徑稱為虛擬注意力頭,執行 V-composition,因為兩個頭的順序寫入和讀取被視為 OV 矩陣的組合。
理解語言模型的內部運作機制意味著定位前向傳遞中負責特定預測的元素(輸入元素、表示和模型組件)。本文介紹了兩種不同類型的方法,允許定位模型行為:輸入歸因和模型組件歸因。
輸入歸因方法通常用於通過估計輸入元素(在語言模型的情況下是 tokens)對定義模型預測的貢獻來定位模型行為。對於像語言模型這樣的神經網路模型,梯度資訊經常被用作歸因目的的自然度量。基於梯度的歸因在這個上下文中涉及 Transformer 在點 \( x \) 處的一階泰勒展開,表示為 \( \nabla f(x) \cdot x + b \)。結果梯度 \( \nabla f_w(x) \in \mathbb{R}^{n \times d} \) 直觀地捕捉了模型對輸入中的每個元素在預測 token \( w \) 時的敏感度。雖然歸因分數是針對輸入 token 嵌入的每個維度計算的,但它們通常在 token 層面匯總,以獲得對個別 token 影響的更直觀概述。這通常是透過取梯度向量相對於第 \( i \) 個輸入嵌入的 \( L_p \) 範數來完成的:
\[ A_{\text{Grad},f_w}^{(x \rightarrow t_i)} = \| \nabla_{x_i} f_w(x) \|_p \]
透過梯度向量與輸入嵌入 \( \nabla_{x_i} f_w(x) \cdot x_i \) 的點積,稱為梯度 × 輸入方法,可以將這種敏感度轉化為重要性估計。然而,這些方法已知會出現梯度飽和和碎裂問題。這一事實促使引入了積分梯度和 SmoothGrad 等方法來過濾嘈雜的梯度資訊。例如,積分梯度近似基線輸入 \( \tilde{x} \) 和輸入 \( x \) 之間直線路徑上的梯度積分:
\[ \int_0^1 \nabla_{x_i} f_w(\tilde{x} + \alpha(x - \tilde{x})) d\alpha \]
隨後提出了適應文本輸入離散性的改編。最後,基於層次相關傳播 (Layer-wise Relevance Propagation, LRP) 的方法已廣泛應用於研究基於 Transformer 的語言模型。這些方法對梯度傳播使用自定義規則,以分解每一層的組件貢獻,確保它們的總和在整個網路中保持不變。
另一個流行的方法族是透過添加噪聲或消融輸入元素並測量對模型預測的結果影響來估計輸入重要性。例如,可以移除位置 \( i \) 處的輸入 token,結果機率差異 \( f_w(x) - f_w(x_{-x_i}) \) 可以用作其重要性的估計。如果給予 \( w \) 的 logit 或機率沒有改變,我們可以得出第 \( i \) 個 token 沒有影響的結論。
雖然原始模型內部資料(如注意力權重)通常被認為提供了不忠實的模型行為解釋,但最近的方法提出了注意力權重的替代方案來測量中間
token
級別的歸因。其中一些替代方案包括使用值加權向量和輸出值加權向量的範數,或使用向量距離來估計貢獻。这些方法的共同策略涉及使用注意力展開等技術聚合反映上下文混合模式的中間每層歸因,得到輸入歸因分數。
一個重要的限制是,歸因的輸出 token 屬於一個大的詞彙空間,在下一個詞預測中經常有語義上等價的 token 競爭機率質量。在這種情況下,歸因分數很可能誤代了驅動模型預測的幾個重疊因素,如語法正確性和語義適當性。最近的工作通過提出這些方法的對比公式來解決這個問題,為模型預測 token \( w \) 而不是替代 token \( o \) 提供反事實解釋。
另一個輸入歸因的維度涉及識別影響推理時特定模型預測的有影響力的訓練樣本。這些方法通常被稱為訓練數據歸因 (TDA) 或實例歸因方法,並被用來識別數據中的人工因素和語言模型預測中偏差的來源。最近的方法提出通過訓練運行模擬來執行 TDA。雖然已建立的 TDA 方法的適用性受到質疑,特別是由於其低效率,但這個領域最近的工作產生了更有效的方法,可以大規模應用於大型生成模型。
早期關於 Transformer 語言模型組件重要性的研究強調了模型能力的高度稀疏性。例如,即使刪除模型中相當一部分的注意力頭,也可能不會使其下游性能惡化。這些結果激發了一條新的研究路線,研究語言模型中的各種組件如何貢獻於其廣泛的能力。
讓我們稱組件 \( c \)(注意力頭或前饋網路)在特定層上對最後一個 token 位置的輸出表示為 \( f_c(x) \)。等式 (10) 中提出的分解允許我們測量每個模型組件對輸出 token \( w \in V \) 的直接 logit 歸因 (DLA):
\[ A_{DLA,f_w}^{(x \rightarrow c)} = f_c(x) W_U[:,w] \]
其中 \( W_U[:,w] \) 是 \( W_U \) 的第 \( w \) 列,即 token \( w \) 的去嵌入向量。實際上,組件 \( c \) 的 DLA 表示 \( c \) 對預測 token 的 logit 的貢獻,使用第 2.2 節中描述的模型組件的線性特性。
我們可以將模型的計算視為一個因果模型,並使用因果工具來闡明每個模型組件 \( c \in C \) 在不同位置對預測的貢獻。因果模型可以看作是一個有向無環圖 (DAG),其中節點是模型計算,邊是激活。
我們可以通過改變前向傳遞中由模型組件計算的某些節點值 \( f_c(x) \) 到另一個值 \( \tilde{h} \) 來干預模型,這被稱為激活修補。我們可以使用 do 算子表示這個干預:\( f(x \mid \text{do}(f_c(x) = \tilde{h})) \)。然後我們測量修補後預測的變化:
\[ A_{\text{Patch}, f}^{(x \rightarrow c)} = \text{diff}(f(x), f(x \mid \text{do}(f_c(x) = \tilde{h}))) \]
其中 \(\text{diff}(\cdot, \cdot)\) 函數的常見選擇包括 KL 散度和 logit/機率差異。修補後的激活 (\(\tilde{h}\)) 可以來自各種來源。一種常見的方法是創建一個具有分布 \(P_{\text{patch}}\) 的反事實數據集,其中一些關於任務的輸入信號被反轉。這種方法會導致兩種不同類型的消融:
- 重採樣干預,其中修補後的激活是從 \(P_{\text{patch}}\) 的單個樣本中獲得的,即 \(\tilde{h} = f_c(\tilde{x}), \tilde{x} \sim P_{\text{patch}}\)。
- 平均干預,其中多個 \(P_{\text{patch}}\) 樣本的平均激活用於修補,即 \(\tilde{h} = \mathbb{E}_{\tilde{x} \sim P_{\text{patch}}}[f_c(\tilde{x})]\)。
另外,修補激活的其他來源包括:
- 零干預,其中激活被替換為空向量,即 \(\tilde{h} = 0\)。
- 噪聲干預,其中新的激活是通過在受擾動的輸入上運行模型獲得的,例如 \(\tilde{h} = f_c(x + \epsilon), \epsilon \sim N(0, \sigma^2)\)。
在設計因果干預實驗時需要考慮的一個重要因素是設置的生態效度,因為零消融和噪聲消融可能使模型偏離自然激活分布,最終破壞組件分析的有效性。
機制可解釋性 (Mechanistic Interpretability) 子領域專注於將神經網路逆向工程為人類可理解的算法。MI 的最新研究旨在揭示電路的存在,電路是一組共同交互作用以解決任務的模型組件(子圖)。激活修補、logit 歸因和注意力模式分析是電路發現的常用技術。
邊緣修補和路徑修補利用每個模型組件輸入是其殘差串流中先前組件輸出之和這一事實,並考慮直接連接成對模型組件節點的邊。路徑修補將邊緣修補方法推廣到多條邊,允許更細粒度的分析。例如,使用等式中描述的淺層網路的前向傳遞分解,我們可以將圖中的單層 Transformer 視為由以下組件組成:
\[ f(x) = \text{Attn}(X^{\leq n}) W_u + \text{FFN}(\text{Attn}(X^{\leq n}) + x_n)W_u + x_n W_u \]
這裡的各個路徑包括:
- 直接從Attn到logits。
- 通過FFN再到logits的間接路徑。
其中每個發送節點Attn\( _L(X_{L-1}^{\leq n}) \)的副本都與單個路徑相關。在這個例子中,分別修補每個發送節點副本允許我們估計Attn\( _L(X_{L-1}^{\leq n}) \)對輸出logits\( f(x) \)的直接和間接效應。一般來說,我們可以將路徑修補應用於網路中的任何路徑,並測量頭部之間的組合、FFN或這些組件對logits的影響。
基於因果干預的電路分析存在幾個缺點:
1. 它需要為要評估的任務設計輸入模板,以及反事實數據集(即定義\( P_{\text{patch}} \))方面的大量努力。
2. 在獲得組件重要性估計後,需要人工檢查和領域知識來分離重要的子圖。
3. 已經表明,干預會在下游組件的行為中產生二階效應,在某些情況下甚至會引發類似於自我修復的補償行為。這種現象會使得難以得出關於每個組件作用的結論。
為了克服這些限制,Conmy等人提出了一種自動電路發現(ACDC)算法,通過迭代移除計算圖中的邊來自動識別電路的過程。然而,這個過程需要大量的前向傳遞(每個修補元素一次),在研究大型模型時變得不切實際。
修補的一個有效替代方法是基於梯度的方法,這些方法已經擴展到超越輸入歸因,以計算中間模型組件的重要性。例如,給定token預測\( w \),為了計算中間層\( l \)的歸因,表示為\( f_l(x) \),計算梯度\( \nabla f_w(f_l(x)) \)。Sarti等人將等式中的對比梯度歸因公式擴展到使用單次前向和後向傳遞來定位對正確延續的預測貢獻大於錯誤延續的組件。Nanda等人提出了邊緣歸因修補(EAP),包括修補前後預測差異的線性近似,以估計計算圖中每個邊的重要性。這種方法的主要優點是它只需要兩次前向傳遞和一次後向傳遞就可以獲得圖中每個邊的歸因分數。
另一個研究方向是在較低層次的神經網路中尋找可解釋的高層次因果抽象概念。這些方法涉及大量的計算搜索,並假設高層次變數與單元或神經元組對齊。為了克服這些限制,Geiger等人提出了分佈式對齊搜索(Distributed Alignment Search, DAS),它在通過梯度下降找到的低層次表示空間的非基底對齊子空間上執行分佈式交換干預(Distributed Intervention Interchange, DII)。DAS干預在使用語法評估尋找具有因果影響的特徵方面被證明是有效的,同時在分離實體的個別屬性的因果效應方面也有顯著效果。
最後,在Transformer語言模型的內部行為方面,本文總結了以下主要發現:
注意力區塊:
- 位置頭:有些頭主要關注相對於正在處理的token的特定位置,如token本身、前一個token或下一個位置。
- 子詞連接頭: 專門關注屬於與當前處理的token相同詞的前一個子詞token。
- 語法頭: 一些頭關注具有與被處理token相關語法角色的token,明顯多於隨機基準。
- 重複token:** 關注上下文中同一個token的先前出現。
- 複製頭: OV矩陣表現出複製行為。
- 歸納頭: 由兩個在不同層組合的頭組成,讓語言模型完成模式。一個早期的前一個token頭將第一個token A的資訊複製到B的殘差流,然後一個下游的歸納頭關注token B,增加B的可能性。
- 複製抑制頭: 如果它們出現在上下文中並且當前殘差流正在自信地預測它,則減少它們關注的token的logit分數。
前饋網路區塊:
- 神經元的輸入行為:有些神經元僅在特定位置範圍上激發;技能神經元,其激活與輸入提示的任務相關;概念特定神經元,其反應可用於預測上下文中概念的存在。
- 神經元的輸出行為:有些神經元促進與特定語義和句法概念相關的token的預測;一小部分後層神經元負責做出在語言上可接受的預測;抑制不可能延續的神經元。
- 多語義神經元: 早期層的大多數神經元專門用於n-gram集合,充當n-gram偵測器,大多數神經元在大量n-gram上激發。
殘差流:
- 殘差流可以被視為Transformer中的主要通訊通道。直接路徑主要對應於bi-gram統計,而網路中的最新偏差根據詞頻轉移預測,促進高頻token。
- 一些組件執行記憶體管理,以移除存儲在殘差流中的資訊。例如,有負特徵值的OV矩陣關注當前位置的注意力頭,以及輸入和輸出權重具有較大負餘弦相似性的前饋網路神經元。
- 在殘差流中發現了離群值維度。這些維度展現出相對於其他維度的大幅度,與各向異性表示的生成相關聯。消融離群值維度已被證明會顯著降低下游性能,表明它們編碼任務特定的知識。
多組件行為:
- 歸納機制: 是兩個組件(注意力頭)組合在一起以完成模式的一個明顯例子。最近的證據表明,多個注意力頭協同工作,在給定上下文樣本時創建描述任務的「函數」或「任務」向量。
- Variengien 和 Winsor 研究了涉及回答可以在上下文中找到答案的請求的上下文檢索任務
- 作者確定了一種在子任務和模型之間通用的高層次機制。具體而言,中間層處理請求,然後由後層的注意力頭執行從上下文中檢索實體的步驟。
- 在 GPT-2 Small 中發現了用於間接賓語識別 (IOI) 任務的電路,主要包括:
- 重複信號:重複token頭和涉及前一個token頭的歸納機制表明S(John)的重複性。這個資訊被最後位置的S-抑制頭讀取,它們在殘差流中寫入一個token信號,表明S被重複,以及S1 token的位置信號。
- 名稱複製: 後層的名稱移動頭將它們在上下文中關注的名稱的資訊複製到最後的殘差流。然而,先前層S-抑制頭的信號修改了名稱移動頭的query,使得重複的名稱(在S1和S2中)受到較少關注,有利於複製間接賓語(IO),從而推動其預測。
這篇論文全面而深入地介紹了目前用於解釋 Transformer 語言模型內部運作的技術,並總結了通過這些方法得到的關於模型內部機制的見解。作者強調,雖然在可解釋性研究方面取得了顯著進展,但將這些見解應用於調試和改進未來模型的安全性和可靠性,為開發人員和用戶提供更好的工具來與之交互並理解影響其預測的因素,仍然是一個巨大的挑戰。未來可解釋性研究的發展將面臨從在模型組件空間運作的方法和分析轉向人類可解釋空間(即從模型組件到特徵和自然語言解釋)的挑戰性任務,同時仍然忠實地反映模型行為。
此外,跨學科研究將在擴大可解釋性分析的範圍方面發揮關鍵作用,以考慮從人的角度看模型解釋的感知和交互維度。最終,作者認為,確保對先進語言模型的內部機制的開放和便利訪問,將仍然是這一領域未來進展的基本先決條件。
這篇綜述論文對於理解 Transformer 語言模型的內部運作機制,以及目前在這個領域的最新研究進展,提供了全面而詳盡的概覽。透過系統性地介紹各種可解釋性技術,並深入探討它們揭示的模型內部行為,本文為相關研究人員提供了寶貴的參考。
不過,正如作者所指出,將這些見解應用到實際中仍面臨諸多挑戰。未來的可解釋性研究需要在忠實反映模型行為的同時,努力向更加貼近人類直觀理解的方向發展。這需要不同學科領域的通力合作。此外,開放模型內部機制的訪問,或許是這一領域能夠取得突破性進展的關鍵。
沒有留言:
發佈留言