code window

2024年4月29日星期一

解決長篇語音轉譯中的斷句問題

Google Research與Johns Hopkins共同˙發表了這篇論文:

「Long-Form Speech Translation through Segmentation with Finite-State Decoding Constraints on Large Language Models」,探討如何利用大型語言模型(Large Language Models, LLMs)來進行長篇語音轉譯的斷句,以提升整體翻譯品質。

語音轉譯通常採用串聯式(cascade)方法,將語音辨識(ASR)和機器翻譯(MT)分開處理。但MT模型大多以句子為單位進行獨立翻譯,對於冗長的段落或語音輸入,往往會產生錯誤或品質下降。因此,如何將長篇語音轉譯內容適當斷句,使其成為可獨立翻譯的片段,是一個重要的研究課題。


實驗方法:

1. 滑動視窗法(Windowing Approach):考慮到輸入序列可能非常長,作者採用滑動視窗將其切分為固定長度的片段,每個片段有部分重疊以獲取上下文資訊。此方法兼顧雙向資訊和計算效率。

2. 大型語言模型(LLMs):作者將斷句任務視為序列到序列(sequence-to-sequence)問題,利用T5和PaLM等預訓練大型語言模型進行few-shot或fine-tuning學習。透過prompt engineering引導模型生成帶有斷句標記的輸出序列。

3. 有限狀態約束(Finite-State Constraints):為確保LLM生成的輸出格式正確(well-formed),作者引入有限狀態約束進行解碼,排除不合法的輸出,無需額外訓練。此外,也可用Levenshtein對齊演算法進行後處理校正。  

4. 訓練資料擴增:作者以真實語音辨識結果(含語音錯誤)fine-tune LLM,提升對非流暢輸入的豐富性(Robustness, 我不是很喜歡翻譯成魯棒姓)。


實驗結果:

在三個語言(英文到德文、西班牙文、阿拉伯文)的IWSLT語音翻譯測試集上,作者的方法相較傳統基線(先斷句再翻譯),平均可提升2.9 BLEU分數,大幅縮減與上界(先斷句再以人工斷句projected到ASR output)的差距。

- 有限狀態約束對模型輸出品質的影響顯著,尤其是在小模型、prompt tuning、few-shot等情境。

- 以ASR結果fine-tune LLM可提升斷句準確率,但對翻譯品質的進一步提升有限。

- 定性分析發現,ASR錯誤仍是LLM剩餘斷句錯誤的主因。增大sliding window可減少extra-long phrases。 

本文展示了如何利用大型語言模型搭配有限狀態約束,解決長篇語音轉譯中的斷句問題,在多個測試集上取得顯著效果提升。在現有串聯式語音轉譯架構下,此方法可即插即用,不需修改下游MT模型。

https://arxiv.org/pdf/2310.13678.pdf

IWSLT (International Workshop on Spoken Language Translation) 是一個專注於口語翻譯研究的年度研討會,其目的是促進語音轉譯技術的發展。作為研討會的一部分,IWSLT提供了多種語言pair的語音翻譯測試集,供研究者評估和比較他們的系統性能。

IWSLT語音翻譯測試集的主要特點如下:

1. 語料類型:測試集的語音資料主要來自TED演講,內容涵蓋科技、娛樂、設計等多個領域。這些演講通常篇幅較長,語速適中,且經過人工轉錄和翻譯。

2. 語言pairs:IWSLT提供了多種源語言到目標語言的組合,如英語到德語、英語到中文、英語到日語等。每個語言pair都有獨立的語音轉譯測試集。

3. 評估方式:參與者需要將源語言語音轉錄為文字(ASR),再將文字翻譯為目標語言(MT)。最終的翻譯結果將與人工翻譯參考答案進行比較,通常使用BLEU等自動評估指標計算分數。

4. 數據集劃分:每年的IWSLT語音翻譯測試集通常分為三部分:訓練集(train)、開發集(dev)和測試集(test)。訓練集用於模型訓練,開發集用於調參和模型選擇,測試集則用於評估最終系統性能。

5. 延續性:IWSLT測試集每年都會更新和發布,因此研究者可以在同一基準上追踪語音翻譯技術的進展。部分測試集(如IWSLT 2018)會被重復使用,以保證橫向比較的可能性。


舉例而言,在本文中作者使用了IWSLT英德、英西、英阿三個語言pair的語音翻譯測試集,其中訓練集和開發集來自IWSLT 2014,測試集包括IWSLT 2015和2018。通過在這些公開測試集上評估斷句方法,作者展示了其技術相較基線的優越性能。

總的來說,IWSLT語音翻譯測試集為口語翻譯研究提供了標準化的評估平台,推動了該領域的技術進步。不過受限於語料類型和領域,結果還需要結合更多實際應用場景進行驗證和調適。

儘管LLM在該任務表現優異,但其推論成本高、延遲長,尚不適合線上即時系統。未來可朝向更長篇章、端到端、ASR錯誤修正等方向繼續研究。本研究豐富了長篇語音轉譯的解決方案,對後續研究相當具有啟發性。


BLEU (Bilingual Evaluation Understudy) 是一種常用於評估機器翻譯品質的指標。它通過比較機器翻譯輸出與人工參考翻譯之間的相似度來給出一個數值分數,範圍通常在0到1之間(或0到100)。分數越高,表示機器翻譯輸出與人工翻譯越接近,品質也越好。

BLEU的計算方式如下:

1. N-gram精確度(N-gram precision):計算機器翻譯輸出中,有多少N-gram(通常N=1,2,3,4)出現在參考翻譯中。這衡量了翻譯的精確度。

2. 修正的N-gram精確度:為避免機器翻譯輸出過度重複高頻N-gram以獲得較高分數,BLEU對每個N-gram在參考翻譯中的出現次數設置了上限(clipped)。

3. 懲罰因子(Brevity Penalty):若機器翻譯輸出長度遠小於參考翻譯,即使N-gram精確度高,也會受到懲罰。這是為了避免過短的翻譯獲得較高分數。

4. 加權幾何平均值:將不同N的精確度(N=1,2,3,4)取加權幾何平均,再乘以懲罰因子,得到最終的BLEU分數。

舉例來說,假設機器翻譯輸出為 "the cat is on the mat",參考翻譯為 "there is a cat on the mat",則:

- 1-gram精確度為3/6(the,cat,on)

- 2-gram精確度為1/5(the cat)

- 3-gram精確度為0/4

- 4-gram精確度為0/3

假設加權為平均權重,懲罰因子為1(長度相等),則BLEU分數約為0.47。

需要注意的是,BLEU僅基於N-gram重疊度,無法考慮語義、語法等因素,因此並非完美指標。但由於其簡便性和與人工評估的高度相關性,仍被廣泛用於機器翻譯的評估和比較。在實務上,通常會搭配其他指標(如METEOR、TER)和人工評估一起使用。

沒有留言:

發佈留言

SambaNova SN40L: 利用Dataflow和專家組合(COE)來克服AI記憶牆的大模型

摘要 GPT-4等整體式大型語言模型(LLM)為現代生成AI應用鋪路。然而,大規模訓練、服務及維護整體式LLM仍然極其昂貴和充滿挑戰。現代AI加速器計算能力與記憶體比例的不成比例增長已經造成了記憶體壁障,需要新的方法來部署AI。最近的研究顯示,許多小型專家模型的組合,每個模型參數...