目前我正協助一家UC/CC公司進行業務戰略轉型及新產品開發, 所以就精讀了這篇我工作相關的報告。也希望跟相關合作的硬體公司進行更深入的探討。
近年來,大規模零樣本語音合成的進展,在語言模型和擴散模型的推動下取得了顯著的進步。然而,這兩種方法的生成過程都相當緩慢且計算密集。在有限的計算資源下,如何達到與之前研究相當的合成品質,仍然是一個重大挑戰。本文提出了FlashSpeech,一個約只需要先前研究5%推論時間的大規模零樣本語音合成系統。FlashSpeech建構在潛在一致性模型(Latent Consistency Model)之上,並應用一種新穎的對抗式一致性訓練方法,該方法可以從頭開始訓練,而無需預訓練的擴散模型作為教師模型。此外,新的韻律生成器模組增強了韻律的多樣性,使得合成語音的節奏聽起來更加自然。FlashSpeech的生成過程可以在一到兩個採樣步驟內高效完成,同時在零樣本語音生成場景中維持高音訊品質和與參考音訊的高相似度。實驗結果展示了FlashSpeech的優異表現。值得注意的是,FlashSpeech的速度比其他零樣本語音合成系統快約20倍,同時在語音品質和相似度方面表現可媲美。此外,FlashSpeech還展現了在語音轉換、語音編輯和多樣化語音採樣等任務中的多功能性和高效性。
引言
大規模生成模型的出現,改變了語音合成領域的格局。在大幅增加資料集和模型大小後,最新的研究成果實現了零樣本語音合成系統的顯著進步,即在推論階段生成具有未見說話人特徵的語音,而無需額外訓練。目前先進的零樣本語音合成系統通常利用語言模型和擴散式模型,在大規模資料集上進行上下文學習(in-context learning),以生成自然且具有多樣說話人身份和韻律的語音。然而,這些方法的生成過程需要長時間的迭代。以VALL-E為例,它採用Encodec將音訊波形離散化為符號,再使用語言模型預測75個音訊符號序列以生成1秒鐘的語音,屬於第一階段的自回歸(autoregressive)符號序列生成。而使用非自回歸(non-autoregressive)的潛在擴散模型框架時,如NaturalSpeech 2,仍需要150個採樣步驟。因此,雖然這些方法可以生成接近人聲的語音,但它們需要大量的計算時間和成本。
一些研究致力於加速生成過程。Voicebox採用流匹配(flow-matching)技術,因此可以用更少的採樣步驟實現最佳的傳輸路徑。ClaM-TTS則提出一個壓縮率更高的梅爾頻譜編解碼器(mel-codec)和一個可一次生成多個符號堆疊的潛在語言模型。雖然這些方法在一定程度上緩解了生成速度慢的問題,但推論速度仍遠未達到實際應用的理想水平。此外,這些方法大量的計算時間也導致巨大的計算成本開銷,這是另一個挑戰。
語音生成的根本限制在於語言模型和擴散模型的內在機制,它們需要大量的時間進行自回歸或通過多步去噪過程生成。因此,本研究的主要目標是在保持與先前研究相當的生成品質的同時,加快推論速度並降低計算成本。本文提出FlashSpeech作為邁向高效零樣本語音合成的下一步。為了解決生成速度慢的挑戰,該研究利用最近在生成模型領域的進展——潛在一致性模型(Latent Consistency Model, LCM)。在先前的非自回歸TTS系統的基礎上,該研究採用神經音訊編解碼器的編碼器將語音波形轉換為潛在向量,作為LCM的訓練目標。為了訓練這個模型,該研究提出了一種新穎的對抗式一致性訓練方法,利用預訓練的語音語言模型作為鑑別器(discriminator)。這有助於將大型預訓練語音語言模型的知識遷移到語音生成任務中,高效地整合對抗訓練和一致性訓練以提升性能。LCM以從音素編碼器、提示編碼器和韻律生成器獲得的先驗向量為條件。此外,該研究證明了新提出的韻律生成器可在保持穩定性的同時,提高韻律的多樣性。
本研究的貢獻可總結如下:
- 該研究提出了FlashSpeech,一個高效的零樣本語音合成系統,可在零樣本場景中生成高音質、高相似度的語音。
- 該研究引入了對抗式一致性訓練,這是一種新穎的結合一致性訓練和對抗訓練的方法,利用預訓練的語音語言模型,可從頭開始訓練潛在一致性模型,實現一到兩步的語音生成。
- 該研究提出一個韻律生成器模組,可在保持穩定性的同時增強韻律的多樣性。
- FlashSpeech在音訊品質方面顯著優於強基準模型,並在說話人相似度方面與之相當。值得注意的是,它以大約是其他可比系統20倍的速度實現了這一點,展現了前所未有的效率。
相關工作
大規模語音合成
受大型語言模型成功的啟發,語音研究社區最近越來越關注透過顯著增加模型和訓練資料的規模來提升泛化能力,在零樣本設定下產生具有多樣說話人身份和韻律的自然語音。先驅性的工作是VALL-E,它採用Encodec將音訊波形離散化為符號,因此可以透過上下文學習來訓練語言模型,生成風格與提示語音一致的目標語音。然而,以這種自回歸方式生成音訊可能導致韻律不穩定、跳字和重複等問題。為確保系統的豐富性,非自回歸方法如NaturalSpeech2和Voicebox利用擴散式模型(如VP-diffusion或flow-matching)來學習mel頻譜圖或編解碼器潛在向量等連續中間向量的分佈。基於語言模型和基於擴散模型的方法都在語音生成任務中表現出色。然而,由於需要迭代計算,它們的生成速度很慢。考慮到許多語音生成場景需要即時推論和低計算成本,該研究採用潛在一致性模型進行大規模語音生成,可以在一到兩步內完成推論,同時保持高音訊品質。
語音合成的加速
由於早期的神經語音生成模型使用自回歸模型(如Tacotron和TransformerTTS),導致推論速度緩慢,計算複雜度為O(N),其中N為序列長度。為了解決推論速度慢的問題,FastSpeech提出以非自回歸方式生成梅爾頻譜圖。然而,由於使用回歸損失和建模方法的能力限制,這些模型會導致模糊和過度平滑的梅爾頻譜圖。為了進一步提高語音品質,採用了擴散模型,計算複雜度增加到O(T),其中T為擴散步數。因此,針對基於擴散的方法的蒸餾技術(如CoMoSpeech、CoMoSVC和Reflow-TTS)應運而生,將採樣步驟減少回O(1),但需要額外預訓練擴散模型作為教師模型。與需要預訓練額外的擴散模型作為教師並受其性能限制的先前蒸餾技術不同,本研究提出的對抗式一致性訓練技術可以直接從頭訓練,顯著降低了訓練成本。此外,先前的加速方法僅在有限資料多樣性的說話人有限錄音室資料集上進行驗證。據該研究所知,FlashSpeech是第一個在大規模語音生成系統中將計算成本降低回O(1)的工作。
一致性模型
一致性模型最初在圖像生成中提出,透過直接將噪聲映射到資料來生成高品質的樣本。此後,許多變體被提出以進一步提高圖像生成品質。潛在一致性模型是由Luo等人提出,可以直接在潛在空間中預測PF-ODE的解。然而,原始的LCM採用在預訓練潛在擴散模型(LDM)上進行一致性蒸餾,利用大規模現成的圖像擴散模型。由於語音社群中沒有預訓練的大規模TTS模型,並受到相關技術的啟發,該研究提出了新穎的對抗式一致性訓練方法,利用大型預訓練語音語言模型(如WavLM)可以直接從頭訓練用於語音生成的大規模潛在一致性模型。
FlashSpeech
總覽
該研究的工作致力於提高語音合成效率,在保持與先前研究相當的性能的同時,將計算成本降低到O(1)。圖2展示了所提出的FlashSpeech框架。FlashSpeech整合了神經編解碼器、音素和提示編碼器、韻律生成器以及LCM,這些模組在訓練和推論階段都會使用。只有在訓練期間,才會採用條件式鑑別器。FlashSpeech採用上下文學習範式,首先將從編解碼器提取的潛在向量z分割成z_target和z_prompt。然後,音素和z_prompt通過編碼器生成隱藏特徵。接著,韻律生成器根據隱藏特徵預測音高和時長。將音高和時長嵌入與隱藏特徵結合,作為LCM的條件特徵輸入。LCM模型使用對抗式一致性訓練從頭開始訓練。訓練後,FlashSpeech可以在一到兩個採樣步驟內實現高效生成。
潛在一致性模型
一致性模型是一種新的生成模型家族,可以實現一步或少步生成。讓該研究將資料分佈表示為\(p_data(x)\)。一致性模型的核心思想是學習一個將PF-ODE軌跡上任意點映射到該軌跡原點的函數,可以表示為:
$$f(x_σ, σ) = x_σmin$$
其中\(f(·,·)\)是一致性函數,\(x_σ\)表示通過添加標準差為σ的零均值高斯噪聲擾動的資料\(x_σmin\)是一個固定的小正數。然後可以將\(x_σmin\)視為資料分佈\(p_data(x)\)的近似樣本。為了滿足方程\((1)\)的性質,該研究參考Song等人的工作,將一致性模型參數化為
$$f_θ(x_σ, σ) = c_skip(σ)x + c_out(σ)F_θ(x_σ, σ)$$
其中\(f_θ\)是通過從資料中學習來估計一致性函數f的模型,\(F_θ\)是參數為θ的深度神經網路,\(c_skip(σ)\)和\(c_out(σ)\)是可微分函數,並滿足\(c_skip(σmin)=1\)和\(c_out(σmin)=0\)以確保邊界條件。一個有效的一致性模型應滿足自一致性性質:
$$f_θ(x_σ, σ) = f_θ(x_σ', σ'), ∀σ, σ'∈[σmin, σmax].$$
其中\(σmax=80,σmin=0.002\),與先前研究一致。然後,模型可以通過計算以下公式在一步內生成樣本:
$$x_σmin = f_θ(x_σmax, σmax)$$
其中\(x_σmax∼N(0,σ^2max*I)\)。
由於該研究將一致性模型應用於音訊的潛在空間,因此使用編解碼器提取的潛在特徵\(z\):
$$z = CodecEncoder(y)$$
其中y是語音波形。此外,該研究添加來自韻律生成器和編碼器的特徵作為條件特徵c,該研究的目標已變為實現:
$$f_θ(z_σ, σ, c) = f_θ(z_σ', σ', c), ∀σ, σ'∈[σmin, σmax].$$
在推論過程中,合成的波形ŷ通過編解碼器解碼從預測的ẑ轉換而來。預測的ẑ通過一步採樣獲得:
$$ẑẑ = f_θ(ϵ * σmax, σmax)$$
或通過兩步採樣獲得:
$$ẑ_inter = f_θ(ϵ * σmax, σmax)$$
$$ẑ = f_θ(ẑ_inter + ϵ * σinter, σinter)$$
其中\(ẑ_inter\)表示中間步驟,\(σinter\)經驗性地設置為2。\(ϵ\)從標準高斯分佈中採樣。
對抗式一致性訓練
LCM的一個主要缺點是需要在第一階段預訓練基於擴散的教師模型,然後執行蒸餾以產生最終模型。這會使訓練過程變得複雜,並且由於蒸餾,性能會受到限制。為了消除對教師模型訓練的依賴,本文提出了一種新穎的對抗式一致性訓練方法,可以從頭開始訓練LCM。該研究的訓練過程如圖3所示,包括三個部分:
一致性訓練
為了實現方程(3)中的性質,該研究採用以下一致性損失:
$$L^N_ct(θ, θ^-) = E[λ(σi)d(f_θ(z_(i+1), σ_(i+1), c), f_θ^-(z_i, σ_i, c))].$$
其中\(σi\)表示離散時間步i的噪聲級別,\(d(·,·)\)是距離函數,\(f_θ(z_(i+1)\), \(σ_(i+1), c)\)是具有較高噪聲級別的學生模型,\(f_θ^-(z_i, σ_i, c)\)是具有較低噪聲級別的教師模型。離散時間步表示為\(σmin = σ0 < σ1 < · · · < σN = σmax\),在時間區間\([σmin, σmax]\)中劃分,其中離散化課程\(N\)隨著訓練步數的增加而相應增加:
$$N(k) = min(s0 * 2^⌊k/K'⌋, s1) + 1$$
其中\(K' = ⌊K/(log2⌊s1/s0⌋+1)⌋\),\(k\)是當前訓練步,\(K\)是總訓練步數。\(s1\)和\(s0\)是控制\(N(k)\)大小的超參數。距離函數\(d(·,·)\)使用偽Huber度量:
$$d(x, y) = √(∥x - y∥^2 + a^2) - a$$
其中\(a\)是可調常數,使訓練對異常值更加穩健,因為它對大錯誤施加的懲罰小於\(ℓ2\)損失。教師模型的參數\(θ^-\)為:
$$θ^- ←− stopgrad(θ)$$
與學生參數\(θ\)相同。這種方法已被證明可以提高先前使用不同衰減率的策略的樣本品質。權重函數參考:
$$λ(σi) = 1/(σ_(i+1) - σ_i)$$
強調較小噪聲級別的損失。通過一致性訓練,LCM可以在幾個步驟內生成可接受品質的語音,但仍不及先前方法。因此,為了進一步提高生成樣本的品質,該研究整合了對抗訓練。
對抗訓練
對於對抗目標,生成的樣本\(ẑ ← f_θ(z_σ, σ, c)\)和真實樣本z被傳遞給鑑別器\(D_η\),鑑別器旨在區分它們,其中\(η\)表示可訓練的參數。因此,該研究採用對抗訓練損失:
$$L_adv(θ, η) = E_z[log D_η(z)] + E_σ E_z_σ[log(1 - D_η(f_θ(z_σ, σ, c)))].$$
通過這種方式,來自鑑別器的錯誤信號引導\(f_θ\)產生更真實的輸出。
具體而言,該研究使用凍結的預訓練語音語言模型SLM和可訓練的輕量級鑑別器頭\(D_head\)來構建鑑別器。由於當前SLM是在語音波形上訓練的,該研究使用編解碼器將z和ẑ轉換為真實波形和預測波形。為了進一步增加提示音訊與生成音訊之間的相似度,該研究的鑑別器以提示音訊特徵為條件。這個提示特徵\(F_prompt\)是通過在提示音訊上使用SLM並在時間軸上應用平均池化獲得的。因此,
$$D_η = D_head(F_prompt ⊙ F_gt, F_prompt ⊙ F_pred)$$
其中\(F_gt\)和\(F_pred\)分別表示通過SLM提取的真實波形和預測波形的特徵。鑑別器頭由多個\(1D\)卷積層組成。鑑別器的輸入特徵通過投影以\(F_prompt\)為條件。
整合在一起
由於一致性損失和對抗損失之間的損失尺度存在巨大差距,可能導致訓練不穩定和失敗。因此,該研究參考Esser等人的工作,用以下公式計算自適應權重:
$$λ_adv = ∥∇_θ_L L^N_ct(θ, θ^-)∥ / ∥∇_θ_L L_adv(θ, η)∥$$
其中\(θ_L\)是LCM中神經網路的最後一層。訓練LCM的最終損失定義為\(L^N_ct(θ, θ^-) + λ_adv L_adv(θ, η)\)。這種自適應加權通過平衡每項的梯度尺度顯著地穩定了訓練。
韻律生成器
韻律預測分析
先前的韻律預測回歸方法由於其確定性映射和單峰分佈假設,往往無法捕捉人類語音韻律固有的多樣性和表現力。這導致預測缺乏變化且可能顯得過度平滑。另一方面,用於韻律預測的擴散方法提供了一個有前景的替代方案,通過提供更大的韻律多樣性。然而,它們在穩定性方面存在挑戰,並且可能產生不自然的韻律。此外,DM中的迭代推理過程需要大量的採樣步驟,這也可能阻礙實時應用。同時,基於LM的方法也需要長時間推理。為了緩解這些問題,該研究的韻律生成器由韻律回歸模組和韻律細化模組組成,通過高效的一步一致性模型採樣來增強韻律回歸結果的多樣性。
通過一致性模型進行韻律細化
如圖4所示,該研究的韻律生成器由兩部分組成,即韻律回歸和韻律細化。該研究首先訓練韻律回歸模組以獲得確定性輸出。接下來,該研究凍結韻律回歸模組的參數,並使用真實韻律與確定性預測韻律之間的殘差作為韻律細化的訓練目標。該研究採用一致性模型作為韻律細化模組。一致性模型的條件特徵是來自韻律回歸最終投影層之前的特徵。因此,隨機採樣器的殘差細化了確定性韻律回歸的輸出,並在相同的轉錄和音訊提示下產生一組多樣的合理韻律。最終韻律輸出\(p_final\)的一個選項可以表示為:
$$p_final = p_res + p_init$$
其中\(p_final\)表示最終韻律輸出,\(p_res\)表示韻律細化模組的殘差輸出,捕獲真實韻律與確定性預測之間的變化,\(p_init\)是韻律回歸模組的初始確定性韻律預測。
然而,這種公式可能會對韻律穩定性產生負面影響,類似的觀察結果也在其他研究中發現。更具體地說,更高的多樣性可能會導致較低的穩定性,有時會產生不自然的韻律。為了解決這個問題,該研究引入一個控制因子\(α\),可以精細調整韻律輸出中穩定性和多樣性之間的平衡:
$$p_final = α * p_res + p_init$$
其中\(α\)是介於0和1之間的標量值。這種調整允許以受控的方式將可變性融入韻律,緩解了與穩定性相關的問題,同時仍能從韻律細化模組提供的多樣性中獲益。
應用
本節闡述了FlashSpeech的實際應用。該研究深入探討了它在各種任務中的部署,如零樣本TTS、語音編輯、語音轉換和多樣化語音採樣。所有應用的音訊樣本都可以在demo頁面上找到。
零樣本TTS
給定目標文本和參考音訊,該研究首先使用g2p(字母到音素轉換)將文本轉換為音素。然後該研究使用編解碼器將參考音訊轉換為\(z_prompt\)。通過FlashSpeech的音素輸入和\(z_prompt\),可以高效地合成語音,在不需要對特定聲音進行預訓練的情況下實現高品質的文本到語音轉換結果。
語音轉換
語音轉換旨在使用參考音訊的說話人聲音將源音訊轉換為目標音訊。參考Shen等人和Preechakul等人的工作,該研究首先將源音訊擴散到一個起始點,該起始點仍然保留源音訊中的一些資訊。之後,該研究從這個起始點開始執行採樣過程,以參考音訊作為\(z_prompt\)和條件\(c\)。條件\(c\)使用源音訊的音素和時長,音高由韻律生成器預測。這種方法允許在保留源音訊語言內容的同時進行零樣本語音轉換,並實現與參考音訊相同的音色。
語音編輯
給定語音、原始轉錄和新轉錄,該研究首先使用MFA(Montreal Forced Aligner)將語音與原始轉錄對齊,以獲得每個詞的時長。然後該研究刪除需要編輯的部分以構建參考音訊。接下來,該研究使用新的轉錄和參考來合成新的語音。由於這個任務與上下文學習一致,該研究可以將原始語音的剩餘部分與合成部分連接起來作為最終語音,從而實現精確無縫的語音編輯。
多樣化語音採樣
FlashSpeech利用其固有的隨機性在相同條件下生成各種語音輸出。通過在其韻律生成和LCM中採用隨機採樣,FlashSpeech可以從相同的音素輸入和音訊提示中產生音高、時長和整體音訊特徵的多種變化。這一特性對於從單一輸入生成各種語音表達和風格特別有用,增強了語音合成在配音、虛擬助手的合成語音變化以及更個性化等應用中的能力。此外,通過語音採樣合成的資料也可以使其他任務(如ASR)受益。
實驗
實驗設置
資料與預處理
該研究使用Multilingual LibriSpeech(MLS)的英語子集,包括44.5k小時帶轉錄的有聲讀物資料,包含5490位不同的說話人。音訊資料以16kHz頻率重新採樣。輸入文本通過字母到音素轉換(g2p)轉換為音素序列,然後該研究使用內部對齊工具將其與語音對齊,以獲得音素級別的時長。該研究對所有幀級特徵採用200的跳步大小。使用PyWorld提取音高序列。該研究採用Encodec作為音訊編解碼器。該研究使用經過修改的版本,並在MLS上對其進行訓練。該研究使用從編解碼器殘差量化層之前提取的緻密特徵作為潛在向量z。
訓練細節
該研究的訓練分為兩個階段,在第一階段,該研究訓練LCM和韻律回歸部分。該研究使用8個H800 80GB GPU,每個GPU的批次大小為20k幀潛在向量,訓練650k步。該研究使用AdamW優化器,學習率為\(3e-4\),在前30k次更新中使用學習率預熱,然後線性衰減。該研究在600K次訓練迭代之前停用對抗訓練\((λ_adv=0)\)。對於超參數,該研究將方程(12)中的\(a\)設置為0.03。在方程(10)中,
$$σi = (σ_min^(1/ρ) + (i-1)/(N(k)-1) * (σ_max^(1/ρ) - σ_min^(1/ρ)))^ρ$$
其中\(i∈[1, N(k)], ρ=7, σmin=0.002, σmax=80\)。
對於方程(11)中的\(N(k)\),該研究設置\(s0=10,s1=1280,K=600k\)。在600k步之後,該研究激活對抗損失,\(N(k)\)可視為固定為1280。該研究將餵入鑑別器的波形長度裁剪為最小批次中的波形長度。此外,特徵提取器WavLM和編解碼器的權重被凍結。
在第二階段,該研究使用方程(10)中的一致性訓練對韻律細化模組進行150k步訓練。與上述設置不同的是,該研究根據經驗設置\(s1=160,K=150k\)。在訓練期間,只更新韻律細化部分的權重。
模型細節
提示編碼器和音素編碼器的模型結構參考Shen等人的工作。LCM中的神經函數部分與Shen等人的工作幾乎相同。該研究將神經函數部分中的正弦位置嵌入重新縮放1000倍。對於韻律生成器,該研究在韻律細化模組的神經函數部分採用30個非因果WaveNet層,韻律回歸部分的配置與Shen等人的工作相同。該研究根據經驗設置韻律細化模組的\(α=0.2\)。對於鑑別器的頭部,該研究堆疊5個帶權重正則化的卷積層進行二元分類。
評估指標
該研究同時使用客觀和主觀評估指標,包括:
- RTF:實時因子(RTF)測量系統生成一秒鐘語音所需的時間。該指標對於評估該研究系統的效率至關重要,特別是對於需要實時處理的應用。該研究在NVIDIA V100 GPU上端到端測量系統的時間,與Shen等人的工作一致。
- Sim-O和Sim-R:這些指標評估說話人相似度。Sim-R通過預訓練的說話人驗證模型提取的特徵嵌入,測量合成語音與通過音訊編解碼器重建的參考語音之間的客觀相似度。Sim-O是用原始參考語音計算的。Sim-O和Sim-R的分數越高,說明說話人相似度越高。
- WER(詞錯誤率):為了評估TTS系統合成語音的準確性和清晰度,該研究採用自動語音識別(ASR)模型將生成的音訊轉錄。使用詞錯誤率(WER)量化這些轉錄與原始文本之間的差異,這是表明可懂度和穩健性的關鍵指標。
- CMOS、SMOS、UTMOS:該研究使用mturk對比平均意見分數(CMOS)和相似性平均意見分數(SMOS)進行排序。CMOS的提示是「請專注於音訊品質和自然度,忽略其他因素」。SMOS的提示是「請專注於說話人與參考的相似度,忽略內容、語法或音訊品質的差異」。每個音訊至少有10位聽眾收聽。UTMOS是一個語音MOS預測器,用於測量語音的自然度。該研究在消融研究中使用它來降低評估成本。
- 韻律JS散度:為了評估該研究TTS系統中韻律預測的多樣性和準確性,該研究引入了韻律JS散度指標。該指標採用Jensen-Shannon(JS)散度來量化預測韻律特徵分佈與真實韻律特徵分佈之間的散度。韻律特徵(包括音高和時長)被量化,並比較合成語音和自然語音中的分佈。JS散度值越低,表示預測的韻律特徵與真實特徵越接近,表明合成語音的多樣性越高。
零樣本TTS的實驗結果
參考Wang等人的工作,該研究採用LibriSpeech測試集的test-clean進行零樣本TTS評估。該研究採用Wang等人提出的跨句設置,即該研究從同一說話人的語音中隨機選擇3秒鐘的片段作為提示。結果總結在表1和圖5中。
評估基準
- VALL-E:VALL-E使用AR和NAR模型預測編解碼器符號。RTF來自Kim等人和Le等人的工作。該研究使用複現的結果進行MOS、Sim和WER評估。此外,該研究使用其官方demo進行偏好測試。
- Voicebox:Voicebox使用流匹配來預測被遮罩的梅爾頻譜圖。RTF來自原論文。該研究使用複現的結果進行MOS、Sim和WER評估。該研究還使用其官方demo實現偏好測試。
- NaturalSpeech2:NaturalSpeech2使用潛在擴散模型來預測編解碼器的潛在特徵。RTF來自原論文。Sim、WER和MOS樣本是通過與作者溝通獲得的。該研究還使用其官方demo進行偏好測試。
- Mega-TTS:Mega-TTS同時使用語言模型和GAN來預測梅爾頻譜圖。該研究從mobilespeech獲得RTF,從原論文獲得WER。該研究使用其官方demo進行偏好測試。
- ClaM-TTS:ClaM-TTS使用AR模型來預測梅爾編解碼器符號。該研究從原論文獲得客觀評估結果,並使用其官方demo進行偏好測試。
生成品質
FlashSpeech在說話人品質方面表現突出,在CMOS和音訊品質偏好測試中超過其他基準。值得注意的是,該研究的方法非常接近真實錄音,突顯了其有效性。這些結果證實了FlashSpeech在語音合成方面的卓越品質。
生成相似度
該研究使用Sim、SMOS和說話人相似度偏好測試來評估說話人相似度,該研究的方法分別獲得第一、第二和第三名。這些發現驗證了該研究的方法在實現與其他方法相當的說話人相似度方面的能力。儘管該研究的訓練資料(MLS)包含約5k個說話人,少於大多數其他方法(例如,Librilight約有7k個說話人或自採集資料),但該研究認為增加該研究方法中的說話人數量可以進一步提高說話人相似度。
穩健性
該研究的方法實現了2.7的WER,處於第一梯隊。這歸因於該研究方法的非自回歸特性,從而確保了穩健性。
生成速度
FlashSpeech實現了比先前工作快約20倍的推理速度。考慮到其出色的音訊品質、穩健性和可比的說話人相似度,該研究的方法作為一種高效且有效的大規模語音合成解決方案脫穎而出。
消融研究
LCM的消融研究
該研究探索了對抗訓練中不同預訓練模型對UTMOS和Sim-O的影響。如表2所示,僅採用一致性訓練的基準實現了3.62的UTMOS和0.45的Sim-O。使用wav2vec2-large、hubert-large和wavlm-large作為鑑別器,將對抗訓練納入其中,顯著提高了UTMOS和Sim-O分數。值得注意的是,將Wavlm-large用於對抗訓練獲得了最高分數(UTMOS:4.00,Sim-O:0.52),突顯了該預訓練模型在提高合成語音的品質和說話人相似度方面的效果。此外,在不使用音訊提示特徵作為鑑別器的條件特徵時,性能略有下降(UTMOS:3.97,Sim-O:0.51),凸顯了條件特徵在引導對抗訓練過程中的重要性。
如表3所示,採樣步驟(NFE)對UTMOS和Sim-O的影響表明,將NFE從1增加到2略微提高了UTMOS(從3.99提高到4.00)和Sim-O(從0.51提高到0.52)。然而,進一步增加到4個採樣步驟略微降低了UTMOS至3.91,這是由於分數估計誤差的累積。因此,該研究使用2步作為LCM的預設設置。
韻律生成器的消融研究
在這一部分中,該研究研究了控制因子(表示為α)對語音合成中音高和時長等韻律特徵的影響,方法是將另一個影響因子設置為零。該研究的研究專門進行消融分析,以評估α如何影響這些特徵,強調其在平衡該研究框架韻律輸出的穩定性和多樣性方面的關鍵作用。
表4闡明了不同α值對音高成分的影響。當α設置為0時,表示不包含來自韻律細化的殘差輸出,該研究觀察到0.072的Pitch JSD和2.8的WER。將α略微修改為0.2導致Pitch JSD降低到0.067,WER保持不變。值得注意的是,將α設置為1,完全納入韻律細化的殘差輸出,進一步將Pitch JSD降低到0.063,但是代價是WER增加到3.7,這表明韻律多樣性和語音可懂度之間存在權衡。
在表5的時長成分分析中也觀察到類似的趨勢。當α=0時,Duration JSD為0.0175,WER為2.8。將α調整為0.2略微改善了Duration JSD至0.0168,而不影響WER。然而,通過將α設置為1來完全接受細化模組的輸出,在Duration JSD方面產生了最顯著的改善,達到0.0153,與音高分析類似,這伴隨著WER增加到3.9。結果強調了在調整α以在不影響語音可懂度的情況下優化韻律的多樣性和穩定性之間取得平衡所需的細微平衡。
語音轉換的評估結果
在本節中,該研究介紹該研究的語音轉換系統FlashSpeech與最先進方法(包括YourTTS和DDDM-VC)的評估結果。該研究在內部測試集上使用它們的官方檢查點進行實驗。
表6顯示,該研究的系統在CMOS、SMOS和Sim-O方面都優於YourTTS和DDDM-VC,證明了它在生成高品質且與目標說話人相似的轉換語音方面的能力。這些結果證實了該研究的FlashSpeech方法在語音轉換任務中的有效性。
結論與未來工作
在本文中,該研究提出了FlashSpeech,這是一種新穎的語音生成系統,可以顯著降低計算成本,同時保持高品質的語音輸出。利用新穎的對抗一致性訓練方法和LCM,FlashSpeech在效率方面優於現有的零樣本TTS系統,實現了約20倍的速度,而不會影響語音品質、相似度和穩健性。未來,該研究的目標是進一步改進模型,提高推理速度並降低計算需求。此外,該研究將擴大資料規模,增強系統傳達更廣泛情感和更細微韻律的能力。對於未來的應用,FlashSpeech可以集成用於虛擬助手和教育工具等應用中的實時互動。
https://arxiv.org/pdf/2404.14700
我對FlashSpeech的觀點
FlashSpeech 是一個大規模zero-shot發聲合成系統,目標是在保持高音質的同時,大幅提升語音合成的效率。這個系統利用了潛在一致性模型(Latent Consistency Model, LCM),並通過一種新穎的對抗一致性訓練方法來進行訓練。FlashSpeech實現了比現有零樣本TTS系統快約20倍的速度,而語音品質、相似度和穩健性並未下降。這使得FlashSpeech在需要實時語音合成的應用中更具實用性。
FlashSpeech 的創新點主要包括:
- 高效的語音合成:FlashSpeech 能在約為傳統系統 5% 的推理時間內完成語音生成,大約是其他零擊發聲合成系統的 20 倍速度。
- 對抗一致性訓練:這是一種結合了一致性訓練和對抗訓練的方法,利用預訓練的語音語言模型作為判別器,有效地將從大型預訓練模型中獲得的知識轉移到語音生成任務中。
- 韻律生成器:通過新的韻律生成模塊增強了語音的韻律多樣性,使得語音節奏聽起來更加自然。
此外,FlashSpeech 在實驗中展示了優於或可比的語音質量和說話人相似性,並且能夠高效地執行語音轉換、語音編輯和多樣化語音採樣等任務。在應用實例中,包括zero-shot發聲的文本到語音(TTS)、語音轉換和語音編輯等,FlashSpeech 都展示了其實用性和高效性。
儘管FlashSpeech取得了顯著進展,但仍有改進空間。未來的工作可以探索進一步優化模型以提高推理速度和降低計算需求。此外,擴大訓練數據的規模和多樣性有望增強FlashSpeech生成更廣泛情感和韻律的能力。隨著FlashSpeech在虛擬助手、教育工具和其他需要逼真語音合成的應用中的潛在集成,它有望revolutionise人機交互的體驗。
沒有留言:
發佈留言