研究生: 汪逸婷
論文名稱: 運用調變頻譜分解技術於強健語音特徵擷取之研究
Leveraging Modulation Spectrum Factorization Techniques for Robust Speech Recognition
指導教授: 陳柏琳
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2014
畢業學年度: 102
語文別: 中文
論文頁數: 86
中文關鍵詞: 調變頻譜強健性自動語音辨識非負矩陣分解法稀疏性壓縮感知法
英文關鍵詞: modulation spectrum, robustness, automatic speech recognition, nonnegative matrix factorization, sparsity, compressive sensing
論文種類: 學術論文
  • 近年來,語音特徵調變頻譜的研究,由於其簡單又能針對語音特徵提供整體變化分析的特性,在強健性自動語音辨識的領域獲得了廣大的迴響;本論文著重於二個部分:其一為非負矩陣分解法之延伸,非負矩陣分解法由於能有效擷取調變頻譜中關鍵且不受雜訊影響的資訊,而得到許多關注,本論文將延續這個領域的研究,提出對語音進行分群處理的分群式非負矩陣分解法,以及加上稀疏性之條件的稀疏化非負矩陣分解法。其二為壓縮感知法之延伸,壓縮感知法為一種用較相關之資訊以較精簡的方式來還原訊號,本論文提出一個展新的想法,將壓縮感知法應用在語音特徵調變頻譜。分群式非負矩陣分解法為運用分群處理的技術將不同特性的語句分開處理,使非負矩陣分解法能夠更精準地擷取語音中的重要資訊,而不受語句之間的變異性干擾;稀疏化非負矩陣分解法為探索非負矩陣分解法中稀疏性帶來的影響,以期取得較集中且不重覆的基底調變頻譜。本論文所有的實驗皆使用常見的Aurora-2語料庫進行驗證,並進一步在大詞彙語料庫Aurora-4進行驗證。實驗的結果說明了:本論文所提出的兩種延伸方法,確實能在改進語音辨識的強健性上發揮其效力,並得到比其他調變頻譜應用技術更佳的辨識正確率。

    Modulation spectrum processing of acoustic features has received considerable attention in the area of robust automatic speech recognition (ASR) because of its relative simplicity and good empirical performance. This thesis focus on two concept: one is nonnegative matrix factorization (NMF). An emerging school of thought is to conduct NMF on the modulation spectrum domain so as to distill intrinsic and noise-invariant temporal structure characteristics of acoustic features for better robustness. Our work try to extend the NMF by cluster the training data called cluster-based NMF and consider the sparsity of NMF called sparsed NMF. The other is compressive sensing. We proposed a novel concept to use compressive sensing on modulation spectrum. Cluster-based NMF is to investigate an alternative cluster-based NMF processing, in which speech utterances belonging to different clusters will have their own set of cluster-specific basis vectors. As such, the speech utterances can retain more compressive sensing in the NMF processed modulation spectra. Sparsed NMF is try to explore the notion of sparsity for NMF so as to ensure the derived basis vectors have sparser and more localized representations of the modulation spectra. All experiments were conducted with the widely-used Aurora-2 database and task. Furthermore, we used to LVCSR task Aurora-4. Empirical evidence reveals that our methods can offer substantial improvements and achieve performance competitive to or better than several widely-used robustness methods.

    一、 緒論 1 (一) 研究背景 1 (二) 強健性語音技術 2 (三) 研究內容與貢獻 4 (四) 論文章節安排 5 二、 文獻回顧 6 (一) 語音特徵參數擷取 6 (二) 強健性語音特徵技術 9 1. 倒頻譜平均消去法(Cepstral Mean Substraction, CMS) 9 2. 倒頻譜平均與變異數正規化法(Cepstral Mean and Variance Normalization, CMVN) 9 3. 統計圖等化法(Histogram Equalization, HEQ) 10 (三) 調變頻譜正規化技術於強健性語音辨識之研究 11 1. 調變頻譜統計圖等化法(Spectral Histogram Equalization, SHE) 13 2. 調變頻譜平均正規化法(Spectral Mean Normalization, SMN) 13 3. 調變頻譜平均與變異數正規化法(Spectral Mean and Variance Normalization, SMVN) 14 三、 資料壓縮法 15 (一) 非負矩陣分解法 16 (二) 非負矩陣分解法之稀疏性 19 (三) 壓縮感知法 21 四、 實驗語料庫與相關基礎實驗結果 23 (一) 實驗語料庫 23 (二) 實驗設定 26 (三) 辨識效能評估方式 26 (四) 基礎實驗結果 27 五、 調變頻譜域之非負矩陣分解法之相關研究 30 (一) 以非負矩陣分解為基礎的的調變頻譜正規化法 30 (二) 以分群式非負矩陣分解為基礎的調變頻譜正規化法 35 (三) 以稀疏性非負矩陣分解法為基礎之調變頻譜正規化法 43 (四) 壓縮感知法 49 (五) 實驗結果之比較 51 六、 結論與未來展望 60 參考文獻 62 附錄 i 附錄一:非負矩陣分解法之公式推導 i 附錄二:稀疏化非負矩陣分解法之詳細演算法,與其詳細說明 v

