研究生: 許庭瑋
TingWei Hsu
論文名稱: 英文連續語音辨識之初步研究
An Initial Study on English Continuous Speech Recognition
指導教授: 陳柏琳
Chen, Berlin
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2007
畢業學年度: 95
語文別: 中文
論文頁數: 89
中文關鍵詞: 連續語音辨識詞內三連音素模型狀態連結音素模糊矩陣
英文關鍵詞: Continuous Speech Recognition, Intra Triphone, State tying, Confusion Matrix
論文種類: 學術論文
  • 本論文為英文連續語音辨識之初步研究。我們實作英文連續語音辨識器,並探討其主要組成,包含語音特徵擷取、聲學模型及語言模型等。首先,針對語音特徵擷取,我們比較傳統式梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients, MFCC)與線性鑑別分析(Linear Discriminant Analysis, LDA)和異質性線性鑑別分析(Heteroscedastic Linear Discriminant Analysis, HLDA)之效能。再者,針對聲學模型,我們探討詞內三連音素模型(Intra-word Triphone Models)、狀態連結(State-Tying)技術、音素模糊矩陣(Phone Confusion Matrix)與非監督式聲學模型訓練(Unsupervised Acoustic Model Training)的使用,以提升語音辨識率。最後,針對語言模型,在語音辨識過程中分別利用詞頻數混合法(Count Merging)與模型插補法(Model Interpolation),結合背景與同領域語言模型訓練語料,以達到較佳之詞發生預測。本論文實驗是以美國之音與台灣腔英文語料為題材,並有一些初步的觀察及發現。

    This thesis is intended to perform a preliminary study on English continuous speech recognition. An English continous speech recognizer was implemented, while parts of its major constituents, including speech feature extraction, acoustic modeling and language modeling, were extensively investigated as well. First, for speech feature extraction, we compared the performance of linear discriminant analysis (LDA) and heteroscedastic linear discriminant analysis (HLDA) to that of the conventional Mel-frequency cepstral coefficients (MFCC) .Second, for acoustic modeling, we explored the use of the intra-word triphone models, the state-tying scheme and the phone confusion matrix, as well as the unsupervised training of acoustic models, for better speech recognition results. Finally, for language modeling, both count-merging and model-interpolation approaches were respectively expoited to combine the background and in-domain language model training corpora to enable better prediction of word occurrences during the speech recognition process. The experiments were conducted on the Voice of America (VOA) and the English Across Taiwan (EAT) corpora.

    第1章 緒論 1 1.1 研究動機 1 1.2 語音辨識流程 2 1.2.1 特徵擷取 (Feature Extraction) 4 1.2.2 聲學模型 (Acoustic Model) 7 1.2.3 語言模型 (Language Model) 9 1.2.4 語言解碼 (Linguistic Decoding) 10 1.3 研究內容 10 1.4 論文大綱 11 第2章 文獻回顧 13 2.1 現階段英文語音辨識研究內容 13 2.1.1 美國BBN科技公司 15 2.1.2 美國IBM華生研究中心 20 2.1.3 英國劍橋大學 23 2.1.4 綜合討論 26 2.2 聲學模型音素單位相似度測量 28 2.2.1 資料導向方法 28 2.2.2 以知識為基準之方法 30 第3章 實驗語料與設定說明 33 3.1 實驗詞典與英文音素定義 33 3.2 實驗語料 36 3.2.1 台灣腔英語(English Across Taiwan, EAT) 36 3.2.2 美國之音(The Voice of America, VOA) 38 3.2.3 英國國家文字語料庫(British National Corpus, BNC) 38 3.3 台師大大詞彙連續語音辨識系統 39 3.3.1 語音特徵擷取 39 3.3.2 聲學模型建立 40 3.3.3 語言模型建立 49 3.3.4 詞典建立 50 3.3.5 語言解碼 50 第4章 英文語音辨識之基礎實驗 53 4.1 VOA語料之基礎實驗 53 4.1.1 實驗設定 53 4.1.2 基礎語音特徵擷取 53 4.1.3 基礎三連音素聲學模型 56 4.1.4 基礎語言模型 57 4.2 EAT語料之基礎實驗 58 4.2.1 實驗設定 58 4.2.2 基礎語音特徵擷取 58 4.2.3 基礎三連音素聲學模型 59 4.2.4 基礎語言模型 60 4.3 實驗討論 60 第5章 改進英文辨識之各項實驗 63 5.1 鑑別性特徵擷取 63 5.2 語言模型調適 65 5.2.1 詞頻數混合法 66 5.2.2 線性插補法 67 5.3 模糊矩陣之使用 68 5.3.1 聲學模型訓練階段使用 68 5.3.2 辨識器搜尋階段使用 69 5.4 非監督式聲學模型訓練 72 5.4.1 信心度評估法 74 5.4.2 實驗設定與結果 76 5.5 實驗討論 79 第6章 結論與未來展望 81 參考文獻 83

