研究生: 邱炫盛
Hsuan-Sheng Chiu
論文名稱: 利用主題與位置相關語言模型於中文連續語音辨識
Exploiting Topic- and Position-Dependent Language Models for Mandarin Continuous Speech Recognition
指導教授: 陳柏琳
Chen, Berlin
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2007
畢業學年度: 95
語文別: 中文
論文頁數: 147
中文關鍵詞: 語音辨識語言模型語言模型調適主題相關語言模型位置相關語言模型
英文關鍵詞: Speech Recognition, Language Model, Language Model Adaptation, Topic-Dependent Language Model, Position-Dependent Language Model
論文種類: 學術論文
  • 本論文探討語言模型於中文連續語音辨識。首先,詞主題混合模型(Word Topical Mixture Model, WTMM)被提出,用來探索詞與詞之間的關係,在語言模型調適中,此關係可當作是長距離的潛藏語意資訊。在語音辨識過程中,歷史詞序列可被建立成一個複合式詞主題混合模型,並用來預測新的辨識詞。此外,位置相關語言模型(Position-Dependent Language Model)亦被提出,使用詞在文件或語句的位置資訊輔助估測詞發生的可能性,並與N連詞模型及潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)模型所提供的資訊作整合。最後,針對摘錄式摘要,我們也發展一個機率式句排名架構,其中的語句事前機率透過能夠緊密整合語句資訊的整句最大熵值(Whole Sentence Maximum Entropy, WSME)模型估測。這些資訊從語句中擷取,並可作為語音文件中重要語句的選擇依據。本論文實驗於收集自台灣的中文廣播新聞。語音辨識結果顯示,詞主題混合模型與位置相關語言模型能夠提升大詞彙連續語音辨識系統的效果。此外,語音文件摘要結果也顯示,透過整句最大熵值法整合語句層次資訊能夠提升摘要正確率。

    This study investigates language modeling for Mandarin continuous speech recognition. First, a word topical mixture model (WTMM) was proposed to explore the co-occurrence relationship between words, as well as the long-span latent topical information, for language model adaptation. During Speech recognition, the search history is modeled as a composite WTMM model for predicting a newly decoded word. Second, a position-dependent language model was presented to make use of the word positional information within documents and sentences for better estimation of word occurrences. The word positional information was exploited in conjunction with that information provided by the conventional N-gram and probabilistic latent semantic analysis (PLSA) models, respectively. Finally, we also attempted to develop a probabilistic sentence-ranking framework for extractive spoken document summarization, for which the sentence prior probabilities were estimated by the whole sentence maximum entropy (WSME) language model that tightly integrated the extra information clues extracted from the spoken sentences for better selection of salient sentences of a spoken document. The experiments were conducted on Mandarin broadcast news compiled in Taiwan. The speech recognition results revealed that the word topical mixture model and positional dependent language model, respectively, could boost the performance of the baseline large vocabulary continuous speech recognition (LVCSR) system, while the spoken document summarization results also demonstrated that the integration of extra sentence-level information clues through the whole sentence maximum entropy language model could considerably raise the summarization accuracy.

    第1章 序論 1 1.1 研究背景-語音辨識 2 1.2 研究內容-語言模型演進 7 1.3 研究內容-語言模型調適 12 1.4 研究成果 14 1.5 論文架構 14 第2章 實驗架構 17 2.1 台師大之大詞彙連續語音辨識系統 17 2.1.1 前端處理與聲學模型 17 2.1.2 詞典建立 18 2.1.3 詞彙樹複製搜尋 18 2.1.4 詞圖搜尋 20 2.2 實驗語料 20 2.3 語言模型評估 22 2.3.1 語言複雜度 22 2.3.2 字錯誤率 23 2.4 基礎實驗結果 23 第3章 語言模型應用於語音辨識 27 3.1 語言模型研究 27 3.1.1 統計式語言模型研究方向 27 3.1.2 語言資訊相關模型應用於語音辨識 30 3.2 詞相關語言模型(WORD-BASED LANGUAGE MODEL) 31 3.2.1 觸發對語言模型(Trigger-based Language Model) 31 3.2.2 混合階層馬可夫模型(Mixed-order Markov Model) 33 3.3 詞類別相關語言模型(WORD CLASS-BASED LANGUAGE MODEL) 35 3.3.1 N連類別模型(Class-based N-gram Model) 35 3.3.2 聚合式馬可夫模型(Aggregate Markov Model) 36 3.4 文件主題相關語言模型(DOCUMENT TOPIC-BASED LANGUAGE MODEL) 39 3.4.1 混合主題式語言模型(Mixture-based Language Model) 39 3.4.2 潛藏語意分析(Latent Semantic Analysis) 40 3.4.3 機率式潛藏語意分析(Probabilistic Latent Semantic Analysis) 45 3.4.4 潛藏狄利克雷分配(Latent Dirichlet Allocation) 48 3.5 語言資訊相關模型實驗結果 53 3.5.1 快取模型 53 3.5.2 觸發對語言模型 55 3.5.3 混合階層馬可夫模型 58 3.5.4 二連類別模型 59 3.5.5 聚合式馬可夫模型 60 3.5.6 混合主題式語言模型 61 3.5.7 潛藏語意分析 63 3.5.8 機率式潛藏語意分析 64 3.5.9 潛藏狄利克雷分配 66 3.6 本章結論 67 第4章 詞主題混合模型與位置相關語言模型 69 4.1 詞主題混合模型(WORD TOPICAL MIXTURE MODEL) 69 4.1.1 詞主題混合模型 69 4.1.2 詞主題混合模型與其他模型之比較 73 4.2 位置相關語言模型(POSITION-DEPENDENT LANGUAGE MODEL) 75 4.2.1 位置資訊的呈現 75 4.2.2 位置性N連詞模型(Positional N-gram Model) 77 4.2.3 位置性機率式潛藏語意分析(Positional Probabilistic Latent Semantic Analysis) 79 4.3 實驗結果與分析 80 4.3.1 詞主題混合模型 80 4.3.2 位置相關語言模型 89 4.4 本章結論 100 第5章 語言模型應用於語音文件摘要 101 5.1 語音文件摘要介紹 101 5.2 機率生成架構 103 5.2.1 語句生成模型 103 5.2.2 語句事前機率模型 106 5.3 摘要實驗設定與結果 110 5.3.1 摘要實驗語料 110 5.3.2 實驗評估 111 5.3.3 摘要實驗結果 113 5.4 本章結論 120 第6章 結論與未來展望 121 附錄A 變動性貝氏期望值最大化法 125 附錄B 整句最大熵值模型 131 參考文獻 133 作者相關學術著作 146

