研究生: 張鈺玫
Yu Mei Chang
論文名稱: 使用多種鑑別式模型以及特徵資訊於語音文件摘要之研究
Exploiting Various Discriminative Models and Information Cues for Spoken Document Summarization
指導教授: 陳柏琳
Chen, Berlin
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2010
畢業學年度: 98
語文別: 中文
論文頁數: 133
中文關鍵詞: 語音文件摘錄式摘要逐點式方法成對式方法序列式方法訓練語料不平衡貪婪演算法
英文關鍵詞: Spoken document, Extractive Summarization, Point-wise Approach, Pair-wise Approach, List-wise Approach, Unbalance Training Data, Greedy Algorithm
論文種類: 學術論文
相關次數: 點閱:121下載:1
  • 已有許多機器學習的摘要方法被應用於語音文件摘要,它們通常將文件摘要視分類問題(分兩類),嘗試從文件中挑選重要的語句做為摘要結果;然而,訓練語料不平衡的問題有時會影響這些摘要方法的效能。另一方面,藉由以增進分類正確率而訓練的摘要方法並不見得擁有較好的摘要結果。鑑於此種現象,本論文首先探討使用兩個不同的訓練準則的摘要方法,以減輕上述問題所造成的負面影響,並且得以提高摘要效能。其一為將訓練文件中成對語句之間的重要性排序資訊,做為摘要方法訓練之依據;另一則以直接最大化其摘要評估分數為準則做為計摘要方法訓練之依據。另外,一些訓練語句和特徵選取的方法也在本論文被廣泛地研究與比較。摘要實驗是在中文廣播新聞上進行;我們發現所使用的兩種訓練準則皆能夠展現出比基礎實驗方法較好的結果,但於訓練語句以及特徵選取方法似乎並不能顯地改善摘要效能。

    Many of the existing machine-learning approaches to speech summarization cast important sentence selection as a two-class classification problem; however, the imbalanced data problem sometimes results in a trained speech summarizer with unsatisfactory performance. On the other hand, training the summarizer by improving the associated classification accuracy does not always lead to better summarization evaluation performance. In view of such phenomena, this thesis investigates two different training criteria to alleviate the negative effects caused by them, as well as to boost the summarizer’s performance. One is to learn the classification capability of a summarizer on the basis of the pair-wise ordering information of sentences in a training document according to a degree of importance. The other is to train the summarizer by directly maximizing the associated evaluation score. Alternatively, a few methods for training sentence and feature selection are also extensively studied and compared. Experiment results on a broadcast news summarization task show that the presented two training criteria can drive up the performance as compared to baseline summarization system, while training sentence and feature selection seems to show mixed effectiveness.

    1. 緒論 1 1.1. 研究動機與目的 1 1.2. 研究內容 2 1.3. 本論文之貢獻 5 1.4. 論文架構 5 2. 相關文獻 7 2.1. 自動文件摘要背景概述 8 2.2. 自動文件摘要之方法 11 2.2.1. 非監督式模型 12 2.2.2. 監督式模型 12 2.3. 排序學習(Learning to Rank) 13 2.3.1. 逐點式方法(Point-wise Approach) 15 2.3.2. 成對式方法(Pair-wise Approach) 18 2.3.3. 序列式方法(List-wise Approach) 20 基於評估觀點之鑑別式模型 21 鑑別式自動文件摘要模型 22 AdaRank主要架構 22 AdaRank 演算法 24 2.4. 訓練語料不平衡 25 2.4.1. 增加正例訓練資料數量(Up-Sampling) 26 2.4.2. 減少反例訓練資料數量(Down-Sampling) 27 2.5. 摘要特徵選取 27 2.6. 自動摘要之評估方法 29 3. 實驗環境設定 31 3.1. 實驗語料 31 3.2. 摘要特徵 33 3.2.1. 摘要特徵細節介紹 34 能量 34 共振峰 40 音高 49 頻譜峰值 55 語者資訊 60 語句音框長度 64 語句位置 65 語句長度 67 專有名詞個數 70 停用字個數 71 雙連詞語言模型分數 72 詞主題模型 76 向量空間模型 77 潛藏式語意分析模型 81 馬可夫隨機漫步模型 83 生成語言模型 86 Kullback-Leibler Divergence, KL 90 潛藏狄利克里分配 93 4. 自動摘要實驗之結果探討 98 4.1. 摘要特徵組合介紹 98 4.1.1. 基礎實驗特徵組合 98 4.1.2. 擴充摘要特徵組合 99 4.2. 逐點式方法實驗結果 101 4.2.1. 基礎摘要特徵組合之實驗結果 101 4.2.2. 擴充摘要特徵組合之實驗結果 102 4.3. 比較各種排序學習方法實驗結果 103 4.3.1. 基礎摘要特徵組合之實驗結果 103 4.3.2. 擴充摘要特徵組合之實驗結果 109 4.4. 訓練語料不平衡之實驗 113 4.5. 摘要特徵選取 115 4.5.1. 基礎摘要特徵組合之實驗結果 116 4.5.2. 擴充摘要特徵組合之實驗結果 118 5. 結論與未來展望 125 參考文獻 127

