研究生: 黃幀祥
論文名稱: 使用潛在語意分析建構文本分類模型- 以國小社會科課文為例
Text Classification Model Based on Latent Semantic Analysis: A Case Study of Textbook for Social Studies in Elementary School
指導教授: 張國恩
Chang, Kuo-En
Sung, Yao-Ting
Chang, Tao-Hsing
學位類別: 碩士
系所名稱: 資訊教育研究所
Graduate Institute of Information and Computer Education
論文出版年: 2011
畢業學年度: 100
語文別: 中文
論文頁數: 72
中文關鍵詞: 潛在語意分析可讀性文本分類
英文關鍵詞: Latent Semantic Analysis, Readability, Text Classification
論文種類: 學術論文
  • 由於網路的發達和電腦的普及,學生常常透過網路來尋找資料,但往往搜尋結果龐大,且內容涵蓋各個面向,導致學生浪費許多時間在結果中反覆檢閱才得以找出適合程度及目標的文章資訊。可讀性文本分類可以分辨文本所屬的難易層級,讓學生可以選擇適合自己程度的文本,以節省學生尋找適合自己程度的文本的時間。過去可讀性研究多將文本表面特徵代入線性公式求得一個難易度的分數,但是在中文環境底下,語意特徵就比表面特徵來的重要,因此本研究利用潛在語意分析技術分析文本的語意特徵,再以語意特徵作為分類依據對文本進行可讀性的分類。本研究資料採用國小社會科課文,利用每個學期不同主題的特性,透過潛在語意分析技術建置一個社會科的語意空間模型,利用建構好的語意空間模型將未知程度的社會科文章分類至所屬的層級。

    Due to the well-developed internet and widely usage of computers, internet becomes the tool for student to mine the information they need. But the results are often complex and huge, students waste a lot of time to review the results again and again to find out the text which is suitable to their ability. Readability text classification can identify the difficulty of the text and students can choose the text which is suitable for them in order to save their time. Many studies of readability put surface features into linear formula to obtain a readability score, but in Chinese, the semantic information is more important than in English. By using Latent Semantic Analysis to analyze the semantic features of text, and classify the readability of text by the semantic information. In this study, elementary Social Study textbook has been used as our data. By utilizing the characteristics of the different themes in each semester, we have constructed the semantic space model of elementary Social Study textbook by Latent Semantic Analysis, and apply the model to classify the unknown readability level texts to the class which they should be classified.
    In this study, the accuracy of classification is 79.06%. Latent Sementic Analysis inspires us another point of view on readability of text classification, especially for Chinese text whom importance semantic information more.

    表目錄 v 圖目錄 vi 第一章 緒論 1 第一節 研究背景與動機 1 第二節 研究目的 6 第三節 研究限制 6 第二章 文獻探討 7 第一節 可讀性 7 第二節 分類問題研究 13 第三節 潛在語意分析 18 第四節 綜合分析 20 第三章 研究方法 22 第一節 資料前處理階段 25 第二節 訓練與測試階段 28 第三節 學期概念重要詞彙建置方法 34 第四章 實驗設計 36 第一節 實驗工具 36 第二節 實驗資料 36 第三節 實驗流程 37 第四節 實驗結果 39 第五節 實驗結果之討論 42 第五章 結論與未來發展 50 第一節 結論 50 第二節 未來發展 50 參考文獻 52 一、中文部分 52 二、英文部分 52 附錄一 各folds隨機選取課文之結果 57 附錄二 各學期概念重要詞彙 62 附錄三 九年一貫國小社會科能力指標 67 附錄四 三版本各學期單元名稱 71

