簡易檢索 / 詳目顯示

研究生: 郭榮芳
Kuo,Jung-Fang
論文名稱: 應用潛在語意分析於測驗題庫相似性之比對
Applying Latent Semantic Analysis for the Comparison of Item Bank Similarity
指導教授: 何榮桂
學位類別: 碩士
Master
系所名稱: 資訊教育研究所
Graduate Institute of Information and Computer Education
論文出版年: 2005
畢業學年度: 93
語文別: 中文
論文頁數: 86
中文關鍵詞: 潛在語意分析題庫相似試題
英文關鍵詞: latent semantic analysis, item bank, similar item
論文種類: 學術論文
相關次數: 點閱:215下載:39
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本研究旨在應用資訊檢索技術中潛在語意分析(latent semantic analysis,LSA)的方法,分析題庫中的試題是否有相同或相似的情形,並探討使用潛在語意分析時,冗詞去除與否、權重的調整與維度約化(dimension reduction)對結果的影響,研究目的有二:

    一、探討潛在語意分析是否能有效找出題庫中相同或相似的試題?
    二、探討使用潛在語意分析時,冗詞去除與否、何種調整權重方式與約化的維度,在分析試題相似度時效果較佳?

    本研究使用「電腦軟體應用技能檢定丙級學科」92年與93年共1000題選擇題為題庫,並將其試題與試題間的相似度分為完全相同、非常相似、部分相似與些微相似四類,研究結論如下:

    一、有去除冗詞在分析各種相似程度的試題其效果皆優於無去除冗詞者。

    二、適合本題庫調整詞彙與試題關係矩陣權重的方式為log-entropy。

    三、判斷兩試題是否完全相同時,保留的維度愈高精確率愈高,判斷兩試題是否非常相似、部分相似與些微相似時,保留維度依序為30、15與14時,精確率較佳。

    四、對於本題庫中(1)用詞完全相同、(2)部分辭彙不同、(3)敘述方式不同,但題意相同、(4)辭彙不同,但意義相同四類試題,系統皆能正確的判斷出來。

    The purpose of this study is to apply latent semantic analysis(LSA) to analyze item bank whether it does have the same or similar item, and discuss to use LSA, whether the common words remove or not, the weight adjustment and dimension reduction, the influence to the result. Two major purposes of this study are.

    1.Discusses latent semantic analysis whether can effectively discover the same or similar item in the item bank?
    2.Discusses the use of latent semantic analysis, whether the common words remove or not, what method of weight adjustment and the number of dimension reduction is better to analyze item bank similarity?
    This research use "the computer software application skill examination - grade-C course" of the years 92 & 93 which have 1,000 multiple choices items as item bank, And classified four kind of similarity, completely identical, extremely similar, partially similar and slightly similar. The research conclusion is as follows:

    1.When analyzing each similar degree item , the effect of removing common words is better than not removing common words.
    2.The method used of weight adjustment for term-by-document matrix to suit this item bank is log-entropy.
    3.Judging two item whether completely identical , the retention dimension higher precision rate is better. Judging two item whether extremely similar, partially similar and slightly similar , when the retention dimension is 30, 15 and 14, the precision rate is better.
    4.Regarding (1) the phrase is completely identical, (2) the partial phrase is different, (3) the statement is different, but meaning is identical, (4) the phrase is different, but the meaning is identical, the four kind of item, the system all can correctly judge.

    中文摘要…………………………………………………………………………Ⅰ 英文摘要…………………………………………………………………………Ⅱ 圖目錄……………………………………………………………………v 表目錄…………………………………………………………………vii 第一章 緒論                       第一節 研究背景與動機………………………………………………1 第二節 研究目的………………………………………………………2 第三節 研究範圍與限制………………………………………………3    第二章 文獻探討                    第一節 奇異值分解……………………………………………………4 第二節 潛在語意分析…………………………………………………9 第三節 中文斷詞………………………………………………………16 第三章 研究方法與工具                 第一節 研究方法………………………………………………………18 第二節 研究工具………………………………………………………30 第四章 結果與討論                 第一節 中文斷詞之分析………………………………………………31 第二節 向量空間模型和潛在語意分析之比較………………………32 第三節 冗詞去除之分析………………………………………………42 第四節 不同權重對試題相似度之影響………………………………56 第五節 不同約化維度對試題相似度之影響…………………………66 第六節 試題相似度之分析……………………………………………72 第五章 結論與建議 第一節 結論……………………………………………………………79 第二節 建議……………………………………………………………81 參考文獻…………………………………………………………………83 附錄一 九十二年度電腦軟體應用技能檢定丙級學科試題範例……85

    王良志、貝子勝、黎偉權、黃麗卿(1991):以剖析為導向的中文斷詞法,電子發展月刊,40-45頁。

    何榮桂(1994),電腦化題庫概述,測驗與輔導,126期,2576-2577頁。

    何榮桂(1997),從「測驗電腦化與電腦化測驗」再看網路化測驗,測驗與輔導, 144期,2972-2974頁。

    李琳山、廖碩鵬(2003):中文語音辨識中語言模型的強化,國立台灣大學碩士論文。

    范長康(1989):以鬆弛法作中文斷詞及其應用,國立交通大學博士論文。

    陳克健、陳正佳、林隆基(1986):中文語句分析的研究-斷詞與構詞,技術報告TR-95-03,中央研究院詞庫小組。

    陳雋(2003):應用線性代數,台北:文笙書局。

    廖亦德(2001):綜合線性代數,台北:智勝文化事業。

    Bellegarda, J.,(2000). Exploiting latent semantic information in statistical language modeling. Proceedings of the IEEE, 88(8), 1279-1296.

    Berry, M. W., Dumais, S. T., & O'Brien, G. W.(1995). Using linear algebra for intelligent information retrieval. SIAM Review, 37(4),177-196.

    Duff, I. S., Grimes, R. G. and Lewis, J. G.(1992) User's Guide for Harwell-Boeing Sparse Matrix Collection. Retrieved January 10,2005, from the WWW: http://math.nist.gov/MatrixMarket/collections/hb.html

    Dumais, S. T.(1991). Improving the retrieval of information from external sources. Behavior Research Methods, Instruments and Computers, 23,229-236.

    Fox, C. J. (1990). A stop list for general text. ACM-SIGIR Forum, 24, 19-35.

    Furnas, G. W., Deerwester, S., Dumai, S. T., Landauer, T. K., Harshman. R. A., Streeter, L. A. & Lochbaum, K. E.,(1988). Information retrieval using a singular value decomposition model of latent semantic structure. In Proceedings of the Eleventh International Conference on Research & Development in Information Retrieval, 465-480.

    Giles,J,T., Wo, L.& Berry, M. W. (2001). GTP (General Text Parser) software for text mining, in: H. Bozdogan (ed.), Statistical Data Mining and Knowledge Discovery, CRC Press, Boca Raton,457-473.

    Harman, D. (1992). Ranking algorithms. In W.B. Frakes and R. Baeza-Yates, eds. Information retrieval: Data structures and algorithms. Englewood Cliffs NJ: Prentice Hall, 363-392.

    Landauer, T. K., Foltz, P. W.& Laham, D. (1998). An introduction to Latent Semantic Analysis . Discourse Processes, 25, 259-284.

    Lua, K. T. & Gan, G. W. (1994). An application of information theory in Chinese word segmentation. Computer Processing of Chinese & Oriental Languages,8,1, 115-124.

    Millman, J.& Arter J. A. (1984). Issues in item banking. Journal of Educational Measurement, 21(4),315-330.

    Salton, G.& Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24(5), 513-523.

    Salton, G.& Lesk, M, E. (1968). Computer evaluation of indexing and text processing. Journal of ACM, 15(1),8-36.

    Sproat. R .& Shih. C. (1990). A statistical method for finding word
      boundaries in Chinese text, Computer Processing of Chinese and Oriental
    Languages, 336-351.

    Wang, M. W.& Nie, J. Y.(2003). A latent semantic structure model for text classification, Workshop on Mathematical/Formal methods in information retrieval, 26th ACM-SIGIR, Toronto.

    QR CODE