研究生: |
陳建傑 Chen Chien Chieh |
---|---|
論文名稱: |
基於借閱目的之資料清理機制研究 -以興趣目的為例 A Study of Data Cleaning Mechanisms Based on Borrowing Purposes -The Case Study of Interesting Purpose |
指導教授: |
謝建成
Shieh, Jiann-Cherng |
學位類別: |
碩士 Master |
系所名稱: |
圖書資訊學研究所 Graduate Institute of Library and Information Studies |
論文出版年: | 2010 |
畢業學年度: | 98 |
語文別: | 中文 |
論文頁數: | 46 |
中文關鍵詞: | 資料清理 、書目探勘 、F-Measure |
英文關鍵詞: | Data cleaning, Bibliomining, F-Measure |
論文種類: | 學術論文 |
相關次數: | 點閱:242 下載:5 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
研究人員經常使用現實社會中的資料進行研究分析,但這些資料通常存在些許問題,如此將可能降低資料分析的效率,甚至產生錯誤的結果。圖書館經常藉由分析讀者的歷史借閱紀錄作為提供各項服務之依據,但過去在分析前並未考量讀者的借閱目的進行清理。歷史借閱紀錄大多包含一個以上的借閱目的,若在分析前未依借閱目的進行清理,極可能產生錯誤的結果。
本研究透過考量讀者借閱目的中的興趣目的,設計啟發式清理機制,嘗試去除讀者歷史借閱紀錄中的非興趣紀錄,並透過F-Measure評估清理結果,歸納出合適的清理方法與屬性。此外,本研究透過調整各清理機制的參數,嘗試進行個人化清理,以瞭解個人化清理的步驟與流程。
由研究結果可知,讀者的歷史借閱紀錄無法輕易地依據興趣借閱目的進行清理,但可嘗試透過群集分析的E-M演算法,並使用「第三層分類號、借閱日、作者」屬性組合來進行清理。在個人化清理方面,透過調整參數可獲得更佳的清理結果。此外,若使用F-Measure評估清理結果,讀者的原始興趣比越高,其清理難度也越高。
Researchers often use statistics from previous events to serve as a basis for analysis, but the acquired data usually has its problems, which in turn may reduce the efficiency of the researcher’s analysis or even create erroneous results. Libraries often analyze the patron’s borrowing history in order to adjust and improve its services, but often does not consider the patron’s purpose behind borrowing his or her information from the library. Most patrons have several reasons behind their borrowings, and it is may create erroneous results if we don’t clean it before analyzing.
In this paper we analyze the effectiveness of a heuristic data-cleaning approach to remove the areas of non-interest in the patron’s historical loan record. Meanwhile, we also use F-Measure analysis to evaluate the results in order to suggest suitable cleaning methods. In addition, personal cleaning processes for patrons is implemented by adjusting the parameters of the clean-up mechanisms.
From the study results, the patron’s borrowing history cannot be easily cleaned based on interest purposes, but you can attempt to clean the data by the E-M algorithm using cluster analysis, and use the properties of third tier classification: number, loan date, and author. Using personal cleaning, it is concluded that adjustments in the parameters could produce more satisfying results. In addition, if use F-Measure, more interesting parts in the patron’s borrowing history, the cleaning process will be more difficult.
中文部份
卜小蝶(2001)。以圖書借閱記錄探勘加強圖書資源利用之探討。中國圖書館學會會報,66,59-72。
卜小蝶(2002)。使用者導向之圖書分類關聯分析研究。圖書資訊學刊,17,81-94。
王毓菁 (2002)。圖書館閱覽者群組潛在特徵探勘資訊系統。華梵大學工業管理學系碩士論文,未出版,台北。
尹相志(2006),Microsoft SQL Server 2005資料採礦聖經。台北:學貫。
余明哲(2003)。圖書館個人化館藏推薦系統。國立交通大學資訊科學系碩士論文,未出版,新竹。
吳安琪(2000)。利用資料探勘的技術及統計的機制增強圖書館的經營與服務。國立交通大學資訊科學系碩士論文,未出版,新竹。
呂家賢(2004)。運用資料探勘技術於大學圖書館圖書資源推廣利用之研究。銘傳大學管理研究所碩士論文,未出版,台北。
李念秋(2002)。資料品質改善之研究:錯誤資料偵測技術之發展與評估。國立中山大學資訊管理系碩士論文,未出版,高雄。
周黃順加(2005)。利用資料探勘技術分析圖書館讀者個人化之書籍推薦。南台科技大學資訊管理學研究所碩士論文,未出版,台南。
夏自立、龔榮源、林佳姿(2006)。使用灰色理論於改善資料品質之研究。遠東學報,23(1),167-176。
柯皓仁、楊雅雯、吳安琪、戴玉旻、楊維邦 (2002)。個人化及群體化圖書館資訊服務初探。國家圖書館館刊,1,161-195。
孫冠華(1999)。圖書館新書推薦之個人化服務機制。國立中山大學資訊管理學研究所碩士論文,未出版,高雄。
張菀菁(2001)。以模糊理論建構之圖書推薦系統。淡江大學資訊工程學系碩士論文,未出版,台北。
曹健華(2002)。應用資料探勘技術於數位圖書館之個人化服務及管理。南華大學資訊管理學研究所碩士論文,未出版,嘉義。
陳垂呈(2005)。利用資料探勘技術發掘圖書館個人化之書籍推薦。教育資料與圖書館學,43(1),87-107。
陳垂呈(2008)。利用關聯規則發掘讀者適性化之書籍推薦。圖書與資訊學刊, 65,58-60。
康勝修(2005)。應用資料探勘技術於圖書館借閱紀錄分析與館藏查詢服務。雲林科技大學資訊管理系碩士論文,未出版,雲林。
曾勇森(2003)。利用資料探勘技術增進圖書館之服務效益。南台科技大學資訊管理學系碩士論文,未出版,台南。
曾憲雄、蔡秀滿、蘇東興、曾秋蓉、王慶堯(2005)。資料探勘。台北,旗標。黃俊榮(2006)。利用分群化技術發掘圖書館書籍借閱之推薦服務。南台科技大學資訊管理系碩士論文,未出版,台南。
黃國正、黃玫溱(2004)。臺灣地區民眾資訊需求之比較。中國圖書館學會會報,73,137-151。
鄭玉玲(2002)。運用資料探勘技術實作數位圖書館上個人化之檢索與推薦服務-以南華大學圖書館為例。南華大學資訊管理學研究所碩士論文,未出版,台南。
戴玉旻(2002)。圖書館借閱記錄探勘系統。國立交通大學資訊科學系碩士論文,未出版,新竹。
謝建成、林湧順(2006)。書目探勘讀者使用圖書館之行為。教育資料與圖書館學,44(1),35-60。
謝濱帆(2008)。利用興趣加權分類技術發掘書籍借閱之適性化推薦。南台科技大學資訊管理系碩士論文。未出版,台南。
羅子文、柯皓仁(2007)。Web 2.0概念的圖書館個人化推薦系統。臺北市立圖書館館訊,24(4),1-30。
英文部份
Brauer, B. (2000). Data Quality: Spinning Straw into Gold. Retrieved Mar, 20, 2010, from http://www2.sas.com/proceedings/sugi26/p117-26.pdf
Banerjee, K.(1998). Is data mining right for your library? Computers in Libraries, 18(10), 28-31.
Chen, C. C.,& Chen, A. P. (2007). Using data mining technology to provide a recommendation service in the digital library. The Electronic Library, 25(6), 711-724.
Famili, A., Shen, W.M., Weber, R.,& Simoudis, E.(1997). Data preprocessing and intelligent data analysis. Intelligent Data Analysis, 1 (1),1–28.
Franke, M.,& Geyer-Schulz, A.(2007). Using restricted random walks for library recommendations and knowledge space exploration. International Journal of Pattern Recognition & Artificial Intelligence, 21(2), 355-373.
Gao, K., Wang, Y. C.,& Wang, Z. Q. (2005). Similar interest clustering and partial back-propagation-based recommendation in digital library. Library Hi Tech, 23(4), 587-597.
Guenther, K. (2000). Applying Data Mining Principles to Library Data Collection. Computers in Libraries, 20(4), 60.
Han J.,& Kamber, M. (2000). Data Mining: Concepts and Techniques. San Francisco, CA: Morgan Kaufmann.
Jermyn, P., Dixon, M., Read, B. J.(1999). Preparing clean views of data for data mining. Retrieved Jan, 10, 2010, from http://www.ercim.eu/publication/ws-proceedings/12th-EDRG/EDRG12_JeDiRe.pdf
Laudon, K. C.(1986). Data quality and due process in large interorganizational record systems. Communications of the ACM, 29(1), 4-11.
Linden, G., Smith, B.,& York, J.(2003). Amazon.com recommendations: item-to-item collaborative filtering. IEEE Internet Computing, 7(1), 76-80.
Manning, C. D., Raghavan, P.,& Schütze, H.(2008). Introduction to Information Retrieval. Cambridge, England: Cambridge University Press.
Mönnich, M.,& Spiering, M.(2008). Adding value to the library catalog by implementing a recommendation system. Retrieved Feb, 15, 2010, from http://www.dlib.org/dlib/may08/monnich/05monnich.html
Nicholson, S.(2003). The Bibliomining Process: Data Warehousing and Data Mining for Library Decision Making. Information Technology & Libraries, 22(4), 146-151.
Pyle, D. (1991). Data Preparation for Data Mining. San Francisco, CA:Morgan Kaufmann .
Tsai, C. S.,& Chen, M. Y.(2008). Using adaptive resonance theory and data-mining techniques for materials recommendation based on the e-library environment. Electronic Library, 26(3), 287-302.