研究生: 徐志廷
Hsu, Chih-Ting
論文名稱: 電影評論之助益性分析研究
Helpfulness Analysis for Movie Reviews
指導教授: 侯文娟
Hou, Wen-Juan
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2018
畢業學年度: 106
語文別: 中文
論文頁數: 45
中文關鍵詞: 自然語言處理情緒分析機器學習詞性分析助益性評論電影評論
英文關鍵詞: natural language processing, sentiment analysis, machine learning, part of speech analysis, review helpfulness, movie reviews
DOI URL: http://doi.org/10.6345/THE.NTNU.DCSIE.003.2018.B02
論文種類: 學術論文
相關次數: 點閱:184下載:4
  • 現今網際網路的蓬勃發展下,巨大的資料量已經是無可避免的趨勢,其中也包含了使用者留下的評論。眾多的評論中不一定每則都是有用的資訊,因此從大量的使用者評論中篩選出有助益性的評論,是本篇論文的研究目標。
    評論的有助益性(review helpfulness)並沒有一個標準的定義,只要能幫助使用者有所思考,就能是助益性的一種。因此本研究嘗試透過各項特徵給定評論分數,作為判斷的依據。
    本篇論文以雅虎電影中文短篇評論做為研究題材,使用中央研究院中文斷詞系統先將評論進行斷詞處理,再從資料裡找出TFIDF關鍵詞、詞性及評論長度。其中TFIDF關鍵詞經過教育部線上辭典進行同/反義詞擴充,並使用臺灣大學建立的情緒詞詞典NTUSD (National Taiwan University Semantic Dictionary)進行比對,找出每則評論所包含的情緒詞,且計算情緒詞出現的次數。並使用SVM訓練模型及預測結果,得到了79.7%的準確率。

    With the rapid development of the Internet, huge amount of information is an inevitable trend, which also includes lots of user comments. Many reviews do not include useful information, so extracting helpful comments from a large number of user reviews is the research goal of this paper.
    There is no standard definition of review helpfulness, and as long as if it helps users to think about it, it can be helpful. Therefore, this study attempts to give comments by the characteristics of scores , as a basis for judgment.
    This thesis takes the short stories of Yahoo movie as the research target.The study uses the CKIP (Chinese Knowledge Information Processing) to process the comments first, and then find out the TFIDF keywords, parts of speech and lengths of comments from the data. The TFIDF keyword are expanded to synonyms and antonyms by the online dictionary of Ministry of Education. NTUSD (National Taiwan University Semantic Dictionary) was used built by National Taiwan University to find out the sentiment words contained in each comment and to calculate the number of sentiment words. Using SVM training model and prediction results, the accuracy of 79.7% was obtained.

    摘要 I Abstract II 僅獻給 III 誌謝 IV 圖目錄 VI 表目錄 VI 第一章 緒論 1 第一節 研究動機 1 第二節 研究目的 2 第三節 論文架構 3 第二章 相關研究探討 4 第一節 斷詞系統 4 (一) 中央研究院斷詞系統 4 (二) 結巴(Jieba)中文斷詞套件 7 第二節 NTUSD 8 第三節 教育部重編國語辭典修訂本 8 第四節 支持向量機(Support Vector Machine) 9 第五節 相關文獻探討 10 第三章 方法與步驟 12 第一節 研究方法架構 12 第二節 實驗語料庫 14 第三節 前置處理 17 第四節 電影評論關鍵詞建立 17 (一)TFIDF篩選 17 (二)電影關鍵字擴充 21 第五節 特徵擷取 22 第六節 機器學習方法 28 第四章 實驗結果與分析 29 第一節 實驗語料庫 29 第二節 評估標準 30 第三節 實驗結果與分析 32 第四節 Cross Validation 37 第五章 結論與未來發展 39 參考文獻 40 附錄 44

