研究生: |
韓怡臻 Han, Yi-Chen |
---|---|
論文名稱: |
應用自動文字探勘於臺灣中文饒舌音樂歌詞之研究 A Study on Text Mining of Chinese Rap Music in Taiwan |
指導教授: |
柯皓仁
Ke, Hao-Ren |
學位類別: |
碩士 Master |
系所名稱: |
圖書資訊學研究所 Graduate Institute of Library and Information Studies |
論文出版年: | 2021 |
畢業學年度: | 109 |
語文別: | 中文 |
論文頁數: | 127 |
中文關鍵詞: | 饒舌 、文字探勘 、詞頻分析 、分群 、分類 |
英文關鍵詞: | Rap, Text Mining, Word Frequency Analysis, Clustering, Classification |
DOI URL: | http://doi.org/10.6345/NTNU202100327 |
論文種類: | 學術論文 |
相關次數: | 點閱:328 下載:26 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
邁入千禧年後,饒舌歌曲已逐漸進入主流音樂市場,深受年輕族群的歡迎。饒舌歌手經常透過自行創作的歌詞來抒發心情或表達對社會的批判,了解饒舌音樂的歌詞內容也能了解當代文化和社會風氣。本研究旨在運用文字探勘探索臺灣中文饒舌音樂歌詞中可能存在之主題類型。
本研究首先進行詞頻分析,計算關鍵詞在歌詞文本中出現的總次數,從整體、歌手、年代三個不同面向去觀察關鍵詞的出現頻率以了解臺灣中文饒舌音樂歌詞的基本內涵與詞頻分布。隨後使用K-means分群演算法及鄰近傳播分群法進行非監督式的分群實驗,並透過輪廓係數的計算以及對各群集的深入觀察作為對分群成效的評估,同時找出了七種可能存在之歌詞主題類型,分別為:音樂、派對、友情、愛情、成長、地方、社會。最後,利用分群實驗與人工標記之結果搭配支援向量機與K-近鄰演算法進行監督式的二元分類實驗,並透過正確率、精確率、召回率與F1值之計算評估此兩種分類演算法在不同的歌詞主題及不同的標記方式下對於臺灣中文饒舌音樂歌詞之分類成效。
本研究發現臺灣中文饒舌音樂歌詞近二十年來以音樂、愛情、派對的主題最為常見,隨著年代的推移,也有越來越多不同的歌詞主題出現,例如,日常生活、社會議題、學校等。分群成效方面,鄰近傳播分群法相較於K-means分群演算法會得到略好些的分群成效。分類成效方面,使用K-近鄰演算法相較於支援向量機會得到略好些的分類成效,而且透過分群結果輔助分類標記能訓練出比純人工標記還要好的音樂類歌詞二元分類模型。音樂類主題的歌詞確實存在於臺灣中文饒舌音樂歌詞中,而其他主題類型的歌詞因為有資料不平衡之問題存在,能否自成一類仍有待觀察。建議未來研究可以增加歌詞文本的收錄範圍、嘗試不同的維度縮減方式、從不同面向進行詞頻分析、偕同專家或閱聽者進行標記、使用不同的分群與分類方法。
After entering the millennium, rap songs have gradually entered the mainstream music market and are very popular among young people. Rappers often express their emotions or express criticism of society through their own lyrics. Understanding the content of rap music lyrics can also understand contemporary culture and social atmosphere. The purpose of this study is to explore possible thematic types in Chinese rap music lyrics in Taiwan through text mining.
This study first conducted word frequency analysis, calculated the total number of occurrences of keywords in the lyrics text, and observed the frequency of each keyword from three aspects: overall, singer, and age to understand the basic connotation and word frequency distribution of the lyrics texts. Then, this study used K-means and affinity propagation clustering to conduct unsupervised clustering experiments, and used the calculation of silhouette coefficients and in-depth observation of each cluster to evaluate the effectiveness of clustering. As a result, seven possible lyrics themes were found: music, party, friendship, love, growth, local place, and society. Finally, this study used the results of the clustering experiment and manual labeling with the support vector machine and the K-nearest neighbor algorithm to conduct a supervised binary classification experiment, and through the calculation of accuracy, precision, recall and F1 value, the effectiveness of these two classification algorithms on the classification of Chinese rap music lyrics in Taiwan under different lyrics themes and different labeling methods was evaluated.
The findings of the study show that the themes of music, love, and party are the most common themes of Chinese rap music lyrics in Taiwan in the past two decades. As years go by, more and more different lyrics themes appear, such as daily life, social issues, school, etc. In terms of clustering effectiveness, the affinity propagation clustering performed slightly better than K-means. In terms of classification performance, the K-nearest neighbor algorithm outperformed the support vector machine slightly, and the labeling through the clustering results could train a binary classification model for music lyrics that is better than pure manual labeling. The lyrics with the theme of music do exist in Chinese rap music lyrics in Taiwan, and it remains to be seen whether other themes exist due to the problem of data imbalance. It is suggested that future research can increase the coverage of lyrics text, try different dimension reduction methods, analyze word frequency from different aspects, label types of lyrics by experts or listeners, and use different clustering and classification methods.
Bennett, A. (2000). Popular Music and Youth Culture: Music, Identity and Place. London, England: Macmillan.
Chen, S. Y., Tseng, T. T., Ke, H. R., & Sun, C. T. (2011). Social trend tracking by time series based social tagging clustering. Expert Systems with Applications, 38(10), 12807-12817.
Chervonenkis, A. Y. (2013). Early history of support vector machines. In Empirical Inference (pp. 13-20). Springer, Berlin, Heidelberg.
Cover, T., & Hart, P. (1967). Nearest neighbor pattern classification. IEEE transactions on information theory, 13(1), 21-27.
Dueck, D., & Frey, B. J. (2007, October). Non-metric affinity propagation for unsupervised image categorization. In 2007 IEEE 11th International Conference on Computer Vision (pp. 1-8). IEEE.
Furuya, M., Huang, H. H., & Kawagoe, K. (2014). Music classification method based on lyrics for music therapy. In Proceedings of the 18th International Database Engineering & Applications Symposium (pp. 382-383). ACM.
George, N. (1999). Hip Hop America. London, England: Penguin Press.
Herd, D. (2005). Changes in the prevalence of alcohol use in rap song lyrics, 1979–97. Addiction, 100(9), 1258-1269.
Herd, D. (2008). Changes in drug use prevalence in rap music songs, 1979–1997. Addiction Research & Theory, 16(2), 167-180.
Herd, D. (2014). Changes in the prevalence of alcohol in rap music lyrics 1979–2009. Substance use & misuse, 49(3), 333-342.
MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. In Proceedings of the fifth Berkeley symposium on mathematical statistics and probability (Vol. 1, No. 14, pp. 281-297).
Motley, C. M., & Henderson, G. R. (2008). The global hip-hop Diaspora: Understanding the culture. Journal of Business Research, 61(3), 243-253.
Oxford English Dictionary (2019). subculture. Retrieved from https://en.oxforddictionaries.com/definition/us/subculture
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., ... & Duchesnay, É. (2011). Scikit-learn: Machine learning in Python. the Journal of machine Learning research, 12, 2825-2830.
Petchauer, E. (2012). Hip-hop culture in college students' lives: Elements, embodiment, and higher edutainment. Routledge.
Python (programming language) (2020). In Wikipedia, The Free Encyclopedia. Retrieved January 1, 2020, from https://en.wikipedia.org/w/index.php?title=Python_(programming_language)
Rapping (2019). In Wikipedia, The Free Encyclopedia. Retrieved December 29, 2019, from https://en.wikipedia.org/w/index.php?title=Rapping
Richardson, L. (2004). Beautiful Soup Documentation. Retrieved from https://www.crummy.com/software/BeautifulSoup/bs4/doc/
Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of computational and applied mathematics, 20, 53-65.
Schweig, M. L. (2013). The song readers: Rap music and the politics of storytelling in Taiwan (Unpublished doctoral dissertation). Harvard University, Massachusetts.
groots(2018年5月15日)。今天我一定要說清楚Tableau和FineReport的區別【部落格文字資料】。取自https://ithelp.ithome.com.tw/articles/10198395
PyInvest(2020年4月19日)。[機器學習首部曲]K-近鄰演算法 KNN【部落格文字資料】。取自https://pyecontech.com/2020/04/19/%e6%a9%9f%e5%99%a8%e5%ad%b8%e7%bf%92%e9%a6%96%e9%83%a8%e6%9b%b2k-%e8%bf%91%e9%84%b0%e6%bc%94%e7%ae%97%e6%b3%95-knn/
TangShusen(2018年10月27日)。看了这篇文章你还不懂SVM你就来打我【部落格文字資料】。取自https://tangshusen.me/2018/10/27/SVM/
Tommy Huang(2018年3月16日)。機器學習-支撐向量機(support vector machine, SVM)詳細推導【部落格文字資料】。取自https://chih-sheng-huang821.medium.com/%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E6%94%AF%E6%92%90%E5%90%91%E9%87%8F%E6%A9%9F-support-vector-machine-svm-%E8%A9%B3%E7%B4%B0%E6%8E%A8%E5%B0%8E-c320098a3d2e
World Peace(2017年10月20日)。獨家專訪 / 代表參劈的學院派饒舌巨擘 ─ 老莫 ILL MO【新聞群組】。取自https://www.cool-style.com.tw/wd2/archives/268664
Yuki Liu(2019年6月19日)。Clustering method 5【部落格文字資料】。取自https://medium.com/ai-academy-taiwan/clustering-method-5-88c109369fa8
文化部影視及流行音樂產業局(2021)。歷屆得獎入圍名單。取自https://www.bamid.gov.tw/informationlist_176.html
王思涵(2018)。嘻哈囝:台灣饒舌故事。臺北市:避風港文化。
余至浩(2019年9月4日)。千呼萬喚十多年!中研院終於開源釋出國產自動化中文斷詞工具,正式採用GPL 3.0釋出【新聞群組】。取自https://www.ithome.com.tw/news/132838
宋天龙(2015年5月19日)。聚类算法Affinity Propagation(AP) 【部落格文字資料】。取自https://www.dataivy.cn/blog/%E8%81%9A%E7%B1%BB%E7%AE%97%E6%B3%95affinity-propagation_ap/
张俊红(2018年7月15日)。sklearn参数详解—SVM【部落格文字資料】。取自https://zhuanlan.zhihu.com/p/39780508
李朋軒(2019)。Chinese README。取自https://github.com/ckiplab/ckiptagger/wiki/Chinese-README
李静、林鸿飞與李瑞敏(2012)。基于情感向量空间模型的歌曲情感标签预测模型。中文信息学报,26(6),45-51。
李靜怡(2005)。台灣青少年嘻哈文化的認同與實踐(未出版之碩士論文)。國立成功大學,臺南市。
谷佳臻(2005)。電腦輔助分析軟體運用於質性研究訪談稿內容分析之探討(未出版之碩士論文)。國立臺灣師範大學,臺北市。
林怡萱(2011)。台灣流行音樂歌詞中所反映的當代文化:語料庫語言學研究(未出版之碩士論文)。輔仁大學,新北市。
林羿薰(2017)。情慾歌詞之內容分析(未出版之碩士論文)。樹德科技大學,高雄市。
林浩立(2005)。流行化、地方化與想像:台灣嘻哈文化的形成。人類與文化,37,7-28。doi:10.6719/MC.200509_(37).0003
林程中(2019)。中文饒舌音樂進行環境教育的潛力研究—以推敲可能性模型分析臺灣饒舌樂迷對於環保相關饒舌歌曲的涉入情形(未出版之碩士論文)。國立臺灣師範大學,臺北市。
邱詩惠(2017)。情歌歌詞之內容分析─以陳奕迅華語專輯為例(未出版之碩士論文)。樹德科技大學,高雄市。
洪雅萍(2013)。台灣嘻哈音樂的在地異世界-以豬頭皮、MC HOTDOG為例(未出版之碩士論文)。國立中興大學,臺中市。
洪嘉鴻(2008)。從搖滾樂看台灣在地青少年次文化—以五月天為例(未出版之碩士論文)。南華大學,嘉義縣。
張世倫(2006年11月)。拷秋勤的本土嘻哈。台灣光華雜誌,11。取自https://www.taiwan-panorama.com/Articles/Details?Guid=31ab1e8f-616f-4b60-a9a9-d9155a8613e1&CatId=10
張李誌(2015)。臺灣饒舌音樂的確立與發展-以大支與蛋堡為例(未出版之碩士論文)。國立成功大學,臺南市。
莊景和(2005)。正統性的對戰:台灣嘻哈饒舌樂的音樂政治(未出版之碩士論文)。國立臺灣師範大學,臺北市。
陳俐雯(2012)。分群效度指標的評估分析與設計(未出版之碩士論文)。國立高雄大學電機工程學系碩士班碩士論文,高雄市。
陳若涵(2006)。以音樂內容為基礎的情緒分析與辨識(未出版之碩士論文)。國立清華大學,新竹市。
陳培真(1997)。外顯式溝通中說者與聽者之間的關係:以豬頭皮的饒舌歌為例(未出版之碩士論文)。國立師範大學,臺北市。
曾元顯(2002)。文件主題自動分類成效因素探討。中華民國圖書館學會會報,68,62-83。
辜嘉麗(2018)。「五月天」歌詞創作研究(未出版之碩士論文)。淡江大學,新北市。
韩笑(2013)。说唱音乐风格的演唱与特点。音乐生活,11,87-88。
廖偉帆(2016)。熱門華語流行音樂歌詞情緒分析與趨勢發展(未出版之碩士論文)。實踐大學,臺北市。
蔡雪莉(2016)。五月天樂團音樂的象徵與再現:以歌詞與MV的分析為例(未出版之碩士論文)。慈濟大學,花蓮縣。
蕭蘋與蘇振昇(2002)。揭開風花雪月的迷霧:解讀台灣流行音樂中的愛情世界 (1989-1998)。新聞學研究,(70),167-195。
謝邦昌(2017)。Text Mining文本探勘【HyRead版】。取自https://0-ntnu.ebook.hyread.com.tw.opac.lib.ntnu.edu.tw/bookDetail.jsp?id=132354
鍾康盈(2018)。流行音樂之文本分析研究~以梁靜茹情歌歌詞為例(未出版之碩士論文)。樹德科技大學,高雄市。
鍾華璇(2018)。五月天樂團歌詞之音韻風格研究──以陳信宏之歌詞為例(未出版之碩士論文)。國立彰化師範大學,彰化縣。
韓森(2018)。來韓老師這裡學饒舌:有了這一本,讓你饒舌不走冤枉路!。臺北市:時報。