簡易檢索 / 詳目顯示

研究生: 古怡巧
Gu, Yi-Ciao
論文名稱: 幽默語料庫之建置
The Construction of Humor Corpus
指導教授: 曾元顯
Tseng, Yuen-Hsien
學位類別: 碩士
Master
系所名稱: 圖書資訊學研究所
Graduate Institute of Library and Information Studies
論文出版年: 2019
畢業學年度: 107
語文別: 中文
論文頁數: 110
中文關鍵詞: 幽默語料庫語料庫建置語料庫
英文關鍵詞: Humor Corpus, construction of corpus, corpus
DOI URL: http://doi.org/10.6345/THE.NTNU.GLIS.006.2019.A01
論文種類: 學術論文
相關次數: 點閱:248下載:40
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 幽默為調劑生活的重要元素之一,隨著高壓狀態日益劇增,對於幽默的需求也逐漸提升,為尋求幽默內容的最大價值,本研究建構具一定規模、符合臺灣國情,並以正體中文為主的幽默語料庫,其主要目的為:(1)探討幽默語料庫的意義及價值;(2)研擬適合幽默語料庫的詮釋資料格式及語料量;(3)分析幽默語料庫建置流程,並加以典藏;(4)蒐集的語料作分類,並解決分類不一致問題;(5)探究幽默語料庫的擴展性及應用面向。
    本研究詳述如下:首先歸納幽默語料庫所內含的相關理論與背景,包括「幽默」、「語料庫」及兩者的結合;再者蒐集多個來源的語料內容,且擬定合適的語料欄位與架構,其中會利用內容分析法及系統發展研究法,而語料處理作業(包括清理重複笑話、標註編目、主題一致性等等),則會以人工作業為主,程式作業為輔;最後依據初步的幽默語料庫統計各面向數量,分析其應用及未來研究展望,並設計預期加值欄位,如誘發笑話原因、負例、人物及幽默程度評分機制,加上語料擴充、語料檢索系統開發等,以促進聊天機器人或幽默生成辨識技術。
    最終幽默語料庫語料量達3,691則笑話(截至2019年1月),為一個專門語料庫也同為監控語料庫,同時具備歷時性與共時性,擁有完整的建置流程,語料不限語種,但以正體中文為主,屬適用於臺灣國情的「幽默語料庫」,並符合幽默的五大特性,包含主觀性、地域性、文化性、時事性以及語言差異等。

    Humor is one of the important elements of life. As pressure increases, the demand for humor is gradually increasing. In order to seek the greatest value of humorous content, this research constructs a humor corpus with a certain scale, in line with Taiwan's national conditions, and mainly in Traditional Chinese. The main purposes are: (1) to discuss the meaning and value of The Humor Corpus; (2) to develop the format of the metadata and the amount of corpus suitable for The Humor Corpus; (3) to analyze the process of building a humor corpus and archives of The Humor Corpus; (4) to classify the corpus and solve the problem of classification inconsistency; (5) to explore the extensibility and application orientation of The Humor Corpus.
    The research is detailed below: first, summarize all the relevant theories and backgrounds of The Humor Corpus, including "humor", "corpus" and a combination of the two; second, collect corpus content from multiple sources, and develop appropriate corpus fields and structures, which use content analysis and systems development in information systems research. The corpus processing tasks include cleaning up repeated jokes, labeling catalogs, topic consistency, etc., which will be based on manual work, and the program is assisted; finally, based on the preliminary humor corpus statistics, analyze the application and future research prospects, and design the expected value-added fields such as the causes of jokes, negative examples, characters and humor level scoring mechanism, plus corpus expansion, corpus retrieval system development, etc., to promote chatbot or humor identification or humor generation technology.
    In the end, The Humor Corpus content reached 3,691 jokes (as of January 2019). It is a specialized corpus and a monitor corpus with both diachronic and synchronic, with a complete construction process. The corpus is not limited to language, but it is mainly in Traditional Chinese. It is a " Humor Corpus " suitable for Taiwan's national conditions and conforms to the five characteristics of humor, including subjectivity, regional, cultural, topicality and language differences.

    第一章 緒論 1 第一節 研究動機 1 第二節 研究目的 2 第三節 研究問題 3 第四節 名詞解釋 3 第二章 文獻探討 5 第一節 幽默的定義與範圍 5 第二節 語料庫的定義、背景及應用 11 第三節 幽默語料庫之相關研究 19 第四節 幽默語料與詮釋資料 27 第三章 研究方法與實施 33 第一節 研究方法 33 第二節 研究範圍與限制 35 第三節 研究架構 36 第四節 研究實施與步驟 37 第四章 幽默語料庫建置與分析 41 第一節 建置流程 41 第二節 語料蒐集 43 第三節 語料清理 60 第四節 語料編目 64 第五節 幽默語料庫分析 74 第五章 結論與後續研究 80 第一節 結論 80 第二節 後續研究 82 參考文獻 89 附錄 1 國內語料庫列表 101 附錄 2 國外語料庫列表 102 附錄 3 資料集詮釋資料標準規範之通用性資料集標準框架表 103 附錄 4 Python程式碼─相似度計算 105

    FunHacks(2016)。Python 正則表達式 re 模塊。取自http://funhacks.net/2016/12/27/regular_expression/
    JeanCheng(2015)。Python正则表達式匹配中文。取自https://blog.csdn.net/gatieme/article/details/43235791
    Tommy Huang(2018)。機器學習應用-「垃圾訊息偵測」與「TF-IDF介紹」(含範例程式)。取自https://medium.com/@chih.sheng.huang821/機器學習應用-垃圾訊息偵測-與-tf-idf介紹-含範例程式-2cddc7f7b2c5
    Vincent(2009)。使用MS Office OneNote辦識圖片中的文字。取自http://isvincent.pixnet.net/blog/post/30094176-%E4%BD%BF%E7%94%A8ms-office-onenote%E8%BE%A6%E8%AD%98%E5%9C%96%E7%89%87%E4%B8%AD%E7%9A%84%E6%96%87%E5%AD%97。
    上海圖書館(2006)。DCMI元數據術語。取自http://dc.library.sh.cn/dcmi-terms.htm
    中文信息學報(2018)。期刊简介。取自http://jcip.cipsc.org.cn/CN/column/column22.shtml
    中央研究院(1997)。中央研究院中英雙語知識本體詞網。取自 http://bow.ling.sinica.edu.tw/intro/
    中央研究院(1997)。古漢語語料庫。取自 http://hanji.sinica.edu.tw/
    中央研究院語言學研究所。中文詞彙特性速描系統簡介。取自 http://wordsketch.ling.sinica.edu.tw/
    中央研究院歷史語言研究所(1984)。漢籍全文資料庫。取自 http://hanchi.ihp.sinica.edu.tw/ihp/hanji.htm
    中華民國計算語言學學會。中文廣播新聞語料庫。取自 http://www.aclclp.org.tw/use_mat_c.php#cospro
    中華民國計算語言學學會。台灣口音英語語料庫。取自 http://www.aclclp.org.tw/use_mat_c.php#cospro
    中華民國計算語言學學會。國語語音資料庫。取自 http://www.aclclp.org.tw/use_mat_c.php
    尤雅姿(1996)。《世說新語》所表現之幽默現象及其意義之探究-從美學的觀點出發。文史學報,26,49-70。
    王勻芊(2016)。口語語料庫之建置典藏與應用:以臺灣客語口語語料庫為例 (碩士論文)。國立政治大學,臺北市。
    王梅玲(1995)。主題分析Subject Analysis【線上辭典】。取自http://terms.naer.edu.tw/detail/1683115/
    王梅玲(2011)。都柏林核心集(Dublin Core)。取自http://techserviceslibrary.blogspot.tw/2011/04/dublin-core.html
    台灣語言學學會(2015)。【政大客語口語語料庫】 近期更新!歡迎使用!取自 http://linguist.tw/zh-tw/news/67/
    任紹偉(2004)。幽默笑話語言學。中國:吉林人民出版社。
    任璐、楊亮、徐琳宏、樊小超、刁宇峰、林鴻飛(2018)。中文笑話語料庫的構建與應用。中文信息學報,32(7),20-29。
    光華畫報雜誌社(2005)。光華雜誌中英對照知識庫。取自 http://edba.ncl.edu.tw/sinorama/intro.htm
    李佩瑛等人(2010)。語料庫建置入門數位化工作流程指南。臺北:數位典藏拓展臺灣數位典藏計畫。
    李廣偉、戈玲玲、劉朝暉(2016)。言語幽默漢英平行歷時語料庫及其檢索系統的構建與應用。外語電化教學,172,60-65。
    李璠(2017)。基于自建語料庫對環境幽默語篇的多維度分析。環球市場信息導報,21,102-106。
    岳曉東(2012)。幽默心理學:思考與研究。香港:香港城市大學。
    岳曉東、郝霞、Goldman, G.(2010)。幽默風格、樂觀人格與心理健康—— 800名香港和內地大學生的調查與思考。教育研究學報,25(1),125-157。
    林武聰(2003)。線上英語學習環境(碩士論文)。國立雲林科技大學,雲林縣。
    林郁翔(2008)。為何使用資料庫儲存資料時,需要先執行正規化?取自https://www.ithome.com.tw/node/47440
    林淑貞(2006)。作者、歷史與「寓莊於諧」──明清「笑話寓言」創作意圖析探。興大中文學報,18,73-122。
    國家教育研究院(2016)。105.08.12 國教院華語文語料庫查詢工具及基礎技巧簡介【Youtube影音資料】。取自 https://www.youtube.com/watch?v=LuF7WBeOHrU
    國家教育研究院。國家教育研究院電子報(第167期)。取自https://epaper.naer.edu.tw/index.php?edm_no=167&content_no=2952
    國家教育研究院。國家教育研究院電子報(第38期)。取自https://epaper.naer.edu.tw/index.php?edm_no=38&content_no=1040
    國家教育研究院。國家教育研究院電子報(第49期)。取自https://epaper.naer.edu.tw/index.php?edm_no=49&content_no=1368
    國家發展委員會(2015)。資料集詮釋資料標準規範。取自http://file.data.gov.tw/opendatafile/資料集詮釋資料標準規範.pdf
    崔懷芝(2007)。量表信度的測量:kappa統計量之簡介。生統E報,11。
    章忠信(2003a)。我怎知如何才是「合理使用」的合理範圍?著作權筆記。取自http://www.copyrightnote.org/ArticleContent.aspx?ID=3&aid=563
    章忠信(2003b)。印書籍時不可超過三分之一?著作權筆記。取自http://www.copyrightnote.org/ArticleContent.aspx?ID=3&aid=1168
    陳巧陵(2007)。當代「笑話」之研究(碩士論文)。國立臺中教育大學,臺中市。
    陳淑蓉、陳學志(2005)。幽默感的定義與測量:多向度幽默感量表之編製。應用心理學,26,167-187。
    陳雅文(1995)。內容分析法Content Analysis Method 【線上辭典】。取自http://terms.naer.edu.tw/detail/1683205/
    傅愛平(1998-2003)。語料庫研究與應用綜述。取自http://ccl.pku.edu.cn/doubtfire/corpuslinguistics/Introduction/FuAiping_Corpus _introduction.pdf
    曾元顯(2017)。【中文幽默對話系統之研發】。未出版之原始資料。
    曾元顯、王峻禧(2007)。分類不一致之自動偵測:以農資中心資料為例。圖書館學與資訊科學,33(2),20-32。
    游美惠(2000)。內容分析、文本分析與論述分析在社會研究的運用。調查研究,8,5-42。
    番番要吃肉(2018)。用Python進行簡單的文本相似度分析。取自https://blog.csdn.net/xiexf189/article/details/79092629
    黃國彥(2000)。內容分析法【線上辭典】。取自https://pedia.cloud.edu.tw/Entry/Detail/?title=%E5%85%A7%E5%AE%B9%E5%88%86%E6%9E%90%E6%B3%95
    極客書(2015)。Python len()方法。取自http://tw.gitbook.net/python/string_len.html
    解志強(2010)。翻譯中的語言規範問題:談網路的語料庫功能。編譯論叢,3(2),163-202。
    詹雨臻(2015)。幽默的腦神經機制。教育與心理研究,38(3),101-135。
    詹雨臻、陳學志、卓淑玲、Martin, R. A.(2011)。區分良善與有害的幽默──正體中文版「幽默風格量表」的發展。測驗學刊,58,207-234。
    電子檔案保存實驗室(2017)。文獻編碼。取自https://pearl.archives.gov.tw/Publish.aspx?cnid=89&p=1644
    遠流出版事業股份有限公司(2003)。科學人雜誌知識庫中英對照版。取自 http://www.smgsh.tc.edu.tw/saweb/
    劉志剛(2014)。索緒爾的共時語言學與歷時語言學之淺析。取自http://www.zgqkk.com/lwxs/wx/15962.html
    劉純睿(2014)。批踢踢語料庫之建置與應用(碩士論文)。國立臺灣大學,臺北市。
    劉鋒、張京魚(2015)。基於多媒體語料庫的小學生幽默話語會話分析。山東師範大學外國語學院學報:基礎英語教育,17(2),15-21。
    劉靜(2017)。中文反諷Valence-Arousal-Irony語料庫的創建和評估(碩士論文)。元智大學,桃園市。
    鄭聖敏(2001)。資優學生的情意教育─培養幽默感。資優教育季刊,79,26-36。
    蕭瑞祥、姜青山、曹金豐、陳柏翰(2015)。基於中文語法規則的情感評價單元抽取方法之研究。中華民國資訊管理學報,22(3),243-272。
    謝家浩(2018)。資訊科技與華語教學的內涵 ─評介《語料庫與華語教學》。課程研究,13(1),111-119。
    Abu Shawar, B.A., Atwell, E. and Roberts, A. (2005) FAQchat as in Information Retrieval system. In: Human Language Technologies as a Challenge for Computer Science and Linguistics: Proceedings of the 2nd Language and Technology Conference. 2nd Language& Technology Conference, April, 21-23, 2005, Pozná, Poland . Pozná : Wydawnictwo Poznáskie : with co-operation of Fundacja Uniwersytetu im. A. Mickiewicza , pp. 274-278.
    Augello, A., Saccone, G., Gaglio, S., & Pilato, G. (2008). Humorist Bot: Bringing Computational Humour in a Chat-Bot System. Paper presented at the International Conference on Complex, Intelligent and Software Intensive Systems.
    Bacciu, D., Gervasi, V., & Prencipe, G. (2016). LOL: An Investigation into Cybernetic Humor, or: Can Machines Laugh? 8th International Conference on Fun with Algorithms, 49, 3:1-3:15. doi: 10.4230/LIPIcs.FUN.2016.3
    Barelson, B. (1952). Content Analysis in Communication Research. Glencoe, III.: The Free Press.
    Binsted, K., & Ritchie, G. (1997). Computational Rules for Generating Punning Riddles. Humor - International Journal of Humor Research, 10(1), 25-76. doi:10.1515/humr.1997.10.1.25
    Björkenstam, K. N. (2013). What is a corpus and why are corpora important tools? Paper presented at the Nordic seminar: How can we use sign language corpora?, Copenhagen.
    Blinov, V., Mishchenko, K., Bolotova, V., & Braslavski, P. (2017). A Pinch of Humor for Short-Text Conversation: An Information Retrieval Approach. Paper presented at the Experimental IR Meets Multilinguality, Multimodality, and Interaction: 8th International Conference of the CLEF Association, CLEF 2017, Dublin, Ireland, September 11–14, 2017, Proceedings, Cham.
    Chen, L., & Lee, C. M. (2017). Predicting Audience's Laughter Using Convolutional Neural Network. Retrieved from https://arxiv.org/abs/1702.02584
    Corpus of Contemporary American English (1990). Corpus of Contemporary American English (COCA). Retrieved from https://corpus.byu.edu/COCA/
    Crystal, David (1992). An Encyclopedic Dictionary of Language and Languages. Oxford: Blackwell.
    Donahue, D., Romanov, A., & Rumshisky, A. (2017). HumorHawk at SemEval-2017 Task 6: Mixing Meaning and Sound for Humor Recognition. Paper presented at the 11th International Workshop on Semantic Evaluations, Vancouver, Canada.
    Du, S., Wan, X., & Ye, Y. (2017). Towards Automatic Generation of Entertaining Dialogues in Chinese Crosstalks. Retrieved from https://arxiv.org/abs/1711.00294
    Dublin Core Metadata Initiative. DCMI Metadata Terms. Retrieved from http://dublincore.org/documents/dcmi-terms/#terms-medium
    Dynel, M. (2009). Beyond a Joke: Types of Conversational Humour. Language and Linguistics Compass, 3(5), 1284–1299.
    Forke, A. (2017). Chinese Wit and Humor. Retrieved from http://opensiuc.lib.siu.edu/cgi/viewcontent.cgi?article=3473&context=ocj
    FrameNet (1997). Welcome to FrameNet. Retrieved from https://framenet.icsi.berkeley.edu/fndrupal/
    Gatto, M., & Bari, U. (2011). The ‘body’ and the ‘web’: The web as corpus ten years on. ICAME Journal, 35, 35-58.
    Hunston, S. (2002). Corpora in Applied Linguistics. United Kingdom: Cambridge University Press.
    Ji, Z., Lu, Z., & Li, H. (2014). An Information Retrieval Approach to Short Text Conversation. arXiv:1408.6988.
    Kane, D. A. (Producer). (2015). ANTswers: an interactive library FAQ. Retrieved from https://escholarship.org/uc/item/4bs6s3hs

    Lexical FreeNet (2003). Lexical FreeNet. Retrieved from http://www.lexfn.com/
    Li, J., Monroe, W., Ritter, A., Galley, M., Gao, J., & Jurafsky, D. (2016). Deep Reinforcement Learning for Dialogue Generation. arXiv. Retrieved from doi:arXiv:1606.01541
    Linguistic Data Consortium (1992). Linguistic Data Consortium. Retrieved from https://www.ldc.upenn.edu/
    Little, L. E. (2011). Just a Joke: Defamatory Humor and Incongruity's Promise. Southern California Interdisciplinary Law Journal, Vol. 21, 2011; Temple University Legal Studies Research Paper No. 2010-25. Available at SSRN: https://ssrn.com/abstract=1701290
    Martin, R. A. (2006). The Psychology of Humor: An Integrative Approach. Burlington, MA : Elsevier.
    McEnery, T., & Wilson, A. (2001). Corpus Linguistics. United Kingdom: Edinburgh University Press.
    Mihalcea, R., & Strapparava, C. (2006). Learning to Laugh (Automatically): Computational Models for Humor Recognition. Computational Intelligence, 22(2), 126-142.
    Nunamaker, J. F. Jr, Chen, M. & Purdin, T.D.M. (1990). Systems Development in Information Systems Research, Journal of Management Information Systems, Vol.7, No. 3, pp. 89-106.
    Ontosaurus. Ontosaurus. Retrieved from https://www.isi.edu/isd/ontosaurus.html
    Paakkinen, A. (2010). "Everything's a joke, everyone's a punchline." Verbally Expressed Humour in the American Television Series Gilmore Girls. Retrieved from http://epublications.uef.fi/pub/urn_nbn_fi_uef-20100093/urn_nbn_fi_uef-20100093.pdf
    Potash, P., Romanov, A., & Rumshisky, A. (2017). SemEval-2017 Task 6: #HashtagWars: Learning a Sense of Humor. Paper presented at the 11th International Workshop on Semantic Evaluations, Vancouver, Canada.
    Princeton University (2018). WordNet. Retrieved from https://wordnet.princeton.edu/
    Reershemius, G. (2012). Research cultures and the pragmatic functions of humor in academic research presentations: A corpus-assisted analysis. Journal of Pragmatics, 44, 863-875.
    Renouf, A. (2015). Corpus development 25 years on: from super-corpus to cyber-corpus. Language and Computers, 62, 27-49.
    Scheel, T. (2017). Definitions, Theories, and Measurement of Humor. In T. Scheel & C. Gockel (Eds.), Humor at Work in Teams, Leadership, Negotiations, Learning and Health (pp. 9-29). doi:10.1007/978-3-319-65691-5_2
    Sen, A. (2012). Humour Analysis and Qualitative Research. Social Research Update, 63, 1-4.
    Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press.
    Sinclair, J. (2005). "Corpus and Text - Basic Principles" in Developing Linguistic Corpora: a Guide to Good Practice, ed. M. Wynne. Oxford: Oxbow Books: 1-16.
    Sjobergh, J., & Araki, K. (2009). A Very Modular Humor Enabled Chat-Bot for Japanese. Paper presented at the Conference of the Pacific Association for Computational Linguistics, Sapporo, Japan.
    Stock, O., & Strapparava, C. (2003). Getting Serious about the Development of Computational Humor. Paper presented at the 18th International Joint Conference on Artificial Intelligence, Acapulco, Mexico.
    Strassel, S. & Cole, A. W. (2006). Corpus Development and Publication. Proceedings of the International Conference on Language Resources and Evaluation.
    The International Corpus of Learner English. ICLE. Retrieved from https://www.icle.org/
    The International Society for Humor Studies (1988). ISHS Home Page. Retrieved from http://www.humorstudies.org/
    The Library of Congress (1994). American Memory. Retrieved from https://memory.loc.gov/ammem/index.html
    University of Oxford (1991). British National Corpus. Retrieved from http://www.natcorp.ox.ac.uk/
    Wallace, R. (2003). The Elements of AIML Style: ALICE A.I. Foundation.
    Weizenbaum, J. (1966). ELIZA ñ A computer program for the study of natural language communication between man and machine. Communications of the ACM. Vol. 10, No. 8, pp 36-45.
    WordSmith Tools. WordSmith Tools home page. Retrieved from http://www.lexically.net/wordsmith/
    Yang, D., Lavie, A., Dyer, C., & Hovy, E. (2015). Humor Recognition and Humor Anchor Extraction. Paper presented at the Conference on Empirical Methods in Natural Language Processing, Lisbon, Portugal.
    Zhang, R., & Liu, N. (2014). Recognizing Humor on Twitter. Paper presented at the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China.
    Zhou, S. & Guan, J. (2002). Evaluation and Construction of Training Corpuses for Text Classification: A Preliminary Study. Lecture Notes in Computer Science, 2553, 97-108.

    下載圖示
    QR CODE