簡易檢索 / 詳目顯示

研究生: 王韋鈞
WANG, Wei-Chun
論文名稱: 從新聞擷取命名實體與應用
Name entity extracts and applications from NEWS
指導教授: 曾元顯
Tseng, Yuen-Hsien
口試委員: 林頌堅 江信昱
口試日期: 2021/07/08
學位類別: 碩士
系所名稱: 圖書資訊學研究所圖書資訊學碩士在職專班
Graduate Institute of Library and Information Studies_Continuing Education Master's Program of Library and Information Studies
論文出版年: 2021
畢業學年度: 109
語文別: 中文
論文頁數: 83
中文關鍵詞: 命名實體新聞查詢系統資訊擷取關聯性資料庫
研究方法: 實務報告
DOI URL: http://doi.org/10.6345/NTNU202101292
論文種類: 代替論文:專業實務報告(專業實務類)
相關次數: 點閱:330下載:21
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 每天透過新聞的閱覽,可以得到許多的資訊,而這些最新的資訊是屬於「現在」的資訊。隨著每天不斷的累積著「現在」的資訊,堆積成許許多多雖然不是最新,但是仍然重要的「歷史」資訊。

    Through reading news paper every day, you can get a lot of information, and the latest information is "nowaday" information. With the accumulation of " nowaday " information every day, lot of "historical" information that is not the latest but still very valued.
    This research extracts name entity from news and try to applicate collected data, to earn more meaningful and valuable information.
    The three stages of this research are to analyze the type of text, classify the text by analyze the results, convert the unstructured data. into structured data. The second stage is to import structured data into the database, using relational database to contain these data for future analysis. The third stage is to construct a system for searching and presenting data, look for a person’s career through time, or look for personal career changes in a period time.
    Among the four search function systems currently completed in this system, include: career searching, name searching, place-name searching, party-name searching.
    The greatest difficulty encountered, can be in the quality and quantity of the data. If you can make your own identification, especially in the name entity extract and classify, surely will make this system more accurate.

    第壹章 緒論 1 第一節 研究背景 1 第二節 研究目的 2 第三節 研究問題 2 第貳章 文獻探討 4 第一節 歷史發展 4 第二節 重要名詞簡介 5 (一) 自然語言處理(Natural Language Processing,NLP) 5 (二) 命名實體(Named Entity) 5 (三) 命名實體識別(Named Entity Recognition,NER) 6 (四) 正規表示式(Regular Expression) 6 (五) 中文詞知識庫小組(CHINESE KNOWLEDGE AND INFORMATION PROCESSING,CKIP LAB) 7 (六) CKIP中文斷詞系統 7 第三節 命名實體擷取應用 8 (一) 知識圖譜(Knowledge Graph ) 8 (二) 語意分析(Semantic Analysis) 9 (三) 輿情分析(Public Opinion Analysis ) 9 (四) 人工智慧對話系統(AI Dialogue System ) 9 第參章 研究方法 10 第一節 研究步驟 10 第二節 實作系統 11 (一) 剖析文本,將非結構化資料整理成結構化資料 11 (二) 將結構化資料導入資料庫 13 第三節 利用網頁介面呈現資料 21 (一) 建置網頁伺服器 21 (二) 撰寫資料庫預存程序 23 (三) 網頁建置 29 第肆章 研究與分析 37 第伍章 問題與討論 40 第一節 資料分析 40 (一) 斷詞系統 41 (二) 詞性分類 42 第二節 搜尋效率 45 (一) 減輕總體資料量 45 (二) 增加硬體效率 46 第陸章 結論 47 參考文獻 49 附錄 52

    中文詞知識庫小組(1993)。技術報告 93-05中文詞類分析(三版)。中央研究院,台北市。
    黃雅筠、張嘉惠、周建龍(2015)。基於以知名稱搜尋結果的網路實體辨識模型建立工具。Conference on Computational Linguistics and Speech Processing,計算語言學研討會,ROCLING 2015,148-163。
    陳鳳儀、蔡碧芳、陳克健、黃居仁(1999)。中文句結構樹資料庫(Sinica Treebank)的構建,Computational Linguistics and Chinese Language Processing,4(2),87-104。
    陳聖為(2015)。混合式ICD-10 命名實體識別方法於日文電子病歷之研究(未出版碩士論文)。私立元智大學,桃園市。
    陳祥輝、陳臆如、黃浩(2017)。SQL SERVER效能調校。新北市:博碩文化。
    郭欣逸 (2017)。一個基於語意分析的自然語言查詢系統(未出版碩士論文)。國立中興大學資訊管理學系所,台中市。
    楊志強(2009)。楊志強Microsoft SQL SERVER 2008 T-SQL實戰學堂。台北市:旗標。
    Archana, G., Vishal, G., & Manis, K.(2018). Recent Named Entity Recognition and Classification techniques: A systematic review. Computer Science Review, 29, 21-43.

    Cheng-Wei Shih, Tzong-Han Tsai, Shih-Hung Wu, Chiu-Chen Hsieh, and Wen-Lian Hsu.(2004). The Construction of a Chinese Named Entity Tagged Corpus: CNEC1.0, Proceedings of the 16th Conference on Computational Linguistics and Speech Processing, 305-313.
    David, N., Satoshi, S. (2007). A survey of named entity recognition and classification. Named Entities: Recognition, classification and use, 3-26.
    Erik, F. T. K. S., Fien, D. M. (2003). Introduction to the CoNLL-2003 Shared task: Language-independent Named Entity recognition. Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003, 142-147.
    Wei-Yun Ma and Keh-Jiann Chen (2003). Introduction to CKIP Chinese Word Segmentation System for the First International Chinese Word Segmentation Bakeoff. Proceedings of ACL, Second SIGHAN Workshop on Chinese Language Processing, 168-171.
    Nick, C., Bhaskar, M., Emine, Y., Daniel, C., & Ellen, M. V. (2019). Overview of the TREC 2019 deep learning track. Retrived from https://arxiv.org/pdf/2003.07820.pdf
    Ralph, G., Beth, S. (1996). Massage Understanding Conference - 6:A Brief History. COLING 1996 Volume 1: The 16th International Conference on Computational Linguistics.
