研究生: 陳奕君
Yi-Chun Chen
論文名稱: 超大型資料倉儲之設計與建置-以電信業固網通聯記錄為例
The Design and Development of a Super Data Warehouse–Using Telecom Call Records as an Example
指導教授: 鄭枸澺
Jeng, Jeu-Yih
Lin, Shun-Shii
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2007
畢業學年度: 95
語文別: 中文
論文頁數: 70
中文關鍵詞: 資料倉儲關聯式資料庫實體化視域自我維護維護成本超大型資料庫
英文關鍵詞: Data warehouse, Relational database, Materialized view, Self-maintainability, Maintenance cost, Very large database, VLDB
論文種類: 學術論文
  • 隨著知識與資訊科技的發達,企業組織所面對的已是一個快速變遷的環境,企業組織的經營者或管理者對決策資訊的需要日益殷切。傳統資料庫因為架構及系統擴充性等限制,已漸無法應付使用者多元化且要求時效性的需求,而且當決策分析所需的資料分布在不同且異質性的資料庫時,整合這些資料將是複雜且費時的程序,在凡事皆講求時效的資訊時代中,因為決策分析的缺乏效率,可能使企業組織因而喪失先機並降低競爭力。正因如此,身居電信業龍頭的中華電信不例外,近年來也一直致力於各式資料倉儲的建設-其中,固網通聯記錄原本以分散方式收集於32台營運處的資料庫,適逢汰換年限,擬改集中於中華電信公司北、中、南分公司三處資料庫。






    關鍵詞 : 資料倉儲、關聯式資料庫、實體化視域、自我維護、維護成本、超大型資料庫

    Living in an age of knowledge and information explosion, the enterprise organizations need to face a changeable environment. More and more decision-making information is needed by the proprietor or manager of the enterprise organizations day by day. Due to the limit of system expandability, the traditional database has become inefficient to deal with such a gradually changeable user demand. Moreover, it will be more complex to integrate the data for decision making that are widely distributed over heterogeneous databases. When efficiency is highly required, if the decision making lacks for efficiency, it will let the enterprise organization lose their competition ability. As a result, Chunghwa Telecom Co., Ltd. (CHT), the leader of telecommunication industry will not be an exception. In recent years, they also continuously devoted themselves to various types of data mining constructions. Previously, the call records of fixed-line network were distributed over 32 business places originally, which happened to approach the time of the equipment replacement, CHT planed to concentrate all those call records to three databases in the north, middle and south sections in Taiwan.

    According to “similar research and related literature about data collection” and “the research of the previous system”, this research tries to derive the factors of effects for improving the database. The main purposes are:

    1. Propose an efficient and stable method to construct a super large data warehouse, and regard Chunghwa Telecom Co., Ltd. fixed-line network call records as the experiment objects, and actually carry on realization and efficiency experiment.

    2. By comparing the efficiency with the previous system, it proves and confirms that it can still keep the efficiency even in a huge data quantity. According to the experiments, we can show that our method can really build an efficient and stable super large data warehouse.

    3. Under lots of call records measurement and efficiency test, we expect to provide a useful reference for establishing a super large data warehouse.

    The efficiency of our database can be measured by four operations: add, change, delete, and search. This research proposes an economic method to achieve the efficiency goal of data warehouse under limited resources. The system has already been used for the service of the telecommunication fixed network call records in CHT. The experiments indicate that the efficiency of the new system is notably better than the old one, which confirms that this method can really make it. In the mean time, it also overcomes many problems that other organizations can’t solve.

    Keywords: Data warehouse, Relational database, Materialized view, Self-maintainability, Maintenance cost, Very large database, VLDB

    目 錄 附表目錄 IX 附圖目錄 X 第一章 緒論 1 第一節 研究背景 1 第二節 研究目的及意義 2 第二章 文獻探討 3 第一節 資料庫廣為盛行的緣由 3 第二節 何謂資料倉儲 3 第三節 現有中華電信固網通聯系統研究 6 第三章 研究方法與步驟 8 第一節 研究方法 8 第二節 研究步驟 8 第三節 方法設計 10 第四章 系統規劃與實作 14 第一節 需求分析 14 第二節 資料倉儲設計 16 第三節 系統設計及建置 20 第一項 、 資料萃取載入 23 第二項 、 支援隨意查詢-雙向通聯查詢作業工作摘要 29 第三項 、 各實體視域設計-統計作業工作摘要 31 第四項 、 搬遷計劃 35 第五項 、 網站建置 36 第五章 效能調校及驗證 41 第一節 新舊資料載入效能比較 41 第二節 新舊系統實體視域更新效能比較 43 第三節 新舊通聯系統查詢效能比較 44 第四節 新舊系統隨意(AD HOC)查詢效能比較 45 第五節 負載測試 48 第六節 新舊系統方法比較 49 第六章 研究效益 50 第七章 未來研究方向 52 附錄A 搬遷自動處理機制之匯出、入SHELL SCRIPT 53 第一節 匯出SHELL SCRIPT 53 第二節 匯入SHELL SCRIPT 54 附錄B 資料庫搬遷記錄 57 附錄C 專有名詞中英對照表 59 參考文獻 60 ======= 附表目錄 表4.3.1 固網通聯系統統計主要系統表格-參數表 33 表5.1 固網通聯系統新舊設備規格及TPC-C量能比較表 41 表5.4.1 新舊系統任意查詢效能比較表 46 表5.4.2 新舊系統任意查詢效能比較表-大量測試 47 表5.5.1 通聯系統負載測試表-8個Process同時跑的Case 49 表5.6.1 更新實體視域新舊方法比較表 49 表8.1 資料庫搬遷記錄 57 表8.2 專有名詞中英對照表 59 ======= 附圖目錄 圖2.3.1 現有中華電信固網通聯系統架構圖[中華電信內部資料] 7 圖3.2.1 研究流程圖 9 圖4.2.1 固網通聯系統Schema概要圖 18 圖4.2.2 固網通聯系統統計Star Schema概要圖 19 圖4.3.1 舊固網通聯系統架構圖 21 圖4.3.2 新固網通聯系統架構圖 21 圖4.3.3 固網通聯系統開發歷程 22 圖4.3.4 固網通聯系統資料流程圖 23 圖4.3.5 固網通聯系統Tablespace及分割示意圖[中華電信內部資料] 24 圖4.3.6 固網通聯系統資料載入引擎演算法則 25 圖4.3.7 固網通聯系統統計多維度Cube處理器簡化的流程圖 32 圖4.3.8 資料萃取載入、實體視域更新及CDR資料分析關係圖 33 圖4.3.9 固網通聯系統Web網站架構圖 37 圖4.3.10 Web公用模組快速產生統計圖表-滿足客製化需要(例一) 39 圖4.3.11 Web公用模組快速產生統計圖表-滿足客製化需要(例二) 40 圖4.3.12 Web公用模組快速產生統計圖表-滿足客製化需要(例三) 40 圖5.1.1 新舊資料載入效能比較圖(不區分三區) 42 圖5.1.2 新舊資料載入效能比較圖(區分三區) 42 圖5.2.1 新舊系統實體視域更新效能比較圖 43 圖5.3.1 新舊通聯系統查詢效能比較圖 44 圖5.5.1 通聯系統負載測試圖 48

