簡易檢索 / 詳目顯示

研究生: 楊繡如
論文名稱: 網頁表格資訊自動對話模式之研究
Automatic Table Dialog Model on VoiceXML
指導教授: 葉耀明
Yeh, Yao-Ming
學位類別: 碩士
Master
系所名稱: 資訊教育研究所
Graduate Institute of Information and Computer Education
論文出版年: 2004
畢業學年度: 92
語文別: 中文
論文頁數: 149
中文關鍵詞: 語音對話系統多樣化模式存取網站電話語音入口網頁轉碼
英文關鍵詞: VoiceXML, Multimodal Interaction, TelePortal, transcoding
論文種類: 學術論文
相關次數: 點閱:221下載:2
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 摘 要

    近來科技的發展,讓人類的日常生活日漸依賴各種網路資訊服務,過去人類透過電腦來使用這些資訊服務,是遷就電腦傳統的輸出輸入介面,例如鍵盤、滑鼠等。現在由於行動上網、語音技術的進步,已逐漸形成使用資訊服務的新趨勢,讓人們可以透過電話和語音來瀏覽網頁和使用資訊服務。除此之外,這些技術也可以造福身心障礙者,尤其是視障者,可以讓他們用語音互動來瀏覽網頁和使用資訊服務。在1990年代,語音按鍵系統開始萌芽,但只能利用錄音技術提供固定的語音服務。後來在西元2000年,新一代的語音技術VoiceXML崛起,不但可以利用語音辨識與語音合成的技術提供更有彈性的語音服務,而且可以整合電話網路與網際網路的資訊服務。
    惟VoiceXML內容複雜,開發不易,因此,本論文探討如何將HTML網頁轉換成VoiceXML的理論與技術。本研究由HTML表格資訊切入,研究並分析歸類網頁上的六種表格類型,根據每個類型設計不同的對話模式,並開發了將表格轉成VoiceXML格式的VTG(Voice Table Generator)模組,以及使用表格網頁來製作語音網站的VXPB(VoiceXML Portal Builder)系統。在VTG與VXPB的幫助下,網頁設計者透過簡單的操作,就可以設計出語音網站,讓電話使用者將可藉由電話與語音平台對話互動,使一般網站上能夠看到的表格資訊,也可以在語音瀏覽器上以語音網站的方式來呈現給使用者。除此之外,本研究亦使用VXPB與VTG系統,製作有實際功能之「網路書店」、「系所資訊語音入口網」等查詢系統,來驗證VXPB與VTG系統之功能。

    ABSTRACT

    Recently, because of the development of technology, people rely more and more on various information services on Internet in their daily life. In the past, people using computers to access information services yielded to traditional Input/Output interface, for example, keyboard and mouse. Now, the appearance of mobile telecommunication and speech technology enable people to browse web pages by their voice and telephone, and this has become a new trend for using information services. Besides, these technologies can help disabilities, especially the sight-impaired people, to browse web pages and access information services by dialog interaction. Since the mid-1990s, the touch-tone interactive voice response (IVR) system was born. IVR systems only provide static voice service by sound recording. In 2000, VoiceXML came up. It not only provides more flexible voice services by speech recognition and speech synthesis but also integrates telecommunication and Internet for information services.
    However, VoiceXML is complicated and hard to develop. Consequently, this thesis proposed a methodology to transcode HTML to VoiceXML. This research focuses on transcoding the HTML table information and classifies HTML tables to six types. According to each type of HTML tables, the dialog models corresponding to each type of HTML tables is designed. Also, the VTG (Voice Table Generator) system which converts HTML tables to VoiceXML and VXPB (VoiceXML Portal Builder) system which helps user to create VoiceXML portal are presented. By means of VTG and VXPB, web page designer can build voice portal by easy operation. Telephone users can access voice portal using their voice to obtain the HTML table information. Therefore, people can obtain the information not only by “seeing” the web page but also “listening” the auditory web pages. Moreover, in order to test and verify VXPB and VTG, this research also uses VXPB and VTG to build voice portal with query functionality, such as "Web Bookstore Information" and "Portal of Department Information".

    目 錄 附圖目錄…………………………………………………………………..iv 附表目錄…………………………………………………………………..viii 第一章 簡介……………………………………….………………………1                   1.1 研究背景……………………………………………………………….1 1.2 研究動機……….………………………………………………………6 1.3 研究目的……….………………………………………………………7 1.4 論文架構……….………………………………………………………8 第二章 相關文獻探討……….……………….……………...……………9 2.1 多樣化模式存取網站的服務機制………………….…..…….………9 2.2 XML的語音技術:VoiceXML………………….……...….….…..…10 2.2.1 VoiceXML的相關技術…………………………….…….….….11 2.2.2 VoiceXML標準………………………………………….…..….13 2.2.3 VoiceXML的執行環境…………………………………………16 2.2.4動態VoiceXML語音應用程式…………………………………17 2.3 現今網頁轉換成語音文件的實例探討…………………………….…18 第三章 網頁表格資訊自動對話模式設計……………………….……..…21 3.1 電話語音網站製作中心………………………………………………..21 3.1.1 VXPB運作概念………………………………………….………21 3.1.2對話目錄語音網頁的必備要素……………………...…………..23 3.1.3 語音網站的內部結構………………………………………...….26 3.1.4 VXPB的運作方式…………………………………………...…..28 3.2 網頁型表格資訊對話模式……………………………………………..30 3.2.1 表格種類與對話模式……………………………………………31 3.2.2 HTML表格模式………………………………………………..35 3.2.3 XML式索引表格的閱讀模式………………………...………..40 3.2.4 視覺呈現模式轉換聽覺呈現模式之機制…………………….…47 3.3 資料型表格資訊對話模式……………………………………..……….50 3.3.1 語音行事曆的行事項目…………………………………...……..50 3.3.2 XML式行事曆內容……………………………………………..53 3.3.3 語音行事曆的呈現模式 …………………………………………54 第四章 系統架構與實作……………………………………………..………56 4.1 VXPB系統流程架構…………………………………………….………56 4.1.1 VXPB系統架構………………………….…………....…..….……56 4.1.2 VXPB軟體環境介紹……………………………….……….……..65 4.2 VTG系統流程架構…………………………………………….…..…….77 4.2.1 VTG系統架構…………………………………………………...…77 4.2.2 VTG軟體環境介紹…………………………………………...……82 4.3 資料型表格「語音行事曆」系統流程架構……………………….…….85 4.3.1 語音行事曆系統架構……………………………………….…..…85 4.3.2 語音行事曆軟體環境介紹………………………………..……….93 第五章 結論與未來發展………………………………………………..…….97 5.1 VXPB系統與傳統IVR之比較…………..………………….…......….…97 5.1.1 服務性質……………………………………………………..……..98 5.1.2 開發流程特性……………………………………………………....101 5.2 VXPB系統之應用與未來發展…………………………………...………103 5.2.1 VXPB系統之應用………………………………………..…………103 5.2.2 未來發展………………………………………………………..…..104 參考文獻……………………………………………………………..………….105 附錄一……………………………………………………………..…………….109 附錄二……………………………………………………………..…………….110 附錄三………………………………………………………...…………………112 附錄四…………………………………………………….……………………..113 附錄五………………………………………………….………………………..115 附錄六…………………………………………………….……………………..116 附錄七…………………………………………………….……………………..118 附錄八…………………………………………………….……………………..145 附圖目錄 圖1-1 詢問方式的演進……………………………………….……….….3 圖1-2 「全方位應用軟體」概念圖……………………………………….4 圖1-3 HTML使用者與VoiceXML使用者示意圖…………………….…5 圖1-4 本研究定位圖……………………………………………………….8 圖2-1 VoiceXML平台架構圖…………………………………….………..17 圖2-2 動態VoiceXML語音應用程式架構圖…………………….…….…18 圖3-1 VXPB的運作概念……………………………………….……….…22 圖3-2 樹狀節點範例說明……………………………………….………….23 圖3-3 「目錄頁面XML文件」的標籤結構…………………….…………25 圖3-4 「目錄頁面XML文件」範例………………………….……………26 圖3-5 「樹狀網站XML文件」的標籤結構………………….……………27 圖3-6 「樹狀網站XML文件」範例……………………………………….28 圖3-7 VXPB系統流程圖…………………………………….…………….30 圖3-8 以行為主型網頁表格範例………………………….……….………31 圖3-9 以列為主型網頁表格範例…………………………….……..……..32 圖3-10 行列型網頁表格範例……………………………………………….33 圖3-11 跨行型網頁表格範例………………………………………………..33 圖3-12 跨列型網頁表格範例………………………………….….…………34 圖3-13 跨行跨列型網頁表格範例…………………………………………..35 圖3-14 「表格索引XML文件」的標籤結構………...……..……………..36 圖3-15 跨行或跨列的表格處理方式示意圖……………………..………..38 圖3-16 「閱讀次序XML文件」的標籤結構…………………………...….41 圖3-17 「閱讀次序XML文件」的範………………………………..……..42 圖3-18 以行為主型表格示意圖………………………………………...…..43 圖3-19 以列為主型表格示意圖……………………………………….……43 圖3-20 行列型表格示意圖…………………………………………………..44 圖3-21 跨行型表格示意圖………………………………………………….45 圖3-22 跨列型表格示意圖………………………………………………….46 圖3-23 跨行跨列型表格示意圖……………………………………………..46 圖3-24 「以行為主型表格」與「跨行型表格」對話流程….…………….48 圖3-25 「以列為主型表格」與「跨列型表格」對話流程……..…………48 圖3-26 「行列型表格」與「跨行跨列型表格」對話流程…………….….49 圖3-27 查詢表格的某一筆資料示意圖……………………………………..50 圖3-28 「行事項目XML文件」的標籤結構………………………………..51 圖3-29 「行事項目XML文件」範例……………………………….……….52 圖3-30 「行事曆XML文件」的標籤結構……………………….………….53 圖3-31 「行事曆XML文件」範例片段…………………………..…………54 圖3-32 語音行事曆系統之VoiceXML對話流程……………………………55 圖4-1 VXPB使用案例圖……………………………………………………57 圖4-2 VXPB類別圖……………………………………………………...….61 圖4-3 VXPB「新增專案」循序圖…………………………………….……62 圖4-4 VXPB「新增對話目錄」循序圖……………………………………..63 圖4-5 VXPB「新增對話節點」循序圖…………………………………….64 圖4-6 VXPB「包裝檔案」循序圖………………………………………......65 圖4-7 VXPB軟體頁面示意圖………………………………………………..65 圖4-8 VXPB系統首頁畫面……………………………………………….….66 圖4-9 VXPB系統『新增專案』畫面1…………………………………..….67 圖4-10 VXPB系統『新增專案』畫面2………………………………………67 圖4-11 VXPB系統『新增專案』畫面3………………………………………68 圖4-12 VXPB系統『新增專案』完成畫面……………………………….…..69 圖4-13 VXPB系統選擇『新增對話目錄』……………………………..……70 圖4-14 VXPB系統『新增對話目錄』畫面1…………………………..…….70 圖4-15 VXPB系統『新增對話目錄』畫面2…………………………………71 圖4-16 VXPB系統『新增對話目錄』畫面3…………………………….…..71 圖4-17 VXPB系統『新增對話目錄』完成畫面………………………..……72 圖4-18 VXPB系統選擇『新增對話節點』……………………………….….73 圖4-19 VXPB系統『新增對話節點』畫面1…………………………..…….73 圖4-20 VXPB系統『新增對話節點』畫面2………………………….……..74 圖4-21 VXPB系統『新增對話節點』完成畫面1……………………………74 圖4-22 VXPB系統『新增對話節點』完成畫面2……...............................….75 圖4-23 VXPB系統『載入專案』畫面…………….…………………………..76 圖4-24 VXPB系統『載入專案』成功畫面……….…………………….……76 圖4-25 VXPB結束編輯語音網站畫面…………….………………….………77 圖4-26 VTG使用案例圖…………………….……………………………..….78 圖4-27 VTG類別圖……………………………………………………………80 圖4-28 VTG循序圖………………………………………………………..…..81 圖4-29 VTG系統起始畫面……………………………………………………82 圖4-30 VTG系統步驟1畫面…………………………………………………83 圖4-31 VTG系統步驟2畫面………………………………………..………..83 圖4-32 VTG系統完成畫面1……………………………………………….…84 圖4-33 VTG系統完成畫面2………………………………………………….84 圖4-34 VTG系統生成之語音網頁……………………………………..……..85 圖4-35 語音行事曆使用案例圖…………………………………………….…85 圖4-36 語音行事曆類別圖…………………………………………………….90 圖4-37 「新增行事曆內容」循序圖……………………………….…………91 圖4-38 「查詢行事曆內容」循序圖………………………………………….92 圖4-39 「修改行事曆項目」循序圖………….......................................…….93 圖4-40 語音行事曆畫面1………………………………………………….….94 圖4-41 語音行事曆畫面2……………………………………………………..94 圖4-42 語音行事曆系統管理者管理畫面…………………….………………95 圖4-43 修改語音首頁之行事項目……………………………………………..96 圖5-1 傳統IVR系統、VoiceXML系統、VXPB系統之情境圖………..…98 附表目錄 表1-1 HTML應用程式與語音應用程式的比較………………………………6 表2-1 VoiceXML標籤歸類…………………………………………………….16 表3-1 目錄頁面XML文件的標籤及屬性意義…………………………….…24 表3-2 樹狀網站XML文件的標籤及屬性意義…………………………….…27 表3-3 表格索引XML文件的標籤及屬性意義……………………………….36 表3-4 第一大類的表格索引XML文件的對照表……………………………..38 表3-5 第二大類的表格索引XML文件的對照表…………………………….39 表3-6 閱讀次序XML文件的標籤及屬性意義……………………………….40 表3-7 行事項目XML文件的標籤及屬性意義……………………………….51 表3-8 行事曆XML文件的標籤及屬性意義…………………………………..53 表5-1 服務特性比較表……………………………………………………..….99 表5-2 IVR系統與VoiceXML系統情境對話流程……………………………101 表5-3 開發流程特性比較表…………………………………………………..102

    參考文獻
    【1】 黃英旗,以語音呈現模式導讀網頁文件之研究, 國立台灣師範大學資訊教育系碩士論文,中華民國九十一年六月。
    【2】 國內無障礙網頁標準, http://enable.nat.gov.tw/
    【3】 C. M. Huang, M.Y. Jang ,” Surfing the Web using a telephone set ”, IEEE Euromicro Conference, 2000 . Page(s): 126 -133 vol.2
    【4】 C. Sharma , J. Kunins; “VoiceXML: Professional Developer's Guide with CDROM” , December 7, 2001
    【5】 Evaluation and Repair Tools Working Group, http://www.w3.org/WAI/ER/
    【6】 Extensible Markup Language (XML) 1.0 (Second Edition), http://www.w3.org/TR/REC-xml , October 6, 2000.
    【7】 J. A. Larson, “VoiceXML and the W3C speech interface framework”, IEEE Multimedia, , Oct. - Dec. 2003 , Page(s): 91 -93
    【8】 J. Kleindienst, L. Seredi, P. Kapanen, J. Bergman , ” CATCH-2004 multi-modal browser overview description with usability analysis ” , IEEE Fourth International Conference on Multimodal Interfaces, 2002. Page(s): 442 -447
    【9】 M. Mittendorfer, G. Niklfeld, W. Winiwarter , ” Making the VoiceWeb smarter - integrating intelligent component technologies and VoiceXML ”, IEEE Web Information Systems Engineering, 2002 , Page(s): 126 -131 vol.2
    【10】Multimodal Interaction Activity, http://www.w3.org/2002/mmi/
    【11】Multimodal Requirements for Voice Markup Languages,W3C, http://www.w3.org/TR/multimodal-reqs , W3C Working Draft, July 2000.
    【12】S. H. Maes, ” A VoiceXML framework for reusable dialog components ”, IEEE Applications and the Internet, 2002 . Page(s): 28 -30
    【13】Speech Recognition Grammar Specification Version 1.0, http://www.w3.org/TR/2002/CR-speech-grammar-20020626/ , June 26, 2002.
    【14】 Tablin: an HTML Table linearizer, http://www.w3.org/WAI/References/Tablin/
    【15】Z. Shao, R. Capra, M.A.Prez-Quiones , “Transcoding HTML to VoiceXML Using Annotation”, IEEE International Conference on Tools with Artificial Intelligence,2003.

    【16】VoiceXML Forum, http://www.voicexml.org/
    【17】Voice Extensible Markup Language (VoiceXML) Version 1.0, http://www.w3.org/TR/2000/NOTE-voicexml-20000505/ , May 5, 2000.
    【18】Voice Extensible Markup Language (VoiceXML) Version 2.0, http://www.w3.org/TR/voicexml20/ , March 16, 2004.
    【19】Voice Extensible Markup Language (VoiceXML) 2.1, W3C Working Draft, http://www.w3.org/TR/voicexml21/, March 23 , 2004.
    【20】Voice Browser Working Group, http://www.w3.org/Voice/Group/
    【21】W3C Document Object Model, http://www.w3.org/DOM/
    【22】WAI HTML Table Linearizer Entry Form, http://www.w3.org/WAI/References/Tablin/form
    【23】Web Accessibility Initiative (WAI), http://www.w3.org/WAI/

    QR CODE