簡易檢索 / 詳目顯示

研究生: 呂佳儒
論文名稱: 自動化演講錄製系統之虛擬導播子系統
Automatic Lecture Recording System – Virtual Director
指導教授: 陳世旺
學位類別: 碩士
Master
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2013
畢業學年度: 101
語文別: 中文
論文頁數: 62
中文關鍵詞: 虛擬導播自動化影片剪輯反傳遞類神經網路主體偵測顯著圖像光流向量估計平均位移分群演算法
英文關鍵詞: virtual director, automatic shot selection, neural network, CPN, saliency detection, optical flow estimation, mean shift clustering
論文種類: 學術論文
相關次數: 點閱:147下載:177
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 在一場演講或節目的錄製過程中,導播的角色主要是能將節目的內容和精神忠實地傳達給觀眾,為了達成此目標,導播藉由從多部攝影機對場景所拍攝的影像中,挑選出適合且符合節目精神的畫面播出。一位好的導播,必須能夠掌握群眾的心理來挑選畫面並且在適當的時機做切換。然而這些能力的養成,需要經過長時間的訓練與經驗累積。為了節省人力訓練的成本,本研究提出一套能夠模擬真實導播運作方式的系統,稱之為「虛擬導播系統」。
      本研究所提出的虛擬導播系統將具備下列的能力:分析攝影美學、光學、情節與動作連續性各方面資訊,對多個虛擬攝影師所傳來的畫面進行自動評估分析,再從其中挑選出適合的鏡頭。至於挑選畫面的方式,主要是藉著學習真實導播的操作手法而來。虛擬導播系統具有機器學習的能力,可以透過事先學得導播選鏡的技巧,以達到模擬真實導播的選鏡手法,使系統能更貼近真實的導播。
      本系統於自動分析評估畫面時,使用FAST corner detection與optical flow estimation偵測攝影機的運鏡狀況;以及結合包含動態資訊的attention map與包含靜態資訊的static saliency map製作顯著圖像,用以估計主體所在的位置及大小;並且使用平均位移分群演算法(mean shift clustering),以區分出不同主體物等,根據上述等技術來實現對輸入影像進行攝影美學、光學、情節與動作連續性分析,並將評估所得的資訊輸入Counter Propagation Network (CPN)網路進行訓練。由於該網路屬於監督式學習模型,為求實驗客觀與可用性,我們邀請傳播相關科系並且具有擔任導播經驗的人員替訓練資料提供預期的輸出,使虛擬導播選擇的畫面方式能更貼近專業導播的選鏡手法,並透過不同的真實導播的訓練模式,進而訓練出可適應不同風格的選鏡效果。

    第一章 簡介 1 1.1、研究動機 1 1.2、文獻探討 4 1.2.1、多重畫面的決策與剪輯 5 1.2.2影像品質的評估與分析 6 1.3、論文架構 7 第二章 系統架構 8 2.1、虛擬導播系統的設計理念 8 2.2、虛擬導播系統架構 10 2.2.1、畫面資訊擷取 10 2.2.2、選鏡階段 13 2.3、系統環境架設 14 第三章 影像品質的分析與評估 17 3.1、美學分析(aesthetic analysis) 17 3.1.1、美學評估準則 17 3.1.2、主體物偵測 19 3.1.3、美學評估分數 24 3.2、光學分析 25 3.2.1、光學評估準則 26 3.2.2、銳利度偵測 26 3.2.3、光學評估分數 28 3.3、攝影機動作分析 29 3.3.1、攝影機動作評估準則 29 3.3.2、光流向量估計(optical flow estimation)運用於攝影機運鏡偵測 30 3.3.3、動作分析評估分數 32 3.4、時空連續分析 34 第四章 多重畫面決策 38 4.1、真實導播與CPN網路 38 4.1.1、真實導播與CPN網路的連結 38 4.1.2、CPN網路簡介 40 4.2、CPN網路學習演算法用於畫面決策 41 4.2.1、Kohonen層學習演算法 43 4.2.2、Grossberg層學習演算法 45 4.2.3、Forward-mapping CPN於測試(testing)階段之架構 46 第五章 實驗結果 48 5.1、實驗前的準備工作 48 5.1.1、使用者介面 48 5.1.2、訓練(training)決策模型 50 5.2、實驗設備與初步結果 51 5.2.1、實驗器材與架設方式 51 5.2.2、初步結果 53 5.3、與其他決策方法的比較 53 第六章 結論與未來工作 58 6.1、結論 58 6.2、未來工作 59 參考文獻 60

    [Abd10] G. Abdollahian, C. M. Taskiran, Z. Pizlo, and E. J. Delp, “Camera Motion-Based Analysis of User Generated Video,” IEEE Transaction on Multimedia, Vol. 12, No. 1, 2010.
    [Bia98] M. Bianchi, “Auto Auditorium: A Fully Automatic, Multi-camera System to Televise Auditorium Presentations,” Proc. of the Joint DARPA/NIST Workshop on Smart Spaces Technology, 1998.
    [Che95] Y. Cheng, “Mean Shift, Mode Seeking, and Clustering,” IEEE Transaction on PAMI, Vol. 17, No. 8, pp. 790-799, 1995.
    [Cru94] G. Cruz and R. Hill, “Capturing and Playing Multimedia Events with STREAMS,” Proc. ACM Int’l Conf. on Multimedia, pp. 193-200, 1994.
    [Fan03] C. Y. Fang, S. W. Chen, and C. S. Fuh “Automatic Change Detection of Driving Environments in a Vision-Based Driver Assistance System,” IEEE Transactions on Neural Networks, vol. 14, no. 3, pp. 646-657, 2003.
    [Gle00] M. Gleicher and J. Masanz, “Towards Virtual Videography,” Proc. of ACM Multimedia, pp. 375-378, 2000.
    [Gof12] S. Goferman, L. Zelnik-Manor, A. Tal, “Context-Aware Saliency Detection,” IEEE Trans. on PAMI, Vol. 34, No. 10, pp. 1915-1926, 2012.
    [Hec87] R. Hecht-Nielsen, “Counterpropagation networks,” Applied Optics, Vol. 26, Issue 23, pp. 4979-4983, 1987.
    [Kum02] M. Kumano, Y. Ariki, M. Amano, K. Uehara,”Video Editing Support System Based on Video Grammar and Content Analysis,” Proc. of the Int’l Conf. on Pattern Recognition(ICPR) , vol. 2, pp. 1031-1036, 2002
    [Liu01] Q. Liu, Y. Rui, A. Gupta, and J. J. Cadiz, “Automating Camera Management for Lecture Room Environments,” Proc. of the SIGCHI Conf. on Human Factors in Computing Systems, pp. 442-449, 2001.
    [Liu11] T. Liu, Z. Yuan, J. Sun, J. Wang, N. Zheng, X. Tang, and H.Y. Shum, “Learning to Detect a Salient Object, “ IEEE Transaction on PAMI, Vol. 33, No. 2, pp. 353-367, 2011.
    [Luc81] B. D. Lucas, T. Kanade, “An Iterative Image Registration Technique with an Application to Stereo Vision,” Proceedings of Imaging Understanding Workshop, pp. 121-130, 1981.
    [Mac02] E. Machnicki and L. Rowe, “Virtual director: Automating a webcast,” Multimedia Comput. Network., 2002.
    [Oku07] S. Okuni, S. Tsuruoka, G. P. Rayat, H. Kawanaka, T. Shinogi, “Video Scene Segmentation Using the State Recognition of Blackboard for Blended Learning,” Int’l Conf. on Convergence Information Technology, pp. 2437-2442, 2007.
    [Oni04] M. Onishi and K. Fukunaga, “Shooting the Lecture Scene Using Computer-Controlled Cameras based on Situation Understanding and Evaluation of Video Images” Proc. of the 17th Int’l Conf. on Mobile and Ubiquitous Multimedia, pp. 781–784, 2004.
    [Wan09] T. Wang, A. Mansfield, R. Hu, J. Collomosse, ”An Evolutionary Approach to Automatic Video Editing,” Proc. of the Int’l Conf. on Visual Media Production(CVMP), pp. 127-134, 2009.
    [Yen04] P. S. Yen, C. Y. Fang, and S. W. Chen, “Motion Analysis of Nearby Vehicles on a Freeway,” IEEE International Conference on Networking, Sensing and Control, Vol.2, pp.903-908, 2004.

    下載圖示
    QR CODE