研究生: 陳冠穎
Chen, Guan-Ying
論文名稱: 深度視覺語義嵌入模型於生成式多標籤零樣本學習
Deep Visual-Semantic Embedding Model for Generative Multi-Label Zero-Shot Learning
指導教授: 葉梅珍
Yeh, Mei-Chen
Chen, Chu-Song
口試日期: 2021/07/30
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2021
畢業學年度: 109
語文別: 中文
論文頁數: 37
中文關鍵詞: 多標籤零樣本學習視覺語義嵌入模型生成對抗網路
英文關鍵詞: Multi-Label, Zero-Shot Learning, visual semantic embedding model, GAN, generative adversarial network
研究方法: 實驗設計法
DOI URL: http://doi.org/10.6345/NTNU202101371
論文種類: 學術論文
  • 零樣本學習是指分類器不只能識別在訓練階段已經看過的物件,甚至能識
      過去的方法常利用標籤的屬性嵌入(attributes embedding)及影像抽取出的
    視覺特徵(visual feature),投影到同一空間中,藉此尋找與影像特徵最接近的
    識標籤。然而在資料集欠缺屬性嵌入時,常用於替代的語義嵌入(word mbedding)並不像屬性嵌入一樣具有良好的辨識力,而建構關係的方法,也容易太過信任知識庫,便將關係強加上去,忽略了影像本身包含的資訊。近年來由於生成對抗網路(Generative Adversarial Network)的興起,對於未知類別,先從已知類別學習影像特徵的表達式及對應的屬性,再由屬性標籤生成影像特徵變得更加有效率,結果也更準確。基於這項觀察,我們提出了生成對抗網路結合語義嵌入的深度學習模型,從語義嵌入生成影像特徵,以及將影像特徵轉換成分類器映射至語義嵌入空間,尋找屬於該影像的標籤。藉由影像特徵及語義嵌入互相映射來更好地預測未知類別,並根據影像特徵與分類器之間的關係,將多標籤任務轉換化成單標籤任務。

    附表目錄 iv 附圖目錄 v 第一章 簡介 1 1.1 研究背景1 1.2 研究動機2 1.3 研究目的3 1.4 論文架構4 第二章 相關研究探討 5 2.1 零樣本學習5 2.1.1 基於語義嵌入-DeViSE方法 6 2.1.2 基於語義自編碼方法-SAE 7 2.2 多標籤任務8 2.3 語義嵌入8 2.4 AutoEncoder 9 2.4.1 VAE 10 2.5 生成對抗網路 10 2.5.1 CGAN 11 2.5.2 WGAN 11 2.5.3 VAEGAN 14 2.6 Relation to previous methods 15 第三章 方法與步驟 16 3.1 問題定義 16 3.2 模型架構 17 3.2.1 辨別器 17 3.2.2 生成器 17 3.2.3 多標籤分類器 20 第四章 實驗結果 21 4.1 資料集 21 4.2 評估方式 21 4.3 Ablation study 23 4.4 實驗一 VOC2007 ZSL 24 4.5 實驗二 VOC2007 GZSL 26 4.6 實驗三 NUS-WIDE ZSL 28 4.7 實驗四 NUS-WIDE GZSL 30 4.8 實驗分析 32 第五章 結論 33 參考著作 34

