研究生: 陳彥合
Chen, Yan-He
論文名稱: 通過間接視覺語義對齊改進廣義零樣本學習的視覺表徵
Refining Visual Representation for Generalized Zero-Shot Learning via Soft Visual-Semantic Alignment
指導教授: 葉梅珍
Yeh, Mei-Chen
口試委員: 林嘉文
Lin, Chia-Wen
Chu, Wei-Ta
Yeh, Mei-Chen
口試日期: 2022/07/01
學位類別: 碩士
系所名稱: 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2022
畢業學年度: 110
語文別: 中文
論文頁數: 34
中文關鍵詞: 廣義零樣本學習細粒度視覺辨識視覺語義嵌入間接對齊圓損失函數
英文關鍵詞: Generalized Zero-Shot Learning, Fine-Grained Visual Recognition, Visual-Semantic Embedding, Soft Alignment, Circle Loss
研究方法: 實驗設計法
DOI URL: http://doi.org/10.6345/NTNU202200883
論文種類: 學術論文
相關次數: 點閱:71下載:0
  • 我們探討廣義零樣本學習的問題,其任務是預測目標圖像的標籤,無論其標籤屬於可見類別或是未見類別。我們發現大多數方法都學習了一個聯合嵌入空間,其中圖像特徵及其相應的類原型是對齊的。由於視覺空間和語義空間之間的固有差距,這種直接對齊可能很困難。我們提出放寬對齊要求,避免在圖像和語意嵌入之間進行成對比較,來實現一個新的學習框架。我們提出的間接視覺語意對齊方法 (Soft Visual-Semantic Alignment),是通過對由精粹後的視覺特徵和目標類的類原型組成的連接特徵向量進行分類。此外我們使用圓損失(Circle Loss)來優化嵌入模型,該損失函數允許對不同的類內和類間相似性進行不同的懲罰強度。我們廣泛的實驗表明,間接對齊方式在學習區辨性和廣義視覺特徵方面更加靈活。我們證明了所提出方法的優越性,其性能與五個基準上的最新技術相當。

    We address the problem of generalized zero-shot learning where the task is to predict the label of a target image whether its label belongs to the seen or unseen category. We find a majority of methods learn a joint embedding space where image features and their corresponding class prototypes are aligned. Such a direct alignment can be difficult, because of the inherent gap between the visual and the semantic space. We propose to relax the alignment requirement, accomplished by a learning framework that avoids performing pair-wise comparisons between the image and the class embeddings. The soft visual-semantic alignment is performed by classifying a concatenated feature vector consisting of the refined visual features and the class prototype of the target class. Furthermore, we employ circle loss to optimize the embedding model that allows different penalty strength on different within-class and between-class similarities. Our extensive experiments show that the indirect alignment manner is more flexible to learn discriminative and generalized visual features. We demonstrate the superiority of the proposed method with performance on par with the state of the art on five benchmarks.

    第壹章 緒論 1 第一節 研究背景 1 第二節 研究動機 2 第三節 研究架構 3 第貳章 相關研究 4 第一節 基於注意力方法之研究 4 第二節 基於生成方法之研究 5 第三節 損失函數 6 第參章 模型方法 7 第一節 問題描述 7 第二節 語義感知嵌入模組 8 第三節 Circle Loss 9 第四節 分類損失 10 第五節 特徵生成 11 第六節 廣義零樣本學習之分類任務設置 11 第肆章 實現 12 第一節 實現細節 12 第二節 視覺和語義嵌入 12 第伍章 實驗 13 第一節 資料集 13 第二節 評估標準 14 第三節 GZSL實驗比較 14 第四節 ZSL實驗比較 16 第五節 消融實驗 17 第六節 超參數分析 19 第七節 訓練收斂圖 22 第八節 成功與失敗的範例 24 第九節 GZSL視覺化分析 26 第十節 ZSL視覺化分析 30 第陸章 結論 31 參考文獻 32

