ICCV 2023 Oral | 人類語言演化中學習最優圖像顏色編碼
論文題目:
Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer
論文鏈接:
??https://arxiv.org/abs/2212.03434??
項目主頁:
???https://github.com/ryeocthiv/CQFormer???
?一、研究背景
本工作旨在從機器學習的角度探討人工智能能否擁有類似人類的的顏色命名分類機制。人類對顏色的感知來自于光譜與眼睛中的錐細胞相互作用時,視神經接收到的光刺激。通過定義像RGB,HSV等顏色空間,顏色被可量化成一些具體的如數值。與純生理性色調分類相比,顏色命名(colour naming)或顏色分類(colour categorisation)的復雜現象涉及多個學科。
從認知科學到人類學,研究發現,人類語言不斷演變以獲取新的顏色名稱,導致顏色命名系統越來越精細化。比如來自加納西北部的納凡拉語,1978年的時候只有如圖1.a所示的三種顏色(淺色(fiNge')、暗色(wOO')和溫暖或紅色(`nyiE')),但是到了2018年,該語言演化出了如圖1.b所示的另外七種顏色。
圖1. 來自The evolution of color naming reflects pressure for efficiency: Evidence from the recent past Zaslavsky et al. Journal of Language Evolution, 2022
如圖2左圖所示,現有的研究認為這個演化過程來自于溝通效率(Communication efficiency)和知覺結構(perceptual structure) 的雙重演化壓力。溝通效率要求通過盡可能少量的詞匯來準確傳達共享的顏色劃分。顏色知覺結構與人類的顏色感知相關。例如,相鄰顏色之間的顏色空間距離應與它們的知覺差異相對應。
圖2 左圖 - 人類語言的演化模型;右圖 - 我們實現的語言演化模型colour quantisation負責壓縮colour size, 后端任務負責提高溝通的準確性
在圖2右圖里,本項工作通過用檢測,分類等視覺任務的性能來定義溝通效率的方法,提出了一套基于QFormer全新的顏色量化(colour quantisation)算法。這個算法不但能整合人類和機器視覺的不同需求,更是一種人工顏色命名系統。
圖3 (a) - 理論上的人類語言溝通準確率隨著顏色數量增加而逐漸提高直至飽和,圖中為各個文化中真實的顏色系統。(b) - 我們生成的顏色系統以及實際的分類準確率。
圖3(a)顯示了不同種類的真實人類語言的理論溝通效率隨著顏色名稱數量的提升而提高。令人驚訝的是,如圖3(b)所顯示,人工發現的顏色命名系統中,隨著顏色數量的增加,識別準確性也在提高。
CQFormer的方法如圖4所示,使用perceptual structure loss來定量控制來自perceptual structure的演化壓力。而用machine-centred loss 來表示Communication efficiency的壓力。
圖4
二、本文方法
具體的方法如圖5所示,包括兩個分支:注釋分支和調色板分支。
注釋分支在將索引映射到對應的顏色調色板之前,為輸入的RGB圖像的每個像素注釋合適的量化顏色索引。通過一個新穎的調色板分支在整個RGB顏色空間中定位顏色調色板,該分支使用變換器的顯式注意力查詢檢測關鍵點。
在訓練階段,如圖5的紅線和黑線所示,調色板分支與輸入圖像和參考調色板查詢進行交互,通過減少感知結構損失來維持知覺結構。這種以感知為中心的設計將相似的顏色分組,并確保顏色調色板充分表示由世界顏色調查(WCS)顏色命名刺激網格定義的顏色命名系統。如圖5.(b)所示,調色板中的每個項目(用星號標注)位于WCS顏色命名概率圖中對應顏色分布的中間位置。最后,量化圖像傳遞給高級識別模塊進行機器準確性任務,如分類和檢測。通過CQFormer和隨后的高級模塊的聯合優化,所提出的方法可以平衡感知和機器的需求。
除了自動發現顏色命名系統外, CQFormer還為極端壓縮圖像存儲提供了有效解決方案,同時在高級識別任務中保持高性能。例如,CQFormer在只有1位顏色空間(即,兩種顏色)的情況下,在CIFAR100數據集上實現了50.6%的top-1準確率。這種極低比特量化可以用于neural network quantisation研究,實現從圖像到權重和激活的端到端優化。
圖5 模型的網絡結構
三、網絡結構
具體來說,(1) 注釋分支,負責為輸入的RGB圖像的每個像素分配一個量化的顏色索引;(2) 調色板分支,負責生成一個合適的顏色調色板。CQFormer的注釋分支以原始圖像 作為輸入,其中 和 分別是圖像的高度和寬度。在訓練階段,它生成一個概率圖 ,其中 是量化顏色的數量, 是Softmax函數的溫度參數。
在測試階段,它生成一個獨熱顏色索引圖
其中圖像的每個像素被分配為C個量化顏色中的一個單一顏色索引。
CQFormer的調色板分支接收原始圖像 和參考調色板查詢 作為輸入。這些查詢由 個可學習的維度為 的向量組成,每個向量表示一個自動挖掘的顏色。查詢 與從輸入圖像 生成的鍵 和值 進行交互,以生成顏色調色板 。這個調色板由 C 個三元組 組成,每個三元組表示機器發現的 C 種顏色中的一種。
最后,在訓練階段,CQFormer通過對 和 進行矩陣乘法來生成量化圖像。在測試階段,量化圖像由 和 得到。然后,將量化圖像饋送到高級識別模塊進行高級的視覺任務。
特別得注意的是,正如圖5中紅色線所示,由于arg max函數不可微分,訓練階段使用Softmax函數作為替代。為了防止過擬合,溫度參數 被納入Softmax函數中,將概率分布推向一個獨熱向量。
四、顏色演化
通過CQFormer,本工作探索了基于分類任務的顏色演化,包括兩個連續階段,使用不同的損失函數。由于CQFormer最初沒有與相應的人類語言相關聯的顏色命名系統的先驗知識,第一個嵌入階段旨在將某種語言的顏色感知知識嵌入到CQFormer的潛在表示中。
例如,CQFormer首先通過強制CQFormer輸出與Nafaanra對應的相似的WCS顏色概率圖來學習和匹配1978年的Nafaanra三色系統。如圖6所示,這里設計了兩個嵌入解決方案和損失函數,即LFull-Embedding和LCentral-Embedding,以將完整的顏色概率圖嵌入或僅將代表性顏色提煉到CQFormer中。
第二個演化階段讓CQFormer演化更多顏色,即在準確性和感知結構的壓力下從學到的三色系統中分離出第四種顏色。
五、實驗
本研究在主流的目標檢測任務和圖像分類任務的基準數據集上評估了CQFormer。此外,還專門設計了一個顏色演化實驗以展示CQFormer如何自動演化以增加細粒度的顏色。
表格1顯示了在MS COCO數據集上使用Sparse-RCNN檢測器進行目標檢測的結果。CQFormer在所有顏色量化級別(從1位到6位)下的AP值性能方面均優于所有其他方法。這一顯著的改進表明了CQFormer在目標檢測任務中的有效性。
圖7對四個數據集上的最新方法進行了比較。CQFormer(實線藍色線)在極低比特顏色空間(小于3位)上與所有其他方法相比都有持續明顯的改進。此外, CQFormer在從1位到6位的所有顏色量化級別下都比以任務為中心的方法ColorCNN表現更優秀。
六、展望
雖然如圖3所示,機器發現的顏色概念的復雜性-準確性權衡與人類語言的分類對應的理論溝通效率極限非常相似,但當前的工作仍處于初步階段。新發現的WCS顏色概率圖與人類的顏色概率圖仍然存在很大差異。更準確的語言演化復制需要考慮更復雜的變量,如環境特異性、文化特殊性、功能需求、技術成熟度、學習經驗和跨文化交流。
這次提出的 工作除了對技術領域,也有望為人類學語言學領域里的普遍主義-相對主義(linguistic determinism vs relativity)爭論做出自己的貢獻。盡管沒有完全排除顏色方案的文化特異性,但這里機器的發現強烈支持了一種先天的、生理學原則對不同文化傳統社區的基本顏色術語的演化順序和分布可能性。從原始的“暗-亮-紅”顏色,人工智能獨立地發現了“綠-黃”類別,指向了神經算法與人類認知的一致性,并為通過機器模擬在社會科學中測試有爭議的假設拓展了新的前沿。
目前大語言模型依賴于英語,中文等實際的語言,本工作期望跳出特定語言的藩籬,而是從人類語言自然演化本身出發,為設計大預言模型-人類同步理解的人造語言打下基礎。
Illustration From IconScout By Delesign Graphics
