AI一眼識別這是什么鳥,「我們來找茬」十級選手誕生
話說,你能看出這三只鸚鵡有什么不一樣嗎?臉盲如我,要使出玩“我們來找茬”的十級能力。
AWSL,鸚鵡鸚鵡,傻傻分不清楚。
結果,AI一頓操作猛如虎,進行了判斷:左邊的是桃面牡丹鸚鵡,右邊的是國家保護動物費氏牡丹鸚鵡,二者區別僅在于喙的顏色以及白色眼圈。
小鳥并不孤單,貓貓狗狗和花花草草也在被“找茬”。最近,浙江大學和阿里安全在AI細粒度圖像識別技術上取得了新進展,利用RAMS-Trans相關技術先后在公開數據集CUB(鳥類識別)、Standford Dogs(狗類識別)、iNaturalist(動植物識別)的識別上準確率達到91.3%、68.5%、92.4%的行業最優效果,研究成果被多媒體國際頂會ACM MM 2021 收錄。
論文鏈接:https://arxiv.org/pdf/2107.08192.pdf
怎么“找茬”
細粒度圖像識別是計算機視覺領域的一個經典問題,屬于圖像分類任務的細分支任務,難點主要在于類別之間的差異較細微,難以區分。舉幾個看起來簡單實際并不簡單的例子:
以上都是松鴉,搞起區別對待并不容易,最右那只松鴉因為顏色完全不同暫且可以退出比賽行列,左邊兩只“小朋友”就要考驗AI對圖片細節的把控,俗稱“考眼力”了。
AI的“眼力”可不同于人類的“眼力”。
在細粒度圖像識別領域,區域注意力的定位和放大是一個重要因素,基于卷積神經網絡(CNN)的方法對此進行了大量探索。然而,CNN的感受野有限,且缺乏全局依賴關系的建模能力。最近視覺Transformer(ViT)在計算機視覺領域取得了非常多的研究進展。研究者認為,與CNN相比,圖像序列化是一種全新的方式。
浙江大學和阿里安全的研究者起初引入ViT中的自注意力機制,提取圖像中的長距離依賴關系。然而,ViT的感受野大小相對固定,對圖像中的每個patch的關注程度沒有產生區分,對細粒度圖像識別帶來了性能的局限。
也就是說,這種方法并不能讓AI找準“重點”。
為了學習局部判別性的區域注意力,研究者使用注意力權重的強度來衡量對應于原始圖像的patch重要性,提出了多尺度循環注意力的Transformer(RAMS-Trans),它利用Transformer的自注意力機制,以多尺度的方式循環地學習判別性區域注意力。
“我們方法的核心是動態patch建議模塊(DPPM)引導區域放大,以完成多尺度圖像patch塊的集成。DPPM從全局圖像開始,迭代放大區域注意力,以每個尺度上產生的注意力權重的強度為指標,從全局到局部生成新的patch塊。”阿里安全圖靈實驗室算法專家炫謙介紹。
具體來說,研究者首先提取ViT每層的自注意力機制,并且進行歸一化,然后采取累乘的方式對自注意力整合。
然后,研究者得到了整合后的自注意力均值分布矩陣,由于細粒度圖像識別任務的關鍵因素在于局部注意力,往往存在于圖像的局部區域,如鳥的尾部、喙和蛙類的頭部等,因此研究者通過設定閾值的方式來“過濾”不需要的部位,增強對局部判別性區域的識別能力。
最后,研究者通過插值算法將選定的patch塊放大到原圖像的尺寸,通過共享參數的模型,重新進行訓練,整體結構對應于文章所提的多尺度循環機制。
RAMS只需要ViT本身附帶的注意力權重,可以很容易地進行端到端的訓練。廣泛的實驗表明,除了高效的CNN模型外,RAMS-Trans的表現比同期進行的工作更好,分別在CUB-200-2011、Stanford Dogs、iNaturalist2017獲得SOTA。
同時,研究者在三個數據集合上可視化了Focus的區域,在不同種類動植物的細粒度判別時,RAMS可以聚焦到類別的獨特特征區域,從而幫助細粒度分類。
可用于內容治理和知產保護
今年5月,國家林業和草原局下發《關于妥善解決人工繁育鸚鵡有關問題的函》,要求河南省林業局對包括費氏牡丹鸚鵡在內的多種人工養殖鸚鵡進行標識管理試點,對符合條件的養殖戶盡快核發管理證件,同時,對合法人工繁育來源、依法允許出售的鸚鵡,停止執行禁止交易措施,在政府規定的場所進行銷售活動。原來,1月初,河南商丘近1000家養殖戶因不了解費氏牡丹鸚鵡屬于國家保護動物,直到外地公安部門多次來商丘調查,他們才后知后覺。“鸚鵡案”困境終于有了解法。
怎么才能避免因“不懂法”“不認識”而觸碰野生動植物保護的紅線?
“幫他們辨別,幫他們認識。”在淘寶、閑魚等商品平臺上,阿里安全風控的做法是,依靠通過人工智能對商家掛出商品進行初篩,再交給人工審核來精細判斷處理,并對禁限售商品的搜索彈出科普引導。
一萬多種受保護的動植物,每種又有繁雜的細分種類,對人來說,光記名字遠遠不夠,必須結合實物圖片和各種背景資料綜合學習,比如鸚鵡里的牡丹鸚鵡(也叫愛情鳥),除了桃臉牡丹鸚鵡、虎皮鸚鵡等大部分都被納入《華盛頓公約》附錄二,個人不可隨意飼養。其中的費氏牡丹鸚鵡屬于保護物種,都是牡丹鸚鵡,費氏牡丹俗稱“頭類”,桃臉牡丹俗稱“面類”。一般可以依靠眼圈和嘴的顏色進行區別,“頭類”眼睛四周有一圈眼白,通常嘴偏紅,而“面類”沒有這些特征。
風控專家把市面上非法交易頻繁的動植物作為重點研究,買百科全書,網上查閱相關科普資料,然后上專業網站和一些動物知識APP,向動物保護領域研究者請教,與算法人員一起打造算法模型。
浙江大學和阿里安全研發的細粒度圖像識別技術就可用在上述場景。算法的下游是風控運營,對他們而言,在萬能的橙色軟件上“買(看)不到什么”是一種合法合規,也是構建健康網絡環境的主動選擇。當然,這個技術也可用于山寨商標的識別,區分正版與山寨商標,以及未成人年不良圖片治理和惡心圖治理等,如抽煙、酗酒、豎中指、賭博、密集恐懼等。
又到可怕的“我們來找茬”環節了,這也是炫謙等人給AI的一次測試,猜猜它找到正品logo了嗎?
研究者介紹
胡云青:浙江大學計算機學院DMAC實驗室博士在讀,阿里安全圖靈實驗室實習生,師從浙江大學教授張寅,研究方向和感興趣方向包括圖像識別,目標檢測和多模態等。在ACMMM、ACL等發表過多篇論文。
炫謙:在中國科學院大學獲得碩士學位,阿里巴巴圖靈實驗室算法專家,主要負責圖片內容安全業務,擁有多篇發明專利,并在NIPS、ACM MM、ICASSP等發表多篇論文。
張寅:浙江大學計算機科學與技術學院副教授,博士生導師,數字圖書館教育部工程研究中心副主任,中國工程科技知識中心建設總師團隊成員,美國加州大學圣塔芭芭拉分校(UCSB)訪問學者,浙江大學“求是青年學者”。