圖像文本擦除無痕跡!復旦提出EAFormer:最新場景文本分割新SOTA!(ECCV`24)
文章鏈接:https://arxiv.org/pdf/2407.17020
git鏈接:https://hyangyu.github.io/EAFormer/
亮點直擊
- 為了在文本邊緣區域實現更好的分割性能,本文提出了邊緣感知Transformer(EAFormer),該方法明確預測文本邊緣,并利用這些邊緣來引導后續的編碼器。
- 針對COCO_TS和MLT_S數據集的標注質量較低的問題,對這些數據集進行了重新標注,以提高EAFormer在這兩個數據集上的實驗結果的可靠性。
- 在六個場景文本分割基準上的廣泛實驗表明,所提出的EAFormer能夠達到最先進的性能,尤其在文本邊緣區域表現更佳。
場景文本分割旨在從場景圖像中裁剪文本,這通常用于幫助生成模型編輯或去除文本。現有的文本分割方法通常涉及各種文本相關的監督以獲得更好的性能。然而,大多數方法忽略了文本邊緣的重要性,而文本邊緣對下游應用至關重要。本文提出了邊緣感知Transformer(Edge-Aware Transformers),簡稱EAFormer,以更準確地分割文本,特別是文本的邊緣。
具體而言,首先設計了一個文本邊緣提取器,以檢測邊緣并濾除非文本區域的邊緣。然后,提出了一個邊緣引導編碼器,使模型更加關注文本邊緣。最后,采用了一個基于MLP的解碼器來預測文本mask。在常用基準上進行了廣泛的實驗,以驗證EAFormer的有效性。實驗結果表明,所提出的方法在文本邊緣的分割上優于以前的方法。考慮到一些基準數據集(如COCO_TS和MLT_S)的注釋不夠準確,無法公平評估本文的方法,重新標注了這些數據集。通過實驗觀察到,當使用更準確的注釋進行訓練時,本文的方法能夠獲得更高的性能提升。
方法
本節詳細介紹了所提出的EAFormer。首先,介紹EAFormer的提出動機。然后,詳細說明EAFormer的每個模塊,包括文本邊緣提取器、邊緣引導編碼器和文本分割解碼器。最后,介紹了本文方法的損失函數。
動機
不可否認,文本邊緣對場景文本分割任務至關重要,尤其是對于其下游任務如文本擦除。準確分割文本邊緣可以為文本擦除模型提供更多的背景信息,以填補文本區域。如下圖1所示,利用一個預訓練的修復模型,輸入不同類型的文本mask,以在場景圖像中擦除文本。通過實驗觀察到,文本邊界框mask過于粗糙,無法為修復模型提供更多的背景信息。此外,邊緣分割不準確的文本mask使得修復模型錯誤地將屬于文本的像素視為背景,導致擦除效果不佳。只有提供具有準確邊緣分割的文本mask時,修復模型才能生成令人滿意的文本擦除結果。
盡管PGTSNet已經意識到文本邊緣的重要性,并使用了二元交叉熵損失來檢測文本邊緣的像素,但它未能明確地將易于獲取的文本邊緣信息作為輸入信息之一。為了驗證其感知文本邊緣的能力,對主干網絡輸出的特征進行了K均值聚類,其中K設置為3,分別代表背景、文本邊緣和文本中心。通過下圖2中的可視化結果,觀察到該方法在感知文本邊緣方面仍存在一定的不足。
此外,研究者們發現傳統的邊緣檢測算法可以獲得準確的文本邊緣,這可能有助于場景文本分割任務。然而,由于傳統的邊緣檢測方法無法區分文本區域和非文本區域,因此大多數邊緣都被檢測到了非文本區域。如果直接將邊緣檢測結果作為輸入來輔助文本分割,可能會使文本分割模型產生混淆,從而對其性能產生不利影響。
邊緣感知Transformer(EAFormer)
邊緣引導編碼器。 由于SegFormer在語義分割中表現出色,采用它作為邊緣引導編碼器的基礎框架。如前面圖3所示,邊緣引導編碼器由四個階段組成,過濾后的文本邊緣在第一個階段被合并。每個編碼階段包含三個子模塊:重疊補丁embedding、有效自注意力和前饋網絡。重疊補丁embedding用于提取每個補丁周圍的局部特征。隨后,這些特征被輸入到自注意力層中,以挖掘像素之間的相關性。基本自注意力層的公式如下:
損失函數
實驗
實施細節
實驗結果
定量比較。 為了全面評估EAFormer,研究者們在英文和雙語文本分割數據集上進行了實驗。下表2顯示了在五個英文文本分割數據集上的實驗結果。
與之前的方法相比,EAFormer在大多數基準測試中在前景交并比(fgIoU)和F值上都有明顯的提升。例如,在TextSeg數據集上,EAFormer在fgIoU和F值上分別超越了之前的SOTA方法TextFormer 0.64% 和0.6%。盡管原始的COCO_TS和MLT_S數據集有粗糙的注釋,所提出的EAFormer仍然能表現出更好的性能,例如在COCO_TS數據集上比 TFT 提升了7.63%的fgIoU。考慮到基于不準確注釋的實驗結果不夠令人信服,重新標注了COCO_TS和MLT_S的訓練數據集和測試數據集。基于重新標注的數據集的實驗結果顯示在下表3中。實驗表明,當使用注釋更準確的數據集進行訓練和測試時,EAFormer仍然能夠實現顯著的性能提升。與原始數據集的結果相比,重新標注數據集上的性能似乎下降了很多。
以下兩個原因可能解釋了這一現象:
- 數據集中有許多模糊的文本,這確實給模型處理文本邊緣帶來了挑戰;
- 重新標注的測試數據集更為準確,評估中沒有忽略的區域。
此外,還在雙語文本分割數據集BTS上進行了實驗,結果顯示在下表4中。盡管PGTSNet不公平地引入了一個預訓練的文本檢測器,EAFormer在fgIoU/F值上仍然能實現1.6%/2.8%的提升,這驗證了所提出方法的有效性。由于引入了一個輕量級的文本檢測頭,不可避免地增加了更多參數。評估了參數數量和推理速度。與之前的SOTA方法TextFormer(85M參數和每張圖像0.42秒)相比,所提出的模型有92M參數,平均每張圖像需要0.47秒。雖然參數數量略有增加,但本文的方法仍能顯著提升性能。
定性比較。 研究者們還通過可視化將EAFormer與之前的方法在分割質量上進行了比較。如圖5所示,所提出的EAFormer在文本邊緣的表現優于之前的方法,這得益于引入的邊緣信息。此外,對于COCO_TS和MLT_S,比較了基于原始和修改后注釋的分割結果。盡管上表3表明,當使用重新標注的數據集進行訓練和測試時,本文的方法性能有所下降,但下圖5中的可視化結果表明,本文的模型在重新標注的數據集上能夠實現更好的分割結果。
消融研究
邊緣過濾和邊緣引導。 在所提出的EAFormer中,文本邊緣提取器中的邊緣過濾和邊緣引導編碼器中的邊緣引導是兩個關鍵組件。為了評估這兩種策略的性能提升效果,進行了消融實驗,結果見下表6。請注意,當僅使用邊緣過濾時,提取的邊緣信息與輸入圖像拼接后輸入到基于SegFormer的編碼器中。如表6所示,引入邊緣過濾可以顯著提升性能。然而,如果僅引入邊緣引導,本文的方法性能較差。一個可能的原因是非文本區域的邊緣引入了更多的干擾信息,導致模型無法有效利用提取的邊緣來輔助文本分割。因此,邊緣過濾和邊緣引導對本文的方法都是必要的,當兩者都被采用時,EAFormer能夠實現SOTA性能。
討論
過濾非文本區域的邊緣。 在文本邊緣提取器模塊中,提出了過濾非文本區域邊緣信息的方法,以避免這些信息對模型性能的負面影響。在消融實驗部分中,可以得知,過濾非文本區域的邊緣信息可以明顯提高性能。通過可視化(見補充材料),觀察到,當所有邊緣信息用于輔助分割時,模型會錯誤地認為具有邊緣信息的區域應該被分類為前景。因此,為了給模型提供明確的邊緣引導,所提出的方法僅保留文本區域的邊緣信息作為輸入。
在不同層引入文本邊緣。 在邊緣引導編碼器中,通過對稱交叉注意機制僅在第一階段提取增強的邊緣特征信息。眾所周知,低層特征對文本邊緣信息更為敏感。在下圖6中對不同階段的特征進行聚類結果的可視化,結果表明只有第一階段的特征關注邊緣信息。因此,在早期階段引入檢測到的邊緣是合理且有效的。還嘗試在其他階段引入邊緣引導進行實驗。實驗結果表明,檢測到的邊緣引入的階段越高,EAFormer的性能提升越小。特別是,當在第三或第四階段引入檢測到的邊緣時,EAFormer的性能甚至低于基線。
利用現成的文本檢測器。 在文本邊緣提取器中,采用了一個輕量級的文本檢測器,包括一個基于ResNet的骨干網絡和一個MLP解碼器。實際上,可以利用一個在文本檢測數據集上預訓練的現成文本檢測器,這可以幫助EAFormer在實際應用中取得更好的性能。由于這可能對之前的方法不公平,只探討了EAFormer的性能上限。在實驗中,使用預訓練的DBNet 替換輕量級文本檢測器模塊,EAFormer在TextSeg上的性能可以達到新的SOTA水平(fgIoU/F值分別為90.16%和95.2%)。
與之前邊緣引導方法的區別。 實際上,將邊緣信息融入分割中是一個被廣泛探索的策略。然而,本文的方法與之前的工作仍有一些區別。首先,BCANet和 BSNet需要邊緣監督,而本文的方法直接使用Canny提取邊緣。盡管EGCAN也使用Canny,但本文的方法額外引入了邊緣過濾以保留有用的邊緣信息,這特別為文本分割設計。此外,EGCAN在所有編碼器層中融合邊緣信息,而本文的方法通過設計的對稱交叉注意機制僅在第一層融合邊緣信息。
局限性。 為了過濾非文本區域的邊緣,引入了一個輕量級的文本檢測器,這可能會略微增加可學習參數的數量。此外,僅利用了現成的邊緣檢測算法Canny來提取文本邊緣,而沒有使用更先進的深度學習邊緣檢測方法。引入SOTA邊緣檢測方法可能會進一步提高本文方法的性能。
結論
本文提出了邊緣感知Transformer(Edge-Aware Transformers),稱為EAFormer,以解決文本邊緣處文本分割不準確的問題。具體而言,采用傳統的邊緣檢測算法Canny來提取邊緣。為了避免涉及非文本區域的邊緣,引入了一個輕量級文本檢測模塊,用于過濾掉無用的邊緣,以進行文本分割。此外,基于SegFormer,提出了一個邊緣引導編碼器,以增強其感知文本邊緣的能力。考慮到某些數據集的低質量標注可能影響實驗結果的可信度,對這些數據集進行了重新標注。在公開可用的基準測試上進行了廣泛的實驗,SOTA結果驗證了EAFormer在文本分割任務中的有效性。
本文轉自 AI生成未來 ,作者:Haiyang Yu等
