AI一眼認出95萬物種，還能分辨雄雌老幼，2億生物圖像煉成“生命視覺”大模型

2025-06-30 08:52:00

俄亥俄州立大學研究團隊在2億生物圖像數據上訓練了BioCLIP 2模型。大規模的訓練讓BioCLIP 2取得了目前最優的物種識別性能。

讓AI看懂95萬物種，并自己悟出生態關系與個體差異!

俄亥俄州立大學研究團隊在2億生物圖像數據上訓練了BioCLIP 2模型。大規模的訓練讓BioCLIP 2取得了目前最優的物種識別性能。

而更令人驚喜的是，即使在訓練過程中沒有相應監督信號，BioCLIP 2還在棲息地識別、植物疾病識別等5個非物種任務中給出了遠超DINOv2的準確率。

BioCLIP 2在大規模訓練中獲取了物種之外的涌現的生物學理解：

以下是論文詳情：

把“生命之樹”搬進顯存

大語言/視覺模型的“涌現”告訴我們：規模+結構化監督=意料之外的能力。

然而，生物多樣性研究領域一直沒有見到一個具有涌現屬性的視覺語義基座。BIOCLIP把CLIP的多模態對齊搬到物種上，利用〔界-門-綱-目-科-屬-種〕+學名+常用名的多粒度文本提供層級監督。在此基礎之上，研究團隊提出一個問題：

如果把層級對比學習從1千萬張圖像直接推到2億，會不會學出超越“物種標簽”的生物學知識？

BIOCLIP 2正是這一實驗的答案。

為了實現這一目標，研究團隊從GBIF、EOL、BIOSCAN-5M、FathomNet等 4 大平臺收集了2.14億生物圖像，提出了TreeOfLife-200M數據集。該數據集包含95.2萬個不同的分類標簽，涵蓋標本、野外相機陷阱等豐富的圖像類別。這是迄今規模最大、最豐富的生命圖像庫。

在增大訓練數據量的同時，研究團隊也將模型從ViT-B擴大至ViT-L。更大的參數量為新知識的涌現做好了準備。

物種識別：零樣本物種識別平均準確率55.6% →比第二好的SigLIP模型提升了16.1。少樣本物種識別遠優于常用的視覺模型DINOv2。

非物種視覺任務：除了物種分類之外，BioCLIP 2還在棲息地識別、生物屬性識別、新物種發現和植物疾病識別等多項任務上超越了SigLIP和DINOv2等常用視覺模型。

BioCLIP 2在訓練階段只接觸了物種層級的監督信號，但卻在各類非物種生物視覺任務上取得了優異的性能。這讓研究團隊深入調查了模型的特征空間，并發現了大規模訓練帶來的涌現屬性。

1. 物種間生態對齊

具有相似生活習性和生態學意義的物種在特征空間中聚集在一起，如淡水vs咸水魚隨著訓練規模擴大分界逐漸清晰。

解釋：層級標簽把生態近鄰拉向相似的文本原型，從而實現視覺特征和功能特征的對齊。

2. 物種內差異分離

同一物種雌雄、幼成體之間的差異沒有被對比學習消除，而是沿著物種間差異正交的方向分布，且正交程度隨著訓練規模增大同步增大。

解釋：當對比學習將不同的物種分開后，物種內的差異可以在正交子空間內分布而不會影響物種分類的損失優化（論文中定理 5.1）。

1M→10M→50M→214M 四檔實驗顯示：所有非物種視覺任務性能單調上升，且體內差異的分離度 / 正交度同步提升，進一步證實了擴大訓練規模給涌現屬性帶來的增益。

一句話總結：BIOCLIP 2 證明了“把正確的監督做大”同樣能在專業領域復刻大模型的涌現屬性——不僅準確，而且懂生物。

項目主頁：https://imageomics.github.io/bioclip-2/
Demo網址：https://huggingface.co/spaces/imageomics/bioclip-2-demo
論文網址：https://arxiv.org/abs/2505.23883

責任編輯：張燕妮來源：量子位