動(dòng)物版谷歌翻譯來了?Nature:用AI解碼野性的呼喚!
每一種動(dòng)物都有其獨(dú)特的歷史。
來自加拿大Carleton University的鯨魚生物學(xué)家Shane Gero,花了20年時(shí)間試圖了解鯨魚是如何交流的。
比如,同一個(gè)家族的鯨魚會(huì)發(fā)出特定的聲音,而不同區(qū)域的抹香鯨(Physeter macrocephalus)有自己的「方言」。
海豚的口哨聲、大象的隆隆聲、鳥鳴的顫音都有特定的模式和結(jié)構(gòu)。
對(duì)于人類來說,這些微妙之處可能難以識(shí)別和理解,但尋找模式正是AI所擅長(zhǎng)的領(lǐng)域。
在過去的一年里,AI不斷幫助研究者們「解碼」自然界中的這些聲音。
密碼破譯者
鯨魚以氏族的形式聚集在一起,每個(gè)氏族都有獨(dú)特的飲食、社會(huì)行為和棲息地。一個(gè)氏族可以包含數(shù)千頭鯨魚,每個(gè)家庭以雌性鯨魚為首。
鯨魚們大部分時(shí)間都在海洋深處尋找食物,最遠(yuǎn)可達(dá)海面以下2公里處。陽光照不到那里,它們通過回聲定位尋找獵物。
而在不需要回聲定位的水面上,它們還會(huì)使用稱為尾音(codas)的一系列咔嗒聲來與其他鯨魚保持聯(lián)系,每次持續(xù)3到40下。
不同氏族的鯨魚使用尾音的節(jié)奏和停頓不同,這些「方言」標(biāo)志著氏族之間的「文化界限」。
在加勒比海域,Gero和他的同事們花了幾千小時(shí),收集了居住在附近的30多個(gè)鯨魚家庭的數(shù)據(jù)。
為了了解尾音的節(jié)奏和速度,團(tuán)隊(duì)手動(dòng)創(chuàng)建了鯨魚聲音記錄頻譜圖,將音量和頻率等特征可視化。
Gero表示,這項(xiàng)任務(wù)非常耗時(shí),交給機(jī)器學(xué)習(xí)算法之后大大加快了工作速度,同時(shí)還有助于區(qū)分哪種聲音來自哪種動(dòng)物。
另外,人工智能也讓研究走得更遠(yuǎn)。
手動(dòng)操作基本上只能對(duì)單個(gè)單詞進(jìn)行分類,但AI可以處理相當(dāng)于句子甚至整個(gè)對(duì)話的尾聲。「機(jī)器學(xué)習(xí)非常擅長(zhǎng)發(fā)現(xiàn)標(biāo)準(zhǔn)統(tǒng)計(jì)方法難以捕捉的模式」。
研究人員收集了8,719個(gè)尾聲的數(shù)據(jù)集,在AI的幫助下發(fā)現(xiàn)了「抹香鯨音標(biāo)」,作為鯨魚之間共享復(fù)雜信息的基礎(chǔ)。
Call me by my name
抹香鯨并不是唯一使用特定發(fā)聲來識(shí)別自己的生物。曾在科羅拉多州立大學(xué)工作的行為生態(tài)學(xué)家Mickey Pardo,通過AI發(fā)現(xiàn)了野生非洲象有自己的名字。
大象們使用低沉的隆隆聲彼此交流,在不同的情況(遠(yuǎn)距離、面對(duì)面、或者親子互動(dòng))下,聲音會(huì)有差別。
Pardo和他的同事們發(fā)現(xiàn),大象會(huì)對(duì)某些叫聲做出反應(yīng),而忽略其他叫聲。
研究人員訓(xùn)練了AI模型來學(xué)習(xí)這些「呼叫」的聲學(xué)特征,并根據(jù)新呼叫的特征來預(yù)測(cè)接收者。
最終,模型以27.5%的準(zhǔn)確率匹配了呼叫者——盡管看起來分?jǐn)?shù)不高,但人家大象也不是每次呼叫都「直呼其名」。
另一種被AI發(fā)現(xiàn)了「真名」的動(dòng)物是下面這哥們:狨猴(Callithrix jacchus)。
除了預(yù)測(cè)名字之外,Pardo還嘗試?yán)肁I解碼其他的「大象詞匯」,比如位置術(shù)語。
當(dāng)大象招呼同伴向特定地點(diǎn)移動(dòng)時(shí),會(huì)發(fā)出特別的叫聲。模型識(shí)別這些叫聲的含義,研究人員播放叫聲并驗(yàn)證大象們的去向。
在關(guān)于大象的另一項(xiàng)研究中,Pardo發(fā)現(xiàn)肯尼亞兩個(gè)種群中大象的叫聲存在明顯差異。
所以,進(jìn)行瀕危物種保護(hù)時(shí),不能簡(jiǎn)單將個(gè)體與其他同類放到一起,因?yàn)椤感氯恕箍赡苊媾R語言不通的麻煩。
另外,大象的叫聲還包含了性別、年齡、生理狀況等信息,科學(xué)家們可以通過梳理這些信息,使用被動(dòng)聲學(xué)監(jiān)測(cè)來了解特定大象的情況。
加州大學(xué)的動(dòng)物行為生態(tài)學(xué)家Caroline Casey,在博士論文中證明了象海豹(Mirounga spp)也會(huì)給給自己起名字。
Casey認(rèn)為,使用基于AI的分類器來解釋動(dòng)物的叫聲,可以減少研究中的人為偏見,但與此同時(shí),人類直覺的價(jià)值也不應(yīng)該被忽視。
「人類的大腦能夠整合我們對(duì)自己世界的理解和運(yùn)作方式,并利用它來幫助解釋動(dòng)物的行為」。
泛化到烏鴉
機(jī)器學(xué)習(xí)專家Olivier Pietquin是地球物種項(xiàng)目(Earth Species Project)的AI研究主管,項(xiàng)目團(tuán)隊(duì)目前正在使用AI解碼動(dòng)物物種的交流。
Pietquin希望利用神經(jīng)網(wǎng)絡(luò)從一個(gè)數(shù)據(jù)集泛化到另一個(gè)數(shù)據(jù)集的能力,在訓(xùn)練模型時(shí),不僅能夠使用來自不同動(dòng)物的大量聲音,還可以使用其他聲學(xué)數(shù)據(jù)(包括人類語音和音樂)。
「計(jì)算機(jī)可以在建立理解以專門識(shí)別動(dòng)物發(fā)聲特征之前,需要先推導(dǎo)出聲音的一些基本特征。這與在人臉圖片上訓(xùn)練的圖像識(shí)別算法學(xué)習(xí)像素的一些基本特征的方式相同。」
像素首先描述橢圓,然后描述眼睛。所以,即使使用人臉作為大部分訓(xùn)練數(shù)據(jù),AI模型依然可以利用這些基礎(chǔ)知識(shí)識(shí)別貓的面部。
「我們可以想象使用人類語音數(shù)據(jù),并希望它能轉(zhuǎn)移到任何其他具有聲帶的動(dòng)物身上?!?/span>
以這種方式訓(xùn)練的模型有助于識(shí)別哪些聲音傳達(dá)了信息,哪些只是噪聲。當(dāng)然,要弄清楚這些叫聲的具體指向,仍然需要人類觀察動(dòng)物的行為,為計(jì)算機(jī)識(shí)別出的內(nèi)容添加標(biāo)簽。
地球物種項(xiàng)目的研究人員已經(jīng)創(chuàng)建了一個(gè)名為Voxaboxen的神經(jīng)網(wǎng)絡(luò),他們正在將其應(yīng)用于烏鴉交流的研究。
與歐洲其他地方的同類不同,西班牙北部的腐肉烏鴉種群(Corvus corone)共同承擔(dān)著照顧幼崽的責(zé)任。一群烏鴉將輪流守衛(wèi)巢穴、清潔巢穴和照顧雛鳥,它們必須通過語音溝通協(xié)調(diào)才能完成這些任務(wù)。
研究人員將標(biāo)簽貼在烏鴉的尾羽上,其中包含一個(gè)微型麥克風(fēng),一個(gè)加速度計(jì)和磁力計(jì),用于測(cè)量鳥類的運(yùn)動(dòng)和叫聲。標(biāo)簽?zāi)軌蚴占蠹s六天的數(shù)據(jù),然后掉到地上并發(fā)出一個(gè)信號(hào),方便工作人員檢索和研究這些數(shù)據(jù)。
盡管有抹香鯨、非洲大草原象、狨猴、海象、烏鴉這些例子,但是用AI打造「動(dòng)物版的谷歌翻譯」還為時(shí)尚早。
動(dòng)物是否能夠進(jìn)行超過基本水平的交流——即有無語言的構(gòu)成,還沒有公認(rèn)的定義。
Pardo表示,他的主要目標(biāo)不是能夠與野生動(dòng)物和寵物交談,而是了解它們的思想以及它們?nèi)绾慰创约汉褪澜纭?/span>
例如,一些動(dòng)物似乎有名字的事實(shí)意味著,它們能夠?qū)⑵渌麄€(gè)體視為實(shí)體并提出標(biāo)簽,這表明它們具有復(fù)雜的抽象思維水平。