大腦也在強(qiáng)化學(xué)習(xí)!「價(jià)值決策」被大腦高效編碼,登Neuron頂刊
我們每個(gè)人的一生都要做出大量的決定,小到「今天晚上吃什么」、「明天放假去哪里玩」,大到「這次戰(zhàn)役怎么打」、「這部法律如何制定」。
這些決定的結(jié)果,要由決策者的大腦來(lái)給出最終裁決。
所以,大腦中負(fù)責(zé)這類(lèi)「裁決」的關(guān)鍵區(qū)域,成為科學(xué)家們關(guān)注的重點(diǎn)。
2019 年,加州大學(xué)圣地亞哥分校的研究人員就發(fā)現(xiàn)了做出「價(jià)值決策」的大腦區(qū)域。

他們發(fā)現(xiàn),這個(gè)區(qū)域被稱(chēng)為脾后皮層 (RSC),是用來(lái)做出「有價(jià)值的選擇」的地方,比如決定今晚去哪家餐廳吃飯。然后,根據(jù)對(duì)今晚飯菜的喜好程度的新印象,用最新信息來(lái)更新RSC。
畢竟,只有及時(shí)更新信息,才能讓大腦做出最正確的決策。
現(xiàn)在,這個(gè)團(tuán)隊(duì)在這個(gè)問(wèn)題上又有新進(jìn)展。該校生物科學(xué)系博士后 Ryoma Hattori 和 Takaki Komiyama 教授領(lǐng)導(dǎo)的新研究,揭示了大腦處理此類(lèi)動(dòng)態(tài)更新信息的詳細(xì)機(jī)制。

近日發(fā)表在Neuron期刊上的論文結(jié)果表明,RSC中的更新信息可以持久保存,就像一個(gè)可調(diào)用的資源庫(kù)。
這些「持久信息」可以最有效地表示或「編碼」有價(jià)值的信號(hào),能夠跨越大腦的不同區(qū)域。
為了研究大腦活動(dòng)如何表示基于價(jià)值的決策的細(xì)節(jié),研究人員設(shè)置了強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)。價(jià)值決策是人類(lèi)大腦的關(guān)鍵機(jī)制,在精神分裂癥、癡呆和成癮等神經(jīng)系統(tǒng)疾病中常常受損。
在實(shí)驗(yàn)中,研究人員小鼠提供了多個(gè)選項(xiàng),對(duì)小鼠的選擇以一定的概率獎(jiǎng)勵(lì),并記錄在強(qiáng)化學(xué)習(xí)過(guò)程中的相應(yīng)大腦活動(dòng)。

由此產(chǎn)生的數(shù)據(jù)和網(wǎng)絡(luò)模擬指出了持續(xù)編碼在如何表示老鼠及其價(jià)值決定方面的重要性,以及 RSC 作為這項(xiàng)活動(dòng)的紐帶。
研究人員在論文中解釋說(shuō):「這些結(jié)果表明,盡管信息編碼是高度分布的,但并非所有神經(jīng)活動(dòng)中表示的信息都可以在每個(gè)區(qū)域中使用。這些結(jié)果表明,依賴(lài)于上下文的持久性信息,促進(jìn)了可靠的信號(hào)編碼,擴(kuò)大了信息在大腦中的分布。」

研究人員發(fā)現(xiàn),信息的持久性,可以讓價(jià)值信號(hào)在大腦的不同區(qū)域得到最高效的編碼,尤其是在脾后皮層中。圖片來(lái)源:加州大學(xué)圣地亞哥分校 Komiyama 實(shí)驗(yàn)室
研究團(tuán)隊(duì)成員,論文作者之一Hattori表示,眾所周知,神經(jīng)元會(huì)在不同的活動(dòng)模式中循環(huán),一些神經(jīng)元的活動(dòng)會(huì)激增,而另一些則保持沉默。
Ryoma Hattori
這些大腦活動(dòng)模式已被證明與某些與任務(wù)相關(guān)的信息相關(guān),例如決策的價(jià)值信息。由于 RSC 在連接多個(gè)大腦網(wǎng)絡(luò)和功能方面發(fā)揮著核心作用,此次新發(fā)現(xiàn)進(jìn)一步強(qiáng)化了2019年的成果。
“我們認(rèn)為在小鼠大腦中,RSC的作用是價(jià)值信息的穩(wěn)定儲(chǔ)存庫(kù),當(dāng)老鼠進(jìn)行強(qiáng)化學(xué)習(xí)和決策時(shí),RSC 會(huì)將價(jià)值信息分發(fā)到其他大腦區(qū)域,這些區(qū)域?qū)τ谶M(jìn)一步處理價(jià)值信號(hào)至關(guān)重要。”
為了進(jìn)一步測(cè)試他們的發(fā)現(xiàn),Hattori 和 Komiyama 使用了他們?cè)趯?shí)驗(yàn)期間記錄的超過(guò) 100000 次小鼠決策的「大數(shù)據(jù)」庫(kù)。
研究人員對(duì)人工智能 (AI) 網(wǎng)絡(luò)進(jìn)行編程,模仿基于計(jì)算機(jī)的強(qiáng)化試驗(yàn)中的行為策略,得到了與現(xiàn)實(shí)世界的實(shí)驗(yàn)非常相似的結(jié)果。
Takaki Komiyama
「當(dāng)我們訓(xùn)練AI做同樣的行為時(shí),它采用了相同的策略和相同的方式來(lái)表示神經(jīng)活動(dòng)中的信息,」Komiyama 說(shuō)
「這表明,我們的發(fā)現(xiàn)確實(shí)是神經(jīng)回路執(zhí)行這種行為的選擇策略。AI和小鼠之間的這種相似性真的很有趣。」