決策智能:方興未艾的人工智能新方向
本報記者 趙廣立
近日,中國科學(xué)院自動化研究所(以下簡稱自動化所)宣布開放“廟算·智勝”戰(zhàn)術(shù)兵棋即時策略人機對抗平臺,旨在進一步推動人機對抗智能技術(shù)研究。據(jù)了解,該平臺曾用于“先知·兵圣”智能博弈對抗系列賽事,具有平臺開放、在線對抗、技術(shù)共享等特點。
人機對抗是國際公認的探索決策智能重要途徑之一。作為國家新一代人工智能的重要發(fā)展方向,決策智能的研究和發(fā)展方興未艾。同時,由于決策智能涉及多個學(xué)科的交叉,相關(guān)的探索尚須各方共同努力。
涉及多個學(xué)科
到底該如何定義決策智能?在近日舉辦的“首屆智能決策論壇”上,自動化所所長徐波認為,由于我們對人類智能的機理仍缺乏系統(tǒng)了解,對人工智能做內(nèi)涵式、學(xué)科式的定義仍然困難重重。但他介紹說,決策智能強調(diào)智能“產(chǎn)生于與其所處環(huán)境的交互”,且智能應(yīng)具備“對不確定性環(huán)境的探索和發(fā)現(xiàn)”的能力。
他解釋,決策智能要求智能體能在不確定的環(huán)境中做出合適的行動、選擇和決定。而這里的“環(huán)境”,指的是人們試圖用人工智能更好地了解、探索、建模和駕馭的物理世界、人類社會等系統(tǒng)。
有別于感知智能,決策智能主要基于對不確定環(huán)境的探索,因此需要獲取環(huán)境信息和自身的狀態(tài),從而進行自主決策,使由環(huán)境反饋的收益最大化。這一反饋形成的系統(tǒng)閉環(huán),將使人工智能擁有更完整的表現(xiàn)形式。
自動化所是國內(nèi)率先開展人工智能與腦科學(xué)交叉研究、建立國內(nèi)第一個人工智能學(xué)院的科研單位。目前,該所正將自主進化智能作為重點投入、發(fā)展和突破的方向,已組織20余個團隊開展決策智能基礎(chǔ)理論、算法、環(huán)境、評價、應(yīng)用等研究。
在上述論壇上,歐洲科學(xué)院外籍院士、北京大學(xué)前沿計算研究中心教授鄧小鐵,清華大學(xué)交叉信息科學(xué)院助理教授張崇潔,倫敦大學(xué)學(xué)院計算機系教授汪軍等學(xué)者也對決策智能的內(nèi)涵進行了探討。學(xué)者們指出,決策智能帶有強烈的“行為主義”流派的色彩,而同時又能吸收“符號主義”和“連接主義”的精華。這種特點,使得決策智能涉及計算機、控制、數(shù)學(xué)、認知心理學(xué)、神經(jīng)科學(xué)等諸多學(xué)科。
“目前基于強化學(xué)習(xí)等方法的決策智能,主要還是在學(xué)習(xí)‘狀態(tài)’到‘動作’的映射,與可解釋的、因果關(guān)系的、可以互動的決策還有很遠距離。”鄧小鐵表示。
與博弈論相互影響
在探索決策智能的諸多路徑之中,多智能體系統(tǒng)(以下簡稱多智能體)是國際上人工智能技術(shù)的前沿學(xué)科。人們寄希望于彼此通信和協(xié)調(diào)的多智能體采取協(xié)調(diào)行動,以解決大型、復(fù)雜的現(xiàn)實問題。但目前,很多基于強化學(xué)習(xí)的多智能體研究方法并不夠成熟。
“博弈論是刻畫和分析多智能體相互之間競爭最好的理論框架。”鄧小鐵認為,博弈論在多智能體系統(tǒng)研究中將扮演理論基礎(chǔ)的角色,同時人工智能的發(fā)展也給博弈論學(xué)科帶來了深遠的影響。
“從博弈論已有的理論中借鑒想法指導(dǎo)設(shè)計強化學(xué)習(xí)方法,常常能夠獲得較優(yōu)的結(jié)果;而反之,如果沒有相應(yīng)的理論作為指導(dǎo),研究者們?nèi)菀壮霈F(xiàn)‘腳踩西瓜皮,滑到哪兒算哪兒’的尷尬局面。”鄧小鐵說,多智能體系統(tǒng)若想有更好的發(fā)展,需要有相應(yīng)的理論基礎(chǔ),而博弈論正扮演這個角色。
此外,汪軍認為,機器學(xué)習(xí)系統(tǒng)本質(zhì)上只是信息處理系統(tǒng)的一個子集,目前的機器學(xué)習(xí)與信息理論緊密結(jié)合,未來將有越來越多的信息學(xué)理論被應(yīng)用到機器學(xué)習(xí)以及多智能體系統(tǒng)之中。
應(yīng)重點投入
“強化學(xué)習(xí)”是當(dāng)前互聯(lián)網(wǎng)經(jīng)濟場景中,人們希望實現(xiàn)決策智能的核心方法之一。在工業(yè)場景下,目前的做法一般是先在平臺上模擬,再到現(xiàn)實中進行適應(yīng)。這種場景下的強化學(xué)習(xí)一般可以相對準確地進行模擬和應(yīng)用。
然而,在樣本有效性問題上,一旦模擬器模擬出的數(shù)據(jù)不精確,數(shù)據(jù)的意義將大打折扣。
上述論壇與會學(xué)者介紹說,這是因為,當(dāng)前的“模擬”多數(shù)僅是機械模擬環(huán)境,且常用高斯過程的混合模型模擬,仍然處于相對初級的階段??梢钥吹?,當(dāng)前的強化學(xué)習(xí)技術(shù)在較復(fù)雜場景中往往不能很好地工作,只有序列性強、動作空間簡單的場景(如網(wǎng)易云、快手等的音視頻推薦)才比較容易刻畫。
這也導(dǎo)致,相比于計算機視覺等感知智能,決策智能目前的應(yīng)用落地仍不明顯。針對這一現(xiàn)象,與會學(xué)者們認為,虛實混合、數(shù)字孿生、教育場景下的搜索推薦等場景都是強化學(xué)習(xí)有可能產(chǎn)生應(yīng)用的地方,學(xué)術(shù)界可以主動進入工業(yè)界,一邊創(chuàng)業(yè)一邊研究,進而推動工業(yè)界變革。
“人工智能還處在對環(huán)境沒有適應(yīng)、認知和學(xué)習(xí)能力的發(fā)展初級階段。”與會學(xué)者認為,決策智能作為人工智能三個流派的融合入口,將成為研究的主流。
“決策智能的基礎(chǔ)理論、算法、環(huán)境、評價、應(yīng)用等研究方興未艾。我國應(yīng)當(dāng)將面向重大需求的決策智能作為重點投入、發(fā)展和突破的方向。”徐波表示。