強化學(xué)習(xí)能否在2020年取得突破?
強化學(xué)習(xí)對于實現(xiàn)我們的人工智能 / 機器學(xué)習(xí)技術(shù)的目標來說至關(guān)重要,但現(xiàn)在我們還有一些障礙需要克服。盡管可靠性和減少訓(xùn)練數(shù)據(jù)的目標在一年內(nèi)就可能實現(xiàn),但是,強化學(xué)習(xí)本質(zhì)上是一種“黑盒”解決方案,其缺乏透明度的特性會帶來很多質(zhì)疑。
傳統(tǒng)的機器學(xué)習(xí)乃至深度學(xué)習(xí)的監(jiān)督及非監(jiān)督學(xué)習(xí),是企業(yè)目前在人工智能 / 機器學(xué)習(xí)領(lǐng)域進行大量投資并從中獲取回報的核心領(lǐng)域。但事實是, 這些技術(shù)目前已經(jīng)相當成熟,收益曲線也日趨平坦。
如果我們要在人工智能 / 機器學(xué)習(xí)領(lǐng)域?qū)ふ蚁乱粋€突破技術(shù),那么幾乎可以肯定的是,這個突破將來自強化學(xué)習(xí)。在強化學(xué)習(xí)領(lǐng)域需要投入大量的努力,但是平心而論,強化學(xué)習(xí)還沒有達到必要的標準化水平,尚不足以成為為商用化準備就緒的工具。
在游戲領(lǐng)域已經(jīng)有相當多值得報道的成功案例(如 Alpha Go),在無人駕駛領(lǐng)域也有一些成功案例。但盡管在解決涉及系列決策的問題時,強化學(xué)習(xí)應(yīng)該是我們的首選技術(shù),可它還沒有達到我們所需要的水平。
在我們的上一篇文章中,我們強調(diào)了兩個阻礙強化學(xué)習(xí)的缺點,這正是微軟強化學(xué)習(xí)領(lǐng)域的首席研究員 Romain Laroche 所描述的:
“它們基本上是不可靠的。更糟糕的是,由于強化學(xué)習(xí)過程中的隨機性,使用不同隨機種子的兩次運行的結(jié)果可能非常不同。”
“它們需要數(shù)十億的樣本才能獲得結(jié)果,而在現(xiàn)實世界的應(yīng)用中提取如此天量的樣本是不可行的。”
我們專注于一些有希望的研究,這些研究用少得多的數(shù)據(jù)、有限的財務(wù)投入和實際約束解決了訓(xùn)練問題。然而,剩下的問題甚至更加復(fù)雜。
由于強化學(xué)習(xí)解決方案是用隨機種子啟動的,因此,它們本質(zhì)上是對狀態(tài)空間的隨機搜索。設(shè)想一下,兩個啟動算法隨機進入這個潛在解決方案的巨大叢林,目標是找到最快的出路。盡管這兩個解決方案可能達到相同的性能級別,但是,強化學(xué)習(xí)是眾所周知的黑盒,它使我們無法了解系統(tǒng)為何及如何選擇執(zhí)行這一系列步驟。
Gartner 最近的報告 《2020 年 10 大戰(zhàn)略技術(shù)趨勢》 中提到的兩個互相矛盾的目標,突顯了其重要性。
引起我們注意的兩個趨勢是:
趨勢 8:智能設(shè)備(Autonomous things)
“智能設(shè)備,包括無人機、機器人、船舶和家用電器,利用人工智能代替人類完成任務(wù)。該技術(shù)在半智能到完全智能的智能范圍內(nèi)運作,并能在包括天空、海洋和陸地等各種各樣的環(huán)境中運作。智能設(shè)備也將從獨立的設(shè)備向協(xié)作的集群轉(zhuǎn)變,例如在 2018 年冬季奧運會上使用的無人機群。”
該報告沒有提到的是,要實現(xiàn)這一點將需要強大而可靠的強化學(xué)習(xí)。盡管有一些非常震撼人的機器人(想想 Boston Dynamics 公司吧)主要依靠物理運動的算法,而不是人工智能 / 機器學(xué)習(xí)技術(shù),但行業(yè)需要強化學(xué)習(xí)才能走進下一個發(fā)展階段。
而第 2 個趨勢對強化學(xué)習(xí)來說將更加困難。
趨勢 5:透明度和可追溯性
“技術(shù)的發(fā)展正在制造信任危機。隨著消費者越來越關(guān)注自身信息被收集和使用的情況,各種組織也意識到存儲和收集這些數(shù)據(jù)時所肩負的責(zé)任越來越大。”
“此外,人工智能和機器學(xué)習(xí)越來越多地用于代替人類做出決策,從而演變出信任危機,并推動了對可解釋的人工智能和人工智能治理等理念的需求。”
盡管我們很可能想到 GDPR 以及圍繞著電子商務(wù)的隱私問題,但事實是,基于我們對人工智能 / 機器學(xué)習(xí)如何做出決策的理解,這些技術(shù)終將受到挑戰(zhàn)。
尤其是考慮到強化學(xué)習(xí)政策制定的隨機性,以及兩個成功的強化學(xué)習(xí)程序可以以完全不同的方式實現(xiàn)相同的目標,這將是一個難以克服的挑戰(zhàn)。
應(yīng)對可靠性問題
Romain Laroche 提出了兩種技術(shù),有望解決可靠性問題。在其論文中,一個使用集成方法(EBAS),而另一個使用調(diào)整微調(diào)參數(shù)條件風(fēng)險值(Conditional value at Risk,簡稱 CvaR,即最差運行的平均值),這兩種技術(shù)都能提高性能并減少訓(xùn)練時間,同時限制強化學(xué)習(xí)運行的自然趨勢,以在系統(tǒng)中找到及利用故障。如果實際投入生產(chǎn),該系統(tǒng)可以導(dǎo)致成功的結(jié)果,但是包含某種形式的意外損害。后一種技術(shù)以 SPIBB 命名,SPIBB 是 Safe Policy Improvement with Baseline Bootstrapping 的縮寫,即具有基線引導(dǎo)的安全策略改進。
該集成方法借鑒了機器學(xué)習(xí)中的相同概念,并且與遺傳算法選擇訓(xùn)練過程中的搜索過程類似,從而得到了一些很好的結(jié)果。
EBAS 算法學(xué)習(xí)速度更快,而且最終性能沒有任何下降。
透明度?
我們似乎正在解決可靠性問題以及另一個海量訓(xùn)練數(shù)據(jù)的需求問題。這無疑將把我們引向透明度問題。比如,無人駕駛汽車在發(fā)生人員傷亡后所受到的審查。對比人類操作人員犯錯,我們對機器犯錯的容忍度更低。
毫無疑問,強化學(xué)習(xí)將在 2020 年做出重大貢獻,但是,想要實現(xiàn)一個經(jīng)過驗證的,商業(yè)上得到接受的方案所面臨的障礙,以及由于其缺乏透明性而帶來的阻力等問題,不太可能在一年內(nèi)完全解決。