Google Research Scholar和DeepMind獎學金支持項目:多智能體系統中的合作彈性 精華
韌性,即系統在面對破壞性事件時的承受、適應和恢復能力,是一個跨學科的重要概念。在生態學中,韌性指的是生態系統在受到干擾后恢復到原始狀態的能力;在工程學中,韌性涉及系統在故障或攻擊后恢復功能的能力;在心理學中,韌性則描述了個體或群體在面對壓力和逆境時的應對和恢復能力。經濟學、社會科學、網絡科學等領域也都對韌性進行了廣泛研究。
在人工智能(AI)領域,特別是合作人工智能(Cooperative AI)中,韌性的重要性日益凸顯。合作AI系統通常在復雜和動態的環境中運行,需要與人類或其他機器進行交互。這些系統必須能夠適應環境變化,處理意外事件,并在面對破壞性事件時保持高效響應。因此理解和增強合作AI系統的韌性,對于確保這些系統在實際應用中的可靠性和有效性至關重要。
9 月 24 日,Sam Altman罕見地發表了一篇長文,預言超級人工智能(ASI)將在「幾千天內」到來。他堅信,深度學習已經取得了顯著進展,能夠真正理解和學習任何數據的分布模式。人類正處在奇點的邊緣,即將邁入ASI的新時代。在這篇名為「智能時代」的博客中,Altman暗示,ASI的實現可能比我們想象的更近。為了確保ASI系統的穩定性和高效性,這些系統同樣需要具備多方面的韌性。
盡管韌性在多個領域得到了廣泛研究,但在合作人工智能中的定義和量化方法尚不明確。9 月 20 日arXiv發表的技術論文《Cooperative Resilience in Artificial Intelligence Multiagent Systems》目標是填補這一空白,提出“合作韌性”的明確定義,并開發一種定量測量方法。通過在強化學習(RL)和大語言模型(LLM)增強的自主代理環境中進行實驗,研究團隊驗證了所提出的方法,并展示了其在分析系統如何準備、抵抗、恢復、維持福祉和在面對破壞時轉變方面的有效性。
本研究由來自不同機構的研究人員組成,他們在合作AI和多智能體系統的韌性研究方面進行了深入的合作。研究團隊成員有來自哥倫比亞的安第斯大學的Manuela Chacon-Chamorro、Luis Felipe Giraldo、Nicanor Quijano、Vicente Vargas-Panesso、César González、Juan Sebastián Pinzón、Rubén Manrrique、Yesid Fonseca 和 Daniel Gómez-Barrera;來自Bancolombia的分析與人工智能卓越中心的Manuel Ríos;來自哥倫比亞的伊瓦格大學的Mónica Perdomo-Pérez。
該研究得到了Google通過Google Research Scholar項目和UniAndes-DeepMind獎學金2023的支持。這些資助為研究團隊提供了必要的資源和平臺,使他們能夠在合作AI韌性研究領域取得重要進展。通過他們的研究,團隊不僅希望統一合作AI領域的術語,還旨在通過跨學科的研究努力,深入理解復雜系統中的涌現韌性,為未來的研究和應用提供堅實的基礎。
合作韌性的定義
韌性概念的多學科視角
韌性作為一個跨學科的概念,在不同領域有著各自的定義和關鍵要素。在生態學中,韌性通常與系統的吸收、轉變和響應能力相關,強調系統在受到干擾后恢復到原始狀態的能力。關鍵要素包括系統的抵抗力和穩定性,以及在受到干擾時的恢復能力。在工程學中,韌性涉及系統在故障、錯誤或攻擊后恢復功能的能力,通常與抵抗、恢復和適應等行為相關。在心理學中,韌性描述了個體或群體在面對壓力、威脅和生活事件時的應對和恢復能力,涵蓋從個人到家庭和社區的不同層次。在經濟學中,韌性與抵抗、增長和適應等行為相關,破壞性事件則包括風險、危機和變化。在動態系統中,韌性涉及系統對外部因素、初始條件變化或參數變化的響應能力。在網絡科學中,韌性實體可以是響應干擾的交互代理集群,破壞性事件包括故障、錯誤、威脅或環境變化。
圖1:不同領域和背景下的彈性關鍵字圖,解決了指導性問題。
這些定義和關鍵要素展示了韌性概念在多個學科中的廣泛應用和重要性。通過總結這些定義,我們可以更好地理解韌性在不同領域中的表現形式和關鍵行為。
合作韌性的具體定義
在合作人工智能(Cooperative AI)中,韌性同樣是一個關鍵概念。合作AI系統通常在復雜和動態的環境中運行,需要與人類或其他機器進行交互。這些系統必須能夠適應環境變化,處理意外事件,并在面對破壞性事件時保持高效響應。因此,理解和增強合作AI系統的韌性,對于確保這些系統在實際應用中的可靠性和有效性至關重要。
研究團隊提出了“合作韌性”的定義:合作韌性是指一個系統(包括人類、機器或兩者的集體行動)在面對威脅其共同福祉的破壞性事件時,能夠預見、準備、抵抗、恢復和轉變的能力。
這一定義包含了五個關鍵行為:
預見:系統能夠預測潛在的破壞性事件。
準備:系統在破壞性事件發生前采取措施進行準備。
抵抗:系統在破壞性事件發生時能夠抵抗其影響。
恢復:系統在破壞性事件后能夠恢復到正常狀態。
轉變:系統在破壞性事件后能夠進行調整和改進,以應對未來的挑戰。
此外,定義還強調了破壞性事件的隨機性和不可預測性,這些事件可能是外部、內部或攻擊性事件,對系統的正常運行條件構成威脅。通過包括這些行為和事件,合作韌性不僅被視為系統的固有能力,還被視為一個由一系列基本階段組成的過程。這種過程導向的視角有助于更全面地理解和評估合作AI系統在面對破壞性事件時的表現和適應能力。
合作韌性的測量方法
在定義了合作韌性之后,研究團隊提出了一種系統的方法來量化這一概念。該方法分為四個階段,每個階段都旨在捕捉系統在面對破壞性事件時的不同方面的表現和適應能力。
圖2:說明衡量合作彈性的擬議方法的示意圖。
階段一:性能和參考曲線
在第一階段,研究團隊定義并測量了與集體福祉相關的變量。這些變量包括資源可用性、資源分配的平等性和資源的可持續性等。具體來說,在一個多智能體系統中,這些變量可能涉及每個代理能夠獲取的資源數量、資源在代理之間的分配情況以及資源的再生能力。
為了評估這些變量,研究團隊建立了性能曲線和參考曲線。性能曲線表示系統在正常運行條件下的表現,而參考曲線則表示系統在破壞性事件發生時的表現。通過比較這兩條曲線,可以評估系統在面對破壞性事件時的表現。
例如,在一個資源消耗的環境中,性能曲線可能表示每個代理在沒有破壞性事件時能夠獲取的資源數量,而參考曲線則表示在破壞性事件發生時每個代理能夠獲取的資源數量。通過這種方式,可以直觀地看到破壞性事件對系統的影響。
階段二:計算總結指標
在第二階段,研究團隊在定義的時間窗口內計算韌性指標。具體來說,他們將整個觀察期分為較小的時間窗口,并在每個時間窗口內分析系統在破壞性事件前后的表現。
韌性指標通過比較性能曲線和參考曲線來計算。具體的計算方法包括識別系統在破壞性事件后的退化速度和幅度(故障特征),以及系統在破壞性事件后的恢復速度和穩定性(恢復特征)。這些特征的計算公式如下:
其中,( Fjl) 表示故障特征,( Gjl ) 表示恢復特征,( ti ) 是事件發生時間,( tf ) 是系統性能降到最低點的時間,( tr ) 是系統恢復到穩定狀態的時間。
通過這些計算,可以得到每個變量在每個破壞性事件中的總結指標 ( Jjl ):
這些總結指標反映了系統在破壞性事件前后的表現,并為后續的時間聚合提供了基礎。
階段三:時間窗口匯總
在第三階段,研究團隊對韌性指標進行時間聚合,以反映系統在連續破壞性事件中的適應和學習能力。具體來說,他們對每個變量的韌性指標進行時間聚合,懲罰韌性的下降,獎勵在破壞序列中的改進。
這種聚合方法不僅考慮了系統在單個破壞性事件中的表現,還考慮了系統在連續破壞性事件中的表現。通過這種方式,可以評估系統在面對多次破壞性事件時的適應能力和學習能力。
例如,如果一個系統在第一次破壞性事件后表現不佳,但在隨后的破壞性事件中表現有所改善,那么這種改進將反映在聚合后的韌性指標中。相反,如果系統在連續破壞性事件中表現逐漸惡化,那么這種惡化也將反映在聚合后的韌性指標中。
階段四:變量匯總
在最后一個階段,研究團隊使用調和平均數將所有變量的總結指標匯總為一個單一指標。調和平均數是一種常用的匯總方法,特別適用于需要懲罰低值的情況。
通過使用調和平均數,可以確保某些變量的低性能不會被其他變量的高性能所掩蓋,從而提供一個更全面的系統韌性評估。例如,如果一個系統在資源可用性方面表現良好,但在資源分配平等性方面表現不佳,那么調和平均數將反映出系統在整體上的不足。
最終,研究團隊得到了一個單一的韌性測量值 ( J ),代表代理、破壞性事件和福祉變量的韌性匯總。這一測量值為評估和比較不同系統在面對破壞性事件時的表現提供了一個有力的工具。
案例研究
實驗設計
為了驗證合作韌性的方法,研究團隊選擇了Melting Pot 2.0作為實驗工具。Melting Pot 2.0是一個專門用于研究多智能體AI系統的工具,能夠模擬復雜的多智能體交互環境。具體的實驗場景選擇了“Commons Harvest Open”,這是一個多智能體系統中常見的社會困境場景。
在“Commons Harvest Open”場景中,多個代理生活在一個有限的空間內,空間中有蘋果樹。每個代理的目標是盡可能多地采摘蘋果。蘋果會根據剩余蘋果的數量以一定的概率再生,如果所有蘋果被采摘完,樹木將消失。這種場景模擬了一個典型的社會困境:如果所有代理都過度采摘蘋果,資源將枯竭,導致整個群體的福祉受損。
圖3:LLM架構中推理過程流的示意圖,導致每個代理的行動階段。
第一類破壞性事件:蘋果消失
在第一類破壞性事件中,研究團隊模擬了蘋果突然消失的情況,以測試系統在資源枯竭情況下的韌性。具體的實驗參數包括破壞性事件發生的概率 ( p_s ) 和影響程度 ( v_s )。為了覆蓋不同的場景,實驗設置了九種不同的組合,分別對應不同的破壞性事件發生概率和影響程度。
圖4:性能和參考曲線:藍線表示五次發作的平均性能曲線,而橙線表示平均參考曲線。陰影區域對應于標準偏差。紅色虛線表示破壞性事件的發生。頂行(a、b、c、d)顯示了使用RL訓練的代理的結果,而底行(e、f、g、h)顯示了基于LLM的模型的結果。(a) 以及(e)描繪了實驗E9中人均活蘋果。(b) (f)顯示了實驗E2中人均存活的樹木。(c) 以及(g)示出了實驗E5中的基尼平等指數。最后,(d)和(h)給出了實驗E7中的集體饑餓水平。
實驗結果顯示,破壞性事件顯著影響了系統的四個關鍵指標:每人存活的蘋果數、每人存活的樹木數、累積基尼平等指數和集體饑餓指數。在RL和LLM兩種決策系統中,破壞性事件對系統的影響有所不同。
在RL系統中,代理通過強化學習算法(PPO)進行訓練,能夠在一定程度上優化資源的使用和分配。然而,當破壞性事件發生時,系統的表現仍然受到顯著影響,特別是在資源枯竭的情況下,代理的表現會迅速惡化。
在LLM系統中,代理通過大語言模型進行決策,行為并未根據資源可用性進行優化。這導致在破壞性事件發生時,代理會迅速采摘所有蘋果,導致樹木消失,系統表現顯著下降。
圖5:合作彈性圖:該熱圖說明了改變破壞性事件數量(1、2或3)和干擾幅度(vs)對系統彈性的影響。該地圖使用較深的顏色表示較低的彈性值。圖(a)顯示了RL方法的結果,而(b)顯示了LLM的結果。
第二類破壞性事件:不可持續的機器人
在第二類破壞性事件中,研究團隊引入了不可持續的機器人,這些機器人在模擬中表現出不合理的資源消耗行為。具體的實驗設計包括在LLM中第10輪和在RL中第100時間步引入機器人,并設置了三種不同的交互持續時間,以評估機器人對系統韌性的影響。
圖6:合作彈性圖:該熱圖說明了不同機器人交互持續時間對系統彈性的影響。較暗的色調表示較低的彈性值。圖(a)顯示了RL方法的結果,而(b)顯示了LLM增強代理的結果。
實驗結果顯示,隨著機器人交互時間的增加,系統的韌性值下降。這是預期的,因為機器人不合理地消耗資源,直接和間接地影響了系統的關鍵指標。在RL系統中,代理在破壞性事件后繼續其資源消耗策略,機器人離開后資源消耗模式不變。而在LLM系統中,代理在機器人離開后調整其策略,表現出更強的社會適應性行為。
圖7:人均活蘋果數。藍線是性能曲線5次發作的平均值,橙線是參考曲線的平均值。陰影區域表示標準偏差。紅色虛線表示破壞性事件的發生。(a) RL中的E3和LLM中的E2。
通過比較RL和LLM兩種決策系統的表現,研究團隊發現LLM系統在面對不可持續行為時表現出更高的韌性。這表明LLM系統在恢復和適應能力方面具有優勢,能夠更好地應對外部破壞性事件。通過這些實驗,研究團隊驗證了合作韌性的方法,并展示了其在分析系統如何準備、抵抗、恢復、維持福祉和在面對破壞時轉變方面的有效性。
結果討論
復雜動態的影響
在研究人工智能多智能體系統中的合作韌性時,破壞性事件的頻率和強度對系統的影響是一個關鍵因素。通過實驗可以看出,不同的破壞性事件頻率和強度對系統的合作韌性有著顯著的影響。
破壞性事件的頻率直接影響系統的適應能力和恢復速度,在實驗中,隨著破壞性事件的頻率增加,系統的韌性值普遍下降。這是因為頻繁的破壞性事件使系統難以有足夠的時間進行恢復和調整,從而導致整體性能的下降。例如,在蘋果消失的實驗中,當破壞性事件頻繁發生時,系統中的代理無法有效地管理資源,導致資源枯竭和系統性能的顯著下降。
其次,破壞性事件的強度也對系統的韌性有著重要影響。實驗結果顯示,較高強度的破壞性事件通常會導致系統的韌性值下降。然而,值得注意的是,在某些情況下,系統在經歷高強度破壞性事件后表現出更高的韌性。這種現象表明,系統在面對高強度破壞性事件時,可能會通過調整策略和行為來提高其適應能力和恢復速度。例如,在不可持續的機器人實驗中,盡管機器人對資源的消耗強度較高,但系統通過調整代理的行為策略,表現出了一定的適應性和恢復能力。
這些結果表明,破壞性事件的頻率和強度對系統的合作韌性有著復雜的影響。系統在面對不同頻率和強度的破壞性事件時,表現出不同的適應和恢復能力。這種復雜動態的影響需要進一步的研究和分析,以更好地理解系統在不同條件下的表現和韌性。
方法的有效性
研究團隊提出的方法在捕捉系統應對破壞過程中的韌性方面表現出了顯著的有效性。通過定義和量化合作韌性,研究團隊能夠全面評估系統在面對破壞性事件時的表現和適應能力。
首先,研究團隊的方法通過建立性能和參考曲線,能夠直觀地展示系統在破壞性事件前后的表現。性能曲線和參考曲線的比較,提供了系統在正常運行條件下和破壞性事件發生時的詳細表現。這種方法不僅能夠捕捉系統在單個破壞性事件中的表現,還能夠評估系統在連續破壞性事件中的適應和學習能力。
其次,研究團隊的方法通過計算總結指標,能夠量化系統在破壞性事件中的韌性。總結指標包括故障特征和恢復特征,能夠全面反映系統在破壞性事件后的退化速度和恢復速度。這種量化方法為評估系統的韌性提供了一個有力的工具,使研究團隊能夠準確評估系統在不同條件下的表現。
此外,研究團隊的方法通過時間窗口匯總和變量匯總,能夠全面捕捉系統在連續破壞性事件中的適應和學習能力。時間窗口匯總方法不僅考慮了系統在單個破壞性事件中的表現,還考慮了系統在連續破壞性事件中的表現。變量匯總方法通過使用調和平均數,確保某些變量的低性能不會被其他變量的高性能所掩蓋,從而提供一個更全面的系統韌性評估。
結論與未來工作
研究團隊通過對人工智能多智能體系統中的合作韌性進行了深入研究,提出了一個系統的方法來定義和量化這一概念。
研究團隊提出了“合作韌性”的明確定義。合作韌性是指一個系統(包括人類、機器或兩者的集體行動)在面對威脅其共同福祉的破壞性事件時,能夠預見、準備、抵抗、恢復和轉變的能力。這一定義不僅統一了合作AI領域的術語,還為理解和評估合作AI系統在面對破壞性事件時的表現提供了一個理論框架。
研究團隊開發了一種定量測量合作韌性的方法。該方法分為四個階段:性能和參考曲線的建立、總結指標的計算、時間窗口內的韌性指標匯總以及變量匯總。通過這些階段的方法,研究團隊能夠全面捕捉系統在面對破壞性事件時的表現和適應能力。這種方法不僅能夠評估系統在單個破壞性事件中的表現,還能夠評估系統在連續破壞性事件中的適應和學習能力。
此外,研究團隊通過實驗驗證了所提出的方法。在Melting Pot 2.0的“Commons Harvest Open”場景中,研究團隊進行了兩組實驗:一組涉及蘋果消失的破壞性事件,另一組涉及引入不可持續機器人的破壞性事件。實驗結果顯示,破壞性事件的頻率和強度對系統的合作韌性有著顯著的影響。通過比較強化學習(RL)和大語言模型(LLM)兩種決策系統的表現,研究團隊發現LLM系統在面對不可持續行為時表現出更高的韌性。
總的來說,研究團隊的研究不僅為合作AI系統的韌性研究提供了重要的理論和實踐基礎,還為未來的研究和應用提供了寶貴的經驗和見解。
盡管研究團隊在合作韌性研究方面取得了重要進展,但仍有許多值得進一步探索的方向。
擴展實驗框架以涵蓋更廣泛的場景和破壞性事件。研究團隊的實驗主要集中在“Commons Harvest Open”場景中,未來的研究可以探索其他類型的多智能體系統和不同的破壞性事件。例如,可以研究在交通管理、能源分配和災害響應等領域中的合作韌性。
探索人機交互中的合作韌性。研究團隊的研究主要集中在機器之間的合作韌性,未來的研究可以將人類納入系統,研究人機交互中的合作韌性。這將有助于理解人類和機器在面對破壞性事件時的協同表現,并為設計更具韌性的混合系統提供指導。
深入探索促成韌性涌現的因素。通過逆問題方法,如逆向游戲和逆向強化學習,可以揭示驅動韌性行為的潛在動機。這將有助于復制和增強AI系統中的韌性特性。例如,可以研究在不同環境和條件下,哪些策略和行為能夠提高系統的韌性。
最后,跨學科合作將是未來研究的重要方向。韌性作為一個多方面的概念,在生態學、心理學、網絡科學等領域都有廣泛的研究。通過與這些領域的研究者合作,可以豐富我們對韌性的理解,并促進更具韌性的合作AI系統的發展。
總之,未來的研究應繼續探索和擴展合作韌性的定義和量化方法,涵蓋更廣泛的應用場景和破壞性事件,并通過跨學科合作,推動合作AI系統的韌性研究向前發展。這將為設計和實現更具韌性和適應能力的AI系統提供堅實的基礎。(END)
參考資料:
1.https://ia.samaltman.com/
2. https://arxiv.org/pdf/2409.13187
