自然(Nature)機器智能子刊:多智能體系統中的高效決策與去中心化強化學習的應用
隨著技術的不斷進步和數據量的爆炸性增長,大規模人工智能(AI)系統的需求日益增加。這些系統在交通管理、電力分配、城市規劃等多個領域展現出巨大的潛力。但是如何在擴展AI模型的同時保持其性能,成為了一個亟待解決的難題。
大規模AI系統面臨的主要挑戰在于其可擴展性和性能的平衡。傳統的集中式AI方法在處理復雜任務時,往往需要大量的通信和數據采樣,這不僅增加了系統的復雜性和成本,還可能導致性能的下降。此外隨著系統規模的擴大,通信延遲和數據傳輸的瓶頸也變得更加明顯。例如在交通網絡中,頻繁且大規模的通信可能導致顯著的功率損耗和信號干擾,從而影響系統的穩定性和效率。
分布式AI通過將復雜任務分解并分配給多個協作節點,可以顯著提高系統的可擴展性。多智能體強化學習(MARL)作為分布式AI的一種先進范式,已經在自動駕駛、無線通信、多玩家游戲、電力系統和城市交通等多個場景中取得了顯著進展。MARL的優勢在于其能夠通過數據進行非線性擬合,并實現高效的推理。然而,盡管MARL在理論上具有諸多優勢,但其在實際應用中的可擴展性和效率仍然面臨諸多挑戰。
9 月 3 日自然(Nature)期刊-機器智能子刊發表的論文《Efficient and scalable reinforcement learning for large-scale network control》提出了一種基于模型的去中心化策略優化框架,旨在實現大規模網絡控制中的高效可擴展強化學習。通過在智能體級別的拓撲解耦全局動態,論文證明了這種去中心化機制可以準確估計全局信息。此外論文引入了模型學習,以在有限的采樣數據下強化最優策略,實現單調改進。實驗證明,該方法在數百個智能體的實際系統中表現出優越的可擴展性,為大規模AI系統的擴展鋪平了道路。
研究團隊由來自北京大學和倫敦國王學院的多位學者組成,他們在人工智能和多智能體系統領域具有豐富的研究經驗。具體成員有Chengdong Ma,來自北京大學人工智能研究院和多智能體研究中心的研究員,主要研究方向包括大規模網絡控制和強化學習;Aming Li是北京大學人工智能研究院、多智能體研究中心以及工程學院系統與控制中心的研究員,研究領域涵蓋系統控制和多智能體系統;Yali Du是倫敦國王學院信息學系的研究員,研究興趣包括分布式AI和多智能體系統;Hao Dong是北京大學計算機科學學院CFCS的研究員,專注于計算機科學和人工智能的前沿研究;Yaodong Yang是北京大學人工智能研究院和多智能體研究中心的研究員,研究方向包括強化學習和多智能體系統。這篇論文發表在《自然》期刊的機器智能子刊上,體現了團隊在該領域的技術實力和研究深度。
相關工作
在大規模網絡控制領域,現有的方法面臨著諸多挑戰和局限性。論文將從通信和數據采樣的高需求、傳統方法的不足以及多智能體強化學習(MARL)的進展三個方面進行探討。
圖1:網絡代理的研究動機和關系。
大規模AI系統通常需要頻繁且大量的數據通信和采樣,以確保系統的準確性和穩定性。然而這種高需求的通信和數據采樣帶來了以下幾個主要問題。
首先是通信成本高,在大規模網絡中,頻繁的數據交換會導致通信成本顯著增加。例如,在交通網絡中,交通信號燈之間的頻繁通信會導致功率損耗和信號干擾,從而影響系統的整體性能。頻繁的通信不僅增加了系統的能耗,還可能導致網絡擁堵和延遲,進一步影響系統的實時性和可靠性。
其次數據采樣困難,隨著系統規模的擴大,采集足夠的數據變得更加困難和昂貴。在一些場景中,智能體與環境的交互次數受到限制,導致數據采樣效率低下。例如,在智能交通系統中,獲取足夠的交通流量數據需要大量的傳感器和數據采集設備,這不僅增加了成本,還可能受到設備故障和數據丟失的影響。
此外,數據的高需求還帶來了隱私和安全問題。在一些涉及用戶數據的系統中,集中式的信息收集增加了隱私泄露的風險。例如,在智能電網中,集中收集用戶的用電數據可能導致用戶隱私的泄露,進而引發安全問題。
傳統的控制方法,如模型預測控制(MPC),在處理復雜系統時存在不足。
MPC方法需要精確的系統動態模型,而在復雜系統中,獲取精確的動態模型往往非常困難。復雜系統通常具有高度的非線性和不確定性,傳統的建模方法難以準確描述系統的動態行為。例如,在智能交通系統中,交通流量的變化受到多種因素的影響,包括天氣、交通事故和道路施工等,這些因素的復雜性和不確定性使得建立精確的動態模型變得非常困難。
即使能夠獲得精確的動態模型,傳統方法通常依賴于系統的線性化,這會忽略系統中的非線性因素和擾動,導致性能下降。線性化方法在處理小范圍內的線性系統時效果較好,但在處理大范圍內的非線性系統時,性能往往不盡如人意。例如,在智能電網中,電力系統的動態行為具有高度的非線性,傳統的線性化方法難以準確描述系統的動態特性,導致控制效果不佳。
此外,傳統方法在計算效率、數值穩定性和通信成本方面也存在不足,難以適應大規模系統的需求。傳統方法通常需要大量的計算資源和時間來求解優化問題,計算效率低下,難以滿足實時控制的要求。例如,在智能交通系統中,實時優化交通信號控制需要快速響應和高效計算,傳統方法難以滿足這一需求。
多智能體強化學習(MARL)作為分布式AI的一種先進范式,提供了一種可能的解決方案。MARL在多個領域取得了顯著進展,展示了其在大規模網絡控制中的潛力。
在自動駕駛領域,MARL用于協同車輛控制和交通信號優化,通過多智能體的協作,可以實現更高效的交通管理和更安全的駕駛體驗。例如,在自動駕駛車隊中,每輛車作為一個智能體,通過相互通信和協作,可以實現車隊的協調控制,避免交通事故和提高行駛效率。
在無線通信中,MARL用于優化頻譜分配和干擾管理,提高通信網絡的效率和穩定性。通過多智能體的協作,可以實現頻譜資源的動態分配和干擾的有效管理,提高通信網絡的利用率和服務質量。例如在蜂窩網絡中,每個基站作為一個智能體,通過相互通信和協作,可以實現頻譜資源的動態分配和干擾的有效管理,提高網絡的整體性能。
在多玩家游戲中,MARL用于策略優化和對手建模,提升了游戲AI的智能水平和互動體驗。通過多智能體的協作,可以實現復雜游戲環境中的策略優化和對手建模,提高游戲AI的智能水平和互動體驗。例如在多人在線游戲中,每個玩家作為一個智能體,通過相互通信和協作,可以實現游戲策略的優化和對手的建模,提高游戲的趣味性和挑戰性。
在電力系統中,MARL用于電網的負載平衡和故障檢測,提高了電力分配的可靠性和效率。通過多智能體的協作,可以實現電網的動態負載平衡和故障的快速檢測,提高電力系統的可靠性和效率。例如在智能電網中,每個電力設備作為一個智能體,通過相互通信和協作,可以實現電網的動態負載平衡和故障的快速檢測,提高電力系統的整體性能。
在城市交通管理中,MARL通過優化交通信號和車輛路徑,顯著減少了交通擁堵和排放,提高了城市交通的整體效率。通過多智能體的協作,可以實現交通信號的動態優化和車輛路徑的智能規劃,提高城市交通的整體效率和可持續性。例如,在智能交通系統中,每個交通信號燈和車輛作為一個智能體,通過相互通信和協作,可以實現交通信號的動態優化和車輛路徑的智能規劃,減少交通擁堵和排放,提高城市交通的整體效率。
盡管MARL在理論上具有諸多優勢,但其在實際應用中的可擴展性和效率仍然面臨諸多挑戰。論文提出的基于模型的去中心化策略優化框架,旨在解決這些挑戰,實現大規模網絡控制中的高效可擴展強化學習。通過論文的研究,團隊希望為大規模AI系統的可擴展性和高效性提供新的解決方案,并推動該領域的進一步發展。
方法
研究團隊提出了一種基于模型的去中心化策略優化框架,旨在解決大規模網絡控制中的高效可擴展強化學習問題。該方法通過局部觀察和全局動態的拓撲解耦,實現了模型學習與策略優化的有效結合。此外,他們還引入了ξ依賴網絡系統的概念,以更好地處理復雜系統中的環境轉移問題。
模型驅動的去中心化策略優化框架
在大規模網絡系統中,智能體需要在局部觀察的基礎上做出決策,而不依賴于全局信息。為此研究團隊提出了一種基于拓撲解耦的去中心化機制,通過在智能體級別進行局部觀察,實現對全局動態的準確估計。這種方法不僅減少了通信成本,還提高了系統的可擴展性。
具體來說,智能體通過與其鄰居的局部通信,獲取必要的信息來估計全局狀態。通過這種方式,每個智能體只需處理與其直接相關的局部信息,而不需要獲取整個系統的全局信息,從而大大降低了計算和通信的復雜性。
在該框架中,模型學習與策略優化緊密結合,以實現高效的決策過程。首先,智能體通過與環境的交互,收集狀態、動作和獎勵數據,并使用這些數據訓練預測模型。然后,智能體在預測模型的基礎上進行策略優化,以提高決策的準確性和效率。
為了進一步提高模型的準確性,研究團隊引入了分支回滾方法。該方法通過從之前策略的狀態分布中采樣狀態,并運行固定步數的回滾,結合模型驅動和無模型回滾的優勢,減少了模型誤差,提高了策略優化的效果。
圖2:我們的方法架構、不同MDP之間的區別和聯系以及模型學習過程。
依賴網絡系統
在大規模網絡系統中,環境的動態行為通常具有一定的局部性,即局部狀態和動作不會顯著影響遠處智能體的狀態。基于這一觀察,研究團隊定義了獨立網絡系統(INS)和ξ依賴網絡系統。
獨立網絡系統(INS)假設環境的轉移函數可以因子化,即每個智能體的狀態轉移僅依賴于其局部鄰居的狀態和動作。然而這一假設在實際應用中往往過于強烈。因此,研究團隊提出了ξ依賴網絡系統的概念,允許一定程度的依賴偏差,即局部狀態和動作對遠處智能體的狀態有一定的影響。
在ξ依賴網絡系統中,環境的轉移函數可以近似為獨立網絡系統的轉移函數加上依賴偏差。通過這種方式,智能體可以在局部模型的基礎上,預測未來的局部狀態,從而實現高效的決策過程。
研究團隊通過定義總變差距離(DTV)來度量真實環境轉移函數與近似轉移函數之間的差異。通過最小化這一差異,智能體可以在局部模型的基礎上,準確預測未來的狀態和獎勵,從而提高策略優化的效果。
論文提出的基于模型的去中心化策略優化框架,通過局部觀察和全局動態的拓撲解耦,實現了模型學習與策略優化的有效結合。引入的ξ依賴網絡系統概念,為處理復雜系統中的環境轉移問題提供了新的思路。通過這些方法,研究團隊成功地在大規模網絡控制中實現了高效可擴展的強化學習,為未來的研究和應用提供了重要的參考。
理論分析
在論文中,研究團隊通過詳細的理論分析,證明了所提出方法的有效性和可行性。主要從單調模型改進和策略梯度近似兩個方面進行探討。
單調模型改進
在模型驅動的強化學習中,策略回報的界限是評估策略性能的重要指標。研究團隊定義了策略在真實環境中的回報和在近似模型中的回報,并構建了兩者之間的差異界限。策略回報的界限可以表示為:
其中,η[π]表示策略在真實環境中的回報,η[π^]表示策略在近似模型中的回報,C是一個非負函數,πD是數據收集策略。通過確保每次策略更新至少提高一定的回報,可以實現單調改進。
為了進一步提高模型的準確性,研究團隊引入了分支回滾方案。傳統的回滾方法假設模型在無限時間范圍內使用,而分支回滾方案則從之前策略的狀態分布中采樣狀態,并運行固定步數的回滾。通過這種方式,分支回滾方案能夠有效結合模型驅動和無模型回滾的優勢,減少模型誤差,提高策略優化的效果。
具體來說,分支回滾方案的優勢在于:
- 減少模型誤差:通過從之前策略的狀態分布中采樣狀態,并運行固定步數的回滾,分支回滾方案能夠有效減少模型誤差,提高模型的準確性。
- 提高策略優化效果:分支回滾方案結合了模型驅動和無模型回滾的優勢,能夠在保證模型準確性的同時,提高策略優化的效果。
策略梯度近似
在策略優化過程中,值函數用于計算優勢函數。研究團隊提出了一種擴展值函數的計算方法,通過鄰居智能體的信息來近似全局值函數,擴展值函數可以表示為:
通過這種方式,擴展值函數能夠在僅依賴鄰居信息的情況下,準確估計全局值函數,從而提高策略優化的效果。
研究團隊進一步證明了基于擴展值函數計算的策略梯度是實際策略梯度的近似。策略梯度的近似精度可以表示為:
其中,表示實際策略梯度,
表示基于擴展值函數計算的策略梯度,
和分別表示獎勵和梯度的上界。通過這種方式,研究團隊證明了基于擴展值函數計算的策略梯度在誤差較小的情況下,能夠有效近似實際策略梯度。
論文通過詳細的理論分析,證明了所提出方法在單調模型改進和策略梯度近似方面的有效性和可行性。通過這些理論分析,研究團隊為實現大規模網絡控制中的高效可擴展強化學習提供了堅實的理論基礎。
實驗結果
在論文中,研究團隊通過一系列實驗驗證了所提出方法在大規模網絡控制中的有效性和可擴展性。實驗涵蓋了多個評估場景和指標,包括車輛控制、疫情網絡控制和電力控制。以下是實驗設置、結果分析以及與現有方法的性能對比。
圖3 :主要訓練結果和消融研究。
實驗設置
為了全面評估所提出方法的性能,研究團隊設計了多個實驗場景,包括交通系統中的車輛控制、疫情網絡中的防控策略以及電力系統中的電壓控制。每個實驗場景都具有高度的現實性和復雜性,旨在模擬實際應用中的挑戰。
在車輛控制實驗中,研究團隊選擇了合作自適應巡航控制(CACC)和連接自主車輛控制(Flow)作為評估場景。通過控制車輛的速度和車距,評估所提出方法在交通流量管理中的效果。
在疫情網絡控制實驗中,研究團隊模擬了一個大規模的疫情傳播場景,通過調整不同社會單位的控制策略,評估所提出方法在控制重癥病例和死亡病例方面的表現。
在電力控制實驗中,研究團隊選擇了IEEE電力網和實際電力系統作為評估場景,通過控制電壓和功率損耗,評估所提出方法在電力系統中的應用效果。
圖4:CACC、Flow和流行病網絡車輛控制評估結果。
評估場景和指標
在每個實驗場景中,研究團隊選擇了多個關鍵指標來評估所提出方法的性能。這些指標包括:
- 車輛控制:車輛的速度、車距、交通流量的效率和安全性。
- 疫情網絡控制:重癥病例和死亡病例的數量、醫院的最大容量、區域經濟發展。
- 電力控制:電壓控制的可靠性、功率損耗、系統的適應性和穩定性。
結果分析
在CACC和Flow任務中,所提出的方法能夠穩定控制車輛的速度和車距,確保交通流量的效率和安全性。具體來說,車輛的速度和車距能夠穩定在目標值附近,避免了交通擁堵和事故的發生。此外,所提出的方法在交通流量管理中表現出色,顯著提高了交通流量的效率。
圖 5:ATSC 對大規模交通管制的評估結果。
在疫情網絡控制實驗中,所提出的方法能夠有效控制重癥病例和死亡病例的數量,使其低于醫院的最大容量,減輕了醫護人員的壓力。具體來說,所提出的方法在多個場景中保持較低的死亡率,同時盡可能平衡區域經濟發展。這表明,所提出的方法在疫情防控中具有顯著的優勢,能夠在保證公共健康的同時,促進經濟的可持續發展。
在電力控制實驗中,所提出的方法能夠在減少通信成本的同時,保持可靠的控制性能和對隨機干擾的適應性。具體來說,所提出的方法在大規模電力網場景中展示了較高的安全控制率和較低的功率損耗,證明了其在隨機干擾下的適應性和可擴展性。此外,所提出的方法在電壓控制方面表現出色,能夠在不同負載條件下保持電壓的穩定性。
性能對比
在與現有方法的比較中,所提出的方法在多個評估指標上表現出色。具體來說,所提出的方法在車輛控制、疫情網絡控制和電力控制實驗中,均顯著優于現有的基準方法。這表明,所提出的方法在大規模網絡控制中的性能和可擴展性方面具有顯著優勢。
在樣本效率和通信成本方面,所提出的方法也表現出色。具體來說,所提出的方法通過局部觀察和全局動態的拓撲解耦,顯著減少了通信成本,提高了樣本效率。這不僅降低了系統的能耗,還提高了系統的實時性和可靠性。
圖6:電網和真實電力網大規模電力控制的評估結果。
論文通過一系列實驗驗證了所提出方法在大規模網絡控制中的有效性和可擴展性。通過這些實驗結果,研究團隊證明了所提出的方法在多個實際應用場景中的潛力,為未來的研究和應用提供了重要的參考。
討論
在論文中,研究團隊提出了一種基于模型的去中心化策略優化框架,用于解決大規模網絡控制中的高效可擴展強化學習問題。通過實驗驗證和理論分析,論文的方法展示了顯著的優勢和潛力。
方法的優勢
論文提出的方法在多個實驗場景中展示了高性能和低通信成本的顯著優勢。通過局部觀察和全局動態的拓撲解耦,智能體能夠在僅依賴鄰居信息的情況下,準確估計全局狀態。這種去中心化機制不僅減少了通信成本,還提高了系統的可擴展性。
具體來說,在車輛控制實驗中,所提出的方法能夠穩定控制車輛的速度和車距,確保交通流量的效率和安全性。在疫情網絡控制實驗中,所提出的方法能夠有效控制重癥病例和死亡病例的數量,使其低于醫院的最大容量,減輕了醫護人員的壓力。在電力控制實驗中,所提出的方法能夠在減少通信成本的同時,保持可靠的控制性能和對隨機干擾的適應性。
高樣本效率是論文方法的另一大優勢。通過引入分支回滾方法,智能體能夠在有限的采樣數據下,強化最優策略,實現單調改進。分支回滾方法通過從之前策略的狀態分布中采樣狀態,并運行固定步數的回滾,結合模型驅動和無模型回滾的優勢,減少了模型誤差,提高了策略優化的效果。
在實驗中,所提出的方法在多個評估指標上均顯著優于現有的基準方法,展示了其在樣本效率方面的優勢。這不僅降低了系統的能耗,還提高了系統的實時性和可靠性。
未來研究方向
盡管論文的方法在多個方面展示了顯著的優勢,但仍有一些值得進一步研究和探索的方向。
系統拓撲的優化是未來研究的一個重要方向。通過優化智能體之間的通信拓撲結構,可以進一步減少通信成本,提高系統的可擴展性和魯棒性。未來的研究可以探索不同的拓撲結構對系統性能的影響,并設計出最優的通信拓撲結構,以實現更高效的決策過程。
模塊擴展也是未來研究的一個重要方向。通過引入視覺和自然語言處理模塊,可以進一步提高系統的智能水平和適應性。例如,在自動駕駛領域,結合視覺模塊可以實現更準確的環境感知和決策;在智能家居領域,結合自然語言處理模塊可以實現更自然的人機交互和控制。
總之,研究團隊提出的基于模型的去中心化策略優化框架,通過局部觀察和全局動態的拓撲解耦,實現了高效可擴展的強化學習。未來的研究可以在系統拓撲的優化和模塊擴展方面進行深入探索,以進一步提高系統的性能和智能水平。通過這些研究,研究團隊希望為大規模AI系統的可擴展性和高效性提供新的解決方案,并推動該領域的進一步發展。(END)
參考資料:https://www.nature.com/articles/s42256-024-00879-7
本文轉載自 ??大噬元獸??,作者: FlerkenS
