基于大語言模型賦能智體的建模和仿真:綜述和展望
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
23年12月論文“Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives“,來自清華大學。
基于智體的建模和仿真已經發展成為復雜系統建模的強大工具,為不同智體之間的緊急行為和交互提供了洞察。將大語言模型集成到基于智體的建模和仿真中,為增強仿真能力提供了一條很有前途的途徑。本文綜述在基于智體的建模和仿真中大語言模型的前景,研究了它們的挑戰和有前景的未來方向。在這篇綜述中,由于是一個跨學科的領域,首先介紹基于智體的建模和仿真以及大語言模型賦能智體的背景。然后,討論將大語言模型應用于基于智體模擬的動機,并系統地分析環境感知、與人類協調、動作生成和評估方面的挑戰。最重要的是,全面概述最近在多個場景中基于大語言模型的智體建模和仿真的工作,這些工作可以分為四個領域:網絡、物理、社會及其混合,涵蓋了真實世界和虛擬環境的仿真。最后,由于這一領域是一個新的、快速發展的領域,討論懸而未決的問題和有希望的未來方向。
基于智體的模擬通過集中于智體的單個實體來捕捉復雜系統中固有的復雜動力學[135]。這些智體是異構的,具有特定的特征和狀態,并根據上下文和環境自適應地行為,做出決策和采取行動[65]。環境,無論是靜態的還是進化的,都會引入條件,引發競爭,定義邊界,偶爾還會提供影響智體行為的資源[48]。交互包括與環境和其他智體的交互,目標是基于預定義或自適應規則反映現實中的行為[64,135]。總之,基于智體的模擬的基本組件包括:
- 智體是基于智體模擬的基本實體。它們表示正在建模的系統個體、實體或元素。每個智體都有自己的一組屬性、行為和決策過程。
- 環境是智體操作和交互的空間。它包括物理空間,以及影響智體行為的任何外部因素,如天氣條件、經濟變化、政治變化和自然災害。智體可能會受到環境的約束或影響,它們的相互作用可能會對環境本身產生影響。
- 智體通過預定義的機制進行交互,并與環境交互。交互可以是直接的(代理對智體)或間接的(智體到環境或環境對智體)。
有了上述組件,基于智體的建模和仿真提供了一個自下而上的視角,從個體相互作用的角度研究宏觀層面的現象和動力學。
為了在廣泛的應用領域實現逼真的模擬,智體在感知、決策和行動方面應具有以下能力[217]:
- 自治。智體應該能夠在沒有人類或其他人直接干預的情況下運行,這在微觀交通流模擬[131]和行人運動模擬[20]等現實世界應用中很重要。
- 社交能力。代理應該能夠與其他智體進行(可能還有人類)交互,完成指定的目標。在研究社會現象、群體行為或社會結構時,智體的社交能力是關鍵。這包括模擬社交網絡的形成、觀點的動態、文化的傳播等等。智體之間的社會交互可以是合作的,也可以是競爭的,這在模擬市場行為、消費者決策等經濟活動時至關重要。
- 反應性。智體應該能夠感知環境,并對環境的變化做出快速反應。這種能力在需要模擬實時響應的系統中尤其重要,如交通控制系統和自動化生產線,以及在災害響應場景中,智體需要能夠立即對環境變化做出反應,以有效地進行預警和疏散。更重要的是,智體應該能夠從以前的經驗中學習,并自適應地改善其反應,類似于強化學習的想法[126]。
- 主動性。智體應該能夠通過采取主動而不是僅僅對環境做出反應來表現出目標導向的行為。例如,智體需要在智能助理等應用程序中主動提供幫助、建議和信息,并在自動駕駛機器人和自動駕駛汽車等領域積極探索環境、規劃路徑和執行任務。
值得一提的是,與人類一樣,由于知識和計算能力的限制,智體無法做出完全理性的選擇[185]。相反,可以根據不完美的信息做出次優但可接受的決策。這種能力對于在經濟市場[13]和管理組織[162]中實現類人模擬尤為關鍵。例如,在模擬消費者行為、市場交易和商業決策時考慮智體的有限理性,可以更準確地反映真實的經濟活動。此外,在模擬組織內的決策、團隊合作和領導力時,有限理性有助于揭示真實工作環境中的行為動態。
在基于智體的模擬中建模技術的發展,也經歷了知識驅動方法的早期階段和數據驅動方法的最近階段。具體而言,前者包括基于預定義規則或符號方程的各種方法,后者包括隨機模型和機器學習模型。
- 預定義規則。這種方法包括定義管理智體行為的顯式規則。這些規則通常基于邏輯或條件語句,這些語句規定了智體對特定情況或輸入的反應。最著名的例子是細胞自動機[216],它利用簡單的局部規則來模擬復雜的全球現象,這些現象不僅存在于自然世界中,也存在于復雜的城市系統中。
- 符號方程。與預定義的規則相比,符號方程用于以更正式的數學方式表示關系或行為。這些可以包括代數方程、微分方程或其他數學公式。一個典型的例子是廣泛用于行人運動模擬的社會力模型[93]。它假設行人運動是由類似牛頓定律驅動的,該定律由目的地驅動的吸引力和來自相鄰行人或障礙物的排斥力決定。
- 隨機建模。這種方法將隨機性和概率引入到智體決策中,有助于捕捉許多現實世界系統中固有的不確定性和可變性[70]。例如,為了考慮源自人類決策隨機性的影響,可以利用離散選擇模型來模擬行人走路行為[9]。
- 機器學習模型。機器學習模型允許智體從數據中學習或通過與環境的交互進行學習。監督學習方法通常用于估計基于智體的模型參數,而強化學習方法在模擬階段被廣泛使用,增強了智體在動態環境中的適應能力[107,108,160]。
基于智體的建模和仿真在許多領域都是仿真中采用的基本方法[135,65],但仍然面臨著幾個關鍵挑戰。大語言模型賦能智體不僅滿足了基于智體模擬的要求,而且依靠其強大的感知、推理、決策和自我進化能力解決了這些限制,如圖所示。
與傳統的模擬方法相比,基于智體的模擬,其適應不同規則或參數的能力。
第一個問題是現有方法的參數設置極其復雜[64,135]。在這些模型中,影響智體行為的大量變量——從個人特征到環境因素——使得選擇和校準這些參數變得困難。這種復雜性往往導致過于簡單化,損害了模擬在描繪真實異質性方面的準確性[135]。此外,獲取準確和全面的數據以告知參數選擇是另一個挑戰。也就是說,在不同背景下捕捉不同個體行為的真實世界數據可能收集起來有限或具有挑戰性。此外,根據真實世界的觀測結果驗證所選參數以確保其可靠性增加了另一層復雜性。
其次,規則或模型不能涵蓋異質性的所有維度,因為現實世界中的個體非常復雜[135]。使用規則來驅動智體行為只能捕捉到異質性的某些方面,但可能缺乏封裝各種行為、偏好和決策過程的深度。此外,作為模型容量,試圖在單個模型覆蓋異質性的所有維度是過于理想化了。因此,在基于智體的建模和仿真中,在模型的簡單性和準確智體建模進行平衡是一個關鍵挑戰,導致智體異構性某些方面過于簡單化或直接被忽視。
與傳統方法不同,基于LLM的智體支持:1)捕捉具有內部類人認知復雜性的內部特征,以及2)通過提示、上下文學習或微調的特殊和定制特征。
基于智體的建模和模擬的核心是智體如何對環境做出反應,以及智體如何相互作用,在這種情況下,智體的行為應該盡可能真實地接近具有人類知識和規則的真實世界個人。因此,在構建用于模擬的大語言模型賦能智體時,存在四大挑戰,包括感知環境、與人類知識和規則保持一致、選擇合適的動作和評估模擬。
對于具有大語言模型基于智體的模擬,第一步是構建虛擬或真實的環境,然后設計智體如何與環境和其他智體交互。因此,需要為LLM感知和交互的環境提出適當的方法。
盡管LLM在許多方面已經表現出顯著的類人特征,但基于LLM的智體在特定領域仍然缺乏必要的領域知識,造成決策不合理。因此,將LLM智體與人類知識和價值觀、特別是領域專家的知識和價值觀念保持一致,是實現更現實域模擬的一個重要挑戰。然而,智體的異質性作為基于智體建模(ABM)的一個基本特征,對傳統模型來說既是優勢也是挑戰。同時,LLM具有強大的模擬異構智體的能力,確保了可控的異構性。然而,使LLM能夠扮演不同的角色以滿足個性化模擬需求,是一個重大挑戰。挑戰的討論包括兩方面:提示過程和微調。
LLM智體的復雜行為應該反映現實世界的認知過程。這涉及到理解和實現一些機制,這些人工智體以此可以保留和利用過去的經驗(記憶)[152,73,241],根據其結果(反思)反省和調整其行為[152,181],執行一系列模仿人類工作流程的相互關聯任務(規劃)[213]。
基于LLM智體的基本評估協議是將模擬的輸出與現有的真實世界數據進行比較。評估可以在兩個層面進行:微觀層面和宏觀層面。與傳統的基于規則或神經網絡的智體相比,基于大語言模型智體的主要優勢之一是它具有較強的交互式對話和文本推理能力。
除了基于大語言模型賦能的智體模擬準確性或可解釋性之外,倫理問題也非常重要。第一個是偏見和公平,評估語言、文化、性別、種族或其他敏感屬性中的偏見模擬,評估生成的內容是否會延續或緩解社會偏見,這一點至關重要。另一個令人擔憂的問題是有害的輸出檢測,因為與傳統方法相比,生成人工智能的輸出很難控制。
基于LLM智體的建模和仿真,其典型應用域包括社會、物理和網絡及其混合,如圖所示,細節見下表。
在社會域的應用類別:
在經濟域的應用類別:
在物理領域,基于LLM智體的建模和仿真應用包括移動行為、交通、無線網絡等。
在一些研究中,模擬同時考慮多個域,如物理和社會域,這些模擬稱為混合域。
原文鏈接:https://mp.weixin.qq.com/s/8992tADF0CFS9ycW1jM1vw