成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多智能體系統(tǒng)的合作之道:對MAS不確定性、社會機(jī)制與強(qiáng)化學(xué)習(xí)的探索

人工智能
本文將對這篇論文的主要內(nèi)容和結(jié)論進(jìn)行解讀和分析,幫助讀者更好地理解多智能體系統(tǒng)在激勵機(jī)制不確定下的新興合作的問題和方法。

多智能體系統(tǒng)(MAS)是由多個自主智能體組成的系統(tǒng),它們可以相互交互和協(xié)作,以完成一些共同或個人的目標(biāo)。多智能體系統(tǒng)在許多領(lǐng)域都有廣泛的應(yīng)用,如機(jī)器人、交通、電力、社交網(wǎng)絡(luò)等。但是如何促進(jìn)智能體之間的合作行為一直是這一領(lǐng)域的難題,特別是在激勵機(jī)制不確定的情況下。激勵機(jī)制不確定是指智能體對于與其他智能體交互的收益和風(fēng)險的認(rèn)知存在不確定性,這可能導(dǎo)致智能體的行為偏離最優(yōu)或最合理的選擇,從而影響系統(tǒng)的整體效率和穩(wěn)定性。

為了探索多智能體系統(tǒng)在激勵機(jī)制不確定下的新興合作,荷蘭格羅寧根大學(xué)、阿姆斯特丹大學(xué)和布魯塞爾自由大學(xué)的四位研究者在2024年的AAMAS會議上發(fā)表了一篇論文,題為《Emergent Cooperation under Uncertain Incentive Alignment》。這篇論文的創(chuàng)新點(diǎn)和價值在于:

1)提出一種基于擴(kuò)展的公共物品游戲(EPGG)的實(shí)驗框架,用來模擬多智能體系統(tǒng)在不同類型的游戲環(huán)境中的交互和學(xué)習(xí),包括完全合作、完全競爭、混合動機(jī)和閾值四種情況。這種框架可以通過調(diào)節(jié)一個連續(xù)的乘法因子??來表示不同的激勵對齊程度,從而覆蓋了多智能體系統(tǒng)可能面臨的各種場景。

2)引入一種高斯噪聲的模型,用來模擬智能體對于乘法因子??的不確定性,即智能體觀察到的??值是真實(shí)??值加上一個隨機(jī)誤差。這種模型可以反映智能體在真實(shí)世界中的信息不完全和不準(zhǔn)確的情況,從而增加了實(shí)驗的逼真度和復(fù)雜度。

3)探討三種社會機(jī)制對于智能體合作行為的影響,分別是聲譽(yù)機(jī)制、引導(dǎo)代理和內(nèi)在獎勵機(jī)制。聲譽(yù)機(jī)制是指智能體根據(jù)自己和對手的行為和聲譽(yù)來更新自己的聲譽(yù),從而影響自己的策略選擇。引導(dǎo)代理是指一些固定的智能體,它們總是選擇合作行為,并且對其他智能體的聲譽(yù)有更大的影響。內(nèi)在獎勵機(jī)制是指智能體除了從環(huán)境中獲得的獎勵外,還會根據(jù)自己的行為和聲譽(yù)獲得一些額外的獎勵,從而激勵自己更加合作。

4)他們使用兩種強(qiáng)化學(xué)習(xí)的算法,分別是Q-learning和DQN,來訓(xùn)練一組10個智能體在不同的游戲環(huán)境中進(jìn)行多輪的EPGG游戲,并且分析了不同的社會機(jī)制對于智能體的平均合作率的影響。平均合作率是指智能體選擇合作行為的平均相對頻率,可以反映智能體的合作水平和傾向。

本文將對這篇論文的主要內(nèi)容和結(jié)論進(jìn)行解讀和分析,幫助讀者更好地理解多智能體系統(tǒng)在激勵機(jī)制不確定下的新興合作的問題和方法。

模型規(guī)則與特點(diǎn)

首先,我們來介紹一下擴(kuò)展的公共物品游戲(EPGG)的基本規(guī)則和特點(diǎn)。EPGG是一種經(jīng)典的博弈論模型,用來研究多個參與者之間的合作與背叛的問題。在EPGG中,每個參與者都有一個固定的財富??,他們可以選擇將一部分或全部的財富投入到一個公共池中,或者保留自己的財富不投入。然后公共池中的財富會被乘以一個乘法因子??,再平均分配給所有的參與者。乘法因子??可以反映公共物品的生產(chǎn)效率和價值,它的大小決定了游戲的性質(zhì)。如果??大于參與者的人數(shù)??,那么游戲是合作的,即所有人都投入全部財富是最優(yōu)的策略。如果??小于1,那么游戲是競爭的,即所有人都不投入任何財富是最優(yōu)的策略。如果??在1和??之間,那么游戲是混合動機(jī)的,即存在多個均衡,而且每個人的最優(yōu)策略取決于其他人的策略。如果??等于1或??,那么游戲是閾值的,即任何策略都是均衡,而且每個人的收益都相同。

圖片

圖1:配置文件的條目??和??(????) 是指標(biāo)函數(shù),如果代理的動作,則等于1??是合作的,否則為0,并且????表示???第個條目共??. 因為我們假設(shè)1<?? < ??, 很容易檢驗,在PGG中,所有代理叛逃的配置文件是一個主導(dǎo)策略平衡,而Pareto最優(yōu)配置文件是所有代理合作的配置文件。這反映了PGG的社會困境本質(zhì)。特別是對于?? = 2 PGG定義了一類囚犯困境游戲。

在論文中作者使用了擴(kuò)展的EPGG模型,它有以下幾個特點(diǎn):

使用一個連續(xù)的乘法因子??,而不是離散的幾個值,這樣可以覆蓋更多的游戲環(huán)境,也可以增加游戲的難度和復(fù)雜度。

使用高斯噪聲的模型,來模擬智能體對于乘法因子??的不確定性,即智能體觀察到的??值是真實(shí)??值加上一個隨機(jī)誤差。這種模型可以反映智能體在真實(shí)世界中的信息不完全和不準(zhǔn)確的情況,也可以考察智能體如何在不確定的環(huán)境中做出決策。

使用一個聲譽(yù)機(jī)制來模擬智能體之間的信任和評價,即智能體根據(jù)自己和對手的行為和聲譽(yù)來更新自己的聲譽(yù),從而影響自己的策略選擇。聲譽(yù)機(jī)制可以反映智能體之間的社會規(guī)范和影響,也可以激勵智能體更加合作。

使用了一個內(nèi)在獎勵機(jī)制來模擬智能體的自我激勵和滿足,即智能體除了從環(huán)境中獲得的獎勵外,還會根據(jù)自己的行為和聲譽(yù)獲得一些額外的獎勵,從而激勵自己更加合作。內(nèi)在獎勵機(jī)制的具體實(shí)現(xiàn)是這樣的,智能體會維護(hù)一個自己的聲譽(yù)值,初始為0,每次與其他智能體交互后,根據(jù)自己和對方的行為,更新自己的聲譽(yù)值。如果自己選擇合作,聲譽(yù)值增加1;如果自己選擇背叛,聲譽(yù)值減少1;如果對方選擇合作,聲譽(yù)值不變;如果對方選擇背叛,聲譽(yù)值減少2。聲譽(yù)值的范圍是[-10, 10],如果超過這個范圍,就截斷為邊界值。智能體的內(nèi)在獎勵就是自己的聲譽(yù)值乘以一個系數(shù)??,??是一個正的超參數(shù),用來控制內(nèi)在獎勵的強(qiáng)度。智能體的總獎勵就是外在獎勵和內(nèi)在獎勵的和。

訓(xùn)練過程

接下來我們來看一下作者使用Q-learning和DQN算法訓(xùn)練智能體的具體過程和結(jié)果。Q-learning是一種基于表格的強(qiáng)化學(xué)習(xí)算法,它可以讓智能體通過不斷地嘗試和反饋,學(xué)習(xí)到一個動作值函數(shù),即每個狀態(tài)和動作對應(yīng)的期望收益。DQN是一種基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法,它可以讓智能體通過不斷地觀察和學(xué)習(xí),近似地擬合一個動作值函數(shù),從而適應(yīng)更復(fù)雜和高維的狀態(tài)空間。作者使用了這兩種算法,來比較它們在不同的游戲環(huán)境和社會機(jī)制下的表現(xiàn)和差異。

圖片

圖2:在不同倍增因子的環(huán)境中訓(xùn)練的DQN代理的平均合作。最上面一行(a-d)顯示了在沒有合作輔助機(jī)制的情況下的結(jié)果,中間一行(e-h)顯示了存在聲譽(yù)機(jī)制和有助于合作的社會規(guī)范的情況,最下面一行(i-l)顯示了有內(nèi)在獎勵的情況。

作者首先在沒有不確定性的情況下,使用Q-learning算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時,智能體的平均合作率接近于0,即智能體幾乎都選擇背叛行為,這與理論上的最優(yōu)策略一致。當(dāng)?? = 1.0時,智能體的平均合作率略高于0,即智能體偶爾會選擇合作行為,這可能是由于智能體的探索行為或者學(xué)習(xí)的不完全導(dǎo)致的。當(dāng)?? = 1.5時,智能體的平均合作率達(dá)到了0.78,即智能體大部分時候會選擇合作行為,這表明智能體能夠在混合動機(jī)的游戲中實(shí)現(xiàn)合作的均衡。當(dāng)?? = 3.5時,智能體的平均合作率接近于1,即智能體幾乎都選擇合作行為,這也與理論上的最優(yōu)策略一致。

作者在引入不確定性的情況下,使用DQN算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時,智能體的平均合作率略高于0.1,即智能體偶爾會選擇合作行為,這可能是由于不確定性的影響,使得智能體對于背叛的收益不太確定。當(dāng)?? = 1.0時,智能體的平均合作率略高于0.1,即智能體偶爾會選擇合作行為,這與Q-learning的結(jié)果相似。當(dāng)?? = 1.5時,智能體的平均合作率降低到了0.16,即智能體大部分時候會選擇背叛行為,這表明不確定性對于混合動機(jī)的游戲有很大的負(fù)面影響,使得智能體無法達(dá)成合作的均衡。當(dāng)?? = 3.5時,智能體的平均合作率降低到了0.4,即智能體只有一半的概率會選擇合作行為,這表明不確定性也對于合作的游戲有一定的負(fù)面影響,使得智能體無法達(dá)到最優(yōu)的策略。

作者在引入聲譽(yù)機(jī)制的情況下,使用DQN算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時,智能體的平均合作率略高于0.2,即智能體偶爾會選擇合作行為,這與沒有聲譽(yù)機(jī)制的情況相似。當(dāng)?? = 1.0時,智能體的平均合作率略高于0.2,即智能體偶爾會選擇合作行為,這與沒有聲譽(yù)機(jī)制的情況相似。當(dāng)?? = 1.5時,智能體的平均合作率提高到了0.33,即智能體有一定的概率會選擇合作行為,這表明聲譽(yù)機(jī)制對于混合動機(jī)的游戲有一定的正面影響,使得智能體能夠識別和合作有利的伙伴。當(dāng)?? = 3.5時,智能體的平均合作率提高到了0.65,即智能體大部分時候會選擇合作行為,這表明聲譽(yù)機(jī)制對于合作的游戲有很大的正面影響,使得智能體能夠達(dá)到接近最優(yōu)的策略。

圖片

圖3:在不確定性條件下,在具有不同倍增因子的環(huán)境中訓(xùn)練的DQN代理的平均合作(???? = 2 ??? ∈ ??). 結(jié)果顯示在四行中:第一行沒有聲譽(yù)或內(nèi)在獎勵,第二行有聲譽(yù)和有助于合作的社會規(guī)范,第三行有內(nèi)在獎勵公式,第四行有聲譽(yù)、有助于協(xié)作的社會規(guī)范和內(nèi)在獎勵公式。

最后作者在引入內(nèi)在獎勵機(jī)制的情況下,使用DQN算法訓(xùn)練智能體,觀察它們在不同的乘法因子??下的平均合作率。作者發(fā)現(xiàn),當(dāng)?? = 0.5時,智能體的平均合作率提高到了0.31,即智能體有一定的概率會選擇合作行為,這表明內(nèi)在獎勵機(jī)制對于競爭的游戲有一定的正面影響,使得智能體能夠獲得更多的滿足感。當(dāng)?? = 1.0時,智能體的平均合作率提高到了0.36,即智能體有一定的概率會選擇合作行為,這表明內(nèi)在獎勵機(jī)制對于閾值的游戲有一定的正面影響,使得智能體能夠獲得更多的滿足感。當(dāng)?? = 1.5時,智能體的平均合作率降低到了0.45,即智能體只有一半的概率會選擇合作行為,這表明內(nèi)在獎勵機(jī)制對于混合動機(jī)的游戲有一定的負(fù)面影響,使得智能體更傾向于自我博弈而不是與其他智能體合作。當(dāng)?? = 3.5時,智能體的平均合作率提高到了0.78,即智能體大部分時候會選擇合作行為,這表明內(nèi)在獎勵機(jī)制對于合作的游戲有一定的正面影響,使得智能體能夠獲得更多的滿足感。

實(shí)驗結(jié)論

通過上述的實(shí)驗結(jié)果,我們可以得出以下的結(jié)論和觀點(diǎn)。

不確定性對于智能體的合作行為有很大的負(fù)面影響,特別是在混合動機(jī)和合作的游戲中,使得智能體無法達(dá)成合作的均衡或最優(yōu)的策略。這可能是因為不確定性增加了智能體的風(fēng)險和不信任,使得智能體更難以判斷其他智能體的行為和意圖,從而更傾向于選擇保守或自私的行為。

聲譽(yù)機(jī)制對于智能體的合作行為有很大的正面影響,特別是在混合動機(jī)和合作的游戲中,使得智能體能夠識別和合作有利的伙伴。這可能是因為聲譽(yù)機(jī)制增加了智能體的信任和評價,使得智能體更容易判斷其他智能體的行為和意圖,從而更傾向于選擇合作或互惠的行為。

圖片

圖4:每場比賽的合作平均值和標(biāo)準(zhǔn)差,是過去 50 個訓(xùn)練周期的平均值具有不確定性的實(shí)驗。這些措施針對兩種情況分別報告:一種情況是只有聲譽(yù)啟用機(jī)制(R)以及同時采用聲譽(yù)機(jī)制和內(nèi)在獎勵的機(jī)制(RI)。價值觀表現(xiàn)出統(tǒng)計顯著性的內(nèi)容以粗體顯示。

內(nèi)在獎勵機(jī)制對于智能體的合作行為有不同的影響,取決于游戲的性質(zhì)和其他社會機(jī)制的存在。在競爭和閾值的游戲中,內(nèi)在獎勵機(jī)制可以提高智能體的合作行為,因為智能體可以從合作中獲得更多的滿足感,而不用擔(dān)心損失太多的收益。在混合動機(jī)的游戲中,內(nèi)在獎勵機(jī)制可以降低智能體的合作行為,因為智能體可能會過分地追求自我滿足,而忽視了其他智能體的利益和反饋。在合作的游戲中,內(nèi)在獎勵機(jī)制可以提高智能體的合作行為,因為智能體可以從合作中獲得更多的滿足感,而且與其他智能體的利益和反饋是一致的。當(dāng)聲譽(yù)機(jī)制和引導(dǎo)代理也存在時,內(nèi)在獎勵機(jī)制可以與之相互補(bǔ)充,使得智能體在不同的游戲環(huán)境中更容易達(dá)成合作或背叛。

Q-learning和DQN算法在不同的游戲環(huán)境和社會機(jī)制下的表現(xiàn)和差異不是本文的重點(diǎn),但是可以從實(shí)驗結(jié)果中觀察到一些有趣的現(xiàn)象。例如,Q-learning算法在沒有不確定性的情況下,可以更好地學(xué)習(xí)到最優(yōu)的策略,而DQN算法在有不確定性的情況下,可以更好地適應(yīng)更復(fù)雜和高維的狀態(tài)空間。另外,Q-learning算法在混合動機(jī)的游戲中,可以達(dá)到更高的平均合作率,而DQN算法在合作的游戲中,可以達(dá)到更高的平均合作率。這些現(xiàn)象可能與算法的特性和參數(shù)的選擇有關(guān),也可能與實(shí)驗的設(shè)置和隨機(jī)性有關(guān),需要進(jìn)一步的研究和驗證。

總結(jié)與展望

論文的主要貢獻(xiàn)是提出了一種基于擴(kuò)展的公共物品游戲(EPGG)的實(shí)驗框架,用來模擬多智能體系統(tǒng)在不同類型的游戲環(huán)境中的交互和學(xué)習(xí),以及探討了三種社會機(jī)制(聲譽(yù)機(jī)制、引導(dǎo)代理和內(nèi)在獎勵機(jī)制)對于智能體合作行為的影響,特別是在激勵機(jī)制不確定的情況下。本文的實(shí)驗結(jié)果表明,不確定性對于智能體的合作行為有很大的負(fù)面影響,而社會機(jī)制可以在不同的游戲環(huán)境中產(chǎn)生不同的效果,有時可以相互補(bǔ)充,有時可以相互抵消。作者的研究為多智能體系統(tǒng)的合作問題提供了一種新的視角和方法,也為未來的研究提供了一些啟示和方向。

未來的研究可以從環(huán)境、算法、機(jī)制等方面進(jìn)行拓展和深入。在更多的游戲環(huán)境中進(jìn)行實(shí)驗,例如考慮更多的參與者、更復(fù)雜的動作空間、更多的信息維度等,以檢驗本文的實(shí)驗框架和社會機(jī)制的普適性和有效性。在更多的強(qiáng)化學(xué)習(xí)的算法中進(jìn)行實(shí)驗,例如考慮更先進(jìn)的算法、更多的超參數(shù)、更多的網(wǎng)絡(luò)結(jié)構(gòu)等,以比較不同的算法在不同的游戲環(huán)境和社會機(jī)制下的表現(xiàn)和差異。在更多的社會機(jī)制中進(jìn)行實(shí)驗,例如考慮更多的聲譽(yù)更新規(guī)則、更多的引導(dǎo)代理的比例和策略、更多的內(nèi)在獎勵的形式等,以探索不同的社會機(jī)制對于智能體合作行為的影響和機(jī)理。在更多的通信和協(xié)調(diào)機(jī)制中進(jìn)行實(shí)驗,例如考慮智能體之間的語言交流、信號傳遞、合作協(xié)議等,以研究通信和協(xié)調(diào)機(jī)制如何與社會機(jī)制相互作用,以及如何促進(jìn)智能體之間的合作和信任。

論文的研究為多智能體系統(tǒng)的合作問題提供了一種新的視角和方法,也為未來的研究提供了一些啟示和方向。我們希望該論文能夠引起讀者的興趣和關(guān)注,也期待更多的研究者和實(shí)踐者能夠參與到這一有趣和有意義的領(lǐng)域中來,共同探索多智能體系統(tǒng)在激勵機(jī)制不確定下的新興合作的奧秘和可能。(END)

參考資料:https://arxiv.org/abs/2401.12646

責(zé)任編輯:武曉燕 來源: 大噬元獸
相關(guān)推薦

2022-05-11 09:00:00

人工智能金融犯罪機(jī)器學(xué)習(xí)

2021-10-15 15:29:59

自動駕駛數(shù)據(jù)人工智能

2023-11-13 08:00:00

Python開發(fā)

2022-09-14 22:51:08

機(jī)器學(xué)習(xí)模型高斯過程

2024-01-25 16:18:38

人工智能數(shù)據(jù)

2024-02-23 14:31:19

云計算云優(yōu)化

2020-08-24 07:04:57

邊緣計算云計算網(wǎng)絡(luò)

2019-01-10 09:47:22

2022-11-04 12:27:35

2025-04-15 07:00:00

勒索軟件金融欺詐網(wǎng)絡(luò)安全

2021-01-18 15:25:46

比特幣資金私鑰

2019-05-22 14:42:40

華為谷歌挑戰(zhàn)

2020-05-25 10:45:48

曙光

2020-06-29 10:08:39

人工智能機(jī)器學(xué)習(xí)技術(shù)

2020-10-22 11:42:06

服務(wù)器

2020-12-08 10:53:36

物聯(lián)網(wǎng)安全物聯(lián)網(wǎng)IOT

2022-11-24 14:45:18

物聯(lián)網(wǎng)邊緣計算

2023-04-13 11:34:49

亞馬遜云科技Serverless

2025-01-03 15:37:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本在线免费看最新的电影 | 91精品国产色综合久久不卡98口 | 国产一在线观看 | 亚洲欧美成人影院 | 日韩精品一区二区三区中文在线 | 91精品久久久久 | 在线成人免费视频 | 免费一区二区三区 | 免费看一区二区三区 | 亚洲免费久久久 | av在线成人| 三级免费网| 欧美日韩视频在线播放 | av资源网站 | 一区二区三区亚洲视频 | 精品国产精品一区二区夜夜嗨 | 亚洲精品永久免费 | 欧美综合自拍 | 中文字幕久久精品 | 一级毛片免费看 | 欧美成人一区二区三区 | 日日夜夜天天 | 天天干成人网 | 九九亚洲 | 一本色道精品久久一区二区三区 | 国产亚洲精品久久久久动 | 国产精品久久久久久久久久 | 日本免费黄色 | 久久久久九九九女人毛片 | 99国产精品久久久 | 亚洲第一女人av | 最近中文字幕在线视频1 | 国产毛片毛片 | 国产欧美精品一区二区 | 欧美激情va永久在线播放 | 久久亚洲经典 | 久久亚洲综合 | 亚洲一区精品在线 | 日本色高清 | 午夜视频网站 | 国产精品99久久久精品免费观看 |