成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICML 2024:AI對齊與可變和可影響獎勵函數

發布于 2024-6-12 11:40
瀏覽
0收藏

"當前的AI對齊技術忽視了人類偏好/價值觀可能會改變這一事實。如何才能考慮到這一點???"

人們的偏好會改變,甚至可能受到他們與AI系統的交互影響。

為了研究這種情況,研究人員引入了動態獎勵馬爾可夫決策過程(DR-MDPs),這些過程明確考慮了人類的獎勵反饋可能受到AI系統影響的方式。

ICML 2024:AI對齊與可變和可影響獎勵函數 -AI.x社區

研究人員描述了靜態偏好假設如何削弱現有對齊技術的合理性,導致它們暗示性地獎勵AI系統操縱人類反饋(例如,影響用戶的認知狀態以增加獎勵)。

接著,轉向探討潛在的解決方案。

首先,研究人員提出了一個統一的觀點,即代理的優化視角可能在一定程度上有助于減少不良的AI影響,但并非萬全之策。 ??

ICML 2024:AI對齊與可變和可影響獎勵函數 -AI.x社區

然后,研究人員比較了8種不同的AI對齊概念,這些概念明確考慮了人類偏好(以及相關的獎勵函數)的變化。

ICML 2024:AI對齊與可變和可影響獎勵函數 -AI.x社區

研究人員發現,考慮的所有優化目標都傾向于造成不良的AI影響,或者過度謹慎。

?? 這表明解決偏好變化問題的簡單方法可能不存在

ICML 2024:AI對齊與可變和可影響獎勵函數 -AI.x社區

然而,在現實世界中,似乎沒有完全避免人類影響問題的簡單方法。 ??

這使得平衡我們的AI系統的影響風險和能力顯得更加重要。 ??

我們能否考慮到并非所有AI影響都看似不受歡迎的事實?例如,AI的影響對于教育助手或治療聊天機器人來說是整個價值主張。 ?? 研究人員提出了一個明確有益影響的概念,即所有的“自我”都認為是有益的。

短視的優化是否保證不受AI影響? ?? 不一定。如果在重新訓練的體系中,以短視的方式優化長期指標(如在推薦系統中所做的),這甚至會收斂到與長期視角強化學習相同的最優解(在某些假設下)。

研究人員還討論了社交媒體中的點擊率陷阱以及大語言模型中的諂媚/欺騙行為,可以被視為AI影響激勵的自然結果。

ICML 2024:AI對齊與可變和可影響獎勵函數 -AI.x社區

最終,該方法構成朝著明確考慮(并應對)人類獎勵反饋的變化和可影響性質的AI對齊實踐的第一步。 ????

論文:https://arxiv.org/abs/2405.17713


本文轉載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/yszS60o2nis6PnUR4M7-_w??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 四虎影院免费在线播放 | 免费观看黄色一级片 | 日批的视频 | 免费黄色在线 | 国产亚洲一区二区三区 | av国产精品| 五月天婷婷激情 | 一级免费毛片 | 欧美国产精品久久久 | 国产日韩精品视频 | 91电影在线播放 | 亚洲精品第一国产综合野 | 黑人一级片视频 | 欧美中文 | 中文字幕电影在线观看 | 久久99精品久久 | 久久国产一区二区三区 | 久久久91 | 日韩成人在线免费观看 | 久久中文字幕一区 | 国产精品成人久久久久 | 日本精品一区二区 | 精品一区二区在线观看 | 国产精品成人一区二区三区 | 国产一区二区三区不卡av | 亚洲视频国产 | 九九热热九九 | 色一阁| 国产在线a | 毛片免费观看视频 | 91在线导航| 91久久国产综合久久 | 在线一区二区三区 | 国产精品久久亚洲 | 亚洲天堂男人的天堂 | 久久久精品久久 | 久草网站| 美女露尿口视频 | 韩国理论电影在线 | 欧美精品一区三区 | 亚洲一区二区av |