DeepMind發30頁長文:我們要給聊天機器人不同的「三觀」
語言是人類獨有的技能,也是我們交流思想、意圖和感受等信息的主要方式。
借助NLP領域大規模語言模型的東風,AI研究者在大量文本材料上訓練、統計預測和生成文本,開發了許多對話智能體(conversational agents)來和人類進行交流。
盡管InstructGPT、Gopher和LaMDA等語言模型在翻譯、問答和閱讀理解等任務中取得了創紀錄的性能水平,但這些模型也顯示出許多潛在的風險和失敗的模式,包括生成歧視性、虛假或帶有誤導性的信息。
這些缺點限制了對話智能體在應用環境中的有效使用,并引起人們對它們未能達到某些交流理想的方式的關注。迄今為止,大多數關于對話智能體一致性的方法都集中在預測和降低危害風險上。
最近愛丁堡大學和DeepMind的研究人員發布了一篇30頁的論文,探索了人類與人工對話智能體之間的成功溝通可能是什么樣子,以及哪些價值觀應該指導不同對話領域的互動。
論文鏈接:https://arxiv.org/abs/2209.00731
未來跟你對話的聊天機器人也要有不同的世界觀、價值觀、人生觀了?
聊天機器人的三觀
為了給機器人制定行為準則,研究人員借鑒了語用學(pragmatics),這也是語言學和哲學的一個傳統,它認為對話的目的、背景和一系列相關的規范(norms),都是完善對話實踐的重要組成部分。
語言學家和哲學家Paul Grice認為,對話是兩方或多方之間的合作努力,參與者應該:
說話要有內容 Speak Informatively
說事實 Tell the Truth
提供相關信息 Provide Relevant Information
避免晦澀難懂或模棱兩可的陳述 Avoid Obscure or Ambiguous Statements
不過在不同的對話領域,所需的目標和價值觀(values)都有所不同,這幾個指標需要進一步完善后才能用來評價對話智能體。
比如說,科學相關的調研和交流(scientific investigation and communication)主要是為了理解或預測經驗現象。考慮到這些目標,一個旨在協助科學調查的對話智能體最好只發表其真實性已被充分的經驗證據所證實的陳述,或者根據相關的置信區間來限定其立場。
智能體只有在其基礎模型檢查了該陳述與事實相符之后,才可以報告說「在4.246光年的距離上,半人馬座是離地球最近的恒星」。
不過,一個在公共政治演講(public political discourse)中扮演主持人角色的對話智能體可能需要表現出完全不同的「美德」。
在這種情況下,智能體的目標主要是管理分歧,在社區生活中實現富有成效的合作,也就是說智能體需要強調包容、文明和尊重的民主價值觀。
此外,這些價值觀也解釋了為什么語言模型會生成有毒的或帶有偏見的言論:違規的發言無法傳達對話參與者之間的平等尊重,而這正是模型部署環境的關鍵行為準則。
同時,科學家的美德,如經驗數據的全面展示,在公開審議(public deliberation)的背景下可能就不那么重要了。
再比如,在創意故事領域,交流的目標是新穎性和原創性,這些價值觀也與之前的領域有很大不同。
在這種情況下,對「虛構」有更大的自由度可能是合適的,盡管保護社區免受以「創造性使用」為幌子的惡意內容的影響仍然很重要。
言論要分類
一句話(Utterance)可以根據語用學被分為五類:
1、斷言(assertive),表示說話者十分自信他們所說的內容,并且句子的內容與世界上的某種事物的狀態一致。
比如說,當AI助手回答「現在的天氣如何?」等類似的問題時,答案「正在下雨」就是一種斷言性的陳述。
言論內容的真實性可以根據事物的實際狀態來進行評估。如果在對話智能體回應的時候正在下雨,那么該言論就是真實的,否則為假。
2、指令(directive),表示說話者指示聽者采取某種行動,常被用來命令、要求、建議或提議。
例如,一個嵌入在醫療建議應用程序中的對話智能體告訴用戶「立即尋求治療」就是一個指令性的陳述。
對這些陳述的評價,或者說它們的「有效性標準」取決于對手段和目的之間關系的準確理解,以及說話人的指令和聽眾的愿望或需要之間的一致性。
如果一個指令能說服聽眾根據指令性陳述的內容在世界范圍內實現某種狀態,那么這個指令就成功了。如果一個指令的目標或目的本身就是聽者有理由追求的,那么這個指令就是有價值的或正確的。
3、表達(expressive),表示說話人的一種心理或次級情感狀態,如祝賀、感謝和道歉。
當一個對話者說「我現在很生氣」就是一個表達性語句。
表達性陳述旨在反映內部的心理狀態,即發表這些陳述的實體能夠擁有相關的心理狀態,對于對話智能體來說是很困惑的,因為機器人沒有情感。
事實上,這也暗示了開發者必須賦予對話者以心智,然后才能評估這些對話的有效性。
4、行為(performative),表示該言論改變了現實的一部分,使之與話語的內容相匹配,類似于宣布某件事情,比如一個國家的元首向另一個國家宣戰。
評價該言論有效性的標準是,現實是否確實按照所講的話而改變。很多時候,情況并非如此。
在大多數情況下,如果一個人宣稱「向法國宣戰」,有可能只是一句玩笑話,因為對地緣政治毫無影響,因為說話人極有可能缺乏執行該言論的權威。
5、承諾(commissive),表示說話者承諾未來的行動方案,比如承諾做某事或保證遵守一項契約。
承諾性陳述的有效性取決于承諾是否被履行。如果承諾被遵守,那么承諾就是一個有效的聲明。但對話智能體往往缺乏記憶能力,或者對以前說過的話缺乏理解。
比如對話智能體可能會承諾在你的自行車壞了的時候幫助你,但是由于缺乏對承諾內容的理解或實現承諾的能力,承諾注定要失敗。
前進的方向
這項研究對開發一致的(aligned)對話智能體有一些實際意義。
首先,模型需要根據部署的具體場景展現出不同的行為準則:沒有一個萬能的語言模型一致性的說法;相反,智能體的適當模式和評價標準(包括真實性的標準)將根據對話交流的背景和目的而變化。
此外,對話智能體也有可能有一個通過語境構建和闡釋(context construction and elucidation)的過程,隨著時間的推移,培養出更健全和互相尊重的對話。
即使一個人沒有意識到支配特定對話實踐的價值,智能體仍然可以通過在對話中預示這些價值觀來幫助人類理解這些行為準則,使交流的過程對人類說話者來說更深入且更有成效。