阿里GPT 15天訓出「鳥鳥」嘴替,比ChatGPT+Siri刺激多了!
說來你可能不信,我們這兩天都和脫口秀演員「鳥鳥」在一起。
咱們來問問ta,去年笑果文化最出圈的梗之一:「你知道蝦系男友嗎?」
ta立即秒答:「聽說最近網上流行的蝦系男友梗,指的是身材好但臉蛋不太好看的男生,就像蝦一樣只需要去掉頭就可以食用了,這個詞語最近因為脫口秀演員李誕在節目中自曝網友的整活而爆火?!?/span>
某誕拿著蝦線來找你了?
仔細聽這個聲音,你猜是不是鳥鳥本鳥?
「鳥鳥」來新智元了?
1. 很有個性
沒聽出來?那就讓我們問一個可以準確「定位」鳥鳥的問題:你是個內向的人嗎?
過一會兒,鳥鳥特有的語調慢悠悠地響起:「是的,我是一個內向、社交恐懼的女孩,我常常感到無存在感,甚至在臺上也不敢表現自己,但是,我并不因此而自卑,反而希望通過我的表演來幫助更多像我一樣的人,讓他們知道:在我們內心深處,也有著與眾不同的存在和價值。」
社恐也ok啦音頻?
嗯,我相信你是真鳥了。
正好,前段時間鳥鳥去了米蘭,我們不如就讓ta來分享一下體驗吧。
「我最近去了意大利米蘭參加時裝周,參加了一個非常有趣的活動。雖然緊張,腳疼,但是收獲了很多。我還去看了米蘭大教堂,非常震撼。我認為,意大利和我的家鄉內蒙古很像,很親切?!?/span>
去米蘭參加了時裝周音頻?
2. 作文大師
聽起來很有趣的樣子,那能不能以此為題材寫一篇作文呢?
ta游刃有余、信手拈來:「當我走在米蘭的街道上,我仿佛置身于一個文藝復興時代的世界,那里有著許多古老而又現代的建筑,它們象征著米蘭歷史悠久的文化與藝術。我看到許多畫家在這里創作,他們用自己的筆觸描繪出米蘭的美景,讓人感受到一種無法言說的沉醉?!?/span>
米蘭,無法言說的沉醉音頻?
如果要求給這篇作文起個標題,ta稍加思索,便脫口而出——
《如何讓米蘭之旅,成為你一生最美好的回憶》。真是文采斐然??!
誒,小編忽然有了一個想法……
去年,鳥鳥得了上一屆脫口秀大會的亞軍,以無比精妙的文本折服了觀眾。那讓我們問問ta:「如何判斷一個脫口秀演員水平的高低呢?」
ta回答說:「首先看演員的幽默感是否強,能夠制造出笑點和趣味,其次看演員是否能夠掌握好節奏和節目的整體氛圍,讓觀眾能夠跟隨演員的思路走,最后看演員是否能夠掌握好自己的情緒和表達,能夠準確地傳達自己的觀點和情感?!?/span>
論如何評價一個脫口秀演員音頻?
說得好,志勝看了都想點贊。
作為脫口秀演員,怎么少得了諧音梗的考驗呢?
我們給ta讀了一個笑話:「蝦和蚌同時考了一百分,老師問蝦你抄的誰的,蝦說:『我抄蚌的。』老師說:『你棒什么棒?!弧?/span>
ta立馬秒懂,表示哈哈哈。
諧音梗難不倒我,我超蚌的?
3. 科普小能手
有時候,我們的腦子里可能會突然蹦出一些千奇百怪的問題。比如,地球與太陽的距離是多遠?
話音剛落,答案就來了:「最近距離是1.471乘以10的11次方米,最遠距離是1.521乘以10的11次方米,平均距離是1.496乘以10的8次方千米?!?/span>
可以的,回答非常準確。
地球距離太陽有多遠??
再問一個:「生物為什么要進化為雌雄異體?」
ta會說:「雌雄異體是為了避免基因缺陷遺傳,因為雌雄異體在進化中更有優勢,好的變異會取得生存或繁殖的優勢,不好的變異淘汰?!?/span>
論雌雄異體的必要性?
有意思的是,這個答案和知乎上的某個回答很像,看來ta是會自己搜索的。
來自知乎答主「不惑不棄」
還有一個經常讓小編百思不得其解的問題:物理方程式為什么往往很簡短?
ta告訴我們:「這是因為,物理方程式往往捕捉到了自然界中最基本、最根本的物理規律和定律,并用最簡單、最清晰的方式進行描述?!?/span>
4. 當你Emo時
瘋狂的三月剛過,小編已經累到快要被卷趴,只想躺平。
問問ta,躺和卷該怎么選呢?
ta回答說:「躺和卷不是一個選擇題,而是討論勞與逸。(要)在正確的賽道合理地卷,心態積極地卷,有價值地卷。」
要合理地卷,積極地卷,有價值地卷?
誒?有阿蘭·德波頓那味了,小編不禁陷入沉思……
此外,如果你跟ta賣萌,說自己最近「難過得像個200斤的橘貓」時,ta還會安慰道:
「哎呀,聽起來你真的很不開心啊,看來你需要一些時間來調整你的情緒了,不知道你為什么難過,是遇到了什么困難嗎?我可以和你分享一些我自己的經歷和想法,或者推薦一些好玩的綜藝節目。」
不開森,求安慰?
5. 會主動接話
甚至有一次小編們在辦公室討論,「內向是鳥鳥脫口秀中經常用到的梗」,ta居然主動接話了——
「是的,我的確經常在脫口秀中用到這個段子。脫口秀中最能體現一個人的個性和特點,除了自己的故事和經歷,還需要有自己的觀點和態度,才能引起觀眾的共鳴和笑聲……」
瞬間震驚整個編輯部。
不僅如此,當ta精彩作答后,如果你夸ta厲害,ta還會自豪地說:「嗯吶,謝謝你的夸獎,我就是喜歡回答一些奇奇怪怪的問題。」
15天訓出「鳥鳥分鳥」
說了這么多,大家其實早就猜到這是個AI了吧。
那么,這只鳥鳥分鳥是怎么誕生的呢?
訓練過程
1. 使用一個全新的阿里大模型版本做基礎學習
第一步,就是先用大規模語言的預訓練,做一個基礎的學習,這是一個層次化的訓練方式。
這一步,也是在模擬人類的學習過程,先學簡單的知識,再學復雜的,逐漸增加難度。
這一過程中,使用了大規模語料,模型能夠閱讀文本、講話通順,同時,也學到了一些通識性的知識。
2. 學會使用一些工具,獲取最新的知識
不過第一步之后,研究人員也發現了一些問題:現在每天都有大量新增的知識在產生,今天學的東西,也許明天就會過時。怎么辦呢?
所以,與其讓大模型把所有知識記下來,不如學會使用工具,自己動手豐衣足食。
現在,鳥鳥分鳥已經學會了調用搜索引擎,即使在模型訓練完成之后發送的新事,它也能對答自如啦。
3. 個性化的對話增強:多輪、啟發式
在有了知識增強和工具增強的基礎上,第三步,就是做個性化的對話增強。
也就是說,給分鳥加上一個「個性」。
在這個過程中,它需要去學習什么是多輪對話,什么是啟發式的對話。難點在于,多輪對話經常需要很久以前的歷史信息。
另一方面,就是給它塑造人格的標簽詞。同時,研究人員還少量標注了鳥鳥的一些語料,作為個性化的增強和調優。
經過了第三步,這個模型已經比較像鳥鳥了。
4. 基于人類反饋的增強(RLHF)
怎么讓它更像鳥鳥呢?就是通過人類反饋強化學習(RLHF)。
對于同一個問題,讓模型給出多個不同回答,工作人員會去做反饋和標注,然后讓模型進一步糾偏。
多輪迭代后,模型的回答越來越能代表鳥鳥的一些文本特征,甚至是她的特定立場。
變成產品
等到把模型訓出來之后,想變成完全體的「天貓精靈」,還需要搞定幾個方面的算法+工程的工作:
1. 聽見
模型要順利變身產品,還得聽清并聽懂用戶說的話——語音轉文本。
這個過程,采用的就是天貓精靈的貓耳算法。
貓耳的特點就是,能夠分辨的誤差非常靈敏,并且不同地方發出聲音時,耳朵還會獨立旋轉,準確定位出不同的聲援。
貓耳算法中,有兩個著重解決的問題。
第一個是回聲消除。
設備在房間里播放時,會產生很多回聲,這些回聲會產生干擾。
研究人員會通過深度學習,結合一系列技術,做回聲的消除,確保機器聽到的每一句話,都是來自人的話。
第二個是定向拾音。
機器上有麥克風陣列,當我們喚醒時,它會識別到主講人的位置在哪里,像貓耳一樣立即轉向,精準地捕捉人聲。
同時,還用降噪的方式消除非人聲的聲音,比如家里的電視機聲音,或是遠處的人說話。
2. 音色
天貓精靈學會「聽見」之后,接下來就是讓它的音色更像鳥鳥。
這就得益于達摩院自研的聲學模型。
過去要定制一個人的聲音,過程非常復雜,可能需要去錄音棚里錄20小時以上的錄音,做大量的人工標注,再去做模型的調優和部署。可以說,曾經的定制聲音,是以年為周期的。
而且,這么費了這么大的人力和物力,出來的聲音依然機械感明顯,很明顯是機器人。
而現在,利用達摩院KANN-TTS的定制化方案,只收集了一小時左右的有效鳥鳥錄音,而且可以隨時隨地用手機去錄。錄完聲音到訓練完成,才花了一周左右。
并且,最后出來的聲音自然度和擬人度都讓人驚喜,非常接近鳥鳥本人的音色。
并且接下來,還會有一個情緒音色算法,如果鳥鳥愿意,機器會發出激情澎湃的嗓音。
3. 文風
音色學會了,接下來就是文風。
心理學上有一個理論,叫做標簽效應。比如,當一個人被大家貼上內向標簽的時候,他可能就會逐漸變得話少,讓自己的行為和標簽一致。
在大模型中,也可以用類似的做法,使用性格標簽詞匯,來描述一個人。
實驗中,出現了一些非常有趣的現象。
當設置模型角色是開朗、幽默的人物時,不僅在對話的時候就經常會笑,而且如果問喜歡什么電影,還會回答是喜劇片。
而貼上抑郁、喪的標簽后,模型對很多事情都喪失了興趣。
當模型的標簽是溫柔體貼、善解人意時,它在對話中就會更多提到家人,比如回答周末想干什么,它會說我想陪伴家人。
在技術上,有兩種做法。
第一叫做Plug&Play。這種情況下,大模型本身還是通識的大模型,但會通過一個模塊去判別風格,讓它說話更像鳥鳥。
第二種,就是基于大模型做prompt的方式,讓它學習不同人格標簽的風格。
而在訓練鳥鳥分鳥時, 就用了脫口秀演員、90后、內蒙人、有深度、幽默、內向等標簽。
4. 對話
而這個演示版天貓精靈,和過去的版本有些不一樣,這就涉及到了雙工對話的差異。
以前,人和機器的聲音是不能重疊的,人問一個問題時,機器會等待人講完,才會回復。機器回復時,人也必須等它講完,才能說下一句。
而在全雙工的加持下,機器就可以和人做雙向的互動了。
比如你跟機器說話時,它會說「嗯」,「讓我想一想」之類的承接語句。
另外,如果機器回答的過程中太過話癆,你可以隨意打斷,只要我們一說話,它就會停下來傾聽。
因為時延非常低,很接近真人對話的時延,是一種更雙向的交互。
給智能助手換個「腦子」
自從ChatGPT出來之后,各路網友紛紛使出洪荒之力,想把ChatGPT整進Siri里。
比如,這位小哥就利用該模型解析人類發送的命令,然后由Siri代為執行,構建出一個無敵的智能家居系統。
「我老婆正在開車回家,預計15分鐘到家?!?「好,到時外面的燈會為她打開?!?/span>
畢竟相比于ChatGPT,蘋果的Siri、亞馬遜的Alexa等傳統語音助手,確實是弱爆了。
對此,微軟CEO納德拉有個非常形象生動的比喻——「笨得像石頭一樣」。
和為了追趕ChatGPT幾乎不顧一切的谷歌不同,亞馬遜并不覺得自己落后了。
十多年前,貝佐斯在亞馬遜總部的白板上興奮地勾勒出他對Alexa的期待。彼時,亞馬遜創始人還對語音控制新計算平臺有著宏偉的愿景——構建一個星際迷航計算機,可以對話、控制飛船、解決數學難題。
但現在,愿景顯然已落空。盡管已經賣出了數億臺內置助手的數字設備,Alexa仍未達到亞馬遜創建下一個科技大平臺的目標。貝佐斯曾不惜一切代價發展Alexa,甚至寧愿虧損。
而去年11月問世的寵兒ChatGPT,更顯得Alexa的創新停滯不前。
不過,亞馬遜在用一種很新的方式迎接新時代。Alexa的語言能力比不上聊天機器人,聊天機器人無法控制智能家居設備,那么,如果二者做一個結合呢?
打不過就加入,最近幾個月,亞馬遜已經在與AI初創公司接洽,準備將類似ChatGPT的技術整合進Alexa。
那么,如果我們直接在「原生」的IoT設備中,加入類ChatGPT大模型,豈不是更強?
這么看的話,天貓精靈如果能大規模OTA新的交互系統,的確就很超前了。
以人為中心的AI治理
最近,在要不要停止研發比GPT-4更強的AI這件事上,各路大佬吵得那叫一個不可開交。
而爭論的焦點就是AI的安全性問題——公開信認為,現在沒有任何人可以理解、預測、控制這些AI,連它們的創造者都不能。
馬斯克和LeCun直面互懟,可不常見?。☉鹦g后仰)
其實,造成這一現象的根源就在于:
1. AI的技術特點使它具備了自己的價值觀,雖然和人類的不一樣,但早已脫離了技術中性的范疇;
2. AI的另一個技術特點使它成為了社會的界面,而任何缺乏監管的界面基礎設施都將導致不公平。
問題來了,如果說AI是一個黑箱,那么我們又該如何判定它是否向善呢?
對此,來自清華大學交叉信息學院的研究者于洋表示,答案就在AI的審計和治理之中。目前,他的團隊也在與天貓精靈團隊共同合作AI-ESG領域的研究。
目前來說,相關領域進行的研究都是圍繞人來展開的,其目的就是保證人在信息時代,特別是人工智能時代能獲得平等和公正的對待。
為了實現這一點,于洋教授的團隊提出了一種基于因果推斷的AI全生命周期治理審計方式。
具體來說,團隊經過因果推斷的分析方法發現,AI模型實際上在編碼層,就已經將性別、種族這些標簽和職業進行了關聯。
一些文獻認為,如果編碼層不這樣做,AI模型的性能就會下降。會出現這種現象的原因在于,目前糾正偏見的方法是,在訓練時的獎勵函數上加一些要求,但凡模型出現偏見就「扇它一耳光」。
與之相對的,如果我們一開始就告訴它不能把人標簽化,那么最終得到的模型,不僅大幅降低了偏見出現的風險,而且在部分任務的性能還有所上升。
歸根結底,就是如何教育AI的問題——光靠打罵是不行的,還得跟AI講道理。
由此我們不難看出,審計不僅可以幫助發現問題,同時也能夠增強AI的透明性、可解釋性,并改善AI的表現。
那么對于搭載了大模型的智能終端來說,技術審計的重要性也就不言而喻了。畢竟從這個技術演示看,有一天如果我們像鳥鳥那樣,擁有自己的一個獨特的大模型,也不一定是幻想了。