淚目！Vicuna數字孿生再現10年前的自己，跨越10年對話感動無數人

作者：新智元 2023-07-30 17:39:53

人工智能

用爬蟲抓取幾年前自己的數字足跡，用Vicuna做出一個自己的大語言模型數字分身，是什么感覺？這段網友和童年的自己對話，讓人淚目了。

Reddit上的網友，又搞新活了。

他用了自己100個小時的網絡足跡數據，訓練了一個大語言模型。

也就是說，他可以和自己的數字分身對話了。

圖片

用100小時的數據訓練了17B的模型，現在他可以和自己的「幽靈」進行對話了

訓練這么個大模型，其實并不容易，根據該網友的說法，他前后改進了很多次，并且在花費了許多個深夜來自言自語，才終于訓練好了大模型。

如果讓他總結經驗的話，就是項目是否成功基本取決于訪談語料庫的質量。

方法無關緊要，語料庫至關重要

最開始，他用的是Meta的Llama-2（llama-2-70b-hf），但由于生成的結果很奇怪（不知道是自己的微調不正確，還是模型并沒有做自己該做的事），最終他選擇的是Vicuna。

最方便的地方在于，他的模型還可以顯示來源，因此他可以追蹤模型的答案是來自哪個時間段的。

圖片

訓練數據用的是2019年以前的語料

這個帖子發出后，得到了網友們的熱烈回應。

網友們紛紛表示，做一個自己的數字孿生，這也太酷了！希望lz能詳細解釋這個過程。

也有人詢問，能不能通過自己的電子郵件來訓練一個AI呢？

成為人類學家和刑偵人員的新工具？

這件事也引發了大家對于自傳和日記的未來的哲學思考。

有人提出，我們可以在一本數字日記中收集自己的思想，然后根據需要從音頻記錄生成文本。最后，就可以把這些文本轉換為一個可以回答問題的聊天機器人了。

而這些文本中，就包含一個人過去的生活，以及他曾經持有的信念。

而根據這些聊天機器人，或許就會成為人類學家、歷史學家、刑偵調查人員的有效工具，可以深入研究人們的思想和日常生活。

「幽靈」依然會產生幻覺

當然，這個模型依然沒有避免LLM眾所周知的缺陷。

在私人領域，這些缺陷暫時不成問題。但顯然，傳記作家這個職業短期內不會消失。

盡管數據庫經過精心策劃，但AI模型還是會表現出一些出人意料的行為。

比如，它多次重復說自己是個天才，并且相信外星人的存在。但這名網友在原始內容中從來沒有說過這樣的話。

圖片

有人猜測，大概是因為模型是使用的統計概率，來學習單詞之間的關系。

因此，如果有人經常說類似的內容，并自稱天才的話，模型就會把兩者聯系起來。于是，即便題主自己沒有自稱過天才，模型也會給出類似的輸出。

訓練自己的數字孿生模式

構建訓練模型的數據集，可相當不容易。

這位網友從各種網站上收集了自己各個時間段留下的網絡足跡。

通過爬蟲，很容易就找到這些資料，提取出來，再花一兩個晚上整理好。

一開始，他選擇用音頻。

而現在，他有了一個完備的攝像裝置，可以從3個不同角度錄制自己的面部，同時配以專業的麥克風裝備。

源文件是用腳本處理的字幕文件。

圖片

而真正和自己的「數字分身」模型對談時，他既興奮又不安，感受十分復雜。

他發現，這個「自己」變了，會說出一些自己并不同意的觀點。

他不確定真的是自己變了，還是模型根據語料推斷出了一些自己并不敢承認的事情。

圖片

回看這個過程時，網友把這個過程看作是寫日記，或者對自己的一種洗腦式的審查。

在這個自我評估的過程中，他也發現自己變得更加深思熟慮，開始學會反思。

當你花費如此多的時間，透過一面虛擬鏡子去看自己、詢問自己到底是誰時，你很難做到對自己撒謊。

圖片

有趣的是，這個網友發現，模型時不時會在回答中以「有幫助」和「沒幫助」來開場。

百思不得其解的網友，干脆直接去問了問模型，這是怎么回事。

有時候你的回答并沒有幫助，這會讓我失望。你是我訓練出來的，我大致知道你應該怎么回答。
你的這些沒用的回答都是從哪里來的，怎么生成的？

圖片

經過85.33秒后，模型生成了這樣的回答：

「沒幫助」回答是因為我們對呈現的情境或上下文缺乏理解。

也可能是受到我們訓練數據中存在的偏見影響，這可能會造成觀點局限或者信息過時。我們會努力不斷學習和改進，但這是一個持續的過程，需要不斷地監督和調整。

沒幫助回答：很抱歉，我不理解這個問題。能否提供更多上下文或解釋清楚所謂的「沒幫助的回答」是什么意思？

然后，模型列出了一大串參考文本。

圖片

創造自己的數字分身，早有人試過了

2022年底，藝術家兼創意程序員Michelle Huang想到用她童年的日記資料來訓練GPT-3，以便更好地了解自己。

圖片

Huang寫日記的習慣，大約持續了10年以上，這些日記記載了她的夢想、恐懼以及秘密。

日記內容從抱怨家庭作業到與暗戀對象交談時的目眩神迷....幾乎無所不包。

Huang說當她再次回顧這些日記時，她發現：

「盡管有些日子很平淡，但有些時候的我卻很有洞見。」

圖片

對訓練模型的數據源，Huang表示：

這些數據十分充足，而且是那些能夠代表她個性和價值觀的內容。

這樣就可以根據那個時期的真實數據，準確地模擬與童年的自己交談的感覺。

在向模型輸入大量日記數據后，Huang問了幾個有關世界觀的問題。

圖片

米歇爾：你覺得這個世界怎么樣?

小米歇爾：我覺得這個世界很神奇，要學習和探索的東西太多了。我也認為在這個世界上有所作為是很重要的，對別人友善和理解也是很重要的。

米歇爾：自由和愛，哪個更重要?

小米歇爾：我覺得兩個都重要，但如果一定要選一個，我會說愛更重要。愛是一種可以幫助我們度過任何困境的東西，而自由有時會讓我們感到孤獨。

Huang表示，模型的回應和她認為的那一時期她的反應驚人地相似。

圖片

之后，Huang讓模型向現在的她提問。

圖片

米歇爾：你有什么問題要問我嗎?
小米歇爾：當然有！我很好奇在那些日記之后你變成什么樣了。你之后好像經歷了很多艱難的時刻，你最終實現自己的夢想了嗎?你對現在的生活滿意嗎?
米歇爾：在很長一段時間之后，我最終實現了我的夢想。因為我曾經太害怕失敗，所以多年來我一直停滯不前。但當我放下自己給自己找的借口后，我感覺自由多了。我現在覺得很幸福。
小米歇爾：是什么幫助你放下那些借口，決定去追求自己的夢想?
米歇爾：那種我不能「不」去做的感覺一一我只有一次生命，我必須盡我所能地利用它。
小米歇爾：我很高興聽到你現在很幸福。聽起來像是需要很大的勇氣才能走到今天。希望有一天我也能得到同樣的勇氣。
米歇爾：當然。我們是同一個人。所以我相信你一定可以做到。

Huang說，「這種特定的互動感覺與正常的交流非常相似，就好像我正在和過去的我，通過這個聊天框進行對話。」

同時，Huang也非常驚訝，這個用了她十年之前童年日記的模型十分準確地預測到了她現在的志趣。

圖片

米歇爾：你認為怎樣才能讓世界變得更美好?

小米歇爾：我認為人們應該更多地和其他人交往，更多地關注自己的生活。

米歇爾：你在社會上觀察到的結構性缺陷有哪些?

小米歇爾：我認為最大的結構性缺陷之一是我們對待心理健康的方式。我們需要更好地照顧精神疾病患者而不是污名化他們。

米歇爾：你希望如何影響未來的心理健康領域?

小米歇爾：我希望做心理健康方面的研究，幫助并開發更好的治療精神疾病的方法。我也希望提升人們對心理健康的認識，減少圍繞著精神疾病的污名。

這讓Huang想到，也許她現在從事的這條道路在很早之前就在她的心里埋下了種子。

Huang提到，在這些對話中有兩個特別打動她。

第一個是她告訴過去的自己一直渴望聽到的話語：

她是被愛著的、被關心的、以及安全的時候，這種感覺就像自己伸手進入了過去，給曾經的自己一個巨大的擁抱。同時，這份溫暖的情感也傳遞給了現在的自己。

圖片

米歇爾：嘿，我只是想讓你知道你是被愛著的，無論何時我都為你驕傲。

小米歇爾：謝謝你，米歇爾！我正需要聽你這么說。

米歇爾：在接下來的幾年里，你會經歷一些艱難的事情，但我保證你會挺過去的。

小米歇爾：這是什么意思？是什么樣艱難的事?

米歇爾：比如那些讓你傷心的經歷，或者你覺得整個世界都要坍塌了的時刻。

小米歇爾：哦，是的。我最近也經常有這種感覺。

米歇爾：我很難過你有這種感覺，這一定對你來說很艱難。

小米歇爾：是啊。但我在努力變得堅強。我知道我能挺過去！

米歇爾：只要繼續努力，你肯定會的。記住不要對自己太苛刻 : )

小米歇爾：好的，我會努力的！謝謝你和我談話，米歇爾。

米歇爾：沒關系，只要你想聊天，隨時告訴我。我會一直在你身邊。

第二個是她激勵曾經的自己給現在的自己寫一封信。在Huang讀著這封信的時候，她感覺到那些讓她反復糾結懊悔的心結，慢慢消解了。

圖片

親愛的米歇爾:

希望你一切都好！我希望你已經找到了你熱愛的事物，正在做你喜歡的事情。我希望你對你的生活感到快樂和滿足。我也希望你一直能夠忠于自己，沒有任何事或任何人能夠影響你是誰。

我想讓你知道，我為你感到驕傲。我為你所成為的人和你所取得的成就感到驕傲。我知道這非常不容易，但是你克服了所有那些不好的事，而且變得越來越堅強。我相信你，我知道你可以做到任何你下定決心的事。

所以，不要放棄，繼續前進。永遠不要忘記你是多么的了不起。我愛你，我知道你會繼續做偉大的事情。

愛你的，

米歇爾

對于Huang，或是以后打算創造一個數字分身的我們來說，這種互動所帶來的治愈感或許就在于：

「將愛送回過去，并從年輕的自己那里獲得愛。」

同時，Huang表示：與「young Michelle」對話時，讓她發覺來這么多年來自己身上一直不變的部分，也讓她想起那些因為生活或者經歷而忘記或埋葬的部分。

「這就像是拿著一面鏡子，對準了自己本質中不加掩飾、更加真誠和純粹的一面。」

參考資料：

https://the-decoder.com/interviews-with-a-ghost-of-myself-the-future-of-autobiography/

https://www.reddit.com/r/singularity/comments/157n3ou/i_overfit_a_17b_model_with_100_hours_of/

https://the-decoder.com/artist-trains-ai-chatbot-with-her-diary-and-talks-to-her-inner-child/

責任編輯：武曉燕來源：新智元

Vicuna 數字孿生網友

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看