ChatGPT的狂歡背后：短板猶在，啟發甚多，2023有這些事可以做……

作者：機器之心 2023-01-03 13:04:34

人工智能新聞

ChatGPT 的強大能力是與生俱來的嗎？它有哪些短板？未來它會取代搜索引擎嗎？它的出現給我們的 AI 研究帶來了哪些啟發？針對這些問題，幾位 AI 研究者展開了深入對談。

2022 年的最后一個月，OpenAI 用一個爆款對話機器人 ——ChatGPT 回應了人們一整年的期待，盡管它并不是大家期盼已久的 GPT-4。

用過 ChatGPT 的人都能體會到，它是一個真正的「六邊形戰士」：不僅能拿來聊天、搜索、做翻譯，還能寫故事、寫代碼、debug，甚至開發小游戲、參加美國高考…… 有人戲稱，從此以后人工智能模型只有兩類 —— ChatGPT 和其他。

圖源：https://twitter.com/Tisoga/status/1599347662888882177

由于能力過于驚艷，ChatGPT 僅上線 5 天就吸引了 100 萬用戶。很多人大膽預測，照這個趨勢發展下去，ChatGPT 很快就能取代 Google 等搜索引擎和 Stack Overflow 等編程問答社區了。

圖源：https://twitter.com/whoiskatrin/status/1600421531212865536

不過， ChatGPT 生成的答案有很多是錯的，而且不仔細看都看不出來，這會造成問題回答魚目混珠的情況。這種「很強大但也很容易出錯」的屬性給了外界很大的討論空間，大家都想知道：

ChatGPT 的這種強大能力是哪里來的？
ChatGPT 還有哪些短板？
未來它會取代搜索引擎嗎？
它的出現給我們的 AI 研究帶來了哪些啟發？

在小紅書技術團隊舉辦的第六期「REDtech 來了」技術直播中，NLP 領域專家、加州大學圣巴巴拉分校助理教授李磊與小紅書技術副總裁張雷以及小紅書社區部多媒體智能算法負責人張德兵展開了對談，就 ChatGPT 的熱門問題進行了交流和解答。

李磊，本科畢業于上海交通大學計算機系（ACM 班），博士畢業于卡耐基梅隆大學計算機系。曾先后任加州大學伯克利分校博士后研究員、百度美國深度學習實驗室少帥科學家、字節跳動人工智能實驗室高級總監。

2017 年，李磊在 AI 寫作機器人 Xiaomingbot 上所做的工作獲得了吳文俊人工智能技術發明二等獎。Xiaomingbot 也具有強大的內容理解和文本創作能力，能流暢地進行體育賽事的播報和財經新聞的寫作。

李磊的主要研究方向是機器學習、數據挖掘和自然語言處理。在機器學習、數據挖掘和自然語言處理領域于國際頂級學術會議發表論文 100 余篇，擁有二十余項技術發明專利。曾獲得過 2012 年美國計算機學會 SIGKDD 最佳博士論文第二名、2017 年 CCF 杰出演講者、2019 年 CCF 青竹獎、以及 2021 ACL 最佳論文獎。

張雷，小紅書技術副總裁，畢業于上海交通大學，曾擔任歡聚時代技術副總裁和百度鳳巢首席架構師，負責百度搜索廣告 CTR 機器學習算法工作。曾任 IBM 深度問答（DeepQA）項目中國技術負責人。

張德兵，小紅書社區部多媒體智能算法負責人，曾任格靈深瞳首席科學家，快手多模態智能創作負責人，在技術研究和業務落地方向都具有豐富的經驗，帶領團隊獲得包括國際權威人臉識別競賽 FRVT 世界冠軍在內的多項學術競賽冠軍，并推動 CV、多模態等技術在安防、零售、體育等 TO B 場景和短視頻、廣告等 C 端場景的多項業務落地。

三位嘉賓的討論既關注到了 ChatGPT 當下的能力與問題，同時也就未來的趨勢和前景進行了展望。在下文中，我們對交流的內容進行了梳理和總結。

OpenAI 的聯合創始人 Greg Brockman 最近發推特表示，2023 年將使 2022 年看起來是 AI 進步和采用的沉悶之年。圖源：https://twitter.com/gdb/status/1609244547460255744

ChatGPT 的強大能力來自于哪兒？

和試用 ChatGPT 的很多人一樣，三位嘉賓也都對 ChatGPT 的強大能力印象深刻。

其中，張德兵舉了一個讓 ChatGPT 扮演 Linux Terminal 的例子：告訴 ChatGPT 大概的機器配置，然后在此基礎上讓它執行一些指令，結果發現，ChatGPT 能夠記住很長的操作歷史，前后邏輯關系非常一致（比如你往一個文件里面寫入幾行字符，之后讓它顯示這個文件里面到底被寫入了哪些字符，它都能顯示出來）。

DeepMind 研究者 Jonas Degrave 讓 ChatGPT 扮演 Linux Terminal 的例子。圖源：https://www.engraved.blog/building-a-virtual-machine-inside/

這一結果讓張德兵等人不禁懷疑，ChatGPT 是不是自己在后臺開了一個 terminal 欺騙用戶？于是他們進行了一些測試：讓 ChatGPT 執行一些復雜度非常高的指令（比如兩重 for 循環，每一個 for 循環都有 10 億次），如果 ChatGPT 真的開了一個 terminal，它就會卡一段時間。結果出乎意料：ChatGPT 很快就跳過了這個過程，顯示出了這個命令之后的下一個結果。這讓張德兵等人意識到，ChatGPT 確實大概理解了整個 demo 的邏輯，它是有一定的「思考」能力的。

那么，這種強大的能力是從哪里來的呢？張雷提出了兩種假設。一種假設認為，這種能力本身就是內置在大模型當中的，只是我們之前沒有恰當地釋放它；另一種假設認為，大模型的內置能力其實沒有那么強，需要我們借助人類力量對它做出一些調整。

張德兵和李磊都贊同第一種假設。因為，我們可以直觀地看到，訓練和微調大模型所需的數據量存在著幾個數量級的差異，在 GPT-3 及其之后的模型所用到的「預訓練 + 提示（Prompting）」范式中，這種數據量的差異就更明顯了。而且，它們所用到的 in-context learning 甚至不需要更新模型參數，僅需要把少量標注樣本放在輸入文本的上下文中即可誘導模型輸出答案。這似乎可以說明，ChatGPT 的強大能力確實是內生的。

傳統 fine-tune 方法與 GPT-3 的 in-context learning 方法對比。

此外，ChatGPT 的強大還依賴于一項秘密武器 —— 一種名為 RLHF（人類反饋強化學習）的訓練方法。

根據 OpenAI 官方公布的資料，這種訓練方法可以分為三個階段 [1]：

冷啟動階段的監督策略模型：從測試用戶提交的 prompt 中隨機抽取一批，靠專業的標注人員，給出指定 prompt 的高質量答案，然后用這些人工標注好的 < prompt,answer > 數據來 Fine-tune GPT 3.5 模型，從而讓 GPT 3.5 初步具備理解指令中蘊含的意圖的能力；
訓練回報模型（Reward Model,RM）：隨機抽樣一批用戶提交的 prompt，然后使用第一階段 Fine-tune 好的冷啟動模型為每個 prompt 生成 K 個不同的回答，再讓標注人員對 K 個結果進行排序，以此作為訓練數據，通過 pair-wise learning to rank 模式來訓練回報模型；
采用強化學習來增強預訓練模型的能力：利用上一階段學好的 RM 模型，靠 RM 打分結果來更新預訓練模型參數。

這三個階段的其中兩個都用到了人工標注，也就是 RLHF 中所謂的「人類反饋」。

李磊表示，這一方法所產生的結果是出人意料的。在之前做機器翻譯研究的時候，他們通常會用 BLEU 分數（一種快速、便宜且語言獨立的自動機器翻譯評價方法，與人類判斷有很強的相關性）來指導模型，在模型較小的時候，這種方法效果顯著，但隨著模型越來越大，它的效果卻在不斷減弱。

因此，他們從中得到的經驗是：借助反饋來訓練 GPT-3 這種超大模型理論上不會得到太大提升。但是，ChatGPT 的驚艷效果卻推翻了這一經驗。李磊認為，這是 ChatGPT 所帶給大家的震撼之處，提醒大家要改變研究觀念。

ChatGPT 有哪些短板？

不過，震撼之余，三位嘉賓也指出了 ChatGPT 當前的一些短板。

首先，正如前面所說，它生成的答案有些還不夠準確，「一本正經胡說八道」的情況還會時不時地出現，而且不太擅長邏輯推理。

圖源：https://m.huxiu.com/article/735909.html

其次，像 ChatGPT 這樣的大模型要想實際應用，所需的部署成本是相當高的。而且目前沒有明顯的證據表明，把它們的規模縮小一兩個數量級，模型還能保持如此強大的能力。「如果只能在一個很大規模體量下才能維持這樣驚艷的能力，它離應用還比較遠，」張德兵說到。

最后，ChatGPT 在一些特定任務（比如翻譯）上可能并沒有達到 SOTA。雖然 ChatGPT 的 API 還沒有放出來，我們無法得知它在一些 benchmark 上的能力，但李磊的學生在測試 GPT-3 的過程中發現，雖然 GPT-3 能夠出色地完成翻譯任務，但它比現在單獨訓練的雙語模型還是要差一些（BLEU 分數差 5 到 10 個點）。據此，李磊推測，ChatGPT 在某些 benchmark 上并不見得會達到 SOTA，甚至可能和 SOTA 還有一些距離。

ChatGPT 能否取代 Google 等搜索引擎？對 AI 研究有何啟發？

在關于 ChatGPT 的各種討論中，「能否取代搜索引擎」這個話題可能是最火的一個。近日，《紐約時報》報道稱，ChatGPT 的火爆讓谷歌如臨大敵，他們擔心，如果大家都去用 ChatGPT 這樣的聊天機器人，就沒有人會點擊帶有廣告的谷歌鏈接了（2021 年，谷歌廣告收入占總收入的 81.4%）。在《紐約時報》獲得的一份備忘錄和錄音中，谷歌首席執行官 Sundar Pichai 一直在開會，以「確定谷歌的人工智能戰略」，并「顛覆了公司內部眾多團隊的工作，以應對 ChatGPT 帶來的威脅」[2]。

對此，李磊認為，現在就說取代可能還有點早。首先，新技術的火爆和商業成功之間往往有很深的 gap，早些年，Google Glass 也說自己將成為新一代的交互方式，但至今未能兌現承諾。其次，ChatGPT 在一些問答任務上的表現確實比搜索引擎好，但搜索引擎所承載的需求并不局限于這些任務。因此，他認為，我們應該根據 ChatGPT 本身的優勢去做產品，而不一定要瞄準現有的成熟產品去取代它，后者是一件很困難的事情。

很多 AI 研究者認為，ChatGPT 與搜索引擎是可以放在一起工作的，二者并非取代與被取代的關系，就像最近熱門的「youChat」所展示的那樣。圖源：https://twitter.com/rasbt/status/1606661571459137539

張德兵也持有類似的看法，認為 ChatGPT 短期內替代搜索引擎不太現實，畢竟它還有很多問題，比如不能訪問互聯網資源，會產生誤導信息。此外，它的能力能否泛化到多模態的搜索場景至今還不明晰。

但不可否認，ChatGPT 的出現確實給了 AI 研究人員很多啟發。

李磊指出，第一個值得注意的點是 in-context learning 的能力。在之前的很多研究中，大家都忽略了如何通過某種方式將既有模型的潛力挖掘出來（比如機器翻譯模型就只是用來做翻譯，而沒有嘗試給它一些提示看看能不能生成更好的翻譯），但 GPT-3、ChatGPT 做到了。因此李磊就在想，我們能不能把以往所有的模型都改成這種 in-context learning 的形式，給它們一些文本、圖像或者其他形式的提示，讓它們把能力都發揮出來，這將是一個非常有潛力的研究方向。

第二個值得注意的點是在 ChatGPT 中發揮重要作用的人類反饋。李磊提到，谷歌搜索的成功實際上也很大程度上是因為它很容易獲得人類反饋（對于搜出的結果是否點擊）。ChatGPT 通過請人寫答案、給模型生成的答案排序的方式獲得了很多人類反饋，但這種獲取方式比較昂貴（近來有一些研究已經指出了這一問題）。因此，李磊認為，未來我們要考慮的是如低成本、高效地獲取大量人類反饋。

圖源：https://twitter.com/yizhongwyz/status/1605382356054859777

小紅書「種草」新技術

對于在小紅書從事多模態智能創作研究的張德兵來說，ChatGPT 也提供了很多啟發。

首先，該模型直觀地展示了 NLP 大模型相比小模型在復雜多輪對話、不同 query 的泛化性、思維鏈 (Chain of Thought) 等各個場景的大幅提升，且相關能力目前在小模型上是不具備的。

張德兵認為，NLP 大模型的這些相關能力或許也可以在跨模態生成中進行嘗試和驗證。目前，跨模態模型在模型規模上相比 GPT-3、ChatGPT 還有顯著的差距，且在跨模態場景中也有很多工作展示了 NLP 分支表達能力的提升，會對視覺生成結果的精細程度有很大幫助。如果跨模態模型的規模能夠進一步擴大，模型能力的「涌現」或許是一件值得期待的事情。

其次，像初代 GPT-3 一樣，現在多模態的生成結果在挑選的情況下往往能看到很不錯的驚艷結果，但生成可控性還有很大的提升空間。ChatGPT 似乎在一定程度上改善了這一問題，生成的東西更加符合人類心意。因此，張德兵指出，跨模態的生成或許可以參考 ChatGPT 的很多思路來進行嘗試，比如基于優質數據的微調、強化學習等等。

這些研究成果將在小紅書的多項業務中得到應用，包括電商等場景的智能客服，搜索場景下對用戶 query、對用戶筆記更精確的理解，智能創作場景下對用戶素材進行智能配樂、文案生成、跨模態的轉換和生成創作等。在各個場景中，應用的深度和廣度也會隨著模型大小的壓縮、模型精度的持續提升而持續增強和擴展。

小紅書作為一家有 2 億月活用戶的 UGC 社區，隨著社區內容的豐富和多元，創造出了非常巨大的多模態數據集體量。在信息檢索、信息推薦、信息理解，特別在智能創作相關技術，以及底層多模態學習、統一表征學習等方向上都積累了海量的真實數據，同時也為這些領域的實踐創新提供了獨特且廣闊的落地場景。

小紅書還是當下為數不多的依然保持強勁增長勢頭的互聯網產品之一，得益于圖文與視頻內容并重的產品形態，小紅書在多模態、音視頻、搜廣推領域將面臨和創造許多前沿的應用問題。這也吸引了大量技術人才的加入，小紅書技術團隊中，很多成員都擁有谷歌、Facebook、BAT 等海內外一線大廠的工作經歷。

這些技術挑戰也將給予技術人們在新的領域完整參與乃至扮演重要角色的機會。未來小紅書技術團隊所能提供的人才成長空間，比以往任何時候都更加廣闊，也正在等待更多優秀 AI 技術人才的加入。

同時，小紅書也非常重視與業界的交流。「REDtech 來了」就是由小紅書技術團隊打造的一檔面向行業前沿的技術直播欄目。今年以來，小紅書技術團隊已經與多模態、NLP、機器學習、推薦算法等領域的領軍人物、專家學者展開深入的交流對話，力圖從學界科研與小紅書實戰經驗的雙重視角探索和討論有價值的技術問題。

責任編輯：張燕妮來源：機器之心

ChatGPT

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ChatGPT的狂歡背后：短板猶在，啟發甚多，2023有這些事可以做……

ChatGPT 的強大能力來自于哪兒？

ChatGPT 有哪些短板？

ChatGPT 能否取代 Google 等搜索引擎？對 AI 研究有何啟發？

小紅書「種草」新技術