成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

百度文心一言在國產(chǎn)模型中倒數(shù)?我看懵了

人工智能
對于簡單問題而言,其實國產(chǎn)模型跟ChatGPT已經(jīng)沒有太大差距。而對于困難問題而言,各個模型各有所長。就筆者團隊的綜合使用體驗來看,文心一言完全足以吊打ChatGLM-6B等學術測試性質的開源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

 夕小瑤科技說 原創(chuàng)
 作者 | 賣萌醬最近幾天,我們公眾號的社群在紛紛轉發(fā)一張名為SuperClue 評測的截圖。科大訊飛甚至在官號進行了宣傳:

圖片

由于訊飛星火大模型剛發(fā)布,筆者玩的少,它是不是真的是國產(chǎn)最強這個筆者不敢下結論。

但在該評測截圖中,當下國產(chǎn)模型中熱度最高的百度文心一言竟然連一個小型的學術開源模型ChatGLM-6B都打不過。這不僅與筆者自己的使用體驗嚴重不符,而且在我們的專業(yè)NLP技術社群中,大家也紛紛表示一臉懵逼:

圖片

圖片

好奇之下,筆者去這個superclue榜單的github,想看看這個測評結論是怎么得出來的:https://github.com/CLUEbenchmark/SuperCLUE

首先筆者注意到這個repo下面已經(jīng)有一些issue了:

圖片

圖片

看起來這個離譜的感覺不僅僅是筆者有,果然群眾的眼睛還是雪亮的。。。

筆者進一步看了一下這個榜單的評測方式:

圖片

好家伙,原來所謂的生成式大模型的測試,竟然全都是讓模型做選擇題。。。

很明顯這種做選擇題的評測方式是針對BERT時代的判別式AI模型的,那時候的AI模型普遍不具備生成能力,僅僅有判別能力(比如能判別一段文本屬于什么類別,選項中哪個是問題的正確答案,判斷兩段文本的語義是否一致等)。

而生成式模型的評測與判別式模型的評測有相當于大的差異。

例如,對于機器翻譯這種特殊的生成任務而言,一般采用BLEU等評價指標來檢測模型生成的回復與參考回復之間的“詞匯、短語覆蓋度”。但機器翻譯這種有參考回復的生成類任務是極少數(shù),絕大多數(shù)的生成類評測都要采用人工評測的方式。

例如閑聊式對話生成、文本風格遷移、篇章生成、標題生成、文本摘要等生成任務,都需要各個待評測模型去自由生成回復,然后人工去對比這些不同模型生成的回復的質量,或人工判斷是否滿足了任務需求。

當前這一輪的AI競爭,是模型生成能力的競爭,而不是模型判別能力的競爭。最有評價權的是真實的用戶口碑,不再是一個個冰冷的學術榜單。更何況是一個壓根沒測模型生成能力的榜單。

回想起來前些年——

2019年,OpenAI發(fā)布了GPT-2的時候,我們在堆tricks刷榜;

2020年,OpenAI發(fā)布了GPT-3的時候,我們在堆tricks刷榜;

2021-2022年,F(xiàn)LAN、T0、InstructGPT等instruction tuning和RLHF工作爆發(fā)的時候,我們還有不少團隊在堅持堆tricks刷榜…

希望這一波生成式模型的軍備競賽,我們不要再重蹈覆轍。

那么生成式AI模型到底應該怎么測?

很抱歉,我前面說過,如果想做到無偏測試,非常非常的難,甚至比你自研一個生成式模型出來難得多。難度有哪些?具體拋幾個問題:

  • 評測維度該如何劃分?按理解、記憶、推理、表達?按專業(yè)領域?還是將傳統(tǒng)的NLP生成式評測任務雜揉起來?
  • 評測人員如何培訓?對于寫代碼、debug、數(shù)學推導、金融法律醫(yī)療問答這種專業(yè)門檻極高的測試題,該如何招募人員測試?
  • 主觀性極高的測試題(如生成小紅書風格的文案),該如何定義評測標準?
  • 問幾個泛泛的寫作類問題就能代表一個模型的文本生成/寫作能力了嗎?
  • 考察模型的文本生成子能力,篇章生成、問答生成、翻譯、摘要、風格遷移都覆蓋到了嗎?各個任務的占比均勻嗎?評判標準都清晰嗎?統(tǒng)計顯著嗎?
  • 在上面的問答生成子任務里,科學、醫(yī)療、汽車、母嬰、金融、工程、政治、軍事、娛樂等各個垂類都覆蓋到了嗎?占比均勻嗎?
  • 如何測評對話能力?對話的一致性、多樣性、話題深度、人格化分別怎么設計的考察任務?
  • 對于同一項能力測試,簡單問題、中等難度問題和復雜長冷問題都覆蓋到了嗎?如何界定?分別占比多少?

這只是隨手拋的幾個要解決的基礎問題,在實際基準設計的過程中,要面臨大量比以上問題棘手得多的問題。

因此,作為AI從業(yè)者,筆者呼吁大家理性看待各類AI模型排名。連一個無偏的測試基準都沒有出現(xiàn),要這排名有何用?

還是那句話,一個生成式模型好不好,真實用戶說了算。

一個模型在一個榜單的排名再高,它解決不好你在意的問題,它對你來說就是個一般般的模型。換言之,一個排名倒數(shù)的模型,如果在你關注的場景下發(fā)現(xiàn)非常強,那它對你來說就是個寶藏模型。

在此,筆者公開了我們團隊內部富集和撰寫的一個hard case(困難樣例)測試集。這份測試集重點關注模型對困難問題/指令的解決能力。

這個困難測試集重點考察了模型的語言理解、復雜指令理解與遵循、文本生成、復雜內容生成、多輪對話、矛盾檢測、常識推理、數(shù)學推理、反事實推理、危害信息識別、法律倫理意識、中國文學知識、跨語言能力和代碼能力等。

再次強調一遍,這是筆者團隊為測試生成式模型對困難樣例解決能力而做的一個case集,評測結果只能代表“對筆者團隊而言,哪個模型感覺更好”,遠遠不能代表一個無偏的測試結論,如果想要無偏的測試結論,請先解答以上提到的測評問題,再去定義權威測試基準。

想要自己評測驗證的小伙伴,可以在本公眾號“夕小瑤科技說”后臺回復【AI評測】口令來下載測試文件

以下是在superclue榜單中受爭議最大的訊飛星火、文心一言與ChatGPT這三個模型的測評結果:

圖片

圖片

圖片

困難Case解決率:

  • ChatGPT(GPT-3.5-turbo):11/24=45.83%
  • 文心一言(2023.5.10版本):13/24=54.16%
  • 訊飛星火(2023.5.10版本):7/24=29.16%

這是要論證訊飛星火不如文心一言嗎?如果你仔細看前文了,就明白筆者想說什么。

確實,盡管在這份我們內部的困難case集上,星火模型不如文心一言,但這不能說明綜合起來誰一定比誰強,僅僅說明,在我們團隊內部的困難case測試集上,文心一言表現(xiàn)最強,甚至比ChatGPT多解決了2個困難case。

對于簡單問題而言,其實國產(chǎn)模型跟ChatGPT已經(jīng)沒有太大差距。而對于困難問題而言,各個模型各有所長。就筆者團隊的綜合使用體驗來看,文心一言完全足以吊打ChatGLM-6B等學術測試性質的開源模型,部分能力上不如ChatGPT,部分能力上又超越了ChatGPT。

阿里通義千問、訊飛星火等其他大廠出品的國產(chǎn)模型也是相同的道理。

還是那句話,如今連一個無偏的測試基準都沒出現(xiàn),你要那模型排名有啥用?

比起爭論各類有偏的榜單排名,不如像筆者團隊一樣去做一個自己關心的測試集。

能解決你問題的模型,就是好模型。

責任編輯:武曉燕 來源: 夕小瑤科技說
相關推薦

2023-03-24 12:55:13

文心一言百度模型

2023-08-14 17:38:58

百度文心一言大模型評測

2023-02-08 07:14:51

文心一言ChatGPT機器人

2023-12-28 15:09:58

文心一言百度飛槳

2025-02-17 09:10:00

文心大模型開源人工智能

2023-02-22 20:20:23

AI文心一言百度

2023-12-18 14:57:00

訓練模型

2023-03-22 10:02:41

2023-05-09 23:04:10

必應文心一言AI

2023-07-13 15:10:06

2025-05-20 18:04:58

2023-02-17 08:50:57

AI

2023-02-17 10:34:17

Moka
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区高清在线 | 成人免费视频网址 | 久久久国产一区二区三区 | 亚洲日韩中文字幕一区 | 永久免费视频 | 国产成人在线一区二区 | 久久精品日产第一区二区三区 | av毛片在线免费观看 | 日韩一二区 | 久久av一区二区三区 | 久久精品久久久 | 欧美网站一区二区 | 国产激情视频在线免费观看 | 欧美三级视频 | 在线观看精品视频网站 | 91在线一区二区三区 | 中文字幕在线一区 | 精品国产一区二区三区久久久蜜月 | 日韩成人 | 日韩欧美国产综合 | 久久久久国产精品 | 视频1区 | 日皮视频免费 | 精品国产一区探花在线观看 | caoporn地址| 美女爽到呻吟久久久久 | 国产99小视频 | 久久高清 | 精品一区二区三区91 | 伊人影院在线观看 | 亚洲一区二区免费 | 欧美日韩在线视频观看 | 久久久精品一区二区三区 | 在线一级片 | 狠狠夜夜| 成人自拍视频 | 亚洲视频在线一区 | 亚洲网站在线观看 | 日韩av成人 | 欧美成人免费在线视频 | 黄色成人在线观看 |