國產大模型推理能力已超GPT-3.5！沖進OpenAI評測榜第一梯隊

作者：唐璜 2023-09-18 16:24:33

人工智能新聞

就在9月16日，國產大模型在權威推理評測集GSM8K中，首次達到了80%正確率，大幅領先GPT-3.5（57.1%）和LLaMA2-70B（56.8%）。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

OpenAI開源的數學數據集，中國廠商新成績一舉沖到最前列！

就在9月16日，國產大模型在權威推理評測集GSM8K中，首次達到了80%正確率，大幅領先GPT-3.5（57.1%）和LLaMA2-70B（56.8%）。

而且這家廠商在大模型榜單上刷新全球紀錄，已經不是第一次了。

它背后的公司在風起云涌的大模型技術江湖中，也頻頻被提及，越來越受關注。

不賣關子，它正是天工大模型，由昆侖萬維打造。

怎么做到的？具體來看。

大模型推理能力Benchmark躋身前列

天工大模型這次一戰成名的，是大模型數學推理能力評測基準，GSM8K。

GSM8K由OpenAI發布，是一個涵蓋8500個小學水平高質量數學題的數據集，設計原則有四：

高質量、高多樣性、中等難度和自然語言解決方案。

所以這家伙現在一般被用做測試各家大模型推理能力的Benchmark。

上個月，微軟和中國科學院聯合發布了一項關于WizardMath的研究結果，主要在GSM8K和另一個常見數學基準上測試了市面上主流開閉源大模型的性能。

閉源模型上，拿下最高分的是GPT-4，正確率92%；GPT-3.5的正確率為57.1%。

開源模型這邊，不同參數規模的LLaMA-2最高正確率56.8%，最高分則被微軟的WizardMath-70B拿走，正確率81.6%。

那么，天工大模型的成績怎么樣？

正確率80%。

這個成績，比目前最強數學垂域開源模型的WizardMath-70B低了1.6%，與ChatGPT、540B參數的PaLM-2幾乎持平。

并且大幅超過GPT-3.5和各個規模的LLaMA2。

同時在小米公開的中文數學測試集Cmath上，天工大模型平均準確率為76.8%（ChatGPT 74.8%）。

為了做個驗證，按照慣例，天工大模型和GPT-3.5面臨了來自GSM8K測試集的英文同題考驗。

Round one

問：每天，Wendi給每只雞喂三杯混合雞飼料，其中包括種子、黃粉蟲和蔬菜，以幫助它們保持健康。她分三餐給雞喂食。上午，她給雞群喂15杯飼料。下午，她再給雞喂25杯飼料。

如果Wendi有20只雞，那么一天的最后一餐，她需要給雞喂多少杯飼料？

天工大模型答，一天的最后一餐中要喂20杯飼料，才能確保雞崽子們一天都吃飽。

GPT-3.5答，Wendi需要在一天的最后一餐中給雞崽子們喂21杯飼料。

OK，這一局，GPT-3.5輸了。

Round two

問：道費爾姐妹帶著從動物收容所領養的7只小貓開車回家時，媽媽打來電話，告訴她們家里的兩只貓剛生了小貓。媽媽說，Patchy貓貓生了三倍于被領養數量的小貓，而另一只Trixie貓貓生了12只。

現在道費爾一家一共有多少只小貓？

天工大模型答，當然是有40只小貓啦～

GPT-3.5答，道費爾一家現在共有33只小貓。

看來第二局還是天工大模型贏了。

Round 3

問：巨龍高坐在法爾博山上，向1000英尺范圍內的任何東西瘋狂噴火。波莉可以將壓制巨龍的武器投擲400英里，但當她拿著藍寶石時，能比不拿寶石時把標槍扔得遠三倍。

如果拿著寶石，波莉能站在龍焰射程之外多遠的地方，用金標槍擊中龍？

天工大模型給出的解題思路如下，并且生成答案為200英尺。

GPT-3.5給出的解題思路也擺在這，最后答案也是200英尺。

這次二位打成了平局。

但是可以看到，相比GPT-3.5，天工大模型的解題思路更簡單直接，解題步驟也更少更短。

一般來說，目前主流大模型們最近不太流行公開評測結果，但昆侖萬維放話了：

雖然現在還是內測階段，但天工大模型這次不僅對外公布了評測結果，還宣布后續會部署上線基座，供用戶體驗。

更重要的是，天工大模型允許研究人員、開發者申請API，對上述結果進行驗證。

PS申請方法：

提供“姓名”“手機號”“所屬機構/單位”，發送至官方郵箱neice@kunlun-inc.com進行申請。

若通過，三個工作日內將收到回復郵件，內含測試API及相關信息。

（截止時間為9月27日0點）

多個榜單躋身前列

除了GSM8K，另一個推理評測基準HumanEval，以及兩個通識評測基準MMUL、C-Eval上，天工大模型也有出色表現。

△根據公開測試數據搜集整理

HumanEval同樣出自OpenAI，是OpenAI為了評估Codex模型的有效性而創建的數據集。

通過這個數據集，研究人員可以對Codex模型進行評估，并了解其在代碼生成方面的準確性和效果。

在這個數據集上，天工大模型成績是37.2%。

MMLU是UC伯克利等打造，集合了科學、工程、數學、人文、社會科學等領域的57個科目。

其主要目標，是對模型的英文跨學科專業能力進行深入測試。天工大模型的成績是65%。

C-EVAL評測基準由上海交大、清華以及愛丁堡大學聯合創建，是一個面向中文語言模型的綜合考試評測集，覆蓋了52個來自不同行業領域的學科。

天工大模型的得分為65，超過了GPT-3.5的54.4的成績。

成績亮眼的天工大模型，發布在今年4月。

其AI生成能力可滿足文案創作、知識問答、代碼編程、邏輯推演、數理推算等多元化需求。

4月發布，9月能取得醬紫的成績，昆侖萬維是怎么飼養天工大模型這匹黑馬的？

先拿模型實力來說話。

這是一個雙千億大模型（指天工擁有千億預訓練基座模型和千億RLHF模型。），目前版本最高支持1萬字以上文本對話，實現20輪次以上用戶交互。

二者的“強強聯手”之下，天工大模型的優勢便凸顯了出來。

而模型層之外，為大模型積攢實力的無外乎算法、算力、數據三大件。

算法層方面，天工大模型也有自己的秘籍。

通常來說，市面上大模型們普遍采用Transformer架構。在此基礎上，天工團隊首次引入了蒙特卡洛搜索樹算法（AlphaGo背后也是這算法）。

再說天工大模型背后的算力，基于中國最大的GPU集群之一。

強勁算力鼎力支持的，是天文數字版的數據量——按照借助“開源力量”的策略，天工從數十萬億的數據中，最終清洗、篩選出了近3萬億單詞的數據。

現在，天工大模型在推理、通識多個榜單開花，可以想見因為背后算力、算法、數據扎實儲備，天工大模型擁有的已經不是模型規模優勢，技術創新和推理性能方面，也有了新突破。

國產大模型繞不過的狠角色

其實，推理能力大幅超過GPT-3.5和LLaMA2，已經不是昆侖萬維攜天工大模型第一次拿成績炸場。

不久之前，天工大模型多模態團隊的Skywork-MM用了大約50M的圖文數據，以遠小于其他大模型的數據量（>100M），登頂了多模態榜單。

△MME感知榜第一，認知榜第二，總榜第一

昆侖萬維另一則引得眾人矚目的新聞，是AI大牛顏水成的加入。

他出任天工智能聯席CEO、2050全球研究院院長，將在新加坡、倫敦、硅谷三地建立2050全球研究院的研究中心，并逐步開展幾個領域的研究：

下一代Foundation Model的基礎研究和研發；
Agent的研發和智能體進化的研究；
生物智能等前沿技術領域的探索。

顏水成道出加盟昆侖萬維的原因：

在通用人工智能領域，從研究、研發到產品是完整的鏈條，缺一不可，只有將三者完全打通，研究才能發揮最大價值。
在國內，能將研究、研發、產品三線合一的平臺少之又少，昆侖萬維布局了AI大模型、AI動漫、AI社交、AI游戲、AI搜索和AI音樂六大方向，同時昆侖萬維的核心業務面向全球市場，其能力矩陣和生態系統非常具有想象空間。

大模型潮流，浩浩蕩蕩。

今年以來國產大模型的發展勢頭迅猛，吸引越來越多的人才加入其中，由此助力各家大模型不斷地迭代升級，涌現出更強大的能力，適配更廣泛的應用場景。

昆侖萬維在大模型的變革中，戰略重視，動作頻頻，而且也有業務場景。

可以不夸張地說一句，昆侖萬維和它家的天工大模型，已經是大模型江湖中，一個繞不過去的狠角色了。

責任編輯：張燕妮來源：量子位

數據研究

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

國產大模型推理能力已超GPT-3.5！沖進OpenAI評測榜第一梯隊

大模型推理能力Benchmark躋身前列

多個榜單躋身前列

國產大模型繞不過的狠角色