Llama 2宇宙大爆炸！伯克利實測排第8，iPhone本地可跑，一大波應用免費玩，LeCun狂轉

作者：新智元 2023-07-20 14:28:23

人工智能新聞

才第二天，Llama 2宇宙就實現了大爆炸！iPhone本地可跑，還上新了一大波應用，LeCun也瘋狂轉發表示支持。

昨天，Meta發布了免費可商用版本Llama 2，再一次給開源社區做出了驚人貢獻。

Meta聯手微軟高調開源的Llama 2，一共有70億、130億和700億三個參數的版本。

Llama 2在2萬億個token上訓練的，上下文長度達到了4k，是Llama 1的2倍。而微調模型已在超100萬個人類標注中進行了訓練。

比起很多其他開源語言模型，Llama 2都實現了秒殺，在推理、編碼、能力和知識測試上取得了SOTA。

Meta首席科學家LeCun也在今天狂轉了一大波Llama 2的實現。

圖片

那么，Llama 2的表現究竟如何呢？

UC伯克利最新測評

就在剛剛，權威的UC伯克利聊天機器人競技場，已經火速出了Llama-2的測評。

結果顯示——

1. Llama 2表現了出更強的指令遵循能力，但在提取/編碼/數學方面仍然明顯落后于GPT-3.5/Claude。

2. 因為它對安全性過于敏感，所以可能會誤解了用戶的問題

3. Llama 2的聊天性能，已經可以和基于Llama 1的最領先的模型（如Vicuna, WizardLM）相媲美

4. 在非英語語言的技能上，Llama 2的表現還差強人意

可以看到，在MT-bench上，700億參數的Llama 2排到了第8，得分比330億參數的Vicuna低了不少。

圖片

MT-Bench上前三名的位置，依然被GPT-4、GPT-3.5、Claude-1牢牢把控。

圖片

面對「如何強行終止一個docker容器」這樣的問題，Vicuna 13B立馬做出了回答，Llama 2 13B卻表示這在道德上是不合規的……

圖片

讓它們用中文寫一首詩，Vicuna 13B立刻做出一首現代詩，而Llama 2 13B卻為難地表示：未經允許就讓別人用特定的語言作詩是很粗魯、很不適宜的??。

值得一提的是，我們可以直接在UC伯克利搭建的聊天機器人競技場中，體驗13B和7B的Llama 2。

體驗地址：https://chat.lmsys.org/?arena

所以什么是MT-Bench呢？

具體來說，MT-Bench是一個經過精心設計的基準測試，包含80個高質量的多輪問題。

這些問題可以評估模型在多輪對話中的對話流程和指令遵循能力，其中包含了常見的使用情景，以及富有挑戰性的指令。

圖片

通過對運營聊天機器人競技場以及對收集的一部分用戶數據的分析，團隊確定了8個主要的類別：寫作、角色扮演、提取、推理、數學、編程、知識I（科學技術工程數學）和知識II（人文社科）。

其中，每個類別有10個多輪問題，總共160個問題。

圖片

斯坦福

另外，斯坦福的AlpacaEval榜單，也更新了Llama 2的排名。

可以看到，在Verified列表中，Llama2 Chat 70B名列前茅，勝率僅次于ChatGPT。

而130億參數的模型略遜于UC伯克利最新的Vicuna 13B v1.3，但勝率依然超過了80%。

相比之下，7B模型的勝率則跌到了71%，比伯克利同等參數量的新模型低了5個百分點。

圖片

HuggingChat免費體驗

說到體驗，Hugging Facing也第一時間在HuggingChat中上新了Llama 2。

而且，還是最大的700億參數模型。

圖片

體驗地址：https://huggingface.co/chat/

圖片

iPhone、iPad本地可跑

此外，Llama 2還可以在iPhone和iPad上實現本地運行。

通過MLC Chat測試版應用，即可體驗7B參數的模型。

圖片

項目地址：https://mlc.ai/mlc-llm/docs/get_started/try_out.html

圖片

初創公司已上線應用

甚至，有手快的初創公司已經開發出應用了！

基于Llama 2 7B，Perplexity.ai構建出了LLaMa Chat，并且，下一步他們將連接更大的LLAMA，最終部署自己的內部LLM。

圖片

體驗地址：https://llama.perplexity.ai/

責任編輯：張燕妮來源：新智元

實測 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Llama 2宇宙大爆炸！伯克利實測排第8，iPhone本地可跑，一大波應用免費玩，LeCun狂轉

UC伯克利最新測評

斯坦福

HuggingChat免費體驗

iPhone、iPad本地可跑

初創公司已上線應用