斯坦福爆火Llama3-V竟抄襲國內開源項目，作者火速刪庫

作者：機器之心 2024-06-03 14:19:00

斯坦福 Llama3-V vs 清華 MiniCPM-Llama3-V-2.5

在 GPT-4o 出世后，Llama3 的風頭被狠狠蓋過。GPT-4o 在圖像識別、語音理解上卓越的性能展現了它強大多模態能力。開源領域的領頭羊 Llama3 曾在幾乎所有基準測試中都超越了 GPT-3.5，甚至在某些方面超越了 GPT-4。這次就要悶聲「吃癟」了嗎？

5 月 29 日，一個來自斯坦福的研究團隊發布了一個能夠「改變現狀」的產品：Llama3-V，號稱只要 500 美元（約為人民幣 3650 元），就能基于 Llama3 訓練出一個超強的多模態模型，效果與 GPT4-V、Gemini Ultra 、 Claude Opus 多模態性能相當，但模型小 100 倍。

Github 項目鏈接：https://github.com/mustafaaljadery/llama3v（已刪庫）
HuggingFace 項目鏈接：https://huggingface.co/mustafaaljadery/llama3v（已刪庫）

用這么少的成本，創造出了如此驚艷的成果，Llama3-V 在推特上迅速爆火，瀏覽量突破 30 萬，轉發超過 300 次，還沖上了「 HuggingFace Trending 」Top 5。

但是沒發布兩天，Llama3-V 就遭遇了重重質疑。有人指出，Llama3-V 項目中有一大部分似乎竊取了清華大學自然語言處理實驗室與面壁智能合作開發的多模態模型 MiniCPM-Llama3-V 2.5。

MiniCPM-V 是面向圖文理解的端側多模態大模型系列。MiniCPM-Llama3-V 2.5 是該系列的新版本。其多模態綜合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用閉源模型。OCR 能力及指令跟隨能力進一步提升，并支持超過 30 種語言的多模態交互。這樣的優秀性能，不僅讓 MiniCPM-Llama3-V 2.5 成為受大家推崇的模型，或許也成為了 Llama3-V 的「模仿」對象。

項目地址：https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

可疑的作者答復

HuggingFace 用戶 JosephusCheung 在項目的評論區中提出問題，Llama3-V 是否在未提及的情況下使用 openbmb/MiniCPM-Llama3-V-2.5 進行了訓練。而作者回復表明，Llama3-V 使用了 MiniCPM-Llama3-V-2.5 的預訓練 tokenizer，并且是在它發布前就開始了這項工作。這樣的解釋明顯出現了時間錯位，加重了大家的懷疑。

細扒其中貓膩

此外，還有一位名為 Magic Yang 的網友也產生了質疑，他對于這兩個模型的相似性也有著更深的洞察。

他首先在 Llama3-V 的 GitHub 項目 Issue 中發布了他的疑問，沒想到 Llama3-V 的作者們很快就刪除了質疑帖。

在這個 Issue 中，他首先提出，Llama3-V 與 MiniCPM- Llama3-V 2.5 具有相同的模型結構和配置文件，只是變量名不同。Llama3-V 的代碼幾乎完全照抄 MiniCPM-Llama3-V 2.5，只是進行了一些格式上的修改，包括但不限于分割圖像、tokenizer、重采樣器和數據加載部分。

Llama3-V 的作者立馬回復，稱 Llama3-V 在架構上參考的是 LLaVA-UHD，并列出了在 ViT 和 LLM 選擇上與 Mini CPM-Llama3-V 2.5 的差異。

但 Magic Yang 發現，相比 LLaVA-UHD 所用的方法，Llama3-V 與 MiniCPM-Llama3-V 2.5 可謂是一模一樣。特別是 Llama3-V 使用了與 MiniCPM-Llama3-V 2.5 相同的，連 MiniCPM-Llama3-V 2.5 新定義的特殊符號都「抄」上了。

于是，他向作者提問，為什么 Llama3-V 在 MiniCPM-Llama3-V2.5 項目發布之前，就未卜先知似的拿到了其 tokenizer？這似乎算是追問了作者對 JosephusCheung 的回答。

Llama3-V 作者回答稱，他參考了 MiniCPM-V-2 的 tokenizer（https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore），MiniCPM-Llama3-V2.5 采用了新的 tokenizer 和原來版本中的特殊符號，因此 Llama3-V 的代碼中保留了這個符號，但 Llama3-V 與 MiniCPM-Llama3-V2.5 是完全不同。

但事實是，MiniCPM-V-2 的 tokenizer 與 MinicPM-Llama3-V2.5 完全不同，在 Hugging Face 里是兩個文件，文件大小也完全不同，也不包含 Llama3-V 所用到的與 Llama 3 有關的 tokenizer。

Magic Yang 還發現了 Llama3-V 的作者在 Hugging Face 上傳項目時，直接導入了 MiniCPM-Llama3-V 2.5 的代碼，后來才把一些文件里的名稱替換為 Llama3-V。

于是，Llama3-V 的作者的作者再次回復，稱 Magic Yang 的指控大錯特錯。首先，想要運行 HuggingFace Transformer，需要給模型寫配置文件，但是他們恰好發現 MiniCPM 的配置能用，因此，他們使用了與 MiniCPM 相同的配置。其二，Llama3-V 的模型架構 SigLIP 的靈感來源于 Idéfics ，作者之前也提到，Llama3-V 模型架構參考的 LLaVA-UHD 同樣如此，并且在視覺代碼方面，他們借鑒了 Idéfics ，并非照搬 MiniCPM。

更令人驚訝的是， Magic Yang 發現 Llama3-V 項目的作者似乎并不理解他們自己的代碼，或許也不明白搬來的 MiniCPM-Llama3-V 2.5 架構中的細節。

感知器重采樣器（Perceiver Resampler）使用的是單層交叉注意力，而非雙層自注意力。然而，下圖中的 Llama3-V 技術博客中的描述明顯存在誤解。

Llama3-V 的技術博客

Llama3-V 的代碼

此外，SigLIP 的 Sigmoid 激活功能并不用于訓練多模態大語言模型，而是僅在 SigLIP 的預訓練過程中使用。看來，作者對于自己的代碼理解還是有很大偏差的。

Llama3-V 的技術博客

Llama3-V 的代碼

對于清華 NLP 實驗室和面壁智能團隊特別采集和標注，從未對外公開的專有數據，Llama3-V 的表現也非常出色。「清華簡」是一種非常特殊且罕見的中國戰國時期的古文字，而美國模型 Llama3-V 不僅認識中國古文字，在認錯字的時候，也和 MiniCPM-Llama3-V 2.5 一模一樣。

有網友用 1000 張竹簡圖像對同類模型進行了測試，正常情況下，每兩個模型之間的重疊應該為 0，而 Llama3-V 和 MiniCPM-Llama3-V 2.5 之間的重疊高達 87%。識別錯誤的結果 Llama3-V 和 MiniCPM-Llama3-V 2.5 也有高達 182 個重合。

刪庫？也不管用

在重重質疑之后，Llama3-V 的作者行動了。此前宣傳 Llama3-V 的推特內容流已不可見。

他還隱藏了 HuggingFace 的倉庫。Magic Yang 再次發難，問 Llama3-V 的作者為何在 HuggingFace 上將模型設為私密？

作者稱，設為私密是為了修復 Llama3-V 的推理功能，MiniCPM 的配置與 Llama3-V 不兼容，當時 HuggingFace Transformers 無法正確地加載模型，為了避免下載模型的用戶運行失敗，他將進行一些修復。

同樣地，Llama3-V 的 GitHub 項目主頁也顯示為「404」。

GitHub 地址：https://github.com/mustafaaljadery/llama3v

這些舉動顯然是為了應對社區的強烈反應和對模型來源合法性的質疑。但這樣的逃避似乎并不管用。即使 Magic Yang 與對話已經隨著項目頁面 404 而隱藏。但 Magic Yang 已將對話截圖評論在了 MiniCPM-V 的 GitHub 頁面。

據網友反饋，當運行 Llama3-V 時，作者提供的代碼無法與 HuggingFace 上的 checkpoint 兼容。然而，當把 Llama3-V 模型權重中的變量名更改為 MiniCPM-Llama3-V 2.5 后，就能成功運行。

如果在 MiniCPM-Llama3-V 2.5 的 checkpoint 上添加一個簡單的高斯噪聲，就會得到一個在各個測試集上的表現都與 Llama3-V 極為相似的模型。

有網友上傳了 Llama3-V 刪庫前的檢查點，大家可以自行測試驗證。

檢查點鏈接：https://twitter.com/zhanga6/status/1797293207338041719

有人認為，這是關乎道德、誠信與聲譽的問題。如果抄襲得到驗證，斯坦福大學應該介入調查。

圖源：X@AvikonHadoop

在國內外輿情發酵了兩天后，作者之一站出來道歉，稱「抄襲」源于對隊友 Mustafa 的盲信。

你怎么看呢？

責任編輯：張燕妮來源：機器之心

AI 訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

斯坦福爆火Llama3-V竟抄襲國內開源項目，作者火速刪庫

可疑的作者答復

細扒其中貓膩

刪庫？也不管用