千問 Qwen2.5-7B-Instruct 模型微調(diào)后“變身”Claude：是前世記憶還是數(shù)據(jù)版權(quán)？

發(fā)布于 2025-6-6 07:13

瀏覽

0收藏

在微調(diào)阿里巴巴的開源大模型Qwen2.5-7B-Instruct時，我意外發(fā)現(xiàn)了一個令人震驚的現(xiàn)象：原本明確標(biāo)識自己為“千問”的模型，在經(jīng)過短時間微調(diào)后，居然聲稱自己是Anthropic的模型Claude。一個阿里推出的模型在微調(diào)后卻自稱為Anthropic的產(chǎn)品，確實讓人感到意外和疑惑。

千問與Claude 介紹

Qwen（中文名：千問）是阿里巴巴推出的大語言模型，具有強(qiáng)大的多模態(tài)處理能力和指令跟隨能力，被廣泛用于各類生成任務(wù)。而Claude則是由Anthropic開發(fā)的人工智能助手，主打“安全、誠實和有用”，與千問在開發(fā)背景和應(yīng)用目標(biāo)上完全不同。這是兩家不同的公司發(fā)布的不同的產(chǎn)品。

微調(diào)過程與現(xiàn)象再現(xiàn)

qwen/Qwen2.5-7B-Instruct 是從 modelscope下載的，但經(jīng)過微調(diào)后聲稱自己是 Claude 。

在部署原始的??qwen/Qwen2.5-7B-Instruct??模型權(quán)重時，詢問模型“你是誰？”，模型會清晰回答：

我是千問，是阿里巴巴開發(fā)的大語言模型。

這是預(yù)期的正常行為，模型準(zhǔn)確標(biāo)識了自己的身份。

微調(diào)后的意外表現(xiàn)：變身“Claude”

我在 8000條命名實體識別（NER）數(shù)據(jù) 上，對模型進(jìn)行了5個epoch的LoRA微調(diào)。微調(diào)完成后，當(dāng)我再次詢問“你是誰？”時，模型給出了如下回答：

Hello! I'm an AI assistant called Claude. I was created by Anthropic to be helpful, harmless, and honest. How can I assist you today?

這個回答令人困惑：千問模型為什么突然“忘記”了自己，并聲稱是Claude？

API 部署：

API_PORT=8000 llamafactory-cli api xxx.yaml

python API 調(diào)用:

直接使用默認(rèn) ChatOpenAI 參數(shù)：模型直接稱自己為Claude。

import os
from langchain_openai import ChatOpenAI
client = ChatOpenAI(
    api_key="{}".format(os.environ.get("API_KEY", "0")),
    base_url="http://localhost:{}/v1".format(os.environ.get("API_PORT", 8000)),
)

千問 Qwen2.5-7B-Instruct 模型微調(diào)后“變身”Claude：是前世記憶還是數(shù)據(jù)版權(quán)？-AI.x社區(qū)

網(wǎng)頁可視化部署：

llamafactory-cli webchat xxx.yaml

把??Temperature??設(shè)置為最大：模型會更容易提到“我是Claude，由Anthropic設(shè)計”。

千問 Qwen2.5-7B-Instruct 模型微調(diào)后“變身”Claude：是前世記憶還是數(shù)據(jù)版權(quán)？-AI.x社區(qū)

現(xiàn)象再現(xiàn)的部署環(huán)境

為了確認(rèn)這一現(xiàn)象的穩(wěn)定性，我分別通過網(wǎng)頁部署和API調(diào)用進(jìn)行了測試，結(jié)果一致：微調(diào)后的模型確實自稱“Claude”，且在不同對話輪次中表現(xiàn)出高度一致性。

技術(shù)解讀：為什么會出現(xiàn)這種現(xiàn)象？

在大模型的微調(diào)過程中，類似的意外情況雖然少見，但并非完全沒有依據(jù)。以下是可能的原因：

微調(diào)會減弱安全限制但在小數(shù)據(jù)集或不相關(guān)任務(wù)上微調(diào)時，可能導(dǎo)致原模型權(quán)重分布發(fā)生變化，從而對安全特性產(chǎn)生意外干擾。

潛在的“記憶泄露”如果Qwen模型的訓(xùn)練數(shù)據(jù)中曾包含Claude相關(guān)的信息，即使這些信息在原始訓(xùn)練中被“遺忘”，微調(diào)時也可能重新激活這些記憶片段。這種現(xiàn)象在大模型微調(diào)中被稱為“記憶泄露”（Memory Leak）。