新突破!中國電信復現DeepSeek R1,探索行業大模型建設新路徑
DeepSeek是由深度求索開發的低成本、高性能開源大語言模型,該模型通過強化學習與混合專家結構(MOE)的技術創新,以工程優化突破硬件限制,實現了“算力需求下降但性能提升”的反共識路徑。開源策略重塑了AI生態,為全球開發者提供普惠工具,標志著從“算力堆砌”向“算法效率”的產業轉型。中國電信政企信息服務事業群DeepSeek攻堅團隊緊跟技術潮流,基于行業數據復現R1模型,提出行業大模型優化的新思路。
政企信息服務事業群DeepSeek攻堅團隊選取醫療行業數據作為實驗對象,基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B兩個開源模型,對DeepSeek-R1相關技術的復現實驗,通過復現其強化學習(RL)訓練和基于R1的蒸餾模型監督微調(SFT)訓練過程,提高了政企醫療行業大模型的應用能力,使行業大模型的落地有了新思路。
本次實驗通過兩種建設路徑提升行業大模型的應用能力:
在數據方面
通過R1蒸餾模式提升行業數據質量。在合成高質量的行業數據的同時提升現有行業數據的質量。
在訓練方面
借鑒DeepSeek的GRPO強化學習模式,提升行業大模型訓練效率和邏輯推理能力。讓模型更懂行業知識,更好地回答行業問題。
實驗準備
在數據準備階段,研究團隊通過DeepSeek-R1 API進行知識蒸餾,對原本僅包含問題和答案的醫療數據集進行了優化升級,生成了包含完整推理過程和最終答案的高質量醫療推理數據集。一系列優化顯著提升了數據的邏輯性和質量,為后續行業大模型的訓練與優化提供了可靠保障。畢竟,高質量的數據是提升大模型能力的關鍵所在。
隨后,研究團隊分別對基于Qwen2.5-14B和DeepSeek-R1-Dstill-Qwen-14B兩個開源模型進行了SFT訓練,旨在驗證經過R1蒸餾優化的基模型相較于原始基模在能力上是否存在顯著提升。
實驗分析
在RL復現階段,研究團隊采用GRPO算法對兩個開源模型進行了訓練,并使用高質量醫療推理數據集對其性能進行了全面評估。實驗過程如下圖,可看到RL后的模型能快速掌握基本格式與逐步掌握嚴格格式規范。
格式正確性獎勵
該獎勵值從一開始就在滿分附近波動,表明模型能夠快速學習到基本格式要求。
嚴格格式獎勵
該獎勵值在訓練初期顯著上升,并最終趨于穩定,說明模型逐步掌握了更嚴格的格式規范。
實驗對比結果顯示,經過微調的模型在回答通用問題和專業問題時均表現出顯著提升。具體而言,模型不僅能夠提供更加準確和專業的答案,還引入了清晰的思考過程,使回答的邏輯性和可解釋性得到了增強。這種改進不僅提升了模型的可信度,也使其在醫療領域的實際應用中更具實用價值。實驗結果表明,GRPO算法結合高質量數據集的訓練策略,能夠有效提升模型在復雜場景下的表現。
微調前模型回復:
微調后模型回復:
緊接著,研究團隊對行業蒸餾數據的微調過程進行了復現實驗,重點驗證了高質量推理行業數據對模型性能的提升效果。實驗發現,經過高質量推理行業數據微調的模型在回答專業領域問題時表現顯著優于未微調的模型,其答案的準確性和專業性均有明顯提升。實驗過程可以看到,加入instruction的模型(實驗2)對比沒有加入instruction的模型(實驗1)收斂速度略快、波動略小。
此外,微調后的模型能夠更穩定地輸出帶有完整思考過程的答案,包括清晰的推理步驟和邏輯鏈條,這不僅增強了答案的可信度,也提高了模型在實際應用中的實用性。對比結果如下:
微調前模型回復:
微調后模型回復:
模型評價
政企醫療行業大模型是基于Qwen-2.5 14B基模進行微調訓練而產生的行業大模型,是專業的醫療垂直領域的大模型。其中V1是使用DeepSeek蒸餾前,V2是基于DeepSeek構造數據進行微調和強化學習的版本,各個大模型在最專業的醫療大模型評測榜單之一——MedBench上的評分如下圖。
DeepSeek、行業大模型、Qwen能力對比
可以看出,經過DeepSeek蒸餾的醫療行業大模型(V2)的綜合評分最高。
實驗總結
本次實驗驗證了DeepSeek相關技術在行業大模型優化中的普適性和有效性,為行業大模型的性能提升提供了新的技術范式。通過將R1模型的蒸餾技術和強化學習機制深度融合到行業大模型的訓練框架中,能夠顯著提升模型在垂直領域的知識理解、推理能力和場景適應性。這一技術方案不僅解決了行業大模型訓練中面臨的數據專業性、領域知識融合和應用可靠性等核心問題,還為行業大模型的優化提供了可復制的技術路徑。
實驗結果表明,采用該方案的行業大模型在領域知識問答、專業文本理解和復雜決策支持等任務上均實現了性能的顯著提升,為構建行業大模型和各行業大模型的迭代升級提供了重要的技術支持和實踐經驗參考。這一成果標志著行業大模型的優化邁入了新的階段,為垂直領域智能化轉型提供了強有力的技術支撐。