DeepSeek“出圈”了,鵝廠人怎么看?
話題背景
在人工智能領域,大型語言模型的快速發展引發了無數關于技術革新和未來趨勢的討論。隨著各類AI技術的不斷突破,越來越多的創新模型開始嶄露頭角,而最近備受關注的DeepSeek更是成為了熱議的焦點。它被一些人稱為“AI技術的重大突破”,甚至被認為是下一代人工智能發展的重要方向。
今天,我們邀請了13位工程師同事,來一起聊聊DeepSeek。
鵝廠工程師的看法
1. foxy-后臺開發工程師
機器可以思考了。通過強化學習算法實現了推理能力自主進化,而不是簡單搜索整合。便宜了。用1/20的成本達到GPT4o效果,極大降低硬件成本。開源了。模型、代碼、論文全部開源,做了 OpenAI 本應該做的。
2. chao-應用開發工程師
強大之處在于可以正常交流,而不是有門檻。
(1) 拆解需求:按照 who+what+limit+format
- 我是____身份 (我是誰)
- 我要解決______問題 (我想解決什么問題)
- 必須包含______細節 (回答需要什么,不要什么)
- 想要______格式的結果 (按照什么格式輸出)
(2) 套用公式:按“身份→任務→細節→格式”順序重組問題:
“作為(身份),請(任務),要求(細節),用(格式)輸出”
(3) 迭代優化:一次問不準沒關系,重點是要會繼續補充細節:
- 增加:“請重點說明_____”
- 限制:“排除______情況”
- 調整:“改為______風格”
(4) 注意:
- 一次不要問太多(3個),可以多聊幾輪。
- 不要讓AI去猜,有什么直接說。但限制條件也不能太多(3個)。
3. bran-應用研究員
用戶角度:1,體驗免費方便,價格便宜2,回答問題質量高3,深度思考功能,可以直接看到模型的完整思考過程
社會公眾角度:
- 各項專業測評上和open ai提供的api基本持平,不一定“又贏了”,但肯定是不再“絕對地落后”了
- 推出當天,英偉達市值蒸發4000多億美金
- open ai最近的英文回答中,中英文參雜概率大幅提升,基本坐實他們也在用deepseek的數據做訓練,咱們也算做了點“技術輸出”
技術角度:
- 業界首創,跑通了完全的大規模強化學習,意味著不再需要大量人工清洗的數據和復雜的微調,整體訓練非常簡潔優雅(基本上給大部份大模型公司指明了方向)
- 第一個跑通的千億參數FP8大模型。FP8代表所有模型參數都用8bit來存,其他家都是32bit或者16bit來存一個模型參數,這一下就節省了非常多顯存(屬于大家都知道要這樣優化,但工程和技術上的坑填不動,最后deepseek第一個實現了)
- 使用他們的大模型數據,再去訓練“小模型”(其實是參數量相對較小的大模型),可以讓“小模型”效果提升非常多。最終導致現在可以用一塊2000多塊的英偉達3060本地部署一個相當不錯的模型。這下很多有臺式機的用戶都能體驗本地部署模型的樂趣了(獨樂樂不如眾樂樂,臺式機可比數據中心多太多了)
其他的補充點:
- 防杠:上文說的“業界首創”和“第一個跑通”,不包括open ai。因為open ai非常close,無法評估他們做到什么程度
- 一點猜測:deepseek最近狂招硬件工程師,加上他們在模型訓練過程中已經體現出了對英偉達原生api的爆改能力,推測他們有機會在國產gpu上做點文章
- talk is cheap,show you the paper: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
4. young-應用開發工程師
最大的核心是 RL策略創新 + 減少人工干預??深A見未來如果AI算法找對了優化策略,將強大到可怕
5. bill-產品運營
我不是技術人,但是deepseek啟示我的是要相信自己的第一判斷。之前關于大模型,很多人告訴我,包括技術專家告訴我的都是“這是一個黑箱”,輸出的邏輯和結果不可控。我從一開始就質疑這不不合理。但是被技術大拿教育說就是這樣的,所以也沒有太多挑戰??墒莇eepseek出來以后,它不僅不是黑箱,而且非常詳細的先說明自己的決策過程,再給你結論。這就使得整個決策過程可以看到,用戶也可根據deepseek的邏輯思考過程,給出更細的要求,從而輸出更適合的結論。
有人說deepseek是回歸了人類的思考邏輯。我的啟示是:為什么我沒有堅持大模型應該回歸了人類的思考邏輯?認為黑箱不合理的肯定我一個人,但為什么大多都沒有提出它的不合理性,知道deepseek去改變了它?所以,人還是要回歸最基礎的需求,要敢于相信和堅持自己的第一判斷。
6. lovise-前端開發工程師
主要還是找到一條低成本從gpt4到o1的技術路線(通過強化學習),并且還開源了,大家都能復現。而且這條路線還很有前景,模型現在能自主領悟新技能(有點像alpha zero,啥人類下棋方法都不用教,最后自己就能領悟并超越人類),因此繼續堆算力訓練,優化算法,模型能力還能繼續進化。
7. zihao-運營開發工程師
個人理解是ds與gpt的區別在于,它能讓更多的人參與進來迭代更新,降低了入門門檻。ds出來前,訓練一個大模型的成本是基本只有一線的公司能負擔得起的,其他中小公司和大學的實驗室根本沒有碰的可能,更別說在原有的基礎上對算法進行優化(因為你沒有足夠用于驗證的算力),而且就算你有足夠的算力,你只能在最初開源的gpt上慢慢迭代優化(后面open ai變成了close ai),基本不可能優于最新的gpt,相當于浪費投入,先發優勢上open ai已完勝。
ds一方面降低了算力成本,而且又開源,相當于把open ai的兩條護城河給填了,大家都能來入局,而且因為開源,我能基于當前開源項目的最新特性進行優化,大家一起搭橋總比一個人摸著石頭過河好,能少走很多彎路。
8. alexzx-后臺開發工程師
因為便宜、好用、開源,而且性能接近gpt o1。我去年年底就開始試著用ds,目前大部分情況下都可以平替gpt,自己部署的成本也不高。
9. frank-后臺策略安全
推理和思考的過程相比以前AI黑盒子,更好用了,從他的思維過程,我反而能學到一些東西,另外推理出來的結果,確實準,好用,特別是專業領域的問題
10. tylert-游戲運營
客觀來說模型方面感覺沒啥提高的,就是打平而已,但成本效率確實大大提高了,符合降本增效的前提,就好比你原來需要20個人團隊做的事情,DS現在只需要1個人就能做得差不多~
11. leo-應用研究員
單純看論文,有點嘩眾取寵的意思??,Deepseek的論文中也有類似的工作。
對于算力的需求,有個Jevons悖論,講的是第一次工業革命期間,蒸汽機效率的提高不僅沒有降低煤炭總量的消耗,反而有所提升。因為消費總量 = 消費量 * 單價。只有足夠便宜,才有機會普及。
因此,降本無論是對技術發展、生態繁榮,還是對英偉達本身,我覺得都是利好。只有更多的玩家能上牌桌,牌局才能更精彩。
但相比于其他開源模型,DS的技術突破主要是算法+工程的優化(以DeepSeek-R1-Zero為例)
主要在以下幾方面:
- SFT-FREE:區別于其他大模型需要進行SFT,DS首次實現純粹依賴強化學習進行訓練。
- 可拓展的強化學習設計:采用rule-based的方法設計獎勵信號,確保RL訓練的可拓展性(scaling)。
- 高效的參數儲存優化:采取FP8的參數儲存方法,大幅度降低了緩存成本。
除了技術創新外,我覺得DS出現所代表的更深遠的意義是,它證明了國內團隊已經具備組織高密度人才進行前沿創新的能力。
12. joliph-客戶端安全
可以從官方價格和其他獨立部署的價格就知道它的infra的優勢有多大了。
13. leicong-技術產品
deepseek也有好多版本,比如v3、R1、R1 zero,就V3而言,感覺更多是工程上的優勢,也就不管是注意力的計算還是后面的FNN,很多計算上的細節做了工程上的優化,包括精簡、壓縮、分片、就近等不同的工程化策略,最終達到了對算力要求從量變到質變的效果