大模型系列：一文帶你梳理Large Language Model發(fā)展歷程

發(fā)布于 2025-3-14 00:04

瀏覽

0收藏

在這個系列文章中，我會用通俗的語言，為大家介紹學習大模型的核心知識點。讀完這個系列的文章，你會深入理解語言大模型、多模態(tài)大模型的核心技術點，包括模型結構、訓練方式、數(shù)據(jù)處理、多模態(tài)融合等。

大模型的前身是語言模型，圓圓是很早就開始在工業(yè)界研究和應用語言模型的一批人，因此對整個深度學習時代語言模型的發(fā)展歷程都有見證。當時還沒有Transformer、BERT，只有LSTM、Attention這種結構。工業(yè)界效果最好、應用最穩(wěn)定的語言模型，還是基于n-gram的統(tǒng)計版語言模型。

后來，隨著Transformer和BERT的相繼出現(xiàn)，基于深度學習的語言模型才開始取得主導型的效果和地位。隨后的三四年，BERT這種判別式的模型一直是工業(yè)界的主流，模型的尺寸和訓練數(shù)據(jù)量也不斷增大。直到ChatGPT的出現(xiàn)，開啟了真正的生成式大語言模型時代，直到近期的DeepSeek。過程中，也伴隨著多模態(tài)方向的研究。

在第一節(jié)中，會重點給大家梳理一下從n-gram到DeepSeek，整個大模型的發(fā)展歷史。針對每個演進版本語言模型的詳細介紹，將在后續(xù)章節(jié)逐一介紹。

1.N-gram統(tǒng)計語言模型

N-gram是語言模型最基礎的建模方法，也是深度學習之前主要的語言模型建模方法。N-gram的核心思路是，根據(jù)大量的語料，統(tǒng)計出前面n-1個詞已知的情況下，第n個詞的概率。比如最基礎的2-gram，統(tǒng)計連續(xù)2個單詞出現(xiàn)的概率，當根據(jù)前序單詞預測下一個單詞時，之前出現(xiàn)次數(shù)頻率最高的就是更加合理。

N-gram這種統(tǒng)計模型的問題在于，N太大時數(shù)據(jù)很稀疏，N太小能考慮的上下文信息就比較少，雖然有一些平滑方法能夠提升N-gram在稀疏數(shù)據(jù)下的表現(xiàn)，但是上限仍然比較低。

大模型系列：一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

2.詞向量

詞向量是機器學習時代的NLP領域常見方法，也是后續(xù)深度學習語言模型的基礎。通過將每個單詞映射成一個向量，向量之間的距離能夠反應2個詞語義的相似度，實現(xiàn)相比n-gram更具泛化性的文本表征方法。

詞向量的本質思路是，一個詞的含義，可以由其上下文出現(xiàn)的其他詞表示。統(tǒng)計大量語料中，詞之間的共現(xiàn)關系。兩個詞的上下文越相似，這兩個詞的語義就越相似。這個統(tǒng)計過程，使用神經網絡在大量的文本語料上自動學習，實現(xiàn)了表征的泛化性。Skip-gram、CBOW、Glove等都是最常用的詞向量模型。

大模型系列：一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

3.LSTM/Attention深度語言模型

隨著深度學習的發(fā)展，LSTM網絡、Attention結構等被用來構建深度學習的語言模型。語言是序列形式的，天然適合LSTM這種序列建模模型。在統(tǒng)計n-gram時，前序單詞決定下一個單詞，LSTM就具備這種建模能力。所以一個最基礎的基于LSTM的語言模型，就是對于每段文本輸入到一個LSTM網絡中，讓其預測下一個單詞，通過這種訓練方式實現(xiàn)對任務長度gram的。這種基于LSTM的語言模型也經過了多個階段的發(fā)展，最后發(fā)展到2018年的ELMo，通過兩組單向LSTM融合的方式提取兩側的上下文信息。

大模型系列：一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

此外，Attention也經常用來和LSTM相結合，彌補LSTM在長周期建模中的不足。例如在機器翻譯中，使用LSTM和Attention相結合，快速獲取歷史長文本中和當前待預測位置相關的部分。

4.Transformer：GPT和BERT

Transformer的出現(xiàn)，以及其衍生出來的GPT和BERT，開啟了深度學習語言模型的新時代，也是大模型的基礎。Transformer結構至今仍然是各個開源大模型的基礎模型結構。它完全基于Attention結構進行一段文本中單詞之間的關系計算。

大模型系列：一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

根據(jù)建模方式的差異，又分為以BERT為代表的判別式模型和以GPT為代表的生成式模型。BERT這種判別式，只有一個Encoder，Mask掉部分token用上下文其他token還原。GPT這種生成式模型，則仍然采用n-grapm的形式，根據(jù)前面token生成下一個token。

在最開始的幾年中，BERT一直是工業(yè)界主要使用的方法，而GPT因為其相對復雜的生成式過程，應用較少。當然，后續(xù)ChatGPT等的出現(xiàn)，證明GPT才是更適合作為人機接口的語言模型建模形式，是BERT等判別式模型無法替代的。

BERT和GPT分別有一系列的改進工作。和BERT相關的，包括ALBERT、RoBERTa、DeBERTa等各種從性能角度、效果角度的優(yōu)化，也包括ELECTRA等引入外部知識庫的優(yōu)化。GPT相關的改進則相對較少（當時BERT更火，主流都在研究如何優(yōu)化BERT），主要還是GPT后的GPT2、GPT3等。

5.大模型時代：ChatGPT

ChatGPT的出現(xiàn)開啟了大模型的時代。其前序工作包括GPT1、GPT2、GPT3、InstructGPT等。GPT1的核心是無監(jiān)督語言模型預訓練；GPT2的核心是更多的訓練數(shù)據(jù)、更大的模型尺寸；GPT3的核心是prompt和in-context learning，挖掘語言模型的理解能力；InstructGPT的核心是如何讓GPT生成的回答更符合人類的需求，核心是引入了強化學習機制，基于強化學習的思想去優(yōu)化無監(jiān)督預訓練模型產出的文本，讓其更符合人類的需求。

大模型系列：一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

ChatGPT的數(shù)據(jù)處理方法、模型結構和強化學習方法，是LLM最核心的組件。在模型結構方面，后續(xù)出現(xiàn)的LLaMA，則是現(xiàn)在包括DeepSeek等大模型的基礎模型結構。

6.DeepSeek/千問

在ChatGPT后，各大機構都開始研究LLM，提出了一系列的LLM建模方式、應用方式。在這個過程中，LLM的應用越來越廣泛，到目前為止很多人都已經開始使用LLM。這里重點介紹兩個國內比較有代表性的，目前最先進的LLM。一個是DeepSeek，一個是阿里的通義千問。它們基于前序的LLM成功經驗，對模型結構、訓練流程、性能優(yōu)化等做了大量改造，逐步提升了LLM性能。比如DeepSeek，目前的應用版本，經歷了V1~V3，再到R1的升級，引入了包括MoE、深度思維鏈樣本強化學習等，逐步提升LLM性能。

在后續(xù)的章節(jié)中，會進一步展開詳細介紹LLM的上述發(fā)展過程中，各個階段的代表性工作、技術原理等的深度解析。

大模型系列：一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)