成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程

發(fā)布于 2025-3-14 00:04
瀏覽
0收藏

在這個系列文章中,我會用通俗的語言,為大家介紹學習大模型的核心知識點。讀完這個系列的文章,你會深入理解語言大模型、多模態(tài)大模型的核心技術點,包括模型結構、訓練方式、數(shù)據(jù)處理、多模態(tài)融合等。

大模型的前身是語言模型,圓圓是很早就開始在工業(yè)界研究和應用語言模型的一批人,因此對整個深度學習時代語言模型的發(fā)展歷程都有見證。當時還沒有Transformer、BERT,只有LSTM、Attention這種結構。工業(yè)界效果最好、應用最穩(wěn)定的語言模型,還是基于n-gram的統(tǒng)計版語言模型。

后來,隨著Transformer和BERT的相繼出現(xiàn),基于深度學習的語言模型才開始取得主導型的效果和地位。隨后的三四年,BERT這種判別式的模型一直是工業(yè)界的主流,模型的尺寸和訓練數(shù)據(jù)量也不斷增大。直到ChatGPT的出現(xiàn),開啟了真正的生成式大語言模型時代,直到近期的DeepSeek。過程中,也伴隨著多模態(tài)方向的研究。

在第一節(jié)中,會重點給大家梳理一下從n-gram到DeepSeek,整個大模型的發(fā)展歷史。針對每個演進版本語言模型的詳細介紹,將在后續(xù)章節(jié)逐一介紹。

1.N-gram統(tǒng)計語言模型

N-gram是語言模型最基礎的建模方法,也是深度學習之前主要的語言模型建模方法。N-gram的核心思路是,根據(jù)大量的語料,統(tǒng)計出前面n-1個詞已知的情況下,第n個詞的概率。比如最基礎的2-gram,統(tǒng)計連續(xù)2個單詞出現(xiàn)的概率,當根據(jù)前序單詞預測下一個單詞時,之前出現(xiàn)次數(shù)頻率最高的就是更加合理。

N-gram這種統(tǒng)計模型的問題在于,N太大時數(shù)據(jù)很稀疏,N太小能考慮的上下文信息就比較少,雖然有一些平滑方法能夠提升N-gram在稀疏數(shù)據(jù)下的表現(xiàn),但是上限仍然比較低。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

2.詞向量

詞向量是機器學習時代的NLP領域常見方法,也是后續(xù)深度學習語言模型的基礎。通過將每個單詞映射成一個向量,向量之間的距離能夠反應2個詞語義的相似度,實現(xiàn)相比n-gram更具泛化性的文本表征方法。

詞向量的本質思路是,一個詞的含義,可以由其上下文出現(xiàn)的其他詞表示。統(tǒng)計大量語料中,詞之間的共現(xiàn)關系。兩個詞的上下文越相似,這兩個詞的語義就越相似。這個統(tǒng)計過程,使用神經網絡在大量的文本語料上自動學習,實現(xiàn)了表征的泛化性。Skip-gram、CBOW、Glove等都是最常用的詞向量模型。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

3.LSTM/Attention深度語言模型

隨著深度學習的發(fā)展,LSTM網絡、Attention結構等被用來構建深度學習的語言模型。語言是序列形式的,天然適合LSTM這種序列建模模型。在統(tǒng)計n-gram時,前序單詞決定下一個單詞,LSTM就具備這種建模能力。所以一個最基礎的基于LSTM的語言模型,就是對于每段文本輸入到一個LSTM網絡中,讓其預測下一個單詞,通過這種訓練方式實現(xiàn)對任務長度gram的。這種基于LSTM的語言模型也經過了多個階段的發(fā)展,最后發(fā)展到2018年的ELMo,通過兩組單向LSTM融合的方式提取兩側的上下文信息。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

此外,Attention也經常用來和LSTM相結合,彌補LSTM在長周期建模中的不足。例如在機器翻譯中,使用LSTM和Attention相結合,快速獲取歷史長文本中和當前待預測位置相關的部分。

4.Transformer:GPT和BERT

Transformer的出現(xiàn),以及其衍生出來的GPT和BERT,開啟了深度學習語言模型的新時代,也是大模型的基礎。Transformer結構至今仍然是各個開源大模型的基礎模型結構。它完全基于Attention結構進行一段文本中單詞之間的關系計算。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

根據(jù)建模方式的差異,又分為以BERT為代表的判別式模型和以GPT為代表的生成式模型。BERT這種判別式,只有一個Encoder,Mask掉部分token用上下文其他token還原。GPT這種生成式模型,則仍然采用n-grapm的形式,根據(jù)前面token生成下一個token。

在最開始的幾年中,BERT一直是工業(yè)界主要使用的方法,而GPT因為其相對復雜的生成式過程,應用較少。當然,后續(xù)ChatGPT等的出現(xiàn),證明GPT才是更適合作為人機接口的語言模型建模形式,是BERT等判別式模型無法替代的。

BERT和GPT分別有一系列的改進工作。和BERT相關的,包括ALBERT、RoBERTa、DeBERTa等各種從性能角度、效果角度的優(yōu)化,也包括ELECTRA等引入外部知識庫的優(yōu)化。GPT相關的改進則相對較少(當時BERT更火,主流都在研究如何優(yōu)化BERT),主要還是GPT后的GPT2、GPT3等。

5.大模型時代:ChatGPT

ChatGPT的出現(xiàn)開啟了大模型的時代。其前序工作包括GPT1、GPT2、GPT3、InstructGPT等。GPT1的核心是無監(jiān)督語言模型預訓練;GPT2的核心是更多的訓練數(shù)據(jù)、更大的模型尺寸;GPT3的核心是prompt和in-context learning,挖掘語言模型的理解能力;InstructGPT的核心是如何讓GPT生成的回答更符合人類的需求,核心是引入了強化學習機制,基于強化學習的思想去優(yōu)化無監(jiān)督預訓練模型產出的文本,讓其更符合人類的需求。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

ChatGPT的數(shù)據(jù)處理方法、模型結構和強化學習方法,是LLM最核心的組件。在模型結構方面,后續(xù)出現(xiàn)的LLaMA,則是現(xiàn)在包括DeepSeek等大模型的基礎模型結構。

6.DeepSeek/千問

在ChatGPT后,各大機構都開始研究LLM,提出了一系列的LLM建模方式、應用方式。在這個過程中,LLM的應用越來越廣泛,到目前為止很多人都已經開始使用LLM。這里重點介紹兩個國內比較有代表性的,目前最先進的LLM。一個是DeepSeek,一個是阿里的通義千問。它們基于前序的LLM成功經驗,對模型結構、訓練流程、性能優(yōu)化等做了大量改造,逐步提升了LLM性能。比如DeepSeek,目前的應用版本,經歷了V1~V3,再到R1的升級,引入了包括MoE、深度思維鏈樣本強化學習等,逐步提升LLM性能。

在后續(xù)的章節(jié)中,會進一步展開詳細介紹LLM的上述發(fā)展過程中,各個階段的代表性工作、技術原理等的深度解析。

大模型系列:一文帶你梳理Large Language Model發(fā)展歷程-AI.x社區(qū)

本文轉載自 ??圓圓的算法筆記??,作者: Fareise

已于2025-3-14 00:04:17修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产精品美女www | 精品久久久久久 | 欧美视频三区 | 日韩免费看片 | 免费三级av | 国产精品久久毛片av大全日韩 | 一区二区免费看 | 国产一区在线免费 | 亚洲一区二区视频 | 在线免费观看a级片 | 呦呦在线视频 | 国产成人福利在线观看 | 精品久久香蕉国产线看观看亚洲 | 久久免费精品 | 暖暖日本在线视频 | 亚洲视频中文 | 日韩爱爱网 | 国产一区免费 | 国产精品一区二区久久 | 在线观看国产精品一区二区 | www国产亚洲精品久久网站 | 午夜影院在线观看视频 | 精品免费 | 日韩免费一区 | 日本公妇乱淫xxxⅹ 国产在线不卡 | 中文字幕在线一区 | 国产在线视频网 | 亚洲一区 | 在线观看亚洲欧美 | 中文字幕乱码一区二区三区 | 手机av在线 | 亚洲高清在线 | 国产精品一区二区三区免费观看 | 国产精品久久久久不卡 | 久久综合av | 久久精品国产清自在天天线 | 欧美日韩视频在线播放 | 国产草草视频 | av男人的天堂av | 麻豆国产一区二区三区四区 | 亚洲综合大片69999 |