成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型技術(shù)細(xì)節(jié)——大模型之文本生成與文檔總結(jié) 原創(chuàng)

發(fā)布于 2024-8-5 10:43
瀏覽
0收藏

“ 大模型就是一個(gè)黑盒,盒子外面的人一直在霧里看花”

我們一直在說大模型大模型,但大部分人都沒深入研究過大模型的具體實(shí)現(xiàn)以及隱藏在大模型這個(gè)黑盒下的技術(shù)細(xì)節(jié)。

思考個(gè)問題,根據(jù)要求讓大模型生成一段文字和給大模型一個(gè)PDF文本,讓它總結(jié)文本內(nèi)容,這兩種方式是同一種大模型嗎?

文本生成大模型和文檔總結(jié)大模型

很多人都簡(jiǎn)單的認(rèn)為,生成文本的模型和進(jìn)行文檔總結(jié)的模型是一回事,都屬于文本處理模型。

因?yàn)閺氖褂谜叩慕嵌葋碚f,只需要告訴它需求或者仍給它一個(gè)文檔它就能很好的完成任務(wù);所以說從使用者的角度來說,產(chǎn)生上面的認(rèn)知也不能說錯(cuò)。

但事實(shí)上,大部分人都被大模型的黑盒給欺騙了,大模型遠(yuǎn)遠(yuǎn)沒有想的那么簡(jiǎn)單。

文本生成模型和文檔總結(jié)模型有很多相似之處,但它們的目的和具體的實(shí)現(xiàn)方式不盡相同。

大模型技術(shù)細(xì)節(jié)——大模型之文本生成與文檔總結(jié) -AI.x社區(qū)

文本生成模型

定義

文本生成模型是通過學(xué)習(xí)數(shù)據(jù)的分布生成新的文本內(nèi)容。它們通常用于生成自然語言文本,如文章、對(duì)話、故事等。

目標(biāo)

生成連貫,符合語法和語義的新文本段落。

常見類型

  1. 自回歸模型
  1. 自回歸模型典型的有GPT(Generative Pre-trained Transformer),也就是生成式預(yù)訓(xùn)練模型,通過逐步預(yù)測(cè)下一個(gè)詞生成文本。

from transformers import GPT2LMHeadModel, GPT2Tokenizer


tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")
input_text = "Once upon a time"
input_ids = tokenizer.encode(input_text, return_tensors='pt')
output = model.generate(input_ids, max_length=50)
print(tokenizer.decode(output[0], skip_special_tokens=True))
  1. 自編碼模型
  2. 自編碼模型典型的有BERT(Bidirectional Encoder Representation from Transformers),常用于理解和生成上下文相關(guān)文本。

from transformers import BertModel, BertTokenizer


tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertModel.from_pretrained("bert-base-uncased")
input_text = "Hello, my dog is cute"
input_ids = tokenizer.encode(input_text, return_tensors='pt')
outputs = model(input_ids)
print(outputs)

應(yīng)用場(chǎng)景

  1. 生成文章,故事,對(duì)話
  2. 自動(dòng)寫作和創(chuàng)作
  3. 自然語言對(duì)話系統(tǒng)

文檔總結(jié)模型

定義

文檔總結(jié)模型是通過提取和抽取技術(shù)生成簡(jiǎn)潔的文檔摘要,它們常用于從長(zhǎng)文本中提取關(guān)鍵信息,并生成簡(jiǎn)明扼要的摘要。

目標(biāo)

生成文檔的簡(jiǎn)要概述,提煉出關(guān)鍵信息

常見類型

  1. 抽取式摘要模型(Extractive Summarization Models)
  1. 常見的抽取式摘要模型BERTSUM,基于BERT的抽取式文檔總結(jié)模型,通過選擇原文中的重要句子生成摘要。

# 從huggingface中加載模型
from transformers import BertTokenizer, BertForSequenceClassification


tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
model = BertForSequenceClassification.from_pretrained("bert-base-uncased")
input_text = "Your long document text here."
input_ids = tokenizer.encode(input_text, return_tensors='pt')
outputs = model(input_ids)
print(outputs)
  1. 生成式摘要模型(Abstractive Summarization Models)
  2. T5(Text-to-Text Transfer Transformer),通過生成新的句子來總結(jié)文檔。

from transformers import T5Tokenizer, T5ForConditionalGeneration


tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")
input_text = "summarize: Your long document text here."
input_ids = tokenizer.encode(input_text, return_tensors='pt')
outputs = model.generate(input_ids, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

應(yīng)用場(chǎng)景

  1. 新聞?wù)?/li>
  2. 科研論文摘要
  3. 法律文檔摘要
  4. 長(zhǎng)文章的概述

區(qū)別與聯(lián)系

目的

文本生成模型:生成連貫的新文本內(nèi)容

文檔總結(jié)模型:生成文檔的簡(jiǎn)明摘要,提取關(guān)鍵信息

方法

文本生成模型:使用語言模型(如GPT)根據(jù)上下文逐詞生成文本。

文檔總結(jié)模型:使用抽取式或生成式方法從文檔中提取或生成摘要

輸入輸出

文本生成模型:

    輸入:起始文本或上下文提示

    輸出:生成新的文本段落

文檔總結(jié)模型:

    輸入:完整的文檔或長(zhǎng)文本

    輸出:簡(jiǎn)明的文檔摘要

總結(jié)

盡管文本生成模型和文檔總結(jié)模型在技術(shù)上有一些重疊,但它們的目的和具體應(yīng)用場(chǎng)景不同。

文本生成模型用于生成新的文本,而文檔總結(jié)模型則用于提煉和總結(jié)現(xiàn)有文檔的內(nèi)容。

學(xué)習(xí)大模型技術(shù),不能只浮于表面,要深入理解其內(nèi)部實(shí)現(xiàn);這樣我們才能真正了解大模型能做什么,不能做什么。

也就是常說的,知其然也要知其所以然。


本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires

原文鏈接:??https://mp.weixin.qq.com/s/tdhkqUKgG4nOW5Ss3bv1pQ??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久综合爱 | 亚洲福利一区 | 亚洲视频在线观看一区二区三区 | 91精品国产91久久久久青草 | 狠狠ri| 日韩国产精品一区二区三区 | 亚洲第一网站 | 欧美精品久久久久 | 国产 亚洲 网红 主播 | 国产一二三区在线 | 中文字幕一区二区三区四区不卡 | 91高清免费 | 中文字幕国产视频 | 欧美激情精品久久久久久 | zzzwww在线看片免费 | 福利精品在线观看 | 韩日一区二区三区 | 国产成人久久久 | 日韩一区二区在线免费观看 | 亚洲天天干 | 精品国产乱码久久久久久丨区2区 | 蜜桃传媒一区二区 | 免费视频一区二区 | 国产69精品久久久久777 | 一区视频在线 | 久久精品国产一区二区 | 亚洲一区精品在线 | 欧美日本韩国一区二区 | 日日操夜夜操天天操 | 欧美日韩成人在线观看 | 日韩和的一区二区 | 久久高清| 欧美亚洲一区二区三区 | 欧美久久一区 | 国产精品一区三区 | 91成人影院| 男人天堂社区 | 久久久久久久久久久久久九 | 97国产精品视频人人做人人爱 | 日韩久久久久久久久久久 | 午夜视频免费在线观看 |