在自然語言處理(NLP)任務中，怎么處理數據——即怎么把文字輸入到模型中進行處理？原創

AI探索時代

發布于 2025-3-14 13:26

瀏覽

0收藏

“ 文本序列化是自然語言處理任務的前置條件，而文本序列化需要經過分詞，構建詞匯表和序列化的幾個步驟”

在神經網絡或者說在機器學習領域中，數據主要以向量的形式存在，表現形式為多維矩陣；但怎么把現實世界中的數據輸入到神經網絡中是機器學習的一個前提。

而現實世界中的數據格式雖然多種多樣，但事實上無非以下幾種主要模態：

文字
圖片
視頻

但我們也知道，計算機只認識數字，而不認識文字和圖片；因此，就需要把這些數據轉換為計算機能夠識別的格式；而在神經網絡模型中就是怎么把這些數據轉換為向量的格式。

簡單來說，就是把現實世界中的數據轉化為用多維矩陣進行表示的過程。圖片是由多個像素點組成，因此天生的就可以用矩陣表示；但文字卻不同，處理起來要復雜得多。至于視頻，就是動起來的多張圖片。

文本處理

在自然語言處理任務中，要想把文本數據輸入到神經網絡中，需要經過大概以下幾個步驟：

分詞
構建詞匯表
文本序列化

但為什么自然語言處理需要經過以下幾個步驟？下面來介紹一下每個步驟的作用：

分詞

在自然語言體系中，語義是以詞或句子的形態體現的；因此，我們就需要去理解詞或句子的意思；但眾所周知的是，以我們漢語為例常用的詞和字就幾千個；而我們生活中絕大部分的語義都是由重復的字和詞組成的。

因此，從效率的角度來講，我們不可能把每個句子的語義都記下來；我們需要的是找到其中常用的字和詞，然后通過類似排列組合的方式組合成一個個句子。

在自然語言處理(NLP)任務中，怎么處理數據——即怎么把文字輸入到模型中進行處理？-AI.x社區

所以，自然語言處理的第一步就是分詞；也就是說通過某種方式把句子中相同的字或詞挑出來，組成一個字詞列表。而常用的分詞技術根據不同的語言又有不同的實現方式；比如說在英語體系中，很多時候每個單詞就表示單獨的意思；因此最簡單的分詞方式就是把每個不同的單詞都找出來。

但在漢語言中，由于存在多音字，成語等具有復雜語言的形態；因此，漢語分詞就不能使用找不同字的形式。

因此，分詞的難點是怎么對文本數據進行拆分，但又不會影響到詞語本身對意思。

詞匯表

理解了什么是分詞，以及為什么要分詞，那么再理解詞匯表就很簡單了；對句子進行分詞之后，就獲取到了一個字和詞的列表；因此就可以根據這個列表來構建詞匯表，變成讓計算機可以處理的數字格式。

學過計算機原理的應該都知道，計算機無法直接處理文字，因此文字在計算機中是通過編碼的方式來實現的；比如說大名鼎鼎的ASCII碼表，就是用八位二進制表示的。

在自然語言處理(NLP)任務中，怎么處理數據——即怎么把文字輸入到模型中進行處理？-AI.x社區

而ASCII碼表本質上就是一個字典結構，即使用K-V的形式來表示字符；需要計算機處理時就使用二進制表示，需要現實給人看時就使用字符表示；而詞匯表就是類似ASCII碼表的形式，把字或詞作為K，把數字作為V。

這樣一個數字就可以代表一個字或詞；這樣就可以讓計算機處理。

在詞匯表中有兩個比較特殊的詞匯，那就是UNK和PAD；我們知道常用的漢字只有幾千個，但實際上的漢字有上萬個；因此，我們根據文本數據的內容，可能并不能獲取到所有的漢字；因此遇到“沒見過”的漢字該怎么辦呢，這時就使用UNK來表示。

而在矩陣計算中，需要的是相同的矩陣形式；比如說需要5*5的固定矩陣；但在自然語言中，每個句子的長度都不一樣；短的可能就一兩個字，長的可能有幾十個字；這時變換的矩陣維度就不在相同。

dict = {    "UNK_TAG": 0,    "PAD_TAG": 1}

因此，就可以使用PAD對文字比較少的句子進行補充；而對文字比較長的句子進行截取。

文本序列化

在經過分詞和構建詞匯表之后，就可以對文本進行序列化；在自然語言處理任務中，文本需要轉換為編碼的數字進行表示；也就是把文字變成數字表示。

dict_1 = {    "UNK_TAG": 0,    "PAD_TAG": 1}


dict_2 = {    0: "UNK_TAG",    1: "PAD_TAG"}

所以就有了一個從文字變成數字和從數字變成文字的過程；本質上其實就是在詞匯表中，根據文本獲取其編碼的數字，以及根據編碼的數字獲取文字。

文本序列化最重要的一步，就是把數字表示的句子轉換成向量表示，也就是多維矩陣；而這就需要通過one-hot或者word embedding的方式來進行序列化。

但是在使用word embedding之前，需要把句子的數字列表轉換為tensor格式。

# 將句子列表轉換為tensor
sentences_tensor = torch.tensor(sentences, dtype=torch.long)
# 定義 Embedding 層
embedding = nn.Embedding(vocab_size, embedding_dim)
# 通過 Embedding 層
embedded_sentences = embedding(sentences_tensor)

本文轉載自公眾號AI探索時代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/T4IqbK2S9IsjgJuxPMeZmg??

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

自然語言處理

NLP

文本序列化

贊

回復

舉報

回復

相關推薦

Advanced RAG 07：在 RAG 系統中進行表格數據處理的新思路

Baihai_IDP ? 5832瀏覽 ? 0回復
微軟發布Florence-2：用于處理各種視覺任務的小模型

AIGC最前線 ? 4519瀏覽 ? 0回復
NATURAL PLAN：LLMs在自然語言規劃上的基準

sbf_2000 ? 3102瀏覽 ? 0回復
基于Llama 3和LangChain，使用自然語言進行SQL查詢

小虎哦哦 ? 5190瀏覽 ? 0回復
大語言模型在不同自然語言處理任務中的提示工程方法綜述

sbf_2000 ? 3624瀏覽 ? 0回復
Advanced RAG 11：對用戶輸入的內容進行「分類處理」和「再優化」

Baihai_IDP ? 2604瀏覽 ? 0回復
WordLlama：一個開源、快速、輕量級（16MB）的自然語言處理工具包！

Halo咯咯 ? 3772瀏覽 ? 0回復
掌握BERT：自然語言處理（NLP）從初級到高級的綜合指南

石映飛云 ? 2656瀏覽 ? 0回復
面向語音控制前端應用程序的自然語言處理（NLP）：架構、進展與未來方向

51CTO內容精選 ? 2643瀏覽 ? 0回復
關于神經網絡的輸入格式——數據集的處理，關于神經網絡模型的結構說明

AI探索時代 ? 2410瀏覽 ? 0回復
深入探究編碼器 - 解碼器架構：從RNN到Transformer的自然語言處理模型

AI論文解讀 ? 6128瀏覽 ? 0回復
什么是自然語言處理——NLP，其解決了什么問題？

AI探索時代 ? 2915瀏覽 ? 0回復
你知道自然語言處理(NLP)能解決哪些問題嗎？即自然語言處理任務分類有哪些？

AI探索時代 ? 2231瀏覽 ? 0回復
為什么大語言模型難以處理長上下文？從 Transformer 到 Mamba

Baihai_IDP ? 3218瀏覽 ? 0回復
模型訓練前置處理之——數據預處理

AI探索時代 ? 2165瀏覽 ? 0回復
數據分析神器PandasAI，幫你高效處理十項常見任務

小虎哦哦 ? 2744瀏覽 ? 0回復
Dify Sandbox實現文件路徑獲取與Excel數據處理

九歌AI大模型 ? 2935瀏覽 ? 0回復
人工智能中的數據重要性與數據預處理

parson2000 ? 1486瀏覽 ? 0回復
大模型數據預處理——關于復雜文檔在大模型應用中的解決方案

AI探索時代 ? 1772瀏覽 ? 0回復

AI探索時代

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

在自然語言處理(NLP)任務中，怎么處理數據——即怎么把文字輸入到模型中進行處理？原創

文本處理

分詞

詞匯表

文本序列化

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

在自然語言處理(NLP)任務中，怎么處理數據——即怎么把文字輸入到模型中進行處理？ 原創

文本處理

分詞

詞匯表

文本序列化

目錄

在自然語言處理(NLP)任務中，怎么處理數據——即怎么把文字輸入到模型中進行處理？原創