成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

集合啦,NLP數據增強技術!超全資源匯總

新聞 前端
數據增強技術已經是CV領域的標配,比如對圖像的旋轉、鏡像、高斯白噪聲等等。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

數據增強技術已經是CV領域的標配,比如對圖像的旋轉、鏡像、高斯白噪聲等等。

但在NLP領域,針對文本的數據增強,卻是不那么多見。

于是,就有一位機器學習T型工程師,在現有的文獻中,匯總一些NLP數據增強技術。

集合啦,NLP數據增強技術!超全資源匯總

妥妥干貨,在此放送。

文本替代

文本替代主要是針對在不改變句子含義的情況下,替換文本中的單詞,比如,同義詞替換、詞嵌入替換等等。

接著,我們就來好好介紹一下。

同義詞替換

顧名思義,就是在文本中隨機抽取一個單詞,然后再同義詞庫里將其替換為同義詞。

比如,使用WordNet數據庫,將「awesome」替換為「amazing」。

集合啦,NLP數據增強技術!超全資源匯總

這個技術比較常見,在以往的論文中有很多都使用了這個技術,比如,

Zhang et al.「Character-level Convolutional Networks for Text Classification」

論文鏈接:
https://arxiv.org/abs/1509.01626

Wei et al. 「EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks」

論文鏈接:
https://arxiv.org/abs/1901.11196

要實現這項技術,可通過NLTK對WordNet進行訪問,還可以使用TextBlob API。

此外,還有一個PPDB數據庫,包含著百萬個單詞的詞庫。

詞嵌入替換

這種方法是,采取已經預訓練好的單詞嵌入,如Word2Vec、GloVe、FastText、Sent2Vec等,并將嵌入空間中最近的鄰接詞作為句子中某些單詞的替換。

比如:

集合啦,NLP數據增強技術!超全資源匯總

這樣,就可以將單詞替換成臨近的3個單詞,獲得文本的3種變體形式。

集合啦,NLP數據增強技術!超全資源匯總

掩碼語言模型(MLM)

類似于BERT、ROBERTA、ALBERT,Transformer模型已經在大量的文本訓練過,使用掩碼語言模型的前置任務。

在這個任務中,模型必須依照上下文來預測掩碼的單詞。此外,還可以利用這一點,對文本進行擴容。

集合啦,NLP數據增強技術!超全資源匯總

跟之前的方法相比,生成的文本在語法上會更加連貫。

集合啦,NLP數據增強技術!超全資源匯總

但是,需要注意的是,決定掩蓋哪一個單詞并非易事,它決定了效果的最終呈現。

基于TF-IDF的單詞替換

這一方法最初是出現在Xie et al.「Unsupervised Data Augmentation for Consistency Training」。

論文鏈接:
https://arxiv.org/abs/1904.12848

基本思路在于TF-IDF得分低的單詞是沒有信息量的的詞,因此可以替換,而不影響句子的原本含義。

集合啦,NLP數據增強技術!超全資源匯總

通過計算整個文檔中單詞的 TF - IDF得分并取最低得分來選擇替換原始單詞的單詞。

反向翻譯

反向翻譯,就是先將句子翻譯成另一種語言,比如,英語翻譯成法語。

然后再翻譯回原來的語言,也就是將法語翻譯回英語。

檢查兩個句子之間的不同之處,由此將新的句子作為增強文本。

集合啦,NLP數據增強技術!超全資源匯總

還可以一次使用多種語言進行反向翻譯,產生更多的變體。

比如,除了法語以外,再將其翻譯為漢語和意大利語。

集合啦,NLP數據增強技術!超全資源匯總

要實現反向翻譯,可以使用TextBlob。另外,還可以使用Google Sheets,說明書已附文末。

文本形式轉換

這一方法主要是利用正則表達式應用的的簡單模式匹配轉換,在Claude Coulombe的論文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中有詳細介紹。

論文鏈接:
https://arxiv.org/abs/1812.04718

舉個簡單的例子,將原本形式轉換為縮寫,反之亦然。

集合啦,NLP數據增強技術!超全資源匯總

但是也會出現一些歧義,比如:

集合啦,NLP數據增強技術!超全資源匯總

在此,選擇允許歧義的收縮,但不允許擴展。

集合啦,NLP數據增強技術!超全資源匯總

Python的收縮庫已附文末。

隨機噪聲注入

顧名思義,也就是在文本中注入噪聲,來訓練模型對擾動的魯棒性。

比如,拼寫錯誤。

集合啦,NLP數據增強技術!超全資源匯總

句子改組。

集合啦,NLP數據增強技術!超全資源匯總

空白噪聲。

集合啦,NLP數據增強技術!超全資源匯總

隨機插入。

集合啦,NLP數據增強技術!超全資源匯總

隨機交換。

集合啦,NLP數據增強技術!超全資源匯總

隨機刪除。

集合啦,NLP數據增強技術!超全資源匯總

語法樹

這一方法也出現在了Claude Coulombe的論文「Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs」中。

論文鏈接:
https://arxiv.org/abs/1812.04718

其思路是解析并生成原句的從屬樹,利用規則進行轉換,生成新句子。

比如,將句子的主動語氣轉換為被動語氣,反之亦然。

集合啦,NLP數據增強技術!超全資源匯總

文本混合

這項技術的想法源于一項名為“Mixup”的圖像增強技術。

集合啦,NLP數據增強技術!超全資源匯總

Guo et al.在此基礎上進行了修改,將其應用到NLP。

「Augmenting Data with Mixup for Sentence Classification: An Empirical Study」

論文鏈接:
https://arxiv.org/abs/1905.08941

主要有兩種方法。

wordMixup

這個方法在于,抽取兩個隨機的句子,將它們進行零填充,使其長度相同。然后,按一定比例組合在一起。

所得到的單詞嵌入通過CNN/LSTM編碼器傳遞到句子嵌入中,隨后計算交叉熵損失。

集合啦,NLP數據增強技術!超全資源匯總

sentMixup

可以看到這一方法,與上述方法類似,只不過在具體步驟上有所調整。

好了,NLP的數據增強技術就介紹到這里,希望能夠對你有所幫助。

傳送門

博客地址:
https://amitness.com/2020/05/data-augmentation-for-nlp/

WordNet數據集:
https://www.nltk.org/howto/wordnet.html

TextBlob API:https://textblob.readthedocs.io/en/dev/quickstart.html#wordnet-integration

PPDB數據集:http://paraphrase.org/#/download

YF-IDF代碼:
https://github.com/google-research/uda/blob/master/text/augmentation/word_level_augment.py

使用Google Sheets實現反向翻譯:
https://amitness.com/2020/02/back-translation-in-google-sheets/

Python收縮庫:
https://github.com/kootenpv/contractions

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-02-14 08:04:15

2011-06-30 10:12:57

安全資源技術差距安全從業人員

2022-08-11 22:10:38

云安全資源池安全工具集

2024-07-29 08:09:36

BERT大型語言模型LLM

2021-02-20 10:36:20

工控安全ICS網絡攻擊

2022-08-01 11:08:35

自動駕駛數據

2011-04-22 10:53:13

Unix哲學

2013-02-25 14:13:20

2023-10-09 07:57:14

JavaJCF

2012-04-06 10:13:08

SQLSQL Server

2022-10-25 16:36:03

機器學習深度學習數據集

2013-08-07 13:30:13

iOS 7人機交互iOS 7 UI設計i0S 7設計資源匯總

2019-05-14 09:30:36

數據開發工具

2015-11-04 16:28:48

AdMaster

2023-09-03 12:52:17

2020-02-04 17:31:49

Python 開發編程語言

2019-08-16 09:22:38

技術調試互聯網

2021-04-12 14:50:25

Linux工具命令

2024-01-11 09:06:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费观看国产视频在线 | 毛色毛片免费看 | 国产精品免费看 | 久久久精品国产 | 亚洲成人精 | 成人区一区二区三区 | 在线国产99 | 狠狠的干狠狠的操 | 欧美成人精品激情在线观看 | 国产精品久久99 | 91精品国产综合久久久久久 | 亚洲一区二区三区在线免费 | 91视频一区二区三区 | 男女黄网站 | 爱爱视频在线观看 | 成人三级网址 | 久久国内精品 | 亚洲久久一区 | 日韩视频一级 | 天堂久久av | 日韩精品一区二区三区在线播放 | 福利视频网 | 国产偷久久一级精品60部 | 农村妇女毛片精品久久久 | 日韩免费高清视频 | 精品国产欧美在线 | 中文字幕精品一区久久久久 | 精品久久久久一区 | 免费看片在线播放 | 欧美视频三级 | 国产婷婷在线视频 | 国产乱精品一区二区三区 | 国产成人精品久久二区二区91 | 亚洲精品一二三 | 国产日韩精品一区 | 九九在线视频 | 国产成人在线一区二区 | 正在播放国产精品 | 国产ts一区| 久久久激情视频 | 香蕉久久久久久 |