成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

輕量級NLP工具開源,中文處理更精準,超越斯坦福Stanza

新聞 開發工具
Trankit支持多達56種語言,除了簡體和繁體中文以外,還支持文言文。最新輕量級多語言NLP工具集Trankit發布1.0版本,來自俄勒岡大學。

 本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

最新輕量級多語言NLP工具集Trankit發布1.0版本,來自俄勒岡大學。

基于Transformer,性能已超越之前的熱門同類項目斯坦福Stanza。

Trankit支持多達56種語言,除了簡體和繁體中文以外,還支持文言文。

先來看一組Trankit與Stanza對文言文進行依存句法分析的結果。

輕量級NLP工具開源,中文處理更精準,超越斯坦福Stanza

可以看到,Stanza錯誤的將“有朋自遠方來”中的“有”和“來”兩個動詞判斷成并列關系。

在簡體中文的詞性標注任務上,Trankit對“自從”一詞處理也更好。

輕量級NLP工具開源,中文處理更精準,超越斯坦福Stanza

與Stanza一樣,Trankit也是基于Pytorch用原生Python實現,對廣大Python用戶非常友好。

Trankit在多語言NLP多項任務上的性能超越Stanza。

輕量級NLP工具開源,中文處理更精準,超越斯坦福Stanza

在英語分詞上的得分比Stanza高9.36%。在中文依存句法分析的UAS和LAS指標上分別高出14.50%和15.0%。

Trankit在GPU加持下加速更多,且占用內存更小,作為一個輕量級NLP工具集更適合普通人使用。

輕量級NLP工具開源,中文處理更精準,超越斯坦福Stanza

簡單易用

Trankit的使用也非常簡單,安裝只要pip install就完事了。

  1. pip install trankit 

不過需要注意的是,Trankit使用了Tokenizer庫,需要先安裝Rust。

初始化一個預訓練Pipeline:

  1. from trankit import Pipeline 
  2.  
  3. # initialize a multilingual pipeline 
  4. p = Pipeline(lang='english', gpu=True, cache_dir='./cache'

開啟auto模式,可以自動檢測語言:

  1. from trankit import Pipeline 
  2.  
  3. p = Pipeline('auto'
  4.  
  5. # Tokenizing an English input 
  6. en_output = p.tokenize('''I figured I would put it out there anyways.''')  
  7.  
  8. # POS, Morphological tagging and Dependency parsing a French input 
  9. fr_output = p.posdep('''On pourra toujours parler à propos d'Averroès de "décentrement du Sujet".''') 

使用自定義標注數據自己訓練Pipeline也很方便:

  1. from trankit import TPipeline 
  2.  
  3. tp = TPipeline(training_config={ 
  4.     'task''tokenize'
  5.     'save_dir''./saved_model'
  6.     'train_txt_fpath''./train.txt'
  7.     'train_conllu_fpath''./train.conllu'
  8.     'dev_txt_fpath''./dev.txt'
  9.     'dev_conllu_fpath''./dev.conllu' 
  10.     } 
  11.  
  12. trainer.train() 

統一的多語言Transformer

Trankit將各種語言分別訓練的Pipelines整合到一起共享一個多語言預訓練Transformer。

輕量級NLP工具開源,中文處理更精準,超越斯坦福Stanza

然后為每種語言創建了一組適配器(Adapters)作為傳統的預訓練模型“微調(Fine-tuning)”方法的替代,并對不同的NLP任務設置權重。

在訓練中,共享的預訓練Transformer是固定的,只有適配器和任務特定權重被更新。

在推理時,根據輸入文本的語言和當前的活動組件,尋找相應的適配器和特定任務權重。

這種機制不僅解決了內存問題,還大大縮短了訓練時間。

Trankit團隊在實驗中對比了另外兩種實現方法。

一種是把所有語言的數據集中到一起訓練一個巨大的Pipeline。另一種是使用Trankit的方法但把適配器去掉。

輕量級NLP工具開源,中文處理更精準,超越斯坦福Stanza

在各項NLP任務中,Trankit這種“即插即用”的適配器方法表現最好。

團隊表示,未來計劃通過研究不同的預訓練Transformer(如mBERT和XLM-Robertalarge)來改進Trankit。

還考慮為更多語言提供實體識別,以及支持更多的NLP任務。

Github倉庫:
https://github.com/nlp-uoregon/trankit

在線Demo:
http://nlp.uoregon.edu/trankit

相關論文:
https://arxiv.org/pdf/2101.03289.pdf

 

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-03-23 14:24:09

Python 開發編程語言

2025-02-28 09:52:00

2024-05-06 08:00:00

AI模型

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2023-03-22 15:14:00

數據模型

2012-03-21 21:38:27

蘋果

2009-05-19 09:06:41

Apple斯坦福iPhone

2013-01-31 09:45:14

斯坦福超級電腦百萬內核

2023-10-05 12:31:14

AI數據

2019-12-16 14:33:01

AI人工智能斯坦福

2024-09-26 10:23:46

2018-08-13 21:19:07

Weld開源數據

2023-03-15 10:26:00

模型開源

2024-01-29 12:49:00

AI模型

2025-01-17 10:26:19

模型開發ChatGPT

2017-11-28 14:18:29

2022-10-08 12:38:23

模型開源

2023-08-10 14:01:08

開源虛擬
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲综合在线一区 | 亚洲国产一区在线 | 国产日韩欧美91 | 成人天堂噜噜噜 | 国产精品久久久久久吹潮 | 99久久久无码国产精品 | 神马久久久久久久久久 | 天堂亚洲 | 精品亚洲一区二区 | 久草在线视频中文 | 黄色大片免费网站 | 久久新视频| av日韩在线播放 | 精品av| 成人欧美| 久久99精品久久 | 欧美午夜视频 | 成人免费视频 | 欧美精品在线播放 | 黄色片视频免费 | 国产玖玖 | 国产精品乱码一二三区的特点 | 国产99热精品 | 欧美日韩国产欧美 | 成人国产精品久久 | 国产99热| 日韩一二区 | 国产一区二区欧美 | 天堂一区二区三区四区 | 精品视频在线免费观看 | 欧美性生交大片免费 | 在线观看的av | 国产精品3区 | 亚洲午夜久久久 | 欧美精品一区二区三区在线播放 | 成人免费av | 精品国产一区二区三区久久 | 国产成人av在线 | 国产欧美性成人精品午夜 | 午夜免费观看体验区 | 黄色片网此|