1GB文本標記只需20秒!抱抱臉團隊發布最新NLP工具
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
專注NLP的強大團隊抱抱臉(hugging face)又發新資源!這一次是幫助NLP過程中,詞語切分(tokenization)更快的Tokenizers。
只要20秒就能編碼1GB文本,適用Rust、Python和Node.js,已經在GitHub上獲得了800多星。
前不久,這個團隊也憑借自己的技術實力獲得了1500萬美元的天使投資。
速度快,功能多樣
在NLP模型訓練中,詞語標記和切分往往是一個瓶頸。Tokenizer能夠訓練新的詞匯,并且進行標記。
功能多樣:適用于BPE/byte-level-BPE/WordPiece/SentencePiece各種NLP處理模型。
可以完成所有的預處理:截斷(Truncate)、填補(Pad)、添加模型需要的特殊標記。
速度超級快:只需要20秒就可以在CPU上標記1GB的文本。
目前適用三種編程語言:Rust/Python/Node.js
使用示例
github的資源頁面上提供了在Python上使用Tokenizers的示例,進行簡單的設置就可以使用:
也可以用Tokenizers進行新詞訓練:
雖然目前只可用于三種語言Python、JS、Rust,抱抱臉團隊表示,將來會繼續升級以適用更多~
抱抱臉團隊最新進展
抱抱臉團隊是一個創業團隊。他們的Transformers是github上最火的NLP項目,已經獲得了20K星。
作為專注于自然語言處理的創業公司,他們的目標是開發一個可以使用文字、照片、表情包的聊天機器人,名字叫做social AI 。
目前已經經過了三輪融資,共2000萬美元。其中,在2019年底的A輪融資中,公司獲得了1500萬美元,并打算將員工增加兩倍。
目前公司尚未盈利。創始人Clement Delangue在獲得A輪融資后表示,除了對話AI之外,公司正在構建通用的NLP技術,希望讓NLP技術滿足公司的多樣化需求。
傳送門
https://github.com/huggingface/tokenizers