十個推薦開源免費文本標注工具
文本標注工作是將標簽或標記與文本的特定部分(如短語、單詞或句子)相關聯的過程。其目的是提供有關文本的額外信息,用于進一步的分析或處理,特別是在人工智能領域。
文本標注對于人工智能應用中的監督機器學習任務至關重要。用于訓練AI模型,有助更準確地理解自然語言文本信息,提高文本分類、情感分析和語言翻譯等任務的性能。通過文本標注,我們可以教AI模型識別文本中的實體、理解上下文,并在出現新的類似數據時做出準確的預測。
本文主要推薦一些較好的開源文本標注工具。
1.Label Studio
https://github.com/HumanSignal/label-studio
Label Studio是一個開源數據標注工具,支持各種數據類型并導出為多種模型格式。用于準備原始數據或增強現有的訓練數據,以獲得更準確的機器學習模型。
2.Doccano
https://github.com/doccano/doccano
Doccano是一個開源文本標注工具,提供文本分類、序列標記和序列任務的功能。它支持文本標注團隊協作、多語言、移動應用、表情符號、深色主題和REST風格的API。可以使用Docker和Docker Compose安裝。
3.Universal Data Tool
https://github.com/UniversalDataTool/universal-data-tool
Universal Data Tool是一個用于編輯和注釋各種類型的數據(包括圖像、文本、音頻和文檔)的多功能應用程序。它支持廣泛的數據類型,并提供實時協作、易于使用的GUI、為文本標注人員創建培訓課程等功能。該工具可以在網絡上使用,也可以作為桌面應用程序使用,并支持CSV或JSON格式的數據下載和上傳。
4.YEDDA
https://github.com/jiesutd/YEDDA
YEDDA是一個可以用于各種語言、符號和表情符號的文本標注工具。它支持使用快捷方式、命令模型,并將標注文本導出為序列文本。支持智能推薦和管理員分析等功能。
YEDDA兼容所有主流操作系統,包括Windows、Linux和MacOS。
5.Argilla
https://github.com/argilla-io/argilla
Argilla是一個面向人工智能工程師和領域專家的開源數據協作平臺,提供高質量、高效率的數據輸出。
它有助于控制數據質量并提高AI輸出質量,并通過實現數據和模型的快速迭代來提高效率。Argilla還提供了數據管理和模型訓練工具。
6.KernAI Refinery
https://github.com/code-kern-ai/refinery
Refinery是KernAI的一個開源平臺,專為處理自然語言數據的數據科學家設計。它提供半自動化數據標注、數據子集質量評估和集中數據監控等功能,旨在提高人工標記效率。
該工具利用Hugging Face和spaCy等技術構建預建語言模型,并與其他標簽工具集成,以實現靈活的數據處理。
功能特征:
- NLP任務的(半)自動化標簽工作流程
- 手動和程序化分類以及跨度標簽
- 支持與最先進的庫和框架集成
- 創建和管理查找表/知識庫
- 基于神經搜索的相似記錄和離群值檢索
- 可切片標簽會話
- 每個項目多個標簽任務
- 豐富的自動化庫
- 廣泛的數據管理和監控
- 與Hugging Face集成,用于自動創建嵌入
- 基于JSON的數據模型用于數據上傳/下載
- 項目指標概述
- 通過Python SDK訪問和擴展數據
- 在位屬性修改
- 托管版本中的團隊協作
- 面向多個用戶的基于角色的訪問和最小化的標簽視圖
- 集成群組標簽工作流
- 自動計算注釋者之間的協
7.Recogito.js
https://github.com/recogito/recogito-js
ApplitoJS是一個用于文本注釋的JavaScript庫,用于向網頁添加文本標注功能或構建自定義文本標注程序。可以通過npm或下載最新版本來安裝。
8.Label Sleuth
https://github.com/label-sleuth/label-sleuth
Label Sleuth是一個用于文本標注和分類的開源、無代碼系統。它使醫生、律師、心理學家等領域的專家也能夠在沒有NLP專家配合的情況下構建自定義NLP模型。
通常NLP模型創建需要領域和機器學習專業知識。Label Sleuth通過直觀的文本標注和AI模型構建,繞開了對NLP專業知識的要求。當用戶在標注數據時,機器學習模型在后臺進行訓練,進行預測并建議下一步標記什么。
作為一個無代碼系統,它不需要機器學習知識,并允許快速開發模型,從任務定義到完成模型只需幾個小時。
9.Markup
https://github.com/samueldobbie/markup
Markup是一種在線標注工具,可用于將非結構化文檔轉換為NLP和ML任務的結構化格式,例如:實體識別。在您標注時進行同步學習,以預測和推薦更為復雜的標注,并且還提供對用于概念映射的通用和自定義本體的集成訪問。
功能特征:
- 預測性注釋:Markup的機器學習驅動的預測性標注功能,可在您工作時推薦更復雜的標注,使標注的過程更加高效。
- 集成本體訪問標記:提供了對廣泛的通用本體(例如UMLS、SNOMED-CT、ICD-10)的集成訪問,以及上傳自定義本體的能力,用于概念映射。
- 預測性本體映射:Markup的預測性本體映射功能使用機器學習,根據您正在標注的文本,推薦到標準和自定義術語的適當映射。
- 友好的用戶界面:無論您是技術專家還是初學者,標記的用戶友好的界面使任何人都可以輕松地以最小的設置開始注釋文檔。
10.Potato
https://github.com/davidjurgens/potato
Potato是一個基于Web的文本標注工具,支持快速設置和部署各種文本標注任務。可以作為Web服務器運行,由單個配置文件驅動,不需要啟動編碼。但Potato很容易自定義,通常不需要額外的網頁設計,就可以調整文本標注人員的操作界面。
關鍵特征:
- 易于設置和定制
- 廣泛的內置模式和模板
- 支持多種數據類型
- 支持多任務設置
- 通過鍵盤快捷鍵、動態高亮顯示和標簽工具提示等功能提高標注效率
- 更好地了解注釋者的功能,例如篩選前和篩選后的問題
- 質量控制功能,如注意力測試、資格測試和內置時間檢查