成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

用于提取數(shù)據(jù)的三個開源NLP工具

譯文
開源
非結(jié)構(gòu)化文本和數(shù)據(jù)對于業(yè)務(wù)應(yīng)用程序和公司而言如同寶庫,但貴組織又該從哪里入手呢?本文介紹的三個工具值得考慮。

譯者 | 布加迪

審校 | 重樓

開發(fā)人員和數(shù)據(jù)科學(xué)家使用生成式AI和大語言模型(LLM)來查詢大量文檔和非結(jié)構(gòu)化數(shù)據(jù)。開源LLM包括Dolly 2.0EleutherAI PythiaMeta AI LLaMaStabilityLM等,它們都是嘗試人工智能的起點,可以接受自然語言提示生成總結(jié)式響應(yīng)。

Fluree首席執(zhí)行官兼聯(lián)合創(chuàng)始人Brian Platz說:“作為知識和信息的基本來源,文本很重要,但目前還沒有任何端到端解決方案可以駕馭處理文本的復(fù)雜性。雖然大多數(shù)組織處理結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)、放到集中式數(shù)據(jù)平臺,但非結(jié)構(gòu)化數(shù)據(jù)仍然被遺忘未充分利用起來

如果組織和團隊沒有試自然語言處理NLP功能,可能落后所在行業(yè)的競爭對手。2023年專家NLP調(diào)查報告發(fā)現(xiàn)77%的組織表示計劃增加NLP方面的支出,54%的組織聲稱部署到生產(chǎn)環(huán)境的時間是衡量成功NLP項目的投資回報率首要指標(biāo)。

NLP的用例

如果您大量非結(jié)構(gòu)化數(shù)據(jù)和文本,那么一些最常見的業(yè)務(wù)需求包括如下:

  • 通過識別名稱、日期、地點和產(chǎn)品提取實體
  • 模式識別,以發(fā)現(xiàn)貨幣其他數(shù)量;
  • 對業(yè)務(wù)術(shù)語、主題和分類分門別類;
  • 情緒分析,包括積極的、負面的和諷刺的情緒;
  • 總結(jié)文件要點
  • 機器語言翻譯成其他語言
  • 將文本轉(zhuǎn)換機器可讀的半結(jié)構(gòu)化表示的依賴關(guān)系圖

時候,將NLP功能捆綁到平臺或應(yīng)用程序中是可取的。比如說LLM支持提問,AI搜索引擎支持搜索和推薦聊天機器人支持交互其他時候,使用NLP工具提取信息以及豐富非結(jié)構(gòu)化文檔和文本是最佳選擇。

不妨看看開發(fā)人員和數(shù)據(jù)科學(xué)家如今使用三種流行的開源NLP工具,可用于針對非結(jié)構(gòu)化文檔執(zhí)行發(fā)現(xiàn)操作,并開發(fā)生產(chǎn)就緒的NLP處理引擎。

1. 自然語言工具包

自然語言工具包NLTK2001年發(fā)布,是較悠久流行的NLP Python庫之一。NLTK在GitHub上擁有超過1.18萬顆星,列100多個經(jīng)過訓(xùn)練的模型。

SPR的數(shù)據(jù)和分析主管Steven Devoe說:“我認為對于NLP來說,最重要的工具是自然語言工具包(NLTK),它采用了Apache 2.0許可證。在所有的數(shù)據(jù)科學(xué)項目中,處理和清理算法使用的數(shù)據(jù)耗用了大量的時間和精力,這在自然語言處理中尤如此。NLTK加這方面的許多工作,比如詞干提取、詞源化、標(biāo)記、刪除停止詞以及跨多種書面語言嵌入詞向量,從而使算法更容易解釋文本。

NLTK的優(yōu)點源于耐久性,它為剛接觸NLP的開發(fā)人員提供了許多示例,比如初學(xué)者實踐指南和這個更全面的概述。任何學(xué)習(xí)NLP技術(shù)的人都可能想先試一下這個庫,因為它提供了簡單的方法來嘗試基本技術(shù),比如標(biāo)記化、詞干提取和分塊。

2.spaCy

spaCy是一個較新的庫,2016年發(fā)布了版本1.0。spaCy支持72種語言,發(fā)布了性能基準(zhǔn),它在GitHub上積累的星數(shù)超過25000顆。

Domino數(shù)據(jù)實驗室歐洲中東和非洲(EMEA)地區(qū)的數(shù)據(jù)科學(xué)主管Nikolay Manchev說:“spaCy是免費的開源Python庫,提供了對大量文本進行高速自然語言處理的高級功能。使用spaCy,用戶可以構(gòu)建模型和生產(chǎn)應(yīng)用程序,它們支持文檔分析、聊天機器人功能和所有其他形式的文本分析。如今,spaCy框架是Python最流行的自然語言庫之一,用于從文本中提取關(guān)鍵字、實體和知識等行業(yè)用例。

spaCy教程顯示了NLTK類似的功能,比如命名實體識別和詞性標(biāo)注。一個優(yōu)點是,spaCy返回文檔對象并支持詞向量,這可以為開發(fā)人員執(zhí)行額外的NLP后數(shù)據(jù)處理和文本分析賦予更大的靈活性。

3.Spark NLP

如果您已經(jīng)使用Apache Spark并配置了基礎(chǔ)設(shè)施,那么Spark NLP可能是開始嘗試自然語言處理的更便捷途徑之一。Spark NLP有幾個安裝選項,包括AWS、Azure Databricks和Docker。

John Snow Labs的首席技術(shù)官David Talby說:“Spark NLP是一個廣泛使用的開源自然語言處理庫,它使企業(yè)能夠以最高的精度從自由文本文檔中提取信息和答案。因此企業(yè)可以提取只存在于臨床記錄中的相關(guān)健康信息,識別社交媒體上的仇恨言論或虛假新聞,或概述法律協(xié)議和財經(jīng)新聞。”

Spark NLP的不同之處在于是適用于醫(yī)療、金融和法律領(lǐng)域的語言模型。這些商業(yè)產(chǎn)品配備了預(yù)先訓(xùn)練的模型,用于識別醫(yī)療領(lǐng)域的藥物名稱和劑量、金融實體識別(比如股票行情信息)以及公司名稱和高管的法律知識圖譜。

Talby表示,Spark NLP可以幫助組織盡量減少開發(fā)模型所需的前期訓(xùn)練。他說:“這個免費開源庫附帶超過11000個預(yù)訓(xùn)練模型,外加重用、訓(xùn)練、調(diào)優(yōu)和輕松擴展模型的功能。”

試用NLP的最佳實踐

我在職業(yè)生涯的早期有幸監(jiān)督過開發(fā)幾個使用NLP功能構(gòu)建的SaaS產(chǎn)品第一個NLP是一個搜索報紙分類廣告的SaaS平臺,包括搜索汽車、工作和房地產(chǎn)。然后,我領(lǐng)導(dǎo)開發(fā)了用于從商業(yè)建筑文件包括建筑規(guī)格和藍圖中提取信息的NLP

在一個新領(lǐng)域開始入手NLP時,我的建議如下

  • 從文檔或文本的一個代表性的小例子入手
  • 確定目標(biāo)最終用戶角色以及提取的信息如何改進他們的工作流
  • 指定所需的信息提取和目標(biāo)準(zhǔn)確性指標(biāo)
  • 測試幾種方法,使用速度和準(zhǔn)確性指標(biāo)進行基準(zhǔn)衡量
  • 反復(fù)提高準(zhǔn)確性,尤其是在增加文檔的規(guī)模和廣度時。
  • 準(zhǔn)備交付用于處理數(shù)據(jù)質(zhì)量和處理異常的數(shù)據(jù)管理工具。

您可能會發(fā)現(xiàn)用于發(fā)現(xiàn)和試文檔的NLP工具將有助于定需求。然后,擴NLP技術(shù)的比較范圍涵蓋開源方案和商業(yè)方案,因為構(gòu)建和支持生產(chǎn)就緒的NLP數(shù)據(jù)管道可能成本高昂。隨著LLM日益?zhèn)涫荜P(guān)注,對NLP功能方面不足會導(dǎo)致落后于競爭對手幸運的是,您可以從本文介紹的其中一款開源工具入手,構(gòu)建NLP數(shù)據(jù)管道以滿足自己的預(yù)算和需求。

原文標(biāo)題:3 open source NLP tools for data extraction,作者:Isaac Sacolick

責(zé)任編輯:華軒 來源: 51CTO
相關(guān)推薦

2020-02-02 14:45:55

聯(lián)系人開源工具

2017-08-01 08:41:29

Oracle開源容器

2018-10-18 08:15:27

開源分布式追蹤工具

2020-07-22 16:27:11

開源工具數(shù)據(jù)挖掘數(shù)據(jù)

2023-02-07 16:21:37

時間序列列數(shù)據(jù)集

2010-06-20 00:38:50

2013-10-21 09:42:28

開源OpenStack

2022-10-08 14:47:21

Python工具開源

2011-09-13 15:05:57

2025-01-03 06:55:09

.NET HTTP開發(fā)開源

2022-04-14 14:09:25

數(shù)據(jù)治理數(shù)字化轉(zhuǎn)型工具

2023-04-26 11:14:11

IT領(lǐng)導(dǎo)者遠程工作

2021-05-17 09:52:53

工具dumiVue 組件

2010-08-24 09:10:14

Linux命令行工具

2023-11-28 07:40:34

開源倉庫管理系統(tǒng)

2018-05-02 08:06:12

2023-02-13 08:45:26

2022-05-19 13:33:53

Github開源項目開源

2019-07-25 10:35:10

2015-03-12 10:57:51

開源項目
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲在线高清 | 欧美日韩国产精品一区 | 久久免费精品视频 | 四虎海外 | 99精品视频在线 | 国产成人高清 | 欧美一级免费看 | 视频一区 亚洲 | 中文字幕在线一区二区三区 | 国产精品99久久久久久宅男 | 天堂一区二区三区 | 精品一区二区三区四区在线 | 欧美国产精品一区二区三区 | 国产精品国产成人国产三级 | 999视频在线播放 | 国产午夜精品一区二区三区嫩草 | 中文字幕高清 | 久久国产精品99久久久大便 | 日韩欧美在线一区 | 久久久女女女女999久久 | 国产在线第一页 | 91视在线国内在线播放酒店 | 日韩免费高清视频 | 日本一区二区三区免费观看 | 91一区二区三区在线观看 | www亚洲精品 | 国产在线精品一区 | 欧美中文字幕一区二区三区亚洲 | 欧美456| 午夜影院在线观看免费 | 黄色精品 | 国产精品久久久久久久久婷婷 | av在线免费观看网站 | 九九热在线观看视频 | 51ⅴ精品国产91久久久久久 | 精品九九久久 | 日韩国产一区二区三区 | 欧美一区二区三区久久精品视 | 一区二区高清 | 色毛片 | 国产精品夜夜春夜夜爽久久电影 |