細(xì)說文本挖掘:工具、任務(wù)、問題和解決方案
譯文【51CTO.com快譯】如今,世界的各個(gè)角落都在無時(shí)不刻地產(chǎn)生著大量的數(shù)據(jù),而且其規(guī)模也在逐年增長。這些豐富的數(shù)據(jù)為人們提供了企業(yè)競爭的優(yōu)勢和管理資源的依據(jù)。我們通常需要通過各種自動(dòng)化的選擇和處理過程,來實(shí)現(xiàn)對于海量數(shù)據(jù)的挖掘與分類。
業(yè)界時(shí)常提到文本挖掘的概念,其本質(zhì)是:一個(gè)從給定文本中獲取高質(zhì)量信息的自動(dòng)化過程。它與其他類型數(shù)據(jù)分析的主要區(qū)別在于:其輸入的數(shù)據(jù)并未經(jīng)過任何方式的格式化。也就是說,我們不能簡單地運(yùn)用數(shù)學(xué)函數(shù)來描述數(shù)據(jù)。
當(dāng)下,文本分析、機(jī)器學(xué)習(xí)和大數(shù)據(jù)都在以各自的方式,為不同的公司和企業(yè)帶來業(yè)務(wù)增長點(diǎn)。在本文中,我們將和您探討文本挖掘所應(yīng)對的挑戰(zhàn),以及WaveAccess公司是如何在其應(yīng)用中使用此項(xiàng)技術(shù)的。
一、基本的文本挖掘工具
通過下列步驟,文本挖掘系統(tǒng)將能夠從文本語料庫中提取關(guān)鍵知識(shí),以判斷給定的文本是否與指定的主題相關(guān)聯(lián),進(jìn)而揭示其內(nèi)容的細(xì)節(jié)。
1. 文檔相關(guān)性(搜索與給定主題相關(guān)的文本)。其中,給定的主題可以是一些相當(dāng)狹窄的概念,例如:有關(guān)眼科手術(shù)的學(xué)術(shù)論文。
2. 命名的實(shí)體。如果一份文檔被認(rèn)為是相關(guān)的,那么系統(tǒng)可能需要在其中找到一些具體的實(shí)體,例如:學(xué)術(shù)名稱、或討論到的疾病名稱。
3. 文檔類型。系統(tǒng)根據(jù)文檔的內(nèi)容對其進(jìn)行標(biāo)記。例如:對于某個(gè)產(chǎn)品的評(píng)論可以被分為正面的、或負(fù)面的。
4. 實(shí)體鏈接。除了事實(shí)本身,系統(tǒng)是否能夠在文檔中找到與事實(shí)相聯(lián)系的確切部分,也是非常重要的。例如:某種藥物與副作用之間的關(guān)系,或者是某人的名字與對其工作的負(fù)面評(píng)價(jià)之間的關(guān)系。
二、典型的文本挖掘任務(wù)
文本挖掘不僅有助于我們從大型非結(jié)構(gòu)化的數(shù)據(jù)管理項(xiàng)目中提取有用的知識(shí),而且有利于提高相應(yīng)的投資回報(bào)率。對于一家企業(yè)來說,這就意味著他們無需采用昂貴的手動(dòng)處理,只需自動(dòng)化地將不相關(guān)的數(shù)據(jù)剔除掉,便可以從大數(shù)據(jù)中得到正確的答案。
下面我們來探討幾個(gè)利用文本挖掘進(jìn)行工作的例子。
1.語義科學(xué)文獻(xiàn)的搜索
在大量的科學(xué)出版物中,文本挖掘可以幫助我們找到相關(guān)的文章,進(jìn)而節(jié)省時(shí)間和金錢。
在法律上,如果在產(chǎn)品中發(fā)現(xiàn)了任何副作用,歐美制藥公司都有義務(wù)召回其產(chǎn)品,并修改其傳單頁和其他相關(guān)文件中涉及到患者的信息。那么除了公司自己的研究方式以外,發(fā)現(xiàn)副作用的主要途徑便是閱讀其他研究人員的科學(xué)文章。由于每年發(fā)表出來的文章數(shù)量龐大,因此他們幾乎不可能去手動(dòng)處理所有的文章。
為了解決此問題,科學(xué)出版商(或者是與出版商有關(guān)聯(lián)的數(shù)據(jù)分析公司)會(huì)根據(jù)客戶(制藥公司)所指定的算法和方法,提供自動(dòng)化的文章搜索服務(wù)。而在客戶方面,在得到了所需格式的相關(guān)文章簡報(bào)之后,他們便可以選擇要購買的指定文章了。
2.定價(jià)出版物
如下圖所示,出版商對于這些***科學(xué)文章與研究成果的收費(fèi)標(biāo)準(zhǔn)是:每篇25-30美元的起步價(jià)。那么,制藥公司就陷入了兩難的局面:一方面,根據(jù)法律他們有義務(wù)跟蹤其產(chǎn)品的所有副作用,以便修改產(chǎn)品規(guī)格或從市場上召回其產(chǎn)品。另一方面,購買所有可能提到某種藥物的文章是一筆昂貴的開銷,更不用說需要花費(fèi)時(shí)間來處理所有這些文字了。
在WavetAccess公司,我們?yōu)橹扑幮袠I(yè)的客戶開發(fā)了一種自動(dòng)化文章搜索方案:我們運(yùn)用文本挖掘平臺(tái)來搜索文章及其元數(shù)據(jù),從而保證客戶只為最有可能包含相關(guān)文本的文章買單。
鑒于此類任務(wù)的復(fù)雜性,我們用到的文本挖掘技術(shù)有:針對來源于非標(biāo)準(zhǔn)化書目的數(shù)據(jù),我們采用了單獨(dú)的搜索方式,有時(shí)甚至需要通過機(jī)器學(xué)習(xí),去解析元數(shù)據(jù)里包含的公司地址等信息。
3.市場調(diào)查
文本挖掘的相關(guān)應(yīng)用有助于定位目標(biāo)公司所處的社交媒體空間,并分析它在空間里的認(rèn)可程度。
許多企業(yè)往往需要對自己的產(chǎn)品,及其競爭產(chǎn)品進(jìn)行客觀的評(píng)估,以制定出獨(dú)有的發(fā)展戰(zhàn)略。在此,自動(dòng)化的文本處理系統(tǒng),更適合應(yīng)對大量的信息來源(包括:學(xué)術(shù)文章、雜志、新聞、產(chǎn)品評(píng)論網(wǎng)站等),以及五花八門的產(chǎn)品使用評(píng)論。
4.信息源可信度
有了文本挖掘,我們還需要進(jìn)一步將各種虛假的評(píng)論,與那些公平公正的評(píng)論相區(qū)別開來。
在醫(yī)藥領(lǐng)域,“產(chǎn)品評(píng)論”是指那些發(fā)表在可信學(xué)術(shù)雜志上的藥物檢測結(jié)果。由于業(yè)界對于學(xué)術(shù)論文的標(biāo)準(zhǔn)要求比較高,因此它們很難出現(xiàn)“虛假評(píng)論”。但是,如果把分析目標(biāo)鎖定為所有可公開訪問的來源(包括互聯(lián)網(wǎng)),那么我們就必須給評(píng)論的作者和來源的信譽(yù)予以排名,以甄別出虛假的評(píng)論。而在學(xué)術(shù)論文領(lǐng)域,這被稱為引文索引(citation index,CI)。因此在文章搜索中,我們引入了這些參考因素,并將其包含在最終的報(bào)告中,以便讀者自行判定是否信任那些給出的信息源。
另一個(gè)相關(guān)、但又不相同的參考因素叫做情緒分析(也稱為觀點(diǎn)挖掘)。其目標(biāo)是評(píng)估作者對于給定對象的情緒態(tài)度。這同樣有助于對各種評(píng)論進(jìn)行分類,并且找出針對目標(biāo)公司的負(fù)面輿論。
5.知識(shí)管理
對于文書工作的優(yōu)化,有助于公司了解到有哪些可用的數(shù)據(jù)和文檔,并設(shè)置針對它們的快速訪問。
許多公司在其規(guī)模擴(kuò)大的過程中,積累了大量的知識(shí)資產(chǎn)。不過,這些資產(chǎn)卻往往存在著結(jié)構(gòu)不良,沒有實(shí)現(xiàn)標(biāo)準(zhǔn)化等問題。各部門可能持續(xù)使用著自己保存的內(nèi)部文檔,或者根本就沒有任何保存的意識(shí)。那么當(dāng)不同的公司合并到一起時(shí),問題就會(huì)整體爆發(fā),他們幾乎不可能找到所需要的信息。因此,為了更好地利用過去所積累的知識(shí),此處該“請出”文本挖掘系統(tǒng)了。它可以實(shí)現(xiàn)如下四個(gè)方面:
- 自動(dòng)收集和標(biāo)準(zhǔn)化不同來源的數(shù)據(jù)。
- 添加元數(shù)據(jù)(如文檔源、作者、創(chuàng)建日期等)。
- 對文檔進(jìn)行索引和分類。
- 通過用戶定義的參數(shù),來提供文檔搜索的界面。
另外,此類文本挖掘系統(tǒng)還應(yīng)該根據(jù)相關(guān)的安全標(biāo)準(zhǔn),配備用戶角色與授權(quán)級(jí)別的管控。
6.客戶服務(wù)部門優(yōu)化
除了各種內(nèi)部文檔之外,公司往往還需要從外部獲取大量的文本數(shù)據(jù),例如:導(dǎo)入從網(wǎng)站錄入進(jìn)來的表單和訂單。因此,文本挖掘系統(tǒng)可以對傳入的請求進(jìn)行排序,并提供客戶需要的詳細(xì)信息。通過最小化訂單的處理時(shí)間,客戶服務(wù)部門可以為更多的客戶提供服務(wù),企業(yè)也更加能夠盈利。
7.文本挖掘如何創(chuàng)收
我們有一家提供工業(yè)級(jí)別維護(hù)與維修的客戶公司。他們每天最多能收到4000個(gè)維修請求。客戶服務(wù)經(jīng)理需要在CRM系統(tǒng)中創(chuàng)建修復(fù)條目,并在彈出的列表中選擇修復(fù)的類別和類型。然后,他們根據(jù)請求的數(shù)量,再分配修復(fù)小組的工作量。
由于請求并非是以特定的格式提交的,因此在引入文本挖掘之前,他們只能花費(fèi)大量的時(shí)間,靠人工去填寫所有的字段。
WavetAccess公司給他們開發(fā)了一套基于未知格式的文本系統(tǒng),以幫助客戶服務(wù)部門更好地對各種請求進(jìn)行排序。該系統(tǒng)預(yù)制了一些最有可能的類別,并幫助員工在CRM的彈出列表中快速地定位到某些特定情況。同時(shí),這套系統(tǒng)也能甄別出那些收費(fèi)項(xiàng)目,并為公司實(shí)現(xiàn)創(chuàng)收。
8.垃圾郵件過濾
垃圾郵件過濾的目標(biāo)是:對大量的郵件流(包括電子郵件和短信)進(jìn)行分類,以實(shí)現(xiàn)對那些不需要的郵件進(jìn)行分類。因此對于這項(xiàng)工作而言,文本挖掘技術(shù)需要能夠根據(jù)快速的算法,判斷和處理大量的數(shù)據(jù)。
通過上述應(yīng)用案例,我們可以看到:企業(yè)所面對的文本數(shù)據(jù)往往是“非標(biāo)”的,而他們的處理目標(biāo)也是多樣的。因此我們無法僅使用某個(gè)單一的分析方法,來提高對于文本挖掘與決策的效率。下面讓我們深入討論文本挖掘過程中的不同開發(fā)階段,以及流行的項(xiàng)目優(yōu)化方法。
三、實(shí)施過程中的信息搜索問題
最常見的文本挖掘任務(wù)之一莫過于:搜索相關(guān)文檔,并從中提取信息。那么隨著數(shù)據(jù)量的不斷增加,該任務(wù)的自動(dòng)化程度就顯得尤為重要。執(zhí)行此類任務(wù)的典型系統(tǒng)一般由兩部分組成:
- 文檔收集和標(biāo)準(zhǔn)化。
- 文檔分類和分析。
下面讓我們詳解這兩個(gè)部分。
1.文檔收集和標(biāo)準(zhǔn)化
此階段的目標(biāo)是:
- 持續(xù)收集和提取文本的結(jié)構(gòu)化數(shù)據(jù)。
- 收集文檔的元數(shù)據(jù)(包括創(chuàng)建日期、標(biāo)題等)。
- 標(biāo)準(zhǔn)化文檔的文本和元數(shù)據(jù)。
由于數(shù)據(jù)的來源五花八門,而且收集的方法也是靈活多樣,因此在上傳之前,我們有時(shí)需要使用格式轉(zhuǎn)換器,來處置好目標(biāo)文檔的格式。下面是一些具體的數(shù)據(jù)收集與準(zhǔn)備任務(wù):
通過對源文檔的掃描,來收集數(shù)據(jù)
在這種情況下,系統(tǒng)使用光學(xué)字符識(shí)別引擎(如:Tesseract之類的OCR工具),將文本分成多個(gè)部分與段落。不過,光學(xué)識(shí)別的一個(gè)常見問題是:它經(jīng)常會(huì)碰到格式較為復(fù)雜的文本(如各種列或表格),這些元素都會(huì)影響系統(tǒng)的最終轉(zhuǎn)換,以及合并出有意義的文檔。此外,有時(shí)為了同時(shí)掃描多個(gè)文檔,系統(tǒng)需要使用特定的屬性標(biāo)記,標(biāo)注出給定文檔的開頭和結(jié)尾。
通過PDF或DJVU文檔的方式收集數(shù)據(jù)
這些文檔的格式,雖然比較適合用來查看那些格式化好的文檔,但是不適合被應(yīng)用來存儲(chǔ)結(jié)構(gòu)化的數(shù)據(jù)。PDF與DJVU文件雖然能夠存儲(chǔ)符號(hào)和單詞的位置,以便于顯示和用戶的閱讀,但這些文件并沒有任何的語句邊界標(biāo)記。因此,和上述文檔掃描方式類似,此類具有復(fù)雜格式、表格和圖像的PDF與DJVU文件,也會(huì)給文本的挖掘帶來不同程度的挑戰(zhàn)。
從Web源收集數(shù)據(jù)
并非所有包含數(shù)據(jù)源的網(wǎng)站或系統(tǒng)都有便捷的API,有時(shí)它們可能只是一個(gè)方便操作的用戶界面而已。在這種情況下,系統(tǒng)需要用到Web爬蟲,即:通過分析網(wǎng)站來收集數(shù)據(jù)。因此,除了常用的HTML代碼分析,系統(tǒng)還可能需要使用計(jì)算機(jī)視覺(computer vision)來解決此類特殊問題。
用戶手動(dòng)上傳數(shù)據(jù)
有時(shí)候,用戶已經(jīng)有能力在本地自動(dòng)化地處理一定數(shù)量的文檔了。那么,系統(tǒng)為了支持用戶上傳大量具有豐富格式的文檔,就必須將某些元數(shù)據(jù)添加到上載的文檔之中。諸如發(fā)布日期、作者、源、以及文檔類型之類的元數(shù)據(jù),將有助于后期的文本挖掘操作,包括:針對特定主題,查找特定作者的作品等操作。
因此,在面對大量可用的數(shù)據(jù)時(shí),我們可能只是需要其中的一小部分。例如:我們可能只對某醫(yī)學(xué)與藥物數(shù)據(jù)庫中的某個(gè)特定公司的藥物感興趣。那么,我們就應(yīng)該通過訪問關(guān)鍵字列表,運(yùn)用全文索引,來快速檢索到所需的文檔;而不是使用精確但耗費(fèi)資源的算法,去處理所有的文檔。如果我們的目標(biāo)是從多個(gè)來源收集數(shù)據(jù),那么就應(yīng)當(dāng)使用特定的標(biāo)準(zhǔn)化接口,以迅速高效地獲取文檔。在此,您可以參考Solr工具,它是一個(gè)開源的全文搜索平臺(tái)。
2.文檔分類和分析
在對各類文檔完成收集入庫(也可能進(jìn)行篩選操作)之后,系統(tǒng)會(huì)調(diào)用各種文本挖掘算法,來檢查目標(biāo)文檔是否與主題相關(guān),以及分析文檔內(nèi)所包含的信息。例如:通過判斷文檔中是否提到了某個(gè)產(chǎn)品,以確定其上下文是“正”還是“負(fù)”。此后,系統(tǒng)將生成一份文檔報(bào)告,以便下一步進(jìn)行手動(dòng)或自動(dòng)處理。
總的說來,文本挖掘的方法和算法分為以下幾組:
- 文本規(guī)范化和預(yù)處理。
- 使用一整套規(guī)則來搜索實(shí)體和他們之間關(guān)系。
- 使用各種統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)。
上述這些方法通常會(huì)被放到一些復(fù)雜的系統(tǒng)中,并被組合到一起使用。
文本規(guī)范化和預(yù)處理
此階段處于其他階段之前,包括以下部分:
- 將句子分為多個(gè)單詞。
- 刪除停頓詞(stop words,如前置詞、感嘆詞等)。
- 規(guī)范化剩余的詞語(將“人們”變成“人”,將“實(shí)現(xiàn)了”變成“實(shí)現(xiàn)”),并識(shí)別它們在語句中的成分。
顯然,這些步驟高度依賴于文本的語言,不過也并非總是必要的。例如:某些文本挖掘算法,也可以從停頓單詞中收集到各種信息。
規(guī)則集
這種方法基于由某個(gè)特定領(lǐng)域的專家所制定的一整套規(guī)則。下面是此類規(guī)則的示例:
- 在帶有公司名稱的三個(gè)句子中,選擇所有提到的產(chǎn)品名稱。
- 選擇匹配“<公司名稱>提供<服務(wù)名稱>”模式的服務(wù)。
- 消除那些提及公司產(chǎn)品名稱的次數(shù)少于三次的文檔。
語言規(guī)格
此類規(guī)則的重點(diǎn)在于通過語言來分析詞序。例如:在英語句子中,單詞之間的關(guān)系是通過語法和功能詞(前置詞等)來傳達(dá),而核心詞一般保持不變。
而在合成語言(例如德語、希臘語、拉丁語、俄語)中,單詞之間的關(guān)系是通過單詞的形式來表達(dá)的,語序并不重要。
因此在分析英語時(shí),那些非核心詞的“服務(wù)性”詞語(前置詞等)負(fù)責(zé)傳達(dá)形式和時(shí)態(tài)。例如那句經(jīng)典的Word語句:“棕色的狐貍快速地跳過了懶惰的狗”。
與合成語言相比,英語的這句話并不假設(shè)棕色的狐貍是雄性還是雌性,而懶惰的狗的性別也不明顯。其中,“狐貍”和“狗”都是清晰不變的核心詞。
規(guī)則的優(yōu)、缺點(diǎn)
優(yōu)點(diǎn)
- 無需訓(xùn)練數(shù)據(jù)或?qū)ζ溥M(jìn)行標(biāo)記。
- 由系統(tǒng)所做出的判斷是明確的,且容易向人類用戶做出解釋。
缺點(diǎn)
- 需要花一定的精力來制定一套能夠給出足夠精度的規(guī)則。
- 就算模式只是略有不同,現(xiàn)有規(guī)則也無法處理新案例中的相關(guān)數(shù)據(jù)。
五、統(tǒng)計(jì)方法與機(jī)器學(xué)習(xí)
文本數(shù)據(jù)的復(fù)雜性和難以規(guī)范化其結(jié)構(gòu),造成了它們在機(jī)器學(xué)習(xí)的應(yīng)用中顯得尤為復(fù)雜。我們需要測試多種方法或算法,才能找到針對給定上下文的可接受的輸出方案。
下面是一些常用的算法示例:
文本預(yù)處理算法
除了單詞規(guī)范化和刪除停頓詞之外,某些算法還會(huì)要求將文本轉(zhuǎn)換為數(shù)字形式,以作為矢量或矢量序列。最常用的文本預(yù)處理算法有:
1.One-hot encoding,是一種最簡單的算法。它將文本中的單詞轉(zhuǎn)換為,在i-th位置上具有非零值的N-long向量。其中N是語言字典長度,而i則為該字典中單詞的位置。
2.word2vec,也是對單詞進(jìn)行矢量化的一組算法。與One-hot encoding相比,它生成的向量要短得多,并且包含各種實(shí)數(shù)(并不整數(shù))。word2vec能夠給具有相似含義的單詞賦予相似的向量。
3.Bag of words,是一種基于單詞頻率的算法(即:某個(gè)單詞在文檔中出現(xiàn)的次數(shù))。雖然它能夠通過向量來描述一般文本,但是它幾乎完全忽略了文本的結(jié)構(gòu)。
4.TF-IDF,是一種能夠?yàn)槊總€(gè)文本形成tf-idf值向量的算法。此處tf-idf值為給定文本中的單詞頻率,除以整個(gè)語料庫中這個(gè)單詞的反向頻率。而反向頻率則可以通過不同的方法計(jì)算出來。所以基本想法是:如果一個(gè)詞語經(jīng)常在語言中被使用到,那么就給它分配較低價(jià)值的分類(例如:許多前置詞,包括“去”、“工作”、“有”、“需要”等都屬于此類),同時(shí)其反向頻率也就比較低。相反,那些罕見的詞語當(dāng)然也就有著較高的反向頻率,其分類的價(jià)值也就越高。
命名實(shí)體識(shí)別和關(guān)系提取算法
此項(xiàng)工作是:查找特定的術(shù)語(如:公司、產(chǎn)品、服務(wù)名稱等),通過標(biāo)記來對它們進(jìn)行分類,進(jìn)而找出這些實(shí)體之間的關(guān)系。因此,可能會(huì)涉及到如下算法:
1.隱馬爾可夫模型(Hidden Markov model,HMM),它將統(tǒng)計(jì)模型表示為定向圖。
2.條件隨機(jī)場(Conditional Random Field,CRF)也是一個(gè)統(tǒng)計(jì)模型,但是它并不使用定向圖。
3.神經(jīng)網(wǎng)絡(luò)(Neural networks),其中LSTM能夠表示上下文,因?yàn)樗軌驎r(shí)序地(非重復(fù)地)通過處理過程,來存儲(chǔ)上下文數(shù)據(jù)。CNN則根據(jù)所發(fā)現(xiàn)的基本特征模式來提取數(shù)據(jù)。
4.一般機(jī)器學(xué)習(xí)方法。如果系統(tǒng)使用的是“滑動(dòng)窗口(sliding window)”技術(shù),那么常規(guī)的機(jī)器學(xué)習(xí)方法則包括:邏輯回歸、支持向量機(jī)、樸素貝葉斯分類器、決策樹和其他需要輸入具有固定特征列表的方法。當(dāng)然,此類方法并不考慮窗口之外的上下文。因此,如果相關(guān)的單詞遠(yuǎn)離窗口長度的范圍,或是對于整個(gè)文本塊有一些其他類型的評(píng)論(例如,產(chǎn)品描述的負(fù)面評(píng)論)時(shí),這些信息則會(huì)被忽略,進(jìn)而可能產(chǎn)生不準(zhǔn)確的結(jié)果。
分類和主題建模算法
此項(xiàng)任務(wù)是對已處理的文檔,產(chǎn)生包括文檔類型或主題在內(nèi)的簡單描述。因此,可能會(huì)涉及到如下算法:
1.潛在狄利克雷分配(Latent Dirichlet Allocation,LDA),是一種基于狄利克雷(Dirichlet)分布的統(tǒng)計(jì)模型。它能將文本視為不同主題的組合。
2.潛在語義分析(Latent Semantic Analysis,LSA),是一種將語料庫表示為術(shù)語文檔矩陣,通過將其分解,以定義不同文檔主題的方法。
3.主題模型的加法正則化(Additive Regularization of Topic Models,ARTM),是將現(xiàn)有的統(tǒng)計(jì)模型與正則化相結(jié)合,進(jìn)而更好地分析文本結(jié)構(gòu)。
4.使用bag of words、tf-idf 和其他算法的結(jié)果,作為輸入的通用機(jī)器學(xué)習(xí)方法。
當(dāng)然,各種算法的性能也會(huì)因作業(yè)的不同而有所差異。例如:對于不同的文本主題或命名實(shí)體來說,某些算法的工作效果可能會(huì)表現(xiàn)得特別優(yōu)秀。因此,我們在構(gòu)建文本挖掘系統(tǒng)時(shí),可以通過嘗試不同的方法,以找到***的輸出結(jié)果;或是將不同技術(shù)的結(jié)果相結(jié)合,以達(dá)到文本挖掘的目的。
統(tǒng)計(jì)方法與機(jī)器學(xué)習(xí)的利與弊
優(yōu)點(diǎn)
- 能自動(dòng)搜索文本特征和所需結(jié)果之間的關(guān)系。
- 能考慮到文本內(nèi)部復(fù)雜的關(guān)系。
- 有泛化推廣能力(對不在培訓(xùn)集中的案例采取正確處理方式)。
缺點(diǎn)
- 根據(jù)算法的不同,訓(xùn)練集是必需的,而且可能會(huì)相當(dāng)大。
- 該系統(tǒng)所做出的決策并不總是正確的且可解釋的。一旦系統(tǒng)給出了不正確的結(jié)果,后期很難予以檢測并修復(fù)問題。
原文標(biāo)題:Text Mining 101:What it Is and How it Works,作者:Ilya Feigin
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】