盛大創(chuàng)新院和搜狗研究員:自然語言處理的應(yīng)用
盛大創(chuàng)新院搜索主題院研究員賈文杰:面向搜索的中文分詞系統(tǒng)
盛大創(chuàng)新院搜索主題院研究員賈文杰做了《面向搜索的中文分詞系統(tǒng)》的主題演講。他認(rèn)為“無論是搜索還是推薦,做中文的互聯(lián)網(wǎng)智能化處理,分詞就是一個必不可少的步驟。”
分詞應(yīng)用的地方***個是搜索,使用分詞使得詞表大大擴(kuò)大,基于詞做索引,后面的鏈條會大幅減少,倒排列表縮減會減少時間;第二個應(yīng)用是上下文廣告,比如推薦系統(tǒng),“不管是做閱讀、視頻還是圖片,或者是電商,基于內(nèi)容相似度做推薦,不管是基于空間模型還是短本做推薦,***步分詞。”
賈文杰介紹,中文分詞的難點***個是切分歧義,對于語言單位有多種方法,第二個難點是未登錄詞,做分詞系統(tǒng)沒有的詞或者是沒有出現(xiàn)的詞。
基于此,中文分詞目前常見的算法包括無指導(dǎo)切分、基于詞典的機械分詞、基于語言模型的切分,基于字標(biāo)注的切分。其中基于語言模型的方法是最常用的方法。
“做這樣的分詞系統(tǒng)有哪些核心工作要做呢?***個,原子詞識別,一些簡單的命名實體,包括網(wǎng)址、時間、數(shù)字、日期,難點是規(guī)則整理,比如時間的表達(dá)非常多。第二個模塊命名實體識別,除了前面的命名實體,剩下的主要是人名、地名、機構(gòu)名,基于正則表達(dá)式寫不出來,怎么來做?基于序列標(biāo)注方法做,用一些方法把不在詞典的詞找出來。”
訓(xùn)練語言模型需要收集分詞的語料庫,目前的語料庫有富士通和北京大學(xué)做的人民日報語料庫,賓州中文樹庫,臺北中研院的樹庫。
人民日報語料庫有1400萬詞,是***語料庫,但是問題是缺少新詞,創(chuàng)立年限太久,表達(dá)方式語序發(fā)生了很大變化,還有規(guī)模仍然不夠大。
賈文杰介紹了盛大創(chuàng)新院推出的盛大云分詞,它的優(yōu)點是是分詞結(jié)果較好,分詞更快、而且是活的分詞,分詞保持不斷更新,再者針對搜索進(jìn)行了優(yōu)化,***還支持中英文之外的其他語言分詞。
搜狗自然語言處理助理研究員張帆:搜索查詢意圖識別
搜狗自然語言處理助理研究員張帆做了《搜索查詢意圖識別》的主題演講,他認(rèn)為意圖識別是知道用戶想干什么,以便更好地滿足用戶需求。
現(xiàn)有的搜索引擎分為兩類:通用搜索引擎和垂直搜索引擎,兩種搜索引擎各有特點。通用搜索引擎抓取互聯(lián)網(wǎng)上一切有價值的東西、統(tǒng)一建立索引,以關(guān)鍵字匹配為基本檢索方式,以網(wǎng)頁title和summary為展現(xiàn)方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道為代表。
垂直搜索引擎以一定類別為主題,只抓取與主題相關(guān)的信息,更具主題特點有針對性的建立相應(yīng)的索引檢索方式,篩選方式以及展現(xiàn)方式,以機票搜索、地圖搜索、購物搜索等為代表。
“通用搜索引擎的缺點是通用,不夠準(zhǔn)確,垂直搜索引擎的缺點是用戶需要記住多個網(wǎng)站。有沒有辦法將二者結(jié)合?”張帆如此表示,“識別查詢詞對應(yīng)的垂直搜索,并從中獲取結(jié)果嵌入到通用搜索引擎中,可以為用戶提供很好的體驗。”這也就是意圖識別用途。
意圖識別的難點包括:輸入不規(guī)范、意圖太多、意圖強度的區(qū)分、語料持續(xù)準(zhǔn)確獲取、搜索結(jié)果的可靠性、時效性的問題。
張帆提出了進(jìn)行意圖識別的幾個方法:
詞表窮舉法,最簡單直接的方法,通過詞表的直接匹配來獲取查詢意圖,它的實現(xiàn)方法是建立白名單系統(tǒng)、建立詞表擴(kuò)展系統(tǒng)、建立詞表預(yù)處理系統(tǒng),這種方法優(yōu)點是簡單易實現(xiàn),缺點是召回比較低,人工比例較高。
規(guī)則解析法,適用于一些查詢索然不集中淡非常符合規(guī)則的類別,通過規(guī)則解析查詢來做一同識別和關(guān)鍵信息提取的。比如匯率查詢、計算器、度量衡等。它的優(yōu)點是信息提取準(zhǔn)確,不足是只適用于規(guī)則性較強的類別。
統(tǒng)計模型分類法,一般有兩種分類,一種是基于查詢詞本身的分類,另一種是基于查詢詞結(jié)果進(jìn)行分類,這種方法適用于一些查詢較為分散,且規(guī)則不明確的類別。這是最常用的方法,覆蓋面***的方法。這種方法的不足是實現(xiàn)較為復(fù)雜,數(shù)據(jù)獲取、更新困難。
張帆介紹稱,除此之外,還有一些特殊的意圖識別方法,比如微博類意圖識別,實現(xiàn)方法是對搜索結(jié)果進(jìn)行時效性判斷。
張帆認(rèn)為,意圖識別未來的發(fā)展的幾個方向是無類別概念的意圖識別,個性化意圖識別,精準(zhǔn)意圖識別以及語音應(yīng)用的意圖識別。(張睿)