成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

盛大創(chuàng)新院和搜狗研究員:自然語言處理的應(yīng)用

企業(yè)動態(tài) 自然語言處理
【TechWeb報道】6月26日消息,盛大創(chuàng)新院搜索主題院研究員賈文杰和搜狗自然語言處理助理研究員張帆今天做客第165期IT龍門陣,分享了關(guān)于自然語言處理的應(yīng)用和難點。
    【TechWeb報道】6月26日消息,盛大創(chuàng)新院搜索主題院研究員賈文杰和搜狗自然語言處理助理研究員張帆今天做客第165期IT龍門陣,分享了關(guān)于自然語言處理的應(yīng)用和難點。

盛大創(chuàng)新院搜索主題院研究員賈文杰:面向搜索的中文分詞系統(tǒng)

    盛大創(chuàng)新院搜索主題院研究員賈文杰做了《面向搜索的中文分詞系統(tǒng)》的主題演講。他認(rèn)為“無論是搜索還是推薦,做中文的互聯(lián)網(wǎng)智能化處理,分詞就是一個必不可少的步驟。”

    分詞應(yīng)用的地方***個是搜索,使用分詞使得詞表大大擴(kuò)大,基于詞做索引,后面的鏈條會大幅減少,倒排列表縮減會減少時間;第二個應(yīng)用是上下文廣告,比如推薦系統(tǒng),“不管是做閱讀、視頻還是圖片,或者是電商,基于內(nèi)容相似度做推薦,不管是基于空間模型還是短本做推薦,***步分詞。”

    賈文杰介紹,中文分詞的難點***個是切分歧義,對于語言單位有多種方法,第二個難點是未登錄詞,做分詞系統(tǒng)沒有的詞或者是沒有出現(xiàn)的詞。

    基于此,中文分詞目前常見的算法包括無指導(dǎo)切分、基于詞典的機械分詞、基于語言模型的切分,基于字標(biāo)注的切分。其中基于語言模型的方法是最常用的方法。

    “做這樣的分詞系統(tǒng)有哪些核心工作要做呢?***個,原子詞識別,一些簡單的命名實體,包括網(wǎng)址、時間、數(shù)字、日期,難點是規(guī)則整理,比如時間的表達(dá)非常多。第二個模塊命名實體識別,除了前面的命名實體,剩下的主要是人名、地名、機構(gòu)名,基于正則表達(dá)式寫不出來,怎么來做?基于序列標(biāo)注方法做,用一些方法把不在詞典的詞找出來。”

    訓(xùn)練語言模型需要收集分詞的語料庫,目前的語料庫有富士通和北京大學(xué)做的人民日報語料庫,賓州中文樹庫,臺北中研院的樹庫。

    人民日報語料庫有1400萬詞,是***語料庫,但是問題是缺少新詞,創(chuàng)立年限太久,表達(dá)方式語序發(fā)生了很大變化,還有規(guī)模仍然不夠大。

    賈文杰介紹了盛大創(chuàng)新院推出的盛大云分詞,它的優(yōu)點是是分詞結(jié)果較好,分詞更快、而且是活的分詞,分詞保持不斷更新,再者針對搜索進(jìn)行了優(yōu)化,***還支持中英文之外的其他語言分詞。

搜狗自然語言處理助理研究員張帆:搜索查詢意圖識別

    搜狗自然語言處理助理研究員張帆做了《搜索查詢意圖識別》的主題演講,他認(rèn)為意圖識別是知道用戶想干什么,以便更好地滿足用戶需求。

    現(xiàn)有的搜索引擎分為兩類:通用搜索引擎和垂直搜索引擎,兩種搜索引擎各有特點。通用搜索引擎抓取互聯(lián)網(wǎng)上一切有價值的東西、統(tǒng)一建立索引,以關(guān)鍵字匹配為基本檢索方式,以網(wǎng)頁title和summary為展現(xiàn)方式。通用搜索引擎以百度、谷歌、搜狗、搜搜、有道為代表。

    垂直搜索引擎以一定類別為主題,只抓取與主題相關(guān)的信息,更具主題特點有針對性的建立相應(yīng)的索引檢索方式,篩選方式以及展現(xiàn)方式,以機票搜索、地圖搜索、購物搜索等為代表。

    “通用搜索引擎的缺點是通用,不夠準(zhǔn)確,垂直搜索引擎的缺點是用戶需要記住多個網(wǎng)站。有沒有辦法將二者結(jié)合?”張帆如此表示,“識別查詢詞對應(yīng)的垂直搜索,并從中獲取結(jié)果嵌入到通用搜索引擎中,可以為用戶提供很好的體驗。”這也就是意圖識別用途。

    意圖識別的難點包括:輸入不規(guī)范、意圖太多、意圖強度的區(qū)分、語料持續(xù)準(zhǔn)確獲取、搜索結(jié)果的可靠性、時效性的問題。

張帆提出了進(jìn)行意圖識別的幾個方法:

    詞表窮舉法,最簡單直接的方法,通過詞表的直接匹配來獲取查詢意圖,它的實現(xiàn)方法是建立白名單系統(tǒng)、建立詞表擴(kuò)展系統(tǒng)、建立詞表預(yù)處理系統(tǒng),這種方法優(yōu)點是簡單易實現(xiàn),缺點是召回比較低,人工比例較高。

    規(guī)則解析法,適用于一些查詢索然不集中淡非常符合規(guī)則的類別,通過規(guī)則解析查詢來做一同識別和關(guān)鍵信息提取的。比如匯率查詢、計算器、度量衡等。它的優(yōu)點是信息提取準(zhǔn)確,不足是只適用于規(guī)則性較強的類別。

    統(tǒng)計模型分類法,一般有兩種分類,一種是基于查詢詞本身的分類,另一種是基于查詢詞結(jié)果進(jìn)行分類,這種方法適用于一些查詢較為分散,且規(guī)則不明確的類別。這是最常用的方法,覆蓋面***的方法。這種方法的不足是實現(xiàn)較為復(fù)雜,數(shù)據(jù)獲取、更新困難。

    張帆介紹稱,除此之外,還有一些特殊的意圖識別方法,比如微博類意圖識別,實現(xiàn)方法是對搜索結(jié)果進(jìn)行時效性判斷。

    張帆認(rèn)為,意圖識別未來的發(fā)展的幾個方向是無類別概念的意圖識別,個性化意圖識別,精準(zhǔn)意圖識別以及語音應(yīng)用的意圖識別。(張睿)

責(zé)任編輯:市場部 來源: TechWeb
相關(guān)推薦

2020-04-24 10:53:08

自然語言處理NLP是人工智能

2023-08-03 09:56:47

自然語言AI

2020-09-23 10:45:45

人工智能自然語言NLP

2017-04-10 16:15:55

人工智能深度學(xué)習(xí)應(yīng)用

2021-05-13 07:17:13

Snownlp自然語言處理庫

2017-10-19 17:05:58

深度學(xué)習(xí)自然語言

2011-11-03 09:52:11

teamhost.or

2024-04-24 11:38:46

語言模型NLP人工智能

2024-02-05 14:18:07

自然語言處理

2021-05-17 09:00:00

自然語言人工智能技術(shù)

2017-06-29 13:02:54

大數(shù)據(jù)自然語言NLP

2012-03-07 15:48:20

盛大創(chuàng)新

2017-04-17 15:03:16

Python自然語言處理

2020-02-25 12:00:53

自然語言開源工具

2017-05-05 15:34:49

自然語言處理

2020-02-25 23:28:50

工具代碼開發(fā)

2021-11-12 15:43:10

Python自然語言數(shù)據(jù)

2021-05-18 07:15:37

Python

2020-07-14 10:31:30

自然語言處理人工智能AI

2021-08-30 18:32:05

人工智能AI自然語言處理
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲深夜福利 | 97色在线视频 | www.操com | 久久精品一级 | 精品国产欧美一区二区三区成人 | 成人伊人 | 久久久久国产精品人 | 中文字幕一区二区三区四区五区 | 午夜黄色影院 | 国产ts一区 | www.久久久.com | www.婷婷 | 久久er精品| 狠狠操你 | 久草视频在线播放 | 人人干视频在线 | 999久久久免费精品国产 | 久久丁香 | 欧美色欧美亚洲另类七区 | 亚洲视频在线观看一区二区三区 | 日韩高清成人 | 一区二区三区免费看 | 色欧美片视频在线观看 | 成人免费观看男女羞羞视频 | 亚洲综合久久网 | 伊人伊人伊人 | 久久大陆 | 色接久久 | 亚州成人 | 日韩国产一区 | 国产目拍亚洲精品99久久精品 | 在线中文视频 | 色伊人网| 91在线观看免费视频 | wwww.8888久久爱站网 | 国产精品免费一区二区 | 欧美日韩1区2区3区 欧美久久一区 | 久久久91精品国产一区二区精品 | 免费黄色片在线观看 | 人人艹人人爽 | 欧美日韩综合精品 |