成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何使用padlepadle 進(jìn)行意圖識別-開篇

企業(yè)動態(tài)
本次介紹了意圖識別是什么,意圖識別的重要性,意圖識別的難點(diǎn)以及后續(xù)的博客計劃,本質(zhì)上來說意圖識別是屬于文本分類的一種,和情感分析這類工作沒有什么很大的區(qū)別。但是相比于情感分析,意圖識別的分類種類要比之前多了很多,準(zhǔn)確性以及可擴(kuò)展性的要求也高了不少。

前言    

意圖識別是通過分類的辦法將句子或者我們常說的query分到相應(yīng)的意圖種類。舉一個簡單的例子,我想聽周杰倫的歌,這個query的意圖便是屬于音樂意圖,我想聽郭德綱的相聲便是屬于電臺意圖。做好了意圖識別以后對于很多nlp的應(yīng)用都有很重要的提升,比如在搜索引擎領(lǐng)域使用意圖識別來獲取與用戶輸入的query最相關(guān)的信息。舉個例子,用戶在查詢"生化危機(jī)"時,我們知道"生化危機(jī)"既有游戲還有電影,歌曲等等,如果我們通過意圖識別發(fā)現(xiàn)該用戶是想玩"生化危機(jī)"的游戲時,那我們直接將游戲的查詢結(jié)果返回給用戶,就會節(jié)省用戶的搜索點(diǎn)擊次數(shù),縮短搜索時間,大幅提高用戶的體驗(yàn)。再進(jìn)一步說,做好意圖識別以后,我們可以將一個用戶的query 限定到一個垂直領(lǐng)域比如通過意圖識別以后發(fā)現(xiàn)該用戶輸入的生化危機(jī)就是想找"生化危機(jī)"的游戲進(jìn)行下載,那么我們在游戲這個領(lǐng)域下進(jìn)行搜索可以得到更高質(zhì)量的搜索結(jié)果,進(jìn)一步提高搜索體驗(yàn)。

我們再舉一個目前最火熱的聊天機(jī)器人來說明一下意圖識別的重要性。目前各式各樣的聊天機(jī)器人,智能客服,智能音箱所能處理的問題種類都是有限制的。比如某聊天機(jī)器人目前只有30個技能,那么用戶向聊天機(jī)器人發(fā)出一個指令,聊天機(jī)器人首先得根據(jù)意圖識別將用戶的query分到某一個或者某幾個技能上去,然后再進(jìn)行后續(xù)的處理。如果一開始的用戶意圖識別識別錯了,那么后續(xù)的工作直接就是無用功了,會給用戶帶來非常不好的用戶體驗(yàn)。

說了這么多,其實(shí)只是想說明意圖識別是一件非常重要的工作。我們再來看看目前工業(yè)界的水平,就業(yè)界來看,目前一些公司的在特定領(lǐng)域的意圖識別準(zhǔn)確率已經(jīng)可以達(dá)到96%甚至更高了,在可以預(yù)見的未來意圖識別的準(zhǔn)確率只會更高,覆蓋范圍只會更廣, 在通用領(lǐng)域達(dá)到99%,甚至99.9%也只是時間早晚的問題。而這個時間也許在兩到三年來就可以到來。

 做好了意圖識別以后,那種類似于電影場景里面人機(jī)交互就有了實(shí)現(xiàn)的可能,用戶向機(jī)器發(fā)來的每一個query,機(jī)器都能準(zhǔn)確的理解用戶的意圖,然后準(zhǔn)確的給予回復(fù)。人與機(jī)器連續(xù),多輪自然的對話就可以借此實(shí)現(xiàn)了。想起來真的是非常的激動。

意圖識別的前提

 在做這個工作之前,我們首先得想好意圖的劃分問題,這種劃分業(yè)界有很多叫法,比如技能。我們的聊天機(jī)器人有30個技能,潛在意思便是我們的意圖有30類。在2018年的CES上面,Google Assistant 號稱有100萬個技能,這個真的只能說太厲害了。還有一種很通用的叫法叫領(lǐng)域 或者doamin,搜索引擎中的垂域搜索的意思是把用戶的query分為很多特定的領(lǐng)域比如電臺領(lǐng)域,音樂領(lǐng)域。搜索的時候根據(jù)意圖識別認(rèn)為這個query屬于電臺領(lǐng)域,于是便在電臺領(lǐng)域進(jìn)行搜索。如果意圖識別的準(zhǔn)確率比較高的話,這樣便可以大大加快搜索的速度和準(zhǔn)確性。

 很多Google Assistant的技能也許只是簡單的堆疊,但是對于聊天機(jī)器人來說,我們業(yè)界一直有個觀點(diǎn),意圖識別雖然是聊天機(jī)器人非常重要的一個部分,但是解析用戶的語義已經(jīng)慢慢不再成為對話機(jī)器人的核心,識別用戶的意圖以后提供的服務(wù)開始成為對話機(jī)器人的產(chǎn)品差異化的核心。Goole Home 的100萬個技能,絕對是這個領(lǐng)域殺手級別的競爭力。

 其次是應(yīng)該想好意圖識別的可擴(kuò)展能力,尤其是在搜索領(lǐng)域,對話系統(tǒng)領(lǐng)域,隨著意圖覆蓋的范圍急劇增加,如何保證意圖的識別的準(zhǔn)確率不下降甚至還能有提升其實(shí)是個很困難的事情,但是也非常的重要,甚至也許是意圖識別最重要的一件事。不然你覆蓋的技能數(shù)上去了,但是意圖識別的準(zhǔn)確率下來了,其實(shí)很多時候是沒有什么意義的。

 意圖識別可擴(kuò)展能力的另外一方面體現(xiàn)在簡單技能的自動化生成,復(fù)雜技能的半自動化生成或者第三方開發(fā)者的開發(fā)技能的快速接入。在可以預(yù)見的未來,對話機(jī)器人的技能增加速度會非常的快。類似于Google Assistant 的100萬個技能,單憑人力或者某一家公司去開發(fā)100萬個技能,得開發(fā)到猴年馬月去了。自動化生成對話系統(tǒng)的技能,并且保持足夠的開放性是每一家有追求的聊天機(jī)器人廠商應(yīng)該嚴(yán)肅思考的問題。從業(yè)界來看,很多國內(nèi)聊天機(jī)器人的公司這一塊可能才剛剛起步,嘴上說著要開放,內(nèi)心其實(shí)比較抗拒,工作排期排的很后。至于技能自動化生成也許還沒有思考到這一步來。

 ***一個方面是技能的評價問題,當(dāng)一個開發(fā)者開發(fā)完一個技能或者模型自動化生成一個技能以后如何評價一個技能生成的好壞也是非常重要的。簡單一點(diǎn)來說雖然我們生成了一個技能,但是也不能生成一個技能就接入到我們的搜素引擎當(dāng)中或者對話系統(tǒng)中來,必需得符合一定的標(biāo)準(zhǔn)。比如我們在搜索引擎當(dāng)中開發(fā)了音樂 domain的垂域搜索.當(dāng)我們的意圖識別準(zhǔn)確的判別用戶的query"我想聽周杰倫的歌"屬于音樂這個domain,并將query分過來到音樂領(lǐng)域進(jìn)行垂域搜索。如果音樂的垂域搜索做的很差給用戶返回的都是陳奕迅的歌。用戶體驗(yàn)也不會很好。就我看來,技能評價應(yīng)該至少包括兩個方面評價。***個方面是效果上面的,如果我們用precision和recall來評價的話,每一個接入的domain或者技能 的F1值必需大于某個值才可以接入。第二個方面是工程上面的,每個接入的技能都必須考慮到訪問量大了以后不能宕機(jī)。這個對本公司開發(fā)的技能不會有大的問題,但是第三方開發(fā)的技能,很多時候只考慮了功能的實(shí)現(xiàn)和效果上面的問題,往往不會考慮訪問量或者qps大了以后怎么處理,結(jié)果就會造成整體服務(wù)超時。所以這一點(diǎn)也是需要慎重考慮的。

意圖識別的基本方法

1. 基于詞典以及模版的規(guī)則方法

不同的意圖會有的不同的領(lǐng)域詞典,比如書名,歌曲名,商品名等等。當(dāng)一個用戶的意圖來了以后我們根據(jù)意圖和詞典的匹配程度或者重合程度來進(jìn)行判斷,最簡單一個規(guī)則是哪個domain的詞典重合程度高,就將該query判別給這個領(lǐng)域。這個工作的重點(diǎn)便是領(lǐng)域詞典便須得做的足夠好。

2. 基于查詢點(diǎn)擊日志

如果是搜索引擎等類型業(yè)務(wù)場景,那么我們可以通過點(diǎn)擊日志得到用戶的意圖。

3. 基于分類模型來對用戶的意圖進(jìn)行判別

使用分類方法是我們本次博客的重點(diǎn),我們將會使用paddle作為模型的基本框架以CNN外接softmax 和LSTM外接softmax來進(jìn)行意圖識別方面工作的探索。本系列也初步定為三篇博客,本篇會作為開端篇做一些意圖識別方面的介紹。第二篇是會使用LSTM+softmax來進(jìn)行文本分類。第三篇會使用CNN 外接softmax來進(jìn)行文本分類。

意圖識別的難點(diǎn)

當(dāng)前意圖識別工作的難點(diǎn)有很多,在之前的介紹中也提到了一些,但是***的難點(diǎn)其實(shí)是在于標(biāo)注數(shù)據(jù)的獲取。目前標(biāo)注數(shù)據(jù)的獲取主要來自兩方面,一方面是專門的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)對數(shù)據(jù)進(jìn)行標(biāo)注,一方面是通過半監(jiān)督的方式自動生成標(biāo)注數(shù)據(jù),我后續(xù)會在調(diào)研以后,來專門進(jìn)行這方面的介紹。本次會利用已有的標(biāo)注數(shù)據(jù)來進(jìn)行介紹。

總結(jié)

本次介紹了意圖識別是什么,意圖識別的重要性,意圖識別的難點(diǎn)以及后續(xù)的博客計劃,本質(zhì)上來說意圖識別是屬于文本分類的一種,和情感分析這類工作沒有什么很大的區(qū)別。但是相比于情感分析,意圖識別的分類種類要比之前多了很多,準(zhǔn)確性以及可擴(kuò)展性的要求也高了不少。敬請期待后續(xù)博客的更新。

責(zé)任編輯:張燕妮 來源: 景略集智
相關(guān)推薦

2020-12-22 21:57:39

人臉識別AI人工智能

2023-01-30 17:14:40

人工智能語音識別

2020-03-27 20:22:53

數(shù)據(jù)集裝箱網(wǎng)絡(luò)

2014-12-25 10:15:37

DockerJava

2023-04-12 08:00:00

人工智能ChatGPTPython

2025-01-27 11:52:23

2020-10-15 12:00:01

Python 開發(fā)編程語言

2021-02-22 13:44:41

開發(fā)Python金融

2018-04-16 09:42:25

編程顏色ncurses

2017-09-08 13:30:32

深度學(xué)習(xí)圖像識別卷積神經(jīng)網(wǎng)絡(luò)

2023-01-29 14:29:59

Python識別車牌

2021-06-23 09:25:57

鴻蒙HarmonyOS應(yīng)用

2022-10-08 08:36:02

UbuntuLinux語音識別

2024-12-13 15:53:58

VLM小型視覺語言模型LLM

2021-08-09 15:00:36

SQL數(shù)據(jù)庫

2021-03-28 23:03:50

Python程序員編碼

2019-11-22 10:20:07

DebianLinuxapt-get

2021-07-03 08:54:49

LinuxSysbench性能

2021-09-27 16:39:10

PythonGif壓縮

2023-05-19 07:25:34

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本天天色 | 亚洲va欧美va人人爽午夜 | 亚洲成人一区二区在线 | 欧美a在线观看 | 中文字幕成人网 | 国产成人免费网站 | 9191av| 中文字幕在线视频精品 | 91在线区| 免费在线观看av片 | 久久久久久毛片免费观看 | 国产高清精品一区 | 国产视频一区二区在线观看 | 精品国产一区一区二区三亚瑟 | 先锋av资源网 | 欧美视频精品 | 欧美xxxx性xxxxx高清 | 午夜免费视频 | 在线亚洲欧美 | 91偷拍精品一区二区三区 | 亚洲日韩中文字幕一区 | 欧美乱人伦视频 | 久久精品福利 | 亚洲午夜电影 | 久久精品国产免费一区二区三区 | 国产精品欧美一区二区三区不卡 | 黄色毛片视频 | 视频一区二区在线 | 久久精品中文字幕 | 日韩三级在线 | 国产精品亚洲综合 | 精品久久影院 | 草久久| 国产一区二区在线播放 | 精品一区二区不卡 | 免费视频中文字幕 | 亚洲精品一区中文字幕乱码 | 中文字幕在线国产 | 一级做a爰片性色毛片16美国 | 成人黄色电影免费 | 福利视频一区二区 |