成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從挑水果看精度與查全率如何影響搜索性能

譯文
大數(shù)據(jù)
精度與查全率是與搜精度與查全率索技術(shù)相關(guān)的兩項(xiàng)根本性機(jī)制。二者有時(shí)看起來(lái)甚至有點(diǎn)是一回事——?jiǎng)e急,下面我們就立足于實(shí)例對(duì)其加以講解。通過(guò)這樣的過(guò)程,大家也能夠理解二者為什么在設(shè)計(jì)搜索應(yīng)用時(shí)會(huì)扮演如此重要的角色。

【51CTO.com快譯】是與搜精度與查全率索技術(shù)相關(guān)的兩項(xiàng)根本性機(jī)制。立足于一次特定查詢——利用搜索引擎查找特定文檔集(即結(jié)果集),我們可以這樣對(duì)二者做出定義:

  • 精度為全部返回相關(guān)結(jié)果當(dāng)中文檔所占的百分比。
  • 查全率為結(jié)果集中相關(guān)文檔的百分比。

誠(chéng)然,這些定義剛開(kāi)始可能不太容易理解。二者看起來(lái)甚至有點(diǎn)是一回事——別急,下面我們就立足于實(shí)例對(duì)其加以講解。通過(guò)這樣的過(guò)程,大家也能夠理解二者為什么在設(shè)計(jì)搜索應(yīng)用時(shí)會(huì)扮演如此重要的角色。

另外,我們還將探討精度與查全率之間經(jīng)常出現(xiàn)的沖突狀況。一般來(lái)講,查全率越高、精度越差,而精度越高、查全率也就越差。這意味著搜索結(jié)果相關(guān)性中存在著一種最佳平衡點(diǎn)。幸運(yùn)的是,我們有辦法盡可能趨近該平衡點(diǎn)。

精度與查全率示例

這次讓我們以水果來(lái)舉例。首先請(qǐng)看下圖。

搜索蘋果后獲得的文檔插圖及結(jié)果

當(dāng)我們親自走向水果攤時(shí)并打算買點(diǎn)蘋果時(shí),我們會(huì)首先想到“紅色的、個(gè)頭中等的水果”。通過(guò)這樣的標(biāo)準(zhǔn),我們可能會(huì)找到上圖中的結(jié)果。在搜索結(jié)果中可以看到三個(gè)蘋果以及三種紅色、個(gè)頭中等但不是蘋果的水果(分別為西紅柿、彩椒以及石榴)。重申之前的定義,精度為獲得正確結(jié)果的百分比。在本示例中,六個(gè)結(jié)果中有三個(gè)正確,則精度則為50%。另外,對(duì)全部水果進(jìn)行觀察,大家會(huì)發(fā)現(xiàn)總計(jì)十三種水果中共有五只蘋果。查全率指的是返回正確條目占全部正確條目的百分比。在本示例中,上圖共包含五只蘋果,而其中有三只被納入返回結(jié)果,因此查全率為60%。

在理想狀態(tài)下,精度與查全率應(yīng)該都為100%。然而這幾乎是不可能的,而且更重要的是這兩項(xiàng)指標(biāo)往往相互矛盾。如果提高查全率,那么精度將受到影響——因?yàn)樗阉黜憫?yīng)中將包含更多錯(cuò)誤結(jié)果。另一方面,如果提高精度,那么查全率亦將受到影響,因?yàn)樗阉黜憫?yīng)會(huì)忽略某些正確結(jié)果。

色彩匹配要求更為寬松時(shí)的搜索結(jié)果

為了更好地理解精度與查全率間的矛盾關(guān)系,讓我們繼續(xù)來(lái)看水果示例。如果大家想提升查全率,則必須將搜索要求設(shè)定得再寬松一點(diǎn)。也許我們可以將水果的顏色放寬到包括黃色——畢竟有些蘋果確實(shí)是黃的。如上圖所示,這種情況下返回的蘋果數(shù)量達(dá)到四個(gè),查全率增加到80%。但是由于大多數(shù)蘋果并非黃色,因此錯(cuò)誤結(jié)果也增加了兩項(xiàng),精度降低至44%。

收緊搜索要求后的搜索結(jié)果集

下面再?gòu)牧硪粋€(gè)角度進(jìn)行實(shí)驗(yàn)。如果我們收緊搜索要求——例如將大小的定義嚴(yán)格限定為中等,那么結(jié)果將如上圖所示。在這里精度提升到了67%,因?yàn)榕懦袅藘煞N個(gè)頭不符的其它水果,但同時(shí)個(gè)頭比較大的一個(gè)蘋果也被排除在外,因此查全率下降到40%。

盡管精度與查全率往往有所沖突,但我們還是有辦法解決這一難題:引入更多特性。舉例來(lái)說(shuō),如果大家在搜索中添加“味道”一項(xiàng),那么西紅柿可能會(huì)由于沒(méi)那么甜而被排除掉。但遺憾的是,在搜索中納入新特性往往沒(méi)那么簡(jiǎn)單。而且在特定情況下,如果我們決定以味道作為指標(biāo)從水果中搜索蘋果,那么沒(méi)準(zhǔn)又會(huì)帶來(lái)新的、意想不到的錯(cuò)誤選項(xiàng)。

原文標(biāo)題:Precision and Recall by Example: The Two Pillars of Search Relevance

【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】

責(zé)任編輯:Ophira 來(lái)源: 51CTO.com
相關(guān)推薦

2024-11-21 08:00:00

向量搜索人工智能

2022-06-10 07:42:37

搜索推薦架構(gòu)

2023-05-08 18:33:55

ES數(shù)據(jù)搜索

2020-06-17 16:43:40

網(wǎng)絡(luò)IO框架

2019-08-20 10:57:26

MySQL 網(wǎng)絡(luò)性能

2009-07-30 10:28:56

Web高性能開(kāi)發(fā)

2009-07-13 18:11:53

2021-06-30 17:21:23

CPUMySQL性能

2023-12-22 08:00:00

2017-12-02 23:18:53

云計(jì)算公共云云性能

2017-11-10 10:49:47

SCSI軟件層性能

2012-03-02 09:03:57

VDI虛擬桌面網(wǎng)絡(luò)

2011-03-14 14:34:57

2010-10-28 11:32:37

馬云

2021-07-01 10:45:08

硬盤數(shù)據(jù)庫(kù)性能

2025-03-06 08:00:00

2009-04-28 18:32:54

2020-03-09 15:40:27

RSACDevSecOps懸鏡安全

2009-07-06 15:55:50

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 天天躁日日躁狠狠躁2018小说 | 中文字幕高清 | 欧美激情va永久在线播放 | 黑人性hd | 亚洲精品免费视频 | 日本三级视频 | 欧美日韩不卡合集视频 | 亚洲麻豆| 亚洲福利网 | 精品久久久久久久久久久久 | 日本不卡一区 | 欧美日韩成人影院 | 国产一区二区三区精品久久久 | 婷婷开心激情综合五月天 | 国产精品精品视频一区二区三区 | 国产精品视频一区二区三区 | 精品欧美激情在线观看 | 午夜资源| 日韩国产在线 | 真人毛片 | 国产精品一区久久久 | 国产一区二区三区免费 | 中文字幕1区2区3区 亚洲国产成人精品女人久久久 | www.youjizz.com日韩 | 先锋资源吧 | 人人九九精| 精品国产免费人成在线观看 | 日韩精品在线观看网站 | 国产在线观看av | 波多野结衣精品 | 欧美一区二区黄 | 久草在线| 亚洲毛片在线观看 | 亚洲电影一区二区三区 | 色妹子综合网 | 亚洲国产成人久久综合一区,久久久国产99 | 国产激情一区二区三区 | 亚州精品天堂中文字幕 | 999国产精品视频免费 | 成人免费共享视频 | 国产在线精品一区二区 |