從挑水果看精度與查全率如何影響搜索性能
譯文【51CTO.com快譯】是與搜精度與查全率索技術(shù)相關(guān)的兩項(xiàng)根本性機(jī)制。立足于一次特定查詢——利用搜索引擎查找特定文檔集(即結(jié)果集),我們可以這樣對(duì)二者做出定義:
- 精度為全部返回相關(guān)結(jié)果當(dāng)中文檔所占的百分比。
- 查全率為結(jié)果集中相關(guān)文檔的百分比。
誠(chéng)然,這些定義剛開(kāi)始可能不太容易理解。二者看起來(lái)甚至有點(diǎn)是一回事——別急,下面我們就立足于實(shí)例對(duì)其加以講解。通過(guò)這樣的過(guò)程,大家也能夠理解二者為什么在設(shè)計(jì)搜索應(yīng)用時(shí)會(huì)扮演如此重要的角色。
另外,我們還將探討精度與查全率之間經(jīng)常出現(xiàn)的沖突狀況。一般來(lái)講,查全率越高、精度越差,而精度越高、查全率也就越差。這意味著搜索結(jié)果相關(guān)性中存在著一種最佳平衡點(diǎn)。幸運(yùn)的是,我們有辦法盡可能趨近該平衡點(diǎn)。
精度與查全率示例
這次讓我們以水果來(lái)舉例。首先請(qǐng)看下圖。
搜索蘋果后獲得的文檔插圖及結(jié)果
當(dāng)我們親自走向水果攤時(shí)并打算買點(diǎn)蘋果時(shí),我們會(huì)首先想到“紅色的、個(gè)頭中等的水果”。通過(guò)這樣的標(biāo)準(zhǔn),我們可能會(huì)找到上圖中的結(jié)果。在搜索結(jié)果中可以看到三個(gè)蘋果以及三種紅色、個(gè)頭中等但不是蘋果的水果(分別為西紅柿、彩椒以及石榴)。重申之前的定義,精度為獲得正確結(jié)果的百分比。在本示例中,六個(gè)結(jié)果中有三個(gè)正確,則精度則為50%。另外,對(duì)全部水果進(jìn)行觀察,大家會(huì)發(fā)現(xiàn)總計(jì)十三種水果中共有五只蘋果。查全率指的是返回正確條目占全部正確條目的百分比。在本示例中,上圖共包含五只蘋果,而其中有三只被納入返回結(jié)果,因此查全率為60%。
在理想狀態(tài)下,精度與查全率應(yīng)該都為100%。然而這幾乎是不可能的,而且更重要的是這兩項(xiàng)指標(biāo)往往相互矛盾。如果提高查全率,那么精度將受到影響——因?yàn)樗阉黜憫?yīng)中將包含更多錯(cuò)誤結(jié)果。另一方面,如果提高精度,那么查全率亦將受到影響,因?yàn)樗阉黜憫?yīng)會(huì)忽略某些正確結(jié)果。
色彩匹配要求更為寬松時(shí)的搜索結(jié)果
為了更好地理解精度與查全率間的矛盾關(guān)系,讓我們繼續(xù)來(lái)看水果示例。如果大家想提升查全率,則必須將搜索要求設(shè)定得再寬松一點(diǎn)。也許我們可以將水果的顏色放寬到包括黃色——畢竟有些蘋果確實(shí)是黃的。如上圖所示,這種情況下返回的蘋果數(shù)量達(dá)到四個(gè),查全率增加到80%。但是由于大多數(shù)蘋果并非黃色,因此錯(cuò)誤結(jié)果也增加了兩項(xiàng),精度降低至44%。
收緊搜索要求后的搜索結(jié)果集
下面再?gòu)牧硪粋€(gè)角度進(jìn)行實(shí)驗(yàn)。如果我們收緊搜索要求——例如將大小的定義嚴(yán)格限定為中等,那么結(jié)果將如上圖所示。在這里精度提升到了67%,因?yàn)榕懦袅藘煞N個(gè)頭不符的其它水果,但同時(shí)個(gè)頭比較大的一個(gè)蘋果也被排除在外,因此查全率下降到40%。
盡管精度與查全率往往有所沖突,但我們還是有辦法解決這一難題:引入更多特性。舉例來(lái)說(shuō),如果大家在搜索中添加“味道”一項(xiàng),那么西紅柿可能會(huì)由于沒(méi)那么甜而被排除掉。但遺憾的是,在搜索中納入新特性往往沒(méi)那么簡(jiǎn)單。而且在特定情況下,如果我們決定以味道作為指標(biāo)從水果中搜索蘋果,那么沒(méi)準(zhǔn)又會(huì)帶來(lái)新的、意想不到的錯(cuò)誤選項(xiàng)。
原文標(biāo)題:Precision and Recall by Example: The Two Pillars of Search Relevance
【51CTO譯稿,合作站點(diǎn)轉(zhuǎn)載請(qǐng)注明原文譯者和出處為51CTO.com】