出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
如果用戶在一個(gè)網(wǎng)站上遭遇糟糕的體驗(yàn),近90%的用戶將不會(huì)再次訪問該網(wǎng)站。請(qǐng)花點(diǎn)時(shí)間理解這一驚人的統(tǒng)計(jì)數(shù)據(jù)。傳統(tǒng)的網(wǎng)站可靠性工程師主要關(guān)注“五個(gè)9”,即確保網(wǎng)站99.999%的時(shí)間都能正常運(yùn)行和訪問。然而,這只是確保用戶獲得良好體驗(yàn)的一部分。
還有什么其他因素會(huì)導(dǎo)致用戶點(diǎn)擊離開網(wǎng)站并且永遠(yuǎn)不再回來呢?無法找到他們正在尋找的內(nèi)容。
搜索某物卻無法快速有效地找到它,可能是用戶最失望的體驗(yàn)之一。你希望創(chuàng)建一個(gè)這種情況很少發(fā)生的網(wǎng)站。然而,用戶使這變得非常困難。很多時(shí)候,他們不知道自己確切在尋找什么。他們心中有一個(gè)模糊的需求圖像,但缺乏精確的描述詞,他們的搜索最終只能用像“用于擰緊螺絲的工具”這樣的關(guān)鍵詞來提交。如果由人類來回答這個(gè)搜索請(qǐng)求,他會(huì)返回一套螺絲刀索引。那你的基于關(guān)鍵詞的搜索會(huì)返回什么呢?
- 關(guān)于擰緊技巧的文章。
- 關(guān)于不同類型螺絲的博客文章。
- 與螺絲刀無關(guān)的工具。
- 這種例子每天都會(huì)發(fā)生,而且一天要發(fā)生無數(shù)次。
面對(duì)這個(gè)困境,我們需要一種新的資源來改善用戶體驗(yàn),即使在用戶自身缺乏清晰性時(shí)也能提供清晰性。向量搜索提供了傳統(tǒng)關(guān)鍵詞搜索無法單獨(dú)實(shí)現(xiàn)的可能性。
1.向量搜索的工作原理
向量搜索利用先進(jìn)的機(jī)器學(xué)習(xí)模型將文本數(shù)據(jù)轉(zhuǎn)化為高維向量,捕捉單詞和短語之間的語義關(guān)系。與依賴精確匹配的傳統(tǒng)基于關(guān)鍵詞的搜索不同,向量搜索理解查詢背后的上下文和含義,從而能夠檢索出更相關(guān)的結(jié)果。通過將查詢和文檔映射到相同的向量空間,它測量它們的相似度,即使用戶的輸入不精確或模糊,也能實(shí)現(xiàn)精確和直觀的搜索體驗(yàn)。這種方法大大提高了搜索結(jié)果的準(zhǔn)確性和相關(guān)性,使其成為現(xiàn)代信息檢索系統(tǒng)的強(qiáng)大工具。
換句話說,當(dāng)用戶在由向量搜索支持的搜索功能中搜索“用于擰緊螺絲的工具”時(shí),系統(tǒng)不僅查找包含這些確切單詞的文檔。相反,它解釋查詢背后的含義,并識(shí)別包含“螺絲刀”及相關(guān)術(shù)語的相關(guān)文檔。
2.搜索的未來是向量
通過理解上下文和語義,向量搜索能夠提供與用戶意圖高度相關(guān)的結(jié)果,即使查詢中沒有精確的關(guān)鍵詞。這種能力使向量搜索成為改善用戶體驗(yàn)的寶貴工具,通過提供精確和準(zhǔn)確的搜索結(jié)果來響應(yīng)不精確或描述性的查詢。
這里有一個(gè)簡單的向量搜索的例子。
大家都知道,將數(shù)據(jù)轉(zhuǎn)化為向量涉及嵌入過程,其中文本數(shù)據(jù)被轉(zhuǎn)換為高維空間中的數(shù)值表示。在這個(gè)上下文中,向量是一個(gè)數(shù)學(xué)實(shí)體,通過將單詞和短語表示為多維空間中的點(diǎn)來捕捉它們的語義含義。通過將單詞嵌入到向量中,模型可以根據(jù)它們?cè)诖笮蛿?shù)據(jù)集中的上下文和用法來測量不同術(shù)語之間的相似性。這種轉(zhuǎn)換允許更細(xì)致和上下文感知的搜索功能,為信息檢索和人工智能的進(jìn)步鋪平了道路。
為了提供一個(gè)相對(duì)簡單的示例,假設(shè)搜索功能所基于的數(shù)據(jù)集僅是一個(gè)字符串,由“Your text string goes here.”組成。這個(gè)字符串將被轉(zhuǎn)換為字符串中單詞的數(shù)值表示的向量。嵌入將包括如下值:
-0.006929283495992422
-0.005336422007530928
-4.547132266452536e-05
-0.024047505110502243
這些向量表示單詞的語義含義,并允許搜索功能根據(jù)上下文而不是僅基于精確的關(guān)鍵詞匹配來理解和檢索相關(guān)信息。
當(dāng)用戶在這個(gè)簡化的數(shù)據(jù)集上搜索類似“這個(gè)字段應(yīng)該使用什么數(shù)據(jù)類型?”的短語時(shí),搜索引擎會(huì)將查詢轉(zhuǎn)換為向量表示。然后,它將這個(gè)查詢向量與數(shù)據(jù)集的向量進(jìn)行比較。
盡管樣本數(shù)據(jù)集中沒有“這個(gè)字段應(yīng)該使用什么數(shù)據(jù)類型?”的確切單詞,但向量搜索識(shí)別出查詢的上下文和語義與“Your text string goes here.”相似。
因此,搜索引擎可以根據(jù)向量的相似性返回最相關(guān)的結(jié)果。這有效地將不確定和不清晰的用戶查詢轉(zhuǎn)化為更具確定性和清晰度的結(jié)果。
參考鏈接:https://thenewstack.io/the-future-of-search-is-vector/