Google工程總監揭示算法改進背后的數字
很多人認為Google已經解決了搜索的問題,但是在Google看來搜索的發展才剛剛起步。如果說搜索是一本書,那Google才剛寫完了開篇。10多年來,Google搜索一直在不斷改進,通過數據驅動和實驗評估等科學的方法不斷完善搜索引擎。日前,Google工程總監斯科特•霍夫曼(Scott Huffman)介紹了Google算法改進背后的數字:Google已解決超過45000億次搜索請求;在2011年進行了41931次必要性評估、9250次小規模試驗、7363項在線實時實驗,最終完成了520多項改進。
Google工程總監斯科特•霍夫曼(Scott Huffman)
當通過Google搜索信息時,用戶并不是在對網頁執行操作,而是在Google的網頁索引中進行查找。Google旗下龐大的計算機群統稱“Google機器人”,它由算法控制,抓取、瀏覽網絡中的幾十億網頁,并為其中的每一個詞編寫索引。當用戶輸入搜索請求后,機器便會在索引中搜索匹配網頁,并將關聯度最高的搜索結果呈現給用戶。
Google致力于在最短的時間內為用戶提供最為相關的搜索結果,這也是其對搜索算法不斷改進的動力。Google對算法的改進通常有三個步驟,首先對每項改進做必要性評估,然后在全球不同地區進行小規模實驗,之后隨機挑選用戶進行在線實時實驗。在特定時間,Google針對搜索功能會進行50-200個在線實驗。借助這些精準有序的科學方法,一個好的改進方案從構思到在Google.com上實施操作,最多只需24小時。2011年,Google進行了58000多項實驗,并對搜索系統做出520多處改進。
通過這些實驗,Google可以不斷提升用戶的搜索體驗,諸如: 在搜索結果中剔除垃圾信息;根據用戶需求改變搜索界面呈現的結果數量;相同詞在不同地域搜索,呈現的結果不同。
同時,Google搜索算法進行了一系列重大改進,比如:
-
新鮮度算法調整:在某些情況下,Google需要為用戶提供最新搜索結果,比如即時新聞、定期發生的重大事件以及內容頻繁更新的話題等。如果搜索“奧運會”,用戶會得到與即將舉辦的倫敦奧運會相關的最新搜索結果,而非關于1984年奧運會的陳舊信息。
-
優質網站算法調整:它對包含原始信息、研究調查、深度報道、精準分析等內容的高質量網站十分有利,提高了它們在搜索結果中的排名。
-
頁面布局算法調整:這一改進關注用戶在點擊搜索結果后所看到的網頁布局,提升網頁信息的豐富程度 ,提高信息容易被搜索到的網頁的排名。
Google搜索背后的數字
-
Google通常只需0.25秒便可對搜索請求做出回應,而人平均每眨一次眼睛需要0.1秒
-
自2003年到現在,Google搜索已解決4500億個搜索請求
-
用戶每天搜索的關鍵詞中,16-20%都是新的
-
平均每個Google搜索關鍵詞往返于用戶電腦和數據中心的單程距離長達750英里
-
Google對搜索結果使用了包括“網頁排名”在內的200多種排名指標
-
Google的索引庫中收錄了幾十億個網頁,數據存儲多達1億GB
-
截止目前,Google在搜索算法開發上投入的時間超過1000人工年
-
Google搜索覆蓋的語言多達146種
-
Google搜索全球范圍內擁有181個域名