Google、Bing、抖音、淘寶等巨頭如何做AB實驗的?
2000年,Google首次將傳統AB實驗引入到互聯網產品改進評估中,用于測試搜索結果頁展示多少搜索結果更合適。雖然這次AB實驗因為搜索結果加載速度的問題失敗了,但是這次AB實驗是一個里程碑,標志著在線AB實驗的誕生。從那以后,AB實驗被廣泛應用于互聯網公司的優化迭代。
據統計,Airbnb(市值1000億美元)每周有超過1000個實驗,Facebook(市值10000億美元)每天在線的實驗超過10000個。一個公司在線AB實驗的數量也在一定程度上反映了這個公司的規模、數據驅動文化的成熟度。本文將介紹AB實驗的典型應用場景和一些經典的案例,通過案例幫助讀者更加直觀地認識和理解AB實驗原理和價值。
01 AB實驗應用場景
AB實驗被運用到了產品優化的方方面面。在眾多應用場景中,有三類非常典型。
1. 推薦類場景
信息流推薦、電商購物推薦、音樂推薦、視頻推薦等都屬于推薦類場景。推薦系統中的推薦算法,特別是現在廣泛應用的深度學習等模型,本身就具有很強的黑盒屬性。優化一個特征、一個模型、一路算法、一個參數之后,用戶體驗如何,是不是向著期望的目標方向移動,都是無法簡單通過經驗來判斷的,通過AB實驗才能知道。如果不使用AB實驗進行評估,很難有其他手段驗證新推薦策略的效果。這個場景中,AB實驗和推薦系統是相生相伴的,有推薦系統就必須有AB實驗。
2. 運營類場景
運營活動包括場景的拉新促活(吸引新用戶,活躍老用戶),各種運營活動中投放的紅包、優惠券、短信等。一般這類活動都能帶來立竿見影的用戶增長或者成交量增長。更為重要的是,從長期來評估,這些投入是否帶來了總的正向RIO。在實際中,很多活動帶來的增量是短暫的,用戶的長期留存效果往往低于自然流量的長期留存。如果沒有AB實驗的量化,很難說清楚這些活動真實的長期收益。
3. UI設計和交互類場景
在UI設計和交互類場景中,由于按鈕、顏色、款式、字體等有太多的選擇,而每個人的偏好不同,以至于在產品內部很難達成一致,更不用說面對不同的使用人群。究竟哪個方案是最優的,也只有通過實驗的方式進行量化才最具說服力。
在沒有使用AB實驗之前,UI設計師經常面對各種挑戰,有人說字體太大,有人說字體太小,往往誰都很難拿出有說服力的證據。而且有的時候由于變化過于細微,肉眼都難以分辨,比如Bing的標題色彩的UI實驗。采用AB實驗以后,大家就不會因為自己的審美而爭執不下了,簡單地把AB實驗的數據結果呈現出來就可以做出決策。
這三類場景非常有代表性,分別代表了算法優化黑盒屬性、長短期綜合收益ROI、感性決策眾口難調這3個在產品優化過程中的典型問題。當然,AB實驗適用的場景并不局限在這三類,滿足實驗基本條件的產品問題基本都可以采用AB實驗來解決。表1中總結了常見的實驗類型,以及實施AB實驗的建議程度。注意,這只是常規情況下,結合實際應用中考慮各種實際情況的一個相對建議程度,僅供參考。
表1 不同實驗類型的AB實驗建議程度
從產品研發流程來看,基于AB實驗的研發流程相比傳統產品的研發流程,其優勢是全方位的,如表2所示。
表2 基于AB實驗的產品研發流程的優勢
02 AB實驗應用案例
本節通過幾個案例來介紹AB實驗在實際應用中發揮的作用和價值。
1. Bing案例
2012年,Bing的一個員工建議改進廣告顯示方式,將標題下的第一行文字合并到標題行,形成一個長標題行。由于這個方案開始并不被看好,因此優先級較低,被擱置了6個月,之后因其代碼難度較低而被實施,并投放給真實用戶進行評估:隨機向一部分用戶展示新的標題布局,將用戶與網站的互動記錄下來,包括廣告點擊和由此產生的收入。
實驗開始幾小時后,一個“收入過高”的警報被觸發,表示新標題布局的廣告產生了太多的收益。這樣“好得難以置信”的警報非常有用,因為這通常表明出現嚴重的漏洞,比如收入情況被記錄了兩次,或網頁只有一個廣告顯示,而其余部分被破壞了。然而,對于這個實驗來說,其增加的收入是有效的,Bing的廣告收入增長了驚人的12%。在沒有損害關鍵用戶體驗指標的情況下,當時僅在美國就轉化為每年超過1億美元的收入增長。這個實驗因為效果太好而令人難以置信,所以在很長一段時間里被重復做了多次,結果都是大幅的收入提升。
這個實驗的價值不僅在于獲得了實驗本身的成功,同時展示了在線AB實驗的幾個關鍵問題。
- 直覺和經驗通常難以評估一個創意的價值。一個可以創造超過1億美元的簡單改變,卻被推遲了半年。
- 微小改變也可能帶來巨大影響。對于一個程序員來說,幾天的工作就能帶來1億美元的ROI是極其罕見的。
- 極少有能夠帶來巨大效果的實驗。Bing每年有超過一萬個實驗,像這樣通過簡單改變帶來巨額收益的情況,近年來僅此一次。
- 友好、強大、易得的實驗工具是低成本實驗的基礎。Bing的工程師可以訪問微軟的實驗系統EXP,這使得科學評估變得很容易。
- 整體評估標準十分清晰。在這個實驗中,營收就是OEC的關鍵點。只關注營收是不夠的,有可能導致網站上廣告橫飛,這無疑會影響用戶體驗。Bing使用OEC來衡量收益和用戶體驗指標,包括每個用戶的會話次數(用戶流失還是用戶黏性增加)和其他幾個組成部分。關鍵在于,營收大幅增長的同時,用戶體驗指標沒有明顯下降。
Bing的實驗相關團隊由數百人組成,負責每年將單個OEC指標提高2%。這2%是每年做的所有實驗效果的總和。大多數改進都是逐個實驗進行的,而且大多數改進程度輕微,甚至有些迭代的版本的效果是負的。
對于產品來說,重要的不僅是業務指標,還有產品性能。2012年,Bing的一名工程師改變了JavaScript的生成方式,大大縮短了發送給客戶端的HTML代碼的長度,從而提高了性能,AB實驗也顯示了驚人的指標改進效果。Bing做了一個跟蹤實驗以評估對服務器性能的影響,結果表明,性能改進還顯著改善了關鍵用戶指標,比如服務器加載服務的時間減少了10ms,此項性能改進帶來的收入提升的部分就足以承擔工程師全年的成本。
2015年,隨著Bing搜索性能的提高,當服務器在不到一秒的時間內返回第95個百分位數的結果(即95%的查詢結果)時,有人質疑性能提高是否還有價值。Bing的團隊進行了后續研究,關鍵用戶指標仍有顯著提高。雖然對收益的相對影響有所降低,但Bing的收益在這段時間里得到大幅提升,每1ms的性能提升都比過去更有價值,每4ms的改進所帶來的收入可以支付一位工程師一年的工資。多個公司都進行了性能實驗,結果都表明性能提升非常關鍵。在亞馬遜,100ms的減速實驗使銷售額下降了1%。Bing和Google的發言人在2009年聯合發表的一篇演講揭示了性能對關鍵指標的顯著影響,這些關鍵指標包括不同的查詢、收益、點擊、滿意度和點擊時間。
減少惡意插件也能提升產品體驗。雖然廣告是一項利潤豐厚的業務,但如果用戶安裝的免費軟件包含惡意插件,這些惡意插件就會污染網頁上的廣告。使用惡意插件的用戶不僅頁面上被添加了多個廣告,而且通常是低質量、不相關的廣告,產生了糟糕的用戶體驗。微軟對380萬潛在受影響的用戶進行了AB實驗,結果顯示當實驗組通過控制權限減少了惡意插件的使用后,實驗組用戶的所有關鍵指標都得到了改善,包括每個用戶的訪問量。此外,用戶搜索能更成功、更快捷地點擊有用的鏈接,年收入也提高了數百萬美元。
2. Google案例
Google在2011年啟動了改進廣告排名機制的實驗。開發工程師測試了改進后的模型,他們進行了數百項AB實驗,并且進行了多次迭代。有些實驗橫跨所有市場,有些用于特定市場,以便更深入地了解對廣告客戶的影響。功能的巨大改動,加上AB實驗的幫助,最終使得Google巧妙地將多個功能進行組合,提升了廣告用戶的用戶體驗。Google以更低的單個廣告費用獲得了更好的廣告效果。
2016年,Google對搜索頁面的鏈接顏色進行了測試。當時許多用戶反映,當自己輸入詞匯或短語時,大部分用戶會看到10條鏈接,鏈接名為藍色,網址為綠色,有一部分用戶看到的鏈接名是黑色。這已經不是Google第一次對鏈接顏色做AB實驗了,重視搜索結果頁面顏色的Google經常面向數億網絡用戶實時測試多種顏色的效果。在更早的時候,Google就開始測試不同深淺的藍色,整整測試了41種藍色,最終篩選出了指標表現最好的,而選用這種藍色要比其他藍色每年多為Google帶來兩億美元的收入。
3. 奧巴馬競選案例
2012年,奧巴馬數字團隊對其競選籌款策略進行了全方位的優化,從網頁到電子郵件,無一例外。在20個月的時間里,團隊進行了約500個實驗,最終將捐贈轉換率增加49%、注冊轉換率增加161%。他們曾策劃過一次推廣活動,為支持者贏得與總統共進晚餐的機會。在在線表單的設計方案上,研究小組實驗了一種流線型文本格式的表單和一種帶有總統圖像的表單。AB實驗結果顯示,后者讓參加抽獎的捐款人數增加了6.9%。
4. 亞馬遜案例
2004年,亞馬遜在主頁上發布了一個信用卡優惠活動。這項業務雖然單次點擊收入很高,但點擊率很低。該團隊進行了一個AB實驗,將這項優惠報價移動到用戶添加商品后看到的購物車頁面,頁面上顯示了簡單的數學計算,突出顯示用戶如果使用優惠將節省多少費用。因為向購物車添加商品的用戶有明確的購買意圖,所以該報價顯示在了正確的時間點。AB實驗表明,這個簡單的改變使亞馬遜的年利潤增加了數千萬美元。亞馬遜的Greg Linden創造了一個基于用戶購物車中的商品展示個性化推薦的模型。當用戶添加某個商品時,系統會出現類似商品的推薦。Linden覺得測試模型看起來很有潛力,而一位營銷高級副總裁堅決反對,聲稱它會分散人們的注意力,讓他們不愿意下單支付。Linden因此被禁止繼續研究這個問題。盡管如此,他還是進行了一項AB實驗,結果是這一功能以巨大的優勢勝出,最終購物車推薦功能上線,目前國內的主流電商平臺都復用了這一功能。
5. 抖音案例
抖音是字節跳動公司旗下一款創意短視頻社交軟件。字節跳動非常重視AB實驗,其實驗平臺每天新增約1500個實驗,服務400多項業務,目前累計做了70萬次實驗。從產品命名到交互設計,從改變字體、彈窗效果、界面大小,到推薦算法、廣告優化、用戶增長,抖音把AB實驗應用到了每一個業務和每一項決策中。
外界很關心“抖音”名字的由來,這其實就是AB實驗的結果。當年字節跳動做短視頻產品時,有很多候選名字,字節跳動將產品原型起成不同的名字、使用不同的Logo,在應用商店做AB實驗,在預算、位置等條件保持一致的情況下,測算用戶對產品名字的關注度、下載轉化率等指標表現。AB實驗幫助字節得到了名字的排名,當時“抖音”排到了第一。后來結合其更符合長期認知、更能體現Logo形態的特點,“抖音”之名就此確定。充分地進行AB實驗,是一個能夠在很大程度上補充信息的過程,能夠消除很多偏見,反映客觀的事實。
進入抖音App時,可以看到3個視頻推薦流,一個是基于位置的“同城”標簽欄,一個是基于關注關系的“關注”標簽欄,另一個是基于興趣推薦的“推薦”標簽欄。把哪個標簽欄作為用戶進入時的默認內容,用戶體驗更好,產品的核心指標表現更好呢?通過AB實驗的方式,對照組用戶默認進入“關注”、實驗組1的用戶默認進入“同城”、實驗組2的用戶默認進入“推薦”,最后對比各組的實驗數據,選出用戶在哪個組的指標表現更好。
通過實驗結果發現,有一些用戶喜歡默認關注,有一些用戶喜歡默認推薦,有一些用戶喜歡同城推薦,如何才能達到最優效果呢?這個問題也可以通過AB實驗的方式進行驗證。實驗可以這樣設計,首先根據用戶的特征以及歷史偏好,分別計算出進入“關注”和“推薦”這兩個標簽欄的權重值,比如有的用戶的關注量比較大,關注的內容也比較豐富,歷史數據表明他們也更喜歡觀看自己關注過的內容,這個情況下,“關注”標簽欄就會獲得較高的權重,成為默認的標簽欄。如果用戶關注的對象比較少,更愿意通過平臺推薦發現一些新鮮的事物,這種情況下,“推薦”標簽欄就會獲得較高的權重。實驗可以設計為如下幾組。
- 實驗組1:默認進入“推薦”標簽欄。
- 實驗組2:默認進入“同城”標簽欄。
- 實驗組3:根據用戶各個標簽欄的權重決定進入策略。
- 對照組:默認進入“關注”標簽欄。
6. 淘寶案例
電商網站淘寶網每天也在進行著各種各樣的實驗,一般情況下,我們都感知不到正在被實驗。就像鏈接
https://detail.tmall.com/item.htm?spm=a230r.1.14.14.498e4a519c23Vi&id=610851809895&ad_id=&am_id=&cm_id=140105335569ed55e27b&pm_id=&abbucket=2一樣,字段abbucket是分配給實驗組用戶的,abbucket=2是分配給對照組的。
移動互聯網時代,每天我們都使用著各種各樣的網絡軟件產品,進入產品各種各樣的實驗中。其實每一位產品用戶每天都在幫所使用的產品做著AB實驗,只不過用戶在一項實驗中只會獲得一個特征,無法同時獲得其對照的特征,而且用戶被分到什么組是完全隨機的,用戶對實驗是無感知的。這種隨機性、無感知性也在一定程度上保證了AB實驗的客觀性和可信度。
?