民主化A/B實驗
一、Statsig公司介紹
公司名稱Statsig,取自于統計學顯著性的英文簡稱。我們提供A/B實驗以及相應的功能管理平臺,現在也開始做一些用戶分析方面的內容。公司使命就是民主化A/B實驗,用數據來驅動決策,脫離傳統的“老板說了算”這種模式。服務的客戶中不乏著名的創業公司,如Figma、Notion、OpenAI等。
我們企業工程團隊主要服務企業級用戶,宗旨是讓所有在Statsig簽約的用戶,跑更多更好的實驗。我們的工作內容橫跨售前和售后,比如幫助銷售介紹公司產品和實驗文化,也會參加用戶的實驗設計和結果評審等。
二、Statsig公司創始故事
Statsig在2021年2月創立于美國西雅圖,整個團隊都是前Facebook西雅圖的員工,包含6名工程師和1名數據科學家。創立時正處于新冠高峰期,但還是要求全員去公司上班,因為早期每天都要做很多新的決定,只有這樣才能有更強的執行力。
我們的CEO,是前Facebook的副總裁,也是西雅圖分部的負責人。他在 Facebook 任職的10年內,西雅圖分部從剛開始十幾個員工,一直做到 8000 個員工。他在公司內部也是一個比較有名的連續創業者,曾經帶領過很多成功的項目,這些項目現在給公司貢獻了上百億美金的收入。
從第一天上班,到第一版產品上線,我們花了大概3-4周時間。之后我們又等了3周的時間,才有了第一個新加坡的注冊用戶。同年10月份,我們收到了第一筆用戶付款,雖然只有幾美金,但確是一個非常重要的里程碑。
三、什么是民主化的A/B實驗
1、一個親身經歷的小故事
我們曾經在Facebook做一款小游戲,一個項目經理提出要花時間去優化游戲的加載速度,從而提高玩家的轉化率。這聽起來理所當然,沒有任何問題,當天就開會討論具體要做什么。討論出來的方案幾乎都是大工程,估計需要好幾個月才能完成。
其中有個成員就提出了一個大膽的想法,減少加載時間很困難,但人工增加游戲加載時間很簡單,我們可以先測一下增加游戲加載時間對用戶帶來的影響,然后用這個結果來評估要不要投入幾個月時間去減少。最后的結論是這個優化帶來的增益,遠遠不值得投入這么大的精力,然后我們就用這個時間去做更有效的事情了。
花了幾個小時工作量,省下了團隊幾個月的時間,這件事情讓我深刻地認識到,每個公司都應該有這樣的實驗平臺和文化,這也是我們后來創業的初衷。
2、民主化實驗的四個特點
- 實驗的門檻和開銷要低。這是所有人都能夠去測試他們各種想法的必要條件,非常重要。
- 實驗數據要容易獲取且透明。數據容易獲取,可以降低實驗的門檻;數據透明,實驗結果才可以讓大家信服。
- 決策結構去中心化。在民主的實驗文化下,任何意見都會被考慮,用實驗一一去測試可行性,然后再用數據結果來做決定。
- 能夠自我學習和優化的團隊。當結果和預期不一致時,這種看似失敗的實驗,往往能帶來更多的思考價值。
3、民主化實驗對不同的崗位帶來的好處
- 工程師
他們能夠放心地去發布新的功能,不需要很多的反復測試流程。如果你有自助化的數據,就可以觀察新功能是否達到預期,APP閃退頻率以及用戶延時的變化情況。各種內部SDK的升級,在我們的實驗平臺都可以輕易做到。
- 數據科學家
一方面減少了他們寫SQL取數和驗算實驗結果的時間,這種事情往往繁瑣枯燥;另一方面由于實驗結果都是自助化的,也省去了團隊其他成員,因為不愿意相信實驗結果所帶來的一些沖突和麻煩。他們可以把這些省下的時間和精力花在更有意義的事情上,比如通過數據去幫助團隊尋找產品發展的方向,或者是推薦更有用的實驗目標之類的事情。
- 項目經理
用數據結果說話,可以減少一些非常主觀的辯論。當大家對于一個新的想法意見不統一時,就跑一個實驗,讓結果說話。這樣還可以鼓勵團隊去嘗試更多未知冒險的想法,這些想法往往可以帶來出其不意的回報。
4、A/B實驗的現狀
好的實驗運作應該像流水線一樣,是每天工作的一部分,可以讓員工的工作效率翻倍。但大部分公司做實驗更像是科學研究,從實驗設計實現到數據采集解讀,端到端做一個完整實驗是一種奢侈,不可能作為日常工作的一部分。造成這種情況主要有以下三個原因:
- 大部分實驗平臺的功能不全。比如只能支持后端的實驗,或者只能支持用戶登錄以后跑的實驗等等,這樣就很大程度限制了實驗普及的可能性。
- 實驗數據需要數據科學團隊手動計算。很多公司的實驗瓶頸就出在這里,計算花費大量人力,不是每個公司都可以有一個大的數據科學團隊。導致大家對A/B實驗缺乏主觀的意愿,一般做實驗都是因為領導要求。
- 實驗平臺不提供端到端的完整性。導致一個團隊里面只有全都不出錯,才能夠得到正確的實驗結果。這樣會導致成員之間互相指責,不利于團隊和睦,尤其是新人很容易遭到打擊。
5、市面上的其他產品
- 市面上的產品沒有真正為產品團隊打造,具體如下:
- 大多數時候都是為營銷或者市場團隊打造功能,偏向于無代碼實驗,主要是因為這些部門比較愿意花錢。
- 實驗結果經常是在黑匣子里面,導致用戶很難自己算出同樣的結果,實驗平臺也不愿意給出具體計算邏輯。
- 在跑實驗之前就要求把測試的2-3個指標確定好,然后實驗開始跑以后就不讓加了,這也是非常有局限性的一面。
- 很多公司提供的客服團隊沒有實戰經驗,并不能指導用戶進行最佳實踐,所以也很難讓用戶去建立起一個好的實驗文化。
- 還有一些非常低級的錯誤,比如分組不穩定等等。
三、Statsig如何推進A/B實驗民主化
現在企業對數據分析方面的需求,可以用下圖中的需求金字塔來描述, Statsig的重點在上面兩層:
- 第一層是無所不在的實驗。簡單來說就是每個新功能都可以當做實驗來做,用實驗的結果來決定下一步干什么,很少有公司能做到這一點,目前只有比較大的一些科技公司才行,而我們的目標是普及到所有的公司。
- 第二層就是大家普遍理解的 A/B 實驗,我們產品提供給用戶最基本的這個功能,就是能夠讓用戶全方面的了解這次產品改動所帶來的影響,以及包括長期指標在內的一個整體畫面。
- 下面兩層是市面上其他產品提供的一些解決方案,我們也在這些方面有一些功能,比較常見,在這里就不展開細講了。
推動A/B實驗民主化,最重要的就是實驗的極簡化,Statsig在這方面下了非常大的功夫。從UI到SDK的設計,都盡量做到極簡,下圖展示的就是我們產品里面的一個功能開關。你做任何的新功能,只要一個功能開關,把功能放到這個開關里面,然后寫基本的一個如果從句,就可以把它變成一個實驗。
這個功能開關只要設置到0-100之間的百分比,我們就會自動把這個做成A/B 實驗,給你分析這個功能的存在與否,對用戶行為上面產生的一些影響。只要把功能放到這個開關,就可以看到你所關心的所有指標。不需要數據科學家做任何額外的工作,就可以一目了然,看到這個產品或功能產生的效果。
對于稍微復雜一點的場景,也可以把實驗的變量做成參數。我們的SDK可以讓你在一個參數上跑不同的實驗,可以同時也可以不同時,這樣顯而易見的好處就是,測一個參數的不同數值,不需要再改動代碼,不需要移動端開發的等待時間,直接在UI界面上改就生效了,就可以直接開始新的實驗。
至于實驗的數據收集,不管是從我們的 SDK 直接發過來,還是通過數據采集器或者數據倉庫,我們的宗旨就是數據存在哪里都可以兼容。而且無論是記錄原始事件,還是預先設計好的計算指標,我們也都可以用。換而言之,數據在哪,實驗結果就可以在哪。
逐步揭示數據的復雜性(Progressive Disclosure of Complexity),就是希望讓我們的平臺能夠適用于不同崗位、不同背景的用戶,而不僅僅是數據科學家。我們的實驗結果面板,基本上都可以看懂。紅色的就是顯著的不好,綠色就是顯著的提升,灰色就是沒有顯著性。這里面數據指標含義,也都是顧名思義、一目了然。所以普通的工程師和項目經理也可以通過數據面板來讀懂實驗結果。
我們的平臺還支持更多深層次的需求,比如指標的具體計算邏輯,在實驗中某個指標每天的變化等等。還可以從平臺里面導出計算結果的原始數據,不少用戶都會這樣來驗算顯示數據的正確性,或者拿到他們自己的數據倉庫里面去做更多的分析。
很多用戶煩惱的問題就是不知道怎么證明一個團隊跑很多實驗,是不是值得的,給公司帶來了怎么樣的業績??梢栽囈幌挛覀兤脚_內置的這個實驗保留功能,可以隨機選擇一小部分用戶,讓他們不參與任何的一個產品實驗。然后會自動計算這一段時間以來你們產品里面所有的實驗,所有的功能產生的總體影響。很多用戶用這個來當作他們整個團隊一段時間的業績面板。
再來著重介紹下我們企業工程團隊,我們與其他平臺最大的不同可以總結為四點,這也是我們能夠推動A/B 實驗民主化一個非常重要的因素:
- 我們團隊有非常豐富的實戰經驗,會對所有的用戶進行實驗基礎、最佳實踐的培訓和答疑。
- 我們甚至會參與到實驗的設計評審當中,幫客戶去建立一個比較好的實驗體系。
- 我們會跟客戶一起計劃實驗文化上面想要達到一些目標,并且把這個當成我們自己的目標來評測是否成功。
- 我們也會負責公司的一些定制化實驗需求,然后進行考量,評估是否可以迭代到我們的標準產品中。
最后介紹兩個民主化實驗推行的成功案例:
- Rec Room,這是一個 VR 游戲公司。他們現在就是把每個新功能都做在一個功能開關后面,然后把它跑成一個實驗。有一次升級了UX,原本以為會大大增加用戶粘性,結果發現這個用戶發消息的指標卻下降了。然后他們仔細看了下界面設計,發現在新版上面發消息這個按鈕確實是有點被隱藏起來了,以前是比較明顯的一個按鈕。于是他們把這個按鈕放到了上面,可以看到這個發消息指標有了顯著的提升。如果他們沒有每一個功能都來做實驗這個習慣的話,是不會發現這樣一個問題的。
- ancestry,這是一個做 DNA 檢測的公司。他們現在也把所有的功能都放在一個功能開關之后,用Statsig把它跑成一個實驗。下面這個圖說明了在用了 Statsig 以后,實驗數量的變化?,F在跑實驗的頻率大概是一個月 50 個,但他們之前用內部的實驗平臺,頻率基本上是一年 50 個。這也證明了我們公司平臺和其他產品的對比優勢。