一文看懂“AB實驗”:統計學原理,分析思路,業務應用
AB實驗(ABtest)是一個經常被提起,但是很多同學聽得云里霧里的東西。因為網上太多文章都在講統計學公式,但:
1、為什么非得是AB實驗?
2、到底AB實驗該怎么設計?
3、到底業務該怎么用?
網上的案例非常少。今天一文跟大家講清,包教包會!
一、AB實驗的原理
之所以做AB實驗,是因為:影響結果的因素很多,我們想剔除其他因素的干擾,只看我們關心的。比如用戶的消費率,可能受:
1)業務派發的優惠券
2)用戶自身需求
3)特定的商品
的影響,我們想剔除X2,X3,只看業務發券對用戶消費率的影響,此時就得做實驗。
在統計學上,有兩種常用方法剔除干擾:
方法一,隨機實驗:隨機分成兩組,一組有作用,一組沒有,組間對比。充分的隨機性,能消除一切干擾因素!因此,隨機實驗被稱為“因果推斷的黃金法則!”
方法二,找特征相似的個體作對比,所謂分組法,PSM,DID,RDD都是此原理。
這里可能有人疑惑:為什么僅靠隨機分組,就能消除所有因素影響?統計學上有一個經典的種豆子故事(如下圖)簡單來說:隨機分組,構造了一個“平行世界的你”實現了相似特征對比。
圖片
二、AB實驗的設計
AB實驗設計,包括五個步驟
1、業務提出行動目標(改善XXX指標)
2、業務提出行動方案(頁面改版/派優惠券)
3、根據業務方案,抽取部分用戶進行隨機分組
4、推送業務方案,收集用戶響應的數據
5、利用統計學知識,對比組間差異,得出結論
典型的ABtest場景,有以下3種,牢牢記住哦。
圖片
這里要注意,現在是2025年,不是所有工作都需要從0開始做的!市面上有火山引擎(DataTester)/神策(ABtest)等工具,很多公司也有自建的ABtest平臺,可以實現全流程配置與管理。除了數據產品要搞研發以外,產品經理/運營/數據分析師的精力應更多放在:如何設計一個靠譜的實驗。
三、什么是靠譜的實驗
第一:實驗本身符合業務邏輯。
比如:
- 派優惠券:消費滿1萬元,減1元
- 首頁banner,把“快來看看”改成“馬上看看”
你自己覺得這些玩意能有多大作用!
這種屎上雕花的東西,再測也測不出效果來,窮折騰。
第二:用戶分組隨機性驗證。
理論上,最好先做AA實驗。即隨機分組后,不上線任何政策,空跑一段時間。如果分組是隨機的,那么此時組間不會出現任何差異。
實際上,人們經常懶得做AA就直接上了。那么至少,分組后,組間用戶在關鍵特征(性別,年齡,收入,消費力等)保持一致(也可以做T檢驗)。
第三:實驗時間設計,符合業務周期,避開特殊時間段。
比如:
1、要測優惠券,那么不要趕在618前后測,618的巨大影響,會把你那點券沖掉的。
2、要測游戲功能,不要趕在學生快放暑假,快開學的時候。選擇正常時間
3、要測商品詳情頁,至少測夠1周(包含工作日和周末)
第四:做好多個實驗之間的協調。
業務動作有可能很多,多重動作疊加很可能引發用戶體驗下降,比如:
1、單獨上一個“猜你喜歡”,效果很好
2、單獨上一個“福利炸彈”,效果很好
3、單獨上一個“好運降臨”,效果很好
結果實際上線,用戶打開頁面哐哐哐彈了一堆東西,嚇得用戶趕緊關上……
綜上可見,好的實驗,建立在充分的前期分析,對用戶和產品有足夠分析積累之上,不是閉著眼睛上個頁面就測了。
圖片
四、實驗結果的解讀
AB實驗,對應的統計學知識是“雙樣本T檢驗”,而且常用的AB實驗平臺會直接通報結果,所以直接看P值是不是小于0.05就好了。P值大于0.05說明沒有組間差異,業務動作做了白做,回去重做!
這里,經常有業務部門會搬來厚厚的統計學書,試圖證明P值大于0.05,也能說明業務做的很好。反正業務做的不好,測到它好為止!最后結論必須是“好!”……我們常說:放過統計學吧,它老人家已經300歲了,經不起產品經理和運營這么折騰。
反而是,很有可能出現:明明測試看起來有效,上線沒效果,比如:
- 測的東西本身就是小因素,很快泯然眾人
- 有影響更大的其他事件發生
- 業務動作之間相互干擾,拉低效果
- 持續動作下,用戶需求/市場結構發生變化
- 新奇效應,上線時候好玩,過兩天懶得完了
就比如給優惠券,給太多了,用戶習慣了發券,沒券就不消費,導致越往后效果越差。這都是常事。
因此,AB實驗并不是“一炮定輸贏”,緊密圍繞業務目標,不斷尋找優化方法,才是關鍵。而不是對著P值大喊:給我顯著!快給我顯著!