打造用戶(hù)增長(zhǎng)場(chǎng)景下的AB實(shí)驗(yàn)體系,我們需要做什么?
一、新用戶(hù)場(chǎng)景下實(shí)驗(yàn)面臨的問(wèn)題
1、UG全景圖
這是 UG 的全景圖。
UG 通過(guò)渠道,比如 Paid Ads、 ASO、SEO 等渠道,獲客引流到 APP。接下來(lái),會(huì)做一些新手的運(yùn)營(yíng)和引導(dǎo),來(lái)促活用戶(hù),使其進(jìn)入成熟期。后續(xù)用戶(hù)可能會(huì)慢慢地失活,進(jìn)入衰退期,甚至進(jìn)入流失期。在這期間會(huì)做一些流失的預(yù)警,促活的召回,后面還有一些對(duì)流失用戶(hù)的召回。
可以概括為上圖中的公式, 即 DAU 等于 DNU 乘上 LT。UG 場(chǎng)景下的所有工作都可以基于這一公式來(lái)拆解。
2、AB實(shí)驗(yàn)原理
AB 實(shí)驗(yàn)是要對(duì)流量進(jìn)行完全的隨機(jī),對(duì)于實(shí)驗(yàn)組和不同和對(duì)照組,給予不同的策略。最后結(jié)合統(tǒng)計(jì)的方法和實(shí)驗(yàn)的假設(shè)做出科學(xué)的決策,這就是整個(gè)實(shí)驗(yàn)的架構(gòu)。現(xiàn)有市面上的實(shí)驗(yàn)分流的類(lèi)型,大概分為兩種:實(shí)驗(yàn)平臺(tái)分流和客戶(hù)端本地分流。
實(shí)驗(yàn)平臺(tái)分流是有前提的,需要設(shè)備完成初始化以后能獲取到穩(wěn)定的 ID,基于這個(gè) ID 向?qū)嶒?yàn)平臺(tái)請(qǐng)求實(shí)驗(yàn)平臺(tái)完成分流相關(guān)的邏輯,把分流 ID 返回給端上,然后端上基于收到的 ID 做相應(yīng)的策略。它的優(yōu)點(diǎn)是有一個(gè)實(shí)驗(yàn)平臺(tái),能夠保證分流的均勻性和穩(wěn)定性。它的缺點(diǎn)是設(shè)備必須完成初始化以后才能進(jìn)行實(shí)驗(yàn)分流。
另外一種分流是客戶(hù)端本地分流,這種場(chǎng)景相對(duì)來(lái)說(shuō)會(huì)比較小眾一點(diǎn),主要是在一些 UG 的場(chǎng)景,廣告開(kāi)屏的場(chǎng)景,以及一些性能的初始化場(chǎng)景。這里所有的分流邏輯都是在端初始化時(shí)完成的,其優(yōu)點(diǎn)很明顯,就是無(wú)時(shí)延,開(kāi)機(jī)即可分流。從邏輯上來(lái)講,其分流均勻性也是能夠得到保證的。但是在實(shí)際的業(yè)務(wù)場(chǎng)景上,它的分流均勻性常常存在問(wèn)題。后面會(huì)介紹其原因。
3、新用戶(hù)場(chǎng)景AB實(shí)驗(yàn)面臨的問(wèn)題
UG 場(chǎng)景實(shí)際面臨的第一個(gè)問(wèn)題是盡可能早的分流。
這里舉個(gè)例子,比如這里的流量承接頁(yè)面,產(chǎn)品經(jīng)理覺(jué)得 UI 可以再優(yōu)化一下,進(jìn)而提升核心指標(biāo)。在這樣的場(chǎng)景下,我們希望實(shí)驗(yàn)盡早地進(jìn)行分流。
在頁(yè)面 1 的分流,是在分流時(shí)設(shè)備完成初始化并獲取 ID,有 18.62% 的用戶(hù)是沒(méi)有產(chǎn)生 ID 的。如果用傳統(tǒng)的實(shí)驗(yàn)平臺(tái)的分流方式,會(huì)有 18. 62% 的用戶(hù)是不能被分組的,先天性會(huì)出現(xiàn)選擇偏差的問(wèn)題。
另外,新用戶(hù)的流量是非常寶貴的,有 18. 62% 的新用戶(hù)不能被用于實(shí)驗(yàn),對(duì)于實(shí)驗(yàn)的時(shí)長(zhǎng)和流量利用效率也是有很大損失的。
未來(lái)解決實(shí)驗(yàn)盡可能早的分流的問(wèn)題,我們就會(huì)用客戶(hù)端本地分流實(shí)驗(yàn)。其優(yōu)點(diǎn)是在設(shè)備初始化的時(shí)候,就完成了分流。其原理為,首先是在端上面初始化的時(shí)候,它本身就可以生成隨機(jī)數(shù),對(duì)隨機(jī)數(shù)進(jìn)行哈希以后進(jìn)行同樣的分組,進(jìn)而產(chǎn)生了實(shí)驗(yàn)組和對(duì)照組。從原理上看,應(yīng)該能夠保證分流是均勻的,但通過(guò)上圖中的一組數(shù)據(jù)會(huì)發(fā)現(xiàn),有超過(guò) 21% 的用戶(hù)是重復(fù)進(jìn)到不同的組的。
有一種場(chǎng)景是,一些很受歡迎的產(chǎn)品,比如王者榮耀或者抖音,用戶(hù)很容易上癮。新用戶(hù)在實(shí)驗(yàn)周期里面會(huì)有多次的卸載重裝。按照剛剛講的本地分流的邏輯,隨機(jī)數(shù)的產(chǎn)生和分流以后會(huì)讓用戶(hù)進(jìn)入不同的組,這樣就會(huì)出現(xiàn)分流的 ID 和統(tǒng)計(jì) ID 不能一對(duì)一匹配。造成了分流不均勻的問(wèn)題。
在新用戶(hù)場(chǎng)景下,我們還面臨著實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)的問(wèn)題。
我們梳理了新用戶(hù)流量承接這一場(chǎng)景的時(shí)間圖。APP launch 的時(shí)候,選擇了分流。假設(shè)分流時(shí)機(jī)能夠做到這個(gè),而且是均勻的,同時(shí)就有相應(yīng)的策略產(chǎn)生作用。接下來(lái)指標(biāo)統(tǒng)計(jì) ID 的生成是晚于策略作用的時(shí)機(jī)的,在這時(shí)才能觀(guān)測(cè)到數(shù)據(jù)。數(shù)據(jù)觀(guān)測(cè)的時(shí)機(jī)遠(yuǎn)遠(yuǎn)落后于策略作用的時(shí)機(jī),就會(huì)造成幸存者偏差。
二、新實(shí)驗(yàn)體系及其科學(xué)性驗(yàn)證
為了解決上述問(wèn)題,我們提出了新的實(shí)驗(yàn)體系,并對(duì)其科學(xué)性進(jìn)行了驗(yàn)證。
1、新用戶(hù)場(chǎng)景實(shí)驗(yàn)分流ID選擇
前面已經(jīng)講到了新用戶(hù)實(shí)驗(yàn)對(duì)于新用戶(hù)的分流選擇要求會(huì)比較高,如何選擇新用戶(hù)實(shí)驗(yàn)分流 ID 呢?有以下幾個(gè)原則:
- 合規(guī)性,不管是海外業(yè)務(wù)還是國(guó)內(nèi)業(yè)務(wù),安全合規(guī)首先是生命線(xiàn),一定要滿(mǎn)足安全合規(guī),否則一旦被下架影響會(huì)特別大。
- 及時(shí)性,對(duì)于新用戶(hù)場(chǎng)景,一定是要及時(shí),開(kāi)機(jī)即可獲取分流。
- 唯一性,在單次安裝周期內(nèi),分流的 ID 是穩(wěn)定的,同時(shí)跟指標(biāo)口徑 ID 能形成一一對(duì)應(yīng)的關(guān)系。通過(guò)下圖中的數(shù)據(jù)可以看到,分流 ID 和指標(biāo)計(jì)算口徑 ID 一對(duì)一的匹配比例達(dá)到了 99.79%,指標(biāo)計(jì)算 ID 和分流 ID 的一對(duì)一比例也達(dá)到了 99. 59%?;旧峡梢则?yàn)證,按照標(biāo)準(zhǔn)選擇的分流 ID 和指標(biāo) ID 是能夠做到一對(duì)應(yīng)匹配的。
2、分流能力科學(xué)性驗(yàn)證
選擇好分流 ID 以后,分流能力往往是通過(guò)兩種方式,第一種是通過(guò)實(shí)驗(yàn)平臺(tái),第二種是通過(guò)端上完成。
有了分流的 ID 以后,把分流 ID 提供給實(shí)驗(yàn)平臺(tái),在實(shí)驗(yàn)平臺(tái)里完成分流的能力。作為分流平臺(tái),最基本的是需要驗(yàn)證它的隨機(jī)性。首先就是均勻性。在同一層實(shí)驗(yàn)里面,把流量均勻地分到了很多個(gè)分桶,每個(gè)分桶進(jìn)組的數(shù)量應(yīng)該是均勻的。在這里可以簡(jiǎn)化一下,假如一層只有一個(gè)實(shí)驗(yàn),分成 a、 b 兩組,進(jìn)組的對(duì)照組和實(shí)驗(yàn)組的用戶(hù)數(shù)應(yīng)該是近似相等的,進(jìn)而驗(yàn)證分流能力的均勻性。其次,對(duì)于多層實(shí)驗(yàn),多層實(shí)驗(yàn)之間應(yīng)該是相互正交,不受影響的,同理這里也需要去驗(yàn)證不同層實(shí)驗(yàn)之間的正交性??梢酝ㄟ^(guò)統(tǒng)計(jì)學(xué)上的 category test 去驗(yàn)證均勻性和正交性。
介紹完分流選擇的 ID 和分流的能力,最后要從指標(biāo)結(jié)果層面去驗(yàn)證新提出來(lái)的分流結(jié)果,是否符合 AB 實(shí)驗(yàn)的要求。
3、分流結(jié)果科學(xué)性驗(yàn)證
結(jié)合內(nèi)部的平臺(tái),做了很多次 AA 的simulation。
比較對(duì)照組和實(shí)驗(yàn)組在對(duì)應(yīng)的指標(biāo)上面是否滿(mǎn)足實(shí)驗(yàn)的要求。接下來(lái)看一下這一組數(shù)據(jù)。
抽樣了一部分 t 檢驗(yàn)的一些指標(biāo)組,可以理解為對(duì)于做的這么多次試驗(yàn),放 type one error rate 應(yīng)該是在很小的概率,假設(shè) type one error rate 預(yù)定是在 0. 055% 左右,它的置信區(qū)間其實(shí)應(yīng)該在 1000 次左右,應(yīng)該是在 0. 0365- 0. 0635 之間??梢钥吹降谝涣谐闃映鰜?lái)的一些指標(biāo),都在這個(gè)執(zhí)行區(qū)間之內(nèi),所以從 type one error rate 視角來(lái)看現(xiàn)有的這個(gè)實(shí)驗(yàn)體系是 OK 的。
同時(shí)考慮到檢驗(yàn)是對(duì)于 t 統(tǒng)計(jì)量的檢驗(yàn),相應(yīng)的 t 統(tǒng)計(jì)量在大流量的分布下面,應(yīng)該是近似地服從正態(tài)分布的。也可以對(duì) t 檢驗(yàn)的統(tǒng)計(jì)量做正態(tài)分布的檢驗(yàn)。這里用了正態(tài)分布的檢驗(yàn),可以看到檢驗(yàn)出來(lái)的結(jié)果也是遠(yuǎn)遠(yuǎn)大于 0.05 的,即原假設(shè)成立,也就是 t 統(tǒng)計(jì)量是近似服從正態(tài)分布的。
對(duì)于每次檢驗(yàn) t 統(tǒng)計(jì)量檢驗(yàn)出來(lái)的結(jié)果的 pvalue,在這么多次實(shí)驗(yàn)里面來(lái)看,也是近似地服從均勻分布的,同時(shí)也可以對(duì)pvalue 做均勻分布的檢驗(yàn),pvalue_uniform_test,也可以看到類(lèi)似的結(jié)果,它也是遠(yuǎn)遠(yuǎn)大于 0.05 的。所以原假設(shè) pvalue 近似服從均勻分布也是 OK 的。
以上從分流 ID 和指標(biāo)計(jì)算口徑的一一對(duì)應(yīng)關(guān)系,從分流的能力和分流的結(jié)果指標(biāo)結(jié)果上面都去驗(yàn)證了新提出來(lái)的這種實(shí)驗(yàn)分流體系的科學(xué)性。
三、應(yīng)用案例分析
接下來(lái)結(jié)合 UG 場(chǎng)景下的實(shí)際應(yīng)用案例,講解如何做實(shí)驗(yàn)評(píng)估,解決前面提到的問(wèn)題三。
1、新用戶(hù)場(chǎng)景實(shí)驗(yàn)評(píng)估
這里是典型的 UG 流量承接場(chǎng)景,在 NUJ 新用戶(hù)引導(dǎo)或者新用戶(hù)任務(wù)的時(shí)候會(huì)做很多的優(yōu)化,從而提升流量利用率。這個(gè)時(shí)候的評(píng)估標(biāo)準(zhǔn)往往都會(huì)是 retention rate,這是業(yè)界現(xiàn)有的常規(guī)理解。
假設(shè)從新用戶(hù)下載到安裝再到首啟的這個(gè)流程, PM 覺(jué)得這樣的流程對(duì)于用戶(hù)使用,特別是從未體驗(yàn)過(guò)產(chǎn)品使用的這一部分用戶(hù)來(lái)說(shuō)門(mén)檻太高了,是不是應(yīng)該先讓用戶(hù)熟悉產(chǎn)品,體驗(yàn)到產(chǎn)品的嘻哈 moment 以后,再引導(dǎo)登錄。
進(jìn)而 PM 提出了另外的假設(shè),對(duì)于從來(lái)沒(méi)有體驗(yàn)過(guò)產(chǎn)品的用戶(hù),在新用戶(hù)登錄或者新用戶(hù) NUJ 的場(chǎng)景里面,降低阻力。對(duì)于體驗(yàn)過(guò)產(chǎn)品的用戶(hù),換機(jī)用戶(hù),還是走線(xiàn)上的流程。
基于指標(biāo) ID 進(jìn)行分流,首先獲取的指標(biāo)的 ID,然后進(jìn)行分流,這樣的分流往往是均勻的,從實(shí)驗(yàn)的結(jié)果也可以看到,同時(shí)從 retention rate 上面也可以看到?jīng)]有太大的區(qū)別。從這樣的結(jié)果上,很難去做出推全的決策。這樣的實(shí)驗(yàn)其實(shí)浪費(fèi)了一部分流量,同時(shí)存在選擇偏差的問(wèn)題,所以進(jìn)而會(huì)做本地分流的實(shí)驗(yàn),下圖可以看到本地分流的實(shí)驗(yàn)結(jié)果。
進(jìn)組的新設(shè)備數(shù)上面會(huì)有顯著性的差異,而且是置信的。同時(shí)在 retention rate 上面有提升,但在其它核心指標(biāo)上其實(shí)是有負(fù)向的,而且這個(gè)負(fù)向很難被理解,因?yàn)樗舸嫫鋵?shí)是強(qiáng)相關(guān)的。所以基于這樣的數(shù)據(jù),也很難去解釋或者去歸因,也很難去做出推全的決策。
可以去看一下重復(fù)進(jìn)組的用戶(hù)的情況,就會(huì)發(fā)現(xiàn)超過(guò) 20% 的用戶(hù)是被重復(fù)進(jìn)到不同的組的。AB 實(shí)驗(yàn)的分流的隨機(jī)性就已經(jīng)被破壞了,這樣的結(jié)果就很難支持我們做出比較科學(xué)的決策。
最后,看一下用提出的新的分流的實(shí)驗(yàn)的結(jié)果。
開(kāi)機(jī)即可分流,分流能力是由內(nèi)部平臺(tái)來(lái)保證的,它能夠極大程度地保證分流的均勻性和穩(wěn)定性。從實(shí)驗(yàn)的數(shù)據(jù)來(lái)看,幾乎是接近的,在做開(kāi)方檢驗(yàn)的時(shí)候也能夠看到它是完全滿(mǎn)足需求的。同時(shí)看到有效的新設(shè)備數(shù)是有極大的增加的,增加了1%,同時(shí)在 retention rate 上面也有所提升。同時(shí)從對(duì)照組或者單看實(shí)驗(yàn)組,能夠看到基于分流 ID 到最終產(chǎn)生的新設(shè)備的流量轉(zhuǎn)化率,實(shí)驗(yàn)組比對(duì)照組提升了 1% 。之所以出現(xiàn)這樣的結(jié)果,實(shí)驗(yàn)組其實(shí)是放大了用戶(hù)在 NUJ 和 NUT 的這個(gè)入水口,有更多的用戶(hù)更容易進(jìn)來(lái)體驗(yàn)到產(chǎn)品,進(jìn)而留下來(lái)。
把實(shí)驗(yàn)數(shù)據(jù)拆成 login 和 not login 兩部分,可以看到對(duì)于實(shí)驗(yàn)組的用戶(hù),有更多的用戶(hù)選擇了非登錄的模式,去體驗(yàn)產(chǎn)品,同時(shí)留存也得到了提升,這樣的結(jié)果也是符合預(yù)期的。
可以看到 by daily 的指標(biāo),進(jìn)組的用戶(hù)數(shù),其實(shí)是有長(zhǎng)期寫(xiě),by daily 來(lái)看是穩(wěn)定增加的,同時(shí)留存指標(biāo)也有提升。實(shí)驗(yàn)組相比對(duì)照組在有效設(shè)備數(shù)和留存上都是有提升的。
對(duì)于新用戶(hù)流量承接的場(chǎng)景,更多的評(píng)估指標(biāo)是從留存或者短期的 LT 的維度來(lái)做的評(píng)估,這里的優(yōu)化其實(shí)只是在 LT 層級(jí)的一維空間上面的優(yōu)化。
而在新的實(shí)驗(yàn)體系里面,把一維優(yōu)化變成了二維優(yōu)化, DNU 神尚 LT 整體得到了提升,這樣策略空間從以前的一維變成了二維,同時(shí)在有些場(chǎng)景下是能接受一部分 LT 的損失的。
四、總結(jié)
最后,對(duì)新用戶(hù)場(chǎng)景下實(shí)驗(yàn)?zāi)芰ㄔO(shè)和實(shí)驗(yàn)評(píng)估標(biāo)準(zhǔn)進(jìn)行一下總結(jié)。
- UG 新用戶(hù)場(chǎng)景下現(xiàn)有的實(shí)驗(yàn)體系無(wú)法完全解決新用戶(hù)流量承接策略評(píng)估所面臨的問(wèn)題,需要新的實(shí)驗(yàn)體系。
- 分流 ID 的選擇有幾個(gè)標(biāo)準(zhǔn),首先是安全合規(guī),然后是首次啟動(dòng)即可獲取,再者是在單次安裝周期內(nèi)是穩(wěn)定的,并且跟指標(biāo) ID 是單射的關(guān)系。
- 針對(duì)新用戶(hù)場(chǎng)景的實(shí)驗(yàn)評(píng)估是一個(gè)多維優(yōu)化,收益來(lái)源于有效的新設(shè)備數(shù)和設(shè)備的留存,而不像以前只評(píng)估設(shè)備的留存。
- 針對(duì)“新”用戶(hù)的承接,往往會(huì)有著巨大的業(yè)務(wù)收益。這里的“新”,不光指新的用戶(hù),還包括卸載重裝的用戶(hù)。