快手雙邊市場的復(fù)雜實驗設(shè)計問題

作者：程大曦 2023-03-13 07:31:51

人工智能算法

本文將介紹在雙邊市場下激勵策略的實驗設(shè)計。

一、問題背景

1、雙邊市場實驗介紹

雙邊市場，即平臺，包含生產(chǎn)者與消費者兩方參與者，雙方相互促進。比如快手有視頻的生產(chǎn)者，視頻的消費者，兩種身份可能存在一定程度重合。

雙邊實驗是在生產(chǎn)者和消費者端組合分組的實驗方式。

雙邊實驗具有以下優(yōu)點：

（1）可以同時檢測新策略對兩方面的影響，例如產(chǎn)品 DAU 和上傳作品人數(shù)變化。雙邊平臺往往有跨邊網(wǎng)絡(luò)效應(yīng)，讀者越多，作者越活躍，作者越活躍，讀者也會跟著增加。

（2）可以檢測效果溢出和轉(zhuǎn)移。

（3）幫助我們更好得理解作用的機制，AB實驗本身不能告訴我們原因和結(jié)果之間的關(guān)系，只能告訴我們所作事情會得出什么樣的影響以及數(shù)據(jù)變化。但是生產(chǎn)端與消費端之間的作用機制，就需要更加復(fù)雜的實驗設(shè)計和更多的實驗指標(biāo)才能把這些問題看清楚。

2、雙邊實驗的例子

這里通過一個直播美顏的例子，幫助大家進一步理解雙邊實驗。

假設(shè)在直播場景中加上美顏的效果。從表格中橫著看，兩行的實驗的觀眾組，控制觀眾是否可以看到直播美顏前后的差異。表格中的列表示主播有沒有美顏對實際的影響。將以上兩方面結(jié)合，當(dāng)且僅當(dāng)實驗組主播對照實驗組觀眾時，才給視頻開美顏功能。實際另外三個組無法看到美顏功能。但是 BC 看不到美顏，和 D 看不到美顏存在區(qū)別。AD 的區(qū)別是常規(guī)的 AB 實驗的常見場景。本場景通過雙邊設(shè)計可以觀察到觀眾側(cè)是否存在溢出。

針對主播美沒有美顏功能，若不存在觀眾溢出，則 BD 應(yīng)該數(shù)據(jù)表現(xiàn)一致，但實際上，數(shù)據(jù) BD 若存在差異，如果主播沒有美顏功能，觀眾在其他主播側(cè)看到美顏功能，則實際效果就存在了正影響或者負(fù)影響。同理，主播側(cè)的溢出也可以通過此種雙邊實驗，更好理解實驗中的作用機制，和實驗雙方是否存在溢出。

二、激勵策略的挑戰(zhàn)

供給側(cè)-消費側(cè)生態(tài)體系內(nèi)部，業(yè)務(wù)時長有政策性流量扶持的需求，這就是激勵策略，主要包括以下三種場景：

（1）運營引入優(yōu)質(zhì)作者，但不確定作者在平臺上的數(shù)據(jù)表現(xiàn)；

（2）某些業(yè)務(wù)需要挖掘特定類型作者，給一些宏觀調(diào)控上的流量扶持，予以更強的流量分發(fā)力度；

（3）平臺意志場景下，按照某種特定方向發(fā)展，認(rèn)為改變流量分配方式強化某些對應(yīng)內(nèi)容供給。

在以上場景下往往并非網(wǎng)絡(luò)學(xué)習(xí)的方式，而是通過人為的角度對平臺流量做宏觀的調(diào)控。針對關(guān)注相對長期的，需要觀察學(xué)習(xí)效應(yīng)（促生產(chǎn)等），時間片輪轉(zhuǎn)之類的方法不太試用。例如如下場景：給一類定向流量的作者流量的支持，來研究這樣的流量在長期場景下，互動以及生產(chǎn)是否可以長久。

首先是作者側(cè)的擠占：大多數(shù)此類實驗，平臺的總曝光數(shù)量有限，平臺扶持的場景下，實驗組作者曝光增加，不被扶持的對照組曝光量減少。若作者側(cè)冷啟動曝光提升幅度比讀者側(cè)冷啟動曝光幅度更大，就證明存在擠占情況。

根據(jù)上圖根據(jù)實驗組對照組關(guān)系以及開展各組曝光相對基線 diff，可以看出，隨著實驗開始對作者 boost 最后會通過推薦系統(tǒng)不僅傳遞給用戶組 B 也會傳遞給用戶組 A，并且作者 B 用戶 B，作者 B 用戶 A 的曝光 diff 是基本趨于一致的。傳統(tǒng)實驗一直致力于對此種策略扭曲的流量情況矯正。

SUTVA 假設(shè)，個體 i 在實驗過程中只與自身被分配在實驗組或者對照組相關(guān)，與實驗體系下其他節(jié)點在哪個分組無關(guān)，不論其他節(jié)點是合作關(guān)系還是競爭關(guān)系。SUTVA 是 AB 實驗得到有效結(jié)論最基礎(chǔ)的假設(shè)。

實際雙邊網(wǎng)絡(luò)違背了 SUTVA 假設(shè)。

在短視頻場景下，如果把每一種記錄策略看作一種排序算法。不同的激勵策略代表短視頻的不同排序結(jié)果。上圖 RC 代表對照組，RT_25% 實驗組流量是 25% 時的算法排序組合，RT 代表實驗組實驗推全 100% 算法排序組合。BCDE 為實驗?zāi)繕?biāo)用戶類型，即被選中的激勵作者作品。而 D 為當(dāng)實驗推量 25% 時，正好落在實驗組中。假設(shè)通過推薦加權(quán)的方式實驗，D 的排序直接排到前面位置。若策略增加至 100%，BCDE 均被加權(quán)，這種情況，D 作品卻排序反而下降。這種場景就是實驗組擠占，以及出現(xiàn)擠占的原因。

三、可選解決方案

1、方案1：逐步擴量

實驗組排序 gap 會隨著實驗組數(shù)據(jù)比例擴大而逐漸接近，擠占的效應(yīng)隨著對照組流量減少而減少。

【先發(fā)優(yōu)勢】實驗過程中發(fā)現(xiàn)，針對流量扶持的場景下，相等扶持力度，先扶持作者會始終保持流量優(yōu)勢。更早的扶持和加速發(fā)掘過程本身邏輯是前后一致的。

?分階段擴量的實驗詳情：上圖展示了分階段擴量，縱坐標(biāo)為相對 base 組漲粉數(shù)據(jù)差異。實驗初期，20% 實驗組的情況，只扶持了實驗組 1，實驗組一數(shù)據(jù)指標(biāo)開始上升；當(dāng)實驗放量 60%，實驗組 123 均開始扶持，另外兩組實驗指標(biāo)也開始上升，但始終沒有超過實驗組 1；后面將實驗組改成了 124，發(fā)現(xiàn) 4 也開始提升，但是 4 仍然無法超過實驗組 3。

由此可以得出以下結(jié)論：逐步擴量是有用的，指標(biāo)會根據(jù)擴量提升，提升會不會隨著流量擴大而變小則無法確認(rèn)。目前實驗結(jié)果可以得出，先獲得流量扶持的實驗組數(shù)據(jù)表現(xiàn)會比后獲得流量扶持的實驗組更好。?

2、方案2：劃分小世界

如上圖所示方法，將實驗組和對照組完全隔離，實驗組讀者只能看到實驗組作品，控制組讀者只能看到控制組作品。由此避免出現(xiàn)作者和讀者之間的擠壓情況。

類似的做法有，將作者和讀者的流量分發(fā)當(dāng)成一個網(wǎng)絡(luò)圖，這個網(wǎng)絡(luò)圖并不是處處聯(lián)通，部分讀者只愛看部分幾類作品，基于這樣的網(wǎng)絡(luò)圖可以做實驗組對照組的切分。以上做法與劃分小世界方式思路一致，實踐效果更好，但與此同時也具有更大的計算成本。

劃分小世界主要存在的問題為：

（1）算法推薦系統(tǒng)需要一定的規(guī)模量級才能冷啟動，當(dāng)切分池子一定小的時候，影響實際個性化分發(fā)空間。不同業(yè)務(wù)不同平臺保留推薦彈性效果前提下，對切分結(jié)構(gòu)最細(xì)粒度要求各不相同。大多數(shù)情況，推薦邊際效應(yīng)遞減。

（2）明確的流量隔離，會對樣本進行的實驗數(shù)量和檢驗方式有一定限制。針對并行實驗場景需要不斷得將隔離開的用戶重新打散重新拆分。

從分析方法中矯正而不是實驗設(shè)計的方式矯正：

根據(jù)實際網(wǎng)絡(luò)效應(yīng)做矯正分析；
根據(jù)實驗結(jié)果做一些線性假設(shè)以及其他的一些條件假設(shè)。

采用實驗方式矯正的原因：

首先實際的分析矯正方法中假設(shè)很難驗證，對于差異較大的實驗，網(wǎng)絡(luò)效應(yīng)的溢出擠占情況各不相同，很難在短時間內(nèi)總結(jié)規(guī)律，無法得到通用方法。而實際我們的解決方案希望可以解決一大類問題。

四、構(gòu)建綜合方案

基于排序融合的方案構(gòu)建——本質(zhì)上我們希望可以保證實驗組 RT_a% 的排序和實驗組RT_100% 的實際排序可以保持一致結(jié)果。

實現(xiàn)方式：首先同時用 RT/RC 兩套排序算法進行排序,記錄對應(yīng)的作品順序；將作者分為實驗組和對照組，對于實驗組給讀者展示的為兩個算法的排序融合順序。

將 RC 為當(dāng)前所有作者均沒有扶持的線上排序方案，RT 中將所有知識類作者提權(quán)。將RC 于 RT 的排序結(jié)果融合，先將實驗組 RT 對應(yīng)的作者（T1T2）放在 final 分組的對應(yīng)排序位置上，將對照組的作者根據(jù)原先實驗無關(guān)的次序繼續(xù)保留。保守起見，小流量時期建議除了實驗作品以外，其他作品均按照原先次序填充。若實驗已經(jīng)推全，則全量使用 RT 的結(jié)果。

如果實驗組和對照組競爭同一個位置怎么辦？

根據(jù)以上實驗設(shè)計，如果出現(xiàn)實驗組作品和對照組作品競爭同一個位置，最簡單的方式是隨機選擇。這種情況出現(xiàn)的概率很低。

如果實驗組和對照組都是 a% 的總流量，假設(shè) a=2,

假設(shè)一次推 10 個作品，top10 同時出現(xiàn)實驗組和對照組作品的概率計算如上圖，約為 3.3%。如果兩個算法完全獨立，前 10 相同位置出現(xiàn)沖突的概率更低。

?往往改進具有一定的漸進式的，RC 和 RT 關(guān)聯(lián)性很高，沖突性更小。于此同時也可以通過離線測試的方式提前預(yù)估沖突的概率。

以上雙邊實驗主要的指標(biāo)評估可分為以下三類：?

作者側(cè)指標(biāo)：作品數(shù)量，生產(chǎn)作者數(shù)，直接從作者側(cè)檢驗；
報告觀看量指標(biāo)：CTR，EVTR，作者作品曝光提升=讀者觀看次數(shù)提升進行推算；
讀者側(cè)指標(biāo)：讀者側(cè)單邊實驗驗證。

方案可能存在其他一些問題：

首先任何的方案都會存在問題。雙邊市場強的溢出效應(yīng)很難通過一個解決方案解決所有問題。

目前實驗設(shè)計的主要問題包括以下幾個方面：

（1）首先，保留兩套排序從工程側(cè)存在一定成本，若政策激勵會更好推進，算法的角度不容易一直保持兩套不做融合；

（2）其次，從算法數(shù)據(jù)的隔離的角度，部分改進來自于數(shù)據(jù)本身，模型本身存在較大變化，結(jié)果排序算法邏輯不再成立。

（3）第三，計算假設(shè) a=2%，如果更多的流量檢驗小的效果是否可以增加 a 值？隨機選擇比例混排，使得更大流量沖突可能性更小。最后，雙邊問題退換為單邊來解決，是否可以通過雙邊可以解決，待后續(xù)繼續(xù)探究。

責(zé)任編輯：姜華來源： DataFunTalk

排序算法因果推理

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看