基于線程池的線上服務性能優化

作者：我是雨樂 2022-05-31 10:51:12

需求，總是自我技術提升，架構升級優化的動力源。

最近居家辦公。正在發愁摸哪條魚的時候，產品突然在群里at了我一下，說到某某訂單曝光異常，讓配合看看。

仔細詢問了下訂單信息，乖乖，原來用的是6年前開發的一個功能，要知道這個功能自上線后基本很少用，不知道為什么現在開始用起來了，只能先放棄摸魚，先配合解決問題，畢竟要靠這個來吃飯的。

需求背景

在廣告中，經常有這樣一種需求場景，需要將某個廣告定向投放給某一批指定用戶。即假設有一個adid，指定了投放用戶1和用戶2，那么只有在用戶1和用戶2的流量請求過來的時候，才會返回給adid，而其他用戶的流量，均不會返回該adid。

一般情況下，指定用戶多達幾百萬個甚至上千萬個，將這些用戶ID直接隨著廣告訂單推送過來，顯然不切實際，所以當時的設計方案是廣告主將包含有指定用戶ID的數據包上傳到廣告后臺，然后生成一個url，而該url則隨著廣告訂單推送過來。在引擎中，有個服務專門訂閱了廣告訂單消息，如果發現該廣告訂單是指定用戶投放，則將url指向的數據包中的數據獲取后，進行實時加載，這樣當其用戶ID流量過來的時候，就能匹配上該廣告。

初始設計

在開始本節之前，我們不妨先思考幾分鐘，如果讓你來實現這個功能，該如何實現呢？

好了，讓我們把時間調回到2016年年底，產品提出該需求的時間點。

當時看了該需求，還是蠻簡單的。為了便于內容理解，將加載定向包的服務稱之為Retargeting。

Retargeting服務就兩個基本功能：

訂閱廣告訂單消息隊列
如果獲取到了有定向包的廣告訂單，則下載該定向包，然后獲取里面的數據，建立倒排索引

是不是很簡單，代碼也非常好寫，下載定向包可以使用libcurl，也可以使用wget進行下載然后讀取文件加載到內存，當時因為排期比較緊張，所以選擇了wget方式來實現，因為數據量比較大，所以使用redis作為倒排索引的存儲媒介。

假設有一個廣告訂單我們稱之為ad，其包含一個定向包地址url，此時會做如下幾件事：

1、使用如下命令進行下載url所指向的定向包

auto cmd = "wget -t 3 -c -r -nd -P /data1/data/ –delete-after -np -A .txt http://url.txt";
auto fp = popen(cmd.str().c_str(), "r");
if (!fp) {
  return;
}

2、以文件形式打開該包

// 獲取本地包地址，如/data1/data/url.txt
fp = fopen(path.c_str(), "r");
std::string id;
char buf[128] = {'\0'};
while (fgets(buf, 128, fp)) {
  id = buf;
  boost::replace_all(id, " ", "");
  boost::replace_all(id, "\r", "");
  boost::replace_all(id, "\n", "");
  noost::replace_all(id, "\^M", "");
  if (!id.empty()) {
    ids.emplace_back(id);
  }
}

3、Redis中建立倒排索引

for (auto item : ids) {
  redis_client_->SAdd(item, adid);
}

好了，到了此處，Retargeting服務功能已經基本都實現了。

在召回引擎中，當流量來了之后，會先以用戶ID為key，從redis中獲取指定投放該設備ID的adid，然后返回。

代碼編譯完后，在測試環境下了個單，推送，然后模擬請求，召回，完美。

問題初現

定向包功能，尤其是對于KA廣告主，是不屑使用的，畢竟他們財大氣粗，要的就是 ??腦白金?? 似的推廣效果，即 「只關注展示量，而不在乎是否有效果」 。奈何隨著國家政策的一步步調整，廣告行業都開始勒緊褲腰帶過日子，之前的大廣告主也開始關注投放效果了，畢竟 ??品效合一?? 嘛。于是，他們開始挖掘了一批用戶，在后臺開始投放，嘗試投放效果。隨著此類定向包訂單越來越多，之前實現的Retargeting也開始出現瓶頸了。。。

畢竟該功能使用不多，所以大部分情況下，產品或者運營提出問題的時候，都會找個借口搪塞回去。直到某一天，產品直接甩出來一張圖，說某個部門老大非常看重的一個廣告主的定向包投放曝光為0，并揚言當天解決不了，就通過其它渠道進行投放。。。

既然是部門老大都找過來了，那就不得不找下原因了，于是從訂單的url是否有效開始查起，定向包設備的有效覆蓋率，一直到整個訂單的推送時間，一切都正常，看來問題出在ReTargeting服務了，服務正常，加載也正常，無意間看了下消費進度，不看不知道，一看嚇一跳。才剛剛消費到昨天的訂單，也就是說當天要投放的訂單還沒開始加載，怪不得還沒有曝光，就這進度，有曝光才怪。

順便看了眼服務狀態，乖乖，CPU占用這么低。。。

嘗試優化

既然CPU占用這么低，那么有沒有可能從CPU占用這個角度進行優化呢，提升CPU占用，提高服務處理能力，這樣就能加快其加載速度了。對于這種，一般稍微有點經驗的，就會知道該怎么優化，對，就是使用 ??多線程?? 。

既然決定使用多線程，那么就得徹底點，多線程處理訂單，在每個訂單中，又采用多線程進行數據加載和處理，我們暫且稱之為 ??M*N?? 多線程設計模型，如下：

在上圖中，采用多線程方式對Retargeting服務進行優化，假設此時有m個定向包訂單，則會同時有m個線程進行處理，每個線程處理一個定向包訂單，看起來很完美，等等，會不會有其他問題呢？要不然一開始為什么就不這么設計呢？

大家知道，對于多線程程序， 「線程的執行順序，完成時間是不可控的」 ，使用上述設計方案，如果多個線程 「同時處理多個不同的訂單，那么是沒有任何問題的」 ，但是，如果對于另外一種場景，該方案就不可行了，如下：

假設此時銷售創建了一個定向包訂單ad0，先推送上線。然后發現訂單有問題，所以隨即推送下線。那么此時消息隊列中有兩條消息，先是ad0的上線消息，然后是ad0的下線消息。基于上述多線程設計模型，假設線程1執行訂單上線，線程2執行訂單下線，可能的結果就有如下幾種：

先執行上線訂單加載，再執行下線訂單加載，此種情況符合預期
下線訂單先完成，然后上線訂單完成，此種情況最終與我們期望的相反
上線訂單和下線訂單同時執行，且中間交叉進行，結果不可控

很明顯，該種方案不可行，盡管其最大可能地優化了性能，但是得不到正確的結果，即使性能再好，又有啥用呢？

難道多線程設計模型真的不適用于我們這個服務嗎？

不妨調整下思路，在上述的方案分析中，多個線程同時處理多個訂單就會有問題，換句話說在M*N多線程設計模型中，正是因為M>1導致了結果不可預期，那么如果M=1呢？這樣會不會就會避免上述問題呢？

我們仍然以上述案例進行舉例，因為是單線程處理消息隊列，那么永遠都是先處理上線消息，然后再處理下線消息，這樣的結果永遠符合我們的預期。

既然方案已經定了，那么就可以直接寫代碼了。在該方案中，我們用到了多線程進行處理，如果每次來了訂單消息都創建多個線程進行處理，處理完成后，銷毀線程。雖然也可以這么做，但多少對性能有所影響，所以干脆使用 ??線程池?? 來完成吧。base庫中有之前手擼的線程池，直接拿來使用。

for (auto did : ids) {
  thread_pool.enqueue([did, adid, this]{
      RedisClient client;
      redis_client_pool_.Pop(&client);
      if (client) {
        client->SAdd(did,  adid);
        redis_client_pool_.Push(client);
      }
  });
  }
}

編譯、部署、測試，一氣呵成，沒問題。開始上線，上線完成，看了下CPU利用率，完美：

數據說話，對比下優化前后同一個訂單的處理時間：

性能提升接近30倍，符合預期。。。

需求，總是自我技術提升，架構升級優化的動力源。有時候，一個簡單的小優化，就能達到事半功倍的效果。

責任編輯：張燕妮來源：高性能架構探索

架構技術優化

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看