成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

不可思議!平均執行耗時僅1.5ms的接口在超時時間100ms下成功率竟然還不到5個9!!

開發 前端
本文深入分析了平均耗時僅有1.5ms的接口也會出現大量100ms+的前因后果,并在框架層面給出了彈性超時的解決方案。這也刷新了我們的認知,由于GC、CPU時間片等原因,一些看起來很簡單的操作(如i++)也會出現偶發性長耗時。

1.背景

一個春暖花開的午后,客服技術部佩姐(P)找過來向我們反饋一個問題,如下是我們的對話:

P:云杰,我們最近在治理服務質量,有個接口的成功率達不到公司標準5個9。
 
我:贊,你們也開始質量治理了,詳細說說。
 
P:我們sccis有個重要的lookupWarehouseIdRandom接口,先查詢緩存,未命中的再從數據庫查并回寫到緩存,平均執行耗時只有1.5ms。現在scoms在調它,超時時間配的還是100ms,結果發現每天還有500多個超時,成功率不到5個9,達不到公司標準。你們框架是不是有問題啊,幫忙看看!
 
我:不至于吧!?平均執行耗時1.5ms,在調用方超時時間配100ms(60多倍!)的情況下竟然還有這么多超時?
 
P:真的!!不信你看看!!!
 
我:看看就看看!

如下開始本篇的研究之旅。

2 驗證與分析

2.1 準備工作

在開始驗證之前,先簡要介紹下轉轉RPC框架SCF的調用過程,如下圖所示:圖片

  • 序列化:SCF接收到調用方的請求,做負載均衡、序列化等;
  • 發送:SCF將序列化后的二進制流通過網絡發送給服務方結點;
  • 反序列化:服務方結點接收到數據后,將數據交給SCF,做反序列化、排隊等;
  • 執行:SCF將請求交由服務方的實現方法進行處理;
  • 序列化:SCF將服務方的處理結果序列化為二進制數據流;
  • 發回:將數據發回給調用方;
  • 反序列化:調用方SCF收到請求后,將二進制數據反序列化為對象交由調用方代碼,使得調用方看起來跟本地方法調用一樣。

如上是一次完整的RPC調用鏈路。

2.2 驗證

通過監控我們發現接口的平均執行耗時確實在1.5ms左右,如下圖所示:

圖片圖片

但調用方scoms在超時時間為100ms的情況下確實仍然有很多請求超時:

圖片圖片

太讓人震驚了!!!

2.3 問題分析

通過如上的RPC調用過程鏈路示意,我們可以看出任意一個子過程都可能會發生抖動,造成超時。但我們可以從整體上把鏈路分為框架和業務兩個部分(分界點如圖所示):

  • 框架:指底層的網絡和SCF耗時,屬于客觀原因,包括圖中的1、2、3、5、6、7;
  • 業務:單純指業務服務的執行4,屬于主觀原因。

因為框架耗時復雜多變,不好統計,我們可以統計業務的執行耗時分布,以此來判斷問題出在框架上還是出在業務上。

  • 如果業務的執行耗時分布都非常低,那就說明超時花在了框架上;
  • 如果業務的執行耗時分布都有很多高耗時的,那就說明超時花在了業務邏輯上。

正好服務方的接口有耗時分布監控,通過監控我們發現絕大部分情況都在5ms內處理完成,但仍有314個請求處理時間直接超過了100ms!!!

耗時分布耗時分布

這個發現也讓我們大吃一驚:平均執行耗時1.5ms的接口,竟然還會有這么多請求執行耗時越過100ms!! 那么這些時間都花在哪里了呢?

2.4 排查

目前的監控都是接口的整體執行耗時,我們需要深入接口內部看看時間都花在哪里了。我們對接口分為如下幾個部分,并分段監控起來。

圖片圖片

監控結果如下所示:

圖片圖片

從結果可以看到:

  • I/O操作容易抖動,出現較多次100ms+;
  • 最簡單的CPU操作雖然沒有那么多100ms+,但也有不少20ms左右的情況(而且都是從1ms突變到20ms,而不是漸變)。

2.5 原因

原來我們是被1.5ms給平均了!什么原因會導致這種長尾效應呢?情況可能有很多,GC(極度懷疑)、CPU時間片分配等。如下是sccis的GC監控:

圖片圖片

為此,我們也對比了轉轉商品服務zzproduct的getProductById()接口,發現也有同樣的情況:

getProductById()耗時分布getProductById()耗時分布

3.解決方案

至此,我們看到業務接口平均執行耗時雖然僅有1.5ms,但仍會出現不少超過100ms的長尾效應,當然框架也會出現。其原因有多種,GC(極有可能)、CPU時間片分配、網絡抖動等等。

而這,也確實刷新了我們所有人的認知。

反過來想,如果業務接口要達到公司要求的5個9要求,該怎么辦呢?其實很簡單,我們可以參照調用方的TP9999來設置超時時間。如下圖,scoms調用該接口的TP99999是123ms,而業務把超時時間配置成了100ms,那肯定達不到5個9的標準了。要么把超時時間改為123ms(簡單直接),要么優化業務邏輯(目測很難,因為平均執行耗時只有1.5ms)或JVM調優(很有希望)。

圖片圖片

3.1 框架優化-彈性超時

基于本文分析,RPC框架也可以針對這種長尾效應做一定優化:不改變超時時間100ms配置情況下,允許一段時間(可配)一些量(可配)的請求在200ms(可配)時間內返回,既提高了服務質量,又不太影響用戶體驗,我們稱之為彈性超時方案。

3.1.1 效果

如下圖所示,我們在服務管理平臺支持按服務&函數設置彈性超時,這里我們將上文zzscoms調zzsccis的IInventoryWrapCacheFacade.lookupWarehouseIdRandom(List)函數配置成每40秒允許15個請求的超時時間延長至1300毫秒。

彈性超時配置彈性超時配置

通過配置彈性超時,我們看到這種偶發性的超時基本被容忍消滅掉了,如下圖所示:

圖片圖片

3.1.2 適用場景

彈性雖好,可不要貪杯!它更多適用于一些偶發性超時場景,比如網絡抖動、GC、CPU抖動、冷啟動等,如果是大面積的超時還是需要深入分析治理。

4 總結

本文深入分析了平均耗時僅有1.5ms的接口也會出現大量100ms+的前因后果,并在框架層面給出了彈性超時的解決方案。這也刷新了我們的認知,由于GC、CPU時間片等原因,一些看起來很簡單的操作(如i++)也會出現偶發性長耗時。


關于作者

杜云杰,高級架構師,轉轉架構部負責人,轉轉技術委員會執行主席,騰訊云TVP。負責服務治理、MQ、云平臺、APM、分布式調用鏈路追蹤、監控系統、配置中心、分布式任務調度平臺、分布式ID生成器、分布式鎖等基礎組件。

責任編輯:武曉燕 來源: 轉轉技術
相關推薦

2021-11-10 06:38:01

Python鏈式操作

2023-04-06 09:44:00

ChatGPT行業質量

2011-07-18 13:35:14

HTML 5

2024-06-04 10:37:06

2024-11-29 07:42:47

2024-06-13 09:17:41

2022-09-20 10:41:32

接口優化網絡

2013-10-10 13:07:25

方物

2017-03-21 08:52:20

神經網絡聲譽

2020-08-06 11:25:29

數據庫鏈接池線程

2024-07-30 14:26:52

2024-04-07 00:00:00

億級數據ES

2020-09-01 11:10:39

數據庫鏈接池HikariCP

2022-01-24 15:57:34

Python返回功能代碼

2012-02-13 11:01:27

N9Android 4.0

2011-02-23 08:50:22

C#.NETdynamic

2013-07-31 15:06:58

未來的WebWebGLWeb

2010-07-15 16:21:03

不可思議的服務器

2014-01-14 10:33:42

開源硬件開源

2020-07-02 15:40:11

Spring BootJar包Java
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91麻豆精品国产91久久久久久久久 | 中文日韩在线 | 国产精品久久久久久久久免费桃花 | 成年免费大片黄在线观看一级 | 在线一区二区三区 | 久久av网| 亚洲午夜精品一区二区三区他趣 | 久久精品亚洲 | 久久精品亚洲精品国产欧美kt∨ | 日本高清视频在线播放 | 精品久久久久久久久久久 | 男人亚洲天堂 | 99久久婷婷国产综合精品 | 成人免费一区二区三区视频网站 | 久久精彩 | 精品国产一区二区久久 | 91国产精品在线 | 一区二区三区四区电影视频在线观看 | 91精品国产91久久久久福利 | 性一区| 91在线视频观看 | 亚洲在线一区 | 成人精品一区二区三区四区 | 中文字幕欧美一区二区 | 蜜月aⅴ免费一区二区三区 99re在线视频 | 久久成人免费视频 | 免费看黄色视屏 | a免费视频 | 欧美一区二区大片 | 伊人伊人伊人 | 国产精品久久久久久久久久免费看 | 国产精品久久久久久久久久久新郎 | 一区二区三区欧美在线 | 久久久久久亚洲 | 一区二区三区四区在线视频 | 二区在线观看 | 伊人影院在线观看 | 日韩成人精品一区 | 国产精品久久久久不卡 | 91精品国产综合久久久动漫日韩 | 国产一级一级 |