回到未來，如何避免西安一碼通崩潰

作者：朱鋼 2022-01-18 09:00:00

西安一碼通不到一個月就崩潰兩次，雖然說在實際項目和線上運行時系統崩潰是很有可能遇到的問題，但是如此大規模的，而且還是短時間內兩次大規模崩潰，著實少見。那么如果回到未來，該怎么設計一碼通來降低崩潰的情況呢？下面從技術和業務兩方面來談談一碼通的設計。

???

【51CTO.com原創稿件】西安一碼通不到一個月就崩潰兩次，雖然說在實際項目和線上運行時系統崩潰是很有可能遇到的問題，但是如此大規模的，而且還是短時間內兩次大規模崩潰，著實少見。那么如果回到未來，該怎么設計一碼通來降低崩潰的情況呢?下面從技術和業務兩方面來談談一碼通的設計。

一、崩潰的原因分析

因為這兩次崩潰的模塊只是掃碼和亮碼，因此我們來分析一下這兩個模塊的業務。掃碼和亮碼功能類似，都是典型的查詢大于更新的業務，大部分流量都來自于查詢。下面我們來看看一碼通在不同版本的發展。

第一版的一碼通只展示個人身份證號、姓名和碼的顏色。這三個字段有可能是存儲于一個表中，使用一條 SQL 就能查出來。但是作為一個上萬人使用的系統，不可能所有數據存在于一張表中，因此身份證號和姓名極有可能存儲在一張表里，碼的顏色在另一張表中，因此這里很有可能最少存在一條 join 連接。

到了第二版和第三版一碼通做了很大的改變，首先是新增了疫苗接種信息，其次又新增了核酸檢測信息，展示核酸檢測的時間和結果。這就增加了兩個查詢，如果一碼通在不考慮使用緩存，只是用關系數據庫的情況下，那么就有可能增加最少兩個 SQL 查詢。

以上就是一碼通掃碼和亮碼兩個模塊大致的業務情況。這個業務所需要面對的是最高百萬級別的并發量(西安人口一千多萬)，這種級別的并發量在互聯網公司就是日常的并發量。那么它怎么就崩了呢?在官方的消息中有這么兩段話(只截取里面關鍵部分)：

1. 西安一碼通用戶訪問量激增，每秒訪問量達到以往峰值的10倍以上，造成網絡擁塞;

2. 判斷問題出現在網絡接口側。

由此可以判斷是網絡出現了問題。一般來說用戶的請求，先訪問域名，然后通過 DNS 服務器解析拿到 IP ，通過 IP 訪問到服務器，最后服務器將響應結果返回給客戶端。本次的故障就出現在通過 IP 訪問服務器階段。因為網絡擁塞，因此可以直接增加帶寬，但當系統恢復時，西安的小伙伴都發現一碼通回滾到了第一版，而且在一碼通的首頁新增加了核酸查詢頁面的鏈接，因此出現崩潰很有可能不只是帶寬的問題。這應該是外部請求的數量超過了系統最大處理能力造成的問題。

一般來說，產生這種問題的原因無非就是系統架構的問題，解決這個問題有兩種方法，擴容和限流：

1. 在請求達到承載的頂峰時，讓后續所有請求等待，進行限流。限流方案很多，最簡單的方式是使用 Nginx，如果效果不理想的話可以自定義算法在接入層限流。限流不能完全解決問題，只會阻擋部分請求。

2. 通過增加服務器數量、增加數據庫數量來提升系統的承載能力，這個是擴容。因為一碼通在出現問題后進行了回滾，并沒有進行擴容。因此大概率他們在系統架構設計上并沒有考慮擴容問題，因此擴容這個方案對于系統架構來說可能很難。

二、崩潰的解決方案

如果要解決上一小節的問題，可以從三個方面來解決。

1. 采用讀寫分離

將一碼通業務按照訪問頻率進行拆分：常用模塊和非常用模塊。常用模塊流量較大，將“讀”單獨處理出來，在數據庫前端加入緩存中間件，優先讀取緩存中的信息，這樣即使數據庫掛了，業務系統也能從緩存中讀取數據。非常用模塊流量較小，比如核酸信息和疫苗接種信息的更新，直接對數據庫進行操作。

2. 分庫分表和服務拆分

利用用戶 ID 取模后的值確定需要拆分成多少個庫或表，每個庫或表對應一個或多個服務子系統，接口將流量分配到不同的服務子系統上，這樣就減輕了單庫或單表以及服務系統的壓力，并且也能在流量暴增的時候快速地進行擴容。

3. 容災備份

使用異地多機房部署服務，提前做好的容災備份方案，避免出現前述的問題。

總結

西安一碼通明顯是在系統沒有嚴格測試的情況下，就發布到了生產環境，并發一高就崩潰。本文所述的這些問題只是根據目前可見的情況進行的分析，所提出的解決方案也是比較常見的解決方案。但是根據這些解決方案幾乎可以處理掉西安一碼通崩潰的問題。

作者介紹

朱鋼，51CTO社區編輯，2019年CSDN博客專家20強，2020年騰訊云+社區優秀作者，10年一線開發經驗，曾參與獵頭服務網站架構設計，企業智能客服以及大型電子政務系統開發，主導某大型央企內部防泄密和電子文檔安全監控系統的建設，目前在BIM頭部企業從事招投標軟件開發。

【51CTO原創稿件，合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯：華軒來源： 51CTO

架構服務器一碼通