成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

低成本快速實現容器化鏡像部署,小紅書在容器環境的CD實踐

云計算
自容器推出以來,它給軟件開發帶來了極具傳染性的振奮和創新,并獲得了來自各個行業、各個領域的巨大的支持——從大企業到初創公司,從研發到各類 IT 人員等等。

自容器推出以來,它給軟件開發帶來了極具傳染性的振奮和創新,并獲得了來自各個行業、各個領域的巨大的支持——從大企業到初創公司,從研發到各類 IT 人員等等。

知名跨境電商平臺小紅書隨著業務的鋪開,線上部署單元的數量急劇增加,以 Jenkins 調用腳本進行文件推送的部署模式已經不能適應需求。

[[207473]]

本文介紹小紅書如何以最小的投入,最低的開發量快速的實現容器化鏡像部署,以及由此帶來的收益。

[[207474]]

圖 1

小紅書是一個從社區做起來的跨境電商,目前已經有 5 千萬的用戶,電商平臺的 SKU 已經上到了十萬級。用戶喜歡在我們的平臺上發布關于生活、健身、購物體驗、旅游等相關帖子,每日有 1 億次筆記曝光。

我們從社區里的用戶創建的筆記生成相關的標簽,關聯相關商品,同時在商品頁面也展示社區內的和這商品有關的用戶筆記。

小紅目前還處在創業階段,我們的技術團隊規模還不大,當然運維本身也是一個小團隊,團隊雖小,運維有關的技術方面卻都得涉及。

小公司資源有限,一個是人力資源有限,二是我們很多業務往前趕。在如何做好 CI/CD,怎么務實的落地方面,我們的策略就是開源優先,優先選擇開源的產品,在開源的基礎上,發現不滿足需求的地方再自行開發。

小紅書應用上線流程

圖 2

如圖 2 是之前應用上線的過程,開發向運維提需求,需要多少臺服務器,運維依據需求去做初始化并交付給開發。

我們現在有一個運維平臺,所有服務器的部署都是由這個平臺來完成,平臺調用騰訊云 API 生成服務器,做環境初始化,配置監控和報警,最后交付給開發的是一個標準化好的服務器。

圖 3

開發者拿到服務器準備線上發布時,采用 Jenkins 觸發腳本的方式:用 Jenkins 的腳本做測試,執行代碼推送。

當需要新加一臺服務器或者下線一臺服務器,要去修改這個發布腳本。發布流程大概是:Jenkins 腳本先往 Beta 環境發布,開發者在 Beta 環境里做自測,自測環境沒有問題就全量發布。

我們遇到不少的情況都是在開發者自測的時候沒有問題,然后在線上發,線上都是全量發,結果就掛了。

回退的時候,怎么做呢?只能整個流程跑一遍,開發者回退老代碼,再跑一次 Jenkins 腳本,整個過程最長需要 10 來分鐘,這段過程線上故障一直存在,所以這個效率很低。

以上的做法其實是大多數公司的現狀,但是對于我們已經不太能適應了,目前我們整個技術在做更迭,環境的復雜度越來越高。

如果還是維持現有的代碼上線模式,顯然會有失控的風險,而且基于這樣的基礎架構做例如自動容量管理等,都是很難做到的。

技術團隊的問題與需求

首先,我們整個技術團隊人數在增加,再加上技術棧在變。以前都是純 Python 的技術環境,現在不同的團隊在嘗試 Java、Go、Node。

還有就是我們在做微服務的改造,以前的單體應用正在加速拆分成各個微服務,所以應用的數量也增加很多。

拆分微服務后,團隊也變得更細分了,同時我們還在做前后端的拆分,原來很多 APP 的頁面是后端渲染的,現在在做前后端的拆分,后端程序是 API,前端是展示頁面,各種應用的依賴關系也變得越來越多。

再加上電商每年大促銷,擴容在現有模式也很耗時耗力。所以現在的模式已經很難持續下去。

我們團隊在兩三個月以前就思考怎么解決這些問題,怎么把線上環境和代碼發布做得更好一點。我們需要做如下幾點:

  • 重構“從代碼到上線”的流程。
  • 支持 Canary 發布的策略,實現流量的細顆粒度管理。
  • 能快速回退。
  • 實踐自動化測試,要有一個環境讓自動化測試可以跑。
  • 要求服務器等資源管理透明化,不要讓開發者關心應用跑在哪個服務器上,這對開發者沒有意義,他只要關心開發就可以了。
  • 要能夠方便的擴容、縮容。

快速實現容器化鏡像部署的方法

我們一開始就考慮到容器化,就是用 Kubernetes 的框架做容器化的管理。

為什么是容器化?因為容器和微服務是一對“好朋友”,從開發環境到線上環境可以做到基本一致。

為什么用 Kubernetes?這和運行環境和部署環境有關系,我們是騰訊云的重度用戶,騰訊云又對 Kubernetes 提供了非常到位的原生支持。

所謂原生支持是指它有如下幾個方面的實現:

  • 網絡層面,Kubernetes 在裸金屬的環境下,要實現 Overlay 網絡,或者有 SDN 網絡的環境,而在騰訊云的環境里。它本身就是軟件定義網絡,在網絡上的實現可以做到在容器環境里和原生的網絡一樣的快,沒有任何的性能犧牲。
  • 在騰訊云的環境里,負載均衡器和 Kubernetes 里的 service 可以捆綁,可以通過創建 Kubernetes 的 service 去維護云服務的 L4 負載均衡器。
  • 騰訊云的網盤可以被 Kubernetes 管理,實現 PVC 等,當然 Kubernetes 本身提供的特性是足夠滿足我們的需求的。

圖 4

我們作為創業公司都是以開源為主,在新的環境里應用了這樣的一些開源技術(圖 4),Jenkins、GitLab、Prometheus 和 Spinnaker。Jenkins 和 GitLab 大家應該都聽說過,并且都在用,Prometheus、Docker 也都是目前很主流的開源產品。

這里重點介紹兩個比較新,現在相當火的開源技術:

  • Spinnaker,這是一個我個人認為非常優秀的開源的發布系統,它是由 Netflix 在去年開源的,是基于 Netflix 內部一直在使用的發布系統做的開源,可以說是 Netflix 在 CD 方面的最佳實踐,整個社區非?;钴S,它對 Kubernetes 的環境支持非常好。
  • Traefik,在我們的環境里用來取代 Nginx 反向代理,Traefik 是用 Go 寫的一個反向代理服務軟件。

01.Spinnaker

Spinnaker有如下幾個特點:

Netflix 的開源項目。Netflix 的開源項目在社區一直有著不錯的口碑。

有開放性和集成能力。它原生就可以支持 Jenkins、GitLab 的整合,它還支持 Webhook,就是說在某一個環境里,如果后面的某個資源的控制組件,本身是個 API,那它就很容易整合到 Spinnaker 里。

擁有較強的 Pipeline 表達能力。它的 Pipeline 可以復雜到非常復雜,Pipeline 之間還可以關聯。

有強大的表達式功能??梢栽谌魏蔚沫h節里用表達式來替代靜態參數和值,在 Pipeline 開始的時候,生成的過程變量都可以被 Pipeline 的每個 stage 調用。

比如說這個 Pipeline 是什么時候開始的,觸發時的參數是什么,某一個步驟是成功還是失敗了,此次要部署的鏡像是什么,線上目前是什么版本,這些都可以通過變量訪問到。

界面友好,支持多種云平臺。目前支持 Kubernetes、OpenStack、亞馬遜的容器云平臺。


 

圖 5

圖 5 是 Spinnaker 的架構,它是一個微服務的架構,里面包含用戶界面 Deck,API 網關 Gate 等。

API 網關是可以對外開放的,我們可以利用它和其他工具做一些深度整合。Rosco 是它做鏡像構建的組件,我們也可以不用 Rosco 來做鏡像構建。Orca 是它的核心,就是流程引擎。

Echo 是通知系統,Igor 是用來集成 Jenkins 等 CI 系統的一個組件。Front52 是存儲管理,Cloud driver 是它用來適配不同的云平臺的,比如 Kubernetes 就有專門的 Cloud driver,也有亞馬遜容器云的 Cloud driver。Fiat 是它一個鑒權的組件。

圖 6

圖 6 是 Spinnaker 的界面,界面一眼看上去挺亂,實際上它還是有很好的邏輯性。

這里每一個塊都有三種顏色來表示 Kubernetes 環境里的某個實例的當前狀態。綠色代表是活著的實例,右邊是實例的信息,包括實例的 YML 配置,實例所在的集群,實例的狀態和相關 event。

圖 7

圖 7 是 Pipeline 的界面。首先,我覺得這個界面很好看很清晰。二是 Pipeline 可以做得非常靈活,可以在執行了前幾個步驟之后,等所有的步驟執行完了再執行某個步驟。

這個步驟是某個用戶做某個審批,再分別執行三個步驟其中的一個步驟,然后再執行某個環節。也可以發布還是回退,發布是走發布的流程,回退就是回退的流程。

總之在這里,你所期待的 Pipeline 的功能都可以提供,如果實在不行,還有 Webhook 的模式讓你方便和外部系統做整合。

圖 8

圖 8 是 Pipeline 步驟的類型。左上 Check Precondltions 前置條件滿足的時候才執行某個步驟。

例如當前面的第一次發布里所有的實例都存活的時候,才執行某個步驟?;蛘弋斍懊娴牟襟E達到了某個狀態,再執行下一個步驟。

Deploy 是在 Kubernetes 環境里生成的 Replication Set,可以在 Deploy 里更新一個服務器組、禁用一個集群、把集群的容量往下降、往上升等等。

也可以跑某一個腳本,這個腳本是在某一個容器里,有時候可能有這樣的需求,比如說 Java,這個 Java 跑起來之后并不是馬上能夠接入流量,可能要到 Java 里跑一個 job,從數據庫加載數據并做些初始化工作后,才開始承接流量。

圖 9

Pipeline 表達式很厲害,它的表達式是用 Grovvy 來做的。Grovvy 是一個動態語言,凡是 Grovvy 能用的語法,在有字符串的地方都可以用。

所以,這些步驟中,可以說這個步驟參數是來自表達式;也可以說有條件的執行,生成環境的時候才做這樣的東西;也可以有前置條件,當滿足這個條件的時候,這個流程和 stage 可以繼續走下去。

圖 10

如圖 10 是各種類型的表達式,從現在來看,基本上各種需求我們都能滿足了。

圖 11

Pipeline 可以自動觸發(圖 11),可以每天、每周、每月、每年,某一天的時候被自動觸發,做一個自動發布等等;也可以在鏡像有新 tag 推送到鏡像倉庫時,Pipeline 去做發布。

02.Spinnaker 和 Kubernetes 的關系

圖 12

Spinnaker 和 Kubernetes 有什么關系?它有很多概念是一對一的,Spinnaker 有一個叫 Account 的,Account 對應到 Kubernetes 是 Kubernetes Cluster。

我們的環境里現在有三個 Kubernetes 的 Cluster,分別對應到開發、測試和生產,它也是對應到 Spinnaker 的 三個 Account;Instance 對應到 Kubernetes 里是 Pod,一個 Pod 就是一個運行的單元。

還有 Server Group,這個 Server Group 對應的是 Replica Set 或者是 Deepionment。然后是 Load Balance,在 Spinnaker 里稱之為 Load Balance 的東西在 Kubernetes 里就是 Service。

03.Traefik

圖 13

Traefik 的幾個亮點:

  • 配置熱加載,無需重啟。為什么我們用 Traefik 而不用 Nginx 做反向代理呢?首先 Traefik 是一個配置熱加載,用 Nginx 時更新路由規則,做后端服務器的上線、下線都需要重載,但 Traefik 不需要。
  • 自帶熔斷功能。Traefik 自帶熔斷功能,可以定義后端某個實例錯誤率超過比如 50% 的時候,主動熔斷它,請求再也不發給它了。

           traefik.backend.circuitbreaker:NetworkErrorRatio() > 0.5

  • 動態權重的輪詢策略。它會記錄 5 秒鐘之內所有后端實例對請求的響應時間或連接數,如果某個后端實例響應特別慢,那接下來的 5 秒鐘就會將這個后端的權重降低,直到它恢復到正常性能,這個過程是在不斷的調整中,這是我們需要的功能。

traefik.backend.loadbalancer.method:drr

因為上了容器之后,我們很難保證一個應用的所有實例都部署在相同處理能力的節點上,云服務商采購服務器也是按批量來的,每一批不可能完全一致,很難去保證所有的節點性能都是一致的。

圖 14

圖 14 是 Traefik 自帶的界面。我們定義的規則,后端實例的情況都可以實時的展現。

04.為什么在 Kubernetes 環境里選擇了 Traefik?

Traefik 和 Kubernetes 有什么關系呢?為什么在 Kubernetes 環境里選擇了 Traefik?我們總結了如下幾點:

  • Kubernetes 集群中的 Ingress Controller。Traefik 在 Kubernetes 是以 Ingress Controller 存在,大家知道 Kubernetes 到 1.4 之后就引進了 Ingress 的概念。

         Kubernetes 原來只有一個 Service 來實現服務發現和負載均衡,service 是四層的負載均衡,它做不到基于規則的轉發。

  • 動態加載 Ingress 更新路由規則。在 Kubernetes 里 Ingress 是屬于七層 HTTP 的實現,當然 Kubernetes 本身不去做七層的負載均衡,它是通過 Ingress Controller 實現的,Traefik 在 Kubernetes 里就是一種 Ingress Controller。
  • 根據 Service 的定義動態更新后端 Pod。它可以動態加載 Kubernetes 里的 Ingress 所定義的路由規則,Ingress 里也定義了一個路由規則所對應的 Service,而 Service 又和具體的 Pod 相關。
  • 根據 Pod 的 Liveness 檢查結果動態調整可用 Pod。Pod列表是根據 Pod 的 Liveness 和 Readiness 狀態做動態的調整。
  • 請求直接發送到 Pod。Traefik 據此可以將請求直接發送給目標 Pod,無需通過 Service 所維護的 iptables 來做轉發。

圖 15

圖 15 是新發布的一個流程或者是開發的流程。我們有如下三個環節:

  • 開發階段。
  • 集成測試。
  • 上線。

開發階段,開發者在迭代開始時生成一個 Feature 分支,以后的每次更新都將這個 Feature 分支推送到 GitLab 。

GitLab 里配置的 Webhook 觸發一個 Jenkins job,這個 job 做單元測試和鏡像構建,構建成一個 Feature 分支的鏡像,給這個鏡像一個特定的 tag。生成新的鏡像之后,觸發 Spinnaker 的部署,這個部署只在開發環境里。

開發者怎么訪問剛剛部署的開發環境呢?如果這是個 HTTP 應用,假設應用叫做 APP1,而分支名稱叫 A,那開發者就通過 APP1-A.dev.xiaohongshu.com 就可以訪問到 Feature A 的代碼。

在整個周期里可以不斷的迭代,最后開發者覺得完成了這個 Feature 了,就可以推送到 release。一旦把代碼推往 release 就觸發另一個構建,基本上和前面的過程差不多。

最后會有一個自動化的測試,基本上是由測試團隊提供的自動化測試的工具,用 Spinnaker 調用它,看結果是什么樣。

如果今天很有信心了,決定往生產發了,可以在 Git 上生成一個 tag,比如這個 tag 是 0.1.1,今天要發 0.1.1 版了,同樣也會觸發一個鏡像的構建。

這三個不同的階段構建的鏡像 tag 不一樣,每生成一個新 tag, Spinnaker 會根據 tag 的命名規則觸發不同的 Pipeline,做不同環境的部署。

05.Canary

最重要的是我們有一個 Canary 的發布過程,我們在 Spinnaker 的基礎上,開發了一套 Canary 的機制。

Canary 和 Beta 差不多,但 Canary 是真實引入流量,它把線上用戶分為兩組:

  • 穩定版的流量用戶。
  • Canary 版的用戶。

他們會率先使用新版本,我們的具體策略是先給公司、先給我們自己辦公室的人來用,這個灰度如果沒問題了,用戶反饋 OK,看看監控數據也覺得沒有問題,再按照 1%-10%-20%-50%-100% 的階段隨機挑選線上用戶繼續灰度。

在這整個過程都有監控數據可以看,任何時候如果有異常都可以通過 Spinnaker 進行回退。

 

圖 16

這個是 Canary 的示意圖,線上用戶被分成兩組,大部分用戶訪問老版本,特定用戶通過負載均衡轉發到特定的版本里,后臺有監控數據方便去比較兩個版本之間的差異。

圖 17

這是我們在容器環境里實現的 Canary 的架構(圖 17),用戶請求從前面進來,首先打到 Traefik,如果沒有做 Canary 的過程,Traefik 是直接把請求打到組實例。

如果要發布一個新的版本,有一個 HTTP 的 API 控制 project service,決定把什么樣的流量可以打到這個里面版本。

我們的策略可能是把辦公室用戶,可以通過 IP 看到 IP,或者把線上的安卓用戶,或者線上 1% 的安卓用戶打給它,這些都是可以定義的。

 

圖 18

如圖 18 所示是線上真實的部署流程。首先是要設置一個 Canary 策略,這個策略可以指定完全隨機還是根據用戶的特定來源。

比如說是一個辦公室用戶,或者所有上海的用戶等等,然后去調整參數,是 1% 的上海用戶,還是所有的上海用戶。

然后開始部署服務,接下來把這個 Canary 實例做擴展,在流量進來之前,實例的容量一定要先準備好。

進來之后把流量做重新定向,把流量從原來直接打給后端的 Pod 改成打到 Canary 代理服務上,由 Canary 代理服務根據策略和用戶來源做進一步的流量分發。

整個過程不斷的迭代,有 1% 的線上用戶開始慢慢到達 100%。在達到 100% 后,就采用紅黑的策略替換掉所有舊版本:先把所有的新版本實例生成出來,等所有的新版本通過健康檢查,都在線了,舊的版本再批量下線,這樣完成一個灰度。

如果中途發現問題不能繼續,馬上就可以回退,所謂的回退就是把流量打回到線上版本去。

圖 19

如上圖(圖 19)是我們的 Canary 策略。這是我們自己實現的一套東西,圖中的例子是把來自指定網段一半的 iPhone 用戶進行 Canary。

用戶分組的維度還可以有其他規則,現在我們支持的是完全隨機/特定 IP/特定設備類型,這些規則可以組合起來。

我們的用戶分組是有一致性保證的,一旦為某個用戶分組了,那在當前灰度期間,這個用戶的分組不會變,否則會影響用戶體驗。

未來發展

我們下一步打算做兩件事情:

  • 做自動灰度分析,叫 ACA,現在 AIOps 概念很熱門,自動灰度分析可以說是一個具體的 AIOps 落地。

         在灰度的過程中,人肉判斷新版本是否正常,如果日志采集夠完整的話,這個判斷可以由機器來做,機器根據所有數據來為新版本做評分,然后發布系統根據評分結果自動繼續發布或者終止發布并回退。

  • 再往下可以做自動的容量管理,當然是基于 Kubernetes 的基礎上,做自動容量管理,以便更好的善用計算資源。

最后總結一下:一個好的 CD 系統應該能夠控制發布帶來的風險;我們在人力資源有限的情況下傾向于采用開源的方法解決問題,如果開源不滿足的話,我們再開發一些適配的功能。

[[207478]]

孫國清

小紅書運維團隊負責人

 

浙大計算機系畢業,曾在傳統企業 IT 部門工作多年,最近幾年開始在互聯網行業從事技術及技術管理工作,曾就職于攜程基礎架構,負責 Linux 系統標準化及分布式存儲的研究和落地,目前在小紅書帶領運維團隊,負責業務應用、基礎架構以及IT支持。個人接觸的技術比較雜,從開發到運維的一些領域都有興趣,是 Scala 語言的愛好者,曾翻譯了“The Neophyte's Guide to Scala”,有上千 Scala 開發者從中受益,到小紅書后開始負責系統化落地 DevOps 和提高運維效率。

責任編輯:武曉燕 來源: Go中國
相關推薦

2022-05-10 08:27:15

小紅書FlinkK8s

2023-08-21 15:28:36

云原生Kubernetes

2023-09-07 20:04:06

前后端趨勢Node.js

2023-08-25 15:41:50

容器微服務

2018-11-06 12:08:09

容器負載均衡云計算

2024-01-10 09:48:52

Docker工具

2019-04-16 09:10:12

Java開發代碼

2024-09-10 09:36:26

2024-10-23 20:09:47

2022-04-20 12:08:17

容器安全漏洞網絡安全

2023-08-22 11:00:16

云計算容器微服務

2023-12-07 12:38:09

架構低成本開發

2024-01-15 06:34:09

Gin鏡像容器

2022-07-25 14:24:53

Docker容器安全

2015-01-22 10:10:17

2017-01-10 16:04:02

容器MySQL實踐

2022-08-01 07:27:36

JavaDocker容器

2017-09-21 08:16:33

數據存儲環境

2024-10-10 08:19:50

2023-07-31 13:49:11

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩国产一区二区三区 | 成人欧美一区二区三区在线观看 | www.五月天婷婷.com | 欧美性大战久久久久久久蜜臀 | 中文字幕在线人 | 成人精品毛片国产亚洲av十九禁 | 看av片网站 | 99久久影院| 亚洲精品电影网在线观看 | 国产电影一区二区在线观看 | 国产精品不卡 | 日屁视频 | 视频精品一区二区三区 | 亚洲国产精品一区二区久久 | 中文字幕免费观看 | 国产精品福利在线观看 | 中文字字幕一区二区三区四区五区 | 色爱av| 亚洲国产偷 | 国产欧美一级 | 久久99精品久久久久久国产越南 | 久久视频免费观看 | 偷拍亚洲色图 | 伊人狠狠操 | 成人国产精品久久 | 欧美中文在线 | 99久久婷婷国产精品综合 | 国产精品亚洲第一区在线暖暖韩国 | 亚洲免费在线视频 | 天天天天操 | 日韩精品一区二区三区免费视频 | 美女国内精品自产拍在线播放 | 成人性视频免费网站 | 羞羞在线观看视频 | 日韩中文字幕在线视频 | 97视频在线观看网站 | 三级免费毛片 | 久久精品视频12 | 亚洲欧美中文日韩在线v日本 | 国产在线一区观看 | 亚洲成人免费av |