阿里技術大牛:一個NB架構師的必備素質
架構師,這個 title 就和總監之類的 title 一樣,已經徹底被用爛了。但在一個軟件產品的生命周期中,架構師是實實在在的一個極度重要的角色。
架構師非常重要的職責是編寫整個系統中核心部分的代碼。這個部分并不一定是技術挑戰***的,但對整個系統的質量甚至成敗起到非常關鍵的控制作用。
架構師必須是從寫核心代碼的人中誕生而來。這篇文章主要講作者理解的架構師到底應該具備什么素質。
業務理解和抽象能力
架構師的***職責是理解業務,并轉換為可被研發理解的實現方案,因此業務理解能力是架構師的必備技能。
通常來說一個資深的業務架構師,對業務會有非常深的認識和積累。一個極好的業務架構師應該能大概預判業務未來的發展趨勢,以便在系統的可擴展性上留好一定的空間。
所以也會很自然的出現有些業務架構師做著做著就干脆轉為 PD 類型的角色。
抽象能力是通過對業務的理解轉換為系統實現的模型,這顯然也是重要的能力。抽象很多時候也承擔了分解清楚多個團隊的職責,分工清晰化。
NB 的代碼能力
之所以現在很多的架構師都會被認為是大忽悠,就是有一堆頂著架構師頭銜,又不干活的人(甚至會出現對技術幾乎不太懂的人),光說不干,再加上說的不靠譜的話,自然很容易被認為是大忽悠。
在一個跨多領域的大型系統中,架構師不太可能什么都擅長,不可能寫各個部分的核心代碼。
這種時候架構師一定要知道怎么判斷非自己知識領域的部分實現是否 OK,以確保各部分組合在一起的時候是符合架構設計預期的。
通常這種確保各部分組織在一起 work 的機制部分的代碼應該由架構師自己操刀。
最關鍵素質:全面、全局、權衡
全面
全面是一個架構師展現出來的最關鍵素質,全面體現為以下三點:
在面對業務問題上,架構師腦海里是否會浮現出多種技術方案這點挺重要的。
否則可能就會出現明明有一個簡單成熟的方案,但由于不知道而做了其他復雜不成熟的方案,所以廣闊的技術視野是架構師的必備。
另外架構師不可能全部擅長,在自己不擅長的點上,需要知道找哪個專業的人是靠譜的,這點也非常重要。
在做系統設計時是否考慮到了足夠多的方方面面。例如很多系統設計容易遺漏上線環節的細節,導致在上線時發現漏掉了什么考慮,臨時解決或只能重來。
記得有一年我做的一個設計沒有考慮到上線階段的一個細節,導致上線的時候發現由于網段的問題完全不 work,并且沒有臨時解決方案,只好重來。
系統設計不僅僅指導研發同學怎么寫代碼,也包括指導其他所有相關技術同學的工作。
又例如我 2008 年在做服務框架設計的時候,集群和集群之間通過硬件負載均衡設備來訪問的,連接的方式是單個長連接。
這個設計導致了運行過程中如果要發布被調用的服務方,很容易出現壓力都集中在前面重啟的機器上,這也是典型的整個鏈路沒有考慮清楚造成的設計問題。
再例如 2013 年我在做一個比較大范圍的系統改造的設計時,由于對其中一部分的軟件了解得不夠,判斷錯誤,導致后來這個改造在進行過程中才發現有些需要改造的關鍵軟件設計做得太粗糙。
***上線進度差不多推遲了一個多月,而且那些后來補的設計都是緊急做的,風險非常高。
回顧自己設計過的軟件,發現在這個點上犯的錯可以講好幾天,看來我應該整理另外一篇文檔《我在系統設計上犯過的xxx個錯誤》,里面有些其實靠一份好的系統設計模板也許就能避免掉。
一份好的系統設計模板是可以幫助架構師思考全面些的。
在做系統設計時是否考慮到了未來的一些發展?盡可能不要出現未來的一點變化就導致現在白干或要花大量力氣來改造的現象。
想當年做服務框架的時候,后來就發現由于當年做設計的時候沒有考慮到將來服務調用 trace 的問題,導致了后來為了彌補這點花了巨大的力氣(不是技術上,而是實施上)。
全面需要架構師有足夠廣的技術領域知識和足夠多的經驗積累,從全面這點就可以看到架構師的工作絕不是畫幾個框,連幾根線那么簡單。
對架構師“全面”這點的挑戰,會隨著系統的范圍越大(一個系統的設計,和 100 個系統組成的大系統的設計挑戰是完全不同的)而變得越難。
無論是知識的廣度、考慮的點的覆蓋度、還是未來趨勢,更復雜的情況甚至會出現架構的調整對應著組織結構的調整,這種也要考慮到。
例如服務化這種大的架構改造,就意味著專職的專業領域服務團隊的成立。
全局
全局觀通常是指在系統設計時是否考慮到了對上下游系統的影響。
畢竟通常所設計的系統不是一個孤立的系統,如果沒有足夠好的全局觀,有可能會導致自己的系統做完上線,其他上下游系統(尤其有些連上下游是誰,怎么用都不知道的情況下)出現問題,這種案例同樣不少。
權衡
權衡同樣也是架構師極度重要的能力。或者也可以認為是決策能力,技術方案的拍板是一個架構師最重要的職責。
上面說的“全面”是架構師在思考時“放”的過程,而權衡就是“收”的過程。收的過程結束基本就意味著技術方案的確定,同時也確定了節奏。
權衡在兩點上會體現得特別突出:
技術方案決策原則
通常一個問題都會有多種可解決的技術方案。怎么來決策就至關重要了,而決策通常又和全面相關。
大的來說通常決策的原則就是性價比和可持續發展。性價比簡單來說是方案的實現成本,這個成本要包括非常多的方面。
例如有些場景可能會是用硬件解決看起來是花錢,但最終折算成本是最劃算的,很多系統設計在決策性價比時都過于隨意。
例如一個另外常見的場景就是建設一套新系統替代舊系統,這個時候可能完全沒考慮舊系統的遷移代價甚至超過了改造舊系統的代價。
可持續發展簡單來說就是所選擇的技術方案在公司是否可持續。例如簡單的案例是公司主體的研發人員都是 PHP,卻搞一個其他語言,且只有極少人懂的。
當然,這還是要看性價比,如果搞一個其他語言帶來的效益超過了語言/人才體系的更換成本。又例如引入一個開源產品,有無專業團隊維護這都是要考慮的關鍵因素。
優先級和節奏控制
經常我會問做系統設計的同學一個問題:對于這個業務場景而言,在系統設計上最需要把握的一個點是什么。
這是一個關鍵問題,全面意味著考慮到了很多地方的問題,但通常業務需求實現都是有很強的時間要求的,因此在這個時候必須考慮清楚不同點的優先級。
同時也包括技術方案在決策時也要做出取舍,有可能選了一個不是那么好的技術方案,但通過留下一些可改造的空間,為以后的重構做好鋪墊,那就是很不錯的。
尤其技術同學有些時候比較容易陷入解決技術問題的場景去,但那個問題其實有可能不是現階段最重要的。
優先級和節奏控制是我認為一個最 NB 的架構師的***體現:
優先級意味著把握住了重點,可以確保在所設計的架構指導下業務實現不會出現大問題。
節奏控制則意味著全面,知道隨著業務發展該在什么時間點做什么事,為將來做好鋪墊。
作者:林昊(花名畢玄)
簡介:阿里巴巴技術保障部研究員,曾任淘寶網平臺架構部架構師。個人的研究方向主要為 Java 模塊化、動態化系統的構建,以及高性能大型分布式 Java 系統構建,主導阿里數據中心異地多活項目建設。