前言
談到軟件系統(tǒng)設(shè)計的方法論,在代碼層面,有我們熟悉的23種 設(shè)計模式 (design pattern),對應(yīng)到架構(gòu)層面,則有所謂的 架構(gòu)模式 (architecture pattern)。它們分別從微觀和宏觀的角度指導(dǎo)著我們設(shè)計出良好的軟件系統(tǒng),因此,作為一個軟件工程師,我們不僅要熟悉設(shè)計模式,對常見的架構(gòu)模式也要熟稔于心。正如看到一個設(shè)計模式的名字腦里就能浮現(xiàn)出大致的結(jié)構(gòu)圖,當(dāng)我們看到一個架構(gòu)模式的名字時,也要馬上想到對應(yīng)的架構(gòu)圖及其基本特點。比如,當(dāng)談到分層架構(gòu)時,我們就應(yīng)該想起它的架構(gòu)圖是怎樣的、有哪些出色的架構(gòu)特征(architecture characteristics)、系統(tǒng)是如何部署的、數(shù)據(jù)存儲的策略是哪種、等等。
一般地,架構(gòu)模式大致可以分成兩類, 單體架構(gòu) (monolithic architecture)和 分布式架構(gòu) (distributed architecture)。本系列文章將會介紹以下8種常用的架構(gòu)模式:
單體架構(gòu)
- 分層架構(gòu)(Layered architecture)
- 管道架構(gòu)(Pipeline architecture)
- 微內(nèi)核架構(gòu)(Microkernel architecture)
分布式架構(gòu)
- 基于服務(wù)的架構(gòu)(Service-based architecture)
- 事件驅(qū)動架構(gòu)(Event-driven architecture)
- 基于空間的架構(gòu)(Space-based architecture)
- 面向服務(wù)的架構(gòu)(Service-oriented architecture)
- 微服務(wù)架構(gòu)(Microservices architecture)
軟件設(shè)計中的謬誤
在介紹架構(gòu)模式前,我們先談?wù)勡浖O(shè)計中的 謬誤 (fallacy)。所謂謬誤,就是在設(shè)計軟件系統(tǒng),特別是分布式系統(tǒng)時,我們先入為主地假設(shè)它們是正確,但實際上并非如此的一些觀念。這些觀念都是我們在設(shè)計軟件時考慮不周的體現(xiàn)。
謬誤1:網(wǎng)絡(luò)是可靠的
網(wǎng)絡(luò)是不可靠的
很多軟件工程師常常假設(shè)網(wǎng)絡(luò)是可靠的,但實際并非如此。相比20年前,現(xiàn)在的網(wǎng)絡(luò)會可靠很多,但是仍然具有很大的不確定性。如上圖所述,Serivce B可能完全是正常運行的,但是因為網(wǎng)絡(luò)的問題,Service A發(fā)出的請求無法到達(dá)Service B。一種更糟糕的場景是,Service B可以收到Service A的請求,并處理了相關(guān)的數(shù)據(jù),但是網(wǎng)絡(luò)問題導(dǎo)致了Service A無法收到Service B的響應(yīng),從而造成了 數(shù)據(jù)不一致 。網(wǎng)絡(luò)的不可靠也是為什么系統(tǒng)中常常出現(xiàn)服務(wù)通信超時、服務(wù)熔斷等的原因。
總而言之,如果假設(shè)網(wǎng)絡(luò)是可靠的,那么我們設(shè)計出來的軟件系統(tǒng)將會是不可靠的。
謬誤2:時延是0
時延不為0
如上圖所示,服務(wù)內(nèi)組件間的函數(shù)/方法級別的調(diào)用,耗時是微妙,甚至是納秒級別;但是服務(wù)間的遠(yuǎn)程調(diào)用(比如REST、消息隊列、RPC),耗時會是微秒級別,甚至在異常場景會達(dá)到了秒級!在設(shè)計系統(tǒng),特別是分布式系統(tǒng)時,時延是一個無法被忽視的因素,我們必須清楚系統(tǒng)的平均時延,否則設(shè)計出來的方案可能根本不可行。比如,假設(shè)系統(tǒng)中服務(wù)間通信時延為100ms,如果一個請求的調(diào)用鏈涉及到10個服務(wù),那么該請求的時延將會是1000ms!這么高的平均時延對于一般系統(tǒng)來說是完全無法接受的。
進(jìn)行系統(tǒng)設(shè)計時,考慮平均時延還不夠,更重要的是95th和99th百分點 。一個系統(tǒng)的平均時延可能僅僅只有數(shù)十毫秒,但是95th百分點的時延卻達(dá)到了數(shù)百毫秒,很多時候,這也恰恰成為了拖垮整系統(tǒng)性能的那塊“短板”。
謬誤3:帶寬是無限的
帶寬是有限的
在單體架構(gòu)中,業(yè)務(wù)流程都在單服務(wù)內(nèi)閉環(huán),消耗的帶寬很少甚至為0,因此帶寬并不是主要關(guān)注點。一旦將系統(tǒng)拆分成分布式架構(gòu),一個業(yè)務(wù)流程可能涉及多個服務(wù)間的通信,帶寬就成了必須考慮的因素。 帶寬的不足,會導(dǎo)致網(wǎng)絡(luò)變慢,從而影響系統(tǒng)的時延(謬誤2:時延是0)和可靠性(謬誤1:網(wǎng)絡(luò)是可靠的) 。
如上圖所示,假設(shè)在一個Web系統(tǒng)中,Service A負(fù)責(zé)處理前端請求,Service B負(fù)責(zé)管理用戶信息(包括姓名、性別、年齡等45個屬性)。Service A每處理一個請求都需要向Service B查詢用戶姓名(200 bytes),而在一次請求中,Service B卻返回了用戶的所有信息(500 kb)。如果系統(tǒng)每秒處理2000次請求,每次請求消耗500 kb帶寬,那么每秒消耗的總帶寬會是1 Gb!如果Service B僅僅返回必須的姓名,那么同等條件下,每秒消耗的總帶寬僅僅是400 kb。
此類問題就是所謂的 stamp coupling ,解決方法也很多,比如在請求中添加屬性選擇,使用GraphQL替代REST。 相比于這些技術(shù)手段,更重要的是確定服務(wù)間通信所需的最小數(shù)據(jù)集,并在進(jìn)行系統(tǒng)設(shè)計時將其作為一個重點關(guān)注的因素 。
謬誤4:網(wǎng)絡(luò)是安全的
網(wǎng)絡(luò)是不安全的
VPN、防火墻等的廣泛使用,使得很多工程師在設(shè)計系統(tǒng)時忽略了“ 網(wǎng)絡(luò)是不安全的 ”這一重要原則。特別是從單體架構(gòu)演進(jìn)到分布式架構(gòu)以后,系統(tǒng)被攻擊的概率將會大大增加。 因此,在分布式系統(tǒng)中,每個服務(wù)都必須是安全的endpoint,這樣才能確保任何未知或惡意的請求都被攔截掉 。當(dāng)然,安全是有代價的,這也是像微服務(wù)架構(gòu)這類細(xì)服務(wù)粒度的系統(tǒng),一次業(yè)務(wù)請求中調(diào)用鏈過長后性能極速下降的重要原因。
謬誤5:網(wǎng)絡(luò)拓?fù)湟怀刹蛔?/h3>
網(wǎng)絡(luò)拓?fù)涫菚r常變化的
這里的網(wǎng)絡(luò)拓?fù)渲傅氖窍到y(tǒng)運行時所涉及到的網(wǎng)絡(luò)設(shè)備,包括所有的路由器、防火墻、集線器、交換機等。很多工程師會假設(shè)網(wǎng)絡(luò)拓?fù)涫枪潭ǖ模欢⒎侨绱恕?/p>
假設(shè)如下場景,為架構(gòu)師的你在周一早上回到公司后,發(fā)現(xiàn)組內(nèi)同事都在為系統(tǒng)中所有的服務(wù)間通信都在不斷出現(xiàn)響應(yīng)超時現(xiàn)象而抓狂,但奇怪的是周末并沒有做服務(wù)變更。經(jīng)過幾個小時的攻關(guān)后,你發(fā)現(xiàn)周一凌晨2點時有過一次網(wǎng)絡(luò)升級,而恰恰是這次“次要”的網(wǎng)絡(luò)升級,推翻之前設(shè)計系統(tǒng)時的時延假設(shè),從而觸發(fā)了本次事故。
因此, 軟件工程師也需要與網(wǎng)絡(luò)管理員時常聯(lián)系,確保在每次網(wǎng)絡(luò)升級前都明確網(wǎng)絡(luò)拓?fù)涞淖兏c,從而做出相應(yīng)的調(diào)整 。
謬誤6:只有一個網(wǎng)絡(luò)管理員
網(wǎng)絡(luò)管理員往往不止有一個,特別是在“云”時代,數(shù)據(jù)中心分散在多個地域,理所當(dāng)然也存在著多個局域網(wǎng)。運行在“云”上的系統(tǒng)很有可能跨越多個數(shù)據(jù)中心,因此工程師們應(yīng)當(dāng)感知各個數(shù)據(jù)中心的網(wǎng)絡(luò)管理員對網(wǎng)絡(luò)的相關(guān)操作,提前做出應(yīng)對措施,避免出現(xiàn)因網(wǎng)絡(luò)拓?fù)渥兏ㄖ囌`5:網(wǎng)絡(luò)拓?fù)湟怀刹蛔儯┒鴮?dǎo)致的服務(wù)通信超時,甚至觸發(fā)服務(wù)熔斷。
謬誤7:通信成本為0
通信成本不為0
這里的通信成本并非指網(wǎng)絡(luò)時延,而是指每增加一次服務(wù)間調(diào)用所導(dǎo)致的錢的花銷。很多工程師在設(shè)計系統(tǒng)時常常忽視掉通信成本,大家都在鼓吹分布式架構(gòu)相對了單體架構(gòu)的優(yōu)越性,卻忘記了它帶來的服務(wù)器、防火墻、網(wǎng)關(guān)等硬件的數(shù)量增加,這些都是白花花的銀子。
因此,在進(jìn)行系統(tǒng)設(shè)計時,我們也應(yīng)該將硬件資源和網(wǎng)絡(luò)拓?fù)浼{入考慮因素。
謬誤8:網(wǎng)絡(luò)是同質(zhì)的
網(wǎng)絡(luò)并非同質(zhì)的
很多工程師都會假設(shè)網(wǎng)絡(luò)是同質(zhì)的,也就是所有的網(wǎng)絡(luò)設(shè)備都來自同一硬件廠商,這當(dāng)然也是一個謬誤。實際上, 一個大的通信網(wǎng)絡(luò)中,硬件設(shè)備往往來自于不同的廠商,這得益于網(wǎng)絡(luò)協(xié)議標(biāo)準(zhǔn)的統(tǒng)一 。廠商間設(shè)備的協(xié)作測試畢竟不會太充分,在一些特殊場景下極有可能存在網(wǎng)絡(luò)丟包,從而影響了網(wǎng)絡(luò)的可靠性(謬誤1:網(wǎng)絡(luò)是可靠的)、時延(謬誤2:時延是0)以及帶寬(謬誤3:帶寬是無限的)。
一切從“大泥球”開始
“大泥球”架構(gòu)是著名的反模式架構(gòu),最初在1997年由Brian Foote 和 Joseph Yoder提出。在“大泥球”架構(gòu)里,系統(tǒng)沒有進(jìn)行內(nèi)部的模塊劃分,代碼耦合嚴(yán)重,調(diào)用關(guān)系混亂,就像一個大的泥球。如上圖所示,每一個點代表一個類,紅線則表示類之間的耦合關(guān)系。這樣的架構(gòu)對需求變更極不友好,往往牽一發(fā)而動全身,而且在部署、可測試性、性能等方面也存在著很多問題。所有的架構(gòu)師都在極力避免“大泥球”的出現(xiàn),但很不幸的是,它仍然在實際項目中很常見,特別是項目伊始,代碼質(zhì)量和結(jié)構(gòu)還沒被嚴(yán)格管控起來前。
有反模式的出現(xiàn),必然就有解決它的方法,這便是架構(gòu)模式,從下一篇文章開始,我們將逐個介紹常見的8種架構(gòu)模式。
總結(jié)
跟設(shè)計模式類似,架構(gòu)模式是軟件工程師們多年來在架構(gòu)設(shè)計方面的經(jīng)驗總結(jié)。每種架構(gòu)模式并沒有絕對的優(yōu)劣之分,我們不能說微服務(wù)架構(gòu)就一定比單體分層架構(gòu)優(yōu)越,它們都有著各自的應(yīng)用場景。分布式架構(gòu)比單體架構(gòu)有著更好的可擴(kuò)展性、容錯性,但也帶來了更高的復(fù)雜性,比如分布式事務(wù)。因此,我們應(yīng)該熟知各個架構(gòu)模式的特點,這樣才能在特定的業(yè)務(wù)場景使用合適的架構(gòu)模式。
-
分布式
+關(guān)注
關(guān)注
1文章
895瀏覽量
74498 -
架構(gòu)
+關(guān)注
關(guān)注
1文章
513瀏覽量
25468 -
系統(tǒng)設(shè)計
+關(guān)注
關(guān)注
0文章
154瀏覽量
21603
發(fā)布評論請先 登錄
相關(guān)推薦
評論