作者:羅華
相比Google的SDN流量調(diào)度方案,F(xiàn)acebook的Edge Fabric更具備可學(xué)習(xí)性,通過擴(kuò)展一些組件來采集路由和流量信息,就可以通過使用標(biāo)準(zhǔn)的BGP來實(shí)現(xiàn)自動(dòng)化的流量調(diào)度,對于很多內(nèi)容服務(wù)商來說只是需要添加少量組件就可以實(shí)現(xiàn)。
匯總起來的組件如下:
·?網(wǎng)絡(luò)的BGP架構(gòu); ·?網(wǎng)絡(luò)內(nèi)的流量采集(IPFIX或者sFlow); · BGP路由信息采集:BMP; ·?服務(wù)器端eBPF標(biāo)識流量、被動(dòng)測量性能; ·?整體控制框架。
大多數(shù)互聯(lián)網(wǎng)公司只是缺最后兩個(gè)部分而已。最后一部分豐儉由人,量力而行,都可以實(shí)現(xiàn)。 ?
?
Facebook的用戶數(shù)量超過20億,通過部署在6大洲的幾十個(gè)PoP節(jié)點(diǎn)向最終用戶提供服務(wù),這些PoP節(jié)點(diǎn)通過BGP連接傳統(tǒng)運(yùn)營商,每個(gè)節(jié)點(diǎn)的BGP連接數(shù)量從幾十個(gè)到幾百個(gè)不等。如何向最終用戶提供更好的服務(wù),就需要將流量在這些BGP連接中合理調(diào)度了。
Facebook使用的叫做Edge Fabric的系統(tǒng)來實(shí)現(xiàn)這個(gè)任務(wù),從廣義范疇上來講,這是一套SDN系統(tǒng),但具體對比同樣功效的Google的Espresso,還是可以看出兩者之間的差異是比較大的。簡單說Google的Espresso通過全局的應(yīng)用感知在自研軟件、自研硬件上面來實(shí)現(xiàn)全球流量控制,F(xiàn)acebook則通過整體框架來實(shí)現(xiàn)性能感知的BGP調(diào)度,不僅可以用于自研設(shè)備、同時(shí)還將第三方的商業(yè)路由器納入統(tǒng)一的實(shí)現(xiàn)框架。這對于其他互聯(lián)網(wǎng)公司來講更具參考意義。
Edge Fabric有效的幫助Facebook降低的廣域鏈路的擁塞、丟包,同時(shí)大大提高了這些BGP連接的利用效率、節(jié)省了費(fèi)用。
前? ?言
對比互聯(lián)網(wǎng)的十幾年前,近年來流量有著截然不同的特點(diǎn)。流量越來越多地來自少數(shù)大型內(nèi)容提供商、云提供商和CDN網(wǎng)絡(luò)。目前,僅十個(gè)AS(自治系統(tǒng))就貢獻(xiàn)了互聯(lián)網(wǎng)上70%的流量,而在2007年,需要數(shù)千個(gè)AS才能達(dá)到這個(gè)量級。這種內(nèi)容整合在很大程度上源于視頻、流媒體的崛起,如今,視頻、流媒體構(gòu)成了互聯(lián)網(wǎng)上的主要流量。這種視頻流量既需要高吞吐量,又需要低延遲,在這種情況下,傳輸質(zhì)量會極大影響用戶體驗(yàn)。 ? 為了提供這種高容量、高要求的流量,并改善用戶感知的性能和可用性,這些內(nèi)容服務(wù)商已經(jīng)重塑了他們自己的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。他們在全球部署眾多的PoP節(jié)點(diǎn)和具備有直連到最終用戶的電信運(yùn)營商互聯(lián),為其提供服務(wù)。PoP節(jié)點(diǎn)通常有多個(gè)BGP可用路徑到達(dá)用戶網(wǎng)絡(luò),這使得它可以優(yōu)選最“短”(AS-Path最短,但并非100%最優(yōu))路徑。這種豐富的互聯(lián)性使網(wǎng)絡(luò)運(yùn)營者能夠控制大部分的路徑,總的來說提供了必要的容量。相比之下,傳統(tǒng)的通過大型電信運(yùn)營商層級互聯(lián)的體系架構(gòu)很難提供所需的容量,以滿足流量快速增長的需求。
盡管這種多BGP連接的連通性可能提供性能優(yōu)勢,但服務(wù)商想利用這些優(yōu)勢時(shí)會面臨挑戰(zhàn)。最重要的是,盡管在傳輸?shù)牧髁亢屯負(fù)渖习l(fā)生了巨大的變化,但路由流量的上層控制協(xié)議還是:BGP。BGP自身的本質(zhì)并不適合在扁平的拓?fù)浣Y(jié)構(gòu)上處理大量合并的流量:
BGP無法感知容量:BGP的互連帶寬和路徑的容量都是有限的。在對一個(gè)大型內(nèi)容服務(wù)商網(wǎng)絡(luò)的監(jiān)測表明,通過BGP策略的優(yōu)選路徑,流量無法在這個(gè)路徑中獲得需要的足夠帶寬。內(nèi)容服務(wù)商在做路由決策的時(shí)候應(yīng)該考慮到這些限制,特別是因?yàn)榭赡軙驗(yàn)橛写罅康乃俾首赃m應(yīng)視頻流量而導(dǎo)致?lián)砣?/p>
BGP無法感知性能。
在任何PoP節(jié)點(diǎn),如果按照BGP的缺省最優(yōu)路徑轉(zhuǎn)發(fā)流量,可能會導(dǎo)致性能(性能:端到端的流量性能)不佳。BGP在選擇路徑時(shí)所依賴的屬性:例如AS-Path的長度、MED 等,都不是與性能實(shí)時(shí)強(qiáng)相關(guān)的。
想要讓BGP實(shí)現(xiàn)基于性能感知而替代傳統(tǒng)的選路機(jī)制是具有相當(dāng)?shù)奶魬?zhàn)性。首先,BGP協(xié)議中不包含性能信息,性能感知的決策需要依靠外部機(jī)制來獲得性能數(shù)據(jù);第二,到達(dá)目的地的路徑的性能指標(biāo)可能會隨著時(shí)間的變化而變化(例如,負(fù)載的響應(yīng)),但BGP協(xié)議僅在更改策略或路由發(fā)送變化時(shí)才會改變其優(yōu)選路徑;第三,為了跟蹤性能數(shù)據(jù),內(nèi)容服務(wù)商可能需要準(zhǔn)實(shí)時(shí)的地監(jiān)測多個(gè)非最優(yōu)的可用路徑,但傳統(tǒng)BGP在任何時(shí)間點(diǎn)只能使用一條最優(yōu)路徑到達(dá)目的地;第四,由于BGP對每個(gè)目的地都只使用一條路徑(非內(nèi)網(wǎng)ECMP,特指邊緣出口),它本身不支持將性能敏感的流量和彈性流量分配到不同的路徑上、以便在各自期望的最佳路徑上更好地利用有限的帶寬。 ? 盡管BGP存在上面所述的種種限制,F(xiàn)acebook還是通過Edge Fabric成功的部署到幾十個(gè)PoP節(jié)點(diǎn)的生產(chǎn)網(wǎng)絡(luò)中服務(wù)其20多億的用戶,本文將闡述Edge Fabric如何設(shè)計(jì)構(gòu)建,并提供下面三點(diǎn)貢獻(xiàn):
首先,由于上述BGP限制的影響大小取決于網(wǎng)絡(luò)的設(shè)計(jì)。網(wǎng)絡(luò)連通性和流量特性,使得流行的內(nèi)容服務(wù)商難以管理其出口流量。在Facebook中, PoP點(diǎn)通常有四個(gè)或更多的出口路由到其眾多的客戶網(wǎng)絡(luò)。在實(shí)際的出口監(jiān)測中,F(xiàn)acebook發(fā)現(xiàn)有10%的出口會由于BGP策略的分配問題導(dǎo)致某些地址前綴的流量需求是其出口帶寬的2倍,這導(dǎo)致了這些出口的擁塞,然而其他出口這個(gè)時(shí)候還有剩余可用的帶寬。從PoP節(jié)點(diǎn)到目的地的流量需求可能是很難預(yù)測的,同一目的地前綴的流量在幾周內(nèi)最高值和最低值之間會有多達(dá)170倍的差異。雖然Facebook的豐富的出口連接提供了更短的BGP路徑、更多的路由選擇以及更高的單個(gè)出口帶寬,但單個(gè)路徑的容量限制和變化的流量需求使得這種連接變得很難使用。必須使用動(dòng)態(tài)變化的路由協(xié)議來處理流量,才能在這些限制內(nèi)應(yīng)對實(shí)時(shí)變化的流量實(shí)現(xiàn)優(yōu)化的效率和性能。
其次,F(xiàn)acebook提出了Edge Fabric的設(shè)計(jì),一個(gè)基于出口流量優(yōu)化的路由系統(tǒng)。Edge Fabric從Peer(特指BGP鄰居,F(xiàn)acebook的Peer通常是電信運(yùn)營商)路由器接收BGP路由,監(jiān)控出口方向數(shù)據(jù)的帶寬和流量需求,并決定如何將出口方向流量分配給BGP的出口。Edge Fabric通過向BGP注入路由的方式來影響B(tài)GP的缺省選路過程。2013年開始Edge Fabric就開始了在生產(chǎn)網(wǎng)絡(luò)中的實(shí)際部署。
第三,通過讓Edge Fabric沿著幾條BGP的可選路徑(不只是BGP的最優(yōu)路徑)對每個(gè)目的地前綴進(jìn)行持續(xù)的性能監(jiān)測。Edge Fabric將一小部分流量切換到這幾條備選路徑上來測試、收集這些路徑的性能數(shù)據(jù)。通過對4個(gè)PoP節(jié)點(diǎn)的的測量數(shù)據(jù)顯示:有5%的地址前綴通過選擇非最優(yōu)的BGP路徑,可以看到其延遲平均減少了20毫秒。 ?
設(shè)計(jì)的考量
PoP節(jié)點(diǎn)
為了減少到最終用戶的延遲,F(xiàn)acebook在全球數(shù)十個(gè)地點(diǎn)部署了PoP節(jié)點(diǎn)。PoP節(jié)點(diǎn)的整體架構(gòu)參見圖1:服務(wù)器通過架內(nèi)交換機(jī)RSW和聚合交換機(jī)ASW的BGP連接最終匯聚連接到多個(gè)出口互聯(lián)路由器PR(Peering Router)。 ?
圖1:Facebook PoP節(jié)點(diǎn)架構(gòu)圖 ? 通過分布在全球的多個(gè)地點(diǎn)的PoP節(jié)點(diǎn),可以有效的降低到最終用戶的延遲:1)就近本地的緩存可以直接給最終用戶提供內(nèi)容;2)用戶的TCP連接直接在就近的PoP節(jié)點(diǎn)終結(jié)。
Facebook的更細(xì)一些路由只會由一個(gè)PoP節(jié)點(diǎn)宣告出來,這意味著,去往這個(gè)地址前綴進(jìn)入哪個(gè)PoP節(jié)點(diǎn)數(shù)據(jù)中心是明確的、獨(dú)一無二的。至于如何選擇使用哪一個(gè)PoP節(jié)點(diǎn)取決于通過基于DNS的全球負(fù)載均衡系統(tǒng)(根據(jù)客戶端請求DNS的源地址來回應(yīng)不同的PoP節(jié)點(diǎn)的地址)來實(shí)現(xiàn)的。在PoP節(jié)點(diǎn)之間實(shí)現(xiàn)的負(fù)載均衡系統(tǒng)是通過捕獲鄰居PoP點(diǎn)給用戶提供服務(wù)的性能來監(jiān)控,從而優(yōu)化后續(xù)的決定(選擇最優(yōu)的PoP節(jié)點(diǎn))。PoP節(jié)點(diǎn)的選擇不在本文描述范圍。Edge Fabric實(shí)現(xiàn)的是同一個(gè)PoP節(jié)點(diǎn)內(nèi)部不同的BGP出口之間的流量調(diào)度(前提是流量的進(jìn)、出都是同一個(gè)PoP節(jié)點(diǎn)),這個(gè)和Google的Espresso的調(diào)度范圍有區(qū)別(Espresso可以實(shí)現(xiàn)全球調(diào)度,即流量從一個(gè)PoP節(jié)點(diǎn)進(jìn),另一個(gè)PoP節(jié)點(diǎn)出)。
從路由、流量的角度來分析一下。圖2把Facebook前20個(gè)PoP節(jié)點(diǎn)的流量相對情況展示了出來。其中整體95%的流量來自于大約65000個(gè)地址前綴。參見圖3展示了這20個(gè)PoP節(jié)點(diǎn)各自承載了95%流量的地址前綴的數(shù)量,可以看到很多PoP節(jié)點(diǎn)承載了大部分的流量的地址前綴數(shù)量很少,大多數(shù)都是在幾千條以下,有16個(gè)PoP節(jié)點(diǎn)的地址前綴數(shù)量少于6500條。 ?
圖2:前20個(gè)PoP節(jié)點(diǎn)流量對比 ?
圖3:20個(gè) PoP節(jié)點(diǎn)95%流量來自的地址前綴數(shù)量 ? 進(jìn)一步查看每一個(gè)PoP節(jié)點(diǎn)中貢獻(xiàn)其95%流量的地址前綴條目的組成,參見圖4:大比例都是低于10條路由,所以少量路由的更改就能影響很大的流量變動(dòng)。 ?
圖4:20個(gè)PoP節(jié)點(diǎn)中95%的流量路由占比 ?
AS域間連接
PoP節(jié)點(diǎn)通過PR(Peering Router)來連接其他AS域,這些BGP出口可分為:
1)穿透連接(Transit Providers):通常是電信運(yùn)營商提供給Facebook一個(gè)PNI(私有網(wǎng)絡(luò)連接),可以訪問全球所有網(wǎng)段; 2)對等互聯(lián)(Peers):提供對等連接到運(yùn)營商以及其下聯(lián)的用戶;對等互聯(lián)還可以按照連接當(dāng)時(shí)再分為:
私有對等互聯(lián):通過專用的出口線路進(jìn)行私有網(wǎng)絡(luò)連接;
公有對等互聯(lián):通過公共的互聯(lián)網(wǎng)交換中心互聯(lián)(IXP);
路由服務(wù)器互聯(lián):通過IXP的路由服務(wù)器(非直連方式)接收路由、發(fā)送流量;
通常PoP節(jié)點(diǎn)內(nèi)對同一個(gè)AS域存在多個(gè)BGP連接,例如:既有私有的對等互聯(lián),也有通過IXP的公有對等互聯(lián)。為了避免單點(diǎn)故障,通常PoP節(jié)點(diǎn)會和超過2個(gè)提供穿透服務(wù)的電信運(yùn)營商互聯(lián),每個(gè)運(yùn)營商的BGP連接會分布在2個(gè)或者多個(gè)PR路由器上。雖然PR路由器上連接的出口數(shù)量或者帶寬可能有不同,但盡可能的會讓每個(gè)PR具備有相同的出口帶寬總?cè)萘俊?/p>
在PR上不同類型的出口互聯(lián)中,優(yōu)選對等互聯(lián)出口,然后才是穿透連接出口 (通過BGP的Local Preference屬性控制), AS-Path路徑長度作為隨后的BGP選路的條件。當(dāng)有多條可選路徑時(shí),PR選路的優(yōu)先順序按照BGP路由的來源區(qū)分:私有對等互聯(lián) > 公共對等互聯(lián) >?路由服務(wù)器互聯(lián)。在設(shè)計(jì)中,將出口互聯(lián)的類型通過數(shù)字編碼體現(xiàn)在MED屬性里(抹去對端發(fā)送過來的MED值,設(shè)置成Facebook自己設(shè)計(jì)的值)。對比穿透連接出口和對等互聯(lián)出口,會優(yōu)選對等互聯(lián),因?yàn)橥ㄟ^觀察發(fā)現(xiàn)對等互聯(lián)出口通常在后半程的路徑上更少出現(xiàn)擁塞(提供穿透連接的通常是一個(gè)大型運(yùn)營商,通過其各種外部互聯(lián)再轉(zhuǎn)發(fā)到最終目的地所在的AS域,而對等連接屬于同一個(gè)運(yùn)營商控制的網(wǎng)絡(luò)、通常有更好的內(nèi)部互聯(lián)質(zhì)量)。相對公共對等互聯(lián)(IXP),F(xiàn)acebook更優(yōu)選具備專屬帶寬的私有對等互聯(lián)出口,這樣可以避免了出口交叉擁塞的可能性(IXP的互聯(lián)帶寬是多家互聯(lián)機(jī)構(gòu)共享的)。
PoP點(diǎn)內(nèi)部的PR和ASW之間是啟用了BGP多路徑功能。PR或者ASW會使用ECMP在多路徑上發(fā)送流量。
表1:五個(gè)PoP節(jié)點(diǎn)的各種出口帶寬和流量比例 ? 總的來說,F(xiàn)acebook整網(wǎng)擁有上千個(gè)BGP出口。參見表1顯示了5個(gè)PoP節(jié)點(diǎn)的每種類型的BGP出口所占的比例。表中顯示的每個(gè)PoP都有數(shù)百個(gè)BGP出口,從而具備有豐富多樣的連接性。該表還顯示了每個(gè)PoP節(jié)點(diǎn)按照BGP出口類型區(qū)分的流量比例(假設(shè)所有流量都按照BGP缺省優(yōu)選路徑,不考慮出口實(shí)際容量)。盡管私有對等互聯(lián)的數(shù)量在任何PoP節(jié)點(diǎn)中最多占四分之一(數(shù)量占比12%~25%,歐洲比較特殊,只有2%),但它們接收的流量卻占比極大,除了歐洲PoP-11節(jié)點(diǎn)(歐洲的互聯(lián)中心IXP發(fā)展一直位于全球前列,其自身技術(shù)能力、IXP互聯(lián)能力和質(zhì)量都非常出色,所以IXP成在歐洲互聯(lián)的首選,PoP-11通過IXP互聯(lián)的流量占比45%)。除了PoP-11節(jié)點(diǎn)之外,80%以上的出口流量都到分布在私有對等、公共對等和路由服務(wù)器互聯(lián)出口上,而不是通過穿透連接出口,這也是如今大型內(nèi)容服務(wù)商實(shí)現(xiàn)“扁平化”的一個(gè)例子。然而,BGP出口類型的分布在不同的PoP節(jié)點(diǎn)中因數(shù)量和流量而有很大的不同。 ?
BGP協(xié)議的挑戰(zhàn)
隨著用戶需求的增加和Facebook迅速擴(kuò)展其PoP節(jié)點(diǎn)以及基礎(chǔ)設(shè)施和出口,F(xiàn)acebook遇到了由于BGP自身的限制而帶來的挑戰(zhàn),這促使誕生了Edge Fabric:通過BGP來實(shí)現(xiàn)路由的動(dòng)態(tài)調(diào)整的SDN方案。任何靜態(tài)的域間路由策略都有可能面臨類似的挑戰(zhàn)(也就是說任何運(yùn)行BGP的具有足夠大規(guī)模的服務(wù)商都會面臨這個(gè)痛點(diǎn))。 ? 互聯(lián)出口帶寬是有限的,但BGP無法感知容量 ? 盡管Facebook建立了很多PoP節(jié)點(diǎn),擴(kuò)大了出口容量,并優(yōu)選了私有對等互聯(lián),但一個(gè)出口鏈路的容量不足以容納想要發(fā)送的所有流量。需求的快速增長會迅速導(dǎo)致現(xiàn)有的出口容量不足,在某些情況下,沒法進(jìn)行出口擴(kuò)容或者可能需要幾個(gè)月的時(shí)間。需求的短期激增(可能因?yàn)槟承┦录蛘吖?jié)假日到來)或由于故障導(dǎo)致的出口容量減少,都會導(dǎo)致需求和可用的出口容量之間的波動(dòng)。此外,PoP節(jié)點(diǎn)就近服務(wù)周邊的用戶,因此,就近地區(qū)用戶的作息會導(dǎo)致每天的需求是同步的,按每天都會有同步的峰值,可能在短時(shí)間內(nèi)超過其出口容量。此外,特定的某個(gè)BGP Peer的出口帶寬可能沒有均勻地分布在相應(yīng)的PR路由器上面,然而ASW通過ECMP將均擔(dān)的流量平均的送到這些PR上,也會導(dǎo)致某些PR會有擁塞(ASW對出口帶寬信息不可見,因?yàn)锽GP沒法感知容量)。通常,給出口分配超量的流量會導(dǎo)致?lián)砣舆t和丟包,而且還會因?yàn)閿?shù)據(jù)包重傳導(dǎo)致服務(wù)器的負(fù)荷也增加。
本文描述了如何實(shí)現(xiàn)建立在BGP之上還能感知容量的出口決策系統(tǒng)。為了更好的理解Facebook面臨的問題,通過對2天實(shí)際流量的數(shù)據(jù)(每個(gè)PR出口上的每個(gè)地址前綴流量,按分鐘取均值)進(jìn)行分析。
圖5展示了沒有使用Edge Fabric來進(jìn)行優(yōu)化控制的情況,所有PoP節(jié)點(diǎn)的80%的地址段都經(jīng)歷了擁塞。 ?
圖5:PoP節(jié)點(diǎn)中擁塞的路由的百分比 ? 圖6展示了沒有使用Edge Fabric的情況,分配到出口上的流量和實(shí)際端口帶寬的倍數(shù)關(guān)系。有10%的端口會因?yàn)锽GP策略的問題導(dǎo)致分配到的流量是實(shí)際端口容量的2倍(靠上部的藍(lán)圈),在中線50%的端口會經(jīng)歷分配大約1.19倍的端口帶寬的流量(超量19%,中部的藍(lán)圈)。就是在類似的這些情況下,F(xiàn)acebook發(fā)現(xiàn)自己無法獲得足夠的出口容量,這促使Facebook設(shè)計(jì)了Edge Fabric,以克服BGP無法獨(dú)自處理的這種情況。 ?
圖6:端口分配的流量對比實(shí)際帶寬 ? BGP的選路可能會損害性能 ? Facebook的BGP路由策略傾向于選擇那些有可能優(yōu)化流量性能的路徑。該路由策略在有對等互聯(lián)出口路由的情況下避免中轉(zhuǎn)路由,BGP選路會優(yōu)選更短的AS路徑(通常延遲更低),同時(shí)會優(yōu)先使用具有私有對等互聯(lián)的出口,而不是可能遭遇擁塞的公共對等互聯(lián)出口。然而,BGP本身并不能感知性能,因此這個(gè)策略依賴于一些屬性:比如AS-Path的長度,這些屬性的為后期設(shè)計(jì)的實(shí)現(xiàn)了拋磚引玉的效果。 ?
圖7:BGP最優(yōu)路徑和次優(yōu)、第三路徑的時(shí)延對比 ? 為了理解這個(gè)問題的嚴(yán)重性,我們比較了四個(gè)不同PoP節(jié)點(diǎn)的不同路徑的性能,一個(gè)在北美(PoP-19),一個(gè)是歐洲(PoP-11),兩個(gè)在亞太(PoP-2和PoP-16)。測試中將所有IP地址網(wǎng)段中的一小部分實(shí)際用戶流量遷移到BGP的次優(yōu)和第三優(yōu)選路徑上。在后面是章節(jié)會詳細(xì)的描述如何進(jìn)行這些測量。圖7描述了BGP的首選路徑和非首選路徑之間的流量往返的總體延遲的差異。從圖中可以看出,如果將對從BGP的首選路徑切換到第二首選路徑, 5%的
設(shè)計(jì)目標(biāo)和設(shè)計(jì)決策
互聯(lián)出口帶寬是有限的,但BGP無法感知容量 ? 出口流量調(diào)度的整體設(shè)計(jì)目標(biāo)是為了克服BGP的限制以及使得Facebook能夠使用域間互聯(lián)來優(yōu)化性能:
·?對于給定的有限容量的出口和受擁塞影響的性能,路由決策系統(tǒng)必須能感知容量、鏈路利用率和流量需求及其變化; ·?路由決策系統(tǒng)需要能考量性能信息及其變化,同時(shí)利用BGP的路由策略;
為了完成這個(gè)目標(biāo),F(xiàn)acebook從2013年起開始開發(fā)Edge Fabric系統(tǒng),這是一個(gè)能控制PoP節(jié)點(diǎn)出口流量的流量工程系統(tǒng)。下一章將描述Edge Fabric如何動(dòng)態(tài)的遷移流量避免擁塞。再后面將會描述隨著時(shí)間的推移,由于不斷變化的需求和運(yùn)營經(jīng)驗(yàn),如何提高了Edge Fabric的穩(wěn)定性和對抗擁塞的能力。此外,F(xiàn)acebook還研究了如何使用測量技術(shù)來提高出口路由性能,如何開始將其度量納入路由的決策中去。
對于Edge Fabric的整體設(shè)計(jì),關(guān)于面臨的一些選擇上面進(jìn)行了以下的決策:
基于單個(gè)PoP節(jié)點(diǎn)調(diào)度流量 ? 全局負(fù)載均衡系統(tǒng)將用戶請求映射到某個(gè)特定PoP節(jié)點(diǎn),而Edge Fabric將對于用戶請求的出流量分配到出口路徑上,流量從進(jìn)入的同一個(gè)PoP節(jié)點(diǎn)流出,進(jìn)出流量是對稱的。因此,Edge Fabric只需要在每個(gè)PoP節(jié)點(diǎn)的顆粒度上做操作,它不用協(xié)調(diào)全球出口流量。這種設(shè)計(jì)允許在PoP節(jié)點(diǎn)的組件設(shè)計(jì)中,減少了對遠(yuǎn)端相應(yīng)系統(tǒng)的依賴,降低了決策過程的控制范圍和實(shí)現(xiàn)復(fù)雜性。然后,可以在一個(gè)PoP節(jié)點(diǎn)上單獨(dú)重啟或重新配置Edge Fabric,而不會影響其他PoP節(jié)點(diǎn)。 ? 通過SDN來實(shí)現(xiàn)集中控制 ? 設(shè)計(jì)的最終選擇是一種基于SDN的實(shí)現(xiàn),PoP節(jié)點(diǎn)的集中控制器接收PoP節(jié)點(diǎn)網(wǎng)絡(luò)內(nèi)的相關(guān)狀態(tài),然后再確定形成網(wǎng)絡(luò)路由的決策。這種實(shí)現(xiàn)方法具備了SDN的優(yōu)點(diǎn):與分布式方法相比,它更容易開發(fā)、測試和迭代。因?yàn)镕acebook是通過BGP連接到各種對等互聯(lián)出口,所以PoP節(jié)點(diǎn)接收到的這些BGP路由也成為了網(wǎng)絡(luò)狀態(tài)中的一部分,這些信息會源源不斷的傳入SDN控制器,形成最終的路由決策。 ? 將實(shí)時(shí)流量的性能指標(biāo)納入決策 ? 控制器每分鐘會接收多次容量和需求測量值數(shù)據(jù),使得Edge Fabric在出口不超載的情況下最大化的利用優(yōu)選路徑。Facebook在服務(wù)器端監(jiān)控了客戶流量的性能數(shù)據(jù)。通過在PR路由器上使用備選路徑的路由表(獨(dú)立與主路由表之外的),將隨機(jī)選擇的部分生產(chǎn)流量遷移到備選路徑上,從而增加了并行測量多條不同路徑的能力。這種方法保證了測量方式可以捕獲真實(shí)反映用戶感知的性能指標(biāo)。Edge Fabric可以讓BGP選擇非BGP缺省的最佳路由,這奠定了基于性能感知路由決策系統(tǒng)的基石。 ? 使用BGP同時(shí)進(jìn)行路由和控制 ? 盡管有集中控制器,但缺省情況下每個(gè)PR路由器在本地自行進(jìn)行BGP路由決策和交換路由,只有當(dāng)控制器想要改變某些地址前綴的BGP缺省選路時(shí),才會進(jìn)行干預(yù)。為了更改一個(gè)BGP選路決策,Edge Fabric將備選路由設(shè)置更高的Local_Preference,并通過BGP進(jìn)程宣告給PR路由器,PR基于Local_Preference來選擇更改的優(yōu)選路由。在已經(jīng)建立的BGP路由架構(gòu)之上來構(gòu)建Edge Fabric可以簡化系統(tǒng)的整體部署,即使整個(gè)系統(tǒng)失效也可以讓網(wǎng)絡(luò)回到BGP自行的缺省路由策略,同時(shí)可以利用現(xiàn)有的運(yùn)營團(tuán)隊(duì)以及他們在BGP領(lǐng)域的專業(yè)能力和網(wǎng)絡(luò)監(jiān)控基礎(chǔ)設(shè)施。 ? 有效利用現(xiàn)有商用的軟硬件技術(shù) ? 通過使用經(jīng)歷實(shí)戰(zhàn)考驗(yàn)的商用設(shè)備和行業(yè)標(biāo)準(zhǔn),避免了硬件的定制化和軟件的全新設(shè)計(jì)。Edge Fabric使用了BGP、IPFIX、sFlow、ISIS-SR、eBPF和BMP來實(shí)現(xiàn)整體功能。
總體而言,Edge Fabric的設(shè)計(jì)重視簡單性和與Facebook現(xiàn)有基礎(chǔ)設(shè)施、系統(tǒng)和實(shí)踐的兼容性。它滿足主要目標(biāo) — 避免出口過載擁塞?— 不需要對服務(wù)器或客戶端應(yīng)用程序進(jìn)行任何更改,只在路由器和控制器之間增加BGP進(jìn)程。第二目標(biāo):性能感知路由系統(tǒng)的實(shí)現(xiàn)需要依賴于服務(wù)器上簡單的監(jiān)控軟件改造和在路由器上添加備選路徑路由表,這都是現(xiàn)有設(shè)備具備的基礎(chǔ)功能。 ?
避免邊緣擁塞
Edge Fabric由松耦合的微服務(wù)組成。參見圖8。缺省情況下,Allocator(路由分配器)每30秒從其他服務(wù)組件接收網(wǎng)絡(luò)當(dāng)前的路由(BMP Collector)和流量狀態(tài)(Traffic Collector),預(yù)測計(jì)算出口的利用率,并生成一組更改的路由前綴來進(jìn)行出口流量的路徑遷移,對于每個(gè)地址前綴,通過遷移到次優(yōu)或者第三路徑上去來避免BGP缺省優(yōu)選路徑的擁塞。另一個(gè)服務(wù)進(jìn)程(BGP Injector)通過BGP向路由器注入定制的BGP路由來實(shí)現(xiàn)對BGP缺省路由的更改。30秒的時(shí)間間隔可以使得更容易地分析控制器的行為,但如果需要的話,可以降低30秒這個(gè)間隔,比如:流量的變化周期更短。
圖8:Edge Fabric整體架構(gòu) ?
獲取網(wǎng)絡(luò)狀態(tài)(輸入)
Edge Fabric需要知道從該P(yáng)oP節(jié)點(diǎn)到目的地的所有可用的BGP路由,以及其缺省的優(yōu)選路徑。此外,還需要知道PoP節(jié)點(diǎn)中去往每個(gè)目的地的流量大小和PoP節(jié)點(diǎn)出口端口的帶寬容量。 ? BGP路由信息 ? 1)每個(gè)地址前綴的所有可用路由 ? BGP監(jiān)控協(xié)議BMP(BGP Monitoring Protocol)允許路由器共享其從其他BGP鄰居接收到的所有BGP路由的信息快照(在RIB中的所有BGP路由),并將后續(xù)更新也發(fā)送給訂閱方。BMP Collector(BMP采集器)維護(hù)所有BGP路由器的BMP訂閱,為Edge Fabric提供每個(gè)PR路由器的實(shí)時(shí)RIB視圖。相比之下的另一個(gè)方案:讓Edge Fabric與每臺BGP路由器保持BGP會話,但這種方式只能看到每臺路由器BGP的最佳路徑,其他非優(yōu)選的BGP路由就無法看到了。所在最終選擇了BMP方式。 ? 2)地址前綴的優(yōu)選路由 ? BMP Collector只是搜集路由,并不知道BGP如何選路,即使路由器使用ECMP在多條等價(jià)路徑上分割流量,BGP路由器也只共享一條路徑出來。控制器還需要知道在沒有Edge Fabric改動(dòng)的情況下,BGP優(yōu)選的是哪條路徑。因此,控制器需要自己實(shí)現(xiàn)BGP選路的模擬算法,用來為每個(gè)目的地模擬BGP最佳路徑的選擇計(jì)算(利用BMP收到的多條BGP路徑信息,忽略Edge Fabric的路由改動(dòng))。(當(dāng)然,F(xiàn)acebook在自研FBOSS上的積累可以復(fù)用在這里了。) ? 流量信息 ? 1)每個(gè)地址前綴當(dāng)前的流量 ? Traffic Collector(流量采集器)通過對PoP節(jié)點(diǎn)內(nèi)所有設(shè)備進(jìn)行流量(IPFIX或sFlow,取決于路由器的支持程度)采樣,并根據(jù)BGP的路由網(wǎng)段進(jìn)行的最長匹配來做聚合,最終計(jì)算出來每條BGP路由前綴在兩分鐘內(nèi)的平均流量速率。所有的流量都是實(shí)時(shí)采集的數(shù)據(jù)而不是讀取歷史記錄,因?yàn)槿绻荒茏龅椒昼娂墑e的實(shí)時(shí)性,有可能全球負(fù)載均衡系統(tǒng)已經(jīng)將流量從一個(gè)PoP節(jié)點(diǎn)切換到另一個(gè)去了,那么PoP節(jié)點(diǎn)內(nèi)的流量工程已經(jīng)就沒有意義了,甚至?xí)霈F(xiàn)錯(cuò)誤的預(yù)測計(jì)算。
當(dāng)某個(gè)目的地網(wǎng)段前綴的匯聚速率超過了配置的閾值(例如:250Mbps)時(shí),Edge Fabric系統(tǒng)將該地址網(wǎng)段前綴進(jìn)行細(xì)分拆解(例如:將一個(gè)/20的網(wǎng)段拆分為兩個(gè)/21的網(wǎng)段,這個(gè)過程不會有流量丟失),直到所有目的地網(wǎng)段的匯聚速率低于配置的那個(gè)閾值。對于大網(wǎng)段前綴的拆分可以讓Allocator做出更細(xì)顆粒度的決策,并將由于出口過載而必須進(jìn)行繞道的流量降低到最少。 ? 2)出口端口信息 ? Allocator從集中的網(wǎng)絡(luò)管控平臺(Robotron)中獲得每個(gè)PR路由器上的BGP出口端口列表,并每6秒通過SNMP查詢PR路由器相應(yīng)接口的容量,使Allocator能夠快速響應(yīng)由于故障或配置導(dǎo)致的出口容量變化。 ? 3)預(yù)測的端口利用率 ? Allocator利用前面采集到的路由信息、流量信息來進(jìn)行預(yù)測計(jì)算:按照不進(jìn)行任何路徑改動(dòng)的情況下:BGP路由按照各自的缺省最優(yōu)路徑,目的地前綴的流量疊加在路徑和出口上(對于出現(xiàn)ECMP的情況,按照理論上的流量平均分配來計(jì)算),最終計(jì)算出每個(gè)BGP出口上的利用率。
Edge Fabric使用的是預(yù)測計(jì)算的結(jié)果而非實(shí)際采集的利用率來做決策,這么做的最重要的原因是:保證整個(gè)過程是無狀態(tài)的,不需要依賴Edge Fabric的歷史數(shù)據(jù)和狀態(tài)。無狀態(tài)的實(shí)現(xiàn)帶來最大的好處是極大的簡化了整體設(shè)計(jì):Allocator在一個(gè)計(jì)算周期內(nèi)就能實(shí)現(xiàn)其最優(yōu)決策,完全不用依賴之前的狀態(tài),這對于整體系統(tǒng)的冗余、切換等等都帶來了極大的便捷。在后面的章節(jié)會更細(xì)致的描述為什么選用了無狀態(tài)設(shè)計(jì)。
根據(jù)預(yù)測計(jì)算的出口利用率,如果不進(jìn)行操控改變BGP缺省選路的情況下,Allocator能確定出哪些出口將出現(xiàn)過載。如果端口利用率接近95%,F(xiàn)acebook會認(rèn)為開始過載了,95%的利用率是在處理端口效率和留出的緩沖空間之間做出的平衡。 ?
產(chǎn)生更改(決策)
Allocator根據(jù)會出現(xiàn)的出口過載來進(jìn)行流量的遷移。對于每個(gè)過載的出口,Allocator能識別需要流出到該接口的所有目的地前綴網(wǎng)段、及其相應(yīng)的流量需求、以及每個(gè)前綴可用的其他BGP路徑。然后,Allocator通過 <前綴,備選路由> 列表,按照下面的處理過程來將其從該出口遷移到其他出口上去:
1. 相對IPv6,優(yōu)先選擇IPv4。
2. 優(yōu)選一個(gè)對等互聯(lián)出口,其本身也優(yōu)選Facebook作為它的優(yōu)選備用路徑的。這是通過和對端BGP傳遞的路由中攜帶的Community屬性來識別的,這些屬性值含有Facebook預(yù)定的路徑優(yōu)選信息。
3. 對于給定目的地前綴的備選路徑可能有多條,在這些備選路徑的BGP路由中,優(yōu)選具有最長網(wǎng)段匹配的路由(例如:/22網(wǎng)段優(yōu)先于/21網(wǎng)段)。
4. 優(yōu)選本身就是BGP的最優(yōu)路徑的。參見前面描述的對等互聯(lián)出口會比穿透連接出口更優(yōu)選的整體策略,如果Allocator決定將一個(gè)目的地前綴從現(xiàn)在的公共互聯(lián)出口(IXP)遷移到穿透連接出口上,面臨多個(gè)穿透出口的選擇,如果在某個(gè)穿透連接上的路由本身就是最優(yōu)路徑,那么就優(yōu)選這個(gè)出口。
5. 剩下的選路原則沿用BGP標(biāo)準(zhǔn)的策略,如果存在多條備選路徑,那么Allocator會使用前后一致的方式進(jìn)行排序,這樣會增加流量的均衡性。 ? 當(dāng)一對 <前綴,備選路由> 被選中以后,Allocator會記錄這個(gè)決定然后更新整個(gè)流量預(yù)測:將這個(gè)地址段的流量從之前的路徑、出口遷移到新的路徑、出口上。當(dāng)然,前面提及的超過設(shè)置的流量(例如:250Mbps)值會將地址網(wǎng)段進(jìn)行拆分。
Allocator會繼續(xù)選擇地址前綴網(wǎng)段來進(jìn)行以上操作,直到出口不會再有過載的情況,或者是所有前綴網(wǎng)段的BGP路由都沒有可用的次優(yōu)路由存在。
因?yàn)檎麄€(gè)處理過程是無狀態(tài)的,不需要參考之前的狀態(tài),系統(tǒng)每30秒將接收到的信息(路由和流量)進(jìn)行一次計(jì)算,做出新的流量切換決策。為了減少對流量的攪動(dòng),F(xiàn)acebook設(shè)計(jì)了一套優(yōu)選機(jī)制,使用一致的考量順序來綜合端口、地址前綴、繞道的路徑等因素,這種一致的考量使得Allocator在前后的計(jì)算中會盡量得出相同的計(jì)算結(jié)果。其他的流量操控行為常常是因?yàn)榱髁克俾屎涂捎寐酚傻淖兓鴮?dǎo)致的。
對于某些持續(xù)增長的流量,出口剩余的可用帶寬(大約5%)空間可以留作Allocator在兩次計(jì)算間隔內(nèi)的緩沖,用以預(yù)防Allocator還沒來的急操作出口就開始擁塞了的情況。如果流量切換到次優(yōu)路徑,但其BGP路由被撤銷了,那么控制器也會撤銷、停用這條次優(yōu)路由,避免流量黑洞。 ?
使用Allocator控制(輸出)
在每一輪計(jì)算操控中,Allocator生成一組新的BGP路由更新來覆蓋原有的BGP缺省選路,實(shí)現(xiàn)的方式是給每個(gè)BGP更新的路由分配一個(gè)足夠高的Local_Preference。Allocator將BGP更新的路由信息傳遞給BGP Injector服務(wù),該注入服務(wù)與PoP節(jié)點(diǎn)中的每一臺PR路由器建立了BGP連接,并通過向目標(biāo)PR路由器宣告BGP更新路由來實(shí)現(xiàn)對原有BGP缺省選路決策的更改。由于注入的BGP更新路由具有更高的Local_Preference(在標(biāo)準(zhǔn)的BGP選路判斷中,對可用路由來說這是最高優(yōu)先級)值,并且通過iBGP在PR和AWS之間傳播,所以PoP節(jié)點(diǎn)網(wǎng)絡(luò)內(nèi)的所有路由器會優(yōu)選這個(gè)注入的BGP路由。BGP Injector會同時(shí)撤銷當(dāng)前失效的更改路由(上一輪的注入路由,本輪計(jì)算后失效了)。
從全局角度來看,雖然Edge Fabric和全局負(fù)載均衡系統(tǒng)有各自的獨(dú)立決策流程,但兩者的處理結(jié)果需要協(xié)調(diào)一致、而不能相互沖突。首先,我們需要防止Edge Fabric決策和全局負(fù)載均衡系統(tǒng)的決策以會導(dǎo)致振蕩的方式相互影響。在選擇用哪一個(gè)PoP節(jié)點(diǎn)來響應(yīng)用戶的請求時(shí),全球負(fù)載均衡系統(tǒng)會根據(jù)PoP節(jié)點(diǎn)的性能、Facebook的整體BGP策略,通過可配的設(shè)置,在這個(gè)時(shí)候的決策不會參考Edge Fabric更改以后的BGP路由。考量另一個(gè)可能性,如果全球負(fù)載均衡系統(tǒng)也同時(shí)參考BGP Injector產(chǎn)生的更改以后的路由,那么在全局的第一級導(dǎo)流決策中,這個(gè)最終用戶的流量會被分配到其他PoP節(jié)點(diǎn)去,那么之前那個(gè)PoP節(jié)點(diǎn)的預(yù)測計(jì)算就會發(fā)生錯(cuò)誤,流量已經(jīng)不存在了,那么預(yù)測的出口擁塞也不準(zhǔn)確了,這更容易讓Edge Fabric和全局負(fù)載均衡系統(tǒng)之間發(fā)生振蕩。其次,全局負(fù)載均衡系統(tǒng)從全網(wǎng)的角度來監(jiān)控用戶網(wǎng)段流量和出口端口的利用率,這方便在全局PoP節(jié)點(diǎn)之間來流量調(diào)度。所以Edge Fabric就能夠?qū)W⒂赑oP節(jié)點(diǎn)內(nèi)的所有出口過載情況,再進(jìn)行流量操控避免擁塞。 ?
部署、測試、監(jiān)控
Edge Fabric軟件的迭代、部署通常每周都會進(jìn)行,在這個(gè)過程中使用多級發(fā)布流程來降低整體風(fēng)險(xiǎn)。首先,因?yàn)檎麄€(gè)設(shè)計(jì)是模塊化和無狀態(tài)的,所以在測試方面,可以為Edge Fabric和其依賴的每個(gè)獨(dú)立組件進(jìn)行全面和完整的自動(dòng)化測試。其次,由于控制器是無狀態(tài)的,同時(shí)使用的是預(yù)測計(jì)算而非實(shí)際利用率,這樣被測試的“影子”控制器可以運(yùn)行在沙箱里,通過測試環(huán)境獲取的網(wǎng)絡(luò)狀態(tài)信息和生產(chǎn)網(wǎng)絡(luò)里面控制器獲取的信息是一樣的,按照這種方式來進(jìn)行測試,不需要去獲取生產(chǎn)網(wǎng)絡(luò)在線控制器的狀態(tài),也不需要獲得之前控制器的決策狀態(tài),使得測試更加易于實(shí)現(xiàn)。不斷的從版本庫中創(chuàng)建最新版本的影子控制器實(shí)例,在測試環(huán)境中運(yùn)行、預(yù)測判斷,再與生產(chǎn)網(wǎng)絡(luò)中運(yùn)行的控制器的決策結(jié)果去做對比,在這個(gè)過程中不斷的優(yōu)化、解決問題。在部署新版本之前,需要仔細(xì)評估對比這些測試結(jié)果。第三,由于Facebook是按照PoP節(jié)點(diǎn)為單位來部署Edge Fabric和其依賴組件,對于新版本的部署可以實(shí)現(xiàn)逐個(gè)PoP節(jié)點(diǎn)部署的灰度上線方式,當(dāng)然灰度部署也是基于自動(dòng)化實(shí)現(xiàn)的。當(dāng)Edge Fabric控制器更新版本后,BGP Injector繼續(xù)執(zhí)行上一輪的命令(發(fā)送BGP更新路由),直到收到新的控制器產(chǎn)生的指令(通常在5分鐘以內(nèi))。如果需要更新BGP Injector服務(wù),PR路由器會保持現(xiàn)有注入的路由直到新的BGP Injtector服務(wù)重啟完成(這是得益于BGP GR,Graceful Restart)。
雖然無狀態(tài)控制器易于進(jìn)行自動(dòng)化測試,但它也特別容易受到BGP路由或流量速率數(shù)據(jù)錯(cuò)誤的影響,這些數(shù)據(jù)是控制器進(jìn)行預(yù)測計(jì)算的基礎(chǔ),其準(zhǔn)確度會直接導(dǎo)致預(yù)測的出口利用率不正確。為了追蹤這種錯(cuò)誤的預(yù)測,F(xiàn)acebook使用監(jiān)控系統(tǒng)來對比預(yù)測計(jì)算的結(jié)果和出口實(shí)際的利用率,在配置的時(shí)間間隔內(nèi)出現(xiàn)超過5%的偏差會觸發(fā)告警。通過這個(gè)流程,可以捕捉、識別、糾正可能存在的路由策略中的Bug以及PR路由器通過IPFIX和sFlow導(dǎo)出采集流量中的問題。控制器的預(yù)測計(jì)算是將流量均分到所有的ECMP路徑上。同樣,監(jiān)控系統(tǒng)可以監(jiān)控到由于ECMP實(shí)現(xiàn)不完美導(dǎo)致的流量不均衡的情況,這個(gè)時(shí)候可以通過Edge Fabric注入路由使用單個(gè)PR出口路由器來避免ECMP多路徑不均衡的情況。
整個(gè)Edge Fabric是建立在分布式BGP路由決策系統(tǒng)之上的,也就是說,每個(gè)路由器還是獨(dú)立進(jìn)行選路判斷,這有利于復(fù)用現(xiàn)有的整體網(wǎng)絡(luò)架構(gòu),但BGP本身的復(fù)雜性也可能造成運(yùn)維中的故障。例如在某個(gè)場景中,由于配置錯(cuò)誤導(dǎo)致Edge Fabric注入的路由沒有被PoP節(jié)點(diǎn)內(nèi)所有的路由器收到,這造成了導(dǎo)致之前出口過載的流量被遷移到另一個(gè)并非預(yù)期的出口上,結(jié)果導(dǎo)致那個(gè)出口出現(xiàn)了擁塞。為了檢測這種錯(cuò)誤配置,F(xiàn)acebook構(gòu)建了一個(gè)審計(jì)系統(tǒng),定期比較Edge Fabric的輸出結(jié)果與當(dāng)前的網(wǎng)絡(luò)狀態(tài)和流量模式。 ?
BGP邁向性能感知
Edge Fabric能夠避免由于網(wǎng)絡(luò)邊緣的鏈路擁塞而導(dǎo)致的性能問題。然而,由于BGP本身選路機(jī)制的限制,F(xiàn)acebook最終用戶的性能任然可能不是處于最優(yōu)的狀態(tài)。想讓BGP選路一直走在最優(yōu)的性能路徑上是頗為困難的事情:缺省的選路未必是最優(yōu)性能的路徑,選擇的次優(yōu)路徑也不一定是,即使在所有情況下都是最優(yōu)的,但遷移路徑的時(shí)候還是可能出現(xiàn)性能降低甚至比不上之前的缺省選擇。
此外,雖然Facebook直接連接到了許多邊緣網(wǎng)絡(luò)(類似其他大型內(nèi)容服務(wù)商一樣,前面描述的互聯(lián)網(wǎng)“扁平化”),但其他邊緣網(wǎng)絡(luò)(Facebook通過IXP或穿透連接)的性能可能會受到其下游網(wǎng)絡(luò)擁塞的影響,這是Edge Fabric無法進(jìn)行優(yōu)化處理的。即使Facebook直連邊緣網(wǎng)絡(luò)的情況下,其下游網(wǎng)絡(luò)的擁塞仍然會導(dǎo)致端到端的性能降低。由于瞬態(tài)故障和流量波動(dòng),每條路徑的最優(yōu)性能可能會隨著時(shí)間的變化而變化,因此基于性能的決策需要對變化做出及時(shí)的響應(yīng)。但BGP既不能提供性能的可見性,也不能提供基于性能的顯式?jīng)Q策能力。
為了使路由決策能夠結(jié)合性能指標(biāo),需要并行地、連續(xù)地測量到達(dá)目的地的多條可用路徑。此外,為了使Edge Fabric能夠最好地利用可用出口帶寬,需要能夠?qū)μ囟愋偷牧髁窟M(jìn)行優(yōu)先級排序(例如:預(yù)測出口會出現(xiàn)過載時(shí),對實(shí)時(shí)視頻流優(yōu)先級排序),但由于BGP只支持基于目的地的路由,僅靠BGP無法實(shí)現(xiàn)上述目標(biāo)。
下面的小節(jié)描述了如何將特定的流量導(dǎo)向特定的路徑,然后在下一個(gè)小節(jié)描述了如何能監(jiān)測到同一個(gè)目的地前綴的多個(gè)可用BGP路徑的各自的性能。這兩種機(jī)制已經(jīng)應(yīng)用到Edge Fabric的生產(chǎn)網(wǎng)絡(luò)中。本章的最后一小節(jié)討論未來的用例,這些用例將測量特定引導(dǎo)的流量,以來啟用能感知性能的路由系統(tǒng)。 ?
將流量遷移到備選路徑
為了克服BGP只能支持基于目的地的路由的限制,通過建立一種機(jī)制來優(yōu)化:允許為特定的流量選擇其流經(jīng)的路徑。該機(jī)制只需要在:1)服務(wù)器上做軟件上的小改動(dòng);2)PR路由器上進(jìn)行小量的配置修改即可;并且不需要服務(wù)器和其他網(wǎng)絡(luò)設(shè)備互動(dòng)(包括PR):服務(wù)器可以在不知道PR路由器的網(wǎng)絡(luò)狀態(tài)的情況下,為每個(gè)流量做出其決策。
·?服務(wù)器選擇并標(biāo)記需要特殊處理的流量。具體來說,服務(wù)器將所選流量的IP報(bào)文中的DSCP字段設(shè)置為一個(gè)預(yù)定義的值。不同的DSCP值代表最終會選擇不同的出口、路徑,例如:缺省BGP優(yōu)選、次優(yōu)路徑、第三選擇路徑等。在實(shí)際應(yīng)用中,服務(wù)器可以將一個(gè)數(shù)據(jù)流基于其最終目的標(biāo)記為不同的DSCP值,比如:用于測量備選路徑的性能;或者將該流量引導(dǎo)到需要實(shí)時(shí)、性能敏感的路徑上去。
· PR路由器上的路由策略。PR路由器按照預(yù)先設(shè)定好的DSCP值,將不同的DSCP值的流量導(dǎo)入不同的路由表進(jìn)行轉(zhuǎn)發(fā)(路由器上有主路由表,同時(shí)PR上面創(chuàng)建了很多不同的路由表,里面搭配不同的BGP路徑,用此來實(shí)現(xiàn)不同的路徑優(yōu)選)。為每個(gè)DSCP值的流量配備一個(gè)單獨(dú)的路由表(每個(gè)路由表中同一目的地的BGP優(yōu)選路由會不一樣,從而實(shí)現(xiàn)選擇不同的出口)。
·?控制器注入路由。控制器將路由注入到PR路由器的備選路徑路由表中,用以控制流量的出口選擇。如果控制器沒有為特定的目的地注入路由,則該流量將根據(jù)PR的主路由表進(jìn)行路由,就是BGP的缺省優(yōu)選路徑。 ? 這種實(shí)現(xiàn)方法不需要在服務(wù)器、路由器和控制器之間持續(xù)同步狀態(tài)。服務(wù)器在為其流量設(shè)置DSCP標(biāo)記值的時(shí)候可以完全不知道網(wǎng)絡(luò)設(shè)備的狀態(tài),控制器也可以根據(jù)需要將路由注入到備選路由表中來控制相應(yīng)DSCP標(biāo)記報(bào)文的路徑。
此外,PoP節(jié)點(diǎn)內(nèi)ASW層不需要知道分配給流量的DSCP值的含義,它只是根據(jù)BGP的缺省優(yōu)選路徑轉(zhuǎn)發(fā)IP流量。在這種情況下,流量不一定會發(fā)送到正確的PR上去,因?yàn)榭刂破饔?jì)算出來的出口可能位于某個(gè)PR,但ASW卻基于缺省最優(yōu)路徑將流量發(fā)送給了另一個(gè)PR。對于這種情況,控制器會在缺少對應(yīng)出口的PR路由器上注入BGP備選路由,并將該路由的下一跳設(shè)置為正確的PR路由器。這個(gè)時(shí)候,流量將從一個(gè)PR路由器轉(zhuǎn)發(fā)到另一個(gè)PR路由器,這通常會引起路由環(huán),因?yàn)锳SW只是根據(jù)BGP的最優(yōu)目的地路由來轉(zhuǎn)發(fā)流量。為了避免這種情況,將PR之間使用IS-IS SR來實(shí)現(xiàn)流量的遷移,而遷移路徑中間的ASW是基于SR的MPLS標(biāo)簽進(jìn)行轉(zhuǎn)發(fā)的,IP信息對它不可見,所以可以避免路由環(huán)。 ?
監(jiān)測備選路徑的性能
最終用戶的TCP連接終結(jié)在PoP節(jié)點(diǎn)內(nèi)的前端服務(wù)器上,前端服務(wù)器將HTTP請求代理到后端服務(wù)器。通過上面描述的機(jī)制來隨機(jī)的選擇一些流量,并通過次優(yōu)路徑來轉(zhuǎn)發(fā)。這使得Facebook可以通過現(xiàn)有的基礎(chǔ)設(shè)施收集測量實(shí)際流量的數(shù)據(jù)指標(biāo),記錄前端服務(wù)器觀察到的客戶端連接的性能。 ?
隨機(jī)選擇的用戶流量
? 通過一個(gè)部署在前端服務(wù)器上運(yùn)行的程序,可以隨機(jī)選擇數(shù)據(jù)流,并標(biāo)記讓其沿著次優(yōu)路徑轉(zhuǎn)發(fā),這個(gè)程序的核心組件是使用eBPF(Extended Berkeley Packet Filter)。eBPF允許將其加載到內(nèi)核中,以便有效地處理、記錄從服務(wù)器發(fā)出的所有數(shù)據(jù)包。使用這種方式,不需要對現(xiàn)有的客戶端或服務(wù)器端的應(yīng)用程序進(jìn)行任何更改。 ? 通過設(shè)置預(yù)定義的DSCP值,eBPF程序隨機(jī)選擇部分?jǐn)?shù)據(jù)流(比例可配置)引導(dǎo)到次優(yōu)路徑上進(jìn)行路徑性能監(jiān)測。這個(gè)eBPF程序的配置可以動(dòng)態(tài)更改,包含最重要的參數(shù)是:多少百分比的流量需要標(biāo)記成哪個(gè)DSCP值。例如,要測量每個(gè)地址前綴的兩條備選路徑,配置可以將數(shù)據(jù)流的0.75%分配為DSCP值12,將數(shù)據(jù)流的0.25%分配為DSCP值24,流量到達(dá)PR路由器,會因?yàn)镈SCP的12、24而分配不同的出口。考慮到Facebook的體量,這一小部分比例的仍然會產(chǎn)生大量的測量結(jié)果。
這是方式稱作被動(dòng)監(jiān)測。設(shè)計(jì)之初在主動(dòng)監(jiān)測(主動(dòng)Ping或者各種TCP進(jìn)程的模擬)和被動(dòng)監(jiān)測之間的選擇上,F(xiàn)acebook選擇了被動(dòng)監(jiān)測,因?yàn)橹鲃?dòng)測量不能代表真實(shí)用戶感知到的性能,這當(dāng)中會有很大的偏差,而Facebook的eBPF的實(shí)現(xiàn)方式完全獲得了最終用戶最準(zhǔn)確的各種性能數(shù)據(jù)。 ? 注入路由 ? Edge Fabric使用了AltPath Controller(備選路徑控制器)來將路由注入到專門的備選路由表。控制器生成備選路徑的時(shí)候只是考量過去10分鐘內(nèi)流量信息,這種實(shí)現(xiàn)大大減少了備選路由表的大小。
每隔30秒,AltPath Controller使用從BMP Collector服務(wù)進(jìn)程獲取的BGP路由信息來決定為每個(gè)目的地前綴選擇的備選路徑,然后服務(wù)器為相應(yīng)的流量標(biāo)記相應(yīng)的DSCP值。然后控制器使用BGP Injector將每個(gè)DSCP值對于的BGP備選路由注入到相應(yīng)的PR路由器的備選路由表中。
AltPath Controller還可以對一些目的地AS號進(jìn)行屏蔽備選路徑測量的功能,簡單輸入一組目標(biāo)AS號即可。流量工程團(tuán)隊(duì)根據(jù)之前的實(shí)操經(jīng)驗(yàn)將一些可能會引起極差用戶體驗(yàn)的備選路徑的AS號添加進(jìn)去,避免選中了這些備選路徑降低了最終用戶的性能。 ?
監(jiān)測性能
當(dāng)客戶端TCP連接終結(jié)時(shí),前端服務(wù)器會將該路徑的性能評測指標(biāo)記錄下來。這些服務(wù)器使用一個(gè)單獨(dú)的eBPF來捕捉需要采用的TCP連接,通常典型的采樣比為1:1000。采集的性能數(shù)據(jù)包括:重傳速率、RTO(Retransmission Timeout重傳超時(shí)時(shí)間)、SRTT(Smoothed Round-Trip Times平滑往返時(shí)間)和發(fā)送/接收的數(shù)據(jù)包分段數(shù)量。此外,服務(wù)器還對HTTP事務(wù)進(jìn)程進(jìn)行采樣,并對每個(gè)響應(yīng)的客戶請求的下載吞吐量也進(jìn)行測量。服務(wù)器也會記錄eBPF程序分配給相應(yīng)數(shù)據(jù)流的DSCP值。采集器將樣本與出口路由信息關(guān)聯(lián)起來,這樣分散的采樣樣本可以按照出口路由網(wǎng)段來匯聚,最后疊加計(jì)算出按照每條路由這個(gè)顆粒度的匯聚流量信息。 ?
性能感知路由的未來用例
前面兩個(gè)小節(jié)描述的機(jī)制使得可以將流量遷移到備選路徑上去,同時(shí)也能測量備選路徑的性能。 ?
使用BGP來更改路徑
如今,Edge Fabric改變了BGP的缺省選路過程,以緩解Facebook網(wǎng)絡(luò)邊緣的擁塞。展望未來,可以通過合并AltPath的測量來優(yōu)化Edge Fabric。首先,Edge Fabric可以使用這些測量數(shù)據(jù)來確定在哪些情況下,即使出口沒有擁塞,也可以通過改寫B(tài)GP的缺省選路來提高性能。在當(dāng)前路徑的性能下降時(shí),AltPath測量可以確定是否可以通過更改路徑來規(guī)避這種問題,或者性能問題存在于所有可選路徑上(前面提及的用戶側(cè)網(wǎng)絡(luò)/下游網(wǎng)絡(luò)的擁塞導(dǎo)致問題不可避免)。其次,Edge Fabric可以測量備選路徑,以確保在出現(xiàn)擁塞時(shí),將流量切換到性能最佳的備選路徑上。最后,備選路徑測量可以幫助運(yùn)維團(tuán)隊(duì)識別繞道流量的性能影響,這可以為網(wǎng)絡(luò)規(guī)劃團(tuán)隊(duì)做決策時(shí)提供數(shù)據(jù)。 ?
優(yōu)化有限的出口容量
當(dāng)出口帶寬容量有限時(shí),Edge Fabric可能被迫將流量切換到性能相對較差一些的路徑上。Edge Fabric可以通過將一些不太可能受到影響的流量切換到其他備選路徑上,以便更好地利用主路徑上的有限容量。首先,Edge Fabric可以修改其選路決策標(biāo)準(zhǔn),以更傾向于遷移在備選路徑上性能幾乎不會下降的地址前綴的流量。其次,更高優(yōu)先級的流量可以通過受約束的路徑路由來調(diào)整。前端服務(wù)器可以為優(yōu)先級較高的流量(比如實(shí)時(shí)視頻流)設(shè)置預(yù)定義的DSCP值。然后,當(dāng)Edge Fabric通過注入路由將流量從過載的接口上遷移出去時(shí),它同時(shí)將更改的路由注入到PR的備選路由表中,可以使DSCP優(yōu)先級高的流量在性能更好的路徑上傳送。Traffic Collector收集的IPFIX和sFlow采樣都包含有DSCP字段,因此Edge Fabric可以確定相應(yīng)DSCP值的流量速率,并在每一輪的預(yù)測中對此進(jìn)行計(jì)算。 ?
實(shí)際運(yùn)行效果
部署狀態(tài)和評估數(shù)據(jù)集
Edge Fabric部署在全球的生產(chǎn)網(wǎng)絡(luò)中,在所有的PoP節(jié)點(diǎn)中通過備選路徑來避免出口擁塞。下一小節(jié)描述了對2017年1月的其中兩天的數(shù)據(jù)進(jìn)行的研究,當(dāng)時(shí)并沒有使用無狀態(tài)的控制器。這個(gè)研究使用了早期的有狀態(tài)的控制器,該控制器沒有使用自動(dòng)分割大流量地址前綴的功能。雖然沒有進(jìn)行正式的評估,但Facebook相信其無狀態(tài)控制器比有狀態(tài)控制器獲得了更好的出口利用率。
現(xiàn)在在PoP節(jié)點(diǎn)中部署了AltPath,在“性能感知評估”小節(jié)展示的效果是從2016年最先開始部署的4個(gè)PoP節(jié)點(diǎn),在一定程度上選擇這4個(gè)PoP節(jié)點(diǎn)是因?yàn)樗鼈冇胸S富的出口連接:一個(gè)在北美(PoP-19),一個(gè)在歐洲(PoP-11),和兩個(gè)在亞太地區(qū)(PoP-2和PoP-16)。這4個(gè)PoP節(jié)點(diǎn)加起來的流量約占20個(gè)PoP節(jié)點(diǎn)總量的18%。當(dāng)前,沒有使用AltPath自動(dòng)測量來通知生產(chǎn)網(wǎng)絡(luò)并形成路由決策,但是后面會介紹將其集成到路由決策中的影響和挑戰(zhàn)的試驗(yàn)結(jié)果。
在每個(gè)路由器上創(chuàng)建了兩個(gè)備選路由表(缺省主路由表之外的),將所有路由前綴的BGP的次優(yōu)和BGP第三優(yōu)選路徑分別放置到兩個(gè)創(chuàng)建的路由表中。在2016年的測量實(shí)現(xiàn)中還沒有使用基于DSCP的方法,而是根據(jù)流量的目的端口將流量分配給對應(yīng)的路由表。對于每個(gè)備選路由表,生成了一組獨(dú)有與之對應(yīng)的端口,它們大約匹配總流量的0.5%,然后在PR上配置規(guī)則,將匹配這些端口的流量遷移到其中的一個(gè)路由表中,再做選路。為了增加備選路徑的測量次數(shù),當(dāng)數(shù)據(jù)連接命中AltPath的端口集時(shí)就對現(xiàn)有的測量采樣比擴(kuò)大100。通過這個(gè)方式,每個(gè)備選路徑接收到的0.5%的流量,會檢測其在主路徑的大約50%的流量。 ?
評估容量感知路由的效果
Edge Fabric是否實(shí)現(xiàn)了它的主要目標(biāo),即在實(shí)現(xiàn)提高出口利用率的同時(shí)避免出口擁塞?Edge Fabric通過使備選路徑來防止擁塞。在研究過程中,有空閑帶寬的備選路徑始終存在,這為Edge Fabric實(shí)現(xiàn)避免過載提供了可能性。尤其是,提供穿透連接的運(yùn)營商可以將流量送到任何目的地,在研究期間,任何單個(gè)PoP節(jié)點(diǎn)(每分鐘采樣)觀察到的最大瞬時(shí)利用率是55%。Edge Fabric成功地防止了出口流量過載,當(dāng)Edge Fabric選用優(yōu)選路徑時(shí),出口上沒有丟包,且使用備選路徑的99.9%的時(shí)間內(nèi)也沒有丟包。
Edge Fabric遷移了多少流量到備選路徑上?圖9顯示了Edge Fabric從每個(gè)出口啟用遷移的時(shí)間分布。在評估期間,Edge Fabric至少在18%的端口上啟用過一次備選路徑流量切換,并且在一半的時(shí)間內(nèi),至少5%的出口進(jìn)行過流量遷移(圖中藍(lán)色圓圈)。 ?
圖9:Edge Fabric切換流量的時(shí)長和間隔 ? 圖10顯示了每個(gè)流量遷移的持續(xù)的時(shí)間,以及給定(PoP,目的地前綴)的兩次遷移之間的間隔時(shí)間。平均流量遷移的時(shí)間為22分鐘,10%的遷移時(shí)間持續(xù)了超過6小時(shí)。有趣的是,流量遷移中位數(shù)的時(shí)間更短 — 只有14分鐘 — 但尾部更長,36%的流量遷移中有超過3小時(shí)的間隔,相當(dāng)大一部分的間隔足夠長,這表明流量遷移發(fā)生在一個(gè)較短的每天的高峰期內(nèi)。 ?
圖10:Edge Fabric遷移的流量占比 ? 圖11顯示了在一周的時(shí)間內(nèi),20個(gè)PoP節(jié)點(diǎn)進(jìn)行遷移的流量所占的比例(紅色曲線),以及其中一個(gè)遷移流量占比最高的PoP節(jié)點(diǎn)(在這20個(gè)PoP中)的遷移流量所占的比例(藍(lán)色曲線)。全局和PoP節(jié)點(diǎn)流量遷移的模式顯示了每天流量變化的規(guī)律,遷移流量的占比只是總流量的一小部分,正如前面提及的PoP節(jié)點(diǎn)通常具備45%(瞬時(shí)最大55%的利用率)的富裕帶寬,這些閑置的容量足以吸收遷移的流量。Edge Fabric使得PoP節(jié)點(diǎn)能夠利用節(jié)點(diǎn)內(nèi)的其他可用出口的閑置的帶寬,動(dòng)態(tài)地從過載端口遷移流量,否則那些端口會變得異常擁塞。 ?
圖11:一周的每天進(jìn)行流量遷移的比例 ?
評估性能感知的路由的效果
本節(jié)將研究相同目的地前綴的不同路徑之間的性能差異,以及系統(tǒng)是否可以使用這些信息來選擇優(yōu)于BGP缺省優(yōu)選路徑的其他備選路徑。通過在4個(gè)部署了備選路徑測量系統(tǒng)的PoP節(jié)點(diǎn),監(jiān)測了7天的生產(chǎn)網(wǎng)絡(luò)流量,包括測量了:每個(gè)目的地前綴的備選路徑,一共有超過3.5億條備選路徑、終點(diǎn)到2萬個(gè)AS域,平均每個(gè) <備用路徑,目的地前綴> 進(jìn)行了8000次測量。
通過測量備選路徑做出更好的決策對性能有多大影響?使用這些測量的數(shù)據(jù)來改寫PoP-2節(jié)點(diǎn)上用戶實(shí)際生產(chǎn)流量的優(yōu)選路徑,AltPath識別出400個(gè)目的地前綴,并測量出這些目的地前綴的備選路徑的中位數(shù)時(shí)延至少比缺省情況要快20毫秒(丟包率沒有增加)。Edge Fabric獲得了這些信息,并在PoP節(jié)點(diǎn)上通過注入路由改變?nèi)笔〉膬?yōu)選路徑,將這些目的地前綴的生產(chǎn)流量遷移到備選路徑上。這些注入持續(xù)了24小時(shí)。 ?
圖12:BGP備選路徑對比優(yōu)選路徑的性能變化(負(fù)數(shù)為優(yōu)化了) ? 圖12展示了備選路徑的性能和BGP缺省優(yōu)選路徑的對比,:AltPath指定的路徑(目前承載大部分流量)和BGP缺省的首選路徑的性能的對比。對于這些前綴,45%的前綴實(shí)現(xiàn)了至少20ms的中值延遲(藍(lán)圈1),28%的前綴至少提高了100ms(藍(lán)圈2)。在另一方面,有些備選路徑的改寫沒有獲得預(yù)期的效果:例如,有17%的前綴的延遲的中位值反而比缺省路徑多了20毫秒(藍(lán)圈3),還有1%的前綴的延遲至少比缺省路徑慢了100毫秒(藍(lán)圈4)。如果系統(tǒng)動(dòng)態(tài)調(diào)整路由(而非這種一次性靜態(tài)改動(dòng)),這些結(jié)果表明可能出現(xiàn)振蕩。這些情況中的絕大多數(shù)是因?yàn)槟康牡厍熬Y從對等互聯(lián)出口遷移到了穿透連接出口上去了。
當(dāng)更改路徑后導(dǎo)致結(jié)果出現(xiàn)更差的性能時(shí),推測這種異常可能是來源于兩個(gè)因素的結(jié)合:1)路徑的性能和加載在上面的流量是某種函數(shù)關(guān)系;2)路徑的性能是隨著時(shí)間的推移而改變的。在未來的工作中,F(xiàn)acebook打算通過對流量進(jìn)行更細(xì)粒度的遷移來研究這些問題,這樣就可以了解放置在特定路徑上的流量負(fù)載如何影響其性能。此外,這一挑戰(zhàn)還需要一個(gè)健壯和快速反應(yīng)的控制系統(tǒng)來決定是否進(jìn)行遷移,不僅基于單個(gè)前綴的測量,還取決于相同路徑上其他的流量是否被遷移進(jìn)來或者遷移出去,同時(shí)還要考量歷史數(shù)據(jù)等其他的影響因素。要實(shí)現(xiàn)這個(gè)目標(biāo),需要進(jìn)一步的提高AltPath的測量采樣率,這樣控制器就能夠有足夠的樣本來評估更短時(shí)間內(nèi)的性能。
AltPath還識別出有700個(gè)目的地前綴的BGP路由的第三優(yōu)選路徑要優(yōu)于其次優(yōu)路徑,因此將Edge Fabric配置為可以使用第三優(yōu)選路徑來做流量遷移的備選路徑。然而,在的實(shí)驗(yàn)中,只有不到5%的這些前綴被Edge Fabric選中進(jìn)行流量遷移。在這些遷移路徑中,通過比較選中的遷移路徑和BGP的次優(yōu)路徑兩者的AltPath測量性能,發(fā)現(xiàn)除了2個(gè)前綴外,所有遷移的流量都獲得了更好的性能。這一結(jié)果表明,AltPath能夠有效的幫助Edge Fabric使用遷移路徑來解決擁塞問題。
AltPath能準(zhǔn)確地捕獲端到端性能嗎?利用BGP對等測試床進(jìn)行了對照實(shí)驗(yàn)。測試床直接在AMS- IX(位于阿姆斯特丹的互聯(lián)網(wǎng)交換中心)上的公共樞紐與Facebook對等互聯(lián),而對等網(wǎng)絡(luò)的宣告也通過對等網(wǎng)絡(luò)的穿透互聯(lián)運(yùn)營商到達(dá)了Facebook的網(wǎng)絡(luò)。模擬客戶端的IP地址通過穿透運(yùn)營商和與Facebook直接連接都進(jìn)行了BGP宣告。客戶端持續(xù)使用HTTP從Facebook獲取515KB和30KB的文件,保持客戶端CPU和帶寬利用率低于20%。隨著時(shí)間的推移,使用Linux的流量控制框架來引入40毫秒的延遲,這個(gè)延遲疊加在:與Facebook直連的路徑、穿透路徑或兩者同時(shí)疊加。使用AltPath來測量5分鐘內(nèi)直連路徑和穿透路徑的性能差異。在持續(xù)的18個(gè)小時(shí)的實(shí)驗(yàn)中,AltPath在所有測量結(jié)果中的測試誤差都在2.2毫秒以內(nèi),平均誤差為0.6毫秒。這種精準(zhǔn)度足以滿足Edge Fabric在做流量遷移決策時(shí)所需的要求。 ?
運(yùn)維經(jīng)驗(yàn)
Edge Fabric經(jīng)過多年的發(fā)展,以響應(yīng)PoP節(jié)點(diǎn)的增長和運(yùn)營經(jīng)驗(yàn)的實(shí)現(xiàn)。目前Edge Fabric的設(shè)計(jì)專注于提供需要的靈活性來處理不同出口路由的場景,但在任何可能的情況下,整體設(shè)計(jì)都傾向于使用易于理解的技術(shù)和協(xié)議,而不是更復(fù)雜的方式。 ?
Edge Fabric控制層的演進(jìn)
當(dāng)PoP節(jié)點(diǎn)數(shù)量和其規(guī)模不斷的增長時(shí),F(xiàn)acebook更是追尋簡單、可擴(kuò)展的設(shè)計(jì)架構(gòu)。這些期望的特性需要對設(shè)計(jì)的組件進(jìn)行持續(xù)的評估和改進(jìn),并仔細(xì)考慮這些設(shè)計(jì)決策將產(chǎn)生什么樣的長期影響。 ?
從有狀態(tài)到無狀態(tài)控制
當(dāng)前Edge Fabric的實(shí)現(xiàn)是無狀態(tài)的,這意味著它在每30秒的周期中從零開始進(jìn)行計(jì)算、分配和更改決策,而不需要知道它之前的遷移決定。由于設(shè)計(jì)簡單,這種方法有許多優(yōu)點(diǎn)。例如,因?yàn)闊o狀態(tài)Allocator通過收集到所有它需要的信息(路由和流量)就可以開始每個(gè)運(yùn)行周期,并在控制器沒有干預(yù)的情況下預(yù)測計(jì)算出口的利用率,所以測試、重啟或發(fā)生故障時(shí)遷移控制器是很簡單的。給定輸入和預(yù)測,控制器只需要計(jì)算出應(yīng)該遷移哪些流量,測試也可以非常簡單的通過提供輸入場景、檢查決策結(jié)果來完成。
相比之下,之前的有狀態(tài)的實(shí)現(xiàn)需要在每一輪計(jì)算之后在本地和遠(yuǎn)端記錄Allocator的狀態(tài)。如果控制器由于升級或失敗而重新啟動(dòng),它必須從遠(yuǎn)端記錄中恢復(fù)之前的決策,這增加了復(fù)雜性。此外,有狀態(tài)控制器的決策過程更加復(fù)雜,因?yàn)榭刂破鞑粌H要決定當(dāng)出口過載時(shí)哪些目的地前綴要遷移,而且還要決定在給定的當(dāng)前出口負(fù)載下,要?jiǎng)h除哪些現(xiàn)有的遷移決策。因?yàn)橛袪顟B(tài)控制器在出口利用率降到閾值以下時(shí)才會考慮刪除遷移決策,所以當(dāng)出口利用率持續(xù)增加時(shí),它無法回溯,而且它的下一步?jīng)Q策選項(xiàng)會受到之前操作結(jié)果的影響。在某些情況下,控制器會將一個(gè)目的地前綴遷移到一個(gè)備選路徑上,但在下一個(gè)計(jì)算周期中,再次遷移該流量。維護(hù)這些狀態(tài)和決策的記錄使得實(shí)現(xiàn)和測試變得異常復(fù)雜,因?yàn)槌绦蜻壿媽?shí)現(xiàn)和測試工作必須要注入相關(guān)聯(lián)的一系列狀態(tài)和決策,這些復(fù)雜性最終成為了設(shè)計(jì)無狀態(tài)實(shí)現(xiàn)方式的驅(qū)動(dòng)因素。 ? 從基于主機(jī)的路由到基于邊緣的路由 ? 目前的Edge Fabric的實(shí)現(xiàn)使用BGP來完成路由更改,并且只要求主機(jī)對需要特殊處理的流量設(shè)置相應(yīng)的DSCP值即可,例如前面提及的用于備選路徑測量的流量。相比之下,以前的Edge Fabric實(shí)現(xiàn)依賴于基于主機(jī)的路由來實(shí)現(xiàn)更改。在主機(jī)路由模型中,控制器需要在PoP節(jié)點(diǎn)內(nèi)的每臺服務(wù)器上安裝其流量規(guī)則。這些規(guī)則將用于標(biāo)記到達(dá)不同目的地的流量。然后在對應(yīng)的PR路由器上使用相應(yīng)的規(guī)則來匹配這些流量標(biāo)記,最后通過繞過標(biāo)準(zhǔn)IP路由(策略路由)將數(shù)據(jù)報(bào)文從指定的出口送出去。
在基于主機(jī)的路由時(shí)代,Edge Fabric先后在生產(chǎn)網(wǎng)絡(luò)中實(shí)現(xiàn)過三種不同的標(biāo)記機(jī)制:MPLS、DSCP和GRE(基于MPLS的實(shí)現(xiàn)比目前的Edge Fabric更進(jìn)一步,它根據(jù)主機(jī)的決策來路由所有出口流量,有效地將所有IP路由決策從我們的PR中轉(zhuǎn)移出去)。MPLS和DSCP與早期的PoP架構(gòu)是兼容的,在這個(gè)架構(gòu)中, 跨PR的對等互聯(lián)和穿透連接出口是平衡的,任何需要遷移的流量都被發(fā)送到穿透連接的出口上去了。由于流量受ECMP約束,所有PR對所有出口有相同的規(guī)則(例如,DSCP值12將使流量在所有PR路由器上轉(zhuǎn)發(fā)到穿透運(yùn)營商X,這需要所有的PR都具備到X的出口)。然而,隨著的PoP架構(gòu)的發(fā)展,PR之間的對等互聯(lián)和穿透出口的容量越來越不平衡,并且想要具體控制某個(gè)PR出口的流量,在那個(gè)設(shè)計(jì)中使用GRE隧道在服務(wù)器和PR路由器之間轉(zhuǎn)發(fā)流量。
從使用過的這些機(jī)制的經(jīng)驗(yàn)來看,F(xiàn)acebook發(fā)現(xiàn)要同時(shí)獲得軟硬件供應(yīng)商對隧道協(xié)議的快速、強(qiáng)有力的支持是非常重要的。讓終端主機(jī)擔(dān)負(fù)路由流量到指定出口的責(zé)任,使得調(diào)試和審計(jì)網(wǎng)絡(luò)的行為變得更加困難,因?yàn)楸仨氃诙鄠€(gè)層面上進(jìn)行配置檢查。此外,當(dāng)出口發(fā)生故障或路由撤回時(shí),終端主機(jī)必須迅速做出反應(yīng),以避免黑洞流量,這使得終端主機(jī)、PR路由器和控制器之間的信息同步至關(guān)重要。
相比之下,目前版本的Edge Fabric不需要主機(jī)知道網(wǎng)絡(luò)狀態(tài),通過在PR注入更改的BGP路由實(shí)現(xiàn),降低了同步的復(fù)雜性。此外,這種方式使PR能夠應(yīng)對控制器的某條決策失效的情況,以防止流量黑洞,例如:因出口故障導(dǎo)致PR接收到的備選路徑不可用了,那么PR路由器還是可以使用BGP選路機(jī)制找到下一個(gè)優(yōu)選路由。
基于邊緣路由實(shí)現(xiàn)方式比基于主機(jī)路由具備更多的優(yōu)點(diǎn),同時(shí)還更簡單。雖然基于主機(jī)路由能讓主機(jī)對數(shù)據(jù)包的路由方式有更多的控制能力,但由于以下的種種原因,這種額外靈活性帶來的優(yōu)點(diǎn)并不足以抵消實(shí)現(xiàn)的復(fù)雜性帶來的難度。首先,測量結(jié)果表明,大多數(shù)流量還是使用的BGP缺省優(yōu)選路徑(參見圖12,遷移的流量平均峰值在10%左右),Edge Fabric僅覆蓋了一小部分流量用以避免擁塞或提高性能。其次,改變基于目的地路徑的實(shí)現(xiàn)方法可以允許服務(wù)器標(biāo)記選擇的流量(設(shè)置數(shù)據(jù)包的DSCP值)以期望進(jìn)行特殊處理,并允許控制器決定這些流量的路徑是否應(yīng)該被更改。雖然這種解耦方式限制了服務(wù)器的控制力度,但是整個(gè)系統(tǒng)的設(shè)計(jì)更為簡單、故障排錯(cuò)也更容易,并且對于實(shí)際場景來講具備了足夠的靈活性。第三,因?yàn)镕acebook選擇的全局流量均衡模式是流量在一個(gè)PoP節(jié)點(diǎn)進(jìn)出對稱(同一個(gè)PoP節(jié)點(diǎn)進(jìn),同一個(gè)節(jié)點(diǎn)出),所以對于出口的選擇來說相對有限,決定發(fā)送到那個(gè)PR路由器即可。如果全局負(fù)載均衡系統(tǒng)探測到另一個(gè)PoP節(jié)點(diǎn)可以提供更好的性能,那么全局負(fù)載均衡系統(tǒng)直接將用戶切換到那個(gè)PoP即可。 ?
從全局到單一PoP節(jié)點(diǎn)
以前,F(xiàn)acebook網(wǎng)內(nèi)的PoP節(jié)點(diǎn)之間是運(yùn)行iBGP來傳播來外部的eBGP路由。這種情況下,用戶的流量從一個(gè)PoP節(jié)點(diǎn)流入,但可以通過另一個(gè)PoP節(jié)點(diǎn)流出。在某些情況下,通過內(nèi)部的廣域網(wǎng)將流量從一個(gè)遠(yuǎn)端的PoP節(jié)點(diǎn)的出口送出可以提高性能,但必須有相應(yīng)的機(jī)制來防止它引起振蕩。例如,過載的出口上的一些流量可能已經(jīng)通過遠(yuǎn)端PoP進(jìn)入。如果Edge Fabric在出口PoP節(jié)點(diǎn)內(nèi)改寫路由以避免擁塞,更新路由將傳播到另一個(gè)入口PoP節(jié)點(diǎn)。如果通過改寫B(tài)GP路由讓入口PoP節(jié)點(diǎn)停止優(yōu)選出口PoP節(jié)點(diǎn),那么這個(gè)預(yù)測流量就不會計(jì)入本地的出口流量中,本地出口的無過載狀態(tài)可能會讓Edge Fabric去掉之前的BGP路徑改寫行為,這會導(dǎo)致本地出口又出現(xiàn)擁塞,流量再次遷移到遠(yuǎn)端PoP節(jié)點(diǎn),流量在兩個(gè)PoP節(jié)點(diǎn)之間不斷震蕩。為了防止這種“入口PoP優(yōu)選出口PoP節(jié)點(diǎn)”的情況,控制器將改寫的BGP路由屬性設(shè)置成與原始路由相同。但控制器在操控BGP屬性上會混淆路由信息,給運(yùn)維團(tuán)隊(duì)理解和調(diào)試出向路由帶來了困難。在提高了全局負(fù)載均衡系統(tǒng)映射的準(zhǔn)確性和顆粒度以后,F(xiàn)acebook就去掉了PoP節(jié)點(diǎn)之間的路由互傳(去掉了iBGP進(jìn)程),現(xiàn)在流量的進(jìn)出都在同一個(gè)PoP節(jié)點(diǎn)上。由于全局負(fù)載均衡系統(tǒng)控制流量進(jìn)入的PoP節(jié)點(diǎn),它可以將客戶的流量負(fù)載分擔(dān)到它認(rèn)為等價(jià)的幾個(gè)PoP節(jié)點(diǎn)上,這樣可以同時(shí)利用多個(gè)PoP節(jié)點(diǎn)的出口容量。這使得Facebook可以避免使用內(nèi)部骨干網(wǎng)在PoP節(jié)點(diǎn)之間來傳遞最終用戶的流量,并簡化了Edge Fabric的設(shè)計(jì)。 ?
從平衡到非平衡容量
隨著的PoP節(jié)點(diǎn)的不斷增長, PoP節(jié)點(diǎn)的設(shè)計(jì)也需要隨之優(yōu)化來處理很多邊緣場景。當(dāng)增加PoP節(jié)點(diǎn)的數(shù)量和規(guī)模時(shí),PR路由器上面開始有更多不平均的出口互聯(lián)帶寬,部分原因是互聯(lián)出口的連接的不均衡增長,但也可能是由于發(fā)生故障和長時(shí)間的修復(fù)時(shí)間(海纜差不多2個(gè)月就會斷一次,平均7個(gè)小時(shí)來修復(fù))。這些因素都造成了PR上出口帶寬不均衡的問題,現(xiàn)有設(shè)計(jì)中ASW使用的是ECMP將流量發(fā)送給多個(gè)PR,但ASW對于PR的不均衡出口并不知道,所以會導(dǎo)致均衡的流量進(jìn)入PR但出口容量不均衡導(dǎo)致的問題。對于這個(gè)問題,可以考慮使用WCMP來解決,而不用在Edge Fabric上實(shí)現(xiàn)。
然而,由于種種原因,最終選擇了擴(kuò)展Edge Fabric的功能來處理這些容量失衡的情況。首先,雖然有許多路由和交換芯片支持WCMP,但與ECMP相比,供應(yīng)商對WCMP的采用和支持要少得多,這使得采用WCMP方案的風(fēng)險(xiǎn)更大。即使使用vanilla-ECMP算法,也能觀察到不均衡的流量分布和其他問題以及意想不到的行為。其次,由于供應(yīng)商使用的WCMP實(shí)現(xiàn)是私有的,所以無法預(yù)測WCMP將如何運(yùn)行,這使得預(yù)測計(jì)算和工程流量更加困難,并可能增加Edge Fabric的復(fù)雜性。最后,WCMP實(shí)現(xiàn)需要對路由器的整個(gè)路由表進(jìn)行操作,路由表在發(fā)生變化以后可能需要分鐘級別的時(shí)間來收斂,在此期間可能沒法有效的進(jìn)行正確的均衡流量。相比之下,Edge Fabric可以識別出流量的目的地網(wǎng)段的子集及其流量,并在幾秒鐘內(nèi)進(jìn)行更改路由注入,從而緩解故障。 ?
IXP的挑戰(zhàn)
互聯(lián)網(wǎng)交換中心(IXP)一直是學(xué)術(shù)界關(guān)注的焦點(diǎn),同時(shí)也對Facebook這種規(guī)模的內(nèi)容服務(wù)商提出了挑戰(zhàn)。與PNI(專用的私有連接)相比,內(nèi)容服務(wù)商無法知道 Peer的端口到底有多少可用容量,因?yàn)樵贗XP的其他Peer網(wǎng)絡(luò)可能也在向它發(fā)送數(shù)據(jù)(IXP的典型拓?fù)涫峭ㄟ^交換機(jī)實(shí)現(xiàn)Hub-Spoke式互聯(lián))。這種有限的可見性使得避免擁塞的同時(shí)期望最大限度地利用接口容量變得更加困難。Edge Fabric通過設(shè)置每一個(gè)Peer出口的速率限制,來實(shí)現(xiàn)對Peer出口容量的可見性,以避免阻塞。在這種場景中,直接聯(lián)系IXP的各個(gè)Peer來獲得、設(shè)置其容量限制是更有效的方式。這種方式類似和具備PNI的出口一樣,只是會對利用率進(jìn)行限制。 ?
相關(guān)工作
CDN流量工程
隨著CDN流量的增長,研究者和工程師們提出了新的流量工程解決方案。在CDN流量工程中,Edge Fabric也采用了一種常見的方法,即集中SDN的方式來控制,將網(wǎng)絡(luò)和流量信息結(jié)合起來配置網(wǎng)絡(luò)設(shè)備。
研究人員已經(jīng)研究了多種客戶端請求流量的處理方法,包括使用Anycast和DNS擴(kuò)展作為將客戶端請求流量引導(dǎo)到“就近”的服務(wù)器上的機(jī)制。這些解決方案針對的是與前文中所描述的不一樣的挑戰(zhàn),這些方案也是Edge Fabric的有效補(bǔ)充。Facebook采用了這些解決方案來選擇客戶端流量去往那個(gè)PoP節(jié)點(diǎn),但在PoP內(nèi)仍然需要Edge Fabric來選擇合適的出口回送去往客戶端的流量。
與Edge Fabric更相關(guān)的是Footprint(微軟的流量調(diào)度系統(tǒng))、PECAN、Entact和Espresso(Google的B2廣域網(wǎng)流量調(diào)度),它們選擇PoP節(jié)點(diǎn)或者路徑的時(shí)候是考量的路徑的性能。Footprint專注于在PoP節(jié)點(diǎn)之間遷移長連接有狀態(tài)的會話負(fù)載,以避免擁塞;PECAN專注于度量性能和選擇入口路由(入向流量),Edge Fabric設(shè)計(jì)用于在備選出口(出向流量)之間遷移流量,以避免擁塞。這三個(gè)設(shè)計(jì)方案是互補(bǔ)的:Edge Fabric的技術(shù)可以應(yīng)用于Footprint和PECAN,反之亦然。
Entact和Espresso是最相似的。Entact通過一種精心設(shè)計(jì)的方法,平衡了BGP的性能、負(fù)載和成本,通過仿真來評估BGP的缺省選路策略。與AltPath類似,Entact將一些流量導(dǎo)向備選路徑,以測量其性能。Facebook以這個(gè)想法為基礎(chǔ),按照自身用戶流量的特點(diǎn)做了相應(yīng)改進(jìn),然后在生產(chǎn)環(huán)境中大規(guī)模部署。例如,Entact測量目的地網(wǎng)段前綴內(nèi)的單個(gè)IP地址的備選路徑性能,而AltPath則是在地址空間內(nèi)隨機(jī)選擇流量,以防不同地址具有不同性能的情況,并允許在將來基于應(yīng)用區(qū)分的路由也可以使用這個(gè)機(jī)制。Entact使用主動(dòng)測量(Ping)來測量路徑性能,但無法在許多前綴中找到響應(yīng)地址,因此只能對26%的MSN流量做出決策。對響應(yīng)地址的需求也限制了Entact可以并行測量的備選路徑的數(shù)量,并使得它沒法實(shí)現(xiàn)通過分割聚合地址前綴來增加決策顆粒度。這些原子分配的方式對于Entact的最佳流量分配來講,可能不是一個(gè)很好的近似值估算,因?yàn)樗疤釛l件是:需要能夠在多個(gè)路徑上任意地將地址前綴的流量分割并測量。Edge Fabric采用了類似于Entact的方法,但不同的是基于生產(chǎn)流量的被動(dòng)測量方式,它使用Facebook現(xiàn)有的服務(wù)器端的測量基礎(chǔ)設(shè)施來采集能夠代表整個(gè)用戶群流量的數(shù)據(jù),并且能夠分割地址前綴以增加決策顆粒度。并且可以使用現(xiàn)有PR路由器所能支持的盡可能多的并行路徑。
Espresso是谷歌的SDN流量調(diào)度系統(tǒng),用于控制出口路由。Espresso和Edge Fabric都是由大型內(nèi)容服務(wù)商設(shè)計(jì)的,在面對PoP節(jié)點(diǎn)和流量的快速增長的同時(shí),它們需要克服BGP協(xié)議自身和BGP路由器的挑戰(zhàn)。它們的高階設(shè)計(jì)實(shí)現(xiàn)方式都類似:集中控制路由,同時(shí)保留BGP作為和對端互聯(lián)的接口。然而,這兩個(gè)系統(tǒng)在許多其他重要的設(shè)計(jì)決策上對其決策因素有不同的優(yōu)先級排序,這些優(yōu)先級的排序也最終影響了設(shè)計(jì)的結(jié)果。Espresso使用定制的架構(gòu)來消除對支持互聯(lián)網(wǎng)全球路由表的的需求(Google的OpenFlow的硬件無法支持全球路由表),而Edge Fabric則依賴于BGP和供應(yīng)商的BGP路由器來構(gòu)建(商業(yè)路由器可以輕松支持全球路由表)。Edge Fabric通過隔離PoP節(jié)點(diǎn)來限制它的多個(gè)路由表的大小,這樣每個(gè)PoP節(jié)點(diǎn)承載用戶流量的地址前綴數(shù)量就很低(圖3)。而Facebook通過隔離地址前綴宣告、入口策略、出口策略和對單個(gè)PoP節(jié)點(diǎn)的控制來實(shí)現(xiàn)了簡單性(都是基于BGP協(xié)議的標(biāo)準(zhǔn)通用屬性),Espresso使用集中的全局控制器,可以將流量通過廣域網(wǎng)路由到遠(yuǎn)端的PoP節(jié)點(diǎn)出口,提供了靈活性。Edge Fabric的控制器只在PoP節(jié)點(diǎn)內(nèi)決定出口,并將其推送給本節(jié)點(diǎn)內(nèi)的PR路由器,可以讓主機(jī)和網(wǎng)絡(luò)狀態(tài)之間解耦。另一方面,Espresso將路由決策推給主機(jī),使其靈活性最大化,但需要更復(fù)雜的控制器架構(gòu)和主機(jī)上的路由狀態(tài)保持實(shí)時(shí)同步,這樣才能防止流量黑洞。前面描述了這些權(quán)衡以及最后的選擇,這都是基于Facebook過去在PoP節(jié)點(diǎn)和基于主機(jī)路由之間流量控制的經(jīng)驗(yàn)(早期的Edge Fabric設(shè)計(jì)更類似于Espresso)。當(dāng)然,Espresso也有自己的一些方法來應(yīng)對本節(jié)所描述的挑戰(zhàn)。
B4(Google的數(shù)據(jù)中心網(wǎng)絡(luò))和SWAN(微軟的集中控制器,處理網(wǎng)絡(luò)擁塞)的集中控制是跨數(shù)據(jù)中心網(wǎng)絡(luò)的,在不影響高優(yōu)先級流量性能的情況下最大化利用率。Edge Fabric也有類似的目標(biāo),它也使用集中控制。然而,背景的不同帶來了新的挑戰(zhàn)。特別是B4和SWAN是在一個(gè)封閉的環(huán)境中運(yùn)行的,所有的主機(jī)和網(wǎng)絡(luò)設(shè)備都是統(tǒng)一管理的,大部分的流量都可以容忍時(shí)延和損失(東西流量,低優(yōu)先級的用戶數(shù)據(jù)同步的流量為主)。相反,Edge Fabric控制網(wǎng)絡(luò)和用戶的出口流量。此外,大部分是自適應(yīng)速率的視頻流量(南北流量,最終用戶的直接流量),其延遲要求遠(yuǎn)遠(yuǎn)超過數(shù)據(jù)中心間廣域網(wǎng)的彈性流量。Fibbing集中控制傳統(tǒng)的OSPF網(wǎng)絡(luò),注入路由信息讓域內(nèi)路由器優(yōu)選特定路由。Edge Fabric的控制器類似地注入路由,但注入的BGP路由對于全網(wǎng)的可見性和控制要少得多(只在PR路由器生效)。 ?
性能監(jiān)控
對于CDN流量工程,現(xiàn)有的技術(shù)通過向網(wǎng)絡(luò)注入測量流量(主動(dòng)測量)或被動(dòng)地監(jiān)控正在運(yùn)行的流量來測量路徑性能(被動(dòng)測量)。主動(dòng)測量技術(shù)需要通過專屬工具產(chǎn)生、收集測量數(shù)據(jù)或者部署專用測量點(diǎn)。被動(dòng)測量技術(shù)通常需要網(wǎng)絡(luò)設(shè)備的監(jiān)控功能(一般很貴)。Edge Fabric在Facebook的服務(wù)器上采用的是被動(dòng)測量技術(shù),它允許:1)在不需要測量上百萬用戶的情況下監(jiān)控所有路徑和服務(wù),2)與并入路徑的專用測量設(shè)備相比,可以收集更豐富的指標(biāo)(如SRTT)。 ? 有意了解更多Tier-1 OTT技術(shù)趨勢,可以添加微信共同討論: ? ? ? 參考文獻(xiàn):Engineering egress with edge fabric - Steering oceans of content to the world ? ? ?
編輯:黃飛
?
評論
查看更多