01
背景:算力需求暴漲、摩爾定律失效
當(dāng)前,企業(yè)云上業(yè)務(wù)需求趨勢正在大幅增長,算力需求呈“爆炸式”遞增。
直播/短視頻行業(yè)每天有上億用戶產(chǎn)出UGC視頻內(nèi)容發(fā)布在不同平臺,產(chǎn)生百萬核級視頻編碼算力需求和高業(yè)務(wù)成本?;?制藥行業(yè)涉及到的分子動力學(xué)模擬、基因序列對比、蛋白結(jié)構(gòu)分析,原來以實驗為主,今天計算機模擬為主,從原子-分子單位的行為進行計算,消耗大量的算力。電商行業(yè)從流量為主轉(zhuǎn)變?yōu)榫婊\營過程中所需的AI推理、大數(shù)據(jù)畫像,智能精準(zhǔn)推薦對算力需求也越來越旺盛。以AI為代表的算力規(guī)模每三個半月就會翻一倍。
然而,在算力需求暴漲的同時,摩爾定律演進速度卻在減慢,硬件技術(shù)進步的紅利見底。
如今,每迭代一代CPU,服務(wù)器和數(shù)據(jù)中心的功耗和成本攀升,每千瓦芯片功耗在生命周期內(nèi)帶來上萬美金的成本;硬件和芯片的成本也在逐代上漲。
在云這類面向多租戶的場景下,超線程(HT)架構(gòu)的問題逐漸暴露出來,面對一些高密計算任務(wù)時很難滿足業(yè)務(wù)需求,共享內(nèi)存與物理核的機制導(dǎo)致租戶之間處理任務(wù)可能需要相互排隊,導(dǎo)致性能大幅下降;或者互相干擾的情況導(dǎo)致性能波動。
如何能在實現(xiàn)高性能(減少干擾)的同時實現(xiàn)低功耗、低成本?我們認為,以此前的技術(shù)方案,無法解決業(yè)務(wù)需求和痛點,需要設(shè)計一款云原生芯片,結(jié)合現(xiàn)有的阿里云軟硬件架構(gòu),才能更好地解決客戶應(yīng)用的需求。
我們先來看下結(jié)果:在編解碼的場景下,ECS倚天實例和傳統(tǒng)實例相比,實現(xiàn)了80%的性價比提升,數(shù)據(jù)庫場景、AI推理場景、大數(shù)據(jù)場景也都分別有著30%、70%、50%的性價比有效提升。目前,ECS倚天實例已應(yīng)用于阿里巴巴集團核心業(yè)務(wù),并服務(wù)科學(xué)研究、智能手機行業(yè)和多家知名互聯(lián)網(wǎng)公司。2021 年雙 11 期間,天貓雙 11 核心交易系統(tǒng)平滑遷移至倚天 710 云實例,算力性價比提升30%;匯量科技廣告推理業(yè)務(wù)使用倚天 710 云實例,性能和網(wǎng)絡(luò)帶寬雙雙提升,性價比提升 40% 以上。
02
“倚天”利劍出鞘:軟硬一體的云原生ECS架構(gòu)
ECS倚天實例是如何實現(xiàn)大幅的性價比提升的?我們從不同ECS產(chǎn)品架構(gòu)層面,包括:云原生處理器倚天710、云計算基礎(chǔ)設(shè)施處理器CIPU、云原生應(yīng)用優(yōu)化方案ECS Booster?等不同層面,給大家分享。
倚天710:高性能、低功耗
我們先來看下倚天710處理器在設(shè)計上,是如何解決上述問題的。
從芯片層面看,主要影響應(yīng)用性能的四大要素包括ALU(邏輯計算單元)、Cache、主頻、加速指令。
首先,倚天710 單顆CPU即實現(xiàn)了128核的高密度設(shè)計,高規(guī)格實例可以實現(xiàn)線性的性能增長;同時處理器無超線程概念,避免了性能爭搶的問題:獨享物理核,性能更強勁;獨享Cache,應(yīng)用緩存更高效。
x86架構(gòu)是兩個vCPU/HT共享一個物理核,1份ALU(算術(shù)邏輯運算單元)。ECS倚天實例采用的是獨享物理核心方式,這可以讓算力密集的計算指令不必排隊、不必爭搶,計算速度更快。
在Cache維度,過去兩個vCPU/HT共享一二級緩存,相互爭搶,性能波動較為嚴重。采用倚天CPU獨享Cache的設(shè)計,讓vCPU之間相互不影響,為重負載計算帶來更高性能。
影響算力性能的關(guān)鍵因素,除了核的資源,還有主頻。
大家知道為什么多數(shù)Web、App、DB的生產(chǎn)業(yè)務(wù)CPU使用率的安全水位線是50%,日常水位低于30%嗎?
以下圖中的視頻編碼為例,并發(fā)超過4路后,性能下降40%;再加上前面說到的核爭搶問題,如果客戶的實際業(yè)務(wù)超過50-60%水位,關(guān)鍵生產(chǎn)應(yīng)用將響應(yīng)放慢,客戶感知卡頓甚至超時問題。因此需要將CPU使用率安全水位壓低,犧牲成本保證安全,浪費了另外50%資源。
背后的原因是x86功耗大,高算力負載很容易造成功耗過大,溫度上升,因此采用降頻規(guī)避,進而影響了性能。而倚天710的功耗是主流x86的1/6,沒有任何降頻問題。同時也推薦倚天的安全水位可以提高到70-80%,減少資源浪費。
在云上多租戶共用平臺,即使用戶運行低負載應(yīng)用,也存在相互影響的風(fēng)險,倚天徹底解決了此問題。下圖展示的案例就可以看到,在視頻編解碼四路以上時,代表倚天的橙色部分基本保持恒定,x86則會降低幅度40%。
值得一提的是,倚天710還針對特定算法場景進行了加速與優(yōu)化。比如像NEON、SVE等矢量計算技術(shù),可以讓單條指令處理更長的數(shù)據(jù),可以大幅提升機器學(xué)習(xí)、視頻編碼和高性能計算等場景性能;另外,倚天實例還支持BF16和INT8,在機器學(xué)習(xí)場景下,大幅提升計算效率,為客戶提供更多選擇。
以CIPU為中心的架構(gòu):高密、穩(wěn)定、強勁
除了芯片本身能力,為了實現(xiàn)降本增效,倚天ECS實例基于云原生的硬件架構(gòu)設(shè)計。
傳統(tǒng)的服務(wù)器常常設(shè)計為2路或4路,通過多NUMA互連的方式提升整機CPU密度,讓一個OS調(diào)度更多CPU算力,卻也增加了復(fù)雜度。在這種架構(gòu)下,隨著核數(shù)增加,網(wǎng)絡(luò)和存儲IO也快速翻番,還要保持跨NUMA cache一致性,導(dǎo)致應(yīng)用性能下降;同時也帶來爆炸半徑過大的問題,在云計算場景下,多路的設(shè)計會讓局部硬件故障的影響范圍更大。
阿里云采用云原生的思想重新設(shè)計。倚天710 CPU單顆CPU即實現(xiàn)了128核的高密度設(shè)計,同時以CIPU為中心的硬件架構(gòu),通過CIPU連接2顆或者更多倚天的芯片,去NUMA方案下實現(xiàn)整機核密度更高,避免了跨NUMA帶來的性能下降,同時由整機的高密度帶來了成本下降,使得倚天實例更有競爭力。同時,多單路的硬件機型設(shè)計,爆炸半徑減半,產(chǎn)品更穩(wěn)定。
此外CIPU硬件本身也是創(chuàng)新性的設(shè)計,通過將虛擬化與IO轉(zhuǎn)發(fā)等數(shù)據(jù)面卸載到專用硬件上進行加速,消除了原來虛擬化損耗與性能爭搶,并大幅加速了IO,也會使得整體性能更高;VPC環(huán)境下支持彈性RDMA加速能力,相比TCP時延降低70%以上。
ECS Booster
ECS Booster是阿里云在倚天實例上提供的軟件性能優(yōu)化方案,通過網(wǎng)絡(luò)中斷優(yōu)化、操作系統(tǒng)優(yōu)化、應(yīng)用層優(yōu)化等技術(shù),針對web、APP、數(shù)據(jù)庫等主流場景進行優(yōu)化,運行在倚天實例上阿里云PaaS產(chǎn)品的性能獲已經(jīng)實現(xiàn)得顯著性能收益,相信也能給客戶業(yè)務(wù)場景帶來明顯受益。
03
全場景性能大幅提升
11月15日,ECS G8y(倚天實例)將正式上線,產(chǎn)品規(guī)格覆蓋1-128核,全面搭載eRDMA加速能力,可以大大提升軟件性能。
ECS G8y(倚天實例)有著性能卓越、生態(tài)豐富,綠色降本三個方向的業(yè)務(wù)價值,其中關(guān)于性能收益及增長方面有著很好的數(shù)據(jù)表現(xiàn)。
前文說到的云原生處理器和創(chuàng)新的硬件架構(gòu),最終在應(yīng)用上有哪些性能收益?我們從Web、App、Media、DB、大數(shù)據(jù)、科學(xué)計算、AI推理等七個最廣泛場景來看產(chǎn)品性能表現(xiàn)。
Web場景:綜合性能提升30%
Web場景是互聯(lián)網(wǎng)中應(yīng)用場景最多、消耗服務(wù)器資源最多的場景。為了解決移動場景流量和體驗問題,服務(wù)端常常采用網(wǎng)頁壓縮方案節(jié)約帶寬。但壓縮算法非常消耗CPU算力和時間,導(dǎo)致隊列中多客戶請求時延變長。
倚天擁有獨立CPU物理核,結(jié)合SVE指令加速,單vCPU數(shù)據(jù)壓縮性能翻倍,前面提到的體驗影響減半。Web場景包括Nginx、Apache、NodeJS、PHP等排名靠前的應(yīng)用,倚天實例對比阿里云G7系列實例,綜合性能提升30%左右。
阿里云防火墻CFW已經(jīng)實現(xiàn)倚天ECS遷移。CFW為客戶業(yè)務(wù)提供安全防護,需進行大量正則表達規(guī)則進行掃描,消耗大量算力,影響業(yè)務(wù)性能。采用獨享物理核的ECS倚天實例,實現(xiàn)安全和體驗收益兼得。在不同正則匹配性能優(yōu)勢分別為23%、40%、28%。
App編程語言性能:多數(shù)性能提升40%
不管是編譯型語言C、Go等還是無需編譯的語言Java、Python等,都很好的平滑兼容ARM架構(gòu),我們可以看到,使用開源的Benchmark進行測試,應(yīng)用運行在ECS倚天實例上獲得的性能提升多數(shù)有40%。
編解碼場景:20-40%性能提升
短視頻和直播是如今最火熱的應(yīng)用,UGC時代內(nèi)容指數(shù)級增長,編解碼算力消耗也隨之增長。如今最流行的H.264算法速度快,節(jié)約算力,但是編碼后的文件更大,消耗更多存儲和帶寬。H.265可以很好解決此問題,使用比重快速增長,但多消耗1倍算力成本。
無論是在哪種場景下,倚天的視頻編解碼性能均比x86實例更高,成本更低。
如圖,上述兩類視頻編碼規(guī)范的編碼器X.264、X.265運行在ECS倚天實例上,都收獲了20-40%性能提升;這個過程中我們進行了大量矢量指令優(yōu)化,使性能大幅提高,優(yōu)化軟件可以向客戶輸出。
數(shù)據(jù)庫場景:10-30%性能提升
數(shù)據(jù)庫場景下,運行在ECS倚天實例上,相較與G7實例,開源軟件Redis、Memcached有30%性能優(yōu)勢,MySQL和PGSQL有10-20%性能優(yōu)勢。
阿里集團電商業(yè)務(wù)所使用的Tair數(shù)據(jù)庫也已經(jīng)遷移到倚天平臺,協(xié)議上兼容Redis,性能是開源Redis數(shù)據(jù)庫的3倍。Tair支撐了多年天貓雙11大促,有強大的緩存能力,需要把數(shù)據(jù)緩存到內(nèi)存,消耗Memory資源。我們采用倚天強大的算力優(yōu)勢進行數(shù)據(jù)壓縮,讓內(nèi)存成本降低60%,疊加倚天實例自帶的eRDMA加速能力,可以提升吞吐量80%,時延降低15%以上。目前基于ECS倚天實例的Tair產(chǎn)品已經(jīng)上線,大家可以在云上使用。
大數(shù)據(jù)場景:20-60%性能提升
在需要消耗大量IO、大量計算以及高內(nèi)存帶寬的大數(shù)據(jù)場景中,ECS倚天實例由于擁有獨立物理核、Cache更大、網(wǎng)絡(luò)時延更低等特點,運行Spark應(yīng)用性能收益20%以上,搜索Elastic Search和流計算Flink場景性能收益達到40%和60%。上述大數(shù)據(jù)開源軟件,直接編譯即可在倚天實例上運行,歡迎大家試用。
科學(xué)計算:20%以上性能提升
在科學(xué)計算等場景下,相比于同規(guī)格x86云實例,運行在倚天實例上的基因、制藥,汽車領(lǐng)域等方面的算法都有20%左右的收益,我們近期有兩個伙伴測試分子動力學(xué)和EDA應(yīng)用,甚至實現(xiàn)了性能翻倍。這主要是由于科學(xué)計算場景使用的主要是物理核資源,倚天實例與同規(guī)格的x86實例相比,核物理核數(shù)量是后者的兩倍,計算性能更高。
阿里云彈性高性能計算平臺E-HPC、彈性伸縮等云上工具已經(jīng)支持ARM平臺,主要科學(xué)算法也都可以平滑兼容。
AI推理:性能提升1倍
AI場景算力消耗增長飛快,成本占比急劇上升。推理場景下典型的搜推廣客戶都無法接受下調(diào)精度(影響模型準(zhǔn)確度)降本。阿里云彈性計算團隊和達摩院合作,推出了HIE-Engine動態(tài)量化方案,利用倚天實例的INT8加速能力,可將RestNet和Bert場景性能提升1倍,且精度沒有損失。
04
降低碳排放、降低成本
對于企業(yè)客戶來說,除了業(yè)務(wù)性能表現(xiàn),IT碳排放和成本也很重要的一環(huán)。今天的這款倚天處理器,可以在CPU負載30%的情況下,每vCPU功耗比x86降低6倍,整機功耗降低60%以上。碳排放也等比降低。全國IDC年耗電量約2000多億度,相當(dāng)于兩個三峽大壩的發(fā)電量,采用倚天實例進行替換,可以省下一整個三峽的電量。
除了綠色低碳,企業(yè)還能降低IT成本,大家可以看圖中的定價,倚天實例對比最新一代主售實例定價是30%、23%、22%的降本幅度,將技術(shù)收益讓利給客戶。
使用這款產(chǎn)品會獲得更好的性價比。在前面提到的七大主要應(yīng)用場景,平均性價比(性能÷價格)收益可達50-80%。
05
豐富的軟件生態(tài)及應(yīng)用案例
下圖為ARM服務(wù)器軟件生態(tài),包括主流OS、編程語言、Lib庫、開源應(yīng)用。這些軟件我們都做過使用和測試,可以做到無需修改代碼即可運行。遷移文檔、遷移工具等方案可見以下鏈接:
https://help.aliyun.com/document_detail/462190.html
目前在阿里云產(chǎn)品中,RDS、容器、PAI、視頻云等多款PaaS產(chǎn)品接入倚天ECS;阿里集團電商業(yè)務(wù)也使用了倚天ECS,有效支撐阿里618、99大促以及雙11大促多個活動。外部有短視頻、Web、游戲、廣告等客戶提前使用了新產(chǎn)品。
最后總結(jié)一下關(guān)鍵詞。
技術(shù)關(guān)鍵詞:倚天710云原生處理器(獨立物理核、重新定義CPU水位)、CIPU為中心的硬件架構(gòu)(業(yè)界最高密度、NUMA less提高穩(wěn)定性、硬件加速)、ECS booster方案(加速應(yīng)用性能);
關(guān)鍵數(shù)字:性能提升30%以上,性價比提升50%;節(jié)約用電1個三峽。
再次感謝各位見證硬核技術(shù)的倚天專場,今天倚天的一小步,將是改變未來IT歷史、改變云計算浪潮的一大步,感謝大家!
編輯:黃飛
?
評論
查看更多