據(jù)文化和旅游部數(shù)據(jù)中心測(cè)算,2023年“五一”假期全國(guó)國(guó)內(nèi)旅游出游合計(jì)2.74億人次,同比增長(zhǎng)70.83%,按可比口徑恢復(fù)至2019年同期的119.09%1。后疫情時(shí)代,旅游人數(shù)的激增與旅游場(chǎng)景的多元化,給人工智能(AI)技術(shù)在旅游行業(yè)的應(yīng)用帶來更多機(jī)遇和挑戰(zhàn)。例如自然語言處理(NLP)、機(jī)器翻譯、計(jì)算機(jī)視覺、搜索排序等 AI 技術(shù)的快速發(fā)展和日臻成熟,可以為游客提供更便捷的服務(wù)和更精準(zhǔn)的內(nèi)容。
作為一站式旅行平臺(tái),攜程旅行已經(jīng)將諸多AI 技術(shù)應(yīng)用于酒店、機(jī)票、自由行、跟團(tuán)游、簽證、玩樂、租車等旅游度假的多個(gè)業(yè)務(wù)線,為全球用戶提供一套完整的旅行產(chǎn)品、服務(wù)及差異化的旅行內(nèi)容等。為了在滿足業(yè)務(wù)需求的同時(shí)降低成本壓力,攜程構(gòu)建了基于英特爾至強(qiáng) 可擴(kuò)展處理器的 AI 推理算力平臺(tái),并通過高性能算子庫、計(jì)算圖優(yōu)化、模型壓縮等方式提升 AI 推理性能。
? ? ? ? ? ?
采用英特爾 至強(qiáng)解決方案
實(shí)現(xiàn)性能與經(jīng)濟(jì)性的更佳平衡
隨著 AI 應(yīng)用的不斷擴(kuò)展和深入,大型旅行服務(wù)平臺(tái)面臨的算力挑戰(zhàn)主要存在于兩個(gè)方面:
一方面,AI 技術(shù)正在日趨多樣化與復(fù)雜化,為了適應(yīng)不同的業(yè)務(wù)場(chǎng)景需求,企業(yè)常常需要融合使用傳統(tǒng)機(jī)器學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、Transformer 等深度學(xué)習(xí)模型結(jié)構(gòu),以及知識(shí)圖譜、圖神經(jīng)網(wǎng)絡(luò)等技術(shù)。同時(shí),AI模型的深度、寬度以及結(jié)構(gòu)復(fù)雜度也在不斷提升,增加了企業(yè)的開發(fā)門檻,也使得 AI算力調(diào)度、AI 性能優(yōu)化更具挑戰(zhàn)。
另一方面,智能化應(yīng)用正在迅速擴(kuò)張,需要由 AI 模型處理的數(shù)據(jù)也在不斷增長(zhǎng)。例如內(nèi)容與廣告?zhèn)€性化推薦、實(shí)時(shí)風(fēng)控、機(jī)器翻譯、智能客服、圖像處理等領(lǐng)域正在越來越多地使用 AI 技術(shù),以從海量的數(shù)據(jù)中生成高價(jià)值的商業(yè)洞察,從而帶來了較高的算力基礎(chǔ)設(shè)施建設(shè)成本。與此同時(shí),上層應(yīng)用對(duì)于 AI 模型推理也有著特定的服務(wù)級(jí)別協(xié)議 (SLA) 要求。企業(yè)需要在滿足 SLA 要求的前提下,通過模型優(yōu)化等方式,更好地發(fā)揮硬件的性能潛力,降低算力基礎(chǔ)設(shè)施的總體擁有成本(TCO)。
面對(duì)上述挑戰(zhàn),企業(yè)首先要面臨硬件平臺(tái)的選擇問題:雖然基于獨(dú)立 GPU 的推理方案能夠提供強(qiáng)大的算力,但未必是一個(gè)經(jīng)濟(jì)的選擇。這是因?yàn)楠?dú)立 GPU 不僅采購(gòu)或租用成本相對(duì)較高,而且通常是以專用服務(wù)器的模式進(jìn)行部署和運(yùn)維,帶來了較高的綜合成本。考慮到旅行服務(wù)中大量的 AI 推理場(chǎng)景所需要的性能經(jīng)過優(yōu)化能夠得到滿足,采用 CPU 的方案將更具成本效益。因此,攜程采用基于英特爾至強(qiáng) 可擴(kuò)展處理器的 AI 推理算力平臺(tái),旨在為算法模型提供更全面易用、穩(wěn)定性更好、使用和維護(hù)成本更低的優(yōu)化解決方案。 英特爾至強(qiáng) 可擴(kuò)展處理器內(nèi)置人工智能加速功能,已針對(duì)工作負(fù)載進(jìn)行優(yōu)化,能夠?yàn)楦鞣NAI 應(yīng)用以及高密度基礎(chǔ)設(shè)施帶來一流的性能和內(nèi)存帶寬。同時(shí),采用矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI) 的英特爾 深度學(xué)習(xí)加速(英特爾DL Boost),能夠有效提高 AI 推理的表現(xiàn),使其成為深度學(xué)習(xí)應(yīng)用的卓越基礎(chǔ)設(shè)施。
? ? ? ? ? ?
構(gòu)建并優(yōu)化AI推理算力平臺(tái)
Bert-base推理時(shí)間由15毫秒降至6毫秒
在基于英特爾 至強(qiáng) 可擴(kuò)展處理器的硬件平臺(tái)層基礎(chǔ)上,攜程構(gòu)建了 AI 推理算力平臺(tái),該平臺(tái)還包括引擎框架層、推理優(yōu)化層、算法模型、應(yīng)用場(chǎng)景。同時(shí),為了盡可能地提升 AI 推理性能,釋放硬件潛力,攜程進(jìn)行了推理優(yōu)化。主要的優(yōu)化思路為兩點(diǎn):一是通過調(diào)整/簡(jiǎn)化模型結(jié)構(gòu),或改進(jìn)算法以降低算法復(fù)雜度;二是優(yōu)化軟件執(zhí)行效率,使用硬件優(yōu)勢(shì)特征,提升硬件執(zhí)行效率。
攜程基于英特爾 至強(qiáng) 可擴(kuò)展處理器的硬件平臺(tái)層基礎(chǔ)上
構(gòu)建 AI 推理算力平臺(tái)
攜程以機(jī)器翻譯應(yīng)用的 Transformer模型來測(cè)試其性能表現(xiàn)。在該測(cè)試中,攜程除了使用上述的優(yōu)化方法,還分割模型并使用 jit 跟蹤方法來提高性能。同時(shí),在batchsize 超過 16 個(gè)的情況下,使用 mm op 進(jìn)行優(yōu)化。攜程使用固定算例的平均響應(yīng)時(shí)延作為測(cè)試數(shù)據(jù),tokens 為 10,batchsize=1,Bert-base模型推理時(shí)間由優(yōu)化前的15.05毫秒降至優(yōu)化后的6.44毫秒2。
Bert-base 模型優(yōu)化前后的性能對(duì)比2
基于英特爾 至強(qiáng) 可擴(kuò)展平臺(tái)的基礎(chǔ)算力和深度的 AI 模型推理性能優(yōu)化,用戶將獲得的收益包括:在特定的 SLA 要求下,降低 AI 推理應(yīng)用的 TCO
在通過本輪優(yōu)化之后,攜程的 CPU 服務(wù)器 AI 推理性能得到提升,能夠滿足大量 AI 推理場(chǎng)景對(duì)于時(shí)延等 SLA 指標(biāo)的要求,避免了在昂貴的專用 AI 加速器方面的支出。
提升基礎(chǔ)設(shè)施的敏捷性與靈活性通過本輪優(yōu)化,攜程能夠高效利用現(xiàn)有的 CPU 服務(wù)器,根據(jù)實(shí)際負(fù)載需求進(jìn)行靈活調(diào)度,而無需為 AI 推理新增需求部署專用服務(wù)器。
為 AI 推理性能優(yōu)化提供了標(biāo)準(zhǔn)的參考流程本方案提供了一套標(biāo)準(zhǔn)、可自動(dòng)完成的參考模型優(yōu)化流程,能夠賦能更多的 AI 應(yīng)用。
攜程與英特爾的合作,驗(yàn)證了 AI 模型推理方案在英特爾 至強(qiáng) 可擴(kuò)展處理器上的應(yīng)用潛力,在成本、性能方面實(shí)現(xiàn)了平衡。同時(shí),隨著推理性能優(yōu)化技術(shù)的逐步提高,將極大地降低人工智能應(yīng)用的部署成本,加快AI應(yīng)用的落地速度并擴(kuò)充應(yīng)用場(chǎng)景,推動(dòng)人工智能行業(yè)的整體發(fā)展。
-
英特爾
+關(guān)注
關(guān)注
61文章
9953瀏覽量
171700 -
cpu
+關(guān)注
關(guān)注
68文章
10855瀏覽量
211606
原文標(biāo)題:攜程攜手英特爾優(yōu)化AI推理性能,提升性能的同時(shí)降低TCO
文章出處:【微信號(hào):英特爾中國(guó),微信公眾號(hào):英特爾中國(guó)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論