百度搜索exgraph圖執(zhí)行引擎設(shè)計重點分成三個部分:圖描述語言、圖執(zhí)行引擎、對接擴展。 圖描述語言是一種基于文本可讀的圖描述語言,用于描述任務(wù)中的算子以及算子之間的依賴關(guān)系,即讓人可以理解,也可以被計算機理解并執(zhí)行。 圖執(zhí)行引擎是exgraph的核心,負責(zé)根據(jù)圖描述語言生成的圖語法樹進行高效執(zhí)行。它支持如串行、并行、中斷、選擇等范式,以滿足不同場景下的需求。 對接擴展則提供了與其他協(xié)議框架的接口,方便用戶將exgraph集成到現(xiàn)有的系統(tǒng)中。 總之,exgraph圖執(zhí)行引擎設(shè)計的目標(biāo)是實現(xiàn)高效、靈活的任務(wù)編排,以滿足復(fù)雜邏輯處理需求。
01
背景
搜索展現(xiàn)架構(gòu)承載模版選擇、實時摘要補充、展現(xiàn)數(shù)據(jù)適配、結(jié)果渲染等職責(zé),當(dāng)前由PHP開發(fā)、HHVM執(zhí)行,對接數(shù)十個產(chǎn)品線,數(shù)百個精細化的展現(xiàn)策略由100+RD共同開發(fā)。隨著搜索業(yè)務(wù)產(chǎn)品日益復(fù)雜和生成式大模型產(chǎn)品開發(fā)需要,展現(xiàn)架構(gòu)面臨以下難題:
1、HHVM基礎(chǔ)設(shè)施停止維護,且不支持異步并行支持,架構(gòu)升級難度大;
2、歷史累計的多個展現(xiàn)策略框架分布在各個階段,且各自參數(shù)不同,研發(fā)難度大。
通過調(diào)研,了解到DAG有向無環(huán)圖,將DAG圖中頂點描述為業(yè)務(wù)拆分后的一個個算子,邊及其方向作為執(zhí)行順序,一對一作為串行執(zhí)行,一對多作為并發(fā)執(zhí)行,即使是很復(fù)雜的業(yè)務(wù)也可以用這套邏輯進行表達。且代碼實現(xiàn)較簡單,還能用graphviz將DAG圖生成圖片,將整個邏輯可視化。
△算子化后的邏輯執(zhí)行視圖
好像很完美~~
但似乎還有些問題:
1、對于簡單邏輯,DAG圖不復(fù)雜,用graphviz構(gòu)建圖也很簡單,但一旦頂點數(shù)量爆發(fā),可閱讀性急速下降。而不幸的是,搜索的PHP模塊幾百個策略,如果遷移進來,預(yù)計會有幾百個頂點,構(gòu)建這個圖以及這個圖的可讀性,依然很差;
2、簡單意味著功能弱。
比如搜索有多種版式:手百內(nèi)、手百外、純NA渲染等,下游頂點根據(jù)上游頂點的執(zhí)行結(jié)果來選擇不同的版式渲染。這種場景下只能呆呆的在每個版式頂點內(nèi)自行判斷是否執(zhí)行,而不能由上游頂點直接選擇一個版式分支執(zhí)行。
比如執(zhí)行到某個頂點,發(fā)現(xiàn)后續(xù)不用執(zhí)行了,邏輯執(zhí)行沒有好的退場機制。
各個算子間傳遞數(shù)據(jù)怎么處理。
...
02
圖執(zhí)行引擎
DAG能滿足大多數(shù)場景的需要,但依然不夠。所以搜索設(shè)計了一套超集于DAG的圖描述,并在這個描述上,添加邏輯執(zhí)行的高級功能,與web框架進行融合,逐步誕生了exgraph圖執(zhí)行引擎。
exgraph圖執(zhí)行引擎設(shè)計重點分成兩個三個部分:圖描述語言、圖執(zhí)行引擎、對接擴展(用來對接協(xié)議框架)。
? ?
2.1 圖描述語言
2.1.1 核心語法
算子:業(yè)務(wù)執(zhí)行的最小單位,通常一個單詞就是一個算子(語法單獨定義的關(guān)鍵詞除外)。
串行組:即兩個算子按照順序執(zhí)行,在圖上表示為用箭頭連接:
△串行組
并發(fā)組:即多個算子并發(fā)的執(zhí)行,在圖上用中括號?[]?包圍:
△并發(fā)組
屬性:圖上所有用大括號?{}?包圍的,都是屬性。屬性用于通過圖描述傳遞參數(shù)給代碼。
△屬性
算子、串行組、并發(fā)組都是一個執(zhí)行單元,意味著,他們可以互相包含(算子是最小的執(zhí)行單元,不能包含別的執(zhí)行單元)。比如:
△互相包含
上面的這個描述,用人話說就是:
1、執(zhí)行a算子
2、并發(fā)地:
執(zhí)行b算子,
執(zhí)行c算子,然后執(zhí)行d算子,然后執(zhí)行e算子
執(zhí)行f算子,然后再并發(fā)地執(zhí)行g(shù)算子和h算子
3、最后再執(zhí)行i算子
子圖:主圖支持通過文件引入的方式,引入另一個圖嵌入到主圖
△主圖引入sub_graph子圖
通過上面簡單的介紹,你已經(jīng)掌握幾乎全部圖描述語言語法了,可以開始思考,將自己所負責(zé)的業(yè)務(wù)如何用圖進行描述了。
另外,為了更好的適配業(yè)務(wù)場景,exgraph還設(shè)計了幾種指令來處理特殊場景。
擴展指令
START指令:圖開始的標(biāo)記,用做給圖設(shè)置屬性。
△START指令
目前START指令用來指導(dǎo)創(chuàng)建HTTP的handler,直接讓圖引擎承接http處理、streaming rpc處理請求。
MIDWARE指令:包裝含義。
△MIDWARE指令
可以在執(zhí)行c算子前,先執(zhí)行b算子,并控制是否執(zhí)行c算子;也可以在執(zhí)行c算子前后,執(zhí)行一些通用的邏輯。
SWITCH指令:選擇執(zhí)行分支。
△SWITCH指令
可以在?switch_pc_or_wise?算子內(nèi),選擇執(zhí)行哪個分支。
基于圖描述語言,用純文本的方式就可以將業(yè)務(wù)整體描述,很好的解決了DAG圖構(gòu)圖復(fù)雜性問題,并允許自定義一些高級用法。
2.2圖執(zhí)行引擎
上面介紹的圖描述語言,讓“人”可以更加簡單的方式了解到程序的執(zhí)行流程,但也僅僅只是個描述而已。
如何讓其按照我們設(shè)定的描述將邏輯跑起來呢?
首先介紹一個重要的、執(zhí)行單元必須實現(xiàn)的接口:
type Job interface{ DoImpl(*engine.Context) error }
其中*Context負責(zé)傳遞所有信息到各個算子,提供:算子選項(算子{}附帶的內(nèi)容)內(nèi)容獲取、數(shù)據(jù)傳遞等功能。
在上面的章節(jié)中講到算子、串行組、并發(fā)組都是一個執(zhí)行單元,其實就是說,它們都實現(xiàn)了Job接口。
exgraph圖執(zhí)行引擎是:將圖解析后的語法樹作為入?yún)ⅲ钆淙炙阕幼裕屗阕影凑疹A(yù)定的規(guī)則執(zhí)行起來。
它的執(zhí)行過程近似于:
em~~,簡單的有點像把大象放冰箱的過程,但實際遠不止如此。
想一下,如果你執(zhí)行到a算子,發(fā)現(xiàn)沒有必要執(zhí)行b算子了,怎么辦?又或者a有數(shù)據(jù)要傳遞到b算子,怎么辦?
2.2.1 對象容器
exgraph中實現(xiàn)了一個并發(fā)安全的對象容器,用戶可以通過*engine.Context提供的接口,方便的設(shè)置和獲取對象,就像這樣:
type a struct {} func (o *a) DoImpl(ctx *Context) error { // 算子a,設(shè)置對象 var a int = 2023 ctx.RegisterInstance(&a) return nil } type b struct {} func (o *b) DoImpl(ctx *Context) error { var a int // 通過類型獲取值 ctx.MutableInstance(&a) // 打印2023 fmt.Println(a) return nil }
對象容器再存入時,將其類型作為標(biāo)識符,取值時也通過相同類型的變量,通過反射賦值。
2.2.2依賴注入和對象導(dǎo)出
有了對象容器,exgraph設(shè)計了支持基于struct tag的對象依賴注入和導(dǎo)出功能,且采用腳本生成代碼的方式實現(xiàn):
type Operator struct { http.Request `inject:""` http.Response `inject:"canLost=true,canNil=true"` *Userinfo `extract:"canNil=true"` } type UserInfo struct { Name string } func (o *Operator) DoImpl(engine.Context) error { // 通過inject,算子內(nèi)可以直接獲取到Request對象 if v, ok := o.Request.Header.Get("xx"); ok { // do something } return nil }
利用struct tag和生成的代碼,用戶在使用算子時,實現(xiàn)了以下功能:
1、inject tag可以直接通過算子屬性獲取對象,省去了繁瑣的取值過程,并支持:canLost=true表示允許對象不存在,canNil=true表示循序?qū)ο笾禐閚il。
2、extract tag則允許用戶直接賦值為算子屬性,由生成的代碼賦值將對象導(dǎo)出到對象容器中,且支持:canNil=true表示允許導(dǎo)出對象值為nil,repace=true表示允許替換對象。
2.2.3 中斷和跳過
為方便程序邏輯執(zhí)行,exgraph內(nèi)置了幾種中斷跳過邏輯:
1、全局錯誤中斷
type a struct {} func (o *a) DoImpl(ctx *Context) error { // 模擬業(yè)務(wù)執(zhí)行遇到了不可兜底的錯誤 err := errors.New("fatal error") // 調(diào)用Abort函數(shù)即可中斷整個圖執(zhí)行引擎 ctx.Abort(err) return nil }
2、全局正常中斷
type a struct {} func (o *a) DoImpl(ctx *Context) error { // 發(fā)現(xiàn)沒必要走后面的邏輯 // 直接中斷整個圖執(zhí)行引擎 ctx.Exit() return nil }
3、跳過串行組
type a struct {} func (o *a) DoImpl (ctx *Context) error { // a算子執(zhí)行跳過`a -> b`這個子集串行組 // 即b算子不再執(zhí)行,但c算子正常執(zhí)行 ctx.SkipSerialGroup() return nil }
2.3執(zhí)行優(yōu)化
exgraph執(zhí)行的一個聲明周期內(nèi),大部分對象都允許池化。
2.3.1對象池
對于算子:exgraph內(nèi)部對每個注冊的算子,都是注冊到一個sync.Pool中,算子對象在執(zhí)行完成后,執(zhí)行reset后返回到對象池內(nèi)。
對于放入對象容器的對象:在exgraph執(zhí)行引擎結(jié)束時,會循環(huán)對每個對象檢測是否實現(xiàn)了Release接口,如果實現(xiàn)接口就會調(diào)用,用戶就可以在Release時將對象reset后返回對象池內(nèi)。
2.3.2其他優(yōu)化
exgraph在執(zhí)行每個算子時默認在當(dāng)前goroutine執(zhí)行,除非用戶顯示的給算子設(shè)置了超時時間a{timeout="1s"}。
依賴注入和對象導(dǎo)出,是基于腳本生成代碼的,而非反射。
03
場景案例
3.1 同路徑不同邏輯
背景:搜索PC和wise(移動端)同模塊執(zhí)行,檢索路徑都為/s
方案:可以用SWITCH選擇模式,通過一個算子來判斷使用哪個分支:
3.2PHP策略遷移Go
背景:搜索展現(xiàn)架構(gòu)當(dāng)前逐步由PHP遷移到Go。在過渡期,PHP代碼遷移到Go之后,需要通過抽樣驗證Go代碼邏輯無誤,即:命中抽樣,執(zhí)行Go代碼,否則執(zhí)行PHP代碼。而且需要遷移的PHP策略很多,如果沒有統(tǒng)一的機制來支持,成本很高。
方案:用MIDWARE指令,用CommonDealPhpOrGoStrategy算子作為判斷包裝,判斷命中抽樣時,允許執(zhí)行DemoStrategy1算子,并帶標(biāo)識到PHP,不執(zhí)行PHP相應(yīng)邏輯。
否則不執(zhí)行DemoStrategy1而執(zhí)行PHP相應(yīng)邏輯。
關(guān)鍵的是,遷移后的Go算子都不需要做特殊處理,正常遷移代碼加上MIDWARE就能支持以上功能。
審核編輯:劉清
-
RPC
+關(guān)注
關(guān)注
0文章
111瀏覽量
11529 -
PHP
+關(guān)注
關(guān)注
0文章
452瀏覽量
26678 -
DAG
+關(guān)注
關(guān)注
0文章
17瀏覽量
8146
原文標(biāo)題:百度搜索exgraph圖執(zhí)行引擎設(shè)計與實踐
文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論