戰(zhàn)斗機嵌入式訓練系統(tǒng)中的智能虛擬陪練
摘智能化“實虛”對抗是現(xiàn)代先進戰(zhàn)斗機嵌入式訓練系統(tǒng)的重要功能需求。自主空戰(zhàn)決策控制技術(shù)在未來空戰(zhàn)裝備發(fā)展中扮演關(guān)鍵角色。將當前的功能需求和發(fā)展中的技術(shù)結(jié)合起來,得到了空戰(zhàn)智能虛擬陪練的概念。先進控制決策技術(shù)的引入使得智能虛擬陪練能夠幫助飛行員完成復雜的戰(zhàn)術(shù)訓練,而訓練中真實的對抗場景為技術(shù)的驗證提供了理想的環(huán)境,大量的訓練數(shù)據(jù)為技術(shù)的持續(xù)迭代優(yōu)化提供了保障。作為可學習和進化的空戰(zhàn)戰(zhàn)術(shù)專家,智能陪練在人機對抗和自我對抗中不斷優(yōu)化,當其具備與人相當甚至超越人的戰(zhàn)術(shù)能力時,可應用于未來的無人空戰(zhàn)系統(tǒng)。智能虛擬陪練需要具備4項基本能力:智能決策能力、知識學習能力、對抗自優(yōu)化能力和參數(shù)化表示能力。對其包含的關(guān)鍵技術(shù)進行了分析,提出并實現(xiàn)了一個基于模糊推理、神經(jīng)網(wǎng)絡和強化學習的解決方案,展示了其各項基本能力及目前達到的空戰(zhàn)水平。未來更多的模型和算法可在智能虛擬陪練的框架中進行驗證和優(yōu)化。
現(xiàn)代戰(zhàn)斗機裝備的嵌入式訓練系統(tǒng)一般有“實對實”訓練和“實對虛”訓練2種模式[1]。其中“實對實”訓練是最接近實戰(zhàn)的模式,但占用資源多,組織難度大,且存在“假想敵”扮演逼真度有限的問題。“實對虛”訓練通過計算機生成數(shù)字虛擬目標,可以對“假想敵”的平臺、武器和傳感器性能進行模擬,能夠根據(jù)訓練需要生成任意的交戰(zhàn)場景,從而有效提高空戰(zhàn)訓練的針對性,擴大訓練覆蓋面,提升訓練效率[2]。
空戰(zhàn)戰(zhàn)術(shù)訓練要求虛擬目標具備一定的智能水平[3]。通過建立空戰(zhàn)規(guī)則庫和戰(zhàn)術(shù)庫,賦予虛擬目標基本的戰(zhàn)術(shù)響應能力,使“實”、“虛”之間可以進行簡單的對抗[4-5]。通過將空戰(zhàn)戰(zhàn)法分解為時序動作,可以實現(xiàn)對某些特定戰(zhàn)法的模擬[6]。進一步提高虛擬目標的智能水平,實現(xiàn)更復雜更有針對性的戰(zhàn)術(shù)演練,是嵌入式訓練系統(tǒng)的客觀需求[7-8]。
拋開具體的訓練場景,將虛擬目標視作一個獨立的空戰(zhàn)智能體,虛擬目標智能化所需解決的核心問題即為自主空戰(zhàn)的決策與控制。而以實現(xiàn)無人機自主空戰(zhàn)為目標,國內(nèi)外進行了各類研究探索[9-11]。其中常用的模型包括影響圖[12-13]、矩陣博弈[14]、微分對策[15]、動態(tài)規(guī)劃[16-18]、模糊推理[19-23]、貝葉斯網(wǎng)絡[24-25]等。這些模型大體上可以分為2類,一類是通過建立各式各樣的“優(yōu)勢函數(shù)”,將空戰(zhàn)問題轉(zhuǎn)化為優(yōu)化問題求解;另一類則是模仿人類思維過程建立基于規(guī)則的模型。基于“優(yōu)勢函數(shù)”的模型為保證其可解性,一般將空戰(zhàn)問題大幅簡化,采用的“優(yōu)勢函數(shù)”大多欠缺嚴格的物理依據(jù),或者忽略了空戰(zhàn)中的重要約束(如中距導彈的中制導過程),導致其實用價值有限。基于規(guī)則的模型在處理簡單戰(zhàn)術(shù)的時候較為合適,但隨著輸入?yún)?shù)和戰(zhàn)術(shù)選擇的增多,遭遇到維數(shù)爆炸問題。
隨著近年來深度學習引領的人工智能技術(shù)的又一次大爆發(fā)[26-27],自主空戰(zhàn)決策控制的研究有了新的突破方向。基于神經(jīng)網(wǎng)絡和強化學習的模型開始進入研究人員的視線,在解決空戰(zhàn)機動決策[28-32]、路徑規(guī)劃[33]和目標分配[34]等方面初步顯示了其能力。機器學習算法帶來了新的方向,同時也暴露了該領域研究存在的客觀問題。空戰(zhàn)對抗非零和的數(shù)學本質(zhì)決定了先驗知識對模型的重要性[35],機器學習算法本身也需要大量的數(shù)據(jù)作為基礎,而先進戰(zhàn)斗機之間的空戰(zhàn)對抗數(shù)據(jù)目前多產(chǎn)生于航空兵部隊的內(nèi)部訓練中,研發(fā)人員不易接觸[36];基于各類機器學習技術(shù)的模型需要一個持續(xù)的迭代優(yōu)化過程,而機載軟件的安全性要求決定了其不能頻繁更換;在各類簡化環(huán)境下訓練得到的模型在真實對抗中的性能有待檢驗。
結(jié)合虛擬目標智能化提升和自主空戰(zhàn)技術(shù)發(fā)展2方面的需求,本文提出智能虛擬陪練的概念。智能虛擬陪練,是具備自主決策控制能力的空戰(zhàn)戰(zhàn)術(shù)訓練虛擬對手,及其自主空戰(zhàn)能力學習進化支持體系。其依托于機載嵌入式訓練系統(tǒng),此外還有配套的維護和開發(fā)系統(tǒng)。不同于目前的虛擬目標,智能虛擬陪練不再是為完成某些特定訓練情景任務而設計,而是具備完整獨立的空戰(zhàn)決策和控制能力,在幫助飛行員訓練的同時自身也在不斷進化。
通過引入自主空戰(zhàn)決策控制技術(shù),使智能虛擬陪練能夠滿足復雜空戰(zhàn)戰(zhàn)術(shù)演練的需求;通過賦予智能虛擬陪練監(jiān)督學習能力,使其能夠?qū)W習“假想敵”戰(zhàn)術(shù)特點,從而滿足針對性訓練需要;通過對嵌入式訓練系統(tǒng)記錄的對抗數(shù)據(jù)的整理分析,為模型的機器學習提供先驗知識和優(yōu)化訓練樣本;通過賦予智能虛擬陪練對抗優(yōu)化能力,使其能夠在“人機”對抗和機器自對抗中不斷進化;通過實現(xiàn)核心模型的便捷配置,為模型算法的快速迭代提供途徑。
智能虛擬陪練不僅是未來嵌入式訓練系統(tǒng)“實虛對抗”功能(如圖1所示)的重要組成,還是自主空戰(zhàn)決策控制技術(shù)迭代優(yōu)化和實驗驗證的重要工具,是空戰(zhàn)訓練和新技術(shù)研發(fā)耦合進步的紐帶,為下一步從虛擬走向真實,從陪練走向主角打下基礎。
1 智能虛擬陪練的能力需求
智能虛擬陪練的運行場景如圖2所示。智能虛擬陪練不僅要實現(xiàn)嵌入式訓練系統(tǒng)實虛對抗的智能化,還要實現(xiàn)其自主空戰(zhàn)能力的不斷進化。智能虛擬陪練的基本能力要求包括以下3項。
1.1 智能戰(zhàn)術(shù)決策和控制
智能虛擬陪練能夠根據(jù)任務目標(奪取制空權(quán)、要地防守、區(qū)域突襲等),綜合考慮交戰(zhàn)雙方的平臺性能(機動性能、滯空時間、隱身性能等)、武器性能(武器射程、導引頭截獲距離、命中概率等)和傳感器性能(探測距離范圍和角度范圍),對空中態(tài)勢做出快速合理的戰(zhàn)術(shù)響應。其機動動作的控制應為實現(xiàn)相應機動目的的最優(yōu)或次優(yōu)解。
與專家經(jīng)驗和戰(zhàn)術(shù)資料不同,空戰(zhàn)對抗演習數(shù)據(jù)中沒有顯式的規(guī)則,需要用相應的識別算法挖掘出其中的戰(zhàn)術(shù)決策知識。
1.2 空戰(zhàn)戰(zhàn)術(shù)對抗優(yōu)化
經(jīng)過對空戰(zhàn)先驗知識的學習,智能虛擬陪練可以具備基本的空戰(zhàn)能力。人機對抗和機器自對抗可以進一步優(yōu)化模型和提升戰(zhàn)術(shù)水平。人機對抗,既包括空戰(zhàn)專家在模擬器上與智能虛擬陪練的對抗,也包括飛行員在空中進行的實虛對抗訓練。對抗數(shù)據(jù)可存入數(shù)據(jù)庫用于模型的自動優(yōu)化。
機器自對抗是智能虛擬陪練自動優(yōu)化的重要手段。通過采用大規(guī)模并行計算等手段,機器自對抗可在較短時間內(nèi)積累大量的對抗數(shù)據(jù)。通過機器自對抗,不僅可以對監(jiān)督訓練得到的戰(zhàn)術(shù)決策模型進行調(diào)整優(yōu)化,還可以自動探索空戰(zhàn)戰(zhàn)術(shù),發(fā)現(xiàn)未被人發(fā)現(xiàn)和使用過的戰(zhàn)術(shù)。
1.3 核心模型參數(shù)化表示
智能虛擬陪練的核心決策控制模型實現(xiàn)參數(shù)化表示,可通過軟件配置文件加載,從而實現(xiàn)模型的便捷更換。對用戶來說,根據(jù)訓練任務的不同,可以靈活選擇決策控制模型。對研發(fā)方來說,智能虛擬陪練的決策控制模型一直處于訓練優(yōu)化的進程中,在得到階段性成果后即可快速投入測試和使用。
2 智能虛擬陪練的關(guān)鍵技術(shù)
按照上述基本能力要求,可以得到智能虛擬陪練的基本功能邏輯,進一步可以將智能虛擬陪練進行詳細的功能劃分,如圖3所示。
智能虛擬陪練分為應用端和開發(fā)維護端。應用端由傳感器模擬、決策控制核心模型、武器接口模擬和飛機平臺模擬4個部分組成。決策控制核心模型包含態(tài)勢計算、決策計算和戰(zhàn)術(shù)控制計算3個模塊。開發(fā)和維護端包含先驗規(guī)則庫、基于規(guī)則的決策控制模型,參數(shù)化決策控制模型,以及對抗運行環(huán)境。
2.1 應用端關(guān)鍵技術(shù)
2.1.1 態(tài)勢計算
態(tài)勢計算一直是空戰(zhàn)決策控制研究的重點問題,常用的模型包括指標體系[37]、D-S證據(jù)理論[38]、貝葉斯網(wǎng)絡[39]等。近年來基于神經(jīng)網(wǎng)絡的態(tài)勢評估方法也不斷出現(xiàn)[40-41]。智能虛擬陪練的態(tài)勢計算要求必須考慮交戰(zhàn)雙方的平臺、武器和傳感器性能。目前常用的主觀構(gòu)建的各類優(yōu)勢函數(shù),普遍缺乏對性能因素的定量考慮。建立基于空戰(zhàn)物理規(guī)律的態(tài)勢評估模型,是實現(xiàn)空戰(zhàn)智能決策控制所需解決的首要問題。
2.1.2 決策計算
以空中敵我運動參數(shù),我方平臺狀態(tài)、武器狀態(tài)、傳感器狀態(tài),以及態(tài)勢計算得到的角色任務、目標威脅度、我方導彈命中概率等參數(shù)為輸入,進行戰(zhàn)術(shù)決策計算。
決策計算的實現(xiàn)有2種思路。一種是“推演”式?jīng)Q策。決策模型在決策過程中,需要同時模擬雙方的戰(zhàn)術(shù)響應進行多步推演,根據(jù)推演的結(jié)果進行戰(zhàn)術(shù)選擇。AlfaGo等棋類人工智能使用的MCTS[42]算法即為典型的“推演”式?jīng)Q策;另一類則是“反應式”決策,也即決策模型是決策輸入到輸出的直接映射,決策計算一步完成。本質(zhì)上“反應式”決策模型是一個從態(tài)勢輸入到最優(yōu)響應戰(zhàn)術(shù)的函數(shù)。目前空戰(zhàn)領域研究的多為“反應式”決策模型。“推演式”決策的理論研究是一個值得期待的方向。
在使用復雜機器學習算法時,需要考慮機載嵌入式環(huán)境的硬件資源限制。
2.1.3 戰(zhàn)術(shù)控制計算
戰(zhàn)術(shù)控制包括飛機平臺機動控制、武器控制和傳感器控制。現(xiàn)代先進戰(zhàn)斗機配備放寬靜穩(wěn)定電傳飛控系統(tǒng)。為發(fā)揮飛機最大的機動性能,在飛控系統(tǒng)內(nèi)設計高級戰(zhàn)術(shù)機動動作庫,戰(zhàn)術(shù)決策輸出則為動作選擇。每一個戰(zhàn)術(shù)機動都設有其優(yōu)化目標和限制條件,飛控系統(tǒng)基于此求解最優(yōu)控制策略。高級戰(zhàn)術(shù)機動包含的要素如表1所示。
傳感器的輻射狀態(tài)、工作模式和搜索區(qū)域是重要的戰(zhàn)術(shù)控制對象。武器則是發(fā)射流程和發(fā)射模式需要控制。
2.1.4 傳感器模擬
為了提高智能虛擬陪練的逼真度,各類傳感器的數(shù)字模型需要對其性能參數(shù)和工作邏輯進行模擬。例如,雷達有搜索模式和跟蹤模式的區(qū)別,搜索范圍受框架角限制[43],存在速度過零現(xiàn)象等。
2.2 開發(fā)維護端關(guān)鍵技術(shù)
2.2.1 從專家經(jīng)驗、戰(zhàn)術(shù)資料中識別戰(zhàn)術(shù)規(guī)則
從專家和戰(zhàn)術(shù)資料的自然語言表述中,識別出決策模型適用的空戰(zhàn)戰(zhàn)術(shù)規(guī)則,一般即為“IF-THEN”形式。
2.2.2 從對抗數(shù)據(jù)中識別戰(zhàn)術(shù)規(guī)則
嵌入式訓練系統(tǒng)記錄的對抗數(shù)據(jù),需要進行時空對準、航跡關(guān)聯(lián)等操作后,才能轉(zhuǎn)化為信息完備的空中交戰(zhàn)態(tài)勢。從交戰(zhàn)中飛行員駕駛飛機的運動參數(shù)和狀態(tài)變化,識別其采取了什么戰(zhàn)術(shù)(智能虛擬陪練則是直接記錄了戰(zhàn)術(shù)決策過程),這樣才能得到“IF-THEN”形式的規(guī)則。
2.2.3 基于規(guī)則的決策模型產(chǎn)生參數(shù)化決策模型
基于規(guī)則的模型便于建立,參數(shù)化模型則便于進行自動優(yōu)化和模型配置。由規(guī)則模型訓練參數(shù)化模型已證明可行[44]。另一種思路則是將規(guī)則模型本身參數(shù)化,如美國某公司提出的進化模糊推理系統(tǒng)[23,45],其中對模糊推理系統(tǒng)的隸屬度函數(shù)和規(guī)則都進行了參數(shù)化。
2.2.4 智能虛擬陪練自對抗優(yōu)化
近年來引起廣泛關(guān)注的AlfaGo[42]、AlfaGo Zero[46]、AlfaStar模型等展現(xiàn)了基于深度強化學習的智能體的強大的自對抗優(yōu)化能力。美國某公司則號稱其使用遺傳算法優(yōu)化模糊推理樹,實現(xiàn)了超越專家飛行員的空戰(zhàn)水平[23,45],其核心也是模型自對抗。智能虛擬陪練的自對抗優(yōu)化,不僅能實現(xiàn)對先驗知識的優(yōu)化,還可以充分挖掘既有戰(zhàn)術(shù)庫的潛能,甚至創(chuàng)造目前沒有的空戰(zhàn)策略。此外,通過自對抗優(yōu)化,智能虛擬陪練能夠自動適應平臺、武器或傳感器性能的變化,使其具備高度的各向兼容性。
2.2.5 對抗運行環(huán)境
智能虛擬陪練自對抗需要在高速并行計算環(huán)境下運行,除了硬件平臺的支持,模型算法也需要適配[47-48]。
3 智能虛擬陪練的解決方案
3.1 解決方案
為驗證上述智能虛擬陪練功能邏輯合理性和相關(guān)關(guān)鍵技術(shù)的可行性,本文提出了一個初步解決方案并進行了實驗驗證。下面介紹方案的關(guān)鍵技術(shù)和實驗驗證情況。圖4為這個方案的應用端部分,其中決策計算部分包含模糊推理和神經(jīng)網(wǎng)絡2個模型,在不同的階段需要使用不同的模型。
3.1.1 傳感器和武器
傳感器層包括了紅外告警和雷達、雷達告警的仿真模型。各模型中除引入了各項性能限制外,還加入了重要的工作邏輯,如雷達搜索和跟蹤模式的切換等。武器為中距導彈。其仿真模型包括發(fā)動機推力模型、導彈氣動模型和導引頭模型。
3.1.2 態(tài)勢計算
在態(tài)勢計算方面,拋棄了傳統(tǒng)的基于主觀賦權(quán)或優(yōu)勢函數(shù)的態(tài)勢評估方法,以平臺、武器和傳感器性能為依據(jù),按照空戰(zhàn)物理原理建立了空戰(zhàn)態(tài)勢評估模型。態(tài)勢評估模型的典型輸出示例如表2所示。
在這個解決方案中,態(tài)勢計算模塊除對單機交戰(zhàn)態(tài)勢進行評估計算,還可以完成編隊角色分配和目標分配的計算工作。
3.1.3 空戰(zhàn)戰(zhàn)術(shù)庫和規(guī)則庫
以超視距空戰(zhàn)為研究對象,分析和整理了經(jīng)典的超視距空戰(zhàn)戰(zhàn)術(shù),構(gòu)建了戰(zhàn)術(shù)動作庫,如表3所示。以人工方式識別專家經(jīng)驗和戰(zhàn)術(shù)資料中的戰(zhàn)術(shù)規(guī)則,構(gòu)建了戰(zhàn)術(shù)規(guī)則庫。共得到10種戰(zhàn)術(shù)動作,60條 戰(zhàn)術(shù)規(guī)則。為每一個戰(zhàn)術(shù)動作設計相應的控制律,將其封裝成高級戰(zhàn)術(shù)動作控制器。
3.1.4 模糊推理戰(zhàn)術(shù)決策模型
在規(guī)則庫和戰(zhàn)術(shù)庫的基礎上,建立一個模糊推理戰(zhàn)術(shù)決策模型[23]。對模糊推理模型進行了參數(shù)化改造,使其推理規(guī)則、模糊隸屬度函數(shù)等均可以進行參數(shù)化表示,如圖5所示(編碼“0”表示該項輸入/輸出未被引用)。將隸屬度函數(shù)的各個關(guān)鍵點用其坐標來表示,調(diào)節(jié)關(guān)鍵點坐標即可完成對隸屬度函數(shù)的調(diào)節(jié)。任意一條規(guī)則包含其引用的輸入和輸出,以及各項輸入輸出的語義值。將模糊推理系統(tǒng)涉及的所有輸入和輸出按序編碼,對語義也作編碼處理,就可以簡單的實現(xiàn)對規(guī)則的參數(shù)化表達。
通過調(diào)節(jié)推理規(guī)則和模糊隸屬度函數(shù)參數(shù),使決策模型的響應與規(guī)則庫中的經(jīng)驗知識基本一致。
使用配置該模型的紅藍雙方進行模擬對抗,對抗場景和雙方的武器配置隨機生成,記錄紅藍雙方各自的決策輸入和輸出。以實驗中的一次模型生成周期中的數(shù)據(jù)為例,紅藍對抗得到總計2 204場的對抗數(shù)據(jù),對應4 408架次的模型決策序列。
3.1.5 神經(jīng)網(wǎng)路戰(zhàn)術(shù)決策模型
模糊推理模型相互對抗產(chǎn)生的數(shù)據(jù)為參數(shù)化模型的建立提供了初始樣本。建立了一個BP神經(jīng)網(wǎng)絡模型。網(wǎng)絡結(jié)構(gòu)為輸入30維,輸出10維,2隱層,網(wǎng)絡權(quán)值參數(shù)總量為1 541。用上述對抗數(shù)據(jù)對其進行有監(jiān)督訓練。隨后使用該模型組織紅藍模擬對抗,對抗裁決器根據(jù)交戰(zhàn)結(jié)果分別給予紅藍雙方獎勵或懲罰。神經(jīng)網(wǎng)絡決策模型使用記錄的對抗過程數(shù)據(jù)和最后的獎懲進行強化學習,實現(xiàn)模型優(yōu)化,決策模型生成過程如圖6所示。對抗優(yōu)化過程的實現(xiàn)參考文獻[47-48]中的深度學習神經(jīng)網(wǎng)絡(DQN)算法。這里沒有使用文獻[47-48]中的深度卷積神經(jīng)網(wǎng)絡,這是由于在此問題中,決策輸入是由傳感器輸出和態(tài)勢計算輸出組成的一維狀態(tài)向量,而不是卷積神經(jīng)網(wǎng)絡擅長處理的二維圖像信息。
在DQN處理的棋類和電視游戲中,決策通常是從一個相對固定的初始狀態(tài)開始的。而在實際空戰(zhàn)中,交戰(zhàn)初始條件,包括雙方的初始態(tài)勢和初始武器配置,是在一定范圍內(nèi)隨機的。棋類游戲中雙方初始態(tài)勢為均衡,而空戰(zhàn)決策模型必須能夠處理初始態(tài)勢非均衡的交戰(zhàn)問題。這就使得初始條件對交戰(zhàn)結(jié)果的影響在對抗優(yōu)化中不可忽略。如圖7所示,初始已經(jīng)處于絕對劣勢的一方,無論作出何種戰(zhàn)術(shù)決策,都會被擊落。在這種情況下,仍直接按照勝獎敗懲的原理給予決策模型反饋,強化學習算法將難以收斂。
這里采取了一種“主-客”機制來解決這個問題:雙方完成一次對抗后,互換初始條件,綜合2場對抗的結(jié)果來進行獎懲,以消除初始態(tài)勢的影響。在圖7中,假設擊落獎勵1,被擊落獎勵-1,否則獎勵0。采用2場獎勵平均的方法進行綜合。那么在互換態(tài)勢前后,雙方相互擊落一次,因此各自得到獎勵為0。而如果有一方能夠在處于劣勢時不被擊落,那么綜合2場結(jié)果其將被獎勵0.5,對方則獎勵-0.5。
3.1.6 性能評估
選擇空戰(zhàn)交換比作為決策模型性能的評估標準。交換比定義為一方被擊落次數(shù)與擊落對方次數(shù)的比。
3.2 基本能力驗證
第1節(jié)所述4項基本能力中,參數(shù)化表示能力已由模型的本身特性確保,另外3項需要進行實驗驗證。
3.2.1 先驗知識學習能力
神經(jīng)網(wǎng)絡模型在完成對2 204場對抗數(shù)據(jù)的學習后,其決策輸出與模糊推理模型輸出的對比如圖8所示。可以看出,神經(jīng)網(wǎng)絡輸出在保持其趨勢和模糊推理模型基本一致的基礎上,反復震蕩的現(xiàn)象明顯減少了。在完成有監(jiān)督訓練后,神經(jīng)網(wǎng)絡模型對模糊推理模型的交換比為1∶1.16。這顯示了神經(jīng)網(wǎng)絡完全掌握了模糊推理規(guī)則庫中的先驗知識。同時由于其克服了模糊推理模型輸出震蕩的問題,性能略有提升。
進一步的,在具體的仿真對抗場景下驗證智能虛擬陪練對戰(zhàn)術(shù)規(guī)則的掌握情況。對抗中紅藍雙方使用相同版本的決策模型。
1) 三代機對三代機基本戰(zhàn)術(shù)
圖9中紅藍雙方均為三代機平臺,傳感器武器配置相同。雙方初始態(tài)勢為均勢(同高度同速度),迎頭進入空戰(zhàn)。雙方各自躲掉前2發(fā)導彈(第2發(fā)圖中未顯示),在此過程中雙方持續(xù)下降高度,武器射程縮短,雙方距離逐漸縮小。紅方最后掉頭時機不當被擊落。紅藍雙方為同版本模型但決策出現(xiàn)差異的原因在于對抗中存在隨機擾動因素,包括傳感器探測誤差和決策模型的戰(zhàn)術(shù)隨機探索。從這里可以看出,在平臺、傳感器和武器性能相同且初始態(tài)勢一致的前提下,決定空戰(zhàn)勝負的即是決策的細微差異。圖10展示了雙方從第2次攻擊到對抗結(jié)束的決策輸出。在實際的三代機超視距空戰(zhàn)中,適時置尾規(guī)避敵機導彈,再回轉(zhuǎn)繼續(xù)攻擊,是常見且合理的戰(zhàn)術(shù)。
2) 三代機對四代機基本戰(zhàn)術(shù)
圖11中紅方為三代機平臺,藍方為四代機平臺。藍方具有隱身優(yōu)勢。雙方初始態(tài)勢為均勢,迎頭進入空戰(zhàn)。藍方先發(fā)現(xiàn)紅方。紅方在收到雷達告警后,開始做切向機動,破壞藍方跟蹤的同時逼近藍方,成功規(guī)避藍方第1發(fā)導彈。最終紅方逼近到雷達可以發(fā)現(xiàn)藍方的距離,雙方相互攻擊,紅方因開火時間晚先被擊落,但其導彈已對藍方構(gòu)成致命威脅。圖12展示了雙方對抗全程的決策輸出。三代機利用雷達的過零現(xiàn)象逼近四代機,是不多的可以取得一定效果的戰(zhàn)術(shù)選擇。
通過仿真對抗實驗可以看出,智能虛擬陪練掌握了不同平臺性能配置下的基本超視距空戰(zhàn)戰(zhàn)術(shù),其戰(zhàn)術(shù)響應合理正確,與已知的空戰(zhàn)經(jīng)驗知識基本符合。
3.2.2 對抗自優(yōu)化能力
在神經(jīng)網(wǎng)絡完成第1輪1 291場對抗優(yōu)化后,對模糊推理模型的交換比提高到1∶2.73。在完成第2輪765場對抗優(yōu)化后,對模糊推理模型的交換比提高到1∶3.6。交換比的提高顯示了自對抗對神經(jīng)網(wǎng)絡模型的優(yōu)化效果。
3.2.3 智能決策綜合能力
構(gòu)建復雜對抗場景,對解決方案中的態(tài)勢計算和決策模型進行更全面的能力驗證。這里以雙機編隊和單機的對抗作為仿真實驗場景。
紅藍雙方均為三代機平臺,傳感器和武器配備相同。紅方為雙機編隊,1號機前突,2號 機掩護。紅方1號機和藍方飛機相互攻擊。在導彈逼近到危險距離后,雙方開始機動規(guī)避。此時紅方2號機加速前突進行攻擊占位。紅方1號 機和藍方飛機各自成功規(guī)避導彈后開始掉頭。此時紅方1號機處于掩護位置,紅方2號機處于前突位置,紅方編隊完成了角色輪轉(zhuǎn)。藍方飛機掉頭后遭到紅方2號機導彈攻擊,不得不再次機動規(guī)避。此時紅方2號機繼續(xù)加速前突。在藍方規(guī)避掉導彈后,紅方2號機在超音速狀態(tài)下再次發(fā)射導彈。由于距離近,導彈初速高,藍方未能規(guī)避被擊落。此時紅方1號機也已到達攻擊發(fā)起位置,準備下一輪攻擊。
在這個對抗過程中,態(tài)勢計算模塊進行了正確合理的角色和任務分配,戰(zhàn)術(shù)決策模型在正確合理的時機選擇了導彈發(fā)射、置尾規(guī)避和回轉(zhuǎn)進攻等戰(zhàn)術(shù)動作,顯示了智能虛擬陪練在復雜對抗場景下具備較好的戰(zhàn)術(shù)決策能力。
該解決方案驗證了前面提出的智能虛擬陪練的功能邏輯和開發(fā)維護流程的合理性,證明了其中主要關(guān)鍵技術(shù)的可行性。此驗證方案中使用的規(guī)則庫和戰(zhàn)術(shù)庫內(nèi)容較少,神經(jīng)網(wǎng)絡規(guī)模較小,未使用并行計算,未實現(xiàn)規(guī)則的自動識別。模型裝機后得到人機對抗數(shù)據(jù),其中智能虛擬陪練的決策記錄可直接供神經(jīng)網(wǎng)絡模型回放強化學習,人的決策過程數(shù)據(jù)仍需要進行人工識別。
智能虛擬陪練的核心,也即空戰(zhàn)戰(zhàn)術(shù)決策和控制,是一個在迅速發(fā)展的研究熱點,各類模型算法,只要符合前面提出的基本功能要求,都可以通過智能虛擬陪練進行驗證和迭代。
4 從智能虛擬陪練到自主空戰(zhàn)
從智能虛擬陪練到自主空戰(zhàn)(如圖14所示),主要是從傳感器、武器和飛機平臺仿真模型,到真實的傳感器、武器和飛機平臺接口。智能虛擬陪練的決策和控制模型,則可以直接應用到無人自主空戰(zhàn)系統(tǒng)中。無人自主空戰(zhàn)系統(tǒng),既可以在現(xiàn)有有人機平臺上改裝,也可以是專門研制的制空型無人機。智能虛擬陪練的自對抗優(yōu)化能力,使其能夠適應平臺的變化。無論是哪一類平臺,智能虛擬陪練的意義在于,使這些無人自主空戰(zhàn)系統(tǒng)快速具備與人類飛行員相當甚至更好的戰(zhàn)術(shù)決策和控制能力,使其綜合作戰(zhàn)效能得到提升。
5 結(jié) 論
本文提出的智能虛擬陪練,既是空戰(zhàn)訓練發(fā)展的客觀需求,又是自主空戰(zhàn)技術(shù)實驗驗證的工具。拋開具體的有限的訓練情景,把智能虛擬陪練視作具有完全自主能力的空戰(zhàn)智能體,分析了其基本能力要求,得到其4項基本能力,即智能決策能力、學習能力、對抗自優(yōu)化能力和參數(shù)化表示的能力。據(jù)此設計了智能虛擬陪練的功能邏輯,并識別出了其中的關(guān)鍵技術(shù)。其中,基于規(guī)則的決策模型可以用來訓練參數(shù)化模型,而參數(shù)化模型進行自對抗優(yōu)化。以模糊推理模型、神經(jīng)網(wǎng)絡模型和強化學習算法實現(xiàn)了一個初步的智能虛擬陪練解決方案,實驗表明其能夠滿足4項基本能力要求,在不同平臺配置和不同場景下均能進行合理的戰(zhàn)術(shù)決策和控制。未來自主空戰(zhàn)領域的新模型、新算法,均可在智能虛擬陪練的框架下,按照4項基本能力的要求進行實驗驗證和迭代優(yōu)化。
審核編輯:湯梓紅
-
傳感器
+關(guān)注
關(guān)注
2550文章
51035瀏覽量
753085 -
嵌入式
+關(guān)注
關(guān)注
5082文章
19104瀏覽量
304829 -
戰(zhàn)斗機
+關(guān)注
關(guān)注
1文章
135瀏覽量
15660
發(fā)布評論請先 登錄
相關(guān)推薦
評論