1
引言
人工智能從誕生之始就以對抗人類智能為衡量準則(著名的圖靈測試)。作為人工智能研究的前沿方向,人機對抗技術一直是國內外人工智能研究的熱點,以人機對抗為主要形式的人工智能研究為探尋機器智能的內在生長機制和關鍵技術原理提供了一個極佳的試驗環境和驗證途徑.整個過程不僅能夠讓機器更加智能地為人類服務、將人類從一些繁復復雜的任務中解脫出來, 而且人類也能夠借鑒機器智能的發展過程,提升自身的智能水平,更深刻地理解和掌握智能的內在本質和產生機理,進而推動整個社會由信息化向智能化發展。 2
發展歷史
從1936年人工智能之父阿蘭?圖靈提出著名的“圖靈測試”之后,人和機器之間進行智能對抗就成為了衡量機器智能發展水平的最重要標準。從實現最初的簡單智能到不斷進化成更為復雜的智能,對抗貫穿于人工智能中計算、感知和認知的3個階段(圖1),從某種意義上講,就如人類與自然環境的對抗促進了人類的進化,機器與人的對抗也必將讓機器智能不斷發展進化。
Figure 1 The development history of human-computer gaming 3
內涵及機理
雖然人機對抗智能技術獲得極大的關注, 并在不同應用領域展現出應用前景, 但其理論及相關技術目前還沒有一個系統性的描述, 本文將從內涵、機理對其進行闡述并在此基礎上相關模型及關鍵技術。
3.1人機對抗內涵
人機對抗是以機器和人類對抗為途徑,以博弈學習等為核心技術來實現機器智能快速學習進化的研究方向。作為“圖靈測試”的重要手段,人機對抗是驗證機器智能的“試金石”,為探尋機器智能的內在生長機制和關鍵技術的驗證提供有效試驗環境、評價標準,具有重要科學研究意義和應用價值。
3.2人機對抗機理
人機對抗機理研究對抗各要素及其相互聯系,以及相互作用的運行規律與原理,涉及的要素包括人(機器的對手)、機器(對抗的AI)和環境(對抗的規則和條件等的集合體),根據人機物3要素分析方法, 3要素相互作用分別形成一元博弈、二元博弈和三元博弈。人機對抗智能的科學問題可概括為博弈學習的可建模、可計算與可解釋。4
人機對抗模型及關鍵技術
和感知智能有所不同,人機對抗通常關注更為復雜的時序決策等認知智能,對其過程建模是一個高度復雜問題,因此認知決策建模是整個人機對抗中的核心關鍵環節。本文將面向強對抗環境下的人機對抗決策流程歸納為感知、推理、決策和控制,將人機對抗關鍵技術歸納為對抗空間表示與建模、態勢評估與推理、策略生成與優化、行動協同與控制4部分;通過對抗態勢判讀理解、認知預測、策略決策和行動實施,局部整體不斷循環迭代增強, 自主提升對抗能力。人機對抗涉及的關鍵技術如圖2所示。
Figure 2Process modeling and key technology of human-computer gaming
4.1對抗空間表示與建模
構建有效的知識表示模型,準確刻畫對抗空間的決策要素構成、屬性特征及要素之間的交互關系,是實現人機對抗的基礎。巨復雜、高動態、強對抗環境具有決策要素海量高維、要素影響高度耦合、決策關鍵信息不完全等特性,使得對抗空間的定量表示極富挑戰。這方面可開展的研究包括:(1)對抗空間要素實體–關系表示, 研究對抗空間中各類不同實體、實體屬性及其交互關聯關系, 構建決策要素的表示模型; (2)對抗空間特征張量表示學習, 分析實體屬性關系耦合和結構拓撲對個體及群體對抗能力的影響, 構建可解釋的對抗空間的高維張量描述; (3)層級化聚合演算規則建模, 融合經驗表示與數值計算, 定義多因素、層級化的對抗態勢和對抗能力聚合演算規則, 形成環境–我方–對手多元耦合的可計算表征體系; (4)基于異構信息網絡的抽象通用空間表示, 基于能力演算規則, 研究對抗要素的抽象態勢表示, 減輕對抗場景依賴帶來的噪聲和數據稀疏影響。
4.2對抗態勢評估與推理
對抗態勢是指對抗各方通過實力對比、調配和行動等形成的狀態和趨勢,態勢的評估與推理為后續對抗策略生成與優化提供了依據。面臨著的挑戰有:(1)訓練態勢認知和預測模型的高水平對抗數據往往非常有限; (2)對手信息往往是凌亂的、不完全的, 僅依據對手部分信息進行整體局勢評估準確性較差; (3)復雜對抗環境導致可用于態勢評估的信息眾多,難以有效進行融合以形成多角度層次化態勢。可開展的研究包括:(1)高質量對抗數據的生成, 通過自主博弈或者生成式對抗網絡等方法生成用于人機對抗建模與分析的高質量人機對抗數據; (2)小樣本學習, 研究在數據較少情況下通過遷移或自適應等方法實現對抗態勢的直接評估; (3)對方信息估計, 研究結合歷史信息與當前對抗環境實現從底層到高層的對手動作估計、意圖識別與策略估計; (4)態勢層次化認知, 研究結合多源異構信息進行態勢的多角度層次化評估與推理。
4.3對抗策略生成與優化
對抗策略主要涉及多智能體協同的任務規劃,解決群體與單體的行動規劃問題。其技術挑戰在于:(1)不完全信息使得對手位置、行為、企圖不能完全知道,對手行為概率模型未知導致策略選擇保守, 需要進行不完全信息下博弈策略選擇; (2)宏觀決策收益反饋滯后,使得宏觀決策的效應需要經過較長時間才能體現, 導致決策行為與效益之間難以形成有效映射; (3)行動能力與環境深度耦合,忽略了局部環境因素可能導致策略分析嚴重偏差,過度詳細分析又導致對抗空間難以約減。 針對策略生成和優化方面的挑戰,利用策略游戲如星際爭霸作為平臺開展研究是國際上較為公認的方式。可開展的研究包括:(1)宏觀策略生成,針對面向使命任務的全局博弈對抗問題,構建分層任務分解與任務協同機制,實現復雜群體博弈對抗問題向低維空間約減; (2)微觀策略生成, 針對局部博弈對抗問題, 構建微型群體局部策略自適應機制, 實現微型群體的強博弈對抗能力與環境遷移能力; (3)策略優化方法,針對策略能力需要自主提升的問題,構建博弈策略的評價機制和學習型策略演進機制,實現博弈策略的自主進化與能力提升。
4.4對抗行動協同與控制
策略的執行需要多個智能體的行動協同,各智能體在自身信息獲取與初步認知的基礎上,利用資源貢獻、信息連通、要素融合、虛擬協作、智能輔助等功能,將多個單元虛擬協同, 形成整合的群體行動協同與控制。多智能體協同的難點包括:多智能體的學習目標,個體回報和團隊回報的關系,學習過程中各智能體之間的作用和影響,聯合狀態和聯合動作的獲取,擴大的狀態空間和動作空間導致的維數災難等問題。 目前相關研究工作主要集中在多智能體協同與學習方面。可開展的研究包括:(1)從協同過程可分為序列策略表征、協同機制優化、異構多智能體協同以及多元協同的融合; (2)從協同任務類型可分為同任務合作智能協同、異任務資源協調等; (3)從理論上突破去中心化、通信中斷的默契型協作方法,任務涵蓋序列化任務、多層次任務、多領域任務等,實現場景類型全覆蓋,協同方式多元化,為訓練提供高質量協同策略。 5
應用及挑戰
人機對抗智能技術的應用領域涉及棋牌類游戲、即時策略游戲、兵棋推演等,在多個領域內機器智能已經達到并超過了該領域的人類頂級選手,不斷刷新博弈對抗記錄,顯示出了新一輪人工智能技術在認知決策方面的鮮明特點。
5.1棋牌類策略游戲對抗
棋牌類策略游戲一直以來都被用作測試計算機智能發展水平的參考標準。這些游戲由于簡單的規則和豐富的玩法而深受全球范圍內的廣大愛好者的喜愛。同樣由于其規則的確定性,加之游戲環境可控性和不完全信息等特性,吸引了人工智能領域的持續研究。
DeepMind公司提出的AlphaGo技術在圍棋人機對抗中獲勝
在1對1無限注德州撲克中, DeepStack成為了第1個擊敗職業選手的德州撲克AI程序; 卡內基梅隆大學的研究者提出的名為Libratus的德州撲克AI算法,同樣擊敗了多名頂尖的職業德州撲克選手。
5.2即時策略游戲對抗
即時策略游戲是另一種常用于評估機器智能的平臺,和棋牌類游戲相比,其整個對抗過程即時進行。通常情況下,該類游戲包含資源采集、基地建造、發展科技等若干因素,游戲玩家需要平衡不同因素并控制單個或者多個被控制單元以完成對抗,經典的實時策略游戲包括星際爭霸以及Dota2等。得益于國際AI賽事以及企業與學術界的友好合作,即時策略游戲AI取得了長足的進展。
星際爭霸AI程序AlphaStar以10:1擊敗了人類專業選手 相關的AI算法包括基于多智能體強化學習實現被控單元間微操的控制,基于深度神經網絡模型進行宏觀戰斗決策的制定,以及基于狀態機模型實現對抗過程的演化等。盡管深度強化學習技術在多個游戲中具有不俗的表現,如何提高模型的穩定性以及性能以擊敗頂級人類玩家、如何實現模型的可解釋以支撐學習的可信任建模仍需要AI算法的不斷突破。
5.3軍事模擬及推演對抗
軍事模擬及推演由于其戰略意義,長期以來受到國家層面的關注,其對抗演練具有重要實用價值.隨著博弈對抗規模的擴大,對抗空間呈現指數級增長,多兵種協同與環境耦合的問題凸顯,戰爭系統具有強非線性和高動態等復雜特性,解析計算和隨機逼近最佳策略都存在巨大挑戰;人機對抗需要發展對手行為意識建模和協同演化博弈策略,以不斷提升對抗能力。
空戰智能博弈人機對抗系統(ALPHA), 拉開了無人裝備對抗有人裝備的序幕
自動化所研制的CASIA先知1.0系統在兵棋推演大賽獲勝 事實上,博弈貫穿于人類社會的方方面面,博弈和對抗在政治、經濟、文化、軍事等多方面都發揮著重要的作用, 人機對抗技術也將在信息獲取、傳輸、分析、理解、推理、決策等環節發揮作用,推動感知和認知智能的發展。 6
總結與展望
人工智能尤其是機器學習、類腦計算等領域的發展給人機對抗智能及自主進化帶來了契機,迫切需要深化人機對抗問題本質的理解與解析,科學合理地建立機器智能與人類智能的高效協作機制,取得人機對抗理論、技術與應用的重大突破, 并在人類社會的經濟、政治、金融及生活等多領域推進智能化進程。
-
人工智能
+關注
關注
1794文章
47642瀏覽量
239625 -
機器學習
+關注
關注
66文章
8438瀏覽量
132919
原文標題:人工智能與人類智能的競賽:人機對抗智能技術全梳理
文章出處:【微信號:AItists,微信公眾號:人工智能學家】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論