國際人工智能聯(lián)合會議(International Joint Conference on Artificial Intelligence,簡稱為IJCAI)是人工智能領(lǐng)域中最主要的學(xué)術(shù)會議之一,在會議上發(fā)表的學(xué)術(shù)成果在整個AI領(lǐng)域都有深遠的影響。IJCAI-PRICAI-20于2021年1月在日本舉行,但由于疫情原因,本次會議多次調(diào)整議程。日前,深蘭科技終于收到了姍姍來遲的榮譽,在NetML競賽獲得兩冠一季的好成績,尤其在AI視頻競賽中“深蘭AI智能掃路機”獲得Best Industrial Video最佳工業(yè)應(yīng)用視頻獎。
昨日,作為指導(dǎo)委員會成員,上海市經(jīng)濟和信息化委員會、中國智慧城市工作委員會、中國城市環(huán)境衛(wèi)生協(xié)會智能環(huán)衛(wèi)專業(yè)委員會、長三角產(chǎn)業(yè)發(fā)展研究院、AIII人工智能產(chǎn)業(yè)研究院和深蘭科技(排名不分先后),共同倡議發(fā)起新一代人工智能環(huán)衛(wèi)智能化產(chǎn)業(yè)聯(lián)盟,旨在進一步集聚智能環(huán)衛(wèi)領(lǐng)域?qū)<覍W(xué)者和領(lǐng)跑企業(yè),聯(lián)合環(huán)衛(wèi)清潔領(lǐng)域的產(chǎn)、學(xué)、研、用、資和服等單位,創(chuàng)新突破關(guān)鍵核心技術(shù),加速建設(shè)人工智能環(huán)衛(wèi)技術(shù)創(chuàng)新生態(tài)體系。深蘭科技作為其中的唯一的人工智能企業(yè),其冠軍團隊的技術(shù)實力,為環(huán)衛(wèi)智能化的推進再添砝碼!
最佳工業(yè)應(yīng)用視頻獎
IJCAI-PRICAI20 AI視頻競賽作為國際會議競賽中不多見的形式,為研究人員和AI從業(yè)人員提供了一個展示平臺,以視頻的方式呈現(xiàn)易懂、有趣的人工智能,并體現(xiàn)其對社會的價值。參賽者的視頻在會議的展廳中循環(huán)播放,最終獎項由參會者投票和專業(yè)評委評定產(chǎn)生,可謂是眾望所歸。
視頻以深蘭AI智能掃路機的第一視角,以擬人的方式模擬環(huán)衛(wèi)工人一天的作息,以及在不同環(huán)境下的工作流程,巧妙地展示了機器人的自動檢測目標(biāo)、躲避障礙、判斷交通信號、數(shù)據(jù)同步等能力,以及其背后的自動駕駛、數(shù)據(jù)管理等核心系統(tǒng)。視頻敘述清晰,畫面風(fēng)格和配樂充滿科技感,引人入勝。短短4分鐘的視頻內(nèi)容豐富,以講故事的形式讓人不知不覺中了解了產(chǎn)品的主要信息。
這款A(yù)I智能掃路機通過在實際交通狀況下的行駛,AI智能掃路機在停車、大轉(zhuǎn)、障礙物避讓等方面開展了多場景測試和優(yōu)化調(diào)整,已基本滿足了無人駕駛環(huán)衛(wèi)道路保潔的要求,目前已在上海、深圳、天津等多地投入運營。
NetML競賽獲兩冠一季
NetML競賽是由英特爾公司贊助,在IJCAI-PRICAI20上組織的一場基于機器學(xué)習(xí)的流量分析競賽。本次比賽借助IJCAI-PRICAI20參加者的專業(yè)知識,幫助網(wǎng)絡(luò)研究人員與ML / AI社區(qū)進行互動,促進網(wǎng)絡(luò)流量分析新方法的研究和開發(fā)。深蘭科技DeepBlueAI團隊在7個賽道中取得了兩冠一季的好成績。分別在Track2和Track4獲得冠軍,在Track5獲得季軍。
賽題介紹
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)流量日益增多,同時惡意流量也在不斷增加。如搶票軟件、明星打榜、惡意爬蟲等。為了探索更好的網(wǎng)絡(luò)流量的分析方法,在這場比賽中,主辦方NetML提供了3個不同的相關(guān)數(shù)據(jù)集(CICIDS2017,NetML,non-vpn2016),并且將label分成了3種不同的粒度,分別是top,mid 和 fine。top就是二分類區(qū)分正常流量與惡意流量;mid和fine 還需要對惡意流量進行進一步的分類。CICIDS2017數(shù)據(jù)集和NetML數(shù)據(jù)集沒有mid粒度,所以一共有7個任務(wù)對應(yīng)7個賽道。
評測指標(biāo)
對于多分類任務(wù):
overall = F1*mAP 。其中,F(xiàn)1 是每個類的f1-score乘以每個類的樣本占比, mAP是所有類的平均準(zhǔn)確率。
對于二分類任務(wù):
overall = TPR*(1-FAR)。其中,TPR = TP/(TP+FN),F(xiàn)AR = FP/(TN+FP)。
賽題分析
三個數(shù)據(jù)集都是10w到50w行級別的數(shù)據(jù)量,62列特征,包含了發(fā)送接收地址與端口, 發(fā)送接收包大小,時間,hdr信息,pld統(tǒng)計信息,tls信息,http請求信息,dns信息等網(wǎng)絡(luò)信息。數(shù)據(jù)集之間的區(qū)別是收集源不一樣,二分類與多分類標(biāo)簽不一樣。
經(jīng)過分析,賽題有主要有以下難點:
數(shù)據(jù)處理。原始特征數(shù)量比較多而且類型復(fù)雜,包括很多類型是列表的列如dns的相關(guān)信息。如何從這類列表中提取特征是主要問題。
針對不同粒度的label提取特征。當(dāng)前特征對top粒度二分類可能有用,但是區(qū)分不了剩下的多分類。
競賽方案
自動列表類型特征提取:由于列表類型的數(shù)據(jù)是無法直接喂給模型的,所以我們對列表類型進行了聚合,從而提取了一些統(tǒng)計數(shù)值特征。
自動特征工程:由于原始數(shù)據(jù)特征數(shù)量較多,我們選擇自動特征工程進行處理,以實現(xiàn)短時間內(nèi)有效信息的盡量提取,并節(jié)約人工成本。我們將原始特征主要分成了類別類和數(shù)值類,并在根據(jù)類型做出不同的特征。
特征選擇:經(jīng)過上面兩步,我們做的特征已經(jīng)超過一千列了,但其中大多數(shù)是無效特征。為了避免過擬合和加速模型訓(xùn)練速度,我們使用了兩種特征選擇方法將特征減少到1/5。首先,我們通過lightgbm模型根據(jù)信息熵輸出的特征重要性把這些完全沒用的特征篩選出來;然后,我們選用第二種特征選擇的方法是label 重排列,使用它可以篩選出一些無效的特征。label 重排列方法的主要思想是,通過label的隨機打亂,并逐次學(xué)習(xí),得到隨機狀態(tài)下重要性的分布,學(xué)習(xí)到哪些特征的重要性是“虛高”的。
指標(biāo)優(yōu)化:預(yù)測完之后,我們發(fā)現(xiàn)每個類別的比例與原始數(shù)據(jù)類別比例差別較大,導(dǎo)致得分偏低,尤其是在多分類任務(wù)中。我們就通過后處理調(diào)整閾值的方式去調(diào)整每個類別的占比。
模型融合:我們分別使用了lightgbm,catboost,xgboost這些模型。采用加權(quán)平均的方法進行融合,權(quán)重由每個單模型的效果決定。
總結(jié)
DeepBlueAI團隊針對網(wǎng)絡(luò)流量分析任務(wù),通過數(shù)據(jù)分析、自動列表類型特征提取,自動特征工程, 在經(jīng)過特征選擇,指標(biāo)優(yōu)化和模型融合等設(shè)計了一個網(wǎng)絡(luò)流量識別算法。該算法在本次比賽中取得了2冠1季的好成績,有望幫助互聯(lián)網(wǎng)識別出惡意流量,形成一個良好的網(wǎng)絡(luò)環(huán)境。
責(zé)任編輯:lq
-
機器人
+關(guān)注
關(guān)注
211文章
28390瀏覽量
206957 -
智能化
+關(guān)注
關(guān)注
15文章
4872瀏覽量
55351 -
人工智能
+關(guān)注
關(guān)注
1791文章
47208瀏覽量
238298
原文標(biāo)題:賽道 | 世界冠軍加持環(huán)衛(wèi)智能化 深蘭獲IJCAI20兩冠一季+最佳工業(yè)應(yīng)用視頻獎
文章出處:【微信號:kmdian,微信公眾號:深蘭科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論