不久前剛結(jié)束FDDC大賽,武漢大學(xué)計(jì)算機(jī)學(xué)院軟件工程實(shí)驗(yàn)室的Alassea lome團(tuán)隊(duì),獲得上市公司營業(yè)收入預(yù)測賽題第一名,而一人團(tuán)隊(duì)GOGOGO則摘得上市公司公告信息抽取賽題桂冠,本文主要將冠軍的方案以及大賽亮點(diǎn)進(jìn)行介紹和回顧。
上月底,2018全球金融數(shù)據(jù)探索與發(fā)現(xiàn)大賽(FDDC)的決賽落幕,10支隊(duì)伍激烈角逐,也讓現(xiàn)場觀眾見證了AI將如何改變資產(chǎn)管理的未來。
FDDC大賽是全球首場專注金融領(lǐng)域、深入投資實(shí)戰(zhàn)的技術(shù)大賽,由中國證券投資基金業(yè)協(xié)會(以下簡稱“基金業(yè)協(xié)會”)金融科技專業(yè)委員會主辦,易方達(dá)基金、華夏基金、通聯(lián)數(shù)據(jù)、阿里云共同承辦,獎金池一共高達(dá)84萬元。
大賽共有兩個(gè)任務(wù),一是利用AI對上市公司進(jìn)行營收預(yù)測,另一個(gè)是對上市公司公告進(jìn)行信息抽取。這兩個(gè)都是資產(chǎn)管理中最基本而又最重要的兩項(xiàng)工作,往往會決定投資決策的成敗。
FDDC大賽,旨在挖掘更多頂尖算法人才,提升資產(chǎn)管理行業(yè)的科技化程度。在3個(gè)多月的時(shí)間里,大賽吸引了全球4231支隊(duì)伍參與,經(jīng)過線上初賽和復(fù)賽,共有10支隊(duì)伍進(jìn)入最終決賽。
最終,來自武漢大學(xué)計(jì)算機(jī)學(xué)院軟件工程實(shí)驗(yàn)室的Alassea lome團(tuán)隊(duì),將預(yù)測誤差降低至7%,獲得上市公司營業(yè)收入預(yù)測賽題第一名,而一人團(tuán)隊(duì)GOGOGO則摘得上市公司公告信息抽取賽題桂冠。
數(shù)值預(yù)測準(zhǔn)確率最高 獨(dú)特?cái)?shù)據(jù)處理,將營收預(yù)測誤差僅7%!
Alassea lome團(tuán)隊(duì)來自于武漢大學(xué)計(jì)算機(jī)學(xué)院軟件工程實(shí)驗(yàn)室,團(tuán)隊(duì)的導(dǎo)師為蔡恒進(jìn),主要研究領(lǐng)域是人工智能、金融信息工程及服務(wù)科學(xué)。
FDDC大賽上市公司營收預(yù)測賽題第一名Alassea Lome團(tuán)隊(duì)
這次的“上市公司營收預(yù)測”賽題,官方到的數(shù)據(jù)包括三大財(cái)務(wù)報(bào)表、宏觀數(shù)據(jù)、行業(yè)數(shù)據(jù)、公司經(jīng)營數(shù)據(jù)、行情數(shù)據(jù)等。比賽評測指標(biāo)是選手對公司二季度的營業(yè)收入比率誤差的計(jì)算,如何準(zhǔn)備預(yù)測公司半年報(bào)實(shí)際營收,是這道賽題取勝的關(guān)鍵。
在訓(xùn)練集生成上,團(tuán)隊(duì)首先把三大財(cái)務(wù)報(bào)表里面的數(shù)據(jù)提取出來,接下來引入申萬的行業(yè)分類這一類別特征。值得注意的是,申萬的一級行業(yè)分類由28個(gè)被團(tuán)隊(duì)拆分成30個(gè),同時(shí)還加入了能夠表征行業(yè)數(shù)據(jù)的指數(shù)行情,以及行業(yè)估值信息,這里面所有的指標(biāo)都會經(jīng)過團(tuán)隊(duì)的獨(dú)特處理。
在公司的維度,團(tuán)隊(duì)加入滬深股票日行情以及個(gè)股日資金流向,同時(shí)引入財(cái)務(wù)衍生數(shù)據(jù)和多因子數(shù)據(jù)。這些特征的比起基本財(cái)務(wù)數(shù)據(jù)的優(yōu)勢在于,它們是經(jīng)過優(yōu)秀的研究員精心挑選和計(jì)算過,可能更具有解釋力。
除了剛剛提到的特征,團(tuán)隊(duì)還加入了滑窗特征。滑窗特征是什么呢?
以預(yù)測公司二季度的營收為例,除了告訴模型一季度營收之外,還告訴公司前四季度的營收。之所以這樣做的原因是,金融數(shù)據(jù)是一個(gè)時(shí)序非常強(qiáng)的序列,因此團(tuán)隊(duì)還告訴模型它的歷史上的一些信息。相應(yīng)的,團(tuán)隊(duì)還加入了比率滑窗的特征。
訓(xùn)練方式采取了滑窗模式,五年一滑,但是有三個(gè)驗(yàn)證集。模型的最優(yōu)參數(shù)是在三個(gè)驗(yàn)證集上的平均loss最小的參數(shù),還列舉了不同的模型算法它的表現(xiàn)。
選了那么多特征之后,怎么把最重要的特征篩選出來呢?
首先團(tuán)隊(duì)會多輪預(yù)跑,得到所有特征的重要性。然后選出來重要特征重新生成訓(xùn)練集,在訓(xùn)練集上進(jìn)行網(wǎng)格搜索,確定最優(yōu)的模型參數(shù)。
模型部署方面,時(shí)序模型不需要訓(xùn)練,它的loss大概在0.48左右。團(tuán)隊(duì)的主模型是xgb,輔助模型是Random Forest。模型融合是線性分類器,模型保存了最終部署的27個(gè)模型,從行業(yè)的角度去選擇最終利用哪個(gè)模型。
最終,團(tuán)隊(duì)的復(fù)賽得分是0.43,如果換算成營業(yè)收入的誤差,在7%以內(nèi)。
從不同公告找到共性知識結(jié)構(gòu),做直接的實(shí)體全量標(biāo)注
賽題二是上市公司公告重要信息抽取。
本賽題要求對“股東增減持”、“重大合同”和“定向增發(fā)”3 個(gè)類型的公司公告進(jìn)行信息抽取,實(shí)際上是對公司關(guān)鍵事件進(jìn)行結(jié)構(gòu)化提取。
GOGOGO團(tuán)隊(duì)獲得本賽題第一名。他們首先是對HTML結(jié)構(gòu)的提取,包括一些數(shù)據(jù)清理和轉(zhuǎn)換、表格識別等。
FDDC大賽上市公司公告信息抽取賽題第一名GOGOGO團(tuán)隊(duì)
在算法中,團(tuán)隊(duì)運(yùn)用了反向標(biāo)注,然后建立一個(gè)NER的模型預(yù)測實(shí)體。GOGOGO的標(biāo)注不同之處在于,他們做了直接的實(shí)體的全量標(biāo)注。因?yàn)楝F(xiàn)有的很多通用的實(shí)體識別,是識別出一個(gè)公司名稱或者是不是數(shù)值,團(tuán)隊(duì)直接把它的類型給定義清楚。
實(shí)體標(biāo)注技巧是模型里面比較重要的地方之一,另一方面,團(tuán)隊(duì)還用到奧卡姆剃刀原則。
奧卡姆剃刀原則主要表現(xiàn)在人傾向于用一個(gè)簡單的方法表現(xiàn)一個(gè)內(nèi)容,會用簡單的方法不會用復(fù)雜的方法。比如,有很多合同里面沒有乙方的表示,默認(rèn)發(fā)公告的一方就是乙方。
模型驗(yàn)證策略方面,團(tuán)隊(duì)在研究這個(gè)問題的時(shí)候,發(fā)現(xiàn)召回率是很重要的,信息一旦漏掉了是撈不回來的,因此可以通過人工的方法提高它。第二是模型效率的問題,因?yàn)橛玫胶芏喑橄蟮姆椒ǎ芏嗲闆r下并沒有通篇讀,所以速度非常高,基本上控制在秒級。整個(gè)過程中大部分時(shí)間還是在實(shí)體識別里面。
10支團(tuán)隊(duì)瓜分近百萬獎金,AI再度深入投資實(shí)戰(zhàn)
FDDC大賽是全球首場專注金融領(lǐng)域、深入投資實(shí)戰(zhàn)的技術(shù)大賽,歷時(shí)3個(gè)多月,4231支隊(duì)伍經(jīng)過線上初賽和復(fù)賽,共有10支隊(duì)伍進(jìn)入決賽,于8月29日在北京進(jìn)行現(xiàn)場答辯,8月30日,兩道賽題的前三名共6個(gè)團(tuán)隊(duì)參加了終極對決。
本次大賽特設(shè)84萬獎池,冠軍更是能獲得高達(dá)25萬的豐厚獎金。
這次比賽結(jié)果是:
賽題一(上市公司營收預(yù)測)
第一名:Alassea lome團(tuán)隊(duì):吳云、萬珊紅、洪成晨、潘航、劉帥
第二名:Quant_duet團(tuán)隊(duì):林漢軒、邱爽
第三名:智能金融團(tuán)隊(duì):汪志文
大賽評委之一,香港科技大學(xué)副教授、惠理投資中心副主任尤海峰點(diǎn)評:
智能金融團(tuán)隊(duì)根據(jù)財(cái)務(wù)報(bào)表相互關(guān)聯(lián)的特點(diǎn),創(chuàng)造性的把GPDT和DNN兩種算法結(jié)合起來,先用GPDT的算法自動的構(gòu)造組合特征,在此基礎(chǔ)上結(jié)合DNN深度學(xué)習(xí)的方法進(jìn)行預(yù)測,取得了很好的效果。
FDDC大賽上市公司營收預(yù)測賽題第三名智能金融團(tuán)隊(duì)
Quant duet團(tuán)隊(duì)首先把財(cái)務(wù)數(shù)據(jù)進(jìn)行了拆分,把歷史的營收和其他的財(cái)務(wù)數(shù)據(jù)給分割出來,剔除了歷史營收的財(cái)務(wù)數(shù)據(jù),構(gòu)建了多因子的預(yù)測模型,然后又把單獨(dú)拿出來的歷史營收數(shù)據(jù)和市場數(shù)據(jù)相結(jié)合,用一個(gè)全連接網(wǎng)絡(luò)深度學(xué)習(xí)的模型做預(yù)測,最后把兩個(gè)預(yù)測模型給整合起來。
FDDC大賽上市公司營收預(yù)測賽題第二名Quant duet團(tuán)隊(duì)
這種數(shù)據(jù)拆分其實(shí)是提高了兩個(gè)模型的獨(dú)立性,從而在整合的時(shí)候、融合的時(shí)候能夠達(dá)到分散錯誤的效果。
Alassea Lome團(tuán)隊(duì)展現(xiàn)了機(jī)器學(xué)習(xí)算法和領(lǐng)域知識很好結(jié)合起來的能力。首先他們對數(shù)據(jù)做了很好的理解、很好的處理和去噪音各種各樣的處理,然后根據(jù)他們對不同類型的公司理解,在特征選擇上和算法選擇上都進(jìn)行了個(gè)性化的處理,從而達(dá)到很好的預(yù)測效果。
賽題二(上市公司公告信息抽取)
第一名:GOGOGO團(tuán)隊(duì):黃澤熾
第二名:Heisenberg團(tuán)隊(duì):馮霽、李永剛、蘇洋洋
第三名:Miyabi團(tuán)隊(duì):李灝舟、王奪、叢冠男、胡一川
最具創(chuàng)意極客獎:東風(fēng)又綠江南岸團(tuán)隊(duì)(林建生、宋云生、宮保偉、林剛),智能ABC團(tuán)隊(duì)(周武潔、郭炫志);
最具潛力極客獎:KingofWind團(tuán)隊(duì)(李立),ASD123團(tuán)隊(duì)(肖艷清、楊艦);
通聯(lián)數(shù)據(jù)CEO王政點(diǎn)評上市公司公告信息抽取賽題復(fù)賽前三團(tuán)隊(duì):
Miyabi團(tuán)隊(duì)用表格和分類的方法來抽取,能夠快速抽取結(jié)果;分類的方法能判斷哪些可以抽取。
FDDC大賽上市公司公告信息抽取賽題第三名Miyabi團(tuán)隊(duì)
Heisenberg團(tuán)隊(duì)有兩個(gè)亮點(diǎn):1、有實(shí)用價(jià)值的系統(tǒng)架構(gòu),能很快用到工業(yè)界。2、在實(shí)體識別的方法比傳統(tǒng)的有很大提升。
FDDC大賽上市公司公告信息抽取賽題第二名Heisenberg團(tuán)隊(duì)
GOGOGO團(tuán)隊(duì)把不同公告的問題找到了一些共性的知識結(jié)構(gòu),能快速把復(fù)雜問題降維。另外,通過章節(jié)的識別提升效率。
王政表示,通過這次FDDC大賽,AI在金融領(lǐng)域的應(yīng)用得到了新的發(fā)展,但是以后問題會越來越難、越來越多,期待更多算法專家加入金融行業(yè),推動金融科技的發(fā)展。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7081瀏覽量
89181 -
人工智能
+關(guān)注
關(guān)注
1792文章
47425瀏覽量
238958 -
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13201
原文標(biāo)題:全球首屆AI金融實(shí)戰(zhàn)技術(shù)大賽冠軍方案分享,三個(gè)月拿走50萬
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論