最近,科大訊飛在國際自動駕駛領域權威評測任務Cityscapes中,以明顯優勢刷新了像素級圖像場景分割任務、實例級圖像場景分割任務全部兩項子任務的世界紀錄,拿下了2018年獲得的第七個世界第一。
科大訊飛又拿下一個世界第一,而且是在計算機視覺領域。
近日,科大訊飛在國際自動駕駛領域權威評測任務Cityscapes中,以明顯優勢刷新了像素級圖像場景分割任務、實例級圖像場景分割任務全部兩項子任務的世界紀錄。
2018年,在計算機視覺領域,訊飛已連續在IDRiD眼底圖分析競賽、ICPR MTWI圖文識別挑戰賽中斬獲桂冠,這次拿下Cityscapes第一名,也再次佐證科大訊飛在計算機視覺領域也有技術實力。
Cityscapes評測數據集:多維度考量自動駕駛圖像語義分割,近百家機構“群雄逐鹿”
Cityscapes評測任務是由奔馳主推,提供在駕駛領域進行效果和性能測試的圖像分割數據集。該評測任務關注真實場景下的道路環境理解,用于評估參與測試的算法在城區場景語義理解方面的性能。
相比其他自動駕駛領域的測試數據集,Cityscapes任務難度更高,更加貼近自動駕駛等當下熱門需求,近年來的熱度也不斷攀升。截至目前,評測已經吸引了包括谷歌、英偉達、三星、騰訊和香港中文大學等近百家國內外優秀創新企業和頂尖學術機構的參與。
在Cityscapes任務所應用的數據集中,包含了5000張精細標注的圖像和20000張粗略標注的圖像,這些圖像包含50個城市的不同場景、不同背景、不同街景,以及30類涵蓋地面、建筑、交通標志、自然、天空、人和車輛等的物體標注。
Cityscapes評測集有兩項任務:像素級(Pixel-level)圖像場景分割(以下簡稱語義分割)與實例級(Instance-level)圖像場景分割(以下簡稱實例分割)。去年10月,科大訊飛曾參與前者并刷新記錄;此次科大訊飛同時參與全部兩項任務的測評,不僅再次刷新了語義分割任務的世界紀錄,同時以較大優勢刷新了實例分割任務的世界紀錄。
包攬兩項第一背后的秘密:基于圖像檢測和分割基礎算法創新
Cityscapes評測集中,語義分割任務(Pixel-Level Semantic Labeling Task)使用標準的PASCAL VOC IoU(intersection-over-union)得分來評估預測結果與真實場景之間的匹配準確度,要求參賽算法能夠對圖像中的每一個像素點進行準確的類別預測, 每個像素點的預測結果都會直接影響到最終得分。
像素級圖像場景分割任務榜單
實例分割任務(Instance-Level Semantic Labeling Task)則是同時對每個目標進行定位和語義分割,每個目標即為實例,該任務最終以每個實例的分割準確度進行評估。
實例級圖像場景分割任務榜單
這兩個任務的主要區別在于,在對某些類別目標進行像素級的分類基礎上,實例分割還需要進行不同實例間的區分,例如需要區分圖像中的車輛和行人,還要將車輛中不同的汽車進行區分和標注。
(結果示意圖:左-原圖,中-語義分割結果圖,右-實例分割結果圖)
針對Cityscapes數據集“尺寸變化大、相互遮擋多、目標辨識難”的特點,訊飛團隊基于圖像檢測和分割基礎算法的多年研究積累,引入了多項創新性技術。在設計語義分割模型方案時,基于Encoder-Decoder框架,融合注意力機制、可變形卷積操作等思想,創新性地增加了一組尺度自適應矯正網絡,使得模型能夠充分地利用各層級特征和上下文信息來有效地應對場景中類別尺寸的變化,同時通過目標函數的設計對圖像各像素點進行加權編碼及梯度規整,提升難以辨識的“難例”像素點尤其是各類別邊緣相交區域像素點的預測準確度,進一步提升整幅圖像場景中每一個像素點的預測準確性。
在實例分割方案的設計上,訊飛團隊將級聯式檢測方案遷移到實例分割任務的定位模塊中,并針對駕駛場景下的一些特定的空間位置共生關系(比如:汽車出現在道路上,騎車者出現在自行車或摩托車上)引入一種空間注意力機制,逐步提升模型的定位性能,同時在分割模塊的設計上還成功借鑒語義分割模型成熟方案,精細化每個實例對象的分割結果,最終達到更好的實例分割性能。
計算機視覺技術落地,產品打開車載市場
科大訊飛并沒有把語音作為唯一的“寶”來押注,去年年會上,科大訊飛的車載產品飛魚2.0版本問世,除了語音交互外,還增加了一雙“眼鏡”——訊飛正式把計算機視覺做落地。
語音+視覺,是飛魚2.0打開車載市場的利器,這個產品結合了人臉、人體追蹤、手勢、紅外等多種方式為一體的人機交互解決方案,訊飛也傾注了大量的技術力量。去年10月,科大訊飛在Cityscapes評測集圖像場景分割任務中獲得了第一名,展示出了在視覺上的實力。
連續兩年刷新Cityscapes評測集記錄后,科大訊飛在自動駕駛和車聯網技術重要賽道不斷加速。目前,訊飛為不同工作模式和不同傳感器配置的智能化車輛提供了“看得清、認得準”的核心能力:
1、可行駛區域的判斷更加精準
意味著車輛在做出駕駛路線決策時有精度更高的依據,可以更好地將圖像和激光雷達等感知設備返回的結果進行綜合校驗判斷,從而避免因單一傳感器缺陷而產生交通事故的可能性。
2、物體類別和形狀判斷更加精準
意味著車輛對于當前駕駛環境中其他交通參與者的屬性和具體形狀有更精確的判斷,在面對有些激光雷達難以識別的物體屬性和難以區分的物體實例時,車輛可以通過視覺感知這一更加直觀且完整的方案來大幅度地降低事故出現的概率。
對科大訊飛而言,在從單純的智能語音能力提供商積極轉型為整車智能化方案提供商的進程中,Cityscapes評測恰好成為了考驗科大訊飛在計算機視覺領域算法水平的“試金石”。而通過了檢驗的領先核心算法技術不僅可以更好地為訊飛保駕護航,還能進一步加速機器視覺能力的產品落地應用。
除了智能汽車領域,與之緊密相關的智慧城市領域中則涉及到道路交通流量統計、安防等多個實際業務場景。此次參與Cityscapes評測任務所帶來的核心算法能力的提升和拓展,將持續助力未來產品效能提升,推動音視頻智慧交通產品領域邁向一體化。
訊飛今年拿下的七個世界第一
這是訊飛2018年獲得的第七個世界第一,之前的有:
2018年1月,機器閱讀理解SQuAD閱讀理解大賽再次刷新世界紀錄,EM得分超過人類平均水平(參賽者包括微軟、谷歌、Facebook、IBM、Salesforce、斯坦福大學、卡耐基梅隆大學、清華、北大等國內外企業和科研機構);
2018年2月,在由國際計算語言學協會(ACL)下屬組織主辦的第十二屆國際語義評測比賽(SemEval2018)中,斬獲基于常識的機器閱讀理解全球第一;
2018年3月,在由醫學影像領域的國際頂級會議The IEEE InternationalSymposium on Biomedical Imaging (ISBI)舉辦的IDRiD糖網病挑戰賽上,取得微動脈瘤分割任務第一名、其余三項任務前三名的佳績;
2018年6月,在由模式識別領域國際學術頂會ICPR舉辦的MTWI(Multi-Type Web Images,多樣式網絡圖像)國際識別挑戰賽中,榮膺“文字識別”、“文字檢測”和“端到端識別”全部三項冠軍;
2018年7月,在國際權威英文語音合成比賽中連續13年蟬聯世界第一,仍然是語音合成自然度指標全球唯一超過真人說話水平的公司(獲得10個測評項目中的9項第一,在最關鍵的自然度和相似度評測指標上均大幅領先第二名);
2018年9月,國際權威英文語音識別大賽“CHiME-5”中,科大訊飛包攬全部四個項目的第一名。
-
計算機視覺
+關注
關注
8文章
1699瀏覽量
46056 -
科大訊飛
+關注
關注
19文章
817瀏覽量
61379 -
自動駕駛
+關注
關注
784文章
13904瀏覽量
166740
原文標題:科大訊飛再刷新計算機視覺評測兩項任務世界紀錄,連奪七項世界第一!
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論