2018年,在微軟(Microsoft Build)一架無人機飛過管道,檢查管道是否有泄漏或其他損壞。值得注意的是,無人機的視覺檢查模型使用實際數據和模擬數據進行了訓練。使用合成數據幫助機器學習模型了解異常值,讓微軟的研究人員能夠更快地訓練這款模型,且不需要像其他情況下那樣在進行數據采集飛行上花費很多。
如今,這項技術終于開始普及了。今年4月,一家初創公司為其合成傳感器數據籌集到337萬美元,而另一家初創公司發表了一篇關于如何使用模擬數據訓練模型來識別機場跑道上的飛機的論文。
談到機器學習項目時,殼牌首席數據科學家丹·杰文斯對使用模擬數據感到非常興奮,因為它有助于構建模型的同時還可以檢測一些少見的問題。他說:“我認為這是一種非常有趣的方法,可以獲取我們正在努力解決的有關邊緣案例的信息。盡管我們有很多數據,但同時我們也面臨重大問題是,那就是,我們通常對于要發現的問題,我們只有很少的例子來支持。
在石油行業,工廠和管道的腐蝕是巨大的挑戰,因為它可能導致災難性的故障。企業會小心翼翼不讓任何東西腐蝕管道,但這也意味著機器學習模型不能用于現實世界的腐蝕實例。因此,他們使用合成數據來提供幫助。例如,殼牌公司也在使用合成數據,試圖解決人們在加油站吸煙的問題。因為攝像機并不總能捕捉到吸煙者的畫面,有時候離得太遠或者沒有面對攝像頭,所以在這個研究中并沒有很多現成的案例;因此,公司努力將模擬合成數據與真實數據結合起來,建立計算機視覺模型。“我們感興趣的幾乎總是‘邊緣案例’,不是一般的標準,而且容易檢測到與標準圖案不符的邊緣,很難檢測出想要的具體內容。”
與此同時,另外一家AI公司也在試圖了解更多關于合成數據的準確性。該公司發表的論文《稀有飛機:合成數據起飛》闡述了研究人員如何將停放在機場的飛機的衛星圖像與機器生成的合成數據相結合。當僅使用合成數據時,該模型的準確率只有55%左右,而當僅使用真實數據時準確率則躍升至73%。但是通過將訓練樣本的10%作為真實數據,其余部分使用合成數據,模型的準確率達到了69%。
人工智能專家認為合成數據將成為大生意。使用這些數據的公司需要考慮到他們的假數據可能會扭曲模型,但如果他們能做到這一點,他們就能以比依賴真實數據更快、更低的成本獲得強健的模型。
因此,即使物聯網傳感器正在釋放數拍字節級別的數據,也不可能對所有數據進行注釋并將其用于訓練模型。因為這些數據可能并不是你真正想要計算機尋找的情況。換言之,預計合成和模擬數據的浪潮將繼續到來。
-
人工智能
+關注
關注
1795文章
47642瀏覽量
239705 -
合成
+關注
關注
0文章
16瀏覽量
13799 -
大模擬數據
+關注
關注
0文章
2瀏覽量
5351
發布評論請先 登錄
相關推薦
評論