隨著產業數字化帶來的數據基礎的日益成熟,人工智能在營銷、金融、數字政府、零售、醫療等行業的落地持續推進,并開始帶來顯著的效益。也是隨著人工智能技術的高速發展,AI在計算機視覺、智能語音領等特定領域實現了單點突破,但尚未具備通用性,AI技術整體還處于依托數據驅動的感知智能階段。
目前,數據和智能處于密不可分的階段。一方面有數據才能實現智能,人工智能基于數據訓練,海量和優質的訓練數據持續推動AI算法額持續優化,進一步提各行各業應用人工智能的水平,讓數據價值得以真正的發揮;另一方面,人工智能也使得數據更加豐富,隨著各種各樣的AI應用的落地,越來越多的用戶的使用催生出更多數據的產生。
這就造成了隨著算法模型不斷深入垂直行業的細分業務場景,相對應的數據標注的復雜度、精準度等要求都有提升。
首先,要求標注人員掌握更復雜的行業知識,進一步提升了數據標注的門檻和成本。例如,醫療領域對醫療影像和文本的標注,需要具備醫學專業知識的人員進行。從數據類型來看,文本類、3D圖像類數據不斷增加,標注復雜度高于早期的平面圖像類數據。
一個成功的AI應用與其他應用的差異化對比,更多的來自于精準大量的訓練數據。可以說,具有更高精準度的數據已成為當前訓練階段的主流需求。國內AI數據服務頭部企業——云測數據在數據采集標注領域的重要優勢之一,就是能提供足夠精準的訓練數據,因此其最高99.99%的精準度可較好的應對人工智能數據精準度提升的情況,行成企業護城河。
其次,對于垂直細分場景,需要根據建模需求,采集特定環境下、特定對象的精準“小數據”,需要更專業的數據采集手段。例如,對于微表情、假表情識別的場景需要“演員”按要求配合表演,汽車碰撞場景數據需要在實驗室場景內采集。進一步地,這些特定業務場景數據是數據擁有方的寶貴資產,需要保證數據標注過程中的安全性。
這些數據采集需求相對復雜、聚焦,難度較大,對AI數據服務商的場景化采集能力提出了很高的要求。隨著人工智能對長尾場景的數據需求進一步擴大,未來,場景數據將擁有更廣闊的增量空間,具有相關采集工具、資源、能力的數據采集標注服務商將擁有極大的競爭優勢。以云測數據為例,為進一步滿足場景化數據的需求,首創了“數據場景實驗室”進行相應的場景化數據生產,以滿足AI行業應用場景逐漸趨于長尾和碎片化的趨勢。
人工智能對數據提出更高需求,展現了在人工智能產業化落地進程中,數據發揮的重要作用。
現在的人臉識別、自動駕駛、語音交互等應用,對于各類標注數據有著海量需求,可以說數據的質量決定了當今人工智能的高度。
而在2020年4月發布的《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》中,也明確數了據要素市場化配置上升為國家政策,為數據的廣泛流動和市場價值轉化提供了依據,這將有效支持人工智能在全社會的實踐。
但由于不同數據的復雜性和差異性,數據采集標注對于大多數的數據需求方來說并非易事,這背后都離不開具有專業知識、從業經驗和高質量數據保障的第三方AI數據服務商們。未來,在AI產業落地應用的下半場,人工智能將持續“加碼”數據,專業的AI數據服務商將釋放出更大的價值,推動全行業的智能化發展。
責任編輯:YYX
-
數據
+關注
關注
8文章
7006瀏覽量
88955 -
人工智能
+關注
關注
1791文章
47208瀏覽量
238297
發布評論請先 登錄
相關推薦
評論