AI加速落地的大背景下,作為人工智能產業落地重要的環節,AI數據標注越來越受到業界的關注,并在發生著很大的變化。
不久前的服貿會上,數據標注領域的頭部企業云測數據首次對外發布了一項標準,其AI數據項目的最高交付精準度達到了99.99%,這是一個新的行業紀錄。對此,有自媒體“曾響鈴”評論認為,AI數據標注已經由“勞動密集”進入“技能密集”時代。
在AI數據產業中,數據精準度=驗收合格數量/全部數量,這意味極高的精準度不僅要滿足一些客觀標準,還需要與AI項目方的需求深度契合,通過基于需求的驗收過程。
事實上,對AI數據標注這種與制造業在很多地方相似的產業而言,更高的精準度的打造過程,就如同制造業的“精益制造”一樣,在多個方面有著發展方式的契合,只不過一個交付數據服務,一個產出實體產品。
這種契合,從行業頭部企業的動作看,包括四個方面。
業務平臺:應對復雜的AI數據交接和作業,出現線上自動化“流水線”
制造業的精益制造首先是“流水線”的自動化、智能化升級,引入更多精密的工具或機械,為產品的精益打磨提供了生產環境基礎。
數據標注也類似,粗放式的業務平臺越來越無法承接復雜的AI數據交接和作業,在這種背景下,線上的自動化“流水線”開始出現。
以往,數據標注過程的“線下”痕跡濃厚,尤其是數據導入和導出,硬碟拷貝、交接的“原始模式”不時出現。
為了提升效率和安全,做到短時間無縫對接,以云測數據為代表的企業探索出線上“流水線”業務平臺化模式。具體來說,就是根據AI企業的自身數據處理流程,完成標準化API接口的流程嵌入,數據在線上接入,完成作業后從線上輸出,中間有模板化的任務創建與責任安排,支持不同標注類型和標注方法。
這個過程,對應到制造業,其實就是“物料進入、找到眾多產線中合適的那一條并安排好生產工人、產品輸出”的過程。在線上,數據標注已經做到了數據進入、標注、交付的云上無縫連接過程。
這其中,對數據標注“精益制造”價值最為明顯的可能是“生產工具”的優化,工具能力的提升,大幅提升了數據標注的效率和精準度,這就好比流水線上功能豐富的自動化機械臂能夠幫助企業大大提升效率和質量一樣。
以云測數據為代表的企業開發的工具為案例,目前來看,工具對數據標注的價值有這三個體現:
一是直接的操作輔助,例如對人臉進行26點、54點、96點、206點的人臉關鍵點標注、貼合度在3像素以內的特定任務關鍵點追蹤,這使得標注員的操作能夠更加精細化,且擁有不錯的效率。
二是特殊數據的操作輔助,例如自動駕駛中激光雷達形成的3D點云數據不同于攝像頭形成的2D圖像數據,標注起來更有難度也更可能出現偏差,這時候,融合標注工具(把3D點云數據和2D圖像數據結合在一起對照)的價值就體現出來。
三是數據標注的糾錯保障,這類似于“精益制造”中人工質檢前的機器自動質檢,在數據標注過程中,工具根據AI項目需求設定查錯規則,保障標注的精準度(例如,一個三米高的物體標注為人體就錯了)
當然,工具質檢只是一種輔助,在數據標注的“精益制造”過程中,人工質檢(抽檢)同樣必不可少。云測數據不僅在標注流程上實現了正規化和科學化,設計了從創建任務、分配任務、標注流轉,還完善了了從質檢/抽檢環節到最后的驗收的管理流程。
數據作業:應對AI落地的深度需求,出現“數據工藝”般的精細化作業
生產工藝是“精益制造”的核心之一,工藝越好,產品往往更為優質,也更掌握市場的話語權。在“流水線”生產環境基礎上,隨著AI落地需求的加深,AI數據標注開始出現可以稱之為“數據工藝”的類似精細化作業過程,99.99%的精準度本身就是“數據工藝”的結果。
在云測數據的日常作業中,可以發現很多這種“數據工藝”般的做法,例如更豐富的數據標注類型,“線段”這種看起來簡單的標注對象也分出了折線、曲線、貝塞爾曲線等。
此外,如同制造業不斷積累工藝經驗,逐步提升工藝水準生產出更高等級的產品一樣,數據標注也存在一個經驗積累的過程來提升“數據工藝”水準,例如,工業中的大量看起來差不多的零件的標注,做到更細節層面才能區分出兩個型號類似的螺絲;零售行業大量相似的SKU,需要從品牌、標簽等多種細化角度來標注,幫助算法識別。
總的看來,對AI數據的復雜需求是促使數據標注朝著“數據工藝”方向發展的直接原因。
當下的AI數據呈現三個特征,一是由于AI產品落地場景的復雜性導致數據場景需求的多元化,如光線強度、拍攝角度、噪聲要求、室內室外等;二是同類數據表現出樣本多樣性,僅就聲音的數據,可能就包括年齡、性別、口音等差別;三是針對同一應用目標的數據多維化,例如智能駕駛就可能同時需要攝像頭、激光雷達、超聲波雷達等不同傳感器產生的數據。
很顯然,在這種背景下,AI發展初期那種直接應用或者購買成品“數據集”的做法行不通了,它們可以幫助算法快速成型,但卻難以支撐更多樣化的AI落地需求。
于是,“數據工藝”般的精細化作業對數據標注的需求自然而然就超出了單純數據標注的業務范疇,必然要整合上游數據采集這個關鍵環節。可以看到,以云測數據為代表的企業都在大力提升場景化數據采集的能力。幫助客戶還原落地場景所需要的AI數據,從源頭保證AI數據的質量,才能更好的應用于AI產業化的深度落地。
或許正因為這樣的原因,可以看到,云測數據在發布了最高項目交付99.99%精準度的同時,為了貼合實際場景、幫助更多行業實現“AI產品更快更好的落地”, 云測數據結合自身的服務能力積累和行業專業性,還推出了智慧城市、智能家居、智能駕駛、智慧金融四個場景下的“AI訓練數據服務解決方案”。
在這些整合了數據采集與標注的場景AI數據解決方案中,可以發現更明顯的“數據工藝”痕跡。
例如,在戶外場景中,攝像頭囊括了大量的行人、機動車、自行車等道路場景數據,但智慧城市的AI應用可能需要識別人流檢測、突發事件等長尾場景數據。
在云測數據的智慧城市解決方案中,就通過行業首創的數據場景實驗室來還原搭建真實場景,用于采集長尾場景數據,例如多種不同光線下的人員檢測、危險動作檢測等。
類似的還有智能駕駛場景。智能駕駛的車外環境感知需要大量真實場景數據用于算法訓練,為了確保行駛安全,需要覆蓋非常多的長尾場景數據,例如舉傘的行人、突然出現的寵物等,疫情發生后,帶口罩的行人也是另一種車外環境感知所需要的“場景AI數據”。
從細節上滿足更復雜深度的AI數據需求,提供獨特的、無法替代的AI數據獲取能力,將幫助數據標注持續獲得更高的產業地位。
人力建設:應對高精細化的“數據工藝”,出現專業的“人工智能訓練師”
“流水線”的生產基礎加上更高的生產工藝之后,“精益制造”考驗的還有產業工人是否能將工藝實現的能力,在產業升級的浪潮下,產業工人的素質成為“精益制造”的關鍵因素之一。
映射到數據標注,為了應對高精細化的“數據工藝”,專業的“人工智能訓練師”開始出現,這表現在三個方面。
一是體系化的人才培訓,整體技能專業性、領域知識專業性、人員素養等都在提升。
以云測數據為例,云測數據不僅提供崗前培訓,還帶有員工技能培訓、職能培訓、行業領域知識、責任培訓、標注內容的培訓,以及一對一的持續交流來提升員工的能力;與此同時,配備在線化、體系化的打分系統來評估員工的能力。
過去,數據標注那種隨便在街上、學校里拉一些人,只要認得圖片、懂基本的語法拼寫就開始干活的做法,已經不再具備任何競爭力了。
二是匹配不同需求的“人才梯隊”開始出現。
這一點,如同“精益制造”里更復雜產品配以技藝手段更高的工人一樣,在數據標注領域,出現了一些數據需求上的分化,倒逼企業培養某種意義上的“人才梯隊”。
典型的如醫療、法律、金融、家居等高度專業化的領域中,不論是CV還是NLP,人工智能訓練師需要非常專業,才能進行正確的數據標注與解讀,這甚至不是光有培訓就能解決的。云測數據在NLP領域就吸納了一些金融及家居行業的專才來提升對應領域的數據標注能力,這也意味著數據標注產業開始對人才來源口徑有了一些要求,不再是泛化的人群。
三是大量的操作細節和專業性不斷疊加。
產業工人變成“老師傅”,一方面來源于苛刻的工作要求,另一方面來自不斷的專業經驗積累。在數據標注這里也是如此。
粗放式管理下,傳統數據標注行業有一種“混亂”的旗氣質,草臺班子稀里糊涂完成了大量的數據標注工作。但現在,高精準度的大旗下,數據服務團隊的專業化能力被嚴格要求,在云測數據,智能客服單個場景的意圖標注就分為10-20個大類、上百個子類(表達同一個意圖,算法面臨的用戶可能有不同的表達方式,故越細分越好),根據業務需求可能還會有進一步的標注細分。
這倒逼數據標注員提升對話意圖的判斷能力,需要對句子進行泛化、以不同的描述方式重組或擴充句式、標簽(比如,用戶只是單純口誤了,或者夾雜了方言,數據都需要標注清晰,供AI算法去學習)。
在整體素質不斷提升的基礎上,人工智能訓練師呈現出更多樣化的梯度,更多優質的標注人才將脫穎而出。
需求交互:應對縱深的項目需求,出現深度交互的專業化服務模式
最后,“精益制造”階段的制造業,往往伴隨訂單方與生產方的深度溝通,需求方深度介入生產制造,才能生產出更符合初衷的產品。
這其實是支撐“精益制造”的專業化服務模式,在數據標注領域也是如此。為了明確AI數據標準,云測數據這種追求高精準度的企業早已要求項目經理與AI項目方在項目開展前反復溝通需求,配合行業培訓師對標注員們進行前期培訓,并在標注作業過程中保持實時的溝通和反饋。
這種反復溝通中,涉及到大量影響最終數據結果精準度的細節,例如,CV項目中,什么樣的光線要標注和定義為“強光線”?不同需求方的理解可能并不一樣。
除了明確數據標準的溝通,在作業方式上,數據標注現在也更為靈活。
典型的是金融場景中,由于行業的特殊性,尤其是對數據安全的極高要求,數據標注企業除了要提供了一套針對金融行業深度結合企業自身業務流程的AI數據服務方案,一些時候還必須改變部署與作業的物理方式,例如云測數據提供的私有化部署和駐場作業服務,在這種服務方式下,數據標注“企業服務”的本質也更明顯了一些。
值得強調的是,在數據隱私安全方面,云測數據設置了一系列嚴格措施。其中一條核心原則就是數據絕不復用,當數據合格交付后從不留底,會清毀相關數據;其二,所有和云測數據進行數據采集的用戶都會簽訂數據授權協議,從來源上確保企業用于訓練的數據合法合規;同時,云測數據內部還設定了數據隔離、質量保障等一系列數據安全流程和技術。
總而言之,AI加速落地催生出更為復雜的AI數據需求,使得本來與制造業在過程上有些類似的AI數據標注也走入屬于產業自身的“精益制造”過程,在生產環境、作業標準、人才建設以及服務模式上都有了很大的轉變。而云測數據帶來的這種轉變,不只是帶來了更高的精準度、更高質量的AI數據,也使得數據標注產業在AI時代的產業鏈條中作用愈加突出。數據標注就像是信息世界的新基建,只有基石的建設穩妥了,AI產業的高樓才能拔地而起,才能加速人工智能更好的到來。
責編AJX
-
AI
+關注
關注
87文章
30763瀏覽量
268906 -
隱私保護
+關注
關注
0文章
298瀏覽量
16440 -
大數據
+關注
關注
64文章
8884瀏覽量
137407
發布評論請先 登錄
相關推薦
評論