屏前幕后,孜孜不倦的人們,用「數據標注」教會 AI 認識現實世界。 而他們所處的數據采標行業本身,也正在從早期粗糙的「數據作坊」發展成為「數據工廠」的專業化運作。
如今,這些流程已經發展出一條完整的產業鏈——采集、整理、清洗、標注,流水線似的過程恰恰是 AI 算法模型精確運行的根基所在。隨著 AI 技術在應用場景下沉,AI 企業對算法落地性要求越來越高。此時,垂直精細和定制化數據顯得尤為重要。
2018 年,中國人工智能基礎數據服務市場規模為 25.86 億元,其中數據資源定制服務占比 86%。Testin云測旗下的 AI 數據服務品牌「云測數據」的出現,就是一個典型案例。
通過 定制化場景搭建,幫助 AI 企業或部門構建數據核心壁壘,提供人工智能場景化落地最需要的數據,這既是客戶獲取差異化優勢的保證,同時也是云測數據的核心競爭力之一。
周一,忙碌的工作照常被擰上發條,北京 2019 年的第一場大雪如期而至,這一天讓張儷興奮不已的不僅僅是大雪,還有她手中剛接下的項目訂單。
客戶是一家圈內名氣不小的自動駕駛公司,他們提供給張儷(化名)一套數萬張的道路數據集,張儷將任務分配給服務智能駕駛方向的小組員工。
十天左右,該套數據里的自動駕駛行車道檢測圖像即可標注完成,準確率超過客戶要求。
兩年前,就職于一家電商公司的張儷不會想到,兩年后的自己會和「高精尖」的人工智能技術打交道。
2017 年末,張儷所在的電商公司因為 O2O 市場降溫而倒閉。失業后不久,張儷在一位算法工程師朋友的推薦下,來到 Testin云測,開啟了一段不同尋常的工作,人工智能的訓練員——數據標注。
一開始,她只需要標注出圖像中的人物性別,工作內容簡單而機械。
接著,她開始給人物標注年齡段,開始框定 2D 對象,然后標注 3D 邊界框,再從白晝圖像到深夜和多霧場景……場景越來越多元、標注需求越來越詳盡,最后這些經過人類點撥過的數據被一股腦地投入神經網絡的研發之中。
到現在,張儷已經成長為一名項目經理助理,她的日常工作從標注轉向項目承接,那些 AI 圈里耳熟能詳的明星公司都是她的重要客戶。
與數據標注師相類似,螞蟻森林護林員、垃圾分類師、毒雞湯文案師……這些看似匪夷所思的新職業,已經與我們生活絲絲相扣。
一份今年的新興職業報告數據顯示,「小鎮青年」是 40 余種新職業的主力軍,從業者約一半生活在三四五線市縣,其中三分之二以上是兼職。
圖一:新職業主力軍——小鎮青年。
「非專業、兼職、勞動力密集型」——是報告為數據標注師圈定的標簽,雖然不免有些以偏概全,但談起「標注員」,確實很難將其與「專業化」、「技藝型」、「創造力」等字眼掛鉤。
但如今,數據服務的產業鏈條正在被重塑。AI 企業對于數據的應用需求逐漸分化,精細度要求也越來越高,以往一味的粗放式加工模式已經喪失市場競爭力,大浪淘沙,從奔騰到平靜,泥沙聚沉,清流上涌。
Testin云測旗下的 AI 數據服務品牌「云測數據」的出現,就是重塑整個產業和標注員印象的一個典型案例。
一、小數據的大天地
根據佐治亞理工學院的一項研究——通過對 8 個圖像識別系統的測試,發現自動駕駛汽車的傳感器和攝像頭,更善于檢測膚色較淺的人,而膚色較深被檢測出的準確率平均會低 5%。
結論一經報道,諸如「AI 行業也存在種族歧視」的言論便充斥在各大媒體上。
然而,從技術角度來看,計算機視覺是通過 RGB 或 RGBD 識別人(物體)的信息,但是黑色是最難被識別的(黑色或深色的 RGB 整體數值偏小),尤其在實際情況中,系統也欠缺黑色及深色的數據,由此導致算法模型不夠精確,最終技術在實際落地應用時出現差錯。
在數據服務行業,這種細分且稀缺的數據統一被稱為「小數據」。
比如道路安防攝像頭,攝像頭中囊括行人、機動車、自行車數據,卻唯獨缺少行人跌倒數據;在自動駕駛領域,監測系統需要采集駕駛員各種狀態數據,但缺少疲勞狀態的數據。
賈宇航(云測數據總經理)解釋道,云測數據針對這些需求,為客戶定制場景、采集數據,在自動駕駛場景中,云測數據可以讓駕駛員先開 6 個小時車,最終采集到真實的疲勞數據。
據了解,云測數據目前的整個數據服務人員已達千人規模,通過標審分離的流程化作業模式和數據安全機制,更好的保證數據的高質量產出和數據隱私性,從而更好地為人工智能落地提供定制化『數據養料』。
數據服務行業早期,企業主要通過數據爬蟲收集數據,數據服務門檻很低,各個企業野蠻生長、魚龍混雜;第二階段開源/付費數據集開始出現,主要分為語音類、圖像類、NLP 類數據集等。
隨著 AI 的發展,僅僅靠數據收集已經不能滿足客戶的算法訓練需求,第三階段的 AI 數據眾包平臺應運而生,在眾包平臺上,可進行更豐富多樣的數據采集與標注,進一步提升 AI 的能力。
當時百度和亞馬遜都曾發展過此項業務,2011 年百度數據眾包就以部門的形式成立,不僅為百度內部需求方如百度 NLP、百度地圖等提供 AI 數據采集和標注服務,同樣將數據眾包業務進行開放,根據客戶需求制定數據采集方案。
如今 AI 與各個產業結合得愈加緊密,為保證算法優勢,客戶需要采用定制化服務,由客提出具體需求,數據服務商對數據進行采集并標注,定制化數據的需求日益增長標志著數據服務 4.0 時代已經來臨。
根據艾瑞《中國人工智能基礎數據服務行業白皮書》顯示,2018 年,數據資源定制服務已在基礎數據服務市場占據 86.2% 的份額。
二、 場景實驗室里的故事
浙江橫店,三腳架支起的鏡頭面前,往后延伸出長長的隊伍,這些群演并非在演戲試鏡,而是采集情緒數據。
「咔」地一聲,鏡頭面前,攝影燈下,群演們或大笑、或痛苦、或憤怒,表情的自然程度決定他們是否通過第一輪試鏡,進入第二輪,考核的標準更為嚴苛。
群演面前立著一面鏡子,鏡子旁邊便是審核人,「想想你上一次失戀是什么時候,心情怎樣」,「你到現在最有成就感事情是什么」,諸如此類的問答也是采集基地的苦心安排——引導情緒、烘托氣氛,保證情緒采集過程的真實、自然。
圖二:采集現場。
數據采集完成后,云測數據標注員工需要根據圖片表現的情緒進行精準標注,未經精準標注的數據,人工智能無法理解其中意義。
正如賈宇航所言,云測數據的采標業務正是整個 AI 產業所迫切需要的,橫店群演的情緒采集只是場景化定制數據的一個縮影。根據企業數據需求,還原 AI 應用真實場景,這不僅需要深入理解需求,還需要快速構建場景,而且對人力資源的調配能力也提出挑戰。
云測數據的服務采取項目制,每位專業項目經理經過了 30-60 天的職前培訓,幫助客戶拆分原始需求、優化項目執行方案,項目經理集中培訓后,再由項目經理針對具體的項目對標注、質檢、審核員工進行培訓。
紛繁復雜的需求背后,有的是剛需,有的則是「無用功」,定制過程中,云測數據需要根據以往項目經驗及實地調查來明確需求,此后再細化、優化需求,幫助客戶完成復雜場景的落地,同時避免客戶花費更多成本。
在采集過程中云測數據會運用專業的軟/硬件設備,比如用測光強度的設備來滿足客戶的環境光照要求,如果客戶需要純凈音頻數據,那云測數據會搭建一個錄音棚,滿足諸如混響或者高底噪的定制化需求,最后再用麥克風進行錄制。
在云測數據交付部門負責人朱文輝看來,整個行業仍處在早期,客戶需求變更經常發生;其次,行業內部面臨很多的不確定性,采標現場的籌備環節,人員的管理問題,需要一系列的協同化處理。
如果說數據采集只是備齊食材,那么標注流程稱得上后期「烹飪」環節,幫場景數據「訓練」算法模型完成最后一道工序。
在標注環節,云測數據擁有線上自研的數據標注平臺——平臺上聚合著如圖像、文本、音頻等數據類型的先進標注工具,尤其是在 3D 點云的標注系統中優化了渲染引擎,保證整個過程的流暢和快捷,當屬業內領先。
據朱文輝介紹,「研發團隊里有產品經理、前后端工程師」等,他們會針對不同領域循環式地改進標注工具,并根據客戶需求,實時反饋、實時更新、實時研發。「我們的迭代速度一直很快」朱文輝回憶道:「迭代之后有些領域的效率提高了三倍不止。」
圖三:云測數據自研標注系統。
除了自研線上標注平臺,云測數據分別在華東、華南、華北自建了標注基地,還有幾個基地正在部署中。在確保標注數據準確率的同時,有效保證標注作業的信息流轉和數據安全。
由于標注是人工完成,本身主觀性因素較大,加之行業缺乏統一的標注數據標準,這使得標注工作充滿不確定性。
「標注的過程是一個顛覆常識的過程」,朱文輝笑著說道,「不同人對待同一件事情標準是不一樣的,比如眼睛的大小,鼻子的高低,嘴唇的薄厚,每個人的標準都不一樣,主觀性很強,在判斷的過程中,我們會與客戶一起溝通交流需求,厘清標準;其次,有的標注事件異常復雜,需要對標簽進行優化,例如人臉識別,描述一張人臉需要 80 多個標簽,此時云測數據會把該項目拆成 5 大類,分工完成,最終拼湊成完整的結果輸出」。
三、數據安全「密鑰」
2019 年 10 月 28 日,杭州「人臉識別「第一案將」究竟誰有權收集我們的人臉信息「這一話題推向輿論高地,事隔一個月,轉轉、咸魚、淘寶等平臺」5000 多張人臉照標價 10 元「的新聞在行業里又掀一輪風波。
數據的惡意倒買倒賣已足夠駭人聽聞,而另一方面,平臺未經用戶授權,將用戶數據記錄、用作自身系統優化更是讓人防不勝防。
今年 1 月,蘋果在 CES 會展中心場外拉起一塊以隱私為主題的巨幅戶外廣告牌——「what happens on your iPhone,stays on your iPhone」。廣告采用黑底白字的極簡風格,但現實卻往往是灰色的——亞馬遜、蘋果、谷歌等公司都存在監聽用戶數據的行為。
正如科技巨頭們為自身辯解的那樣,「監聽數據是為了優化算法模型,提高用戶體驗」,但他們卻從未澄清重要事實——使用人工聽取錄音,標注用戶關鍵信息,致使大量用戶個人隱私泄露。
如今,面對輿論壓力,科技巨頭們開始調整戰略,亞馬遜允許 Alexa 用戶選擇對錄音不進行人工審核;蘋果開始允許用戶刪除 Siri 的歷史記錄,把共享錄音設為可選項;谷歌暫停人工轉錄 Assistant 音頻。
平臺應用方竊取數據進行相關標注,已經讓平臺用戶人人自危,而在專業第三方數據采標公司里,數據安全問題更是凸顯。
目前數據服務行業中,在保障數據安全層面,主要包括私有化離線部署,駐場標注,數據存儲在客戶本地;第二則是公有部署,數據接入在公有云服務器,通過數據接口加密、定期巡查、反爬蟲機制保證數據安全。
作為AI數據服務的頭部企業的云測數據,一直將數據隱私、數據安全放在業務開展的首要地位。在賈宇航看來,數據安全領域,無論是 AI 公司還是數據服務公司,眼光都要長遠一些,采用未經授權的數據當然可以控制成本,但是當行業進入越來越規范的階段,前期的野蠻發展終究會造成不良后果。
在保證數據安全方面,云測數據有三層面投入:
首先,不濫用數據,數據交付后清毀數據不留底,絕不二次使用;
第二,不侵犯隱私,與所有數據采集的用戶都簽訂數據授權協議,確保AI企業用于訓練的數據合法合規;
第三,建立相關的數據保障機制,如從防火墻的設置、內部信息系統的管護、乃至標準化的流程作業體系等。
Testin云測 CMO 張鵬飛也補充道,「從整體看來,AI 數據行業關于安全、隱私等方面并沒有統一的標準和強調重視。但從我們長遠角度出發,一直在隱私和安全防護角度下大力氣服務行業、樹立數據質量標桿,只有以這種負責的態度來服務客戶,我們的行業才能『良幣驅除劣幣』,真正讓人工智能成為新一輪技術革命,改變整個社會和人類進程」。
四、縱橫發展,數據服務的下一幕
目前,整個市場需求正向「一縱一橫「方向發展,」一橫「即指越來越多的行業開始運用 AI,不管是金融、保險、物流、零售還是智能制造等行業。云測數據的客戶主要分為兩大類,一種是運用 AI 顛覆行業,一種是在傳統行業引入 AI,后者正在變得越來越多。
「一縱「是指 AI 與已有行業結合得越來越深,AI 正從大量數據驅動變成了與產業相結合,需要與產業專家進行合作,例如在人臉識別場景,早期只用識別人臉,之后發展到情緒檢測,后期愈加深入細分——如微表情識別。
賈宇航用人臉關鍵點標注來舉例。幾年前的人臉關鍵點標注任務要簡單很多,那時標注員只需在人臉上標出幾個點就行。而現在,人臉關鍵點標注可涉及多達 206 個點:每個眉毛上有 8+個點,嘴唇上有 20+個點,下頜輪廓上有 17+個點。在更多領域擁抱人工智能的趨勢下,數據服務從業者也需具備相應的領域知識。
圖四:人臉關鍵點標注圖像。
「一縱「趨勢讓 AI 數據服務逐漸從一個行業變成產業,成本已不是企業唯一考量因素,管理效率,數據安全,數據質量同樣重要。
早期行業的數據精度要求較低,工作機械化,如今正處在人工智能產業化落地前夕,算法對數據準確度要求越來越高,行業的創造性被激發出來,需要越來越專業的公司從事,留給數據標注兼職業態的生存空間將越來越小,而行業也逐漸從勞動密集型轉變成技藝密集型。
圖五:AI 基礎數據服務行業發展歷程與展望 (圖源艾瑞)。
數據標注服務從業者是人工智能背后的「英雄」,從長期來看,AI 越來越智能,但對于偏感性的判斷仍比較難,如 AI 對文字的演化和情緒的識別仍是弱勢,未來 AI 要處理行業內更為復雜的問題,但人的感知力和判斷力不能被替代。
雖然人力不可替代,但對數據標注員的專業要求將越來越高卻是無疑。
隨著「一縱」趨勢的深入,很多數據標注工作要交由專業人士去做。標注員將從兼職向全職再向具備專業領域知識的全職員工進化,從業門檻的提高其實是行業變遷的縮影,數據標注服務正從以往的「數據作坊」向流水線作業再向具備創造力與專業性的行業轉變。
依靠以往海量粗放的數據喂養已遠遠不能滿足如今 AI 行業的發展,而愈來愈精細的數據正是導致行業變遷的最大變量。
因此,AI 企業需要數據服務商強大的采標能力,保證數據安全及高質量,而與此對應的各類場景搭建、條件變換、特殊人群都是「稀缺資源」,所謂「天下大事必作于細」,在 AI 行業下半場競爭中,云測數據作為定制化數據服務提供商,通過提供「稀缺資源」、「以小博大」,在幫助算法公司獲得優勢的同時,贏得自身的差異化競爭力。
責任編輯:ct
評論
查看更多