掐指一算八年之前,那時正是國內互聯網卯足勁頭起飛的一年,各行各業表現都很突出,尤其是與人們生活密切相關的手機,正大踏步地從功能機向智能手機轉型,其中的市場需求可想而知,阿晶覺得那種爆炸程度完全不亞于如今人們對5G的狂熱追逐。
伴隨智能手機的迅速普及并大舉助力產業化發展進程,各類 APP 宛如新生。同樣是那一年,一家名為云測的企業在業內初現,迎著移動互聯網的風口做起了應用測試的業務。回顧當時的云測,創始團隊幾乎將市面上所有“露頭”的手機機型都采購回來,建立云真機平臺,提供包括質量測試、自動化測試等在內的諸多服務,為加快移動互聯網產品的迭代無私地貢獻了自己的血汗。
隨著時間推移,企業發展且技術演進,在云測積累大量客戶的過程中,一些 AI 企業主動找到云測提出 AI 數據服務的需求。如果說最初選擇應用測試是行業所趨的話,這次與“數”結緣則完全是需求導向,就這樣云測開始布局AI數據服務行業,旗下的 AI 數據服務品牌“云測數據”就此誕生。
據阿晶了解,作為AI數據資源服務的頭部品牌,云測數據早已走在行業前列。其擁有足夠的方法論和對應的協同工作的處理方式,為智能駕駛、智能家居、智能安防、智慧金融保險等領域提供定制化的數據采集標注服務,可以做到全方位支持文本、語音、圖像、視頻等各類型數據的處理。截至目前,云測數據在華東、華北、華南都設有數據交付中心和采集基地,已成功為數百家企業提供了一站式AI數據服務。
說到此處,不容忽視的一點,伴隨 AI 應用落地,對于數據種類、質量以及場景匹配程度的要求正逐漸提升,擁有特定場景數據的優勢會逐漸成為 AI 企業在行業內縱橫捭闔的“殺手锏”之一。
對此,云測數據總經理賈宇航強調,為了貫徹這種戰略導向,獲取更多特定場景的數據,云測數據結合多年的項目管理流程能力,在全國多地自建了數據場景實驗室和數據標注基地,并配備多種采集軟、硬件設備,著力打造了一只專業的定制化采集和高質量的標注隊伍。
“我們要做到能盡可能多的覆蓋 AI 客戶的不同長尾場景,滿足各類場景要求高、采集難度大等采集作業,從源頭提升數據適用性。此外還需憑借管理、風控等方式,最大程度確保數據精確度、保密性等進而完成企業賦能。”他進一步補充道。
縱觀AI技術以及行業的發展,阿晶覺得其實云測的“數據戰略”不無道理。
從整體人工智能的發展歷程來說,背后支撐的三大要素分別是數據、算法和算力,當人們將過多的精力聚焦在算法和算力上時,殊不知 AI 數據在人工智能商業化落地中發揮著不可替代的作用。
舉個例子來說,算法模型被設計好后就需要大量標注好的數據進行訓練才能實現更智能的結果;如果希望性能和算法精準度得到進一步提升,細化精準的數據更是必不可少,否則會制約整個數據行業以及人工智能產業的發展。
具體到商業化的落地,賈宇航表示,雖然算法和算力得到巨大提升,但只有擁有貼近真實場景的精準數據,企業才能在AI落地和商業化道路上越走越穩。
這么看,數據對 AI 就像水電一樣關鍵,如果從 AI 數據服務的發展進程考量,互聯網沉積數據可被認為是初始期,時間大致可以追溯到 5-10 年前。當時很多 AI 領域的企業依托互聯網上沉積的大量數據投身算法驗證,通過爬蟲和數據清洗等簡單易操作的方式,至此一些主營數據集產品的公司應運而生。
發展到第二階段,主要涌現的是通用型數據產品,催生了以“識別”為主,用于實現簡單數據分析的用途。“第三階段,有些企業發現通用性產品確實存在不小的問題,例如無法解決諸多企業面臨的實際問題,由此定制化需求的產生勢在必行,例如亞馬遜 Amazon Mechanical Turk。”賈宇航總結道。
“發展到第四階段,部分企業為了突破行業內算法的局限性,選擇通過硬件升級或者數據維度多樣化得角度著手,進一步豐富自己的數據庫存,但有一點困難之處,這些定制化數據很難通過眾包途徑獲得,定制市場機會無限。”
發展到如今,用戶數據進入到沉淀時期。該階段,企業在使用過程中會不斷積累數據,進而讓產品迭代更加智能。值得注意的是,有些產品自帶分享或社交功能,很大程度上會豐富互聯網的數據沉積,助力企業進入到下一個階段并加強其中的循環往復。
總體來看,企業在不同的階段需要不同類型的數據服務,但眾包采集和定制化采集是數據采集行業的兩種常見模式。 其中眾包模式的優勢主要體現在樣本的豐富性上,但對于今日的 AI 數據服務業務的特性,通過眾包模式解決所有數據采集的需求顯然不現實。更關鍵的是,定制化需求的采集任務中,眾包用戶采集到的數據往往差強人意,反倒出現增加審核成本的情況。
此處阿晶搜羅了一些有關具體企業級數據采集的資料,其顯示 2018 年中國AI公司的總融資規模達到千億元以上,其中數據采標的市場約為 100 億元— 300 億元。具體來說 AI 公司內部的標注部門之間消化,基本占三分之一;剩下的 25%—33% 則流向專門做數據采標的第三方公司。
如此看來,數據采集對企業來說不但必要而且重要,但如果企業選擇自建團隊進行數據采集和標注,必然面臨耗費大量時間成本、人力成本的局面;另一方面,花錢花時間不說,要做到壁壘般獨享數據,又對數據安全提出更高要求,輕易分享怎么能行?
基于 AI 數據發展路徑以及諸多企業痛點,云測主要瞄準了為企業提供定制化場景的數據采集與提供自建團隊式的高精度標注服務的業務重點。對此賈宇航解釋道,投身做定制化場景數據采集主要在于,目前很多企業已存在的數據維度對于算法提升的效果早就面臨瓶頸,必然需要引入更多維度的數據,例如對應場景的多模態數據,將 2D、3D 數據以及聲音等多維度的數據結合起來提升算法性能,而這樣的數據在互聯網的條件下或者通過已有的眾包數據采集很難獲得。
此外有些企業為了提升算法精度自研了一些硬件,而這些硬件只能通過定制化場景去實現更好的效果。所以幫助企業還原想要的定制化場景是顯示業務優勢的手段之一,這項實踐被賈宇航稱之為場景實驗室。
據阿晶了解,這些場景實驗室目前主要分布在華東、華北和華南。在場景實驗室中,云測數據會根據客戶需求,邀請特定模特到實驗室中進行數據采集。可以這樣定義,場景實驗室是云測數據布局高度定制化、多模態的 AI 數據服務的重要組成部分,借此能使得其交付能力與客戶需求平行,甚至領先客戶的需求一點點。
當然除了很智慧的場景實驗室之外,云測數據的核心優勢還可總結為三方面。 從人才專業性角度出發,目前云測數據主要服務于智能駕駛、金融、智能生活、安防等四大領域,每一領域均由不同的項目經理組負責。
其中項目經理都經過包括 AI 基礎、作業管理、場景搭建、突發事件處理等至少 350 小時的職前培訓,完全能夠做到為客戶梳理項目需求文檔并提供專業咨詢服務,從源頭上保證高質量輸出。 更重要的是,云測數據配備了專業的軟硬件設備,針對客戶不同的定制化需求持續優化工具、迭代產品,滿足技術要求高、采集難度大的采集任務,如此一來工具層面確實很給力。
對數據質量和安全的把控方面,云測數據進行了嚴格的質量風險評估、過程質量控制、質量審核以及質量驗收等,用于輸出高質量的數據作業;據了解員工都按照流程協同作業,將采集后的數據傳輸至數據中心,項目交付后直接清毀數據,杜絕員工接觸數據的機會,提升數據安全性。
此外以云測為背書,企業還針對數據采集業務搭建了定制化采集場景。基于客戶算法模型提出的具體需求定制化搭建采集場景,以達到覆蓋盡可能多的實際場景及邊際場景的目的,保證采集數據契合算法模型,為客戶提供高精度的采集數據。
值得提及的是,此環節備采樣本覆蓋全國及海外的數據采集體系,涵蓋各類型圖片、視頻、音頻和文本數據等,同時配備了專業的備采人群樣本,可依照客戶實際需求快速采集合適的數據樣本。
在高精度的數據標注服務上,云測數據自建數據基地,所有標注員統一管理、規范生產,在保證數據準確率的同時有效確保標注作業的信息流轉,提升標注效率;而自研標注平臺則聚合了各種數據標注應用場景,配置靈活,可滿足各種數據標注需求,保證標注作業高質量輸出。
在數據的審核機制方面,主要采用工、審分離的審核模式,即審核團隊不參與標注作業;同時將附有標準答案的作業項目無感知地安插在標注人員的正式標注作業中,精準把握標注人員的對標注規則的理解度。
談及宏觀市場,賈宇航認為數據標注和采集的確是一個新興行業,但目前來說整個行業市場足夠大,各家其實并沒有很激烈的競爭關系。一般情況下,企業在面對滿足自身需求的同時,可選擇的形式也變得多種多樣。當下而言,數據行業更像是一個蹣跚學步的孩童,每個階段被不同類型的數據服務所滿足,面對著不斷變化的服務需求,企業服務市場的變革也在同時加速。
在此基礎上,未來云測數據的發展目標將更多著力在細分領域中,做到領域知識積累更深厚,數據更精準安全。“我們會逐漸將業務向更細分領域場景做深入,以滿足企業的未來需求。”如此看來,云測數據的“硬核英雄之路”才剛剛開始…
-
智能手機
+關注
關注
66文章
18499瀏覽量
180377 -
互聯網
+關注
關注
54文章
11163瀏覽量
103409 -
數據采集
+關注
關注
39文章
6131瀏覽量
113727
原文標題:AIの幕后人:探秘“硬核英雄”的超級武器
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論