數據標注是大多數人工智能的基礎,它決定了機器學習和深度學習模型的質量。今天的數據呈現指數級的爆發,比如僅在2018年,就產生了超過30 ZB的數據。而在在任何人工智能項目中,對于數據科學家而言,數據問題都是其中的癥結所在。
什么是數據標注?
訓練機器學習和深度學習模型,需要豐富的數據,以便將其用于部署,訓練和調整模型。訓練機器學習和深度學習模型需要大量經過仔細標注的數據。標注原始數據并準備將其應用于機器學習模型和其他AI工作流,被稱為數據標注。根據相關統計,數據整理在AI項目中消耗了80%以上的時間。
數據如何標注?
如今,大多數數據都沒有標注。帶標簽的數據,意味著標注或注釋目標模型的數據,以便可以預測。通常,數據標注包括數據標注,注釋,審核,分類,轉錄和處理。
標注的數據突出顯示某些特征,并根據這些特征對其進行分類,可以通過模型分析其模式以預測新的目標。例如,對于自動駕駛汽車中的計算機視覺,AI專業人員或數據標注者可以使用視頻標注工具來指示路牌的位置,并通過行人和其他車輛的位置來訓練模型。
數據標注中包含的一系列任務:
1.豐富數據的工具
2.質量保證
3.流程迭代
4.管理數據標簽
5.培訓新的數據標簽
6.項目計劃
7.成功指標
8.流程運作
AI專業人員的數據標簽挑戰?
在典型的AI項目中,專業人員在進行數據標注時會遇到以下幾個方面的挑戰。
1.數據標簽質量低下。數據標簽質量低可能有很多原因。其中最突出的原因之一是任何企業或工作流程確實三個決定因素:人員,流程和技術。
2.無法擴展數據標注操作。當數據量不斷增長并且業務或項目需要擴展其容量時,由于大多數企業都在內部標記數據,因此它們通常也難以擴展其數據標注任務。
3.難以承受的成本和不存在的結果。企業和AI項目經理通常雇用高薪數據科學家和AI專業人士或一組業余人員來處理數據標簽,而企業需要承擔高昂的人工成本,當然企業也會面臨數據標簽不確定所帶來的問題,所以合適的專業人員至關重要。
4.質量保證。進行質量檢查可以為數據標注過程提供重要價值,尤其是在機器學習模型測試和驗證的迭代階段。
誰來標注數據?
相關調查顯示,2019年,企業在數據標簽上的支出超過17億美元。到2024年,這一數字將達到41億美元。進行數據標注工作,除了雇傭專業的數據科學家和AI專家之外,還可以考慮通過其他方式。
雇員。這包括雇用包括AI專業人員在內的全職或兼職員工,參與AI項目的各個方面,其中之一是數據標注。
托管團隊。他們是經驗豐富,且訓練有素的數據標簽團隊。
承包商。他們包括自由職業者和臨時工。
眾包。企業可以使用第三方平臺一次性尋找數據標注團隊。
-
人工智能
+關注
關注
1791文章
47206瀏覽量
238274 -
機器學習
+關注
關注
66文章
8408瀏覽量
132569 -
深度學習
+關注
關注
73文章
5500瀏覽量
121113
發布評論請先 登錄
相關推薦
評論