色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

AI自動化標注崛起,數據標注員要失業了?

科技云報到 ? 來源:jf_60444065 ? 作者:jf_60444065 ? 2024-01-24 13:06 ? 次閱讀

科技云報道原創

在數據標注行業流行著一句話:“有多少智能,就有多少人工”。

由于需要標注的數據規模龐大且成本較高,一些互聯網巨頭及一些AI公司很少自己設有標注團隊,大多交給第三方數據服務公司或者數據標注團隊來做。

這也衍生出了專為AI而生的人力密集型的數據標注產業鏈。

例如,眾包平臺Mechanical Turk上的20萬名AI數據標注員,就分布在人力成本低廉的非洲和東南亞。印度甚至涌現了不少數據標注村,他們為美國、歐洲、澳洲和亞洲的AI公司服務。

在中國,上百萬名 AI 數據標注員分布在貴州、山西、山東、河南等省份的二三線城市,并逐步向人力成本更低的縣城滲透。

但諷刺的是,數據標注員正在被自己服務的AI所替代,已經有企業開始采用AI進行數據標注。

據彭博社1月14日報道,蘋果公司將關閉圣地亞哥一個與人工智能業務相關的121人團隊,這將導致數據標注員面臨被解雇的風險。

那么,人工數據標注能否真的被AI全面替代,我們又是否會進入“AI訓練AI”的時代呢?

AI自動化標注崛起

訓練一個高效的大模型必不可少的是高質量的數據。OpenAI正是借助基于人類標注的數據,才一舉從眾多大模型企業中脫穎而出,讓ChatGPT成為了大模型競爭中階段性的勝利者。

但同時,OpenAI也因為使用非洲廉價的人工進行數據標注,被各種媒體口誅筆伐。

對于數據標注,一定需要找到一個新的方法,才能避免大量使用人工標注帶來的包括道德風險在內的其他潛在麻煩。

因此,全球各大AI巨頭和大型獨角獸,都在進行數據標注自動化的探索。

蘇黎世大學研究發現,ChatGPT平均每個標注成本低于0.003美元,比眾包平臺便宜20倍;在相關性、立場、主題等任務中,ChatGPT也是以4:1的效率優勢“碾壓”人類。

來自卡耐基梅隆大學、耶魯大學和加州大學伯克利分校的一組研究人員更是發現:GPT-4在數據集標注表現上優于他們雇用的最熟練的眾包員工。

這一突破為研究人員節約了超過50 萬美元和2萬個工時。

論文發出后,有網友評論稱“這是直接端了平臺工作者的飯碗”。

目前在自動駕駛領域,已經有車企開始采用AI進行自動化標注。

例如,特斯拉一直在積極推進自動化標注的進展,從2018至今,特斯拉的標注經歷了4個階段:

第1階段(2018):只有純人工的二維的圖像標注,效率非常低;

第2階段(2019):開始有3D label,但是是單趟的人工的;

第3階段(2020):采用BEV空間進行標注,重投影的精度明顯降低;

第4階段(2021):采用多趟重建去進行標注,精度、效率、拓撲關系都達到了極高的水準。

2022年6月,特斯拉裁撤了200名為特斯拉標注視頻以改進輔助系統的美國員工。

目前,特斯拉的自動標注能力大幅改善,標注10000個不到60秒的視頻,大模型只需要運行一周即可,而同樣的工作量人工標注卻需要幾個月的時間。

在國內,理想汽車董事長兼CEO李想曾在2023年4月份舉行的一場論壇上表示,當理想汽車使用軟件2.0的大模型,通過訓練的方式進行自動化標定,過去需要用一年做的事情,基本上3個小時就能完成,效率是人的1000倍。

不僅如此,自動化標注工具也在飛速發展。

國外AI初創公司refuel推出了一個名為Autolabel的開源工具,可以使用市面上主流的大模型來對數據集進行標注。

該公司的測試結果稱,Autolabel的標注效率相比人工標注提高了100倍,成本僅為人工成本的1/7。

國內一家名為視智未來的公司也在打造標注大模型。他們表示,有些項目已經用GPT交付了,準確率方面達到了80%多,與人工接近。

不得不說,在AI面前,無論成本還是效率,人類可以說是毫無優勢。

RLAIF:AI標注訓練方法

話說回來,ChatGPT是怎么搶了數據標注員的“飯碗”的?

以往數據標注員要干的事情,是將標注好的數據用作AI模型的訓練集或評估標準,這個過程叫做RLHF(Reinforcement Learning from Human Feedback),即基于人類反饋的強化學習。

RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓練方法,它最大的好處就在于能夠將模型和人類的偏好對齊,讓大模型給出更符合人類表達習慣的回答。

不過發布在arXiv的一份論文表明,這份看起來只有人類能做的工作,也能被AI取代。AI取代了RLHF中的“H”,誕生了一種叫做“RLAIF”的訓練方法。

這份由谷歌研究團隊發布的論文顯示,RLAIF能夠在不依賴數據標注員的情況下,表現出能夠與RLHF相媲美的訓練結果——

如果拿傳統的監督微調(SFT)訓練方法作為基線比較,比起SFT,1200個真人“評委”對RLHF和RLAIF給出答案的滿意度都超過了70%(兩者差距只有2%);另外,如果只比較RLHF和RLAIF給出的答案,真人評委們對兩者的滿意度也是對半分。

具體而言,研究人員主要就“根據一段文字生成摘要”這一任務,展示了RLAIF的標記方法。

首先是序言(Preamble),用來介紹和描述手頭任務的說明。給定一段文本和兩個可能的摘要,輸出1或2來指示哪個摘要最符合上述定義的連貫性、準確性、覆蓋范圍和整體質量。

其次是樣本示例(1-Shot Exemplar)。給到一段文本,接著給到兩個摘要,以及“摘要1更好”的偏好判斷,讓AI學著這個示例對接下來的樣本做標注。

再次就是給出所要標注的樣本(Sample to Annotate),包括一段文本和一對需要標記的摘要。

最后是結尾,用于提示模型的結束字符串。

就像人類標注員會給不同的回答打分一樣(比如滿分5分),AI也會依據偏好給每個摘要打分,這也是AI和人類標注員發揮作用的關鍵環節,主要是用于訓練獎勵模型(RM)并生成反饋內容。

論文介紹到,為了讓RLAIF方法中AI標注更準確,研究者也加入了其他方法以獲取更好的回答。

譬如為了避免隨機性問題,會進行多次選擇,其間還會對選項的順序進行交換;此外還用到了思維鏈(CoT)推理,來進一步提升與人類偏好的對齊程度。

需要說明的是,谷歌的這篇論文也是第一個證明了RLAIF在某些任務上能夠產生與RLHF相當的訓練效果的研究。這意味著不用人類指點,AI也能訓練自己的同類了。

該論文的發布很快收獲了不少關注。比如有從業者評論道,等到GPT-5可能就不需要人類數據標注員了。

盡管這項工作凸顯了RLAIF的潛力,但依然有一些局限性:

首先,這項研究僅探討了摘要總結任務,關于其他任務的泛化性還需要進一步研究。

其次,研究人員沒有評估LLM推理在經濟成本上是否比人工標注更有優勢。

此外,還有一些有趣的問題值得研究,例如RLHF與RLAIF相結合是否可以優于單一的一種方法,使用LLM直接分配獎勵的效果如何,改進AI標注器對齊是否會轉化為改進的最終策略, 以及是否使用LLM與策略模型大小相同的標注器可以進一步改進策略(即模型是否可以“自我改進”)。

重人力轉向重技術

盡管AI自動化標注技術在快速發展,但第三方數據標注服務商并沒那么樂觀。

河南一家眾包平臺的項目經理認為,自動化標注還不能取代60%以上的標注需求,只能作為輔助標注工具處理單一或特定數據,提升人效。

另一家數據標注公司的產品經理認為,自動化標注只能過濾簡單的基礎數據,還不能像人一樣從復雜有爭議的場景中精確識別物體。

如果說簡單的標注可以用AI來完成,那么人工參與的將是難度更高的數據篩選和標準工作,這也意味著數據標注行業的門檻將會不斷提高。

作為對照,早在ChatGPT走紅前,OpenAI就組建十幾位博士生來“打標”。

而百度在海口的數據標注基地擁有數百名專職大模型數據標注師,標注師的本科率達到100%,需要具備一定的知識儲備和邏輯分析能力。

不過大家也認同,未來的數據標注將從重人力轉向重技術的趨勢。

一家眾包平臺的創始人在和同行交流時說,未來不能堆人力,要有研發能力。也有從業者認為,人工標注對于泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。

總之,不是被同行“卷死”,就是被技術“卷死”。數據標注公司已做好了隨時裁員的準備,同時向做自動化標注工具的方向發展。

【關于科技云報道】

專注于原創的企業級內容行家——科技云報道。成立于2015年,是前沿企業級IT領域Top10媒體。獲工信部權威認可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創報道云計算、大數據、人工智能、區塊鏈等領域。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    30763

    瀏覽量

    268913
  • 大模型
    +關注

    關注

    2

    文章

    2427

    瀏覽量

    2650
收藏 人收藏

    評論

    相關推薦

    淺析基于自動駕駛的4D-bev標注技術

    4D-bev標注技術是指在3D空間中以時間作為第四個維度進行標注的過程。4D-bev通常在地場景較為復雜的自動駕駛場景中使用,其可以通過精準地跟蹤和記錄動態對象的運動軌跡、姿勢變化以及速度等信息,全面理解和分析動態對象在連續的時
    的頭像 發表于 12-06 15:01 ?729次閱讀
    淺析基于<b class='flag-5'>自動</b>駕駛的4D-bev<b class='flag-5'>標注</b>技術

    軟通動力入選《人工智能數據標注產業圖譜》

    近日,由中國信息通信研究院、中國人工智能產業發展聯盟牽頭,聯合中國電信集團、沈陽市數據局、保定高新區等70多家單位編制完成并發布《人工智能數據標注產業圖譜》。
    的頭像 發表于 12-03 10:18 ?148次閱讀

    標貝科技:自動駕駛中的數據標注類別分享

    的必要條件,數據采集、數據標注服務已成為支撐自動駕駛熱潮必不可少的一環。本文將以數據標注的視角,
    的頭像 發表于 11-22 15:07 ?880次閱讀
    標貝科技:<b class='flag-5'>自動</b>駕駛中的<b class='flag-5'>數據</b><b class='flag-5'>標注</b>類別分享

    標貝科技:自動駕駛中的數據標注類別分享

    的必要條件,數據采集、數據標注服務已成為支撐自動駕駛熱潮必不可少的一環。本文將以數據標注的視角,
    的頭像 發表于 11-22 14:58 ?278次閱讀
    標貝科技:<b class='flag-5'>自動</b>駕駛中的<b class='flag-5'>數據</b><b class='flag-5'>標注</b>類別分享

    工具型AI標注平臺SpeedDP工作流程是怎樣的?

    SpeedDP作為一個工具型AI平臺,它能提供從數據標注、模型訓練、測試驗證到RockChip嵌入式硬件平臺模型部署的可視AI開發功能。平
    的頭像 發表于 11-19 01:02 ?291次閱讀
    工具型<b class='flag-5'>AI</b><b class='flag-5'>標注</b>平臺SpeedDP工作流程是怎樣的?

    自動化AI開發平臺功能介紹

    自動化AI開發平臺集成了多種算法、工具和框架,旨在幫助開發者更快速、高效地設計、訓練、部署和管理AI模型。以下,AI部落小編將詳細介紹自動化
    的頭像 發表于 11-14 09:29 ?207次閱讀

    HarmonyOS NEXT應用元服務開發按鈕標注場景

    控件類型、“單指雙擊即可打開”之類的字符串,此部分指引由屏幕朗讀根據控件類型、控件狀態,并結合用戶是否開啟“新手指引”自動追加朗讀。 在下面的代碼片段中,您可以看到Image組件(它實際上是一個播放
    發表于 10-10 16:48

    螞蟻數科發布AI賦能新一代數據標注產品

    在近日舉行的2024 Incluison·外灘大會上,螞蟻數科憑借其技術創新的深厚底蘊,正式推出了新一代AI數據標注產品,旨在為企業客戶提供全方位、智能
    的頭像 發表于 09-10 16:04 ?450次閱讀

    SpeedDP! 超便利AI自動圖像標注工具 功能豐富、省時省力

    超級AI,在線標注,既能解放雙手,又省時省力。傳統的標注模式需要你對著目標不斷拉框,反復機械的動作做多了就變得“麻木”,影響效率還使人煩惱。而SpeedDP的出現,可以有效的提升標注
    的頭像 發表于 08-30 12:59 ?280次閱讀
    SpeedDP! 超便利<b class='flag-5'>AI</b><b class='flag-5'>自動</b>圖像<b class='flag-5'>標注</b>工具   功能豐富、省時省力

    你了解貼片電感上標注的數字含義嗎?

    你了解貼片電感上標注的數字含義嗎?
    的頭像 發表于 08-17 14:30 ?758次閱讀
    你了解貼片電感上<b class='flag-5'>標注</b>的數字含義嗎?

    微鏈道愛加入元腦生態,將打造AI視覺標注訓練一體機

    北京2024年7月8日?/美通社/ --?近日,北京微鏈道愛科技有限公司(簡稱"微鏈道愛")與浪潮信息簽署元腦生態戰略合作協議。雙方將共同打造AI視覺標注訓練一體機,支持高效的數據標注
    的頭像 發表于 07-08 15:31 ?391次閱讀

    標貝數據采集標注自動駕駛場景中落地應用實例

    AI數據服務作為人工智能和機器學習的基礎,在自動駕駛領域中有著重要地位。與其他人工智能應用場景相比,自動駕駛的落地場景相對復雜,想要讓汽車本身的算法做到處理更多、更復雜的場景,就需要運
    的頭像 發表于 05-28 14:22 ?557次閱讀
    標貝<b class='flag-5'>數據</b>采集<b class='flag-5'>標注</b>在<b class='flag-5'>自動</b>駕駛場景中落地應用實例

    慧視SpeedDP大模型打造圖像標注新時代

    在人工智能時代,圖像標注不僅能夠反哺AI的發展,還能進一步降低項目成本。傳統的圖像標注需要人工采用文本或者相應工具機械式的進行圖像標簽分配,例如谷歌就曾大量使用圖像驗證碼,用戶在進行驗證碼點擊的時候
    的頭像 發表于 05-24 08:29 ?542次閱讀
    慧視SpeedDP大模型打造圖像<b class='flag-5'>標注</b>新時代

    led發光模塊的地線可以標注為什么

    LED發光模塊是一種常見的電子元件,用于將電能轉化為光能。地線是模塊中一個重要的接線點,起到連接模塊與地面的作用,以確保電路的正常工作。本文將詳細介紹LED發光模塊的地線標注的原因和意義,以及
    的頭像 發表于 01-24 14:53 ?807次閱讀

    利用AI實現自動圖像標注不是夢

    了SpeedDP深度學習算法開發平臺,如今平臺已經實現移動端使用,可運行于Windows或Linux操作系統,可完成自動標注AI算法開發(項目配置、訓練、評估、測
    的頭像 發表于 01-04 08:29 ?1304次閱讀
    利用<b class='flag-5'>AI</b>實現<b class='flag-5'>自動</b>圖像<b class='flag-5'>標注</b>不是夢
    主站蜘蛛池模板: 日本精品久久久久中文字幕 1| 亚洲精品国产精品麻豆99| 国内精品免费久久影院| 在线观看中文字幕国产| 一级毛片免费播放| 青柠在线电影高清免费观看| 精品午夜视频| 国产AV视频二区在线观看| 506070老熟肥妇bbwxx视频| 性美国人xxxxx18| 日韩AV片无码一区二区三区不卡| 久久九九少妇免费看A片| 色欲AV亚洲午夜精品无码| 丰满大屁俄罗斯肥女| 最好看中文字幕国语| 亚洲精品成人a在线观看| 天天干夜夜曰| 热久久免费频精品99热| 两个人的视频日本在线观看完整| 国产一区二区青青精品久久| 古月娜下面好紧好爽| japanese from色系| 337p啪啪人体大胆| 亚洲一区二区三区91| 亚洲AV久久无码精品九号软件| 日本免费一区二区三区最新vr | 国产嫩草在线观看| 阿v天堂2017在无码| 97在线观看成人免费视频| 一本道久久综合久久88| 亚洲大片免费| 亚洲AV蜜桃永久无码精品红樱桃| 肉多的小说腐小说| 日韩亚洲视频一区二区三区| 青青视频 在线 在线播放| 欧美亚洲日本日韩在线| 欧美成a人片免费看久久| 免费人成在线观看网站视频| 麻豆免费高清完整版| 麻花传媒MD0044视频| 快播电影频道|