色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據之殤?我們究竟需要怎樣的數據?

深度學習自然語言處理 ? 來源:夕小瑤的賣萌屋 ? 作者:Severus ? 2021-07-04 11:19 ? 次閱讀

小編注:前段時間,小屋介紹了吳恩達老師近期發起的以數據為中心AI 競賽。吳恩達老師認為:工業界已經具備較為成熟的算法和代碼體系,現在更加缺少的是一套成熟的構建工業化數據集的方法論。然而,正如圖靈獎得主 Judea Pearl 教授所質疑的那樣:“在不知道什么是質量更好的數據的基礎上提升數據質量是不太現實的”。對于這個問題,本文作者由關系抽取任務說起,探討了一些可能的答案——我們究竟需要怎樣的數據?

前段時間,我的項目正在準備開源發布,補充項目在一些任務上的表現,以作為開源之后可以宣傳的點。我們項目的一大特點是十分擅長應對挖掘任務,因而我們自然也就想蹭波熱度,在某關系抽取評測任務上試了一下效果。

在此之前,我們的項目在一些其他挖掘任務上的表現一直是可以的,但是在那個關系抽取數據上,我們就翻車了,無論是我們的 baseline 還是增強模型,都無法打出來差異化的分數。其實簡單來講,就是:單純使用標注方法,怎么樣都無法提升了。

數據之殤

實際上,對于幾乎所有的公開評測任務,我都會本能地懷疑它的數據是什么樣子的,尤其在我看到了榜單之后。例如細粒度實體識別任務 CLUENER。它的 baseline 評測在某些類別上,連 BiLSTM+CRF 的結果都已經超過了人類(甚至可以說是遠超)。當我看到了這個榜單,自然就會本能地懷疑這個數據是有問題的。CLUENER 數據集暫且按下不表,我們繼續說關系抽取數據集。

對于讓我的項目遭遇了滑鐵盧的那個關系抽取數據集,它的主要的問題則是:無論我在模型上做什么樣的改變,效果的差異都是不穩定的(更換了隨機種子之后,不同模型結構的rank也會改變)。那我自然也要去看一看數據有什么問題了。

隨機抽取了 train 和 dev 評估之后,果然印證了我的思想。在 train 和 dev 上,在單條數據粒度上,分別存在 42% 和 37% 的數據錯誤,其錯誤包括關系錯誤、關系不全,以及句子中不存在的關系被標注成了答案。而我無論怎么更換模型結構,方法也都是簡簡單單的標注算法,就必然會存在標簽上的沖突。對于模型來講,尤其是“學習了一些知識”的預訓練語言模型來講,自然就 confuse 了。

當然我也理解這種數據會出現,因為關系抽取數據在構造的時候,基本都是用已有的圖譜 SPO 數據去反查文本,通常 S 和 O 在某一個句子里面共現了,就認為該句中存在這種關系了。

注:SPO 指 三元組,是知識圖譜用于描述一條知識的基本形式。

這種數據構造方法當然一定是有問題的。這個數據的質量一看也自然是未經review的。甚至說,在學界,大家在打榜的絕大多數公開數據,可能都或多或少存在著不可忽視的噪音問題,例如最近在比的某領域比賽的某一個數據之中,就存在這種東西。這讓我不禁有了一個疑問:當數據有不可忽視的噪音問題的時候,榜單上的高分導向的就是更好的模型嗎?如果答案是否定的,那這些比賽的意義在哪里呢?只是在消耗多余的算力,擠占業務的用卡時間嗎?

我們需要什么樣的數據

關系抽取數據中存在這樣一個例子:

汪涵曾多次在天天向上中展示自己高超的廚藝。

這句話,數據中標出來的答案是S:天天向上,P:主持人,O:汪涵。乍一看好像沒有問題。但是我們仔細想一想:如果排除掉所有的背景知識,我們看這個句子會得到怎樣的理解?是否真能推斷出“主持人”這一關系?

排除背景知識,只看句子本身:汪涵貌似是一個人,天天向上似乎是一個節目——汪涵可能參加過天天向上。這個是我們通過中文的常識知識和句式知識能夠推斷出來的信息

更進一步,即使我們給出一些特化信息,即“汪涵是著名主持人”,天天向上是綜藝節目”。在帶有這樣的先驗下,我們又能推斷出來什么信息呢?汪涵是一個主持人,但主持人參加綜藝節目未必就是主持綜藝節目。比如主持人馬東參加過脫口秀大會,但他只是嘉賓。所以,對于“汪涵”和“天天向上”這兩個個體,我們從這句話中還是只能推斷出參加關系。

那模型怎樣才能知道這個關系?看上去只有通過這個訓練樣本,讓模型自己強行記住這個關系了。(當然還有一種可能是:模型從別的句子里面學到了“汪涵主持天天向上”的知識,然后在這個句子里面應用到了。但如果是這樣,那這個訓練樣本的用處是什么呢?)

或許有的朋友會反駁說:在訓練關系抽取任務的時候,就是想讓模型去過擬合一些東西的。也就是說,直接將汪涵和天天向上兩個實體完全綁定起來,形成主持關系,這樣在榜單上就可以打高分了。然而,如果以這樣的方式去擬合S和O的名字,就要保證測試集和真實使用場景中一定會出現類似的情況。

如果過擬合這個句式里面出現的S和O一定是主持,一定會在其他場景中遇到問題。比如下面這個例子:

張杰也多次在快樂大本營上表現了對謝娜的愛意。

這句話和“汪涵曾多次在天天向上中展示自己高超的廚藝”的句式十分相像。那張杰和快樂大本營又是什么關系呢?實際上,數據中甚至可能會標注出張杰和謝娜的夫妻關系,以及謝娜是快樂大本營的主持人。但這兩條關系在這句話中都沒有直接的體現。

我們再看CLUENER中的一個例子:

去年我們憑借《現代戰爭1》大獲成功,其輝煌業績讓眾多業界老手大跌眼鏡。

其中,現代戰爭1被標注成為了游戲。

這個例子,我想我沒有必要做過多的解釋了。人沒打過這游戲的,確實標不出來。同理,沒了解過賽博朋克2077的人,可能也不太會知道波蘭蠢驢這個名字。

(實際上這個問題也有提到issue里面,但是權威大佬們也沒有理會我......)

另外,還有在研究中文分詞的時候經常會舉的一個所謂疑難雜癥般的例子:

南京市長江大橋

實際上,這句話兩種切分方式都是合理的,都符合我們的常識認知,只不過可能有一個不是事實。那么其實我認為,對于模型來講,就不必過分糾結于這條數據會被切分成哪一個。

模型真正要去區分的,其實是下面兩個句子:

南京長江大橋位于南京市鼓樓區下關浦口區北之間

南京市長江大橋因嚴重違紀違法問題被立案檢查

舉了那么多例子,其實是想說:我們在衡量一個數據好壞時,似乎應該遵循這樣一個邏輯——如果僅利用任務規則中允許我們用到的知識,人類能否有能力得到該樣本中給出的答案?如果能,則這條數據是一個好的數據;如果不能,則一定會對模型形成誤導。所以在判定一條數據的時候,我們應該去回顧這幾乎本能做出判斷背后的思考過程。如果我們不知道答案,通過思考也得不到這個答案,為什么要讓模型去得到這個答案呢?

我們在用數據和任務的形式去建模這個世界,并基于此去指導模型去學習。這一過程其實與我們教育人類幼崽的方式、或者我們自己去理解新知識的方式,是類似的。畢竟,我們現在還不具備憑空描述知識的能力,只能把人類一直在經歷的學習過程加諸到模型身上。

在預訓練的階段,我們貌似讓模型學到了部分語法知識,以及通過大量的事實知識讓模型部分學到了常識知識,但遠遠沒做到讓模型去記憶事實,實際上也記憶不過來,又怎么指望模型在任務中直接就能搞定那些僅僅包含事實的判定呢?

題外話,由于我是做解析的,所以實際上我是沒有那么支持領域預訓練的。因為具體領域和所謂通用域的區別,更多是在于專名(命名實體、術語等)的區別,但表達是相對固定的。還是類比人類,哪怕一個人不是醫生,他看到自己的病歷的時候,除了可能看不懂疾病、臨床表現、藥物,醫療程序等等的專業術語,也能大概能看懂這個病歷的一些意思。無論領域專業性多強,它也是“人話”。在做解析挖掘的時候,我們也應讓模型著重去看懂人話的部分,而不是依賴那些專業的部分。是否不需要讓模型見過那些專業的東西,也能做到效果不錯?當然這個思路比單純去做模型繁瑣得多,產出也慢得多。

任務回歸應用

回歸到更本源的問題,關系抽取任務是為了做什么的?

其實最初關系抽取任務是為了輔助構造結構化知識。隨著知識圖譜越來越多,關系抽取模型已然可以基于已有數據知道一些知識了。此時,我們的需求可能就變成了“通過新的事實描述文本去挖掘補充新的知識”。更準確地說,我們希望:模型能夠基于已有知識圖譜中的信息,從新的文本中挖掘出新的關系,從而與時俱進地補充和更新現有知識圖譜。

當然這種“新的關系”不是類似于“爸爸的爸爸是爺爺”的關系。工業應用已經證明了,這種關系寫規則更香。需要補充的是真正的新關系,比如新婚,比如新參演電影,比如新主持節目等。

所以其實在定義任務的時候,應該詢問這樣幾個問題:

這個任務想要導向什么樣的模型?

這個任務做好了之后能干什么?

這個任務能不能做?

而不是直接拍腦門想出來了這么個任務,然后就隨手弄一波數據發出來了。這樣只會讓學界與工業界越來越剝離,只會讓研究越來越沒有用,只會讓頂會做的這種種事情越來越變成消耗多余的電力。

同時在數據上,也應該有上面所提到的思考。給出的數據,也應該符合實際會應用到的需求。現在看來,部分領域任務或許能做到這個。

否則,最終也只會導向越來越無意義的卷。

所幸,或許,業界有去重新思考數據的趨勢,例如Ng老師的新比賽。但,前路茫茫,不知這束光,是否長久。

責任編輯:lq6

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7006

    瀏覽量

    88958
  • 模型
    +關注

    關注

    1

    文章

    3229

    瀏覽量

    48813

原文標題:在錯誤的數據上,刷到 SOTA 又有什么意義?

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    請問使用ADCPro怎樣實現連續數據采集?

    請問使用ADCPro怎樣實現連續數據采集。現在只能設定Block Size
    發表于 12-02 06:50

    選擇數據采集器時需要考慮的因素

    在選擇數據采集器時,需要考慮以下關鍵因素,以確保所選設備能夠滿足特定應用需求并具有良好的性能和可靠性: 采集需求 : 數據類型和數量 :確定需要采集的
    的頭像 發表于 11-28 16:02 ?330次閱讀

    ADS9224R使用SPI常規模式,讀數據無返回,請問具體的讀數據的時序應該是怎樣的?

    使用SPI常規模式,讀數據無返回,請問具體的讀數據的時序應該是怎樣的?我的操作是常規模式使用zone 1,拉高CONVST后再拉低,然后等待READY變高,拉低CS,進行數據的讀取,讀
    發表于 11-28 06:11

    AI時代,我們需要怎樣數據中心?AI重新定義數據中心

    超過60%的中國企業計劃在未來12至24個月內部署生成式人工智能。AI、模型的構建,將顛覆數據中心基礎設施的建設、運維和運營。一個全新的數據中心智能化時代已經拉開序幕。
    發表于 07-16 11:33 ?704次閱讀
    AI時代,<b class='flag-5'>我們</b><b class='flag-5'>需要</b><b class='flag-5'>怎樣</b>的<b class='flag-5'>數據</b>中心?AI重新定義<b class='flag-5'>數據</b>中心

    pytorch如何訓練自己的數據

    本文將詳細介紹如何使用PyTorch框架來訓練自己的數據我們將從數據準備、模型構建、訓練過程、評估和測試等方面進行講解。 環境搭建 首先,我們需要
    的頭像 發表于 07-11 10:04 ?523次閱讀

    AI智能眼鏡都需要什么芯片

    國內的廠家又該如何跟上這一潮流趨勢?那咱們國內廠商的AI智能眼鏡究竟需要什么樣的芯片來支撐它的運行呢?如果你對以上問題感興趣的話就來聽我嘮嘮吧。接下來介紹設計AI智
    的頭像 發表于 07-11 08:17 ?1161次閱讀
    AI智能眼鏡都<b class='flag-5'>需要</b>什么芯片

    數據起步之前我們需要注意些什么?

    超級傳感器的企業就意味著其掌握了對大數據應用至關重要的用戶信息數據。那么,在真正開始其大數據應用之前,我們需要在起步時注意些什么? 創意比
    的頭像 發表于 07-10 14:51 ?313次閱讀

    我們需要怎樣的大模型?

    AI時代,我們需要怎樣的大模型?這個問題盡管我們無法給出一個確定的答案,但顯而易見的是,用戶的選擇正逐漸匯聚成一股趨勢。6月28日,在WAVESUMMIT深度學習開發者大會上,百度公布
    的頭像 發表于 07-03 08:05 ?112次閱讀
    <b class='flag-5'>我們</b><b class='flag-5'>需要</b><b class='flag-5'>怎樣</b>的大模型?

    揭秘自動駕駛:未來汽車的感官革命,究竟需要哪些超級傳感器?

    ,激光雷達技術受到極大關注,被譽為“激光雷達元年”,凸顯了傳感器在自動駕駛中的重要性。那么,自動駕駛汽車究竟需要哪些傳感器呢? 自動駕駛汽車所需的傳感器 要了解自動駕駛汽車所需的傳感器類型,首先需要明確這些傳感器的功能。自動駕
    的頭像 發表于 05-31 09:14 ?591次閱讀

    STemwin究竟需要多大的內存?

    大家有沒有對STemwin特別了解的,STemwin究竟需要多大的內存?就拿例程
    發表于 05-13 06:37

    在STM32F407官方LWIP例程中,怎樣修改把需要發送的數據直接由應用層映射到數據鏈路層?

    STM32F407官方LWIP例程中,怎樣修改把需要發送的數據直接由應用層映射到數據鏈路層,但又不會影響到LWIP堆棧的接收發送。
    發表于 04-29 06:21

    STM32擦除后數據究竟是0x00還是0xff ?

    STM32擦除后數據究竟是0x00還是0xff ,百度查了許多發現大多數都是0xff的多,都說SD卡(TF)儲存介質是Flash 所以擦除后為0xff,但是我遇到了讀出來的數據是0x00的情況,為什么呢
    發表于 04-18 07:59

    在SPI雙機通信中,時鐘信號由主機提供,那么從機向主機發送數據需要時鐘信號嗎?

    在SPI雙機通信中,時鐘信號由主機提供,那么從機向主機發送數據需要時鐘信號嗎?從機是怎樣通知主機產生時鐘信號的?
    發表于 03-14 06:49

    MES系統需要的主要數據有哪些?

    電子發燒友網站提供《MES系統需要的主要數據有哪些?.docx》資料免費下載
    發表于 01-17 09:09 ?0次下載

    AI加持下的數據中心,需要怎樣的高速接口技術?

    、人工智能的發展,必須要解決如何增強算力、存力和運力的問題。那么高速的數據傳輸是不可缺少的核心環節。在此背景下,我們需要前瞻布局哪些數據傳輸的接口技術來適應發展呢?最近,Rambus
    的頭像 發表于 01-08 09:15 ?1798次閱讀
    AI加持下的<b class='flag-5'>數據</b>中心,<b class='flag-5'>需要</b><b class='flag-5'>怎樣</b>的高速接口技術?
    主站蜘蛛池模板: 最近中文字幕在线中文视频| 日韩欧美视频一区| 果冻传媒免费观看| 国产精品久久久久久久久爆乳 | 青娱乐在线一区| 免费人成网站在线观看10分钟| 九九99亚洲精品久久久久| 国产亚洲精品久久久久久一区二区 | 精品视频在线一区| 很黄很色60分钟在线观看| 国产露脸无码A区久久蘑菇| 国产高清视频青青青在线| 国产成人a在一区线观看高清| 钉钉女老师| 国产高清视频在线播放www色| 德国美女密密麻麻浓毛| 国产69精品9999XXXX| 公主纯肉高H文| 国产精品一区二区AV交换| 国产精品自在在线午夜蜜芽tv在线| 国产精品A久久久久久久久| 国产久久亚洲美女久久| 国产午夜精品不卡观看| 精品无码乱码AV| 久久亚洲伊人| 男人就爱吃这套下载| 人与禽物videos另类| 十8禁用B站在线看漫画| 性生大片免费看| 一级淫片bbbxxx| 91亚洲精品| 不卡人妻无码AV中文系列APP| 国产99久久久国产精品成人| 国产午夜精品鲁丝片| 久久青青草原| 年轻老师毛茸茸自由性| 色噜噜色啪在线视频| 亚洲精品九色在线网站| 最新国自产拍 高清完整版| np高h肉辣一女多男| 国产国产乱老熟视频网站|