有人的地方就有江湖。有互聯網的地方就有色流大軍。人工智能時代,在這場用色情變現與用人工智能抵御變現的博弈戰中,誰更勝一籌?
貪嗔癡、奢淫逸、黃賭毒,人有七情六欲。每一類情欲都是巨大的風口,加以利用便是千億級的產業。游戲、音樂、夜場滿足人們對犬馬聲色的渴求;電影、書籍、報刊滿足人們對窺視的好奇;門戶、直播、微信的出現,更是滋生了巨大的色情產業江湖。
暗流涌動:進軍互聯網+情色
互聯網的颶風,正以摧枯拉朽之勢改變或顛覆著傳統商業模式。如出行、醫療、零售、金融等領域,而地下色情產業更是利用互聯網開辟出賣淫之外的新戰場——色情直播、一夜情等。
戰場有了,玩家如何入局?色流產業鏈應運而生。這些“戰場”都處于隱蔽地帶,需要一批專員接送玩家,于是催生出了一批引路人,這些人組成了色流大軍——專門在網上發布色情信息,以吸引流量,從而變現。
而另一撥人為營造綠色網絡環境,需不斷封殺發布情色信息的色流大軍。1978年,第一封互聯網垃圾郵件的出現,打響了雙方攻防大戰的第一槍。
到2008年,戰斗已打了近三十年,戰場從網易、新浪等門戶網站、打到百度貼吧、騰訊QQ、微信等。顯然,線上色情信息傳播渠道,基本集中在當下各大門戶網站和社交平臺。因為,只有最火爆的產品,才能吸引更火爆的色情流量。
2008年的博客,獨領風騷,傲視互聯網群雄。此時,一群躲在暗處的人正對著博客虎視眈眈,朱小虎(化名),正是這群人中的一個。
初中畢業的朱小虎,工作兩年,那年他待業在家,整日沉浸網游《真三國無雙》之中。兩個月后的一天深夜,他的QQ收到了一個消息,是他一個在城市打工的初中同學發來的——問他是否有意一起干大事——足不出戶月入上萬。有這樣的工作,他自然高興加入。
當時色流大軍正處于文本信息時代,朱小虎的工作主要是注冊帳號、在網易博客等各大互聯網陣地復制粘貼曖昧消息,并留下QQ號碼,達到引流目的,根據每個QQ號吸引人數的多少進行提成。
很快色流大軍和網易內容安全部展開了攻防拉鋸戰。同年,現任網易云安全(易盾)CTO朱浩齊加入網易,負責網易博客內容安全。
網易云安全(易盾)CTO朱浩齊告訴Xtecher,對于這類色情文本信息處理,從技術層面相對容易,只需通過抓取關鍵詞、查詢同一時段留言帳號的IP是否相同,通過長期監測帳號行為,系統基本就可過濾大部分色情等垃圾信息。
正如朱小虎表示,剛入行那會,沒什么經驗,沒有什么好辦法回避網站安全檢測的慧眼,發出的消息第二天可能就被刪除,吸引不到流量。但以朱小虎為代表的黃色信息傳播者會就此收手嗎?
地下組織:銳不可當的色流大軍
隨著技術的變革,色流大軍開始組織化,團伙化,分工與合作明確,上下游產業鏈日漸成熟。
在朋友的指導下,朱小虎逐漸學會了文本上的變種,通過諧音、異形字、敏感詞之間加入亂碼等形式來騙過系統審查。“那個時候被刪得沒那么快了,收入也高了一點,有不同項目來找我們。”
朱小虎說的“項目”指的是他們的客戶,這些客戶有的是賭場,有的是發票公司,更多的是色情組織。
(消息自動發送軟件)
通常色情組織負責人會給他們幾個QQ、微信帳號,讓他們將客戶吸引到這些帳號里,每個色流客戶價格從幾毛到幾元不等。這條色流產業鏈已經逐漸形成規模化。
朱浩齊告訴Xtecher,當有人提出尋找潛在色情客戶的需求后,一些團隊打著“互聯網營銷推廣”的名義承接業務。之后,團隊分析訂單技術難度。要想吸引更多潛在用戶,需要在熱門產品下曝光。但這些產品帳號注冊需要驗證碼甚至短信驗證,如果全部自己操作無疑會加大投入成本,于是他們開始找尋下家合作。
在這條色流產業鏈上,有的黑產負責注冊大量帳號,這些帳號幾天登陸一次,發貼、回復,其行為和普通用戶沒有區別,屬于色流產業中的高端帳號。一旦等到客戶出現,便批量將帳號賣出。
朱浩齊表示對于這些帳號,網易云安全(易盾)會將其列入灰名單,待其有違規舉動,立即封殺。
此外,有的黑產提供IP資源,研發自動評論工具,利用病毒控制大量肉雞,只需將帳號和IP輸入工具內,便會自動切換帳號和IP進行評論發布。
有的黑產研發驗證碼、短信驗證打碼平臺,只需將驗證碼的圖片通過API發送到平臺,就能得到正確的驗證碼結果。
黑色產業鏈的形成,使得色流大軍從當年的散兵游勇,升級到了正規軍兵團,其戰斗力不可同日而語。色流大軍開始攻城略地,所到之處,色情信息遍地,各大門戶、論壇苦不堪言。新浪、網易博客,QQ空間等產品都曾遭受色流大軍的攻擊。也正是這個節點,網易迎來了歷史上最強勁的一次攻擊。
攻與防:道一尺魔一丈
“哪個地方最火爆,我們就去哪里發帖,不管是門戶還是游戲網站。新浪,網易,一些樓鳳論壇,英雄聯盟這些地方我們都發。”朱小虎表示,哪里屌絲多,他們就去哪里,“老司機論壇才有轉化率”,相比一些文學論壇他們就發的少——“這些地方的人,精得很,轉化率太低。”
形成產業鏈后,最高時朱小虎可日進萬元。他只需專注利用工具發帖,得到足夠多的流量后,自然有人給他報酬。“高的時候一天有近萬人加我。”——這是朱小虎攻城略地的戰果。按每人一元計算,如果流量全部被收購,朱小虎的一天收入不菲。
近萬的流量如何生成?有一部分就是從各大博客轉換而來的。當時的黑產大軍進行了技術升級,不再僅限于文字攻擊。
朱小虎有著用色情信息攻擊博客群的實戰經驗。2009年的一個夜里,他收到了消息,當天夜里他需要和團隊一起攻城略地。離出擊的時間越來越近,QQ頭像閃動,打開對話框跳出兩個字——出擊!
無法確定是否在同一天,同樣在2009年的一個夜晚,朱浩齊接到值班人員的告急電話——博客正被大量色流信息攻擊。
養號千日,用號一時,這一回色流大軍使用了許多平日里“表現良好,無不良記錄”的帳號,并且通過發布大量大尺度卻不違規的美女照片,吸引網友點擊他們的帳號,并在帳號主頁里留下并不違規的交友信息與QQ號。
此舉騙過了系統,很快大量情色信息充斥到了網易博客。值班人員發現后立刻通知朱浩齊,查明原因后,網易緊急調動幾百人開始對這些大尺度照片進行人工刪除,奮戰終日,方才控制住局勢。
網易云安全(易盾)CTO朱浩齊告訴Xtecher,當時參與刪帖的同事都戲稱那是公司發放的“福利”。
此后色流大軍的攻擊方式日益多樣化,攻擊力度亦與日俱增。許多色流從業者偽裝成用戶,打電話到網易安全部,套問自己的帳號通過什么手段被封殺,繼而改變策略繼續攻擊。朱浩齊告訴Xtecher,2008至2009年博客類產品飛速增長,一年間網易博客估計刪除垃圾信息數十億條,封禁垃圾用戶上千萬。
【2015年網易清理的垃圾信息,資料來自網易云安全(易盾)】
朱浩齊表示,數據顯示,這背后的攻擊,多數來自一線城市的郊區地帶。在這些地方,能便捷獲得各類硬件、軟件等技術支持。
垃圾黑產的團伙化以及追逐流量而進行的攻擊,成了網易成立專業內容安全部門的觸發點。
人工智能:力挽狂瀾
隨著互聯網產品日趨多樣化,色情信息的傳播路徑和形式越發“高級”。比如,視頻直播的出現讓色流大軍在熱門直播平臺的各個角落里散布垃圾內容:彈幕,評論,昵稱,頭像,簽名,用戶資料,甚至直接參與違法直播表演。
這令鑒黃人員苦不堪言。他們24小時輪流值守,查看直播間是否有色流彈幕、有無大尺度露點等,以阻止色情信息的傳播,甚至有的男性鑒黃人員因為長期觀看大尺度照片、視頻,到家缺乏精力,被女友責難。
顯然,繼續用傳統的人力手腕來阻止色流信息的傳播,已經變得勢單力薄了。色流大軍的猖狂不絕,迫使網易在2009年開始提升對黃色信息的狙擊能力,研發更先進的算法。當時網易已將膚色識別,紋理識別等應用到反色流領域,但膚色識別同樣存在缺點——系統將黃色樹葉、黃色的沙子當做了色情圖片予以屏蔽。
隨后,網易嘗試使用非機器學習領域的算法與模型,但基于當時的算法、硬件等生態環境的不夠成熟,最后試驗出的效果總無法滿足實際操作情況。
顯然,此時的網易仍舊處在被動的防御狀態,直到人工智能的出現。
2012網易開始組建內容安全部門,即網易云安全(易盾),并進一步嘗試人工智能在內容安全領域的應用。而色流大軍早已將垃圾信息進行各種的演繹,試圖騙過系統識別。
(色情消息變種圖)
道高一尺,魔高一丈。其中以最后兩條較為隱蔽,傳統文本失效后,色流大軍發布了各種Unicode符號替換文本內容,如圖中汽車,并修改帳號昵稱,更在頭像中留下微信號碼,以傳播色情信息。如果加上IP,帳號等不停變化,抓取難度便大幅提升。甚至,某些色流大軍使出了凌波微步,傳統檢測方式單獨處理昵稱或者評論時,都可能失效。
對此,網易云安全(易盾)設計開發了“所見即所得”的過濾系統,盡可能真實地還原產品數據展示形式,將昵稱和評論內容一起做語義分析,也會將頭像圖片經過機器識別后跟評論內容一起審核。
隨著語義理解、圖像識別等智能文本、圖像鑒黃登場,大批鑒黃人員被從中解放了出來。除了網易云安全(易盾),更有達觀數據、極限元等科技公司披堅執銳,以阻止色流信息的傳播。
搏殺之利器:文本、語言、圖像
2015年下半年,達觀數據CEO陳運文離開閱文集團(騰訊閱讀和盛大文學合并),創辦“達觀數據”。同年年底“達觀”完成1000萬元天使輪融資,2017年獲5000萬元融資,專注提供大數據技術服務,其中一項業務是:文本處理功能。該功能可以自動提取關鍵詞、打標簽、文本內容檢測、分類等。
陳運文告訴Xtecher,在文本信息層面,他們通過生成對抗網絡,可以刪除過濾色流信息。
“通過人工智能防御系統,在實戰中不斷升級,將最新出現的各類色流變種信息,整合到模型中,繼而達到系統自我識別預判的目的,能將色流信息的各種變形變換,中間跳字等變種識別出來,加以屏蔽。”他進一步解釋“達觀數據”絞殺不良信息的本事。
陳運文做出了一個直觀的比喻,“我們做的就是抗生素,當然病毒會不斷變異,我們不斷升級抗生素的殺菌能力,有點像打疫苗。”
有了人工智能做出的疫苗系統,下次色流病菌入侵的時候,就將被自動免疫。“當然以上針對的只是文本層面的色流信息,而對于圖像層面的色流信息,就需要用到圖像識別。”原因是,圖片中的色流信息千變萬化,在圖片識別上,色流工作者會更多采用非常規字體貼到圖片上,比如將普通字體變形、加入藝術字等,加大了人工智能識別難度。
顯然,清除帶有黃色信息的圖片需要從技術層面強化。
對此,另一家專注智能語音、計算機視覺等領域的人工智能技術公司----“極限元”在圖像識別鑒黃領域也有自己的建樹。極限元聯合創始人馬驥告訴Xtecher,對于色流圖片中的字符內容、二維碼等信息,主要通過對字符、二維碼的檢測、定位,來識別其中的內容信息。另一方面,通過深度學習技術,基于大量圖片數據,訓練圖像視頻識別模型,用以識別圖片及視頻中的涉黃內容。
馬驥表示,目前直播平臺涉黃圖像檢測的準確率高達99%以上,誤報率低于1%,需要客服進行人工復核的比例不超過3%。人工復核后的數據會被收集起來進行迭代訓練,這樣可以不斷提升識別的準確率。
(極限元在線直播音視頻敏感信息檢測圖)
而除了使用文字和圖片繼續色情引流之外,色情傳播的形式更向動態化演進。比如,女主播還會通過語音播報微信號碼,讓觀看直播的男性添加微信,此類引流手段甚為快捷,兩個小時即可引來五六百的流量,然后通過視頻軟件“開車”。觀眾只需發送幾十元的紅包,即可“上車”觀看女主播線上舉辦的閉門大尺度直播盛宴。許多女主播,一晚收入數千、上萬,月入十余萬。
為此,除了文本和圖像方面對色情信息的識別,各大人工智能技術平臺更將智能語音應用到了直播領域。極限元通過深度學習技術,識別和分析出語音中的信息內容,從而判斷出語音內容中是否含有敏感信息。使得在文本和圖像外讓反色流多一個觀察維度。此外,極限元還擁有智能語音、聲紋、圖像識別等一系列人工智能技術,已和國家網信辦、公安部、搜狗、奇虎360等機構合作。
而網易云安全(易盾)更是專門為直播行業打造智能鑒黃系統,代替鑒黃師,解決視頻鑒黃、互動過濾,將用戶簽名、頭像等都納入審核管理。
百戰不殆:新時代的色流大軍
基于圖像識別技術的視頻涉黃檢測,準確率可以達到99%以上,通過對人工智能的應用,極大地將人在對抗色流大軍的繁瑣工作中解放出來,然而即便如此,這場戰斗仍舊沒有打完。
原因是,目前人工智能在色流抵御的某些環節技術能力仍薄弱。比如對于新增的色流傳播形式和途徑缺乏了解,等待人工標注數據,學習建模后有一定滯后性。
正如極限元馬驥所言,“人是懂得暗示的,除了顯而易見的敏感關鍵詞,還不斷使用大量隱晦的關聯詞語。” 比如,色流大軍經常肆無忌憚地出現在LOL游戲、直播中,用軟件自動發布內含隱晦色情信息和聯系方式的彈幕,繼而得到流量。
此外,除了在開放性的論壇、門戶網站、直播間等平臺發布色流信息外,色流大軍更是將戰斗力轉移到微信等封閉式產品中。
(群控手機)
打開微信附近的人,隨意可見各類嫵媚女性,常有美女主動打招呼,相聊甚歡,但背后,控制這個美女帳號的,可能是一個猥瑣大叔。
當一個帳號添加足夠人數后,會被賣給各類情色會所、化妝品公司、理財機構等。朱小虎表示,這些機構買下微信帳號后,通過朋友圈展示產品、情色資源等,以達到流量變現的目的,而這其中以色情流量轉換率最高。
因為微信聊天內容屬于隱私,目前似乎還難以監管,所以龐大的色流大軍不斷涌入,渴望分一杯羹。
隨著互聯網傳播媒介的不斷變化,色流大軍亦緊隨時代步伐,不放過任何可利用的產品與漏洞。
雖然人工智能技術被應用于反色流,但網易云安全(易盾)CTO朱浩齊表示,色流信息并沒有因此而減少,反而隨著科技的進步色流攻擊越來越多。
色流產業有多大的規模,目前難以預測,騰訊、新浪、網易等各家數據都是封閉的,難以以一家數據預測產業鏈規模。
從傳統互聯網博客,到移動互聯網的微信、直播等,隨著互聯網技術和產品形態的演進,帶寬的增加、群控設備的研發等,色流大軍發布垃圾消息的門檻越來越低,垃圾信息會有更多演繹。
而色流大軍難以一舉殲滅,產業的背后,站著一支龐大的技術力量。朱浩齊告訴Xtecher,許多黑客為了證明自己,會率先研發最新工具,以攻破各大網站的反垃圾系統。甚至各大網站的反垃圾技術還落后于黑客開發的攻擊系統。
黑產大軍躲在暗處,打一槍換一炮,四處游擊,防不勝防。從第一封垃圾郵件打響的第一槍,到如今數十年過去,這條地下黑色產業鏈非但沒有被根治,反而愈演愈烈。
正所謂, 有人的地方就有江湖。有互聯網的地方就有色流大軍。伴隨著互聯網產品的層出不窮,也將有技術升級的色流大軍投身其中。這場人工智能時代的掃黃戰仍將繼續……
評論