近期,HBO出品的臺劇《我們與惡的距離》熱播,在感慨劇情深度的同時,也引發(fā)了對于媒體行業(yè)生存現(xiàn)狀的反思。
《我們與惡的距離》劇照
一方面,人們希望媒體能夠堅持所謂“新聞理想”,另一方面,在信息爆炸訊息光速傳遞的今天,媒體人要堅守“客觀真實”的報道,實屬難得。
作為一位媒體從業(yè)者,文摘菌對于女主角新聞臺副總監(jiān)“宋喬安“印象深刻。
賈靜雯飾演宋喬安,演技炸裂
影片一開始,我們就目睹了一起搶熱點的假新聞事件。多家媒體同一時間播報了一條泰國發(fā)生爆炸的消息,令宋喬安和同事感到措手不及。這條消息沒有得到前方記者的證實,也缺乏官方認證,用媒體術語來說,就是不具有權威信源。但是,該爆炸性新聞自帶流量,若證實有中國游客身亡,更會讓它成為一條名副其實的爆款新聞。
競爭對手們爭相播報,宋喬安壓力頗大,盡管沒有拿到真的信源,依然硬著頭皮播了這條新聞,但最終,它被證實是一條假消息。
機器學習假新聞判別
宋喬安的尷尬處境也恰恰是當代媒體真實寫照。突發(fā)新熱點多,真假難以被證實。或許,我們可以在算法的幫助下,打破這一困境。
《我們與惡的距離》劇照
AI謠言粉碎機
今年愚人節(jié)當天,阿里宣布了一項新技術被稱為“AI謠言粉碎機”。這項技術的算法模型通過深度學習和神經網絡,設計了包括發(fā)布信息、社交畫像、回復者立場、回復信息、傳播路徑在內的判斷系統(tǒng),將謠言識別和社交用戶觀點識別打通,最快1秒內判定結果。在特定場景中的準確率可達到81%。
阿里希望幫助社交平臺和新聞網站在假新聞尚未造成大面積傷害時就快速識別出來,遏制其傳播。在信息被證實為謠言后,AI還可通過虛假信息的傳播路徑,定向給閱讀過此信息的用戶進行辟謠。
SemEval語義測試大賽中,根據(jù)主辦方提供的過去兩年社交媒體Twitter和Reddit上的近500個真實言論和1萬多條相關反饋數(shù)據(jù),阿里巴巴的人工智能技術對假新聞識別的準確率創(chuàng)造了新的紀錄。達摩院語言技術實驗室首席科學家司羅表示,“AI謠言粉碎機”未來有望幫助社交媒體的審核機構承擔60%的工作量。
Breaking Data
英國有一家體育媒體GiveMeSport,是一個主要基Faceboook發(fā)布體育相關的新聞,最后被人工智能公司Breaking Data 收購,目前在新聞頻道的兩個終端應用了AI技術,可以分析和反應片段及重大新聞報道。
Breaking Data運用自然語言處理技術掃描Twitter,通過相關推文篩選預定關鍵詞,如運動隊、球員姓名、球隊名稱、俱樂部、聯(lián)賽或運動場。經過篩選和驗證關鍵詞,將其分為“重大事件”,“相關新聞”或“大幕新聞”等類別;并在BreakingSports Slack頻道中作為警報發(fā)送給記者。GiveMeSport正在使用Breaking Data的技術將其他公開可用的數(shù)據(jù)源(如Facebook,Reddit和Wikipedia)整合在一起。
這個平臺通過識別可靠的信息來源來判斷推文是否可靠,例如,歐冠中當巴薩以3:0戰(zhàn)勝利物浦時,人工智能平臺可以跟蹤Twitter上的內容何時首次出現(xiàn),并將該帳戶標記為可靠的權限。
用AI打假AI合成圖片
除了假新聞,AI合成的視頻和照片也越來越多,利用算法實現(xiàn)AI換臉技術已經很成熟。針對此種情況,成立于2017年的舊金山初創(chuàng)企業(yè)人工智能基金會(AI Foundation),他們正在開發(fā)的Reality Defender將幫助人們識別由人工智能算法生成的內容,以檢測潛在的虛假媒體。
與病毒防護類似,他們的工具掃描每一幅圖像、視頻和其他媒體,尋找已知的假象,允許你報告可疑的假新聞,并使用各種人工智能驅動的分析技術,以檢測變化或人為生成的跡象。
虛假、合成的照片和視頻在網絡的傳播,也會造成品牌和個人造成不可挽回的名譽損毀。但試圖監(jiān)管全球媒體數(shù)據(jù)將是一項艱巨的任務,使用AI技術任何人都可以炮制出數(shù)百萬張看起來逼真的假照片。鑒于虛假圖像和視頻的改善速度之快,或許驗證“什么是真實的”的商業(yè)模式可能更有效,也許媒體和個人很快應該擁有自己的數(shù)字指紋,可AI合成的底線又在哪?
假新聞訓練模型及數(shù)據(jù)集
在某種程度上假新聞的是一個微觀領域問題,它和謠言分類、事實判斷、標題黨檢測、垃圾內容挖掘等都比較類似,在宏觀上說都屬于內容質量的領域,所以很多方法其實是通用的框架。騰訊科技高級研究員孫子荀將假消息辨別模型分為兩類:
基于內容的建模;
基于社交網絡的模型。
后者可以通過對虛假新聞的傳播游走軌跡跟蹤,以及通過圖模型和演化模型中針對特定假新聞的進一步調查;其次,識別虛假新聞的關鍵傳播者,對于減輕社交媒體的傳播范圍至關重要。
在2017年,Kai Shu等人的論文中將假新聞的研究主要分為三個方向:
數(shù)據(jù)方面的研究:目前還沒有標準的測評數(shù)據(jù)集,需要去建立的??梢酝ㄟ^傳播特性提前檢測假新聞。
模型特征方面的研究:通過使用用戶的畫像特征,內容特征(NLP、CV)結合深度學習,還有傳播網絡特征,比如用戶和內容之間的關系構造出來的網絡特征,網絡本身的embedding表現(xiàn)。
模型方面的研究:這方面的工作可分為特征之間的組合、預測目標的變化、對內容源、內容反饋和文章風格的限制,組合這些模型,也可通過空間變換,把特征變換到另外的latent語義空間嘗試解決。
鑒定假新聞是一件任重而道遠的事,對假新聞機器學習模型感興趣的同學也可以通過以下開放的數(shù)據(jù)集進行嘗試。
1. FakeNewsNet
BuzzFeed和PolitiFact兩個平臺的數(shù)據(jù)集,包括新聞內容本身(作者,標題,正文,圖片視頻)和社交上下文內容(用戶畫像,收聽,關注等)。
數(shù)據(jù)集獲取方式:
https://github.com/KaiDMML/FakeNewsNet
2.LIAR
該數(shù)據(jù)集也是來自PolitiFact,包括內容本身和內容的基礎屬性數(shù)據(jù),比如來源,正文等。
數(shù)據(jù)集獲取方式:
http://www.cs.ucsb.edu/~william/data/liar_dataset.zip
3. Twitter and Weibo DataSet
一個比較全的數(shù)據(jù)集包括帖子ID,發(fā)帖用戶ID,正文,回復等數(shù)據(jù)。
數(shù)據(jù)集獲取方式:
http://alt.qcri.org/~wgao/data/rumdect.zip
4. Twitter15 Twitter16
來自 Twitter 15、16 年的帖子,包括了帖子之間的樹狀收聽,關注關系和帖子正文等。
數(shù)據(jù)集獲取方式:
https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect2017.zip?dl=0
5. Buzzfeed Election Dataset & Political News Dataset
Buzzfeed’s 2016 收集的選舉假新聞,以及作者收集的 75個新聞故事。包括假新聞,真新聞和諷刺新聞。
數(shù)據(jù)集獲取方式:
https://github.com/rpitrust/fakenewsdata1
相關鏈接:
http://www.sohu.com/a/311856780_99928473?sec=wd
https://zhuanlan.zhihu.com/p/57124028
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100857 -
算法
+關注
關注
23文章
4615瀏覽量
93001 -
機器學習
+關注
關注
66文章
8422瀏覽量
132743
原文標題:《我們與惡的距離》引發(fā)媒體反思:假新聞?chuàng)専狳c,機器學習能做些什么?
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論