毫不夸張的說,生活在信息時代的我們,已經(jīng)無法想象沒有互聯(lián)網(wǎng)的生活。各式各樣的信息充斥在網(wǎng)絡(luò)上,每秒都有無數(shù)新信息冒出,我們需要做的只是簡單的動動手指,利用搜索引擎搜索關(guān)鍵詞。這些信息,無論是真實(shí)的還是虛假的,有用的還是無用的,我們每個人都難以避免與它們接觸。
在 2019 EmTech China“全球新興科技峰會”上,賓夕法尼亞大學(xué)的計算機(jī)和信息科學(xué)系教授 Dan Roth 在演講的最開始就呼吁,“互聯(lián)網(wǎng)上的信息污染問題與我們每個人息息相關(guān),每個人都有權(quán)利關(guān)心。”
圖丨 Dan Roth(來源:DeepTech)
Roth 教授列舉幾條實(shí)際發(fā)生的事情,比如 2016 年的美國大選,F(xiàn)acebook 和推特上就曾涌現(xiàn)了很多假賬號和假資訊,有些信息已經(jīng)達(dá)到了以假亂真的程度,一度誤導(dǎo)了很多美國網(wǎng)民,最后官方帳號不得不站出來辟謠,社交媒體平臺也出臺了相關(guān)措施。
事實(shí)上,在世界范圍內(nèi)都存在謠言大肆傳播的情況。歐美網(wǎng)民常用的 Facebook,WhatsApp 和推特,中國網(wǎng)民常用的微博和微信,都是虛假信息滋生的地方。互聯(lián)網(wǎng)和社交媒體的本質(zhì)是傳播信息,由于假信息通常以爆料和顛覆常識為噱頭,更容易抓人眼球,因此它們的傳播速度很快,尤其容易涉及醫(yī)療、教育、科學(xué)和公共政策等領(lǐng)域。
在 Roth 教授看來,這種信息污染“是絕對不能接受的”,否則后果可能是致命的。舉個例子,現(xiàn)在人們很喜歡在網(wǎng)上搜索某種疾病的治療方式,然而網(wǎng)上良莠不齊的資料矛盾百出,而且還可能包含作者的深層次目的,比如推銷自家產(chǎn)品和技術(shù)。想要找到真實(shí)可靠的信息,需要具備相關(guān)專業(yè)知識,才能自己辨別真?zhèn)巍R坏┱`信了虛假資料,輕則耽誤疾病治療,重則危及生命。
“所以我們需要開發(fā)一個計算框架,幫助人們在這樣的信息污染世界中生存,”Roth 教授強(qiáng)調(diào)。人工智能和自然語言處理技術(shù)(AI & NLP)就可以成為這樣的工具,幫助人們找到、收集和整理真實(shí)可靠的信息,分辨資訊的真?zhèn)巍?/p>
自然語言處理技術(shù)可以分析語句,理解它們背后的深層次含義。Roth 教授表示,借助機(jī)器學(xué)習(xí)的力量,可以更好地從原始文本中提取信息,分析語句和語段之間的關(guān)聯(lián),讓計算機(jī)像人類一樣理解語言背后蘊(yùn)藏的意義。
這聽起來簡單,實(shí)現(xiàn)起來卻十分困難。因?yàn)槿祟愖匀欢坏鼐涂梢岳斫庹Z言的模糊性,結(jié)合語境、上下文和文化背景,就可以分析出語句的深層含義,但對于計算機(jī)來說,它習(xí)慣于明確的指示,并不具備理解語言模糊性的能力,需要研究人員付出很大的努力去實(shí)現(xiàn)和完善。
Roth 教授最新的研究就著重于整合和完善自然語言處理過程,主要從了解信息源和理解證據(jù)入手。
(來源:Dan Roth)
首先,自然語言處理系統(tǒng)必須知道如何找到可靠信息源,即去哪里證實(shí)手里有的信息?在找到信息源之后,系統(tǒng)還需要知道如何看待信息源的背后目的和含義,即它持有什么樣的視角(perspective)?
Roth 教授解釋說,一千個人眼中就有一千個哈姆雷特,每個人看待故事的角度不同,因此系統(tǒng)在收集信息時,也需要具備辨別視角的能力,注意審視不同的條件和情況,不能以偏概全,防止被一些帶有偏見和誤導(dǎo)性的信息左右。
這就要求系統(tǒng)去尋找證據(jù)(evidence),來分類和支持不同的信息,證明哪些信息更可靠,更有價值,更有意義。這樣系統(tǒng)就可以更好地理解語言究竟要表達(dá)什么意思,背后有什么意圖。
在 Roth 及其團(tuán)隊(duì)的研究中,他們進(jìn)行了一項(xiàng)實(shí)驗(yàn)—識別有關(guān)《一周偶像》信息。實(shí)驗(yàn)中使用的原文提到了節(jié)目主持人是 1983 年出生的,但系統(tǒng)找到了多種可靠證據(jù)證明,他們是 1978 年出生的。這說明原文出現(xiàn)了事實(shí)性錯誤,于是系統(tǒng)將其標(biāo)識為“虛假信息”。
Roth 解釋說,“整個語言識別系統(tǒng)就像是網(wǎng)絡(luò)一樣,對于不同的資訊或主張信息(claim),會找到很多不同的信息源(source),為了驗(yàn)證這些信息源,系統(tǒng)會收集不同的證據(jù)(evidence)。”
這種邏輯模式模擬了人類的批判性思維,即利用證據(jù)分析信息源的可靠程度,理解它們背后的內(nèi)容和意義。只有這樣才能從根本上杜絕錯誤信息的大規(guī)模傳播,幫助人們獲得可信的信息,并且真正理解它們,實(shí)現(xiàn)價值的最大化。
“我相信,在每個人都開始關(guān)注這件事情后,整個人類社會都將會收獲巨大。”
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11166瀏覽量
103435 -
自然語言處理
+關(guān)注
關(guān)注
1文章
619瀏覽量
13579
原文標(biāo)題:NLP大牛挑戰(zhàn)社交媒體難題:如何在“信息污染”的世界中生存?
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論