我和我对家漫画免费阅读下拉,四虎成人精品免费影院,亚欧国产

隨著計(jì)算機(jī)、智能手機(jī)和其他電子技術(shù)的發(fā)展，網(wǎng)絡(luò)數(shù)據(jù)急劇增加，進(jìn)而促使社會(huì)科學(xué)家發(fā)現(xiàn)新問題，或利用新方法解決老問題。經(jīng)濟(jì)學(xué)家、政治學(xué)家、社會(huì)學(xué)家可以使用谷歌、推特、臉書、網(wǎng)絡(luò)博客等在線數(shù)據(jù)研究輿情、信息流動(dòng)、疾病傳播等問題。網(wǎng)絡(luò)大數(shù)據(jù)的使用在社會(huì)研究中有三個(gè)基本優(yōu)點(diǎn) （Johnson and Smith， 2017）。首先，與傳統(tǒng)問卷數(shù)據(jù)相比，收集網(wǎng)絡(luò)數(shù)據(jù)花費(fèi)的時(shí)間和經(jīng)費(fèi)更少。傳統(tǒng)問卷需要時(shí)間和經(jīng)費(fèi)培訓(xùn)調(diào)查員并對(duì)樣本人群進(jìn)行提問，但大數(shù)據(jù)方法避免了上述時(shí)間和經(jīng)費(fèi)的開銷。第二，大數(shù)據(jù)具有即時(shí)性。時(shí)刻更新的大數(shù)據(jù)提供了第一時(shí)間研究突發(fā)事件的可能。第三，大數(shù)據(jù)具有完整性。問卷研究者總是面臨低回饋率、項(xiàng)目無反應(yīng) （item non-response）等問題，但每個(gè)人對(duì)網(wǎng)絡(luò)大數(shù)據(jù)的貢獻(xiàn)卻逐年增加。雖然網(wǎng)絡(luò)大數(shù)據(jù)有很多優(yōu)點(diǎn)，社會(huì)科學(xué)家在使用網(wǎng)絡(luò)大數(shù)據(jù)時(shí)需要考慮到其存在的局限性。本文將討論在社會(huì)科學(xué)中使用網(wǎng)絡(luò)數(shù)據(jù)的挑戰(zhàn)：缺乏代表性、測(cè)量誤差、更易出現(xiàn)第一型錯(cuò)誤。此外，本文還將列舉出缺乏代表性問題的幾種解決辦法，包括通過真實(shí)統(tǒng)計(jì)數(shù)據(jù)校準(zhǔn)網(wǎng)絡(luò)數(shù)據(jù)、通過雙重差分模型推測(cè)數(shù)據(jù)變化的趨勢(shì)、對(duì)網(wǎng)絡(luò)數(shù)據(jù)加權(quán)、以及將網(wǎng)絡(luò)數(shù)據(jù)視作面板數(shù)據(jù)。

1. 缺乏代表性

很多學(xué)者都指出，網(wǎng)絡(luò)數(shù)據(jù)存在選擇偏差，且研究者不能控制數(shù)據(jù)的代表性。由于老齡及貧困人口更少接觸互聯(lián)網(wǎng)，網(wǎng)絡(luò)數(shù)據(jù)傾向于排除這些人群。例如，Scarborough （2018）抓取了2017年父親節(jié)、母親節(jié)期間包含女性主義關(guān)鍵詞的推特?cái)?shù)據(jù)。通過對(duì)這些推文進(jìn)行樸素貝葉斯情感分析（Na?ve Bayes sentimental analysis），作者得出了不同地區(qū)推文對(duì)女性主義的態(tài)度。為了研究推特?cái)?shù)據(jù)的代表性程度，作者測(cè)試了推特情感指數(shù)與綜合社會(huì)調(diào)查（General Social Survey）中性別態(tài)度指數(shù)的相關(guān)性。此外，作者還研究了不同種族、性別、受教育程度的個(gè)人的推特情感指數(shù)是否可以通過他們的性別態(tài)度進(jìn)行預(yù)測(cè)。結(jié)果表明，針對(duì)女性主義的推特情感指數(shù)與綜合社會(huì)調(diào)查中的性別態(tài)度指數(shù)高度相關(guān)。但推特情感指數(shù)與性別態(tài)度指數(shù)的相關(guān)性在不同種族和受教育程度的人群中存在差異：非白人人口和受教育程度低的人口使用推特較少，推特情感指數(shù)與性別態(tài)度指數(shù)的相關(guān)性也較低。上述結(jié)果表示，雖然推特是了解輿論的重要途徑，它對(duì)總體人口并不具有代表性。

2. 測(cè)量誤差

除代表性問題外，研究者還發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)存在測(cè)量誤差問題。一個(gè)經(jīng)典案例就是谷歌流感趨勢(shì)的失效。Lazer等人（2014）發(fā)現(xiàn)，谷歌搜索中的流感頻率與現(xiàn)實(shí)中的流感爆發(fā)并不具有相關(guān)性。這就表示谷歌搜索熱度也許并不是一種可靠的測(cè)量方法。除谷歌搜索外，測(cè)量誤差還出現(xiàn)在社交媒體中。例如，通過臉書的“外籍墨西哥人（Expats Mexico）”分類，研究者可以研究住在美國年滿18周歲的墨西哥移民情況（Zagheni et al. 2017）。臉書的“外籍人士”并無明確定義，一般基于兩個(gè)因素：個(gè)人在資料欄填寫的“居住城市”和“故鄉(xiāng)”，及好友的社交網(wǎng)絡(luò)結(jié)構(gòu)。作者指出這樣的定義存在潛在的測(cè)量誤差：這種定義下的“外籍人士”并不一定出生在國外，且用戶填寫的個(gè)人資料未必是真實(shí)信息。這樣的測(cè)量誤差很難解決。基于此類數(shù)據(jù)的模型要經(jīng)常重新校準(zhǔn) （re-calibrate）。

3. 更易出現(xiàn)第一型錯(cuò)誤

當(dāng)兩個(gè)變量間出現(xiàn)的顯著關(guān)系是出于偶然，而非真實(shí)存在的關(guān)系時(shí)，第一型錯(cuò)誤就發(fā)生了（Barocas and Selbst 2016）。這類問題在研究者把大量變量加入模型時(shí)更容易發(fā)生：加入的變量越多，越有可能發(fā)現(xiàn)出于偶然的顯著關(guān)系。鑒于大數(shù)據(jù)包括大量的數(shù)據(jù)和變量，相比于傳統(tǒng)的理論主導(dǎo) （theoretically driven）的研究方法，研究者在數(shù)據(jù)主導(dǎo) （data driven）的研究方法中更容易出現(xiàn)第一型錯(cuò)誤（Boyd and Crawford 2012）。

解決辦法

1. 通過真實(shí)統(tǒng)計(jì)數(shù)據(jù)校準(zhǔn)

當(dāng)面對(duì)網(wǎng)絡(luò)數(shù)據(jù)缺乏代表性的問題時(shí)，研究者可以通過用真實(shí)統(tǒng)計(jì)數(shù)據(jù)校準(zhǔn)的方法估計(jì)研究對(duì)象的數(shù)值。此方法需要對(duì)研究對(duì)象數(shù)值與他們?cè)诰W(wǎng)上呈現(xiàn)的數(shù)據(jù)間的關(guān)系，及互聯(lián)網(wǎng)滲透（internet penetration）與社會(huì)人口學(xué)變量間的關(guān)系做出函數(shù)假設(shè)。例如，Zagheni和Weber （2012）通過觀察電子郵件的IP地址，研究不同年齡的人口遷出率。他們根據(jù)年齡和不同國家的互聯(lián)網(wǎng)滲透率建立函數(shù)，估計(jì)遷出人口的誤差值，再根據(jù)歐洲國家的人口統(tǒng)計(jì)數(shù)據(jù)對(duì)模型進(jìn)行校準(zhǔn)，通過對(duì)誤差的估計(jì)，修正最初觀察電子郵件得到的數(shù)據(jù)，得出真實(shí)的遷出人口數(shù)量。

但這種方法僅適用于統(tǒng)計(jì)數(shù)據(jù)完善的國家和地區(qū)。Zagheni和Weber （2012）發(fā)現(xiàn)，一些非洲國家網(wǎng)民數(shù)量少、互聯(lián)網(wǎng)滲透率低，且缺乏完善的人口統(tǒng)計(jì)數(shù)據(jù)，此方法并不適用。

2. 雙重差分模型

當(dāng)缺乏完善的統(tǒng)計(jì)數(shù)據(jù)時(shí)，研究者還可以通過雙重差分模型估計(jì)變化趨勢(shì) （Zagheni and Weber 2012）。如果社交媒體的用戶呈現(xiàn)出某種相似的變化趨勢(shì)，那么研究者就可以比較某個(gè)特定群體或地區(qū)這段時(shí)間的變化與總體用戶變化的區(qū)別，從而得到這個(gè)群體的相對(duì)變化趨勢(shì)。

3. 對(duì)網(wǎng)絡(luò)數(shù)據(jù)加權(quán)

另一個(gè)降低缺乏代表性造成的誤差的方法是對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行加權(quán)。類似社交媒體用戶組成的樣本或總體樣本都可以用來計(jì)算網(wǎng)絡(luò)數(shù)據(jù)的權(quán)重（Diaz et al. 2015）。對(duì)數(shù)據(jù)加權(quán)便于比較不同用戶群體。例如，女性發(fā)送推特的數(shù)量總體少于男性，但更熱衷于針對(duì)政治問題發(fā)送推文。如果我們對(duì)女性用戶的數(shù)據(jù)進(jìn)行加權(quán)，就可以得出更具有代表性的結(jié)果。上文提到，非白人和受教育程度低的人群在推特上缺乏代表性。對(duì)這些群體加權(quán)可以增加他們?cè)谕铺厣系谋戎兀欢ǔ潭壬咸岣叽硇浴?/p>

4. 將網(wǎng)絡(luò)數(shù)據(jù)視作面板數(shù)據(jù)

最后，面對(duì)缺乏代表性問題，與其將網(wǎng)絡(luò)數(shù)據(jù)看作總體樣本的代表，我們還可以將其視作面板數(shù)據(jù)，從而觀察個(gè)人或群體在一定時(shí)間內(nèi)的變化。例如，Diaz等（2015）觀察了大選期間推特用戶最近一次討論選舉的推文和當(dāng)天任何一條推文之間的時(shí)間差，多數(shù)人的時(shí)間差在一周左右。但競(jìng)選辯論當(dāng)天，研究者發(fā)現(xiàn)該時(shí)間差有顯著增加，這意味著很多之前并不熱衷于討論競(jìng)選的用戶在關(guān)鍵日期加入了討論。此外，這些面板數(shù)據(jù)還可以用來研究某些事件發(fā)生前后的行為和態(tài)度變化，尤其適用于研究對(duì)某些群體有特定影響的事件。研究者可以選擇來自不同群體的社交媒體用戶，觀察他們?cè)谑录昂蟮淖兓l(fā)現(xiàn)群體間的差異。

結(jié)論

本文列舉了在社會(huì)科學(xué)中使用網(wǎng)絡(luò)數(shù)據(jù)的幾種挑戰(zhàn)：缺乏代表性、測(cè)量誤差、更易出現(xiàn)第一型錯(cuò)誤。本文隨后列舉了缺乏代表性問題的幾種解決辦法，包括通過真實(shí)統(tǒng)計(jì)數(shù)據(jù)校準(zhǔn)網(wǎng)絡(luò)數(shù)據(jù)、通過雙重差分模型推測(cè)數(shù)據(jù)變化的趨勢(shì)、對(duì)網(wǎng)絡(luò)數(shù)據(jù)加權(quán)、以及將網(wǎng)絡(luò)數(shù)據(jù)視作面板數(shù)據(jù)。雖然網(wǎng)絡(luò)數(shù)據(jù)為社會(huì)科學(xué)提供了更多研究資源，研究者在使用網(wǎng)絡(luò)數(shù)據(jù)時(shí)要考慮到網(wǎng)絡(luò)的特殊性，發(fā)現(xiàn)數(shù)據(jù)的不足，并盡可能縮小網(wǎng)絡(luò)數(shù)據(jù)與現(xiàn)實(shí)數(shù)據(jù)的差異。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)采集

數(shù)據(jù)采集

+關(guān)注

關(guān)注
38

文章
6053

瀏覽量
113622
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8882

瀏覽量
137397

評(píng)論

相關(guān)推薦

CSSCI核心期刊《甘肅社會(huì)科學(xué)》（增刊）2010年征稿

CSSCI核心期刊《甘肅社會(huì)科學(xué)》（增刊）2010年征稿本站常期代理CSSCI核心《江漢論壇》《社會(huì)科學(xué)研究》《社會(huì)科學(xué)研究》增刊征稿，現(xiàn)《甘肅社會(huì)科學(xué)》增刊開始征稿，另

發(fā)表于 03-12 16:07

[原創(chuàng)]《河北學(xué)刊》CSSCI核心編輯部最新征稿消息

《河北學(xué)刊》CSSCI核心編輯部最新征稿消息刊名：河北學(xué)刊?? Hebei Academic Journal??本刊是河北省社會(huì)科學(xué)院主辦的一家大型綜合性社會(huì)科學(xué)學(xué)術(shù)理論期刊。創(chuàng)刊20多年來,以

發(fā)表于 09-28 16:17

▲▲▲《環(huán)球市場(chǎng)信息導(dǎo)報(bào)》雜志社學(xué)術(shù)論文征稿啟事hqzw#.com

：010-86109586010-86852716主管單位：中國社會(huì)科學(xué)院主辦單位：中國社會(huì)科學(xué)院文獻(xiàn)信息中心國內(nèi)統(tǒng)一刊號(hào)：CN11-3459/F國際標(biāo)準(zhǔn)刊號(hào)：ISSN1005-4901社址：100732北京市建國門內(nèi)大街5號(hào) 官方網(wǎng)

發(fā)表于 08-27 15:36

《環(huán)球市場(chǎng)信息導(dǎo)報(bào)》雜志學(xué)術(shù)論文征稿

《環(huán)球市場(chǎng)信息導(dǎo)報(bào)》雜志社學(xué)術(shù)論文征稿啟示主管單位：中國社會(huì)科學(xué)院主辦單位：中國社會(huì)科學(xué)院文獻(xiàn)信息中心國內(nèi)統(tǒng)一刊號(hào)：CN11-3459/F國際標(biāo)準(zhǔn)刊號(hào)：ISSN1005-4901社址：100732

發(fā)表于 02-24 16:55

西電星火杯

到2005年的第十七屆“星火杯”競(jìng)賽時(shí)，有4300余名大學(xué)生提交了1400余件優(yōu)秀作品參加決賽，作品內(nèi)容包括科技發(fā)明制作、計(jì)算機(jī)軟件開發(fā)設(shè)計(jì)、自然科學(xué)類論文、哲學(xué)社會(huì)科學(xué)類社會(huì)調(diào)查報(bào)告和論文等4大類，涉及電子、通信、機(jī)械、環(huán)保、

發(fā)表于 07-19 14:03

自然辯證法（研究生）期末考試題庫相關(guān)資料分享

僅供參考，后果概不負(fù)責(zé)第一講（）實(shí)際上就是科學(xué)與馬克思主義哲學(xué)的紐帶和橋梁。這就如同歷史唯物主義是馬克思主義哲學(xué)和各門社會(huì)科學(xué)的中間環(huán)節(jié)一樣。A:社會(huì)學(xué)B:哲學(xué)C:科技與社會(huì)D:自然辯

發(fā)表于 07-12 09:29

社會(huì)進(jìn)步的基礎(chǔ)是企業(yè)

社會(huì)進(jìn)步的基礎(chǔ)是企業(yè) 于光遠(yuǎn)院士會(huì)見艾雷斯總裁紀(jì)行2005年3月26日，我國著名經(jīng)濟(jì)學(xué)家、社會(huì)科學(xué)家、社會(huì)活動(dòng)家、教育家、中科院院

發(fā)表于 06-12 10:37 ?570次閱讀

人工智能如何發(fā)展？擷取部分專家精彩片段，以饗讀者

北京自然科學(xué)界和社會(huì)科學(xué)界聯(lián)席會(huì)議高峰論壇在北京舉行。此次論壇以“人工智能：技術(shù)理性與社會(huì)發(fā)展”為主題，匯聚了自然科學(xué)和

發(fā)表于 03-13 09:00 ?695次閱讀

人工智能將如何重塑人類社會(huì)秩序?

耶魯大學(xué)社會(huì)科學(xué)與自然科學(xué)教授尼古拉斯·克里斯塔基斯（Nicholas Christakis）在即將于4月出版的《大西洋月刊》上撰文稱，人工智能技術(shù)不僅會(huì)給我們帶來便利，還有可能在悄無聲息間影響人類社會(huì)的基本秩序。

發(fā)表于 03-12 14:29 ?3712次閱讀

人工智能浪潮中的計(jì)算社會(huì)科學(xué)

計(jì)算社會(huì)科學(xué)的發(fā)展。后工業(yè)化時(shí)代的復(fù)雜社會(huì)問題催生了計(jì)算社會(huì)科學(xué)的誕生。正是其所在的大數(shù)據(jù)時(shí)代使“我們的社會(huì)開啟了一場(chǎng)可與印刷和互聯(lián)網(wǎng)帶來的

發(fā)表于 01-15 14:32 ?4619次閱讀

大數(shù)據(jù)：社會(huì)科學(xué)研究的全數(shù)據(jù)模式時(shí)代到來了嗎？

首先，海量的在線新聞和谷歌搜索數(shù)據(jù)雖然是大數(shù)據(jù)，但對(duì)于該項(xiàng)分析研究而言，它不是關(guān)于研究對(duì)象的“總體數(shù)據(jù)”。該研究的對(duì)象是可能參加投票的英國公民，但這一群體并不都是網(wǎng)民，非網(wǎng)民群體在研究

發(fā)表于 04-21 17:27 ?3779次閱讀

介紹正態(tài)分布在電氣工程中的位置

這稱為正態(tài)分布或高斯分布。它遵循熟悉的鐘形曲線形狀，但是使用名稱“正態(tài)”或“高斯”而不是“鐘形曲線”非常重要，因?yàn)槠渌愋偷姆植季哂邢嗨频男螤睢?b class='flag-5'>在進(jìn)行統(tǒng)計(jì)分析時(shí)，在工程，物理科學(xué)和社會(huì)科學(xué)

發(fā)表于 10-12 15:55 ?4218次閱讀

同茂線性馬達(dá)談2021年中國社科基金立項(xiàng)名單

2021年9月3日-9日，根據(jù)《中國社會(huì)科學(xué)基金管理辦法》的有關(guān)規(guī)定。

發(fā)表于 10-29 08:12 ?328次閱讀

社會(huì)計(jì)算結(jié)合大數(shù)據(jù)與人工智能算法解決社會(huì)問題

社會(huì)計(jì)算（social computing）的方法論以社會(huì)科學(xué)理論為導(dǎo)引，并結(jié)合大數(shù)據(jù)與人工智能算法解決社會(huì)問題。本文從大量文獻(xiàn)中提煉出融合大數(shù)據(jù)

發(fā)表于 11-25 11:39 ?1622次閱讀

soc在人工智能中的創(chuàng)新應(yīng)用

社會(huì)計(jì)算（Social Computing, SOC）是一個(gè)跨學(xué)科領(lǐng)域，它結(jié)合了社會(huì)科學(xué)、計(jì)算機(jī)科學(xué)和人工智能，以理解和設(shè)計(jì)社會(huì)互動(dòng)中的技術(shù)

發(fā)表于 11-10 09:30 ?372次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

在社會(huì)科學(xué)中如何使用數(shù)據(jù)？