引子
筆者在2015年7月創建了一個以分享滴滴打車紅包為主的微信群聊,創建的本意是為了方便大家在分享紅包時不打擾別人,在乘車需要紅包時能方便地領到紅包。隨著群人數和分享紅包種類的增加,該群已成為一個各類 O2O 服務APP優惠券紅包的集散地。從2015年8月到2017年8月,本群產生了約兩萬條紅包分享記錄,筆者最近將這些記錄導出,通過數量,時間,語義等維度分析這些數據,下面將筆者自己的解讀分享出來以供大家學習交流。
數量維度
本群主要成員為北京某大學的大學生。兩年時間里本群共產生21477條聊天記錄,其中有效的紅包分享記錄約為20000條,群成員在10個月內從幾十人增長到500人滿群。
聊天記錄可導出為 Excel 表格格式,單條聊天記錄的格式如圖1所示。
圖1
每一列的數據分別為微信群群號(沒錯,微信群也有群號)、消息發送時間,發送者微信昵稱,發送者微信號,發送形式(接收或發送),消息類型(文本、網頁、動畫表情、照片壁紙)和消息內容。因為大部分紅包都是以網頁的形式分享,而且每種 APP 只使用各自固定的域名,例如滴滴打車使用xiaojukeji.com,餓了么使用 ele.me。通過對不同域名數量的統計,筆者分析出了紅包數量最多的12個APP 以及他們的數量比例(圖2),這12類 APP的紅包數量占所有紅包總量的95%。
圖2
從圖中可以看出外賣紅包是所有紅包種類中數量最多的,因為衣食住行中,“食”的頻率最高。餓了么紅包數量占所有紅包數量的近一半,這與市場調查機構公布的2016和2017年外賣 APP 市場份額報告的結論(餓了么與美團外賣市場份額不相上下)不一致。這是因為微信群聊參與者身份和地域的局限性導致該統計結果只能反應小范圍內外賣APP 的市場份額。
除了圖中的 APP 之外,紅包數量比較多的 APP 還有:去哪兒、由你單車、嘀嗒拼車、愛鮮蜂、一米鮮、攜程、 每日優鮮、樂惠、優酷、開心消消樂、Airbnb、中國移動、觸寶、有貨。需要補充的是,圖2中京東的紅包包括了京東商城、京東到家和京東金融,網易的紅包包括了網易嚴選,考拉海購和陰陽師。
以上 APP 基本上涵蓋了中國大部分主流提供 O2O 服務的APP,同時也體現了大學生的消費特征。共享出行,外賣,生鮮配送,網購,娛樂休閑是當前大學生主要的消費形式。
從圖1中可以看到每個紅包在分享時都有一條相應的廣告語,筆者分析了這些廣告語的高頻詞匯,并將其做成詞云圖,如圖3所示。
圖3
細心的讀者可能發現紅包的廣告語有幾種類型,一種是宣傳 APP (及其提供的服務)本身,一種是其他品牌的廣告,常見的有影視劇和品牌促銷活動等,還有一種類型是 APP 自身的明星代言,例如餓了么的王祖藍和科比。我分析了2015年8月,2016年8月和2017年8月這三個月中這三類紅包的比例,如圖4所示。
圖4
2015年夏天是O2O服務剛開始迅猛發展的時候,那個時候他們的市場份額還不高,所以紅包主要還是以宣傳自家服務為主,到了2016年夏天,O2O服務競爭到了火熱階段(外賣領域和出行領域),那個時候的紅包折扣力度也比較大,分享人數較多,所以我們看到其他品牌廣告占比明顯上升,紅包冠名廣告可以作為O2O服務提供商的收入來源之一。筆者沒有行業經驗,但猜測紅包冠名廣告的曝光率和點擊率要高于一些其他的廣告形式。2017年夏天,這時外賣和出行市場格局已定,紅包的折扣力度減小,分享人數下降,所以大部分廣告是針對自己APP的宣傳,常見的廣告語是“第X個領到紅包的金額最大”,以刺激大家點擊鏈接進而產生消費。
時間維度
圖5是紅包數量前七名的APP紅包數量兩年間的變化趨勢。
(建議橫屏觀看)
圖5
從紅包數量變化趨勢中可以得到以下幾點結論:首先,餓了么和美團外賣的紅包是所有外賣紅包中的主流。在2016年8月之前,美團外賣的紅包數量要高于餓了么紅包數量,之后餓了么紅包數量一路反超,遠遠高于美團紅包數量。造成變化的原因不是餓了么增加推廣力度,而是因為大部分群成員(北京某高校學生)從一個校區整體遷往了另一個校區,而美團外賣在原校區的規模相對于餓了么要比新校區的規模大。同樣,在2017年6月之后,紅包數量的整體下跌是因為大部分群成員從大學畢業,對外賣的需求下降。這從另一個角度反映了小規模數據的不穩定性。
第二,同樣是外賣紅包,我們可以看到在2016年2月和2017年2月,也就是春節和寒假的時候,各類外賣 APP 的紅包的數量都明顯下跌,顯而易見,大部分群成員都回家過年,對外賣的需求大大減少。有趣的是,滴滴紅包數量并沒有明顯變化,一方面是春運的影響,另一方面說明滴滴對三四線城市的下沉做得比較好。
最后,我們看到滴滴紅包的數量穩定增長一直到2016年7月達到最高峰,從2016年8月開始一路下跌。筆者認為造成下跌原因和群成員的關系不大,主要原因是2016年8月1日滴滴宣布收購優步中國,國內的共享出行領域滴滴一家獨大,筆者清楚記得從那時起滴滴的紅包優惠力度大打折扣,快車的價格也有了起步價。一方面是優惠力度的下降,另一方面部分搖擺乘客可能會選擇別的出行方式,筆者認為這才是導致滴滴紅包分享數量的下降的原因。
圖6
圖6將滴滴和ofo紅包數量變化趨勢專門列出來,這樣可以更直觀的看到其變化。之所以沒有列出摩拜,是因為摩拜的分享次數較少,在圖表上不明顯。如果說2015年夏天是汽車共享出行開始迅猛發展的時候,那么從圖中可以看出2016年夏天就是共享單車迅猛發展的時候。事實上滴滴從2012年就開始做出租車叫車業務, ofo早在2014年就開始在大學校園推廣共享單車。隨著4G網絡的和智能手機的普及,微信使用人數越來越多,在多種因素的綜合作用下,這些出行O2O服務在2015年后才開始迅速發展。
下面我們將時間維度縮小到一天內,看看一天內出行紅包和外賣紅包的分享數量和時間的關系(圖7)。
圖7
一般而言,一次線上的紅包分享可以代表分享者同時在線下產生了相應的行為,通過變化紅包分享數量變化趨勢可以看到,在“食”和“行”方面,統計數據很好地體現了我們一般的認知。外賣集中在中午十二點和下午七點兩個飯點之前,出行則在白天相對均勻地分布。
支付寶跨年紅包
相信大部分讀者都經歷了支付寶跨年紅包的洗禮,作為敏感的紅包群群主,我發現支付寶的吱口令在十二月中旬開始在群里大量出現,到跨年時達到高峰,圖8是群聊中從2017年12月10日到2018年1月10日支付寶跨年紅包的分享數量變化。
圖8
由于筆者在國外,并沒有參與到瓜分紅包的行動中,但筆者好奇的是:在2017年12月12日到2017年12月22 日,支付寶分享紅包的吱口令中,“支付寶”三個字有大量變體字出現,讓人一度以為是欺詐消息,我分析這十天所有的支付寶變體,將其做成圖9的詞云。
圖9
支付寶一共產生了十種變體,起初筆者猜測支付寶是為了防止微信的追蹤和屏蔽,但我想這樣變體也不妨礙微信監測到消息,況且在這之前和之后紅包都是正常的,所以我特別期待懂這個問題的朋友能夠解答我的疑問。
總結
總而言之,這份兩萬條記錄的數據集規模太小,所以很難得到宏觀的結論,目前得到大部分結論也是顯而易見的。利用該數據集進行進一步例如行為預測,用戶畫像,也是不現實的。另外,該數據集的特殊性在于它的獨一無二,不同于微博等公開可獲取的數據,這樣的數據只能通過人為組織收集,所以即使此數據集的體量足夠大,基于它訓練出來的模型也難以有實用價值。
所以,假設我有足夠多的群成員,我可以通過收集他們的性別,職業和收入的情況,結合他們線上分享紅包的時間、種類、次數,可能會得到一些有趣的經濟學結論。進一步,如果我們能獲取到每個紅包群成員點擊的情況,這樣又增加了一個數據維度,可以結合時間以及冠名廣告和點擊率做紅包發送的優化,也可以結合群內其他數據維度來進行用戶的畫像,行為預測等等。當然,這一切都是基于群成員和紅包數量足夠多的前提。在這個前提下,我們可以對O2O行業的發展做一個宏觀的分析,從全新的角度觀察行業的發展。
不過以上所說的種種限制,對于微信官方來說都不是問題,微信利用自己的平臺優勢關聯了無數的APP,利用不同的數據源,微信可以通過協同過濾(Collaborative Filtering)以及多視角學習(Multi-viewLearning)進行用戶畫像從而進行更精準的推薦。從另一個角度想,我們越來越多的行為都被 BAT 三家收集到,大家在互聯網上越來越透明,所以對隱私的保護越來越重要,這不僅要靠企業自律,還要靠國家加強立法。
通過這次分析,筆者最主要的發現就是小數據集的片面性,并不是說如果數量到百萬千萬級就不是小數據了,而是說得深刻認識到現有數據集的局限性,不能以偏概全,并且盡量嘗試獲取到全面宏觀的數據。這對數據挖掘從業者有一定的啟示。
微信群聊記錄可以通過“同步助手”導出到電腦上,可以導出為文本文檔、表格或者網頁格式,結合 Excel 和相關 Python工具包,可以輕松實現對微信群聊數據的挖掘,各位讀者可以自己動手挖掘感興趣的微信聊天記錄。我也把本文用到的數據集匿名化處理后發布在網上以供大家學習使用。
-
智能手機
+關注
關注
66文章
18477瀏覽量
180111 -
APP
+關注
關注
33文章
1573瀏覽量
72440 -
數據集
+關注
關注
4文章
1208瀏覽量
24689
原文標題:我分析了上萬個微信紅包數據,得到了這些發現(附數據集)
文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論