想必國內絕大多數網民都有新浪微博的用戶賬號。據最新數據顯示,2018 年第四季度財報,微博月活躍用戶突破 4.62 億,連續三年增長 7000 萬 +;微博垂直領域數量擴大至 60 個,月閱讀量過百億領域達 32 個。毫無疑問,從 2009 年 8 月上線至今,微博已是當前業界領先的中文社交媒體,成績斐然。
當年有一句話叫做 “圍觀就是力量,輿論改變中國”,明星緋聞、爆炸性新聞等眾多熱門事件從微博發出傳遍全網。直到如今,微博也上線了不少新功能如 “熱搜” 、“新鮮事”、“故事” 等,更加強調 “社交”、“全媒體”、“垂直領域” 發展,進一步滿足社交屬性下人們對獲取實時、一手新聞資源的需求。
Push(消息推送)的作用則在于提高用戶活躍度和粘性,提高用戶留存率,進而進一步提高產品功能和用戶參與度。如國內外重大事件的提醒、領域內大事件的提醒、關注人或好友的重要消息推送、感興趣內容的消息提醒等方式,可引導用戶感興趣的內容打開應用。
然而,另一個事實是,此前頻頻 “吐槽” 的應對熱門事件的流量暴增導致的微博服務器崩潰問題,無論是熱搜消息,還是信息流方面,均受到了極大的挑戰。隨著用戶數量和消息并發量的不斷上漲,基于移動端的消息推送服務器性能和穩定性也需要經受非常大的考驗。例如,在排序方面,微博平臺每天的推送量可達到幾個億的規模,如果全部采用全量計算,對服務器的資源消耗會過大,微博團隊采用了分片批量計算的方式。
近期,微博研發中心技術專家齊彥杰在接受 AI 科技大本營采訪時表示,“微博一直致力于打造基于用戶關系的社交媒體平臺,讓用戶及時獲取好友動態,隨時隨地發現新鮮事。如何不錯過重要的信息?讓用戶每 5 分鐘去刷新自己的關注列表顯然并不現實,更高效的方式是通過系統推送進行消息提醒,但推送是一個強打擾的行為,如何做一個既不過分打擾用戶,又能讓用戶開心吃瓜的 Push 推薦系統,就是一件很有意思的事情了。”
齊彥杰,微博研發中心技術專家
在 5 月 25 日 - 5 月 27 日杭州舉辦的 CTA 大會(官網:https://dwz.cn/iSZ7BQUR)上,齊彥杰將作為機器學習論壇的演講嘉賓,向大家介紹微博 Push 系統的發展歷程,如何利用機器學習進行熱點挖掘、博文標注,以及個性化推薦系統的模型升級之路。
機器學習在微博的落地
實際上,微博一步步進化的背后離不開平臺技術研發團隊在新技術能力上的持續提升。在齊彥杰看來,“微博非常重視新技術的跟進與落地,內部團隊做了大量工作。現在也非常注重對外的交流,每年會參與一些比較重要的會議。”
AI 科技大本營:在過去幾年,內容推薦和用戶增長領域呈現出了哪些比較突出的技術或應用?與過去傳統手段有哪些區別和聯系?
齊彥杰:過去幾年,技術的發展可以說是一日千里,快得令人震驚。如果大家平常關注會議或比賽,會發現每年好的論文或解決方案,進步非常大。而工業界也非常努力,不斷提升產品效果,讓用戶體驗越來越好。
列舉這些就是想說明,如果論年計,突出的技術也會變得不突出,因為發展太快了。僅僅在模型排序方面,比如幾年前 LR + 超大規模特征還是排序標配,后來演變為了 FM+,直到現在則是 Deep+,不得不說技術一直在前進。但不變的是,更加有效地利用數據,通過計算量的提升,提高模型的準確率,服務好用戶的個性化需求。
AI 科技大本營:您認為基于微博當前的技術能力,在完成精準、快速個性化推送的過程中,面臨著哪些挑戰?為什么機器學習方法能夠適用于當前的問題解決?
齊彥杰:微博的數據是巨量的,用戶行為也是極為豐富的,更別說博文中蘊含的形式、內容、情緒等復雜的信息,這是微博的優勢,也是微博機器學習的挑戰。如何去理解用戶、理解內容,連接用戶與用戶、用戶與內容?這些問題都需要 NLP、計算機視覺、圖計算、排序模型等技術解決。也只有基于機器學習,通過超大規模數據的學習與抽象,才可以做到精準的個性化內容分發。
AI 科技大本營:您在之前的分享中,也提到 “博文質量、算法模型與分發效率共同決定了 Push 效果”,那么在您看來,微博用戶類型繁多,關注的興趣點更為廣泛,在實踐過程中,是如何根據用戶畫像進行更加精準的內容推薦?
齊彥杰:首先,博文的內容要豐富,滿足個性化的需求一定要保障候選博文的范圍足夠廣泛;然后,按需儲備,根據用戶畫像能夠知道用戶對哪些內容有更大的需求,根據需求挖掘內容更能保障易消費物料的準確性與充足性;再通過豐富的召回方法和高效的排序模型進行推薦分發。
常用的推薦算法包括協同、向量、模型等。
AI 科技大本營:實際上微博文本短小、信息量少(有時還會涉黃、不健康、不適宜內容等信息),很難做到對文本內容進行細粒度表征。對此,在本文理解方面,團隊有沒有比較好的解決辦法?
齊彥杰:這確實是一個很好的問題。前面我提到,用戶理解和內容理解是痛點和難點,但也是機器學習在高速進步的領域,當前 NLP、計算機視覺方面的進步給了我們很好的支持,包括去年 BERT 模型的出現,Embedding 的實踐,以及人臉識別、物體識別等,對于內容的表征都有很好的表現。
AI 科技大本營:不少人曾提到多模態融合的概念,對此您是如何看待的?在微博的相關業務中已經有實際的應用及成效了嗎?
齊彥杰:這個問題和上一個問題可以聯系起來看。因為現在隨著個人硬件的提升,內容創作的形式也是在不斷豐富,從最初的文本,到后來圖片的增多,再到視頻內容的涌現,甚至直播的加入,用戶有太多的形式去表現自己的思想或情緒。單純的文本維度已經不能完整的表征內容,所以多模態融合對于推薦系統的提高有很大的幫助。據我所知,有很多同事在做相關的內容,也有比較好的效果。
關于齊彥杰本人
據了解,齊彥杰最早服務于行業軟件,2010 年進入互聯網行業,一直從事爬蟲、索引、檢索、數據分析等方向的研發工作。后來用戶獲取信息的習慣逐漸從主動搜索轉向被動接受,推薦系統進入高速發展時期,機器學習也開始了對整個社會進行改造。“機器學習最需要就是數據,不管是在數量上,還是在維度上,微博均擁有著巨量的公開語料及行為數據。我認為這是機器學習應用最好的土壤。” 后來,也就是 2016 年,齊彥杰加入新浪微博團隊,目前在微博 UG 算法組主要負責 Push 相關方向的業務。
據他的觀察,最近幾年微博 Push 得到比較大的改造,完成了從編輯推薦向算法推薦、各業務獨立到統一 Push 平臺的升級,使用戶在體驗上有了很好的提升。
作為本次杭州 CTA 大會機器學習論壇的演講嘉賓,齊彥杰表示:“技術的前進離不開先行者的經驗,更離不開思想的撞擊,期待 CTA2019 的技術盛宴。”
-
Push
+關注
關注
0文章
16瀏覽量
9434 -
機器學習
+關注
關注
66文章
8420瀏覽量
132682 -
微博
+關注
關注
0文章
33瀏覽量
6382
原文標題:“搞垮” 微博服務器?每天上億條用戶推送是如何做到的
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論