色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

知乎信息流推薦系統的技術演進

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-11-22 09:55 ? 次閱讀

11月8-9日,由中國 IT 社區 CSDN 與硅谷 AI 社區 AICamp 聯合出品的 2018 AI 開發者大會(AI NEXTCon) 在北京舉行,就人工智能最新技術及深度實踐,進行了全方位的解讀及論證。本文是機器學習技術專題中知乎首頁業務總監、首頁推薦技術負責人張瑞的演講實錄。

信息爆炸時代,信息過載已經成為互聯網核心問題之一,而通過AI、機器學習等技術過濾低質無用信息,推動有價值信息的生產和迭代,被視為一種有效解決方案。以知乎為例,這家知識內容平臺很早就開始著手機器學習的開發實踐,并于2016年正式組建機器學習團隊,利用站內豐富的中文語料庫訓練AI算法,推動有價值信息更高效觸達用戶,為內容產業提供了很好的技術借鑒。日前,在2018AI開發者大會上,知乎首頁業務總監張瑞就機器學習在知乎首頁中的應用做了技術分享。以下是分享內容摘要。

一、知乎信息流推薦框架

知乎的信息流推薦框架是一個基于多策略融合的多源內容推薦系統,代號“水晶球”。如圖所示,在這個系統中,首頁上出現的內容經歷過兩次排序。第一次是從數十個推薦隊列里被“召回”,第二次是在合并后經過深層神經網絡(DNN)的“排序”。

“召回”的第一個步驟是,召回模塊根據用戶的歷史行為表現(用戶畫像、內容標簽、內容源信息),確定數十個推薦隊列。這數十個推薦隊列是含有特定標簽的內容池,有些隊列里內容性質相似,比如熱點新聞隊列、視頻隊列,還有的隊列與用戶行為緊密相關,比如關注關系隊列、搜索關鍵詞隊列。比如說,根據用戶的關注關系向外擴展更多關注關系,根據用戶興趣召回感興趣的內容,根據搜索關鍵詞進行相關推薦。

“召回”過程的第二個步驟是,各召回源根據用戶的需求分別將自己的隊列中的內容做排序后,按召回數量返回內容。我們會從內容類型、內容質量、召回技術三個維度對內容分類,召回源的數據經過匯聚之后會進行融合,最后,DNN可以在20ms內對這些數據完成打分和排序過程,決定推送給用戶的內容。

API的數據還會反饋到Feedback&Control的模塊里面,應用這些數據進行業務控制的操作,比如我們會記錄每個用戶看到的內容是什么,大家都知道在Feed信息流推薦有個很重要的應用是去重,推薦內容不能是有重復的,我們會用過濾保證推出來的內容沒有重復。用戶在一天里面看到哪些內容點擊了哪些內容,這些內容都可以為業務提供一定數據支撐。

二、知乎信息流推薦系統的技術演進

2016年之前,知乎的Feed流是比較簡單的,你關注了什么樣的人,這個人產生的各種各樣的動態會在你的界面進行時間倒序的排序,和朋友圈的邏輯非常相似。2016年初我們上線了一個叫EdgeRank的排序系統,第一代Feed流算法在這個系統支持下取得了一定收益,系統維持了一年時間。

2016年10月份知乎上線了一個基于GBDT的排序系統,對召回的內容進行一個排序。我們使用GBDT做排序持續了一年時間,引入GBDT后用戶的Feed流使用時長的變化,是呈上升的趨勢。在使用 GBDT 進行排序的過程中,我們逐步完善了我們用戶畫像和內容分析的系統,在用戶特征和內容特征方面做了非常多工作,把用戶的實時行為集成到GBDT里面,用戶Feed流使用時長得到了激增。

2017年10月開始知乎先后在召回側和排序側引入DNN模型,在引入之后的2017年10月份到2018年7月份周期內,知乎的使用時長和閱讀量也呈現出快速增長。

在這之后,我們又做了一些優化工作,一個是7月份在DNN做的優化,把注意力機制和LSTM模型引入到DNN的模型里面去,一個是嘗試強化學習在推薦系統中的應用。經過這么長時間的優化之后知乎的信息流系統已經在知乎整體業務中占了非常大的體量,用戶滲透率(即有多少用戶會有效來到首頁看內容)達到88%,使用時長占比(包括刷知乎的時長以及在知乎中消費內容的時長等)達到76%。

三、Feed流推薦系統中的AI應用

基于深度學習的推薦召回模型

知乎在2017年上線了基于深度學習的推薦召回1.0版本,左邊這張圖是第一版上線時候的深度學習召回網絡框架,整個系統把用戶和用戶的特征表示成了網絡,它和庫里幾萬條內容做了一個多分類,在上層進行SoftMax。整個網絡訓練下來可以得到兩個成果。首先是一個 User Representation Network,它把用戶信息表示成128維的網絡,我們用了畫像里的所有信息,包括他的興趣標簽、各種各樣的用戶信息,都會放到模型的輸入里面去,這個輸入經過四層網絡之后得到用戶128維的 Embedding 表示。與此同時,使用Faiss作為向量化ANN召回的Backend,用ANN召回的方式從這幾個條目里選出他最感興趣的內容推薦給他,這是整個召回框架的工作過程。

我們在訓練集里包含了幾萬個內容的Embedding,我們首先會在訓練中生成一批Embedding,比如今天的數據來自于過去一周內分發量比較高的數據,這些內容數據會生成Embedding,我們先通過這些召回源把這些機制分發出去,還有一批內容是新產生的、未在訓練集中包含的內容,這些內容通過其他的渠道分發出去之后,可以得到看到內容用戶的Embedding是什么以及點擊這些內容用戶的Embedding是什么,我們可以利用這份數據把這些新產生內容的Embedding計算出來更新到Embedding庫里面去,這個時候就可以拿到每天新產生內容的表示,并且把這些內容推薦出來。

后來我們又對召回框架進行了2.0升級。在1.0版本的召回框架里,“新內容Embedding怎么得到的”這個問題是延遲解決的。用戶的表示網絡和Embedding召回在效果收益非常明顯,協同過濾用戶矩陣分解最常用的方法就是ALS,我們拿了一個關鍵的指標也就是召回從這幾萬條里挑出的100個結果里準確度有多少,這100個結果里有沒有預測到用戶下次點擊的數據,在這個指標上, DNN 比起ALS來講提升了10倍的量級,我們希望一個內容產生之后馬上算出Embedding放到網絡里。

在2.0版本中,我們嘗試了三個層面的技術升級:

使用了Content的原始特征,一個內容上打了標簽,原始數據比如長度有多少,有沒有圖片,經過三層的網絡之后會生成Feed Embedding,可以直接得到Content Embedding,解決新內容的召回機制問題。

在用戶表示網絡這一側我們也做了優化,這個網絡里就是一個最簡單的全鏈接神經網絡,我們做優化的時候是在User Representation Network引入FM Pooling層,學習用戶高頻消費行為的交叉特征,會讓Top100的精確度提高8%。

用戶在Feed流里有,“展示未點擊的Skip數據”比線上“展示已點擊數據”量級還要高,代表用戶對內容并不是真正感興趣。第一,我們把展示未點擊的數據作為特征引入到User Representation Network里面,其中會用到歷史搜索和歷史閱讀數據。第二,我們會把Skip數據作為指導采樣的一種方式,訓練大規模的標簽Embedding時我們往往把正向數據之外的其他數據都當成負向數據使用,所有負向采樣的sample都是在剩下的數據中,根據概率的方式或控制采樣頻率的方式提取。展示了但是跳過 的內容會在采樣的時候加大權重,把它成為負例的概率變得更大,讓用戶的行為來指導采樣。

Skip這兩個數據為Top100 ACC產生了比較好的效果,從召回數據里來的CTR和整體的閱讀量都有比較大的提高。

基于深度學習的 CTR 預估模型

知乎還在排序側采用了CTR預估的模型。1.0版本總體結構和基于DNN的召回框架類似,使用兩層Relu而不是直接點積作為Embedding的預估網絡。這個模型上線一段時間之后,我們剛開始沒有進行任何的參數裁剪的操作,收效沒有達到我們的預期。后來我們做了一個簡單的嘗試,按照業務的理解把特征組合成不同的Field,這些Field之間先做連接,用戶先分成N個Field,比如,Field1是自己填寫的資料,Field2是用戶興趣標簽,Field3是歷史搜索行為,先經過一個簡單的子網絡再全連接到上層。這個 trick能夠有效的減少特征在初始輸入時候的錯誤交叉,會減輕模型的過擬合,線上應用則達到了非常明顯的收益,AUC提升了1%,CTR提升了5.8%。

使用了DNN之后,我們還試用了谷歌出品的Wide & Deep Network,Deep是圖上部分,效果沒有明顯的提升。隨后我們做了一個分析判斷,發現Wide & Deep Network的 wide 部分,都會在原始特征輸入交叉方面做一個比較強的特征工程,否則所有信息在Deep部分已經得到比較好的應用,Wide 部分并沒有提供什么額外的輸入,也不會拿到特別好的數據表現。

今年我們開始在深度學習的CTR預估模型上嘗試更加激進更有意思的優化,也就是2.0版本。其中最早引入的優化還是特征之間的交叉,我們引入FM層作為這些類別之間的Sparse Input之間的交叉,AUC提升了0.2%,CTR提升了1%。引入CNN及LSTM分別作為文本Encoder/Last Action Encoder,單用戶使用時長提高50秒。

第三個trick參考了阿里的一篇論文,我們引入Attention機制作為用戶Embedding和CandidateEmbedding之間的交叉權重。舉個例子,用戶點擊的十篇文章中,有九篇是關于體育的一篇是關于互聯網的,等到下次體育相關內容的分數會比互聯網相關內容的分數高得特別離譜,平均之后互聯網信息淹沒在體育信息里,但互聯網內容也是用戶喜歡的,權重卻很難發揮出來。我們引入Attention機制,把用戶的閱讀歷史跟當前候選集里相關的數據和權重學習之后,收到了良好效果,單用戶使用時長增加了40秒左右。

知乎是一個社區化的平臺,常常需要平衡很多指標的收益,預估閱讀時長、點贊、收藏、分享、創作等行為。為了解決多目標預估中訓練和預測效率問題,我們使用了CTR預估模型預訓練網絡,利用Parameter Hard Sharing,點擊和點贊這兩層共享之前的權重,會有一個獨立的隱藏層model task自己的目標,這樣能降低前向/反向傳播中的計算量。

我們常常預估到一些非離散的目標,對于非離散目標如閱讀時長,很多同行的做法是線性預估的方式預估,你閱讀了60秒,我盡量把預測的值逼近。知乎的做法是,把一篇文章的閱讀時長做一個Normalize操作。我們觀察了一下閱讀時長的分布,這個分布與正態分布比較類似。所以我們使用了 z-value 來對閱讀市場進行離散化,離散化之后會把閱讀時長分為五等——沒點擊、點擊了閱讀時長低、點擊了閱讀時長中等、點擊了閱讀時長偏高、點擊了閱讀時長非常高——將連續值預測轉化成離散值預測。

在訓練過程中,我們也修改了 Softmax 函數,如果預測出的檔數和實際用戶閱讀時長檔數差太多,我們加一個比較大的修改函數,讓這種樣本的 loss 加大。閱讀時長這個模型上線之后,對知乎的使用時長和單篇文章的閱讀時長都有提升。

四、Feed流推薦系統中遇到的實際問題

模型訓練問題

樣本組織方面,大家可以看到剛才我們用了很多實時特征,這些實時特征對用戶和樣本來講都是不斷變化的,最初知乎組織這些樣本的時候都是使用從離線庫里Join數據的方式做特征的梳理,后來我們發現線上往往會出現特征穿越的狀況,你在線下記錄的日志畢竟不是實時的,日志都是流失的放到數據庫里,處理數據流的過程中也會出現順序上的錯誤,所以我們會在線上進行實施打點避免穿越。

對于CTR預估的正向樣本和負向樣本,后者與前者相比存在幾倍的量級差異。通常我們會對正負樣本進行不同采樣率的實驗,不同的業務指標下采樣率不一樣,最終回有一個最佳的采樣率。但采樣率多少跟數據的分布和業務需要預估的指標特性相關,1比1不一定是最好的采樣比例。

特征工程方面,我們在實際應用場景里發現對于分布范圍比較大的特征,有一萬個贊也有幾萬個贊的,做CTR預估的過程中贊量的影響會變得非常不平均,所以通常會進行特征的歸一化和boxing,分成不同的段輸入到CTR預估模型里達到比較好的效果。

模型評估方面,AUC是基礎指標,我們發現AUC是一個特別基礎的指標,對于兩份離線文件之間的評估確實有比較大的意義,尤其AUC在現在狀態下大家都訓練到0.7或0.8的水平,上線之后各種數據指標并不一定能提升那么多,我們做了一個DCG Gain收益的指標,它具有更高的參考意義。

業務問題

多樣性問題如何解決?大家都知道Feed流里很多時候最精準不一定是用戶最想要的,重復太多對于各種線上業務數據的改進也不一定是正向的結果,我們會引入各種框架進行業務導向的調權、打散、隔離和禁閉,一個內容出現幾次之后你沒有點擊,之后都不會推薦相似的內容。

如何避免「信息繭房」的產生?以各種行為表現預估的方式去排序和推薦的推薦系統,最后會讓用戶傳遞一個信息繭房,推薦列表里翻來覆去就是這么幾個內容。我們的解決方案是,采用一個Explore & Exploit機制,針對老用戶及興趣比較均勻的用戶,適當減少興趣探測手段,在探測過程中也會盡量使用Tag之間的關聯信息增強探測效率。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1792

    文章

    47354

    瀏覽量

    238819
  • 機器學習
    +關注

    關注

    66

    文章

    8422

    瀏覽量

    132743
  • 深度學習
    +關注

    關注

    73

    文章

    5504

    瀏覽量

    121246

原文標題:知乎如何洞察你的真實喜好?首頁信息流技術揭秘

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    正式公布三季度財報:月活躍用戶數穩步增長

    近日,公司正式公布了其2024年第三季度的業績報告,展示了公司在該季度的經營成果。 據報告顯示,盡管在第三季度的營收出現了同比下降,具體數字為下降17.32%至8.45億元人民
    的頭像 發表于 11-27 10:44 ?414次閱讀

    差壓表的技術演進與實際應用探討

    差壓表是流體控制和監測中的關鍵工具,通過測量管道或系統中兩個點之間的壓力差來評估流體流動的性質和速度。以下是關于差壓表的技術演進和實際應用的詳細探討: 基本原理與功能: 工作原理:差壓表利用兩個感應
    的頭像 發表于 08-13 15:03 ?252次閱讀

    藍牙傳輸技術演進與發展

    藍牙模塊技術,作為無線通信領域的重要一員,自其誕生之初便受到了廣泛的關注和應用。隨著技術的不斷發展和演進,藍牙模塊技術已經從最初的單一功能、有限傳輸速度發展到現在的多功能、高速率、低功
    的頭像 發表于 07-05 17:56 ?1258次閱讀

    全新AI產品"直答"亮相第十屆鹽Club新知青年大會

    在知識的海洋中,每一次探索都是一次對未知的旅程。6月29日,第十屆鹽Club新知青年大會上,以其敏銳的科技洞察力,正式推出了全新AI產品——“直答”。這一創新之舉不僅標志著AI
    的頭像 發表于 07-01 16:55 ?495次閱讀

    訊維通信技術在城市地鐵通信系統建設中的應用

    絡負責承載各種信息流,包括語音、數據和圖像等。訊維通信技術能夠提供高質量的傳輸網絡,確保各種信息流的穩定、高效傳輸。其采用的先進網絡傳輸技術,即使在高峰時段或網絡擁堵情況下,也能保持畫
    的頭像 發表于 04-19 16:29 ?390次閱讀

    第四集 語云智能科技無人機反制技術與應用--無人機的組成與工作原理

    ,無人機也可以將實時圖像、數據等信息傳輸給地面控制站。 三、無人機反制技術的應用與發展 隨著無人機技術的普及,無人機反制技術也愈發受到關注。無人機反制
    發表于 03-12 11:28

    第二集 語云智能科技無人機反制技術與應用--無人機的發展歷程

    了一系列問題,其中最為突出的便是無人機安全問題。語云智能科技作為一家專注于無人機反制技術的企業,致力于解決這一難題,為無人機行業的健康發展貢獻力量。 無人機的發展歷程可謂是一部波瀾壯闊的科技史。早在20
    發表于 03-12 10:56

    語云智能科技揭秘:光學干擾技術全景解讀

    在科技日新月異的今天,光學干擾技術以其獨特的魅力在軍事、民用乃至商業領域都展現出了廣泛的應用前景。今天,語云智能科技就為大家帶來一場關于光學干擾技術的深度解析,從原理到實戰應用,讓我們一起探索這一
    發表于 03-01 17:26

    語云智能科技揭秘:無人機威脅如何破解?國家安全新防線!

    的解決方案。 無人機偵測與追蹤技術 語云智能科技研發出高效的無人機偵測與追蹤技術,能夠迅速發現非法飛行的無人機,并通過高精度追蹤系統鎖定其位置。這一
    發表于 02-27 10:41

    語云智能科技無人機防御系統:應對新興威脅的先鋒力量

    無人機的飛行軌跡和意圖,及時發出預警信息。 在應對無人機威脅方面,語云智能科技的無人機防御系統采用了多種技術手段。一方面,系統可以通過無
    發表于 02-26 16:35

    語云全景監測技術:現代安全防護的全面解決方案

    隨著信息技術的飛速發展,網絡安全問題日益突出,企業和個人對安全防護的需求也越來越迫切。在這個背景下,語云全景監測技術應運而生,為現代安全防護提供了一個全面而高效的解決方案。 語云全
    發表于 02-23 16:40

    語云智能科技:反制無人機新篇章—全景監測與激光打擊的尖端技術

    隨著無人機技術的飛速發展,其在民用、商用甚至軍事領域的應用日益廣泛。然而,無人機濫用和非法飛行也給社會安全帶來了新的挑戰。在這樣的背景下,語云智能科技憑借其前沿的反制無人機設備及系統,正努力成為
    發表于 02-23 11:37

    DHL行業觀察:亞太地區持續加強信息流動,促進數字貿易增長

    北京2024年2月5日?/美通社/ -- 近日,DHL發布行業觀察文章指出,通過應對與互聯互通和跨境合作相關的區域性挑戰,亞太國家正在為數字貿易的增長做出貢獻。 數字信息流以強有力的方式將國家、企業
    的頭像 發表于 02-05 23:08 ?747次閱讀

    震撼發布!語云智能科技引領革新,全景反制無人機系統破繭而出!

    隨著無人機技術的飛速發展,其在軍事、民用等領域的應用越來越廣泛,與此同時,無人機的安全問題也日益凸顯。為了應對這一挑戰,語云智能科技憑借其卓越的技術實力,推出了一款全景反制無人機系統
    發表于 01-30 16:07

    \"【重磅推出】語云智能科技:革新低空無人機反制系統,守護領空安全!

    的低空無人機反制系統。 語云智能科技的無人機反制系統,集成了先進的雷達探測、無線電干擾、導航誘騙等多項技術。能夠在復雜的低空環境中,迅速發現、識別、定位并有效管控無人機。同時,該
    發表于 01-26 16:10
    主站蜘蛛池模板: 俄罗斯bbbbbbbbb大片| 国产色婷亚洲99精品AV在线| 中文字幕无码一区二区免费| 亚洲色欲色欲WWW在线成人网| 亚洲 欧美 国产 伦 综合| 亚洲国产日韩欧美在线a乱码| 亚洲中文字幕无码一久久区| 中文字幕人成乱码中国| 9久爱午夜视频| 攻把受做得合不拢腿play| 国产视频这里只有精品| 九色PORNY真实丨国产大胸| 蜜桃人妻无码AV天堂三区| 青青草原伊人| 午夜理伦片免费| 一级做a爰片久久毛片苍井优| 91九色精品国产免费| 岛国片在线免费观看| 好紧小嫩嫩水的10p| 免费一级片网站| 天美传媒在线观看完整高清| 依人在线观看| 欧美高清另类video| 日韩人妻无码精品-专区| 亚洲精品嫩草研究院久久| 中国人泡妞www免费| 朝鲜黄色录像| 后入式狂顶免费视频| 免费精品一区二区三区AA片| 少妇第一次交换| 一二三四电影完整版免费观看| 99国产精品欲AV蜜桃臀麻豆| 国产精品1卡二卡三卡四卡乱码| 九色终合九色综合88| 日本高清不卡码无码v亚洲| 亚洲精品乱码电影在线观看| 99久久精品久久久久久清纯| 国产剧情在线精品视频不卡| 噜妇插内射精品| 免费在线视频a| 午夜免费国产体验区免费的|