一级真人毛片,四虎2020紧急免费入口,亚洲欧洲日产v特级毛片

文 | 石塔西

源 | 夕小瑤的賣(mài)萌屋

盡管BERT為代表的預(yù)訓(xùn)練模型大肆流行，但是身處工業(yè)界才會(huì)知道它落地有多難，尤其是QPS動(dòng)輒幾百的在線(xiàn)推薦、搜索系統(tǒng)，哪怕在大廠(chǎng)也很難在線(xiàn)上系統(tǒng)見(jiàn)到它們。

今天就想反其道而行之，談?wù)劰I(yè)界搜索、推薦、廣告這類(lèi)核心場(chǎng)景中落地能力最強(qiáng)的算法（之一）：因子分解機(jī)（FM）。我不敢說(shuō)它是最簡(jiǎn)單的（FM的確很簡(jiǎn)單），但是作為一個(gè)推薦算法調(diào)參工程師，掌握FM一定是性?xún)r(jià)比最高的。我推崇FM算法的原因，有以下三點(diǎn)：

功能齊全

眾所周知，推薦算法有三個(gè)應(yīng)用領(lǐng)域：召回、粗排、精排。推薦算法千千萬(wàn)，但是有的算法只能用于召回，有的算法只能用于排序。像FM這樣實(shí)現(xiàn)三個(gè)領(lǐng)域全覆蓋的多面手，目前為止，孤陋寡聞的我尚不知道有第二個(gè)。但是需要強(qiáng)調(diào)的是，我們不能只訓(xùn)練一個(gè)FM排序模型，然后直接拿這個(gè)排序模型用于召回。盡管都是基于FM算法，但是FM召回與排序，有以下不同：

使用的特征不同

FM召回，由于未來(lái)要依賴(lài)Faiss進(jìn)行線(xiàn)上檢索，所以不能使用user與doc的交叉特征。只有如此，我們才能獨(dú)立計(jì)算user embedding與doc embedding

FM排序，則沒(méi)有這方面的限制，可以使用user與doc的交叉特征。是的，你沒(méi)看錯(cuò)。因?yàn)镕M所實(shí)現(xiàn)自動(dòng)二階交叉，僅能代表“共現(xiàn)”。但是user與doc之間還有其他形式的交叉，比如user tag與doc tag之間的重合度，喂入這樣的交叉，對(duì)于排序性能提升，仍然有很大幫助。

使用的樣本不同

訓(xùn)練FM做排序時(shí)，必須使用“曝光未點(diǎn)擊”這樣的“真負(fù)”樣本。

訓(xùn)練FM做召回時(shí)，起碼不能只使用“曝光未點(diǎn)擊”做負(fù)樣本。大部分的負(fù)樣本必須通過(guò)隨機(jī)采樣得到。個(gè)中原因見(jiàn)我的文章《負(fù)樣本為王：評(píng)Facebook的向量化召回算法》。

使用的Loss不同

FM排序時(shí)，由于負(fù)樣本是真實(shí)的，可以采用CTR預(yù)估那樣的point-wise loss

FM召回時(shí)，由于負(fù)樣本是隨機(jī)采樣得到的，存在一定的噪聲，最好采用BPR, hinge這樣的pair-wise loss。

性能優(yōu)異

推薦系統(tǒng)的兩大永恒主題，“記憶”與“擴(kuò)展”，F(xiàn)M也能實(shí)現(xiàn)全覆蓋。

FM存在一階項(xiàng)，實(shí)際就是LR，能夠“記憶”高頻、常見(jiàn)模式

FM存在feature embedding。如我在《無(wú)中生有：論推薦算法中的Embedding思想》據(jù)說(shuō)，Embedding是提升推薦算法“擴(kuò)展性”的法寶。FM通過(guò)feature embedding，能夠自動(dòng)挖掘低頻、長(zhǎng)尾模式。在這一點(diǎn)上，基于embedding的二階交叉，并不比DNN的高階交叉，遜色多少。

便于上線(xiàn)

現(xiàn)在深度學(xué)習(xí)是推薦領(lǐng)域的寵兒，LR/FM/GBDT這樣的傳統(tǒng)機(jī)器學(xué)習(xí)算法，不招人待見(jiàn)。

DNN雖然性能優(yōu)異，但是它有一個(gè)致命缺點(diǎn)，就是上線(xiàn)困難。訓(xùn)練的時(shí)候，各位調(diào)參俠，把各種酷炫的結(jié)構(gòu)，什么attention, transformer, capsule，能加上的都給它加上，看著離線(xiàn)指標(biāo)一路上漲，心里和臉上都樂(lè)開(kāi)了花，卻全然無(wú)視旁邊的后端工程師恨得咬緊了牙根。模型越復(fù)雜，離線(xiàn)和線(xiàn)上指標(biāo)未必就更好，但是線(xiàn)上的時(shí)間開(kāi)銷(xiāo)肯定會(huì)增加，輕則影響算法與后端的同事關(guān)系（打工人何苦為難打工人），重則你那離線(xiàn)指標(biāo)完美的模型壓根沒(méi)有上線(xiàn)的機(jī)會(huì)。雖說(shuō)，目前已經(jīng)有TF Serving這樣的線(xiàn)上serving框架，但是它也不是開(kāi)箱即用的，也需要一系列的性能調(diào)優(yōu)，才能滿(mǎn)足線(xiàn)上的實(shí)時(shí)性要求。

所以，如果你身處一個(gè)小團(tuán)隊(duì)，后端工程人員的技術(shù)能力不強(qiáng)，DNN的線(xiàn)上實(shí)時(shí)預(yù)測(cè)，就會(huì)成為一個(gè)難題，這個(gè)時(shí)候，F(xiàn)M這樣的傳統(tǒng)機(jī)器學(xué)習(xí)算法，就凸顯出其優(yōu)勢(shì)。

FM排序，雖然理論上需要所有特征進(jìn)行二階交叉，但是通過(guò)公式化簡(jiǎn)，可以在 O(n)的時(shí)間復(fù)雜度下完成。n是樣本中非零的特征數(shù)目，由于推薦系統(tǒng)中的特征非常稀疏，所以預(yù)測(cè)速度是非常快的。

召回，由于候選集巨大，對(duì)于實(shí)時(shí)性的要求更高。很多基于DNN的召回算法，由于無(wú)法滿(mǎn)足線(xiàn)上實(shí)時(shí)生成user embedding的需求，只能退而離線(xiàn)生成user embedding ，對(duì)于用戶(hù)實(shí)時(shí)興趣的捕捉大打折扣。FM召回，這時(shí)就顯現(xiàn)其巨大的優(yōu)勢(shì)。事先把doc embedding計(jì)算好，存入Faiss建立索引，user embedding只需要把一系列的feature embedding相加就可以得到，再去faiss中進(jìn)行top-k近鄰搜索。FM召回，可以實(shí)現(xiàn)基于用戶(hù)最新的實(shí)時(shí)興趣，從千萬(wàn)量級(jí)候選doc中完成實(shí)時(shí)召回。

總結(jié)與參考

由于以上優(yōu)點(diǎn)，我心目中，將FM視為推薦、搜索領(lǐng)域的"瑞士軍刀"。風(fēng)頭上雖然不及DNN那么搶眼，但是論在推薦系統(tǒng)中發(fā)揮的作用，絲毫不比DNN遜色，有時(shí)還能更勝一籌。FM有如此眾多的優(yōu)點(diǎn)，優(yōu)秀的調(diào)參俠+打工人，還等什么，還不趕快學(xué)起來(lái)。想迅速掌握FM，我推薦如下參考文獻(xiàn)：

掌握FM原理，推薦讀美團(tuán)的博客《深入FFM原理與實(shí)踐》。FFM的部分可以忽略，在我看來(lái)，F(xiàn)FM更像是為了Kaggle專(zhuān)門(mén)訓(xùn)練的比賽型選手，損失了FM的很多優(yōu)點(diǎn)。這就好比，奧運(yùn)會(huì)上的射擊冠軍，未必能夠勝任當(dāng)狙擊手一樣。

FM用于召回，推薦讀《推薦系統(tǒng)召回四模型之：全能的FM模型》。注意，如我所述，F(xiàn)M雖然萬(wàn)能，但是FM排序與FM召回，在特征、樣本、Loss都存在不同，不可能訓(xùn)練一個(gè)FM排序就能直接拿來(lái)做召回。這一點(diǎn)，《全能FM》一文沒(méi)有提到，需要讀者特別注意。

如果想親手實(shí)踐，可以嘗試alphaFM。該項(xiàng)目只不過(guò)是作者八小時(shí)之外的課外作品，卻被很多公司拿來(lái)投入線(xiàn)上實(shí)際生產(chǎn)環(huán)境，足見(jiàn)該項(xiàng)目性能之優(yōu)異和作者功力之深厚，令人佩服。強(qiáng)烈建議不滿(mǎn)足只當(dāng)“調(diào)參俠”的同學(xué)，通讀一遍alphaFM的源代碼，一定收獲滿(mǎn)滿(mǎn)。

[1] https://zhuanlan.zhihu.com/p/165064102

[2] https://zhuanlan.zhihu.com/p/320196402

[3] https://link.zhihu.com/?target=https%3A//tech.meituan.com/2016/03/03/deep-understanding-of-ffm-principles-and-practices.html

[4] https://zhuanlan.zhihu.com/p/58160982

[5] https://link.zhihu.com/?target=https%3A//github.com/CastellanZhang/alphaFM

原文標(biāo)題：談?wù)劰I(yè)界落地能力最強(qiáng)的機(jī)器學(xué)習(xí)算法

文章出處：【微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

算法

算法

+關(guān)注

關(guān)注
23

文章
4620

瀏覽量
93046
FM

FM

+關(guān)注

關(guān)注
1

文章
182

瀏覽量
59215
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8424

瀏覽量
132765
dnn

dnn

+關(guān)注

關(guān)注
0

文章
60

瀏覽量
9058

原文標(biāo)題：談?wù)劰I(yè)界落地能力最強(qiáng)的機(jī)器學(xué)習(xí)算法

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook，學(xué)習(xí) AI，機(jī)器學(xué)習(xí)算法

前言由于本人最近在學(xué)習(xí)一些機(jī)器算法，AI 算法的知識(shí)，需要搭建一個(gè)學(xué)習(xí)環(huán)境，所以就在最近購(gòu)買(mǎi)的華為云 Flexus X 實(shí)例上安裝了

發(fā)表于 01-02 13:43 ?97次閱讀

華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook，<b class='flag-5'>學(xué)習(xí)</b> AI，<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b><b class='flag-5'>算法</b>

傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

在上一篇文章中，我們介紹了機(jī)器學(xué)習(xí)的關(guān)鍵概念術(shù)語(yǔ)。在本文中，我們會(huì)介紹傳統(tǒng)機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)和多種算法特征，供各位老師選擇。 01 傳統(tǒng)

發(fā)表于 12-30 09:16 ?250次閱讀

傳統(tǒng)<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>方法和應(yīng)用指導(dǎo)

NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

在人工智能領(lǐng)域，機(jī)器學(xué)習(xí)算法是實(shí)現(xiàn)智能系統(tǒng)的核心。隨著數(shù)據(jù)量的激增和算法復(fù)雜度的提升，對(duì)計(jì)算資源的需求也在不斷增長(zhǎng)。NPU作為一種專(zhuān)門(mén)為深度學(xué)習(xí)

發(fā)表于 11-15 09:19 ?511次閱讀

AIGC算法解析及其發(fā)展趨勢(shì)

、AIGC算法解析核心基礎(chǔ) 人工智能算法：AIGC技術(shù)的基礎(chǔ)和靈魂，如深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等算法

發(fā)表于 10-25 15:35 ?469次閱讀

LIBS結(jié)合機(jī)器學(xué)習(xí)算法的江西名優(yōu)春茶采收期鑒別

以廬山云霧茶和狗牯腦茶的明前茶、雨前茶為對(duì)象，研究激光誘導(dǎo)擊穿光譜結(jié)合機(jī)器學(xué)習(xí)的茶葉鑒別方法。將茶葉茶，水?dāng)?shù)據(jù)融合可有效鑒別春茶采收期，且數(shù)據(jù)融合后表現(xiàn)出更好的穩(wěn)定性和魯棒性，LIBS結(jié)合機(jī)器

發(fā)表于 10-22 18:05 ?264次閱讀

深度學(xué)習(xí)算法在嵌入式平臺(tái)上的部署

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)算法在各個(gè)領(lǐng)域的應(yīng)用日益廣泛。然而，將深度學(xué)習(xí)算法部署到資源受限的嵌入式平臺(tái)上，仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。本文將從嵌入式平臺(tái)的特點(diǎn)、深度

發(fā)表于 07-15 10:03 ?1506次閱讀

深度學(xué)習(xí)在工業(yè)機(jī)器視覺(jué)檢測(cè)中的應(yīng)用

識(shí)別等任務(wù)。傳統(tǒng)的機(jī)器視覺(jué)檢測(cè)方法通常依賴(lài)于手工設(shè)計(jì)的特征和固定的算法，難以應(yīng)對(duì)復(fù)雜多變的工業(yè)環(huán)境。而深度學(xué)習(xí)的引入，為工業(yè)

發(fā)表于 07-08 10:40 ?1107次閱讀

深度學(xué)習(xí)的基本原理與核心算法

隨著大數(shù)據(jù)時(shí)代的到來(lái)，傳統(tǒng)機(jī)器學(xué)習(xí)方法在處理復(fù)雜模式上的局限性日益凸顯。深度學(xué)習(xí)（Deep Learning）作為一種新興的人工智能技術(shù)，以其強(qiáng)大的非線(xiàn)性表達(dá)能力和自

發(fā)表于 07-04 11:44 ?2191次閱讀

神經(jīng)網(wǎng)絡(luò)反向傳播算法的優(yōu)缺點(diǎn)有哪些

神經(jīng)網(wǎng)絡(luò)反向傳播算法（Backpropagation Algorithm）是一種廣泛應(yīng)用于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域的優(yōu)化算法，用于訓(xùn)練多層前饋

發(fā)表于 07-03 11:24 ?1080次閱讀

神經(jīng)網(wǎng)絡(luò)算法的優(yōu)缺點(diǎn)有哪些

的優(yōu)點(diǎn) 自學(xué)習(xí)能力：神經(jīng)網(wǎng)絡(luò)算法具有強(qiáng)大的自學(xué)習(xí)能力，能夠從大量數(shù)據(jù)中自動(dòng)提取特征，無(wú)需人工干預(yù)。這使得神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-03 09:47 ?1472次閱讀

機(jī)器學(xué)習(xí)算法原理詳解

機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支，其目標(biāo)是通過(guò)讓計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)并改進(jìn)其性能，而無(wú)需進(jìn)行明確的編程。本文將深入解讀幾種常見(jiàn)的機(jī)器學(xué)習(xí)

發(fā)表于 07-02 11:25 ?1134次閱讀

機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù)，讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)集，在統(tǒng)計(jì)學(xué)習(xí)和

發(fā)表于 06-27 08:27 ?1679次閱讀

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來(lái)？

應(yīng)用，將理論基礎(chǔ)與實(shí)踐案例相結(jié)合，作者憑借扎實(shí)的數(shù)學(xué)功底及其在企業(yè)界的豐富實(shí)踐經(jīng)驗(yàn)，將機(jī)器學(xué)習(xí)與時(shí)間序列分析巧妙融合在書(shū)中。全書(shū)書(shū)共分為8章，系統(tǒng)介紹時(shí)間序列的基礎(chǔ)知識(shí)、常用預(yù)測(cè)方法、異常檢測(cè)算法

發(fā)表于 06-25 15:00

運(yùn)動(dòng)控制算法有哪些

。應(yīng)用：廣泛應(yīng)用于工業(yè)自動(dòng)化、機(jī)器人控制、航空航天等領(lǐng)域。模糊控制算法 (Fuzzy Logic Control) 原理：模

發(fā)表于 06-13 09:17 ?2663次閱讀

AI算法的本質(zhì)是模擬人類(lèi)智能，讓機(jī)器實(shí)現(xiàn)智能化

視覺(jué)等領(lǐng)域。 ? AI 算法的核心是實(shí)現(xiàn)智能化的決策和行為 ? AI算法的本質(zhì)在于模擬人類(lèi)智能的能力，讓計(jì)算機(jī)能夠?qū)ΜF(xiàn)實(shí)世界進(jìn)行模擬和模仿，從而達(dá)到智能化的目的。具體來(lái)說(shuō)，AI算法可以

發(fā)表于 02-07 00:07 ?5850次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

機(jī)器學(xué)習(xí)算法那家強(qiáng) 因子分解機(jī)（FM算法）工業(yè)落地能力最強(qiáng)

評(píng)論

華為云 Flexus X 實(shí)例部署安裝 Jupyter Notebook，學(xué)習(xí) AI，機(jī)器學(xué)習(xí)算法

傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

NPU與機(jī)器學(xué)習(xí)算法的關(guān)系

AIGC算法解析及其發(fā)展趨勢(shì)

LIBS結(jié)合機(jī)器學(xué)習(xí)算法的江西名優(yōu)春茶采收期鑒別

深度學(xué)習(xí)算法在嵌入式平臺(tái)上的部署

深度學(xué)習(xí)在工業(yè)機(jī)器視覺(jué)檢測(cè)中的應(yīng)用

深度學(xué)習(xí)的基本原理與核心算法

神經(jīng)網(wǎng)絡(luò)反向傳播算法的優(yōu)缺點(diǎn)有哪些

神經(jīng)網(wǎng)絡(luò)算法的優(yōu)缺點(diǎn)有哪些

機(jī)器學(xué)習(xí)算法原理詳解

機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

名單公布！【書(shū)籍評(píng)測(cè)活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來(lái)？

運(yùn)動(dòng)控制算法有哪些

AI算法的本質(zhì)是模擬人類(lèi)智能，讓機(jī)器實(shí)現(xiàn)智能化