本文主要從文本匹配、歷史行為偏好建模以及混合推薦三個角度介紹了當前人崗匹配中的主要模型與方法。
引言:隨著互聯網產業快速發展,網絡招聘已經成為一種普遍的求職服務并從中衍生出了人崗匹配(Person-Job Fit,PJF)任務。與傳統僅需關注用戶興趣偏好的商品或電影推薦不同,PJF這種雙邊場景下的推薦雙方都存在主動行為及自身偏好,如求職者有自身的目標職位,工作職位也有對求職者的能力要求。正因這種雙邊建模需求,PJF涌現出了各種各樣與傳統推薦不同的模型與方法,其中,求職者簡歷與職位描述之間的文本匹配和從雙方歷史交互行為提取偏好信息成為了大家關注的重點。本文將主要從文本匹配、歷史行為偏好建模以及混合推薦方法三個角度向大家介紹當前PJF中的主要模型與方法。歡迎大家批評指正,相互交流。
基于文本匹配的PJF
基于文本匹配的方法認為求職者與職位是否匹配主要依賴于求職者簡歷中的技能或工作經歷與職位要求描述之間是否相對應,因此這種方法往往將PJF問題建模為一個簡歷與職位描述之間的文本匹配問題。早期的文本匹配方法中人們以一種無監督的方式創建文本的向量表示并計算相似度,如許多研究者使用具有TF-IDF權重的詞袋,還有一些則基于Word2Vec方法。隨著自然語言處理技術(NLP)的快速發展,CNN、RNN乃至Transformer等新型技術也開始應用于PJF問題并逐漸成為主流。本文選擇了一小部分工作進行簡單介紹。
【PJFNN】Person-Job Fit: Adapting the Right Talent for the Right Job with Joint Representation Learning (TMIS 2018)
https://dl.acm.org/doi/abs/10.1145/3234465
本文提出了一種基于卷積神經網絡 (CNN) 的模型——PJFNN,PJFNN使用二分神經網絡架構,對與職位要求描述以及求職者簡歷中的工作經歷分別使用兩個類似的CNN進行編碼,它們之間唯一的不同是最后的pooling方法,職位要求使用Max-pooling,而求職者工作經歷使用Mean-pooling。作者認為CNN最終輸出的潛在表示的每個維度都可以反映專業知識的某些方面,職位的要求描述往往格式良好,不同要求項目通常獨立的代表專業知識的不同方面。相比之下,求職者的每一項工作經歷往往蘊含多種專業知識,因此更需要潛在表示之間的充分混合。
【APJFNN】Enhancing Person-Job Fit for Talent Recruitment: An Ability-aware Neural Network Approach (SIGIR 2018)
https://dl.acm.org/doi/abs/10.1145/3209978.3210025
與PJFNN基于CNN不同,本文中作者使用了LSTM+attention的方式進行求職者工作經歷與職位要求的編碼,在編碼過程中兩個部分的編碼表示也不再相互獨立,而是通過attention使得求職者工作經歷與職位要求之間產生了充分的交互。整個模型的結構如下圖:
作者首先基于雙向LSTM完成了單詞級的表示(圖中Word-level Representation),再通過兩次attention完成了對職位要求的句子級表示以及全局表示(圖中Job Requirement Representation),整個職位要求的編碼表示過程與求職者部分獨立。而對于求職者工作經歷的編碼則與職位要求息息相關,作者認為對于工作經歷的編碼過程應提取出與當前職位要求相關的信息,即工作經歷中的某一項與當前職位的哪一個要求相匹配是關注的重點,因此在句子級以及全局表示的attention中都結合了職位要求表示完成(圖中Candidate Experience Representation)。
【IPJF】Towards Effective and Interpretable Person-Job Fitting (CIKM 2019)
https://dl.acm.org/doi/abs/10.1145/3357384.3357949
本文的亮點在于不僅僅考慮到了求職者與職位之間的雙向匹配,還結合了求職者和職位雙方各自的獨立意圖,提出了一個多任務框架。此外,作者不再將正例之外的所有目標都視為負例,而是將數據分為三種。以求職者為例,達成面試的職位為正例;求職者提出面試申請但遭到拒絕的職位為中性樣本,代表單向意圖;求職者沒有提出面試申請的職位為負例。
【SCLPJF】Domain Adaptation for Person-Job Fit with Transferable Deep Global Match Network (EMNLP 2019)
https://aclanthology.org/D19-1487/
本文作者注意到了人崗匹配中帶標簽數據的稀缺問題,并希望通過領域適應(Domain Adaptation)的方法緩解這個問題。例如在招聘市場,科技領域的職位往往占比較大,數據較多,而設計相關的職位和數據較少,作者希望模型可以從具有足夠標記數據的源域中獲得的知識和信息來提高具有有限或很少標記數據的目標域中的預測性能。
本文提出的模型主要分為Hierarchical Attention-based RNN Encoder和Global Match Representation兩部分。前者基于雙向GRU(BiGRU)對求職者簡歷和職位發布信息進行編碼,并使用attention完成從單詞級到句子級以及從句子級到全局表示的聚合,最終獲得職位發布表示和簡歷表示。后者通過CNN建模職位發布與求職者簡歷之間的匹配信息。
為了實現模型在不同領域之間的可遷移性,作者首先使用文本領域自適應中的經典SCL算法得到相比于原始句子級表示更具可遷移性的SCL表示。其次將Global Match Representation中的匹配權重矩陣分解為兩個矩陣的乘積,分別是多領域共享部分A和依托于特定領域的B;最后將卷積網絡分為源域和目標域兩部分實現了可遷移的匹配信息提取。
基于歷史行為偏好的PJF
不同于基于文本匹配的方法,基于歷史行為偏好的模型更注重于從求職者與職位雙方的交互歷史記錄中提取出各自的偏好信息。雖然很多模型還會根據求職者簡歷與職位描述生成embedding,但不再通過各種復雜的方法進行簡歷文本與職位描述文本之間的匹配交互。
【DPGNN】Modeling Two-Way Selection Preference for Person-Job Fit (RecSys 2022)
https://dl.acm.org/doi/abs/10.1145/3523227.3546752
本篇文章獲得了ACM RecSys 2022 Best Student Paper Runner-up。
本文提出了一種有別于單向選擇推薦以及整體文本匹配建模的雙視角圖表示學習方法DPGNN。在雙視角交互圖中,作者為每個求職者(或職位)建模兩個不同的節點,一個捕捉自己選擇職位(或求職者)的偏好,是一種主動表示,另一個是被動表示,用于與對方的偏好進行匹配。作者使用BERT對求職者簡歷和職位描述進行編碼,結合基于ID的embedding表示對雙視角交互圖中的節點進行初始化,之后使用GCN進行混合偏好傳播,區別于原始的GCN,DPGNN為單向偏好邊和雙向匹配邊的信息傳播賦予了不同的權重。在最終匹配預測上,DPGNN結合了兩個視角的意圖(求職者選擇職位和職位選擇求職者)。此外,作者還針對性的設計了一種四元組損失,為每一對求職者—職位正例分別采樣一個負例求職者和一個負例職位。
【JRMPM】Interview Choice Reveals Your Preference on the Market: To Improve Job-Resume Matching through Proling Memories (KDD 2019)
https://dl.acm.org/doi/abs/10.1145/3292500.3330963
本文中作者提出了一種結合歷史偏好的匹配網絡(JRMPM),關鍵思想是從職位或求職者歷史交互目標的文本信息中提取潛在偏好。具體來說,作者提出了一種基于記憶模塊的偏好更新機制,以職位的偏好為例,JRMPM模型通過一個記憶矩陣M記錄職位的句子級潛在偏好,并根據時間順序,一步步根據職位歷史交互求職者的簡歷信息更新記憶矩陣M。同理,對于求職者來說則是根據其歷史交互職位的描述信息更新記憶矩陣。最終,通過Max-pooling將求職者與職位的句子級偏好記憶矩陣轉換為全局偏好向量并輸入MLP得到匹配預測結果。
【DPJF-MBS】Beyond Matching: Modeling Two-Sided Multi-Behavioral Sequences for Dynamic Person-Job Fit (DASFAA 2021)
https://link.springer.com/chapter/10.1007/978-3-030-73197-7_24
本文中,作者將關注點落到了求職者和招聘職位雙方在實現匹配之前產生的豐富的輔助行為,如點擊、申請、聊天等,不同于在PJF問題中非常稀疏的匹配行為,這些輔助行為往往更為密集且蘊含豐富的偏好信息。
整個模型(DPJF-MBS)分為兩個部分,Write Operation根據時間順序將多種行為信息更新于記憶矩陣M中,Read Operation則從記憶矩陣中讀出不同行為的偏好信息。具體來說,模型包含多個用戶共享的全局鍵矩陣{,,,, },在Write Operation過程中,將當前行為對應的全局鍵矩陣當作key計算attention權重用于更新偏好記憶矩陣M,在Read Operation過程中也將根據不同的全局鍵矩陣計算不同的行為偏好權重,并根據權重聚合記憶矩陣M生成多個行為偏好向量。此外,作者還敏銳的注意到了多種行為之間的級聯關系,例如在達成匹配的前提是經歷過點擊、申請等前置行為,因此最終的匹配預測是一個級聯過程,對于匹配的判斷需要前置行為的輸出作為輸入。
混合推薦方法
結合文本匹配與歷史行為偏好建模的PJF方法也是研究者們的研究熱點,這些方法往往是將從雙方文本中提取的顯式偏好與從歷史行為中獲得的隱式偏好相結合完成推薦。下面筆者選擇了一部分工作進行介紹。
【PJFFF】Learning Effective Representations for Person-Job Fit by Feature Fusion (CIKM 2020)
https://dl.acm.org/doi/abs/10.1145/3340531.3412717
本文中提出了一種結合特征融合、文本匹配以及歷史行為偏好建模的PJF模型,整個模型分為兩個部分,一部分以求職者簡歷和職位描述中的顯式信息為輸入,另一部分建模雙方的歷史行為序列,建模隱式偏好特征。
在簡歷或職位描述中除了技能描述、職位要求等文本信息外,還有一些可以通過NLP技術提取出的語義實體,如年齡、性格、大學等等,本文作者將這些實體也作為顯式信息輸入,通過DeepFM模型完成建模,對于文本信息則使用CNN得到向量表示,最終兩種顯示特征concat作為第一部分的輸出。
模型第二部分則通過兩個LSTM對求職者和職位的歷史行為進行建模,用于提取雙方的隱式特征,模型輸入是第一部分獲得的顯式特征與匹配結果onehot向量的拼接。最終的預測過程中首先將雙方的顯式特征與隱式特征拼接,之后通過內積得到匹配得分。
【PJFCANN】Person-job fit estimation from candidate profile and related recruitment history with Co-Attention Neural Networks (Neurocomputing 2022)
https://www.sciencedirect.com/science/article/pii/S0925231222007299
本文將文本匹配與從歷史交互記錄中提取的關系圖相結合。文本匹配部分通過mashRNN實現了單詞級編碼,之后通過co-attention完成了簡歷與職位描述間的匹配交互與句子級編碼,最終基于另一個簡單的attention獲得文本的本地(local)編碼向量。此外,作者根據歷史交互記錄建立了職位—職位和求職者—求職者之間的關系圖,以職位與職位之間的關系圖為例,假設我們需要預測的job—resume對為 (J, R),若另一職位 J' 與當前簡歷 R 也產生過交互則在 J 與 J' 之間建立一條邊,這條邊的權重通過兩個職位描述信息的相似度得到。獲得兩個關系圖后通過GNN得到圖中各個節點的表示,并基于attention機制獲得職位和求職者簡歷的全局(global)表示。最終的匹配預測同樣基于MLP實現。
其他
除了上述幾類方法外,還有很多其他方法,例如基于特征工程的傳統機器學習方法,基于單邊偏好建模的職位推薦,靈活運用用戶搜索歷史或其他輔助數據的方法等。
The Influence of Feature Selection on Job Clustering for an E-recruitment Recommender System (2020):基于特征選擇與提取。
A Session-based Job Recommendation System Combining Area Knowledge and Interest Graph Neural Networks (2020):加入領域知識增強的單邊序列推薦。
Using autoencoders for session?based job recommendations (2020):基于autoencoder的單邊序列推薦。
Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network (2020):為了緩解PJF任務中交互數據稀疏且嘈雜的問題,作者提出了一種基于稀疏交互數據的新型多視圖協同教學網絡,結合基于文本匹配的模型和基于關系的模型,兩個部分采用協同教學機制來減少噪聲對訓練數據的影響。核心思想是讓兩個組件通過選擇更可靠的訓練實例來相互幫助。
Leveraging Search History for Improving Person-Job Fit (2022):不再局限于求職者與職位之間的歷史匹配記錄,而是結合了求職者的搜索歷史信息進行偏好建模。
Job Recommendation Based on Extracted Skill Embeddings (2022):從求職者簡歷與職位要求描述中提取技能短語,使用Word2Vec編碼后計算相似度。
小結
本文從文本匹配、歷史行為偏好建模以及混合推薦方法三個角度向大家介紹了當前人崗匹配中的主要模型與方法,可以看到,單純基于文本匹配的人崗匹配方法在最新的研究中較少出現,隨著BERT等系列大規模預訓練語言模型的快速涌現,文本匹配任務也不再局限于簡單的監督訓練,最近的很多PJF工作中都將BERT作為一個基線且表現出不俗的性能,因此結合對歷史行為偏好的建模是當前人崗匹配研究的主要方向。但同時人崗匹配的實際場景使得交互數據非常稀疏,如何解決數據稀疏也是當前的一大研究熱點。
審核編輯 :李倩
-
模型
+關注
關注
1文章
3254瀏覽量
48876 -
cnn
+關注
關注
3文章
352瀏覽量
22237 -
自然語言處理
+關注
關注
1文章
618瀏覽量
13570
原文標題:一文速覽人崗匹配領域研究進展
文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論