編者按:如果你曾負責過招聘,篩查簡歷一定讓你又愛又恨,能看到一份層次鮮明重點突出的簡歷簡直是一股清流。面對格式多樣的簡歷,如何能一眼看到重點呢?作者Yogesh H. Kulkarni就設計了一款能挖掘簡歷中重要信息文本的框架RegEx。以下是論智的編譯。
摘要
本文展示了一種用于從文本簡歷中挖掘相關信息的框架。雖然這里只有一份簡歷作為案例,但是今后,框架不僅可以進一步擴展到不同簡歷格式上,還可以用到例如決策、合同、藥物說明書等文本上。
介紹
世界上大多數非結構化的數據都在文本形式中。為了理解這一點,我們要么花費大量精力處理它,要么你運用一些自動手段提取出有用信息。面對大量、風格各異的文本數據,還是需要用文本挖掘技術提取相關信息,將結構混亂的數據轉化成結構清晰的形式,之后才能進一步進行處理、分析、可視化。
這篇文章的關注重點比較特殊,是候選人的個人檔案或簡歷。我們都知道,HR收到的簡歷通常有各種格式的(txt、doc、pdf等等),而且內容和版面設計也是五花八門,想從這些文件中篩選出自己認為有用的信息是一項非常有挑戰性的工作。即使如此,我們可能還不能完全提取出有用的信息,因為格式實在是多種多樣,所以我們可以先從簡單的步驟開始,至少從我們已知的形式中提取出有效信息。
簡單地說,這里有兩種方法:基于語言學的方法和基于機器學習的方法。在語言學的方法中,為了尋找關鍵信息用的是模式搜索的方法,而在機器學習中,提取信息時用到的是監督或非監督的方法。在這篇文章中用到的RegEx術語基于語言學的模式匹配方法。
框架
想從簡歷中提取目標對象的一種簡單方法就是在編碼程序中,為每個對象寫一個模式匹配的邏輯。如果模式有任何改變,或者如果有新的對象或模式出現,你需要改變編碼程序。這使得框架的維護變得非常麻煩,復雜程度不斷提高。為了解決這個問題,我們的框架提出了分離邏輯分析和目標種類的方法,下面會詳細進行講解。目標對象和它們的RegEx模式在配置文件中都有詳細的記錄,文件同時還記錄了為每種對象提取方法的類別。這種分離方法的優點是,它不僅可以重復使用,保持穩定,而且還可以用到其他領域,例如合同文件、法律文件或者醫療報告等等。
元素查找
配置文件指定了需要被提取的對象以及它們的模式和提取方法。它同樣指定了需要尋找目標所在的區域。具體代碼如下:
上述代碼表述了例如姓名、電話、電子郵件等要素的元數據,用來提取它們的方法是“univalue_extractor”。這些要素所在的區域用“”表示,這是一個未經標記的區域,可以指簡歷最開頭的那幾行。類似電子郵件或電話號碼的要素可能會有多種表達方式,如果第一種方法識別失敗,會自動啟動第二種方法。
姓名:通常簡歷的第一行會寫姓名,有可能會帶有“姓名”兩個字作為開頭。
電子郵件:通常是一個單詞(其中可能會夾雜一個點),然后出現“@”,之后又是英文字母、標點、字母。
電話:國際區號省略,之后是3-3-4的數字模式,前三個數字也有可能省略(固定電話)。
Python的’etree’ ElementTree庫用來在內部詞典中分析config xml。
分析器讀取技術參數的詞典,并用它來尋找文本簡歷中的元素。
一旦找到匹配的元素,它就會以節點標示的形式存儲起來,例如電子郵件、電話等等。
像上述元數據一樣,教育資質可以按以下步驟搜索:
利用分析器的“section_value_extractor”,在“EducationSection”區域中進行分析,通過匹配文字找到區域內的價值。
san如果分析器找到任何含有“10th”、“X”、“SSC”的文字,它就會提取出描述中學的相關信息。
如果分析器找到任何含有“12th”、“XII”、“HSC”字樣的文本,它會提取出代表高中學歷的關鍵信息。
分割
上面的代碼表示標有“總體部分”或“教育部分”的文本。這些通常都在配置文件的頂部。
“section_extractor”方法一行一行地分析文件,并尋找文本的小標題。
通過標題的關鍵詞可以了解每一段的主要內容。例如“總結部分”可能會含有“總結”、“目標”等詞語。
一旦匹配,“總結部分”就確定了下來,之后會進行下一部分的分析。
新的標題匹配后,系統會自動開始下一部分的匹配。
結果
分析出的一份簡歷如下:
具體的操作步驟可見GitHub:github.com/yogeshhk/MiningResume
結語
這篇文章展示了從非結構化數據(如簡歷)中挖掘結構化信息的過程,由于只有一個案例展示,因此它可能不適用于其他格式。今后我們會對此改進,使其適合其他簡歷類型,甚至其他領域的文檔。
-
編碼
+關注
關注
6文章
940瀏覽量
54814 -
機器學習
+關注
關注
66文章
8406瀏覽量
132567
原文標題:文本挖掘教程:如何從一份簡歷中快速找到有用信息
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論