11 月 8-9 日,CSDN 和 AICamp 聯合舉辦的 AI 開發者大會在北京順利舉行。普元移動產品線總經理郝振明發表了《基于機器學習的工程實踐》的主題演講,并接受了專訪。
以下內容為郝振明的演講與采訪總結,文內略有刪減:
演講
機器學習有RPA結合的必要性
今天的演講主題是根據普元在 RPA 實踐過程中的一些經驗分享,是從工程化的角度來探討如何解決特定領域中的問題。RPA (Robotic Process Automation),就是把人重復性勞動通過自動化手段去完成。例如,有些公司代理申報納稅,這個工作流程是比較繁瑣的,直到最后完成提交,需要大量重復錄入的工作。整個流程非常耗費人力,而我們所做的主要工作就是把其中重復性的勞動交給軟件來完成,用軟件方式解決一個跨系統的問題。而我今天的分享將結合財務工作中報銷工作環節的實現和大家進行探討。
首先,RPA 不適合小型企業。因為小型企業不涉及大量的重復性工作,所以,明確了這個前提:RPA 適合大型企業,集團型企業幾乎都會做財務共享中心。在現實中,員工提交粘貼好的發票后,剩下的工作都需要財務共享中心來完成,在這個場景中為什么應用 RPA 是最合適的?RPA 傳統做法是需要結構化數據,就這個需求而言,核對發票真實性,把電子版發票變成有用的信息,低效易錯的手填發票,人工智能在很大程度上解決了這些繁瑣的工作流程。
機器學習有RPA結合的工程實踐
而我們現在努力解決的工作主要有三點:以獲取結構化數據為前提、使流程高度標準化、其核心技術采用 GUI 的錄制與回放。此方法基于非現實世界的目標檢測和驅動,與此進行交互的不是人類而是系統,絕大多數情況下通過遷移的方法。
在獲取結構化數據的過程中還存在一些技術難點。比如某些出租車發票上的字體,人眼可能也無法分辨清楚。我們又該如何做到呢?是否有一個通用的算法模型或神經網絡可以直接解決?經過我們的研究發現,這還是一件有難度的事情。尤其是增值稅專票的處理與增值稅普通發票的處理都還存在著不同之處。到這里我們就知道,首先要做的就是先要對發票進行分類,而僅有類型的分類是不夠的,還需要做具體內容的識別,如到底公司名稱及金額。這些工作原來都是人工手動完成的,我們把整個流程在經過紙質化轉化成電子化后進一步做了分解。
如何做發票的分類處理?首先要全程跟蹤電子發票,這是軟件系統就可以完成的工作,并不需要復雜的機器學習算法。接下來,發票類型決定了后續如何進行處理與訓練。經過我們的實踐發現,進行發票內容識別時,用同一個 OCR 模型并不能識別所有類型發票中的內容。比如,出租車發票是點陣擊打形成的,這就是一個比較難處理的問題。在前期分類,各模型處理后,某個效果如果仍然不好,我們就會單獨針對性的解決,不再做整體處理。在分類處理發票步驟中,我們主要使用 Fast-RCNN 模型,從時間角度來說更符合我們期望得到的效率。
目標檢測之后,我們得到了更好的圈定范圍,排除了那些無意義,會產生干擾的部分。我們沒有找到一個通用數據集去訓練模型,我們是自己在一個不大的數據集上實現的,效果還可以。但是,在這個過程中,也結合了其他的技術手段。我們在訓練網絡模型的時候發現了一些點,有時候彩色是有幫助的,有時候它也是一種干擾,反而用黑白色效果更好,所以我們把兩個網絡同時訓練。在預測階段轉成彩色圖或灰圖,對比并選擇更優效果。
上面談到的主要是發票分類的問題,在實踐過程中,我們還發現了一個不可忽視的重要問題——發票的數量。粘貼發票可以是單張也可以是多張,當單張的情況下,我們通過剛剛講的一些方法來解決,但當不止一張的時候該如何去做?首先要對發票進行識別及切圖,然后進行擺正、文字區域識別,文字內容識別等。我們得到的切圖效果還是可以的,準確度達到了 90% 以上。而發票的檢測,切分及識別更多是為了后續的工作。如果直接交給 OCR 系統實現的效果一般,無法分清普通發票和增值稅發票的情況下,我們會把兩張發票進行合并,但是后續也會帶來一些隱患。最后,我們用了一個掃描二維碼的功能,這是一個簡單的步驟。我們對用二維碼掃描得到的信息做分類,第一個字段目前沒用,第二個字段表明發票類型。這里特別提到一點就是二維碼信息的作用,除了提供了發票類型,在后續的一個場景中也起到了關鍵作用。
接下來,想和大家探討的第二個大問題是關于數據集和模型訓練。我們自己也有一些定位,一開始在訓練效果不是很好的情況下,我們又加入了一些數據集重新訓練,從 60% 提升至 80%多,我們也會根據結果不斷的調整模型。
進入下一環節,涉及選擇 SaaS 服務還是私有化方案。我個人更傾向于 SaaS 服務,相對成熟。但在這里需要考慮一個問題,發票報銷涉及很多流程,很多信息會被泄露,通常建議使用 SaaS 模型,但一些特殊情況下必須考慮私有化方案。
OCR 識別中還需要講到三個比較關鍵的問題:對稍微有傾斜的發票,OCR 效果不好,需要增加一個環節,先擺正;字體不清晰的情況下,先用場景類文字檢測方法進行區域檢測;文字識別過程涉及特殊字體時,進行針對性不同的處理。判斷發票類型,調整等工作用傳統的 CNN 就可以完成;檢測文本我們用到的是 CTPN 模型。
我們還做了一個工作就是自建訓練數據集,通過之前貼圖我們獲得了單張圖,并自動把每張圖旋轉成 0 度、 90 度、180 度及 270 度。
未來,機器學習會融入各個行業,我們主要把機器學習的方法與工程進行結合與實踐。機器學習與 RPA 結合的過程中,非結構化數據的結構化、智能的工作流、基于 NLP 及檢測技術下的自動化,這三個工作我們都在實踐,現在第一和第三個工作取得的效果還可以。未來,我們會在各個領域結合機器學習、比較成熟并且效果好的網絡,我們也會特別關注先前工作為后續工作帶來的啟發。
采訪
AI科技大本營:可以先介紹一下您自己和負責團隊的情況嗎?
郝振明:我在普元已經近 16、17 年的時間了。最早在公司是做 JAVAEE 的,后來公司業務需要移動產品,我就轉到移動產品研發。最近,從 2014 年開始,我有 1/3 左右的精力在人工智能上,原因很簡單,任何一個事物,在我們公司內部都不是立刻顯現、被需求的,會經歷一個孵化階段。對我們團隊而言,就是一個不斷孵化的過程。我們在先進領域都是從不懂到開始學習,慢慢成長起來的。為什么關注人工智能?我認為,未來的設備可能不一定是移動智能手機,但一定從智能手機開始的。所以對我而言,這是一個切入點。未來,我是都會一直在這個方向走下去,更多的從公司業務需要出發,尋找個人的方向。
AI 科技大本營:您和您的團隊目前的工作是公司面向 AI 的主要方向或業務突破口嗎?
郝振明:我們有幾條線,每條線路都會有。從我個人角度而言,我認為我們可能會取得的突破多一些。原因有幾點:首先,我們進入比較早,大概在 2013、2014 年就開始嘗試了。到了 2016、2017 年,不敢說做的怎么樣,但至少是愿意和大家進行分享的。其次,我們也做了投入,未來很多場景都會有人工智能,而不是部分公司。公司也是認為“人工智能會融入到各個產品線”。
AI科技大本營:您公司和團隊在做 AI 相關工作時有哪些思想和經驗可以和大家分享一下嗎?
郝振明:其實,在過去的幾年里,我們在很多領域進行了不斷地嘗試與分享。去年,我做過一次分享,主要圍繞 AI 如何與開發結合的相關問題。所以,除了大家都比較關注的基礎層面的工作,我們其實更多關注如何在解決實際業務中結合 AI 。今天的分享中主要講到的是 RPA,用簡單易理解的方式來解釋,就是通過自動化手段完成一些具有很多重復性勞動的業務與工作。主要講到的財務報銷環節。這里面包含很多重復性人力勞動,不僅耗時耗歷,效率也不高。所以,基于這個場景出發,我們研發了自己的 RPA。但是在完整的技術解決方案中,我們也不是全部依賴 AI,我們發現,傳統方法有可能取得更好的效果。所以,我們在實際工作中,如何與 AI 結合有兩個主要觀點:我們需要 AI 但不單獨講 AI ,我們更關注 AI 如何與實際業務場景結合;我們不會為了使用 AI 而用 AI,在 AI 真的有更好的發揮作用的時候結合 AI,最終為企業提供智能化的解決方案。
在這次在分享中我也講到了我們的一些方法和思想。首先,我們都是從實際業務場景出發。對于我們來說,理論的創新,算法性能的提升,基礎工具的研發等基礎層面取得突破工作相比,我們更傾向不斷豐富業務落地場景,在實際場景中解決問題。這也許不是用的最新的網絡模型、算法就足夠的。但是可以讓企業可以具備更智能化的問題解決方法,對整個市場,對企業客戶乃至每個職員都會產生影響,這也是我們在此方向上努力的原因。
于此同時,在我們的工程實踐中,仍然會面臨很多的挑戰。比如在 RPA 就還存在很多問題,分享中我也提到了,RPA 必須需要結構化數據,我們在這方面也做了很多工作后,發現非結構化數據轉化結構化數據時,人工智能的優勢非常明顯,在這個過程中我們用到了一些算法和模型。通過不斷的實踐,找到最適合的算法,在結合我們的算力和數據完成一個智能化的工作流程。在一些算法也不能很好的解決某些問題時,我們進行單獨分析,加入一些輔助方法或環節。除了關注研究前沿,我們在現實業務工程化時一般會挑選一些相對成熟的算法或網絡,但是我們不聚焦于某一種算法,而是聚焦于那些適合、可以在當前的場景下發揮更大的作用。
就像大家都比價熟悉的 OCR 技術,但我們在工程實踐中就會發現,應用在特定,專業領域中會效果不一定一樣的好。比如在 RPA 中,識別增值稅發票內容時,當字太小,不清晰,套打走行等多種復雜情況同時存在時,如何運用 OCR 技術并取得良好的效果?所以,我們需要我們的人才專注在某一特定領域,解決實際問題。
公司層面,其實在不同領域都有進行嘗試,無論是在開發階段,還是應用階段。不僅是技術的驗證,我們努力結合每一個業務場景,專注落地。
AI科技大本營:您剛才提到的很多還是涉及 RPA 在財務報銷環節的應用,是首先在這個環節落地的嗎?這是主打場景,還是除此之外也有別的?
郝振明:是的,我們最先實踐的場景是財務報銷環節,而實現業務流程自動化以提到生產力也是財務機器人最先落地的場景之一。但是確切來說,我們不是為了做廣泛智能才做這件事的,是因為有了實際的需要。RPA 在一般在集團型企業都會涉及,在大型企業財務工作中對這方面有非常實際的需求。所以,在這個解決方案中,我們通過尋找合適的技術,結合 AI 給企業提供更智能化,高效的業務解決方案。
我們在其他領域也做了很多工作,比如數據領域。作為一個技術型公司,技術是否為我所用是我們關注的重點。除了前沿技術,Paper,學術產業會議,都會進行跟蹤學習。還會有專業的算法工程師專門針對與場景結合的可行,有效性的分析。如果說單獨做一個人工智能平臺,從多角度來看不是我們的定位。
AI科技大本營:這樣的工作理念是從什么時候就確立的?
郝振明:我們大概在 2014、2015 年的時候開始關注這個領域。一開始這個市場非常熱鬧,而我們關注這個領域本身源于一個最大的困惑:我們會不會被淘汰?是這樣的一種自我憂患意識促使我們不斷地進行嘗試。后來,我們發現,我們需要的是:商業模式的差異化。從自身角度來講,我們并不是像一些企業那樣,需要有專業團隊,我們致力于人工智能,但是當時我們還不具備充分的條件,在未來成熟以后我們也會做這件事。
再后來,我們就會發現,其實還是應該從自身尋找我們需要什么,知道了需要什么就決定了我們要如何做。
現在大家也都在討論,人工智能除了技術,場景在哪里?我們對人工智能是長期看好的,但是現在最大的問題是讓更多的人利用人工智能。同時,我認為如果人工智能往上再走一個階段,其實是廣泛的應用。而廣泛的應用也不僅僅局限于現在大家都熟悉的客服機器人,娛樂。未來的世界難道就是這樣的嗎?也是從這個角度出發,我們在尋找更多的場景,希望做更多的落地應用。在這里也是希望很多行業能加入,大家共同做出更多更落地的解決方案。建立一個真正的 AI 生態,需要基礎的算法,優秀的人才和豐富的場景,實踐的落地。
AI科技大本營:有一類企業會特別地去研究自己的算法或者是構建平臺。你們想做的實際上是比在做更上一層的工作?據我了解咱們應該都是服務的中大型的企業,自己是否想過具體服務到每一個場景,還會有很多問題,比如數據不完備?該如何解決呢?
郝振明:是的,我們現在更多的是在一個領域里做一件事情,我們也在積累,從技術解決策略上說我們會用到遷移學習等方法。我認為現在人工智能是正在起勢的一個過程。我可以給大家引用這樣一個例子就很好理解,我在 2000 年左右做程序員,那個時候講軟件這個概念是不容易被理解的。大家如果現在來看程序員,發生了一個很大變化的過程,從一個專業的小領域到普世。回到你剛問的問題,現在一些企業做了很多基礎的工作,并不代表能把所有的人工智能全部依賴于此建立起來。我們也會關注這些工作,但我們更關注如何使用。也不一定就是某個或某些企業可以做這些工作,當我們的訴求越來越多,就會出現我們的結合點。
第二個關于數據量大小的問題。現在很多研究和工作都是基于大數據算,就我個人觀點而言,是會存在一些問題的,比如不夠智能化,個性化。我們可以看到目前一些工作可能只做到了人工的 70 %-80% 的水平,從以往經驗不容易被發覺,也許恰恰是大數據反向制約的,但是一定會有突破性的進展。其實可以理解成利與弊的關系,數據量特別大,更容易總結,但可能因為數據量過大,導致突破自身原有經驗成為一件有難度的事情。在這方面我們也進行過一些嘗試,例如,當數據量不是特別大的時候,會基于一些基礎網絡進行遷移。從我們的角度而言,關注小數據在工程化實踐中的作用,可以嘗試用來防止額外干擾,再通過專業模型聚焦我們的關注點。利用小數據形成一些智能化解決方案可以說也是我們的一個期望。但是,目前我們還沒有找到一個很好的點,但是相信,未來小數據量不會成為制約的問題。至于一些已經相對成熟的技術,為什么我們自己也在獨立做?關鍵也在于此,在工程化實踐中,結合某一具體場景,會需要專門解決的一些問題。所以,我們需要的不止是一個通用技術,是針對特定領域的技術。這就需要在與工程化結合的時候,自己研發、改進算法或模型來尋求更好的解決方案。
AI科技大本營:從更高的層面而言,目前的這些工作如何幫助普元更好的賦能企業用戶?
郝振明:這里有兩個關鍵點:一個是自身的 know-how,一個是工程化。剛剛忽略的一個問題是:本身體系的延續性。通過技術本身,尋求技術,做技術的沉淀。
AI科技大本營:在未來的工作中面對不斷的挑戰有哪些措施?
郝振明:未來,我們期望是不是可以不僅局限于通用世界?從工程化階段來看,我們需要等待成熟,因為在還不能做的很好的情況下,選擇躲避一些問題,可能是更欠妥的做法。所以,除了技術角度,算法角度,我們還會結合工程方法,比如軟件工程的方法來完成。通過這種方式突破我們自身或現在行業內的情況。尚未做的很好,也是我們在接下來的工作中努力嘗試的。我個人而言,我不是一個科學家,我更像一個干活兒的。我需要用的知識,技術,工具,有專家的成果可以讓我去嘗試,但終有一個是我要瞄準的方向,從而挑選出一個適合我們的。
-
AI
+關注
關注
87文章
30763瀏覽量
268909 -
智能化
+關注
關注
15文章
4872瀏覽量
55350 -
機器學習
+關注
關注
66文章
8408瀏覽量
132575
原文標題:AI工程的實踐者:普元積極將場景落地,為企業提供智能化解決方案
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論