由中國人工智能學會主辦,廣州易間網絡科技有限公司承辦的2018第八屆中國智能產業高峰論壇11 月17-18日在成都完美收官,論壇在兩天的會議里帶來了多場精彩報告。
此次小編為大家整理的是來自北京國雙科技有限公司技術總監饒峰云主題為《以知識為中心的智慧司法解決方案》的精彩演講。
饒峰云
北京國雙科技有限公司技術總監
以下內容根據速記進行整理
經過饒峰云本人校對
針對各種司法數據、行業支持知識,我們積累了包括文書解析、知識圖譜、信息檢索等應用服務能力,以文本解析為例,處理超過5 000萬的裁判文書,解析出4 700多個司法專業維度和要素,建立了20多萬個經審核的問答對體系,聚合并審核了超過3 000個爭議焦點、裁判規則等。裁判文書外,還對起訴狀、上訴狀、答辯狀、庭審筆錄等其他類型文書做信息抽取、結構化和解析。
面對幾百種文書,同時解析幾千個維度,需要一個很龐大的工程能力、大數據處理的能力。具體到算法層面:① 文書分段。它和語文的分段不一樣,是一個法律意義上的分段,比如要知道這一段是講訴請段、證據段、裁判結果段等,這是所有的基礎。這方面我們用的是深度學習的分類算法來做,準確率還是非常高的。② 命名實體識別。一個文書中涉及到很多人名、地名、機構名等。③ 業務規則和要素體系這些業務規則和要素體系里的法律邏輯都是我們業務專家提取出來的。
要素特征的抽取在語義層面會更抽象一層,也更難做一些。要素來源于法律法規和規范性的指導文件。要素非常有用,它可以起到橋梁作用,把裁判文書中的爭議焦點、裁判規則給關聯起來。按照法院不同的立場,它有訴請要素、抗辯要素、事實要素和裁判要素四個劃分。以上工作有很大一部分是用監督學習的辦法來做的。解決的第一步就是要標注數據,這需要大量的人力。
在建立了知識之后,我們怎么用這個知識?通常我們希望能對對知識做檢索、問答。我們首先做了一個類案同判的大數據引擎,讓法官能夠搜索到類似案件別人是怎么判的。為了建立這個類案同判的大數據引擎做了兩件事情:① 把幾千萬的文書全部解析出了很多維度,對各種維度做多維度的剖析,做統計分析;② 尋找類案。最關鍵的檢索部分,就是去檢索類似案件。我們也經歷了不同版本的迭代,最開始就是最簡單的、用文本相似度來做這件事情,文本相似了就是類似案件,結果發現不是很準;再后來用關鍵段落,最新版本主要是基于要素來做的,案件的要素相同就是類似案件,相同的要素越多就越類似。
我們還做了一個智能問答的版本,是法信的一個升級版本,也是和人民法院出版社一起做的,它有以下幾個功能與特點:① 用戶意圖的識別,比如查法律、法條和案例,用戶的意圖是用文本分類的做法來做的。② 問題語義解析,這也是比較經典的,比如我們做領域實體識別與槽位填充技術,我要問一個北京市離婚案件哪個律師的勝訴率最高的問題,要把北京市海淀區這個實體識別出來、把這個案由離婚識別出來、把律師勝訴率識別出來,所以這是一個實體識別和槽位填充的技術。③ 單輪問答語義檢索。我們有20萬單輪的問答對,都是人工編輯審核過的,這其實就是學術上比較常見的FAQ型的問答。④ 對話管理。我們還做了多輪對話,其主要是背后建了一個多輪樹狀的知識庫,最主要的一個技術就是控制它的狀態轉移圖。
我們有20萬單輪問答,目前人工梳理了三大領域的多輪問答庫。目前做了兩個版本,一個是針對法院的專業人士版本;另外一個是to C的對普通老百姓的版本。
進一步來看我們是如何獲得法研杯冠軍。“定罪量刑”是這次法研杯比賽的題目,賽題是輸入一個案件事實的描述,去預測法條、罪名、刑期,因為有100多萬現成的裁判文書,它是一個有監督學習的問題。我們用的最多的模型是Recurrent attention network(簡稱RamNet),其結構如圖所示。
RamNet最早是EMNLP 2017的paper,用于實體情感,我們對它做了一些改進,去掉了其中實體部分,改進了recurrent attention的輸入輸出,并在多個應用場景中都發現它能顯著戰勝NLP領域常見的BiLSTM + attention網絡,我們認為recurrent attention能提取更多的feature,尤其適合類別很多的多類標問題。
此模型有一個信息拓撲結構,因為它同時預測罪名、法條、刑期,所以是一個聯合學習的模型來做的,同時預測這三個類別,有三種辦法。第一種并行的方法,前面是聯合學習的共享層,每一個任務都用一個全鏈接去做預測;第二種串行的方法,第一個全鏈接去預測罪名,再把這個全鏈接的特征接著傳遞到第二個;第三種用一個圖狀的,比較復雜,比如先做罪名,罪名會傳到法條,又會傳到刑期。在實際的比賽模型中,我們用到了第一種和第三種,發現這兩種效果好一些。
我們對模型的loss還做了一些優化,傳統多類標問題是logistic loss,考慮到罪名、法條和的類標并不是獨立的,相互之間有關聯,所以嘗試了CRF loss,在實踐中,模型效果會有一定提升。
我們還引入了業務的規則,尤其是在刑期預測中原來是深入學習提取出來的feature,會把基于業務規則提取出來的feature和統計特征的feature一起再做分類,這樣在實驗中的效果有很大提升。
前面介紹的是在法研杯比賽中拿第一名用到的模型,基本上都是端到端的深度學習模型;后期應用正在優化,將文本解析、要素體系與模型結合,進一步深化應用能力。
此外還開發了文書生成系統提升法官寫文書的效率。做法是給法官提供兩種選擇,第一種是直接找類案,通過前面類案的做法,找到類案之后,法官直接從類似案件中選模板,把模板套進來,再把解析的東西填到模板中,這是一個做法。第二種是應用知識圖譜的推理。我們為文書生成構建的一個案件知識圖譜,針對每一個案件類型,定義爭議焦點、裁判規則、法律法規、訴辯稱、訴訟請求項,這樣把它關聯起來。法官在審判案件的過程中會去找類案來參酌,但是類案的案件非常多,我們會根據要素,給法官推薦最相似的爭議焦點(爭議焦點的數量相對是少的)。根據統計做爭議焦點的排序,把最相關、最可能的爭議焦點放在前面。法官選完爭議焦點后,爭議焦點和裁判規則有對應關系,裁判規則和法律法規又有對應關系。所以,我們先有一個推薦,推薦完他選擇后,需要的文書即可生成。
總結我們的知識智能在司法領域的經驗認為,司法領域有大量高質量的語料和知識;司法領域有豐富的NLP技術應用,包括信息抽取、信息檢索、知識圖譜、問答等;司法領域有豐富的智能應用場景,具有巨大的社會價值。我們希望與更多的學術界人共同探索相關領域。
-
大數據
+關注
關注
64文章
8895瀏覽量
137507 -
深度學習
+關注
關注
73文章
5506瀏覽量
121260
原文標題:CIIS2018演講實錄丨饒峰云:以知識為中心的智慧司法解決方案
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論