如果說人工智能是未來的“電力”,那么數據就是發電的“燃料”。在面向未來技術升級的過程中,那些擁有大量數據的組織有機會最早利用這些“燃料”來發“電”。這其中,世界知識產權組織(WIPO)在使用人工智能技術方面的實踐可以作為有價值的案例之一。
WIPO是聯合國領導的發展國際知識產權制度的專門機構,是由191個成員國組成的關于知識產權服務、政策、合作與信息的全球論壇。WIPO的專利合作條約(PCT)是一個國際專利體系,方便申請人在國際上尋求對其發明的國際專利保護,幫助專利局出專利授權決定。通過PCT提交國際專利申請,申請人可以同時在全世界大多數國家尋求對其發明的保護。WIPO的特性決定了其在專利領域擁有海量的專業數據。隨著全球知識產權申請數量不斷增加,相關數據的數量增長使得不使用AI工具采集和分析數據變得幾乎不可能。
截至2017年2月,PCT已經授權了300萬件國際專利。由于在WIPO的專利申請數據庫中,大約只有三分之一的文件為英文,因此在國際專利保護領域,涉及到大量專利申請文件的翻譯工作。
對于像WIPO這樣的非技術性組織來說,如何進一步運用自身積累的大量數據資源?如何使用新技術減少巨大、枯燥并且重復性人工勞動的工作量?有沒有可能通過技術手段,幫助工作人員提高專利、商標等知識產權方面的審查工作?在這一波人工智能的熱潮來臨之前,WIPO早在2010年就已經開始進行人工智能技術在專利領域方面的應用探索。
WIPO在知識產權領域開發和應用人工智能方面一直處于領先地位。2010年,WIPO全球數據庫部門的Christophe MAZENC招聘到了人工智能應用開發的第一位員工。兩人開始了WIPO機器翻譯工具的開發工作,兩年以后,WIPO有了第一個版本的機器翻譯工具。到今天,這個團隊發展成為先進技術應用中心(ATAC),第一位AI開發者Bruno Pouliquen也已經成為部門負責人,管理著5人的團隊。
ATAC作為WIPO內部的AI技術開發部門,負責自下而上的規劃WIPO的AI應用開發路線,工作之一是掃描各部門所擁有的數據,分析在這些數據的基礎上可以開發出怎樣的應用;另一方面,ATAC與WIPO各成員國的知識產權局保持溝通,交換數據,跟蹤成員國知識產權局的人工智能應用進展。
WIPO采用內部開發而非外包的方式,自己開發了基于神經網絡的機器學習翻譯工具WIPO Translate。 與早期的工具相比,WIPO Translate對專利文件的翻譯更加自然,尤其是像英文和中文這樣差別很大的語言。與市面上通用的翻譯工具使用更廣泛的文檔進行訓練不同,WIPO Translate完全依靠知識產權相關文檔進行訓練。
因此WIPO的翻譯工具在全球專利翻譯領域處于領先地位。在WIPO內部的專利數據中用中文、日文和韓文這三種語言撰寫的專利占全世界專利申請量的一半以上。通過翻譯軟件幫助工作人員理解專利的內容,可以減少WIPO對外包翻譯公司的依賴,同時提高內部職員的工作效率。為了評估WIPO機器翻譯工具的翻譯質量,研究人員使用了一個名為 Bleu 的程序,由 AI 專家來評估機器翻譯系統。
結果表明,在專利文獻翻譯領域,WIPO的表現優于我們常用的 Google 翻譯。
2010年開始做機器翻譯項目的只是兩個人的微型團隊。發展到今天也僅是五個人的小團隊。WIPO總干事弗朗西斯?高銳(Francis Gurry)認為,一方面專利可以幫助發明人保護和促進他們的發明,另一方面還披露了其他人可能用來開發新創新的重要細節。WIPO Translate工具有助于在全球傳播這種知識。
微型技術團隊的細分領域探索
任何的機器學習技術,都需要經過合適的訓練數據集的“訓練”才能產生作用。因此,ATAC需要找到足夠的訓練數據,才能在此基礎上開發。這個小型開發團隊決定在擁有高質量數據、最新數據的領域做開發。
ATAC是如何為算法找到大量訓練數據集的?與谷歌翻譯所不同的是,WIPO沒有海量的互聯網數據做“燃料”。但Bruno認為,一個高質量數據訓練集比一個更大的數據訓練集更好。而且,使用最新的數據比更多的數據更重要。
在專利領域,使用最新的術語能夠訓練出更好的模型。ATAC使用高質量數據的辦法是這樣的,他們找出曾經在美國和中國都申請過的中文專利,從中國專利局和美國專利局獲得同一個專利文件,用這些經過官方認證的翻譯文件來訓練機器學習算法。在中英翻譯方面,ATAC將中國國家知識產權局提供的共計 6000 萬句中文,與由專業人員翻譯并提交給美國專利局的英文版進行對比“學習”。
另一方面,ATAC使用開源技術進行開發。Bruno認為對于突破性技術,通常開源技術會更先進。在機器翻譯領域,有非常好的開源圖書館,WIPO的技術開發人員基于開源的資源的基礎上,結合對業務的理解,開發出對自己的業務有實際幫助的AI工具。
內部開發的優勢是可以從內部的角度,對業務熟悉,項目開發人員能夠更好的將業務需求和產品開發精準的結合起來,在技術開發團隊里既有技術人員也有業務人員,由于工程師本身知道業務是怎么運作的,可以將自己當做工具的“用戶”,因此不需要翻譯和解釋別人的需求。
利用開源軟件的另一方面的好處是,項目完成后,WIPO完全擁有這項技術,并且可以將這項技術與其他組織機構分享。目前,WIPO已經授權韓國特許廳(KIPO)使用,為對方提供了工具并且幫助對方進行知識轉移。除了聯合國以外,國際電信聯盟(ITU)、國際貨幣基金組織(IMF)、國際原子能機構(IAEA)等聯合國專門機構都對WIPO的機器翻譯工具表示出興趣。
使用開源技術的另一個原因是,WIPO掌握的專利信息不便于與第三方分享,從知識產權保護的角度,開源技術可以避免相關的知識產權泄露。
雖然是內部開發,但Bruno的團隊還會借助“外腦”使自己能夠掌握最新技術。ATAC與學術界有很多合作,與學術界建立了良好的溝通網絡,以此了解和掌握相關領域最前沿的技術。通過閱讀科學期刊上的最新論文、參加國際學術界會議等方式來保持對自信技術的追蹤。因為通常學術界的技術開發都是開源的。ATAC通過對學術界最新研究的跟蹤與學習來保持技術的領先性。
高銳稱,WIPO目前正在尋找知識產權領域中其他可以應用機器學習技術的業務場景。衡量的標準包括:是否能夠解決當前或者未來WIPO和成員國基于知識產權的大數據(如專利信息)的業務需求;可用訓練數據的數量和質量等。高銳認為,重要的不是人工智能本身,而是知識產權(IP)管理部門和公眾如何通過充分利用人工智能來提高知識產權服務質量并創造新知識。在將AI技術應用到知識產權管理領域中,WIPO與各成員國及各國知識產權局的協調合作非常重要。
2018年5月,WIPO在與其成員國在關于AI應用的咨詢會議上確定了以下領域作為AI應用的最有希望和優先的領域:(1)機器翻譯和其他自然語言處理技術;(2)專利自動分類和商標申請商品/服務自動分類;(3)商標和專利審查及形式審查;(4)幫助臺服務(自動回復客戶端);(5)專利現有技術檢索和商標圖形要素檢索。
目前,除了機器翻譯應用,WIPO與學術界進一步的技術合作進行專利自動分類的應用開發。在WIPO工作人員接觸的專利里,有一些是沒有根據國際專利分類(IPC)來分類的,如果采用機器學習的方法自動通過文檔本身的內容來判斷出專利應該被分到哪個類別里將極大的提高分類效率。除了WIPO,在世界各地的知識產權局,也在商標圖形檢索、商標審查、專利現有技術檢索與分析、服務聊天機器人等人工智能領域有許多AI技術的嘗試性應用。
對其他組織轉型的建議
什么樣的組織有條件進行人工智能方面的嘗試?Bruno認為,組織需要滿足兩方面條件,(1)有足夠的應用數據,(2)有AI應用場景。WIPO對于應用AI的建議是自下而上的開發,審視組織內部擁有什么樣的數據,在這個基礎上分析可以開發哪些應用。正所謂巧婦難為無米之炊,在Bruno看來,AI是一個機器學習的過程,需要很多數據來訓練神經網絡。分析組織有什么樣的數據,在數據的基礎上分析可以開發什么樣的應用是更符合邏輯的。
如果沒有適當的“培訓”數據,則不是每一項業務需求都能通過機器學習實現。因此WIPO的一個最佳實踐就是:首先在啟動開發之前確定數據的可用性、質量和數量,然后遵循高科技領域里的慣常做法:快速建立模型,迭代開發。
WIPO僅使用開放源代碼庫,因為在這樣的尖端領域,通常最先進的是開源的。 此外,開源可以根據自己的需要客戶化定制/調整軟件,然后與其他公益組織共享軟件。
WIPO在使用AI開發的邏輯,給了非AI技術類組織一些有益的啟示。WIPO的經歷證明,對于已經有了海量訓練數據集的組織,內部建立起應用開源框架開發的小型技術團隊,利用組織對業務模式和用戶使用需求的深刻理解,經過海量的數據訓練,是一條走得通的轉型路線。
-
人工智能
+關注
關注
1792文章
47377瀏覽量
238881 -
機器學習
+關注
關注
66文章
8423瀏覽量
132752 -
ai技術
+關注
關注
1文章
1280瀏覽量
24345
原文標題:世界知識產權組織的人工智能轉型探索
文章出處:【微信號:robot-1hjqr,微信公眾號:1號機器人網】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論