面向機器學(xué)習(xí)的知識產(chǎn)權(quán)保護可以圍繞以下五方面展開:訓(xùn)練集保護、訓(xùn)練參數(shù)保護、架構(gòu)保護、機器學(xué)習(xí)系統(tǒng)保護、模型防復(fù)制保護。
訓(xùn)練集保護
為特定的機器學(xué)習(xí)應(yīng)用創(chuàng)建出色的訓(xùn)練集是一項耗時耗財?shù)墓ぷ?。盡管在典型環(huán)境中,侵權(quán)人無法直接訪問此訓(xùn)練集,但是如果通過某些方式獲得了訪問權(quán)限,那么復(fù)制訓(xùn)練集輕而易舉。知識產(chǎn)權(quán)法律的作用正在于此。
如果訓(xùn)練集所有者的主要營業(yè)地點位于歐盟地區(qū),那么訓(xùn)練集將受到數(shù)據(jù)庫權(quán)利的保護。但是,這一權(quán)利僅對同樣位于該司法管轄區(qū)的侵權(quán)者具有法律效力。
而更加困難的是能否針對機器學(xué)習(xí)訓(xùn)練集主張版權(quán)。訓(xùn)練集并不是一件藝術(shù)作品。其目的通常是確保數(shù)據(jù)適合用例。根據(jù)版權(quán)法的規(guī)定,針對主題創(chuàng)建合適的數(shù)據(jù)集并不是一項創(chuàng)造性活動。但是,仍然可以主張版權(quán)的一個方面是對數(shù)據(jù)進行分類的方式。如果類別是通過創(chuàng)造性過程(例如,“美麗/丑陋”、“強/弱”、“大/小”)進行篩選的,那么就可以認為通過創(chuàng)造性標記方式創(chuàng)造的訓(xùn)練集受到版權(quán)保護?;谑聦嵰兀ɡ纭柏?狗”、“交通信號燈/路燈/停車標志”)的分類不具備創(chuàng)造性,因此不受版權(quán)保護。
在某些應(yīng)用領(lǐng)域,訓(xùn)練集是通過模擬或其他人工手段生成的。有另一種觀點認為,這樣的訓(xùn)練集可以受到版權(quán)保護,因為所選的模擬或生成方式可以看作是一種創(chuàng)造性選擇。但是,這一觀點從未在法庭上得到檢驗。
通常,公司會對其訓(xùn)練集嚴格保密。這種做法十分合理,因為使用機器學(xué)習(xí)模型無需共享訓(xùn)練集。避免訓(xùn)練集被惡意復(fù)制,并對需要擁有訓(xùn)練集的各方施加嚴格的契約約束似乎是最好的方法。
訓(xùn)練參數(shù)保護訓(xùn)練集和模型只是機器學(xué)習(xí)系統(tǒng)寶貴價值的一部分。驅(qū)動訓(xùn)練算法的參數(shù)也同樣十分寶貴:選擇正確的訓(xùn)練參數(shù)需要經(jīng)驗豐富的工程師花費大量時間和精力。
對于創(chuàng)建機器學(xué)習(xí)系統(tǒng)所用的訓(xùn)練參數(shù)集,版權(quán)保護是最有用的。如果數(shù)據(jù)科學(xué)家通過創(chuàng)造性工作來選擇合適的訓(xùn)練參數(shù),從而確定這些參數(shù),那么最終得到的參數(shù)集就很有可能受到版權(quán)保護。但是,如果是通過詳盡搜索(例如評估文獻中提出的許多選項)或算法過程發(fā)現(xiàn)的訓(xùn)練參數(shù),則不受版權(quán)保護。這一原則同樣適用于使用這些訓(xùn)練參數(shù)和指定訓(xùn)練集生成的模型。
數(shù)據(jù)庫權(quán)利可能不太適用于參數(shù)集,因為數(shù)據(jù)庫權(quán)利的一個標準是集合中的各個元素必須系統(tǒng)地或有條理地排列。參數(shù)集很難符合這個標準。
架構(gòu)保護系統(tǒng)架構(gòu)是機器學(xué)習(xí)系統(tǒng)的基礎(chǔ)。其設(shè)計是確保系統(tǒng)正常運行的關(guān)鍵要素。在完成訓(xùn)練后,架構(gòu)就將投入使用。這類系統(tǒng)包含兩部分:定義架構(gòu)的圖形和實現(xiàn)架構(gòu)的軟件。圖形符合保護的條件與模型參數(shù)相同。從理論上講,架構(gòu)的創(chuàng)新硬件層面可以申請專利;但是由于這一領(lǐng)域的大多數(shù)創(chuàng)新基本只與軟件有關(guān),因此硬件專利不太現(xiàn)實。實施訓(xùn)練和/或推理的軟件通常會受到版權(quán)保護,因為軟件主要是通過創(chuàng)造性工作設(shè)計而成的。
機器學(xué)習(xí)系統(tǒng)保護理論上,使用精心選擇的參數(shù)集編程并基于特定訓(xùn)練集訓(xùn)練的電腦系統(tǒng)屬于可獲專利的主題范圍。但是,歐洲和美國的現(xiàn)行判例法要求系統(tǒng)的設(shè)計目標是執(zhí)行現(xiàn)實世界中的任務(wù),例如駕駛汽車或識別現(xiàn)實世界中的圖像。對于以更抽象的方式運行的機器學(xué)習(xí)系統(tǒng)(例如,在現(xiàn)實世界中缺少特定用例的情況下,進行識別和/或分類),能否獲得專利仍未可知。
就像任何其他軟件一樣,機器學(xué)習(xí)系統(tǒng)的軟件一定可以受到版權(quán)保護。
機器學(xué)習(xí)系統(tǒng)的數(shù)據(jù)庫權(quán)利在理論上是有爭議的:爭議點在于數(shù)據(jù)集可通過模型和執(zhí)行該模型的軟件進行搜索。但是,這一觀點從未在法庭上或法律文獻中得到檢驗。
模型防復(fù)制保護當機器學(xué)習(xí)系統(tǒng)在對公眾沒有契約或使用限制的情況下推出時,就可以使用某種獨特的方法來復(fù)制其功能。本質(zhì)上,抄襲者使用一個未分類項目數(shù)據(jù)集,并將每個項目提交到機器學(xué)習(xí)系統(tǒng)。每個答案都仔細地記錄為抄襲者的數(shù)據(jù)集分類。從而獲得一個帶有標簽的數(shù)據(jù)集,用來訓(xùn)練相似質(zhì)量的模型。事實證明,即使數(shù)據(jù)集包含非問題域數(shù)據(jù),并且目標系統(tǒng)和克隆系統(tǒng)的架構(gòu)與模型參數(shù)不匹配,這一方法仍然有效。根據(jù)版權(quán)或數(shù)據(jù)庫法律的規(guī)定,暫時無法界定這種行為是否合法。原始機器學(xué)習(xí)系統(tǒng)中的數(shù)據(jù)集未被復(fù)制;只是利用了系統(tǒng)輸出,而且只用來標記另一個數(shù)據(jù)集。
如果數(shù)據(jù)集分類本身具有創(chuàng)造性,那么抄襲者可能會因為重復(fù)使用標簽而侵犯版權(quán)。即使只是復(fù)制和復(fù)用標簽以對完全獨立的數(shù)據(jù)集進行分類,也有可能侵犯版權(quán)。但是,這一觀點從未在法庭上得到檢驗。
舉證責任
發(fā)現(xiàn)侵權(quán)者和在法庭上證明侵權(quán)是兩件截然不同的事情。在知識產(chǎn)權(quán)訴訟案件中,舉證責任可能難以實現(xiàn)。一般而言,法院需要得到充分的證據(jù)來確信很有可能存在侵權(quán)。被指控的侵權(quán)人沒有義務(wù)提供相關(guān)證據(jù)。因此,如果需要的證據(jù)在侵權(quán)人的掌握之下,那么知識產(chǎn)權(quán)權(quán)利所有者就可能會遇到問題。一些司法管轄區(qū)允許扣押證據(jù)或要求當事方進行所謂的“透露”,但這并不能確保權(quán)利所有者得到所需證據(jù)。
根據(jù)版權(quán)法的規(guī)定,如果兩個物品非常相似,那么法院可以反轉(zhuǎn)舉證責任:侵權(quán)人必須證明其作品是獨立創(chuàng)作的。但是,這是法院針對特定事實分析的結(jié)果,權(quán)利所有者不應(yīng)依賴于這一機制。
根據(jù)商業(yè)機密法的規(guī)定,權(quán)利所有者有時可以選擇要求法院對證據(jù)保密,或者讓獨立的一方(例如公證人)將證據(jù)與機密信息進行比較,而不必使機密成為公開法院記錄的一部分。
責任編輯:pj
-
數(shù)據(jù)庫
+關(guān)注
關(guān)注
7文章
3816瀏覽量
64449 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8422瀏覽量
132714 -
電腦系統(tǒng)
+關(guān)注
關(guān)注
0文章
21瀏覽量
9511
發(fā)布評論請先 登錄
相關(guān)推薦
評論