公共性與AI論壇(五)
2021年04月20日(星期二)
主持人:李建良(中央研究院法律學研究所特聘研究員兼所長)
主講人:林常青(成功大學經濟學系暨研究所教授)
◎ 整理:洪于庭、張芝嘉

壹、引言
本次公共性與AI論壇不僅在AI的議題上面做各種角度的探討,也從法實證的角度來談商標在人工智慧上的關係。以近期的商標案件謝玉泉「老天祿食品」與周映明「上海老天祿」的商標權爭奪戰為例,兩方所持之商標事實上非常難分辨,售賣的東西也十分相近。這更涉及到商標爭奪中一個很重要的討論,當商標為消費者節省了交易成本,即商品的品質好壞、價格區間、受眾範圍等資訊公開,對買家而言是有相當的幫助,對賣家也有所謂的知名度推廣等等的效果。例如早期很有名的KFC官司案,商標訴訟遍佈全球,於是該公司直接出了一個廣告,將所有有關商標侵權的例子呈現在畫面中,從AFC、BFC、CFC⋯⋯到ZFC,看似自我調侃的詼諧,事實上雖然興起了漫長官司訴訟,但這樣的侵權事件反而幫助該公司作了很有效的廣告,表示自己的食品非常優良,足以讓眾多企業爭相模仿。
那麼,在商標權爭奪戰中,我們是否能從法律的判決紀錄中,找到常態性的爭議點,以及更重要的,法官的審酌考量因素為何?甚至於,有哪些在法學界中認定為重點之因素,是否真能影響訴訟勝敗以及後續賠償金額?
(這些分析是屬於法實證應用的範疇,在進行這些分析前,我們先介紹法實證的定位。)相對於法釋義學、規範社科法學的規範分析,法實證分析屬於實然分析,在應用資料上實證又分使用社會科學方法的「實證社科法學」,以及非使用社會科學方法的「實證法學」,合稱「法律實證研究」1。法律實證研究有四種作用:第一,規範論證的實然基礎,當應然論證下,假設a是好的,那b可以達成a,所以我們應該採b。反之,在結果論證時,假設b可以達成a,那a是好的,所以應該採b。法律人一般而言較關心評價,以及要做的事,因此會認為a是好的時,應該採取b(應然論證),而我們所要探討的問題,通常是a是否能達成b,即所謂的實然基礎,在一般民眾的行為或是法官實際的審判中,是否a到b之間擁有良好的橋樑。第二,法律的實效性,即我們所關心的重要因素是否實際層面中也真的扮演重要的角色?第三,法律論證與法律現象,比如法律適用的實際情形,以及後續可能產生的新問題意識,成為規範分析的實然基礎。第四,法制度中相關行動者的行為模式,是與常態法律人作實證時較為不同的地方。例如若以法經濟學的角度分析,常民的一般生活中,存在著錨定效果(Anchoring Effect),那麼當專業性質高的法官在作出審判時,是否也存在著錨定效果,影響他們的行為?以及是否還有其他的東西會影響勝敗。
貳、背景與資料
在財產上,商標法是很重要的討論對象,經濟學或台灣法學論述中,較常關注於商標法第七十一條,作為損害賠償金額計算之方法,且以第三項零售單價多倍賠償說之計算方式使用率為九成以上。因此本研究以此出發,去探討何為重要的審酌因子。雖然經濟部智慧財產局(2012)提供了六項良好的指標,但仍然太過廣泛粗略。而在2013年陳姵君和劉湘宜 出版了一篇期刊論文,劃分了8項審酌因素2,往後,2016年也有陳麗珣提供更明確的12項審酌因素參考3,並且列出許多個案分析,清晰表述這些因素在訴訟中的運作方式。然而,有些因素可能會相互干擾,或是樣本數不夠充足(207份)。因此我們以現有商標資料,利用電腦文字探勘、自動標記的方式,而非傳統人工判讀模式,將關鍵字從判決書提取出來,歸納每一份判決書的重要特徵。接著,再以傳統法實證方法,如迴歸、SVM等進行分析。或是利用自然語言處理、分群、機器學習等,增加判斷勝敗的正確率,並探究電腦計算出的重要特徵,背後所代表的意義。
從民國93年至107年4月,判決案件數總共449件,包含所有地方法院與智慧財產法院,並基於陳麗珣(2016)列出的重要關鍵的審酌因子進行重新整理並標定,列出因子如下:資本額、營業收入(被告侵害系爭商標權所得利益)、交易秩序是否受衝擊、是否為著名商標、查獲商品數量且是否甚鉅、商品銷售數量、侵權時間且是否過長、行為屬於故意、行為屬於過失、系爭商標容易造成混淆誤認、行為屬於善意及合理使用、案件為刑附民、另外觸犯著作權法、公平交易法或民法等,並進行標定。判決書中用字繁複,可能有些有點明,有些只有粗略帶過,我們只能盡量克服困難。另外,如「查獲」可能不會清楚標明查獲數量,但可能寫查獲數量甚鉅,則標為1;若未提到,則標為0;若記為查獲數量甚少,則標為-1,侵權時間也是同理。
判決書中時常以「侵權情狀」概括整體案件情形,甚至包含上述情況,太過空泛且無法量化,因此並未列入我們的因子項目中,以其他方式替代。有標示「刑事不起訴」的案件在判決書中僅搜尋到三件,其它可能並未寫明,或是未記載對應之刑事案號,因此在案件分類中我們進行簡單處理,並改以「刑附民」為搜尋標的。但除了陳麗珣(2016)所提到的重要因子外,我們也尋找其他可能的重要審酌因素。
問題與討論(敬稱省略)
張永健:這些審酌因素是以人工標記去作嗎?
林常青:算是人工標記,但是讓助理抽一些判決出來,根據每個審酌因素分別找出書寫的規則,並利用這些規則作coding。
林常青:舉例而言,「混淆誤認」在判決書中可能會以「近似程度相當類似」、「難以區辨」等或是很長的敘述方式,表達系爭商標相似程度高的意思。於是在張芝嘉助理整理出規則後,讓電腦一次全部搜回來。尋找規則的方式第一個是人工辨認,第二種是利用語意空間的建立,找附近類似相似的字眼等等。
張永健:基於陳麗珣列出的審酌因子,要怎麼確定他是對的,或者可能遺漏其他重要的事情,你也無法得知?
林常青:是的,這是我們要做的第二件事情,在這些因子標定後,還有哪些因素會在判決中使用,或者會影響到勝敗。將在後面繼續說明。
續上報告
在尋找同義詞的處理方式,其中之一是一次使用所有的判決文,建立起語意空間,並在這空間中找出距離最小的詞彙,建立出所需的辭典,或者標記出表達同樣意義的句子,並定位到個別判決書內文在闡明審酌因子的語句,抓到並量化為數值紀錄。在這個過程中,只使用四百多筆的判決書建立語意空間事實上是有問題的,因為只代表這四百多筆判決;但另一方面而言,好處在於其適用於商標案例的小範圍中,在詞彙間的距離上屬於商標民事法的範疇。
然而,因為判決書的紀錄並非遵從統一的格式,法官心證內容中有各種不同的方式敘述,coding的除錯上需要耗費很長的時間,比方說有「過失」的案件中有大概116件有提到過失、或過失類似的詞彙,是在法庭中需要討論也記錄在判決書中的重點之一,侵權人的行為是否屬於過失。其中有25件確法官認定為有過失,91件法官認定為無過失,並且只要是法官認為屬於「過失」侵權的案件,勝率大概為84%。
比較特殊的例子為「營業收入」,有出現討論營業收入的有8件,但這8件的勝率為百分百。因為會出現一個情形是,若法官已經認定系爭商標會造成混淆誤認而有侵權的情況(確定勝訴),接著計算賠償金額的價格,才選擇將營業收入納入考量之中,從而出現百分百勝率。
真正在探討判決時,不能完全依靠這樣所謂的判決分子分析法,也就是類似丟一個判決過去,就像把個牛肉丟進去,然後得到成分表,有多少蛋白質、脂肪、醣份等等,並從主成分列表中我們判斷這個東西跟豬肉、鵝肉或牛肉更像。而若能在該判決中先判斷系爭商標是否會造成「混淆誤認」,再判斷「營業收入」,透過人工智慧從中發現一個邏輯程序的存在,便能很好的提高整個案件的運行分析。

參、資料分析
我們首先使用傳統的迴歸分析法,因為變數眾多,採行逐步迴歸法,篩選出有統計顯著意義的變數,進行Heckman兩階段估計法。可以從迴歸結果中發現,像是刑附民的案件、是故意或過失的侵權行為、會造成混淆誤認的商標等等,都會顯著提高原告的勝算。而當法官認為是善意與合理使用的情形下,判處金錢賠償或登報道歉的機會就顯著降低。
此外,除了這些重要的審酌因子,是否還有其它我們尚未考慮進來的要素,也會影響審判結果?我們利用所有判決書的詞彙進行詞頻的計算,發現似乎只要提到發酵、人體用、製劑等字眼,基本上都是敗訴;若是提到米酒、行李箱、香菸等等,大多出現在勝訴的案件中。在將這些詞頻較高的動名詞進行分類後,可歸納為四類:飲食類、菸酒類、車類與科技產品類,其中飲食、菸酒與車零件的詞彙傾向勝訴,出現科技產品類則傾向於敗訴。
在同樣進行兩階段估計法後發現,刑附民、故意、過失、混淆誤認以及善意與合理使用同樣顯著影響勝敗,方向也無變化。更重要的是,只要是提到菸酒,或是交通工具,也會顯著提高勝訴的機率。
我們也可以從這些結果看出哪些因素會讓賠償金比較多,那些會讓賠償金額較低,而在特殊商品種類的效果進來後,對於勝敗的判斷也有幫助。再來,除了簡單的迴歸模式外,我們也想透過其他方式來提高勝敗的判斷率。像是SVM (Support-vector Machines, 支援向量機)、決策樹等常見分群分類方法。(就現有資料而言,)全部猜勝可以得到0.6058的準確率,而利用傳統Logit模型預測的準確率為0.6437,以此作為基準組,相較於同樣預測水準的SVM,決策樹得以提高1%左右,可以發現「善意與合理使用」是很重要的審酌因素,接著是「故意」又將分出不同類別,然後是「刑附民」等等不同階段分類重要因素。若是在放入利用詞頻歸納出的特殊商品類型,Logit模型預測的準確率提高3%,達到0.6793,雖然SVM沒有帶來好的提升,但決策樹又能再提高1%,達到0.6882。
此外,若直接將判決書中法官敘述心證理由的部分提取出來,斷詞並利用Word2Vec將文本向量化,在考量不同維度下,維度越多特徵越多,我們使用SVM做分群,最好的狀況下可以將準確率提高到0.7038。比起最初Logit模型的準確率,總共提高了6%,表示還有一些我們尚未抓到的重要因素還在判決書中,但因為這些分類過程處於電腦的黑盒子中,尚且無法得知。
SVM和決策樹是AI分析早期就興起的重要工具,而近來較為熱門的方法其中一種是XGBoost,在比賽中時常被提起,在準確率的提升上有很高的強度,也擁有能將重要的特徵排序列出的優點。但因為每次隨機抽取作為訓練及與測試集的樣本不同,所以使用不同的變數都會做10次並計算平均,較為公允。與SVM、決策術的順序不同,我們先將法官敘述心證理由的部分斷詞且向量化,分別為25、50、75、100維度,也就是有這麼多的特徵時,平均準確率可以高達0.7195,不僅證明了XGBoost在分類上的強度,也顯示了在結構化資料之外,法官心證理由的重要性。而若是在加入了前述的重要審酌因素與特殊商品類型,還能再提高到0.7416。
而利用XGBoost淬取出重要的因素後,再一次使用SVM做分類,還能再讓準確率作提高,而若是XGBoost以法官敘述心證理由的部分篩選出的重要特徵,再加入重要審酌因素與特殊商品類型,並再作一次XGBoost,竟能在25維下提高到平均0.7628的水準。故而,當變數重要性排序列出來後,可以見到前述認為重要的「過失」、「故意」、「菸酒類商品」、「混淆誤認」……等等,都再一次的被驗證。至於重要性排名最靠前的特徵群,列出這些特徵中的東西,會發現當這些特徵中的東西順序被打亂時,損失函數變大,預測會變得糟糕,由此證明該特徵是重要性高的變數,打亂時預測預測準確率越低,特徵的重要性就越高。
當我們抽出這些特徵,如w16,該特徵維度最大的辭彙是「包」,影響勝訴最重要的前四個辭彙為「公事包」、「稅務」、「香菸」、「抽象」,若是更進一步,最影響勝訴且至少被使用過十次以上的辭彙,前兩名為「不及」、「稅務」。在w8、w19、w9、w10、w20也同樣,發現「包」、「稅務」、「香菸」等類似辭彙不停出現。
同樣的,抽取影響敗訴最重要的前4個辭彙、且至少被使用過十次以上的辭彙、以及維度最小的辭彙,在重要性排名前7的特徵中,相似的辭彙如「承辦」、「新舊」等也是一直出現。
即便如此,我們還是無法確切斷言是什麼影響了預測結果,因此再一步把這些影響勝敗最重要且出現至少十次以上的辭彙做K-means分群。有趣的是,「保養品」雖然剛剛沒有抓出來,但只要一提到,就容易敗訴。而事實上,當我們回頭去看原始資料會發現,提到該辭彙的15件判決中,有12件會敗訴。另外,「新舊」、「承辦」也容易導致敗訴。若是提起與「稅務」相關的事情,抑或是「擔保金」時,反而較容易勝訴。同樣的提到「抽象」、「混為一談」、「如期」也更容易勝訴。也就是說,有某一些會影響勝敗的因子並未被我們準確抓取而出,可能是商標使用的期限、特殊商品的類別、與報稅相關的事宜等等,有些可能可以得到解釋,但仍然有一些因子是如何影響著勝敗的方式,仍是有待探究之處。但透過這個過濾的過程中,我們發現一些因素來自法學領域外,而領域外的因素可能是某些特殊商品的交易模式,也許在我們領域外的人看來,系爭商標是容易造成混淆誤認的,但在他們領域中卻不是如此。
除此之外,LSTM (Long Short-Term Memory, 長短期記憶模型遞歸神經網路)也是目前公認在RNN中能良好解決梯度消失與梯度爆炸問題的方法,較常使用在時間序列的問題上,正好用以此檢測上一期判決對當期判決的影響力。使用前兩段中XGBoost所淬取出重要的因素,並時間排序各份判決,以前一筆預測下一筆的方式,放入LSTM中。我們也同樣做了10次並計算平均,其中,預測準確率平均可達 0.7600。表示在時間上,過去的判決或許對未來的判決的影響力並不小,這也是未來再深入研究的方向之一。
肆、結語
在整個實驗的過程中,最大的困難點就是非專業的工程師進行coding,最值得一提的是,XGBoost和LSTM能夠讓準確率達到76%之高。在第一個步驟中,我們抓取法學界所認定的重要審酌因素,然而法學領域上學者整理出來的論點隨著時間不斷有所增減,於是我們透過實證,確認哪些因素是重要的,哪些因素事實上影響力並沒有那麼大。
再者,除了這些明確被認定、被法庭上具體羅列而出的審酌因素之外,是否還有些法學領域之外的小物,足以影響著整個判決的勝或敗,在第二個實證方法中得出例如前述所歸納出的特殊商品類型,甚至是再之後挑出的保養品。在有些人的眼中,保養品和化妝品可能是不同類的商品,因此這些因子可能是因為特殊商品的交易模式,或是在該領域中不認為會有混淆誤認的情形,但領域外的我們的看法卻相反。
第三,就是標定工程,這是所有法實證或文字探勘領域都明白的大工程,可能有摸索出一些標定的模式,而如果加上了Golden Rule,也就是專業法律人或法官的判讀模式,整個標定就能更上一層,表示人工的介入還是更好,目前還無法完全擯棄人工,完全依靠電腦進行判斷。另外,在斷詞和語意空間的建立上,四百多的樣本數確實不足。一般語意空間是建立在大量的文本,或是大量的判決、文章等等之上,設備、技術與人工的窘境也是我們要克服的難題,因此望能藉由分享,貢獻出我們的經驗,讓大家一同逐步改善工程的模式、辭庫的建立,甚至是否有辦法依照案件的類別,來建立合適的語意空間。
在法實證上,還有一個普遍會遇到的疑慮,當我們截取判決書中法官心證理由時,它是屬於真正的事實,還是法官認定的事實?若是屬於被認定的事實,那麼法官是如何認定?或是能否知道這個事實是否被接受?舉例而言,當刑事案件上衡量死刑與無期徒刑時經常提到「殘忍」、「無法教化」。何謂殘忍?何謂無法教化?目前的文字探勘方式可以提取出法官認定是否殘忍的結論,但若能將為何認定為殘忍與無法教化的緣由也標出來,例如因為殺了幾個人、用了殘酷的手段等等,此為造就法官認為該案犯為無法教化的客觀事實,我們就能做出更細緻的分析,須令電腦密切貼合人類的邏輯,有待未來持續精進。
綜上所述,我們先從簡單的coding與傳統模式的分析方法,將判決的預測準確率從全部猜勝的60% 進步到64%,接著從斷詞中抓到一些可能的商品特性,將準確率提高到約68%,也用不同的分析工具在增加1%,約69%。而將判決書屬於法官心證理由的部分全數塞給電腦,讓電腦自行分析,大概能做到70%左右。因此我們使用結合傳統分析工具歸納出的重要因子與特殊商品類型,以及轉換成語意空間的法官心證理由,透過較新的演算法和分析工具,發現民事商標案件中我們能夠做到76%的預測準確率,並從中找尋電腦認為重要的因素,探究與現實的鏈結。
問題與討論(敬稱省略)
黃詩淳:我們也做過全部丟給電腦的方式,做出來準確率應該是77%。人工coding過則是94%。另外也做相似的嘗試,就是補了一個知識給電腦,告訴電腦原告或申請人是爸爸還是媽媽的事實(人工標定的正確事實),在加了這個factor後,正確率提升到79%。
林常青:對,人工加電腦後真的會比較好,以我們的經驗,全部交給電腦判斷是70%,再加上人工標定的部分會到76%,往上走了6%。所以前知識還是非常重要,在電腦的判斷中有很大的幫助。
何博士:有一個問題,XGBoost其實他有一點是為預測而預測,就是你會有很多東西你根本不知道他是什麼意思,結構有很多非線性的東西,個人認為法官並不會這樣想,所以不確定老師這樣的結論對於讓大家理解法官的想法是不是有很大的幫助。
林常青:沒錯,其實XGBoost可以做的非常複雜,像是有一個東西要做解釋,便先開一顆樹,或者是想辦法先去做某一些特別的東西,然後剩下的東西我再用另外一個東西不斷的在做fitting,然而就像何博士所提出的問題,法官想的有這麼複雜嗎?實際上我們有做嘗試,如果真的讓電腦開決策樹作預測,那最後的表現還不如我們用線性的方式去做更好。所以實際上,我們所使用的XGBoost是用最簡單的線性方法。那麼這是否符合法官的思考模式?線性是一個東西加上一個,直到最後沒什麼解釋能力為止。因此當我們要決定是否有罪,拆成細部來看,例如要認定系爭商標使否會造成混淆誤認等等,或者法官所陳述的事實、可能的句法,會不會真的導致混淆誤認,從而定罪,這就是我們想做的。
何博士:我也想問的是,到底法官怎麼認定商標的相似或者混淆?讓電腦去比對圖片以現在的技術應該是能做到,這個結果應該對準確率是很關鍵的。並非是判決書中的文字,比起文字敘述和被斷過的詞,圖片應該比較容易做相似度。
黃詩淳:判決裡面沒有這樣的資料,我們要怎麼樣得到兩相對照的圖片?
林常青:這是一個好題目,我們做的是模擬法官的想法,是用法官所判斷的文字資料。那如果去看一般人認為的混淆,和機器所認為的混淆作對比。或者去看一般人對商標的判斷和法官對商標的判斷差異,都是未來可以做的方向,是比較偏向技術層面的方式,讓機器判讀相似性。
李建良:基本上商標需要先註冊,這裡就有一個前提性問題,在這些案子中,兩個商標都有做登記確認嗎?如果前提是有經過註冊的話,那基本上先由行政機關做判斷,而法官會尊重行政機關的判斷,損害賠償才是最後的程序。而這些前提是否有在coding中考量?
林常青:謝謝所長給了一個很好的建議,以後可以納入coding的範圍。判決書中確實有些會提到商標註冊編號,但最主要還是在討論是否相似等,而構成侵權。在這個問題上,尤其涉及不同國家的商標權時會更複雜。但行政機關,或是智財局在判斷註冊商標時的標準,以及一些行政規則,也許也會是法官考量的方式但並未完全陳述出來的重點。