演算法視角下的物以類聚——以比較物權法的數據為例

2022 年 7 月 5 日(星期二)

◎ 主持人:李建良(中研院法律學研究所特聘研究員兼所長)
◎ 主講人:

  1. 何漢葳(中央研究院法律學研究所研究助技師、中央研究院法律學研究所法實證研究資料中心執行長)
  2. 張永健(中央研究院法律學研究所研究員、中央研究院法律學研究所法實證研究資料中心主任)                                    

◎ 整理:鄭詠綺、何怡潔、繆欣儒

Photo by Paola Galimberti on Unsplash

何漢葳

這篇報告是為了《Cambridge Handbook of Comparative Law》中的篇章,〈Machine-Learning Methods〉所準備,感謝張永健老師邀請我共同撰寫此一篇章,並在過程中給予諸多協助。我的英文題目是 Learning from Comparative Law Data,在此稍微解釋一下這個英文標題的由來。各位如果上網搜尋「Learning from Data」,搜尋結果會一直出現一本關於機器學習的書,「Learning from Data」這個詞我認為會容易聯結到 AI、機器學習。相對於傳統統計建模通常使用「Analyzing Data」或「分析」這樣的動詞,個人認為learning from data是data-driven(資料驅動或資料導向)較美化的說法,也包含較廣的範圍:監督式學習(supervised learning)與非監督式(unsupervised learning)。我今天的內容主要聚焦在非監督式學習,也就是沒有標籤、答案的一種機器學習技術。我們分析的這筆物權資料總共編碼了 279個變數,一個變數就是一維(dimension),所以我們總共有279維,觀察了156個法域(jurisdiction),實際使用到的約136個法域。

我在研究分工的部分負責的是資料分析,今天講的部分會偏向使用視覺化的方式,介紹我們所用的一些方法。首先是二元資料(binary data),也就是是每個屬性(attribute)對應0/1的描述,例如有/無區分地上權,有為1,無為0,諸如此類資料的呈現。其次是降維(Dimension Reduction,DR),介紹四個方法:Logistic Principal Component Analysis(邏輯式主成分分析,下稱logistic PCA或LPCA,由Landgraf & Lee於2016提出)與Metric Multidimensional Scaling(度量多元尺度化,以下稱mMDS),t-distributed Stochastic Neighbor Embedding(t分布隨機鄰近嵌入,以下稱t-SNE)及 Uniform Manifold Approximation and Projection(均勻流形逼近及投影,以下稱UMAP)。我們會先討論一下降維為何重要。第三部分是集群分析(Cluster Analysis,亦有翻譯為聚類分析、叢聚分析或群聚分析等),最後會進入結論。

首先是為什麼降維是重要的,主要想討論的事情有三件。第一,把維度降下來,比較容易用畫圖看到資料整體的結構,操作視覺化會比較容易(manageable)。第二是所謂的維度災難(Curse of Dimensionality),在觀察值不變的情況下,第一點是,變數越多模型未必更好;第二點是,如果在高維時要做預測,看似定義上很近的地方,事實上在座標上是很遠的,因此模型配適(model fitting,或稱模型擬合)不會好;最後,在觀察值不夠多的時候,因為資料點會非常稀疏(sparse),會造成計算困難,且學到的可能是噪音(noise)而非真正的位置。第三,因為「物以類聚」要討論的是遠近,也就是相似的程度,因此必然會關乎到距離的測量。對連續的變數,是用歐氏距離,如果是在高維下,歐氏距離的近跟遠會非常接近,有收斂到某個固定值的數學現象,換言之,在高維的情形,距離可能是沒有意義的,特別是歐氏距離。然而,歐氏距離又是對我們來說是較有資訊的測量,因為它是基於連續變數(連續變數算出的歐氏距離始有意義),相較之下二元資料攜帶的資訊更是十分地有限。

那麼,二元資料可以怎麼做?大家可以想像,每個法域有279個0/1的屬性,隨意兩個成對法域,可以計算它們之間共有多少同為0或同為1,以及有多少不同。常用的相似度指標有兩個,一是 Gower’s similarity coefficient,在二元資料的情形,就是單純比較兩個法域屬性相同(即皆為0或皆為1)的比例,也就是simple matching coefficient(簡單匹配係數)。二是Jaccard’s coefficient,它是在分子分母中扣掉0的部分,不過我們其實沒有用到Jaccard’s。

有了相似性(similarity)後,如果要計算不相似性(dissimilarity),通常就會用1 減掉相似性。換句話說,所謂的Gower’s dissimilarity/distance就是不相似的部分。當然,這不是唯一的方法,可以用任意的常數減之或透過轉換得之。如果我們把任兩個法域間的相似性畫一張圖,並按某種方法排序(如圖一),可以發現好像有些國家是比較相似的。如果能夠做合理的排序,就會顯現一些型態(pattern)。

圖一:集群熱圖(Cluster(ed) Heatmap)。Gower’s similarity越高者顏色越深。左方為完整連接聚合式(complete-linkage agglomerative,即由下往上)演算法樹狀圖。

下表是概覽我們提到的方法有什麼參數需要設定。二元資料的分析,絕大多數情形都必須仰賴 (dis)similarity coefficient 操作,只有在特定情形才允許直接用0/1的資料,如logistic PCA和 k-modes分群(詳見表一)。不過在一些分析中,其他作者不一定會用logistic PCA和k-modes分群這種比較貼近資料的方法。

Algorithms(dis)similarity measures usedParameters pre-specified
logistic PCANo# of PCs and parameter m
mMDSYes 
t-SNEYesperplexity
UMAPYes# of nearest neighbors, and minimum distance
k-modes clusteringNok, # of clusters
hierarchical clusteringYes 
表一:本研究使用的降維與非監督式學習演算法一覽。

接下來要進入機器學習的部分,在此之前,我借用 scikit-learn 的圖(https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html)來進行簡要說明。我們的樣本數多於50,並非要預測類別、亦非要預測量(quantity)。如果是單純看看,此時就會進入維度縮減的區塊,這裡就會有主成分分析(PCA)和一些embedding(嵌入)。假設不是單純看看,而是要predicting structure,就會進入clustering(分群)的區塊。分群方法中有 k-means(k平均數分群法),此演算法用歐氏距離(Euclidean distance)衡量資料點間距離,適用於連續變數,但在二元資料不適用。總而言之,我們只是看看,也想要找到內部的結構。

再來是進入到維度縮減的部分,維度縮減在數學技術上大致可分為兩類,logistic PCA和mMDS可以歸為一類;t-SNE與UMAP可以歸為一類。前兩種與矩陣分解(matrix decomposition)較有關,後二者和流形學習(manifold learning)有關,當然也有無法歸入這兩類的。

主成分分析(principle component analysis,PCA)與多元尺度分析(multidimensional scaling,MDS)這兩種方法是從比較久以前就發展出來的技術,經過不斷的發展,也產生了變形(variants),像是本研究使用的logistic PCA與mMDS。這兩種技術在最原始的版本是等價的,也就是基於連續變數與歐氏距離,但隨著技術發展,現在我們要介紹的logistic PCA與mMDS不等價,基本原理不相同。這兩種技術的優點是,它們可以將279個0/1變數重新做線性組合,得到較少但更有用的變數。舉例而言,大學入學考試有許多科,如果能把國文、歷史、英文合併為一科,也就是把3維降為1維,可以把新維度命名為文科的分數,諸如此類。這呼應了降維的重要性,它的其中一個功能是把相關性稍作消除。總的來說,透過PCA與MDS的技術,我們將若干變數(經過最佳化)重新線性組合為一新的變數。

t-SNE與UMAP一部分來說是等價的,但從圖像來看,它們能做的事略有不同。這兩種技術可以降到使用者指定的維數,但它的座標軸與距離都是沒有意義的,而是觀察資料點位置與分布形狀。

如果看logistic PCA的圖(下圖二),可以看到空心的點一區、灰色的點一區、黑色的點一區,所以即使只畫二維的主成分(principle component) 也有視覺化的效果。

圖二:以LPCA將156個法域由279各0/1變數降維至7各主成分的結果。作為舉例,圖二僅取156個法域之第一與第二主成分分數(scores)為座標,並以不同圖示標記出另外以階層式分群演算法分出3群時各法域的群別。

張永健

我嘗試用過來人的經驗說明剛剛漢葳所說的內容在法學上的意義是什麼。我花了十年的時間做了物權法的實證資料庫,156個法域大約有149個國家,占世界 95%以上的人口。我先列幾百個問題,看哪些問題在每個法域都可以獲得還算可靠的答案,最後剩下279個問題,這樣的問題就比如哪些國家有區分地上權、哪些國家有典權、哪些國家有某種袋地通行權。有了這些數據後,接下來要問的問題是「法系」的觀念,也就是常見的「因為是某個法系,所以(應該)如何」這種,有時是實然、有時是應然的論述。我之前的文章要問的問題是,法系的觀念是從何而來?基本上是某一些大學者說了算。每一個使用者也都會有一些偏見,比如對德國大學者Zweigert & Kötz而言,他們其實不太了解我們東亞在做什麼,就稱為「東亞法系」。但不管是Zweigert & Kötz或其他人的分類,我們都不太知道是怎麼分的,當然比較法總論的書有寫用某種意識形態或某種風格區分,但要問這種玄之又玄的觀念怎麼來的,他也說不出來。好比說,為什麼日本、南韓是東亞法系,中國、蒙古是社會主義法系?或者說,有些標準是重疊的時候,也沒有說衝突時是怎麼選擇的,因此我們想用量化的方法重新叩問比較法上法系的大哉問。過往的文獻構成了比較法學者的障礙,如果做傳統的比較法,很難質疑Zweigert & Kötz,所以我必須要用另一個方法來說明他們是否是正確的,也就是量化的方法。我們一個一個編碼法律的內容,至少書本中的法也是法律的內容,我們用物權法的例子來說怎麼分法系。漢葳的起始點是,有一個表格,總共有156 行,每行是一個法域;有279欄,每欄是一個物權法規範的有無的0/1變數。如果有《雨人》電影主角的能力,或許我們可以一眼看出這156乘279的數字中規律在哪裡,但大部分人都不是,因此使用了演算法的方式。漢葳所說的降維就是指,如果156乘279看不出來,那麼156乘2或許就看得出來。將279維降為2 維後,就可以放在投影片上、放在紙上,看出誰與誰接近。在降維前沒人知道結果是什麼,甚至在座除了漢葳以外也沒有人知道背後的數學原理是什麼,但是我們可以說有很多方式可以呈現。這篇文章要說的並非Zweigert & Kötz或其他的比較法學者一定是錯的,或是量化學者都會得出一樣的結果,恰恰相反,很多的方法得出的結果會不一樣,甚至是只要動一些手腳,得出的結果也會不同,傳統方法有所侷限,但量化方法亦有其危險。不過量化方法的優點是,除了人的智慧外,我們可以用人工智慧搭配人的智慧編碼成的數據,比較傳統方法與量化方法的異同何在。如果發現無論用什麼演算法或是怎麼微調(fine-tune)參數,都得出某些國家的物權法是相似的結果,那我們可以有信心地說在至少物權法相關的法系上,某些國家確實在一起。但如果調整參數的過程中,有國家比方說大家熟知的蘇格蘭或南非,有時像德國、有時像美國或像法國,就可能可以說這是混合的法域,有些面向像英美法,有些面向像大陸法,這些法域就需要特別小心,甚至說不應該硬是要將之歸到某個類別。

在此我要特別解釋一下剛剛漢葳提到PCA圖(圖二)中有畫出3種法系,這些類別並非PCA分析得到的結果,而是透過漢葳最後會介紹到的階層式分群法,用一個樹狀圖來表示法域間的距離從近到遠一步一步合併的過程,樹狀圖就是法系或「法的家庭」必須要有的工具。如果在越靠近的樹枝上,就是越靠近的法域;若在圖上越遠,或要更晚才會遇到共同橫線彼此連接的兩個法域,就會越遙遠。等一下各位陸續看到關於降維視覺化的圖上如果有標記出二分法、三分法,或是十分法的法域,都是從下圖三左邊的 average linkage 做的,它基本上是計算所謂的Gower’s distance (Gower’s dissimilarity)。簡單來說,假如所長分別問我和另一個人100個問題,Gower’s dissimilarity 就是在計算我和他之間有多少時候一起答得不同。更簡單地說,就是我們多常做出不同的決定。在物權法上,如果針對有無區分地上權等問題,兩個法域總是一樣,dissimilarity 就是0;如果總是不一樣,dissimilarity就是1。每個兩兩成對的法域的物權法算出Gower’s dissimilarity的矩陣,就可以用 hierarchically clustering(階層式分群法)的方法畫出樹狀圖。我們可以看到圖二左有兩大串(二分法),右邊一串又分為兩小串,左邊就包含前蘇聯、英美法、北歐等國家,右邊則是法國、德國等大家熟悉的國家。如果是三分法,就會包含前蘇聯、美國、北歐一組,受法國影響的一組,受德國影響的一組。如果是十分法,就會更細。

圖三:不同連接(linkage)下聚合式階層分群法之樹狀圖。

何漢葳

下圖四左下角(即圖二)的圖示就是用張老師所說的三分來畫,但基本上點的圖示只是代表標籤(label),沒有順序上的意義,比較多點代表比較大串。圖四上方兩張圖與要選logistic PCA的參數有關,當看到像這樣突然下降、然後開始變平穩的統計圖時,通常那個變平滑的轉折點,就是我們想要找的參數。所以我們在這裡取7個主成分(principal component),大約可以解釋50%的資料變異。如果拿大學入學考試當例子的話,10科分數濃縮為3至4個主成分時,降維的過程一定會造成訊息的損失,但我們希望能在有限的主成分數量下,盡量地保持資料原本的某種特性。二元資料確實很困難,也很少人用這種方法,目前我們還不知道其他方法有沒有可能做得更好,但至少用7個主成分來表示279個變數約五成的變異程度,已經是很不錯的結果。

右下角的部分是目前尚未找到太多蛛絲馬跡的部分。剛才有提到7個主成分是 279個原始變數的線性組合,我們挑了其中前兩個主成分(即最能顯示資料變異的前兩名線性組合),看他們由哪些變數組成,但經過張老師比對後,並沒有看出特定的型態,也就是目前還沒有找到第一、二主成分是哪些在專業上可以被理解為相關的變數組成,也就是還無法合理命名這些新生成的線性組合。

圖四:由於0/1資料無法適用傳統PCA,本研究採用LPCA進行主成分分析降維。

找出要降到幾維(k)在LPCA分成兩階段,第一階段是對各維度找到一個使得某種損失函數最小的參數m(如右上圖,本研究設定之降維範圍在k=1至20,各維度的m則從1計算到10)。因為k越大能解釋的變異越高,在第二階段我們需要一個像在傳統PCA使用的陡坡圖來決定k。然而,在LPCA時只能以第k各維度能增加多少變異解釋的邊際百分比取代傳統PCA陡坡圖中的特徵值,如左上圖所示。

第二個降維的方法是多元尺度化。圖五左與圖四上半類似,要找下降變平的轉折點,大致上大家都會選2維或3維較好呈現。圖五右則是所謂的「適合度(goodness-of-fit)分析」,是一個迴歸,如果配適出的迴歸線接近45度,代表適合度還不錯。

圖五:陡坡圖(左;scree plot)與Shepard圖(右)

當左圖坡度逐漸轉向平坦時,代表繼續增加維度對增加資料特性的貢獻逐漸不明顯。當真正準確的降維發生時,Shepard圖(看粗黑實線)會是一45度直線,然而降維的過程中必定會損失一些資訊,故粗黑實線越接近45度的直線表示適合度越高。

降成3維後的結果如下圖六(僅取前2維為座標),這裡呈現的就是將十分法用數字標出來,當中有兩組只有一個國家,比如0是中國。這張圖看起來似乎有一些結構存在:右邊有一些5、2,左邊有一些1、3,上面有一些4、6,諸如此類。

圖六:以mMDS將136個法域由279各0/1變數降至3維的結果。作為舉例,圖六僅取136個法域前2維為座標,並標記出另外以階層式分群演算法分出10群時的各法域群別。

張永健

我再補充一下,PCA、MDS、t-SNE和UMAP這幾種方法,都是沒有預設任何法系知識的,用量化的方式就是想避免人受到權威或是已存在文獻影響,而機器不會受到干擾。因此,單純以PCA或是MDS降維畫出的圖是沒有任何的標記的,可以用圈或者叉(或任何符號)來代表法域。只有做MDS降維的人看到圖六會覺得左邊好像有一坨跟其他法域相距較遠,如果想二分的話可能會是圈左邊一坨,然後其他右邊一坨。我們在圖上面加了一些標記,目的可以說是要比較MDS降維跟以樹狀圖hierarchical clustering分群這兩種演算法(我們為了舉例,根據樹狀圖可能會分成三分類、二分類,或是十分類)。看到以著色或是圖示的方式標記法域(例如圖二PCA降維畫的是實心的黑圈或者是空心的圈),如果看起來鄰近法域的圖示差不多都相同,不同圖示看起來都有分開,或者像是漢葳說的,以十分法標記的法域在MDS上(圖六)也都沒有龍蛇雜處雞兔同籠的情形,就代表MDS跟hierarchical clustering這兩種完全不一樣的機器學習方法,得出了近似的結論。但是如果龍蛇雜處的結果的話,代表某一種方法太弱或者是數據可能真的呈現了一個非常複雜的世界,所以不同的機器學習方法得出了相異的結論。有點像是英美法系學者跟德國法系學者在辯論某一個憲法問題的時候得出很多不太一樣的結論,所以只要記得MDS、t-SNE、UMAP跟PCA,提供的都是X軸跟Y軸的座標,但都沒有提供座標點上的圖例標示,這些標示都是來自其他的方法,因而每一張圖都是比較對照兩種方法之後得出的結論。

圖七:將136各法域以降至2維之t-SNE呈現。參數皆以預設值設定。根據另外以階層式分群演算法分出10群時各法域的群別作為標記。

何漢葳

接下來這個圖七t-SNE它背後的理論非常困難,就不多說了。這邊雖然幾乎把所有法域的縮寫都標出來了,但t-SNE的理論與操作過程中不會有任何已知的法系或是法域資訊(操作降維指令時不輸入法域名稱),就如同張老師剛剛所說,原本的圖是很單調的,只有單一圖示也沒有法域名稱。這些法域或是圖例是另外做了階層式分群之後,得到可以分成多少「群」,以及哪些法域會是一「群」(group membership),再在圖上把不同的群用不同的圖例標記,並且把法域名稱標上去才會得到圖七。由圖七可看出,整體的圖看起來很像是由一點一點的結塊構成,而且透過標出不同圖例,可以看出從階層式分群得到的結果跟此2維的t-SNE有相當程度的一致(相鄰的法域幾乎也是相同的圖例)。t-SNE主要的功能在於,它確實可以保證在高維上相近的點,在低維也是相近的,但是它的詮釋比較限於局部,局部就是你會看到在2維的這種投影上,它稍微沒有辦法有個都連在一起的樣子,而會是一個這邊一點那邊一點的樣子,所以t-SNE除了我剛剛說它的座標軸位置跟距離是沒有什麼意義之外,它大抵只能討論局部性,就是高維相近的點確定在這張圖上也會以相近的方式呈現。

接下來約2018年時有人發明了UMAP這個技術,圖八在此畫了它的兩個參數,把不同的參數的組合併成一個這樣像矩陣的圖秀給大家看。大家可以稍微察覺比較左邊的圖,會覺得它好像有一點結塊,特別是左上角的那一張,就有一點結塊的樣子,但是好像隨著越來越往右,會開始覺得點跟點之間,或者應該說群跟群的距離沒有那麼大,有一個比較整體(global)結構的感覺。UMAP相較於t-SNE的優點在於,它同時可以觀察到局部和整體的型態。而且t-SNE在實作上,就算隨機種子(random seed)設的都一樣,每次執行t-SNE的結果都不盡相同。不過,雖然不盡相同,但是會相鄰的,就真的還是會在附近,只是點(即法域)不會固定出現在圖上的某個地方(座標不一定),但是UMAP的座標是可以複製再現的。

圖八:不同參數(行:鄰居數,及列:最短距離)設定組合下,降至2維的不同UMAP結果。其餘參數皆以預設值設定。根據另外以階層式分群演算法分出10群時各法域的組別作為標記。
圖九:放大圖八中由左數來第二欄中間的圖,即設定最短距離為0.5,鄰居數為6,其他參數為預設值的UMAP。

在演算法的世界裡面其實參數怎麼設定對結果的影響很大,除了有機會可以多試幾個參數的組合之外,我們也必須要承認,儘管UMAP有一些整體觀察的呈現,但是它看起來沒有一個很一致的型態,所以到底什麼才是真正或者是比較可信賴的全貌其實也是不確定的,但是基本上UMAP在學理跟實作是可以呈現比較全局的看法。所謂全貌指的是,除了保留點跟點之間,如果在高維空間相近,在低維空間也會相近,這是局部特性的保留。如果是全貌的話,指的就是群跟群之間的距離有更進一步被保留,所以在這張圖(圖九)上大家看到上面這個群跟其他法域離很遠,表示那它在高維空間跟其他法域應該也離得很遠。其他的法域雖然堆了一大塊,但是看起來有相同圖示的也都聚在一起。

張永健

更仔細看一下這個圖九,這個圖最上面EGY是埃及,那一坨全部都是中東國家,之前受鄂圖曼圖土耳其帝國統治,在十九世紀帝國末期時,引進了法國法;右上角是葡萄牙跟葡萄牙之前的殖民地;畫面左下角我們可以看到紐約州、英格蘭、蘇格蘭、以色列、巴基斯坦,在他們右邊一點點的那個三角形是中國;下面那個SWE Sweden是瑞典;右下角那個RUS 當然是Russia。剛剛提到北歐跟俄羅斯等前蘇聯共和國,還有英美普通法在三分法下的階層式分群底下是同一群,這邊我們可以看到UMAP都把他們堆在最左下角。然後在中國的右上方,我們看到FRA法國,法國跟它的之前的殖民地,再右邊一點就有像西班牙智利這些西班牙語系國家,然後台灣在下面中間的地方,那我們的右上角就有日本南韓還有柬埔寨等等,因為我們有136個法域放在這個分析裡面,一般的UMAP使用者沒有辦法分這些一到十不同的標記。

如果你今天沒有這些顏色跟圖示只知道國家的名稱,可能會把最上面這個埃及這些中東國家自行分成一類,那也就是漢葳跟大家說這個距離是有意義的,就是從法國出發到這個埃及很遠,但是從法國出發到他右邊這個智利等拉丁美洲國家比較近,那就表示從UMAP的觀點來看,法國跟拉美國家的民法比較近,離中東國家的民法比較遠,那同樣的從右上角這個葡萄牙這一群,跟它最近的也是一些用方塊標記的法域,有點被遮住的是巴西,之前也是葡萄牙的殖民地,就是在另外得到的階層式分群認為葡萄牙跟巴西是一類的,但是UMAP演算法覺得像葡萄牙這些國家其實是離其他拉美國家比較近的。我們看到在圖上UMAP認為巴西距離西班牙跟智利這些講西班牙語的國家在南美洲國家比較近,離這個前殖民國宗祖國葡萄牙比較遠。UMAP可以有一個整體的結構(structure)或者保留這個距離的意思,你可以真的在圖上大概去看一下,距離比較遠的群就是比較不像的,距離比較近的群就是像的,所以一個沒有標記輔助的人,他大概會把右上的葡萄牙分成一群,當然麻煩的就是說中間下面這一坨,其實就有點主觀了,這也就是這種降維的方法,你姑且說帶有主觀,或者是讓研究者覺得很煩惱是說,那我下面這一坨到底是要就當成一群還是要分成很多群,演算法沒辦法而只能告訴你它得出的結論是這樣,那如果你想要有一個很明確的分群,那你就必須要用分群(clustering)這一類的方法。

圖九的UMAP是圖八十二個小圖中的其中一個而已,這些參數的調整是有無限的可能性,可以製造成千上萬個組合出來,但是它基本上都會使得譬如說埃及跟其他的那些中東國家大概都會接近,只是他們接近的方式可能是鬆鬆地接近或者是緊緊地接近,就會使得各位如果看上一張投影片(圖八)就會發現,就是同樣的國家同樣是接近,但是他的接近方式有讓你覺得很容易被分成好幾類的、也有讓你覺得通通都散佈在二維空間上面這種不好分類的。這個就是降維對你了解你的數據可能可以幫助之處,但是大概都只有第一步沒有辦法從這邊就說這個paper寫完了。

何漢葳

謝謝張老師,那我們維度縮減到此就結束了,所謂的dimension reduction也有人會寫成dimensionality reduction,所以這兩個詞基本上可以通。

接下來介紹分群(clustering)方法,clustering的方法是直接將法域分群,而不是用視覺化的方式呈現法域間的距離。此處我們介紹兩種分群方法,其中一個之前已經看過的樹狀圖(圖三)是一種,現在看到的圖十是另一種稱為k-modes(k眾數)分群法。在此先說明的是,圖十是用剛剛的主成分分析的前兩個主成分(分數)作為法域的座標來呈現分群(以不同標記顯示)的結果。

圖十:設定不同k值時k-modes演算法分出的組別,各法域之座標為以LPCA降至7維之第一與第二主成分分數,並以不同圖示標記出k-modes分群演算法分出2至4群時的各法域的群別。

降維跟分群兩者都能,也都需要視覺化,但降維因為沒有組別標籤,大概也只能用視覺化呈現,而分群是只有組別,欠缺視覺化必要的座標,而降維的結果可以說是一對合理座標,所以我們才會用logistic PCA得到的前2個主成分分數作為座標,也可以用t-SNE或UMAP得出的座標來點。

降維跟分群比較重要的差異是,就像我們前面有一張scikit-learn的圖,它說維度縮減就是只是看看just looking,傳統上相對於降維後視覺化比較是偏探索性資料分析,分群就是要找到真正有意義的群。k-modes(k眾數)分群法最初始的概念是來自於k-means(k平均數)這個分群演算法(k-means適用於觀察到的變數都是連續型的情形,故在此不適用)。現在有136個法域,假設研究者今天可以先決定要分成3群,那麼就隨機先從這136個法域中,挑出3個法域作為(某種意義上的)中心,然後計算每一個法域到這些中心的距離(即Gower’s dissimilarity),法域離哪一個中心最近就是屬於那個群。在136各法域歸類到各自屬於的群後,重新計算該群的中心並更新之(更新後的中心未必剛好是某一個法域)。接著再次計算136各法域與更新後3各群的中心的距離,此時可能會發生離某法域最近的中心並非該法域目前所屬的群,此時就將該法域移轉至最近中心的群,並再次計算該群的中心並更新之。反覆執行前面兩步驟直到法域不再移動以及3群中心不需要再更新為止。也就是說距離相近的法域會是一群,這個概念是沒有問題的,也因此這種演算法首先要決定分成幾群。但是就算我們已經決定了要分成幾群,比方說3群,我們仍不知道3群的中心在哪(畢竟高達279維)。如果我們能知道3群的中心,就把各法域到3中心的距離計算後就能決定每個法域是哪一群了,因此必須透過遞迴地更新群的中心及各法域所屬的群,反覆運算後才會得到最後結果。其次,最好在執行前就設定想要讓演算法做多少步,如果步數太少可能不一定能達到最佳解(提早達到最佳解演算法會自動停止),如果不設定大概預設就是一萬或者一千,以我們的資料量來說超過一定步數的結果應不至於變動太大,但是基本上這些都是可以調的,所以可能都會有些微的差異。

我們這邊介紹的k-modes分群結果都是hard clustering(硬聚類,相對於軟聚類或模糊聚類,soft clustering)。hard clustering的意思是一個國家只會被分到某一群,不會有模糊的想法,不會說一個法域可以是第一群,又可以是第二群,一個法域就只會被分到一個群,而且這些群基本上是互斥的,不會有重疊的情形。我們就沒有在這個圖十上標出國家,但就像剛剛張老師說,其實我們是要讓大家比較降維與分群相互參照的結果。再次強調,這邊的k指的是分群數(number of clusters),就是先設定要分成兩群,跟純就畫出降維後的2維座標看起來可以分成兩群基本概念是不一樣的,因此我們才會在每一張圖試圖比對二維視覺化與分群的結果。圖十是單純用前兩個主成分分數的座標為底,然後畫出k-modes得到的兩群,它的標記也沒有什麼特別的意義,但是可以看出來說,好像看起來主成分降維視覺化跟k-modes得到的兩群還算蠻一致的。

接下來的圖十一如同我之前所言,其實當你看到這種突然往下然後慢慢下坡的圖,要想辦法找,當然每一個人看的可能都不一樣,就是你看起來它往下,然後準備要變平的一個點。這張圖說實話不是非常的好看,但大概要抓的話,可能會取分成12個群,你可以先去試著把這張圖做出來,再去設定你要幾個群,但是你也可以說沒有想要分太多群,想要分2群3群4群也可以,總之必須在下指令前就決定。

圖十一:挑選最合適的分群數(number of clusters)。計算設定不同分群數時,群內距離的總和。群數越多,群內距離自然越小,群間距離自然越大(表示群內同質性高,群間同質性低),但群分的過多或過少都缺乏資訊,故必須在分群數與相對之群內/群間距離做一權衡。

接下來就是張老師剛剛講很多的階層式分群(如圖二)。那這邊我稍微講一下一些抽象的事情好了,所謂的階層式分群有兩種,一種是由下往上(聚合式,agglomerative),一種是由上往下(分割式,divisive)。所謂的由下往上的意思就是,一開始每一個法域自成一群,然後每一次都是一個法域跟另外一個法域合併,所以我第二層就是兩個法域,依此類推。比方說台灣就去計算,誰跟我們最接近就先合併成一個新的群。這邊要講的是,階層式演算法每一步只會減少一個群,慢慢合併之後大家可以看這個圖,越往上群越少,最後就會只有一群。要決定分多少群的話就是在y軸平行畫一條線,看我們要畫高畫低,畫得高就是分的群比較少,畫得低就會分比較多群。技術上的細節在於,如果我今天是一個法域跟另一個「兩個法域」形成的群要合併,那就要去討論一個法域跟一群法域,或者兩個法域群要怎麼定義他們的距離,這個時候採用不同的距離量度結果就會有所不同。常用的距離有兩種,一種叫做平均連接(average linkage),一種叫做完全連接(complete linkage),完全連接就是取兩群法域中的最長距離,其實還有一種就是最近連接(single linkage),最近連接是取兩群法域中的最短距離,而平均連接就是兩群法域中各自任取一法域,計算所有任意兩法域距離的平均,所以用不同的linkage(連接,其實是量距離的方式)也會得到不同的的樹狀圖。由於平均連接與完全連接比較常用,所以我們在圖二就呈現這兩種演算法得到的分群,經張老師驗證其兩者分群結果是差不多的,但是用最近連接的結果就會差很多,所以在演算法中真的有非常多可以微調的地方,以上差不多就是我的報告內容。

我自己的結論,第一就是因為這個分群有的就像張老師他legal family的文章,先做了這個階層式分群然後再根據分群的結果進行分類(classification)。不過,與其說分類,應該說目的在於做一些能夠解釋為什麼某些法域會分在一群的這樣的分析,所以有的書上是寫說分群是一種ground truth的finding這個我不確定有人這麼說,比較重要的應該在於大家有興趣的,還是說ok不管你是做什麼,我還是很想知道為什麼那些法域會被分在同一群,所以當然怎麼去描述跟分析群怎麼分的,當然還是很重要,這件事情還在努力,就像我剛剛說我們LPCA其實還找不到為什麼會組成那樣的主成分。我最後想說的是,因為演算法大家都會覺得是黑盒子,computer science的部分我沒有什麼想法也不予置評,但是今天報告的這些方法如果要說,是比較有學理根據的,雖然還是有非常多的不確定性跟一些比方說微調參數的空間,但是我覺得因為這些演算法還是有一些確定性,所以還是在某種程度希望可以帶給大家一些有用的知識,以上是我的報告謝謝。

Image by PublicDomainPictures from Pixabay

問題與討論(敬稱省略)

李建良:

謝謝漢葳跟永健精彩的演講,先假設大家聽得懂,真的有很技術性的東西可能不是很了解,不過這整個對於法系的挑戰的切入點,其實值得我們去反思,請大家看看有沒有什麼問題要提出來。

蘇柏榮:

謝謝漢葳跟永健老師的報告,我有一個問題。我對降維很有興趣,這感覺跟哲學思考很像,現象界實在太複雜,所以我們把它降維降成理性跟感性或者是人權民主或者什麼之間的關係。那剛剛張老師有提到從279降成2維,那這樣的降維是怎麼決定的呢?是電腦他自己跑還是人為去輸入的?如果是人為輸入跟那個沒有標籤的想法,一開始我們就不干涉他,沒有一個權力在裡面,跟權力在裡面是會有差異的,如果是電腦跑他怎麼從無生有呢?從一個複雜的世界出生了2個維度呢?

第二個問題是,剛剛降維的理由是降下來會比較容易看到他內在結構,如果在高維底下他很複雜就噪音沒有意義,那我的問題是如果降到一維的話,看到就是那個東西了,我就完全看到真了,就是那個一維就是那個最直接的結構了嗎?所以為什麼不降到一維呢,謝謝。

張永健:

降維當然就是電腦做,大家不用把我們想得很可憐,是拿紙筆在做非常多的運算,當然一百廿年前發明PCA的時候他們可能真的是這樣,降維是透過一個複雜(你大概不想了解數學細節)的方式。它的基本邏輯,可以用兩種方法來呈現,一個幾乎不太可能有可能性是譬如說,假設我們第1個到第278個變數,所有國家的答案都一樣,以契約法為例,可能因為歐盟某些指令的影響,使得大家都已經用一樣的答案,那coding完之後就發現大家數據都一樣,所以說雖然看起來有279維,但是其中有278維大家答案都一樣,這種時候的降維就是把278個相同的東西裡面,丟掉277個,因為他們根本沒有提供額外的資訊,你有第一維之後你就已經完全知道另外277個變數是什麼,那你還剩下第279維答案不一樣,那就把這兩維畫出來,那現實世界不是這麼的簡單。

那PCA的降維想法就是,試圖找出某一種組合變數,假設我們國中數學教到的Y可以表述成2x+3z+5p-4r,後面等式右邊那邊都是我們的維度(即不同變數),如果我們可以找到一個Y,它等於重新組合了好多維度的話,那我們就可以想像說,這個新的Y已經掌握了原本許多變數的資訊。Y也可以不止一個,可以有多各如Y1, Y2, …,相當於PCA取一維兩維三維這樣,就是我們可以由第一個PC、第二個PC、第三個PC,去分別掌握用某一種線性重組的方法來重新描述與命名維度。到了t-SNE跟UMAP就更複雜,你沒有辦法用這樣來思考,但基本上都是把真正能反應資料特性的關鍵差異抓出來,然後想辦法降到你設定能夠看懂的維度。之前我記得我在某一次報告的時候我有給各位看過一個三維的圖,就必須要連到網站上,然後還可以用不同角度看他,三維大概是一般人最多能夠理解的維度了。

那第二個問題就是降到一維當然也可以,一維就像是一條線,每個國家在線的哪裡也可以看出來,但是維度降得越多,當然就損失越多資訊,所以在期刊容許我們發二維圖不容許我們發三維圖的這個情況之下,我們通常不會再殺然後降到一維,因為會損失太多資訊,那當然有特定的情況之下,你當然可以用一維來呈現是沒有問題,所以就是降到幾維都可以,降到二維純粹只是一個受人的腦跟眼睛、跟期刊出版侷限下,通常大家會採取的一個作法。

何漢葳:

第一個問題關鍵在於電腦能不能自己決定維度?如果我們什麼維度都能跑跟電腦自己決定這件事情你覺得差在哪裡?最原始(但不適用於0/1資料)的主成分分析是不需要先指定維度的,因為各維度的垂直投影能順利分解總變異,一個指令就能把所有維度下的線性組合對變異程度的貢獻程度算出,研究者再利用陡坡圖找出可以接受的主成分個數即維度即可。以LPCA降維0/1資料時,我們必須告訴先電腦要降到幾維,然後電腦再找到最好(使資料變異程度最大)的線性組合。這邊略過了很多技術細節,我們只是呈現最後的結果。實際操作時當然一定是寫各迴圈讓電腦把所有維度個別的結果都算出來,我們再去選。那最傳統的主成分分析它是一鍵跑完所有主成分後讓你選,這個跟你剛剛說由人決定又有一點不一樣,因為這是事前跟事後的不一樣,所以這是可能我們可以再討論的。

那第二個問題,如果投到一維也能分得很好,我們當然非常樂意分到一維,因為一條數線可以看得更清楚,但是除了降維會損失訊息之外,最主要還是非常的容易重疊,就是你沒有辦法區分,特別是如果一條數線要畫136個點,其實不容易。但MDS線性的時候,古典的版本在某些條件下,很容易可以投影在一維,就是可以真的把法域間的距離很精準的用一維數線描繪出來,也沒有太大損失。像t-SNE我們沒有特別去解釋他這個名字的由來,它的t是來自一個統計上的t分配,它高維(279)的時候它用的是常態分配,但是它投到低維(2)他就用t,這個原因是什麼?t分配跟常態分配都是一個鐘型的分配,鐘型分配就是中高旁低兩邊對稱的分配,那主要差在t分配會比較寬就是它比較胖,它的尾巴比較厚,之所以要用t這件事情,就是為了要就是避免有一些點投下來之後會疊在一起,所以它必須用一個可以包含更多空間的一個分配去投影。

黃種甲:

我想要問一個比較後設的問題就是說,分析這些變數雖然是利用un supervised的這個machine learning的方式,可是變數本身的採擇是不是會有可能使主觀流入,譬如說我想一下如果有一個跟老師同年的朱伯松老師,他可能編碼了二三十個水權的變數,那會不會變成說這兩個法域的很像,其實只是水權很像,但是水權在日常生活中大家也不是說太care,至少在大學物權法的課堂上,那所謂的這個很像是不是還是受制於編碼者本身對於這個核心知識的認識跟偏好所進一步,畢竟他的權重是編碼者賦予,會不會有這樣的問題,以及如果有的話可以在研究上怎麼樣避免。

張永健:

謝謝,那我在做這個編碼的過程中,當然希望網要撒得很大,但是網撒得越大就累死更多助理,要搜尋兩三個國家對於所有問題的答案很容易,但是當你做實證研究的時候,不會希望加了某個變數,我已經知道155個法域的答案,但是如果第156個法域找不到資訊的時候,那這個變數就前功盡棄了,因為它是缺失值。

最後一個問題,擴張變數的範圍是有限的,這是現實世界的侷限,理想上他擴得越大越好,而且在擴大的過程中最好是你能夠戴很多不同的帽子,就是我自己是覺得像我當然是台灣受教育也在美國受教育,對於德國物權法耳濡目染也知道一些,然後也看了很多其他國家的書,看了非常多國家的物權法之後,在做這個過錄編碼簿,比較能夠平衡不同國家他們對於物權法規定的偏重,但是仍然在編碼過程中看到一些之前沒有看過的國家的時候發現說,他們有這個規定但我卻沒有納入,所以必須要不斷地的修正,滾動式的去改這個,我在報告的過程中也碰到譬如說德國的學者說你們幹嘛研究這個,這個在德國一點都不重要,然後有美國學者說你幹嘛研究這個在美國不重要,但是他們覺得不重要的變數是不同的變數,譬如說每個人都帶有自己的研究偏見或者是前見吧,你可以說為什麼不編碼更多跟徵收有關的問題,就是所謂公法層面的物權法,為什麼沒有更多行政管制之類的像你剛剛說的水權或者是分區使用管制,那這個當然有很多侷限,只是現實條件就是民法典上通常不規定這些,民法典是最容易取得的法律素材,所以能解決的方式也只有說,這個我們還在努力當中,但是有一些演算法是可以去算,如果你們看過我JLA那個文章的話,他是可以譬如說我現在有156個法域或者是136個法域好了,我可以隨機抽放一百萬次,就是每一次都從這136個國家中,隨機挑136個觀察值出來,抽後放回,所以如果運氣好的話,我可能把台灣抽了136次,就是那個抽出的樣本裡面就只有台灣,但是通常的情況可能是2個台灣啊3個日本,然後有某些國家因此沒有位置,然後你再去跑這個clustering的分類,然後去跟你所報告的結果去相對比,算一個平均出來說,不管我的資料庫裡面有哪一些法域納進來他的分類結果都一樣,那你就說這個分類是穩定的,不是說我故意不研究沙烏地阿拉伯所以我的結果是如此,那我們也可以對變數做一樣的事情,就是這279個變數,你可以隨機去抽後放回,是不是如果只研究總則的面向,台灣跟德國就會緊緊的貼近彼此,但是我還研究了很多分則所以台灣跟譬如說南韓比較接近?但是這個都仍然只能在資料集裡面已經有數據你才能夠處理,那沒有在資料集裡面的數據永遠都沒有辦法被這種方法所考量,但是至少你可以知道就藉由剛剛那樣隨機抽放一百萬次算平均的方法,你可以多多少少增加一些或者減少一些你對於報告結果的信心。

何漢葳:

剛剛老師講的這個抽放一百萬次,術語叫做Bootstrap(ping)有人翻作自助重抽法或拔靴(重抽法),它的理論架構就是我們透過分群演算法得到的「群」作為預設,透過隨機抽後放回一百萬次,所以可能一個國家會出現不止一次,拔靴法計算每次抽後放回的樣本所得之分群跟預設的分群的相似程度(計算Jaccard’s similarity),Jaccard’s similarity除了我剛剛講的那個不含兩者皆零的相似性含義之外,數學上還可以詮釋為分子是交集分母是連集的含意,所以看你抽樣之後做的分群,跟你預設的分群它們的交集跟連集,這樣子的一個比值。當你重複了夠多次,大概也就每個國家都會抽過一遍,那就沒有什麼問題。拔靴法有一些理論可以告訴你說,如果你這個值算出來是比方說大於0.8,那這個分群的結果就可以說是蠻穩定的。

我這邊要提一個我有跟張老師討論到的一個問題就是,binary的資料常常需要你可能先回答說是跟否,然後如果答案是是你會接著連續再編碼下去,所以導致電腦上就會一直判別說他們有相關性。我請張老師在確認說是不是有一些資料有相關,在張老師編碼的279個屬性中,事實上有一個屬性是全部都是1的,在分析的時候我們其實就會先排除掉,不然很多矩陣運算他會算不出來。除此之外,那有一些變數的編碼方式是階層式的,一開始先問yes no然後接下來如果yes,他可能又有很多問題所以導致這些變數集合在一起,電腦會判斷說有這麼多coalition,就是數字上他形成了coalition,我跑去問張老師,然後張老師就說這個確實是他要的,而且這個的問題反映在我們的測量上就是說,它加強了這個二元資料的相似性或者是不相似性,那另外一方面可能就是會變成,如果你是直接輸入0/1的資料矩陣下去執行演算法,可能就會被這個編碼所影響,我覺得這是PCA做得還不是很成功的原因。

周廷翰:

各位好,我是廷翰,我有一個問題是這個資料庫裡面,聽起來好像是以所謂的狹義的民法典上面的物權做這個東西,會不會特別在有一些實定法的國家譬如說有些當然這是立法政策的問題,採取所謂的物權法定主義的國家,當然物權法定主義的理解,有比較僵硬的理解也有比較柔軟的理解。那我的問題是,如果是在採取所謂的狹義民法典然後物權法定主義的國家裡面,他可能會有一些特別民法或者是實質民法上會有一些物權,也可能會透過所謂的習慣法或者是判例法去創造一些物權,這個類型可能不會很多,那這個有在學長的射程範圍之內嗎?

張永健:

這個問題在射程範圍內常常被討論到,第一個層次物權法定原則在我的編碼裡面基本上絕大部分的國家都是法域或強或弱的採用,那所以如果說絕大部分的國家是採取物權自由原則,或者是物權自由主義的話,其實就沒有用,就像是沒有聽到有任何人想要做比較契約法,因為就算完成編碼,實際上的契約就不相同。但因為物權法定的關係,去看法律上面的法規範是什麼才比較有意義,特別民法上的物權,我只有在很少數的物權類型像是浮動擔保、動產抵押,才特別想辦法去了解,但是真的非常困難。有一些國家譬如說北韓就會找不到資料,北韓民法典有翻譯,但是找不到北韓RAKP,所以我也不知道他們有沒有特別民法上採用什麼樣的物權類型。

那習慣法跟判例法,有中文跟英文的比較法,物權法的問題我大概都看了,他們有編碼大概會呈現在我的數據庫的某些面向中,但是困難點就在於,在我最大的物權法的資料中也不一定會出現,應該說不會出現在這個研究,或我接下來要出的書的資料庫裡面,因為就是剛剛說的,做數據分析資料必須要完整,如果只能看到一半國家的習慣法跟判例法,但是另外一半看不到,那我不能說因為我看不到就說你沒有,所以只能記錄下來說,我所看到的這些國家有,但這是傳統比較法會做的事情,看到什麼就講什麼,但是數據分析的時候不能夠把沒看到跟看到發現沒有,把它當成同一回事。

即使是如此,這種量化方法還是有侷限,因為我看了民法典然後說他沒有這個典權,但說不定特別民法裡面有典權,所以我這邊編碼上的零可能是我沒看到但是其實有,但是有可能是他真的沒有我也沒看到,接續剛剛漢葳說的話大概就是說,目前有的演算法還沒有辦法完全滿足,這種量化比較法的全部的目的就是,第一個就是有沒有一種演算法可以讓我去設定說這邊的零是我已經確定沒有了,或者這邊的零是我沒看到,區別這兩者,另外一個演算法是能夠讓我把這個階層結構表達出來,就像我會先問這個國家有沒有地上權,然後有我才會問有沒有區分地上權,你可以想像在沒有地上權的國家,第二個問題當然也是沒有,那第一個有地上權的國家,第二個可能是有或沒有,所以可以說在沒有區分地上權跟一般地上權的國家,他的兩個零當然是彼此高度相關,應該說完全相關的,那他這兩個相關你不應該給他跟其他完全不相干問題的相關性一樣的權重,因為這是必然的結果。但是現在沒有辦法做到,這是一個階層結構,所以如果後面都是零的話,就跟第一個零要做一樣的,或者是要做權重的處理,那目前對於這個演算法來說,我給他的所有零,好像都是一樣的不相關,但是其實它裡面有一個結構。但我不會說這是量化研究的侷限,通常我會說這也是人腦的侷限,因為人腦根本看不出來這些權重在哪裡,所以你問的問題都非常好,我覺得就是希望我們有生之年可以有更多的資料,然後更廣的這種編碼的來源,然後又有好的新的演算法可以把這些細緻的東西納進去,謝謝。

李建良:

那我也想請教兩位,現在有這麼好的工具那可以去進行編碼然後找到一些我們沒有辦法發現的一些東西,那可是回到最原處,包括我剛剛一開始聽漢葳在解釋那些技術性的問題,這些工具是要從去解決什麼樣的法律問題或者是分析怎麼樣的法律規範,但是一直等到永健進來就是切入之後這些問題的法律輪廓相對比較清楚。這是我現在聽下來的了解,大概會有兩個切入點,一個是有關於法系的區分,去挑戰這個過去傳統的特別剛剛提到說,Zweigert & Kötz 他們之前的區分,對這種區分去進行挑戰,指出說他們的區分其實是不對,那第二個是說想要透過這樣一個編碼呢,找尋各國的這個物權法的異同,但因為傳統的法系的區分,其實並不完全跟事實上吻合,所以才會有下一步去提出一個新的法系分類大概是這樣兩個基礎。

那要推翻那個Zweigert & Kötz分類,其實嚴格來講並不是那麼困難,因為他們寫當時的時候其實他只能夠往前去追他們的data所以他們的資料一定是舊的,可是當他寫完她這個分的法系分類之後,全球法律還是繼續演進,特別舉到說把台灣歸類或者是把中國歸類某一個所謂的東亞法系,看的規定當然不是我們現在的規定,他可能是清朝的規定或者是戰前的規定也不一定,可是戰後尤其是台灣受到很多國家的影響,整個這個法律的面貌其實已經跟過去不一樣,所以他們的法系分類,其實要把他推翻沒有這麼困難。但是我現在只是提到說比如說以物權跟民法來講,那公法更不用說,我基本上會認為困難度不高。

那第二個就是,我們透過這樣的演算法和編碼,我們可以找出一個新的法系的圖像,那這個部分的圖像能夠提供至少譬如說以物權法來說,怎麼從當中去做進一步的等於是有一些新的研究啟發,請教兩位。

張永健:

所長提到這個Zweigert & Kötz分類不難推翻,因為他們看得是舊的規定,一個更強烈對他們的批評是,我們根本不知道他們看了什麼規範,因為他們並沒有告訴我們他看的中國或台灣法是什麼,是清朝的明朝的還是什麼時候,像我即將交稿的那本書,就是用我十年的編碼的比較物權法的書,附錄就非常長,告訴所有研究者我看過哪一些法律,為每一個編碼我都留下了引註,譬如說哪一個國家有物權法定原則、哪一種物權法定原則是根據他的哪一個法律的哪一條,但是Zweigert & Kötz沒有做到。傳統的比較法理論通常都是非常抽象的,他也沒有告訴你參考什麼樣的法律或是甚麼時代的法律,如果可以做到這麼廣泛,那要做到非常大量的編碼,世界上大概就是憲法、競爭法、物權法有完整的編碼和精確的引註,讓我們知道他參考的是甚麼,他需要大量的人力才可以做到。Zweigert & Kötz我會一直拿出來說是因為大家比較熟悉,一些英美法世界比較法學者大家不一定這麼熟悉。

那我們能夠做的事情,是剛剛所長提到的新法系的分類,或者是藉由展示這些不同的演算法,基於一個大家已知的編碼,可以用不同的量化方法得出不同的法系區分。有些國家大概基本上不管用什麼演算法來分大概都會認為是接近的,但是有些國家會是一些邊界案例,所長說我們這樣的法系分類可以提供什麼研究啟發,或者是通常法律人會說,你這個規範意涵何在?首先就是如同Zweigert & Kötz我們的研究第一步當然是描述性,就是描述什麼國家跟什麼國家的物權法比較像,漢葳一開始講到Gower’s或者Jaccard’s這種所謂的近似或者不近似的數值,其實就是如此。舉例來說,要看說人與人之間誰比較接近可以用身高、體重、位置等等單純的描述,描述本身可能會帶有一些意涵,譬如說我跟漢葳現在距離是一公尺,那你會說有沒有違反社交距離,社交距離是如果你沒有保持在譬如說多少公尺以上的間隔,那你就違反了某些規範,但是我們做的問題第一個就是說,我們要先把距離量度出來,你如果沒有把距離量度出來,你根本不知道我們是不是違反了社交距離。就法系研究來說,在今年所長跟所上支持我的組群計畫中,我要著手寫出前幾年跟各位報告過,關於比較法方法論的反省。在我所看到的東亞地區的文獻,包括中國包括日本,法系對於很多甚至不是比較法學,就是法學者來說是一個很難跨越的坎,那個坎就是說,因為我們是大陸法系,甚至我們是德國式大陸法系,所以只要我看法國西班牙,更不要說看英國美國的時候,好像必須有額外的說理義務,解釋為什麼我要看這些國家,也就是說基於某一些不知道是看清朝還是戰前文獻所提出來的法系分類所導出的這種坎,是我想要進一步去反省的一套說理。如果法律內容的相似性是參照比較的規範性前提的話,那從物權法而言,我們跟南韓民法典的物權篇是最像的,應該要研究南韓民法典,但是國內完全沒有人研究。如果這樣的規範性還可以繼續延伸的話,那有非常多跟我們相似的國家我們一無所知,至少我們看某一些規範的時候,我們跟英美其實不一定有想像的這麼遠。但是我去跟德國學者跟美國學者去講說,比較法或者法系的研究成果會被學界用來質疑,屬於大陸法系的台灣,為什麼要討論美國法而不討論德國法,他們其實非常驚訝。其實Zweigert & Kötz書裡面說,指出所謂母法媽媽這個詞,母法的目的並不為了讓子法去學母法,比較理論的目的是一種降維的概念,因為國家太多了沒有辦法全部比較,所以先用某一種方法說這個是子法這個是母法,就只要比較三四個母法就可以把本來有兩百個國家降成四個國家,透過這四個國家好像就得出了全世界法律的異同。我不知道思想史上要怎麼去追溯這個問題,在德國從什麼時候開始沒有做以子法為母法馬首是瞻,或者是不去看母法以外其他法系規範這樣的思想,在日本在中國在台灣都還不算罕見,至少我個人被審查的生涯裡面,我常常碰到這樣的審查意見。這個法系分類提供什麼樣的研究啟發,我想第一個是或許有一些物權法上的兄弟之邦其實我們之前沒有發現過,或許可以去看,那第二個是照我最新的研究成果,跟台灣很接近的是南韓跟日本,但是德國跟我們還是有一段距離,所以說其實參考德國法的正當性不如參考日本法。日本法非常重要,那柬埔寨法也比德國法更接近我們,因為柬埔寨民法典是受過日本學者還有最新2021寮國民法典,是日本學者去基本上幫忙的,所以說我們要大膽的西進西南進到東南亞這邊看有什麼可以互相啟發的地方,也就是藉由這個研究去提醒說,其實Zweigert & Kötz他們都沒有說明母法子法之間必須要糾纏不清,接下來就是我要進一步去問的問題是,到底比較法所謂何來,這個就是希望完成之後再跟各位分享謝謝。

何漢葳:

我們目前因為已經有資料,所以描述性的工作一定都可以非常容易的完成,但像是今天報告的,所謂非監督式學習它的挑戰在於說,它其實並不像是一般的統計方法,比方我們可以檢定在什麼信心水準下然後得到什麼樣子的結果,目前的研究就是基於演算法收斂速度與最佳化的一些改進,也因為降維或是非監督式學習用得很廣泛很好用,然後大家也很喜歡,所以比較沒有人去研究他像是能不能做檢定或是估計這種比較稍微傳統一點的問題,所以如果想要對於結果更肯定還是有所侷限。另外就是現在這樣的分群都是一個hard clustering,當然目前也有很多方法在講soft clustering,就是算出資料點有多少機率分到A群,有多少機率分到B群等,然後我們就選那個機率最高的,如何在確定跟彈性之間,再來加上一些研究者自己的想法,我覺得這些都是可以有一些有趣的火花,謝謝。

李建良:

我補充兩點,第一個部分是推翻的Zweigert & Kötz的東西並不困難,如果大家去看談到比較法的時候很多書或者是文獻,包括德文英文都會以他們的這個大作先開始談起,大概都會有提到其實他們的一些分類跟實際上並不完全吻合,再來進一步說明其他的比較方法可以再繼續開展,所以說這裡所謂的這個他們兩位學者的分類,可能應該分開來是說,他們提出的這個法系的觀念重不重要,還是說我們要丟掉法系的觀念。

再來才是這個法系要怎麼看怎麼分,要看什麼樣一些資料等等等,所以這個其實有兩種層面,也有學者特別提出說應該去除法系的概念,這是另外一個更radical的一種想法。那從兩位的研究,基本上想要去做這個coding還要去做新的分類,或者找到新的一個兄弟之邦等等,基本上還是覺得法系的觀念很重要,只不過法系的內涵是不是要重組,或者是找到一些新的組合。

二個層面就是說,透過這樣的研究方法可以幫大家找到,比較像的應該是南韓或者是日本而不是德國或者是法國,這個部分在比較方法這個領域的研究的人其實是相當有幫助。提供一個新的方向,你可能以為他跟德國比較像,但其實跟南韓比較像,我相信永健在這個地方想要從描述性進階到規範性一個approach。那我補充一個部分,如果要讓這樣一個approach能夠有更規範性使用,因為一般這個部分我們也不是說物權跟誰比較像,應該說物權的什麼問題跟哪一個國家比較像,在法律解釋適用的方面與其去看德國不如去看南韓,這是奠基在永健這樣的一個approach的方向之下。我覺得這個部分可以再進一步,如果是集中在物權法的話,可以去問一些正在做物權法的研究者現在物權的哪一個問題最棘手,那我們來幫你們看這個問題另外可能的研究方向,以上是剛剛永健所提到問題的一些,再更進一步的去開展,以上是僅供參考。

范耕維:

我有一個簡單的問題,譬如說PCA跟MDS雖然都是降維的方法,但MDS跟PCA好像有點差別,那在方法上,學姊是先選擇說你編碼的這些變項要呈現出來的時候,用PCA比較適合呈現給大家看,還是MDS給大家看比較適合呢?還是說其實已經先用不同方法做過之後,挑出一個最適合的方式給大家,那這個東西在方法上在操作的時候,依照過往的經驗會不會覺得說用哪一種方式在這種做法系的研究上面,會是一個比較適合的方式?譬如說PCA或者MDS或t-SNE這樣子,謝謝。

蔣侃學:

我有兩個問題,第一個問題是UMAP跟t-SNE那個Bootstrapping公認可以達標的次數會不會不一樣,譬如說一個是一千次,一個是兩千次,畢竟是不同的方法,會不會導致大家覺得可信的Bootstrapping次數是不是不一樣的?

第二個問題是想要請問張老師,如果我們有了這樣的分類方式之後,比較進步的是,我們可以把一個以前很難被歸類的一個物權法國家把他歸類到某一個cluster去,說他是某一個系這樣是一個進步,還是我們可以把一個很特別的物權法國家分離出來這樣叫做一個進步?舉一個語言學上的例子,比如說西班牙有一個語言叫巴斯克語,這個語言沒辦法歸類到印歐語系,語言學上認為是一個很特別,他處在被包圍的印歐語系一個區塊裡面,可是他居然不能夠被分類到印歐語系,這是一種學術上的進步,還是有一個語言,他看起來跟其他人非常不一樣,但他居然可以被歸類到某一個語系,這樣是一個進步,謝謝。

何漢葳:

我先回答耕維跟侃學的問題,坦白說電腦這麼進步就全部給它做,但是我可能會希望試試看t-SNE跟UMAP,那PCA的話如果你是binary data要用我今天用的logistic PCA要理解背後理論有一點困難,所以沒有很建議。最主要logistic PCA輸入的全部都是0/1資料,和輸入相似或不相似矩陣不太一樣,所以需要考慮這個地方,但是應該可以克服。

那侃學的問題第一個我先澄清一下,t-SNE跟UMAP在投影降維過程中其實是由最佳化(optimization)得到的,t-SNE跟UMAP並不是以bootstrapping的方法做驗證,所以得到的是最佳解。數值上最佳解也可以透過多做幾次iteration(迭代),或者是精確度要到小數點後多少位數得之,不過基本上不管是用所謂的gradient search(梯度搜尋)或者是stochastic gradient descent(SGD,隨機梯度下降法),t-SNE跟UMAP都是最佳解。那另外侃學請張老師回答的問題因為我有一點小想法,在這邊也順便提出來,因為目前大家非常熱衷supervised、unsupervised、dimension reduction或者visualization演算法的開發,但是我們要怎麼樣去說在高維度時那個點我們認為它離很遠(一個在高維度討論離群值的概念)。UMAP算出的距離雖然是有意義的,但是有沒有一個比較合理的標準,或者以理論的架構檢視某個資料點真的不屬於任何一群,我們不要硬分,這件事情目前我覺得還沒有人做好。

張永健:

侃學的問題,我覺得語言學的例子蠻好的,把語言代換成國家的話,可能會有一樣的答案就是,為什麼從德國跟德國以東到譬如說摩爾多瓦基本上都是受到德國物權法的影響,但是中間有一些國家像是阿爾巴尼亞,突然受到法國法的影響,還有很多類似的例子,譬如說在南美洲很多國家受到智利民法典的影響,但是有些國家是受比較大的國家像是阿根廷影響。本研究這樣的分類方式,不管是把從來沒有被比較法學者研究過的國家,做第一次分類是有意義的,把一些難以分類國家透過研究呈現出來,或者是把一些意料之外的分類挑出來。我覺得這個是可以進一步研究法律繼受的理論,為什麼阿爾巴尼亞會德轉法,或者是有其他的傾向。回到所長剛剛的問題,我覺得法系觀念是人類有分類的天性之下,大概沒有辦法被拋棄。今天沒有時間多講的是,經濟學界發展經濟學家他們也都在用法系的概念在研究,只是他們用的是錯誤的法系的概念,所以我們如果能夠提供他們的新的法系分類,對他們來說是有幫助的,所以法學家當然也會有我剛剛說的啟示,在此我們主要確實是在說我們提出了各式各樣用量化方法去區分法系的方法,我們的數據庫是以每一個具體的物權法的法原則,或者是問題為基礎的。每一個研究者在我公布數據之後幾個月,都可以自己去查閱相關的物權法問題,以上謝謝。

許家馨:

謝謝永健和漢葳,那我從外行但是非常佩服這個研究的外行人,想請教一下永健,因為其實剛剛有稍微提到,這個分類其實是一個奠基的工作,從這裡再去鏈結一些重要的法律研究的領域,之後你這個研究的影響力,就會指數爆發。我覺得你現在還在整地的過程當中,但是到時候一層一層疊上去,我相信會有爆炸性的影響。那我的問題是怎麼去跟其他的這些領域連接,譬如說法律現代化這樣的課題,物權在過去一百年來從傳統社會到現在一定是有非常大的變動,那我覺得未來如果有可能的話是不是會朝向去梳理這個演進的過程,這個當然是非常非常更龐大的,但是我相信以後你會有更多的資源來描繪這個演進的過程,尤其是過去一百年兩百年左右,因為那是一個從傳統社會然後轉變到現在社會的過程,而轉變到現代社會的過程,我想勢必是有某一些西方國家所帶領的現代性的進程所啟發的,那我覺得這個過程到底誰學誰,這個當然就跟你剛剛說的繼受很有關係。

另外一個領域是law and development,大家可能都道產權理論跟制度經濟學在解釋國家的發展上面,應該有很多的應該是蠻基本的,所以這個部分的銜接性,似乎剛才發展經濟學你也有提到,然後我覺得從裡頭是不是可以去看出一些發展的軌跡,那這個其實是非常大的研究領域,如果可以連結起來的話,那也是會有爆炸性的影響,那我想剛剛我突然想到的就是大概這兩個領域,那就是不知道永健是不是你也已經想過了,對了還有一個地方,就是物權有一個好奇,就是過去我聽別人的報告,就是說在法律的影響上面呢,譬如說就是家庭法或者是親屬法,其實相當程度來講是比較反映一個國家社會的既有的社會文化,那但是在全球化的過程當中,譬如說你說契約法經濟法這個東西,其實是迅速的其實是會有比較有全球化的特徵,所以他可能相似的程度也會比較高,那物權在這兩者譬如說在這兩者之間他是怎麼定位的?他是比較傾向於反映一個社會的既有的產權體系,或者是他比較會反映一個各國之間的密切的貿易往來,那物權法通常他是怎麼定位的?謝謝。

張永健:

謝謝家馨,最後一個問題,如果有人做家庭法或者是契約法的編碼,我們就可以來回答這個問題。因為現在至少有兩組心理學家,做了全球大部分國家的文化量度的數據,所以文化量度跟物權法都有,但是沒有家庭法跟契約法,我們可能直觀上認為做在地或者是最全球化這兩個極端,我們沒辦法去量度,但是這個是非常棒的題目,我能夠給你一點flavor一點感覺就是,這個Journal of Law and Economics的文章,就是跟兩個做競爭法的學者合作,他們有全球競爭法的數據,然後我有物權法的數據,這也跟所長關心法系的問題有關。

我們的問題非常簡單,你想像你在一個益智節目裡面,人家問妳說物權法是不是接近,或者是a國或者b國的競爭法是不是接近,然後你可以call out一個法律學者。我們的結論就是如果主持人問你物權法是否接近,你可以call out可以問一個問題,那你或許應該要問這兩個國家是不是同一個法系,因為知道那個國家是不是同一個法系,就是你只分四分,就是德式、法式、北歐式跟英美法,你知道這個事情你大概可以增加你的知識說這兩個國家的物權法是不是傾向於接近,但如果主持人問你是競爭法的話你就不要問兩個國家是不是同一個法系,因為是否為同一個法系對於去預測這兩個國家競爭法是否相像完全沒有任何幫助,所以我們現在只有兩個法律領域作為例子。那篇文章後面再談就是說,為什麼物權法看起來有法系的影響而競爭法沒有,很重要的一個原因是歐盟的競爭法,第一個是歐盟會透過外交跟雙邊協定的關係去外銷自己的競爭法,第二個是歐盟的競爭法是成文法,不像美國非常多案例,第三個是歐盟的競爭法有六種語言的版本,所以要抄非常容易,使得競爭法在歐盟領域裡面完全抹滅了法系的差異,因為大家都有遵守歐盟競爭法的指令,那有非常多其實是跟歐盟沒有關係的關係,為了簽這個雙邊的貿易協定也接受了等等,所以確實是可以有像這樣子的研究出現。

那我們這邊的故事是歐盟向全球擴張自己的影響力的一個故事,那國家社會文化是另外一個可能的故事,但因為現在沒有人有資料所以沒有辦法做。那第二個問題是關於發展經濟學,自己另外一篇文章有碰觸到這個問題,那也是利用這邊的數據。總之我們的問題也很簡單就是,世界上每一對國家兩兩成對的國家,他們物權法的相似程度,跟他們的GDP成長率的相似程度有沒有關聯,如果你是某一種產權經濟學或者是發展經濟學的學者的話,你會認為說,這個LLSV之前的研究,因為英美法的產權制度較棒,所以英美法的GDP成長率比較高,然後你是受法國殖民的你的GDP成長率就比較低。那我們就把所有的國家按照是不是同一個法系,然後是不是同樣的經濟發展程度你去看,那基本上結論就是你的物權法相似程度完全沒有辦法幫你預測它們的GDP成長率會多相似,對於一個發展經濟學來說,或許這是一個負面的結尾,這是一個可能的方向。

然後你的第一個問題是關於法律現代性演進過程,如果是實證研究的人來問這個問題的話他就會疑惑為甚麼你怎麼不做panel data(追蹤資料,或翻成縱橫資料、面板資料等),panel data是你有這一百五十多個國家每一年的數據,那我現在只有一個譬如說2018年截止橫切橫斷面,那有這個panel data當然很棒啊,如果我可以活兩百歲可以做一百五十年的研究大概會做這件事,但就非常困難。有部分人做競爭法和憲法,他們有panel data就有可能做這個演進的過程,或者是用另外一支的比較法文獻就是convergence divergence的故事:到底物權法或者是其他任何的部門法,它是趨向於一致還是趨向於不同?或者更深入去問說,是哪一個部分趨向於一致哪一個部分趨向於不同,背後的原因又是什麼?

我沒有panel data,但是依照我的觀察可以跟大家分享是,比較新進有修正的民法典,包括台灣的民法典物權篇,會對於流押會放手,流押就是指我設定抵押權給某個人或者是某個銀行,約定如果屆期不能償還的話,就直接把所有權抵押物的所有權移轉給抵押權人。基本上從羅馬法以降早期的這些民法典都是為了保護那些在借錢的時候,完全沒有談判能力的抵押人,一律禁止流押,抵押權屆期就是拍賣,然後欠多少錢還多少錢。但是法國2006修正的時候放寬了,只要不是你自己住的地方的房屋就流押,那我們的話就是登記對抗,但是基本上容許流押。這是不是可能是體會到了越來越多借錢的人,不再這麼弱勢,或是法律的知識越來越普通了,或是債權人不再那麼嗜血了,就是有各種可能性去解釋。如果我的這種不是panel data的觀察是對的話,或許有某些東西在裡面,但是我目前想到的東西只有這樣,那如果有人願意一起來做panel data,那當然就可以問無數多的問題,謝謝。

李建良:

好謝謝永健的回答,我相信這個主題雖然focus在物權法,但是這個研究團隊特別是永健提出來的一個問題意識跟研究的其實是可以用在很多領域,先從這個物權法開始做起,可以讓我們去了解這樣一個研究取徑的方向跟他的實用性。謝謝兩位精彩的演講還有報告,還有非常有價值的學術對話,也期待這個研究能夠繼續,像滾雪球一樣越滾越大,謝謝大家。