演算法視角下時空長河畔的憲法星系

公共性與AI論壇(二十)

2022年11月7日(星期一)

◎ 主持人:李建良(中研院法律學研究所特聘研究員兼所長)
◎ 主講人:何漢葳(中央研究院法律學研究所研究助技師)

◎ 整理:林宛潼

Photo by Guillermo Ferla on Unsplash

講者的專業偏向統計等技術面,日後預計會以「演算法視角下⋯⋯」作為一系列演講的標題,五月時曾在中研院法律所的研討會上報告「演算法視角下的物以類聚」(下稱物以類聚文),本次會進行更深入的討論,對該題目有興趣者亦可至人工智慧行動網參閱1。至於「時空長河」則主要針對本場討論的這筆資料,橫跨1900至2020年,計121年的時間維度,並涵括201個國家,統計上稱「長期追蹤資料(panel data,亦有以longitudinal data稱之者)」。相較於物以類聚文,該篇主要收集了156個法域的物權資料、兩百多個變數,屬於較斷面的資料,稱cross-sectional data,時間上僅包含2018年左右,而非長時間的資料。

這次的長期追蹤資料,取自Tom Ginsburg的CCP(Comparative Constitutions Project)計畫,此資料包含各國家及不同年份,可以選取每一年並進入檢視變數,一欄為一個變數,以本研究為例,變數為該國之憲法情形;一列則為該國之不同年份。在coding時則以0/1標記,例如有無保障某項人權之條款?若有則為1,反之為0。一共coding了135個(總共應為140個變數,並包含權力分立等整部憲法,然而因目前僅分析人權變數,故將其中5個無涉者先行刪除)。「星系」的概念是講者受到其他研究者將文字的clustering視覺化稱為「galaxy view」,前一篇物以類聚文張永健老師想探討的是「法系」的概念,順著下來此種一塊一塊的形式呈現用「星系」稱呼亦頗為貼切。但本次討論較少著重視覺化的部分,所以如果對視覺化有興趣,可以參考剛才提及人工智慧行動網上物以類聚文會議紀錄中的討論。

陳冠廷研究助理(政治大學博士班學生)補充,關於物以類聚文,研究者發現,通常人們對物權法抱持著我國為大陸法系且法條多援引自德國,所以內容上亦與德國十分相似的印象,該篇文章即在檢證這樣的認知是否正確。方法是將不同的條文內容如代替通行權等作為變數進行coding,有的話為1、否則為0,並進一步列了資料庫,將先前提及的150多個國家都進行coding,即可以用電腦軟體跑出結果,顯示出我國物權法到底與哪一個國家最為相似,以此方式試圖挑戰傳統法系的分類。至於此篇的概念亦頗為相似,不過資料庫的內容替換為憲法,並依據憲法常會變動的特性,例如德國的威瑪憲法與現行的憲法其內容可能變化甚鉅,故亦將時間因素加入變數考量,再進行比較分析,或許我國憲法在某一時期與德國或另一國家較為相似,但歷經數次修憲後可能又會轉變為與不同的國家有較類似的特性,此為研究之始想描繪的大致圖像。

本次研究的data主要來自Tom Ginsburg 的CCP計畫,其中的資料皆為公開可下載的,目前公開者僅到2019年,但因研究所需所以已獲得2020年的資料。如果自行下載檢視該份資料,會發現並非如同方才所述僅含有0/1的值,包含許多需參閱comment之處如圖一,所以共同作者黃宗介、張永健、Tom Ginsburg花很多心力recall這些文字,因若非0/1的數值形式,以目前統計技術而言,較無法處理。此一資料從去年(2021年)八月就開始進行,一直到現在才差不多底定,過程中常發生已進入最後建模型的步驟,赫然發現某一資料有些奇怪,似乎是前階段的處理不夠妥適,所以在此提醒各位若有意進行此類研究,一定要在data上付出非常多心力。

圖一:CCP網頁截圖(圖片來源:講者提供)

本演講主題著重於本研究所使用之統計技術,並不包含視覺化之說明,因尚未完成,可以參考「演算法下的物以類聚」該篇。採用的方法稱「clustering2」,係根據憲法的特徵進行分類,再根據這些分類進行分組。

在此特別解釋技術上的細節:

  1. 首要的問題是這麼多國家、這麼長的時間維度下,應如何分析相應內容龐大的資料?
  2. 其次,若已得到clustering的grouping標籤,應該如何反向用classification的技術探求分類為同一群的原因?
  3. 再者,因變數很多,通常會透過logistic regression分類器進行變數的篩選,但亦有部分情況為logistic regression無法進行者時,應如何處理?

可以想見一般情形下,國家的憲法不可能經常性的變動,僅為了因應特殊情勢發生而進行修改,所以後來研究中的做法是在這121年計200多個國家的資料中,若於同一國家中重複者即排除不使用,亦即僅篩選出不同國家中的不同版本憲法。此時遭遇的問題是,雖然共同研究的老師們花了非常多時間recode原始資料,但難免會有missing value,但因可能只缺1、2個變數,此時若整列刪除會十分可惜,故須整理或者是放棄,除非有更好的差補法可以進行彌補。在此可以得出一個小結,如果取得一組他人建立的資料,需要非常非常小心地檢視該資料是否有遺漏值、若有的話應該如何處理。

本研究花了非常多時間進行值的填補,其中有使用LOCF者,即使用最近的一比對下一筆進行填補,於阿爾及利亞等國家即採用此種方法,但仍舊無法完全進行填補,只好忍痛將其中部分變數刪除。另有一種情形為「ABA」,意即某國將原憲法(A)改為新憲法(B)之後,又再度恢復為先前憲法(A),此時是否應計入unique constitution則需一一個案討論,並檢視原始資料進行比對,以下圖二中之國家為例,阿根廷於1956年重新施行1990至1948年之憲法,故此時仍應計為unique並納入分析;至於泰國因政變頻仍憲法亦時常變動,亦屬於此種型態而納入。另有一種情形,係原始資料雖僅有一個變數但有很多種可能,所以coding成0/1的值時可能會無法完全吻合,這時也需要一一確認,並除了統計專業外,更需要背景知識的協助確認刪除者或coding error。

圖二:資料一隅(圖片來源:講者提供)

資料全數整理完畢後得到933個unique constitution,接著比較憲法之間的變數同為1或者同為0的數量並計算比例,所謂的不相似性即為兩者之間的變數不同的比例,因此自身與自身的不相似形即為0。參考下圖三最下方即有933個分支,代表不同的憲法,隨之往上會漸漸合併,若想要對這些憲法進行分群,可以用一條水平線進行切分,若想要分成少群一些就儘量畫在圖的偏上方,反之若欲分成較多群線則需畫在下方。完成此圖後可以發現有些國家的憲法例如圖片最左邊的是墨西哥,與他國非常不同。

圖三:Clustering of 933 unique constitutions (average linkage)(圖片來源:講者提供)

圖三補充說明:圖中使用的分類方式稱「average linkage」,其意義係指,在分類時,不相似性越小的資料會先合併在一起,到了某個程度之後就會開始與另外一群的資料開始合併,此時衡量距離的方式包含a.取兩群當中最相近的(single linkage)、b. 取兩者之中最遠的(complete linkage)、c. 將距離都取出來之後求平均值(average linkage) ,在研究實務上較常使用的是average linkage及complete linkage。

當取得933個unique constitution grouping後,下一步需思考的是如何在圖中呈現,下圖四是在研究過程不斷改動中的版本之一,根據前一張average linkage的圖大致可以將這些資料分組,假設先取1900年某一個unique constitution,其屬於紅色組,便在圖上畫紅色,20年後該國又重新有一個unique constitution仍然是紅色組,則繼續以紅色標示,依此類推,在過程中亦可能會轉換成別的組,但概念上即是以顏色方框來標示unique constitution的年份。但在過程中會發現,如圖中的汶萊(Brunei)及東加(Tonga)先有一個白色的方框後,與後來的紅框有很長的一段空白,此時才發現另一個忽略的問題:某些國家在獨立前後可能各有或沒有unique constitution,此時應如何處理,後來決定若已經CCP認定為unique constitution則自然應將之納入,所以再另行考慮了該憲法時的時間與獨立的時間並給予不同的圖示標記。至於部分國家如法國或德國在中間有些許空白,則需對照史實,另行確認在該段時期如第一次世界大戰時該國有短暫的憲法空白,當提及歷史,在此亦特別說明,關於國家獨立的時間歷史學家或許可能會有不同見解,但為統計需要仍然採取了特定的時間,如圖中的德國指的是西德,東德則另外計算,奧匈帝國等亦包含於研究範圍中。

總共區分為九組,其中較大者為紅色、橘色、黃色、綠色、藍色(如圖三),並於1945及1990 畫出兩條虛線作為輔助線。

圖四:Plot of 933 unique constitutions(圖片來源:講者提供)

補完後的成果如圖四,並針對圖例說明如下,可參考圖五:

  1. 美國或是法國等於1900年時的標記是方框中有叉叉(X),係因研究自1900年起算,然該國家在此之前已存有延續至此年之憲法。
  2. 若於1900年後獨立者用黑點標示其獨立年。
  3. 若先有憲法後才獨立,且兩者皆發生於1900後,則獨立前的憲法以「田」標記。
  4. 同時滿足「X」及「田」者,以方框中有「米」字標記。
圖五:圖例說明(圖片來源:講者提供)

問題與討論(省略敬稱)

李建良:想請問1900時德國的憲法情形。

講者:德國一開始是紅色組、後來到橘色、最後是黃色組。至於不同顏色代表的意義,學者Nuno Garoupa認為,紅色作為一個「基本盤」,包含美國在內的大部分20世紀前期訂定的憲法都屬於此類,至於其他四種顏色則除了奠基於紅色之外亦各自有分別的強調:橘色為教育、文化、性別;黃色著重語言、環境、健康;綠色更注意刑事及一般正義;藍色強調文化與勞權。Tom Ginsburg的資料中有一個data set主要在探討每個國家不同憲法的flexibility,亦即修憲的難易度,且是否會因此容易在不同組別間轉換,但此一資料近期才收到而將持續進行。而得到的資料又可以再分為「transition」與「versus」兩種情形分析,前者指原先為某一顏色的組別而後轉變為另一個顏色,後者則指兩個顏色組別間的比較。

接著是模型的建置與解釋,需從135個變數當中尋找最適合的變數建置模型,然而因為變數的數量龐大,全部採用可能也無法使模型具有解釋性,所以需要借助統計學上挑選變數的技術。共同作者之一的Martin Wells跟他的學生發展了一套「semms」的技術,比起forward backward step lise、laso等可說是十分先進,故於本研究中亦採取此方法。以紅組及橘組為例,將紅組設為0,橘組設為1,根據挑選的變數進行分析,為何從紅組轉換到橘組,是否因增加或刪減了特定的人權條款之故。

以圖六為例,圖中的M1為semms挑選出的versus變數,至於M3+/M3-則是to或稱transition的變數,至於2、4則是使用這些變數的連集進行回歸。紅色組跟橘色組因為觀察值較多,所以跑回歸時較無收斂性的問題,然而其他組別間的轉換則有可能須須處理收斂的問題。在研究中,versus的部分都尚屬成功,亦即挑選出來的變數都在回歸裡顯著,並與預期相符;然而當semms挑選到highly correlated的變數時,估算上容易產生問題而需另行克服,且transition形式的觀察值太少,所以亦須將highly correlated的變數移除至可以通過收斂。

圖六:Red to/versus Orange(圖片來源:講者提供)

提問:現在有兩種形式,transition以及versus,也有九百多個unique constitution,是否這九百個不同的憲法都會有各自的組別,分別看屬於哪一個顏色的組別,例如德國在不同年份有不同的憲法,假設某一年屬於紅色組,那在處理versus的時候是所有的德國憲法都會進入,以年份比較,而討論transition時是直接以國家作為單位討論嗎?

講者:都是以憲法做為討論單位,參照圖七可知,若是紅組versus橘組的數量是397加187,故有397個0及187個1;至於若是紅組留在紅組或是transition到橘組的話數量分別是249及60。都是以憲法作為單位,但是transition的加起來九只有七百多,而非933,因為在這麼多unique constitution 中會換組的就只有這些數量而已。結論上,都是以個別憲法作為單位,只是在versus的部分會討論「有無」某個provision,在transition則是討論是否「移除或增添」了某些provision,但其baseline都是大致相同的。

另外參照圖七,表格中為「-」的表示remove了independent variable,反之「+」則是add,「na」則指在兩組中此一變數皆未出現remove的情形,只有維持unchanged或者是add。

圖七:資料統計結果(圖片來源:講者提供)

值得一提的是,有些變數經常會相應出現或呈現相同的值,受限於觀察值有限,所以如果模型發生無法收斂的問題時,可以想辦法將其一刪除,例如view government document與access document或health care與environmental protection。

當使用不同的major、用了不同的linkage甚至是對unique constitution下了不同的定義時,得到的結果都會不一樣,更不用提說用不同的分析方法進行分析,更可能會得到完全不同的結果,但在本報告中,殊難想像還能再更加細節化,當然也歡迎挑戰與檢視。

李建良:謝謝十分精彩的演講,也看到了在這百年間全世界的憲法比較,透過clustering對憲法的文本進行有趣的分析,並以顏色的分佈進行視覺化及詮釋。至於機器學習,分為監督式與非監督式,目前較多進行的是監督式的訓練,研究有特定的目標並希望透過演算得到某些預測;然而講者進行的clustering是非監督式的,無法預見其結果而是期待能透過研究得到先前未能知悉的資訊。

提問:若一個憲法同時有兩個顏色的特徵時,會如何定義及歸類至特定的顏色組別?

陳冠廷:釐清提問者之問題,提問者認為有許多分類的判準,但是不明白當判準衝突時應如何歸類。在此可以再次強調監督式與非監督式機器學習之區別,監督式學習需事先告知電腦分類的依據,舉一簡例,當認為A、B相貌相似,且B、C相貌亦相似時,對於相貌的描述可以透過各種分類明確化,例如有無禿頭,此時就會使電腦開始對禿頭概念進行學習,亦即在判斷相貌是否相似時,直接明確標示以禿頭作為分類標準;反之,人的相似與否可能可以透過五官及其他的特徵進行判斷,例如雙眼皮與否、有無美人尖等,此時可以標示出哪些五官或特徵可以用以作為判斷相似的標準,並分別給予0(無)/1(有)之數值,這些很多的標準疊加之後越多項目符合者即為越相似,此即為非監督式之學習,在此情形下,電腦可能會篩選出起初未曾預料的特徵,而這有利亦有弊,例如禿頭為十分明顯的特徵,在分析時容易被吸引焦點而忽略其他可能亦十分重要之特徵。回到方才的問題,非監督式學習計算出來後,仍需要再依據結果思考及分析,為何電腦會將不同的項目歸類為相似,則需回頭檢視究竟是哪些變數造成這樣的結果,而這樣的事後回推及解讀才是本研究進行的目的。

李建良:想從最基本的研究方法開始切入,如果是可以拿來分析的一定是成文法,因若是非成文法就無法進行成文憲法的分析,那本研究是針對各國憲法文本進行分析,該文本的內容從何而來?其語言是統一為英文版嗎?這些憲法是怎麼轉換為變數呢?

講者:就我所知是以人工處理。

李建良:例如憲法中「生存權」的概念,若是翻譯為英文可能有非常多不同的譯法,且全世界三百多個國家且涵括到1900年,這個時間及空間的維度都非常龐大,到底要如何將這九百多個憲法文本都轉換為0/1的值是十分大的挑戰,甚至連要讀懂都是一件困難的事。另外關於非監督式學習與監督式學習是可以有很多的發展,剛才也有諸多討論,在此想要追問跟變數有關的問題,以extradition此一重要議題為例,歐洲人權法院進行了引渡,該判決值得分析,然在憲法當中其實極少出現引渡的條款,所以當用extradition作為變數去與文本參照時,是否能夠得出什麼結果?要如何藉由此種變數等判斷憲法間到底是相似還是不相似?

陳冠廷:當將所有變數都以0/1標示後,可以去比較兩者中重疊的越多則可以稱之為越相似,然而亦可以質疑某些不重要的條款即使10條都相似也沒有意義,所以可能就會再需要對較為重要者進行加權後再分析。

李建良:張永健老師關於物權的文章我也大致了解,該文中討論各國民法中物權編的規定,哪些國家較為相似,其欲打破台灣與德國物權很相似的既定印象,這個研究目的較為明確且易於了解,然憲法的內容繁雜,例如我國憲法分成數個部分包含政府組織、人權、基本國事等,無法以一概全的認為我國憲法與某某國家相似。若著重在人權部分討論好了,這部分與哪個國家較為相像?又或者是說與哪一個分群較為相似,這部分的結果對於進行人權規範的比較法研究可以提供方向,甚至是另一個方向的做法,找較不相同的進行比較。

講者:這篇研究想要著重的是計算兩部憲法相似的「比例」為何,當然剛才冠廷提到的加權,在統計上當然可以進行,檢視哪些條文或條款較為重要,然而目前僅只是去觀察有幾分像,而暫不論相似之處為何。至於若要討論像在哪裡,其實在一開始就可以進行,不需要經過clustering,因clustering的目的是在把更相似的併在一起,當然如果分類細緻到一個程度就會變成非常非常多組,且幾乎沒有相似的,所以無論組別過多或過少都會失去意義。所長的問題我認為在前端就可以回答,但事後亦可以透過對照是否真的有共同特徵進行檢證。

李建良:最後詢問,組別應該可以換顏色吧?再以conventional為例,這個如何判斷,又是代表什麼意義?

講者:可以,顏色只是標籤,為了製圖及視覺化方便呈現所賦予。

提問:想請問研究所欲達成的目的及限制為何,統計上有無方法檢證國家的憲法實踐或比較具體而言,給予一個指標項目,其實踐情形為何?因憲法文本有高度抽象性,但在具體實踐上或許各國不一定會實際遵守,所以如果將此種並未實踐的與其他的進行比較,是否會對結果造成偏誤?這樣的情形能否透過統計的方法是前排除?

講者:本研究可能目前無法涵括到對憲法的實行,像是北韓跟我國的憲法其實也有一定的相似度,但是在實行上北韓其實都沒有依照內容而行,這樣的狀況要以統計方法處理有問難,需要進行其他質而非量的研究。

李建良:可以反向思考「human dignity」的意義,我國憲法本文並未有此一字眼,但並不可謂我國就未保障人性尊嚴,就像大法官解釋中常提及此一概念。這種文本中未提及但實際有保障,與剛剛提問的法有明文卻並未落實的概念是一體兩面,這對於未來後續研究的開展可以有許多的幫助。

陳冠廷:補充回答方才的提問,關於實踐部分的確有其限制,其實可以把憲法文本當成是制訂時對於國家憲法的應然的想像,當然有可能寫了之後做不到,反之也有可能是該制度獲保障自始已經根深蒂固在國家運作之中,而不需要特別寫入憲法,所以本研究可能比較偏向的是對於各個國家當時制定憲法時的想像,怎麼形塑自己想要的國家樣貌。