公共性與AI論壇(三)
2021年2月26日(星期五)
◎ 主持人:李建良(中研院法律學研究所特聘研究員兼所長)
◎ 主講人:黃詩淳(國立台灣大學法律學系暨研究所教授)

今天的報告是朝向可解釋性的AI或是可解釋的AI。有關Explainable AI這個議題,近期不只於法學的領域有討論,實際上在資料科學界更受到矚目。若我們在Google搜尋Explainable AI,第一個出現的搜尋結果是DARPA這個機構於2017年開始進行某個大型研究計畫,整個主題即是XAI,內容為如何創造可解釋的AI,雖然主要是科學人在做的事情,但法學界也漸漸開始關心,某些國家的法律條文,也進一步的導入explainable AI或是explainability的要求。所以,今天我想分享,可解釋的AI在法學跟資訊科學,目前進展的狀況,以及運用實例,例如我個人在使用AI相關的工具進行法學研究時,怎麼確保或提升可解釋性的自身經驗。
一、何謂可解釋性(Explainability)
何謂可解釋性(Explainability)?這個詞彙並不是一個英文普遍的單字,在法學相關的文件上,我們能從三個地方看見。首先是大家頗為熟悉的歐洲的GDPR第13條2項(f)規定:「當第22條第1項與第4項規範的自動決策存在時,應將關於其邏輯、重要性以及可能結果的有意義資訊提供給資料主體。」它似乎在暗示可解釋性的落實方式為「將有意義、人能夠了解的資訊」提供給資料主體。第二, OECD’s Recommendation of the Council on AI (2019)提示5大基本原則中的第三項基本原則:「透明性與可解釋性。」而如何提升可解釋性,1.3. Transparency and explainability中提及,須提供有意義的資訊(provide meaningful information),且須適合於文脈(appropriate to the context)。但是,第三份文件European Commission的白皮書中,提及可解釋性的AI,其落實方法與前兩者不同,較專注在操作的層面,也就是在AI研發的層次中如何落實。它說現今很多不同的專業是分開作業的,因此我們給他一個bridge加強他的連結是有必要的,譬如machine learning跟deep learning,需要大量的資料來訓練模型;另一方面可以結合symbolic AI 的symbolic approaches 。這種symbolic AI意思是透過”if, then”這樣的判斷法則,請機器來做出最後的決策。European Commission白皮書是建議我們應該把大家不太了解怎樣運作的machine learning跟deep learning去結合symbolic approaches,那這樣子就可以改善AI結果的可解釋性。
我在準備這份報告的時候常遇到的疑惑是,explainability到底跟其他類似的概念如何區分?又有什麼不同呢?例如第一個最常遇到混淆或是不容易了解的就是interpretability「可解釋性」、「可說明性」的這樣的詞彙,和explainability到底有何不同?我查找了不少文獻,一般公認兩者沒有太大的歧異性,但在資料科學界比較喜歡用interpretability,而法律、政策文件較常使用explainability。
另一個須要釐清的概念是global跟local的區別。global explainability是指演算法本身的功能是不是可解釋的、人類能不能夠理解;local則是適用該演算法後所算出的結果,對受影響的該人,我們有沒有辦法可以解釋該結果,亦得稱為事後的判斷。之所以要區分這兩者,是因為如果要提升這兩個不同層次的可解釋性,可能要使用的方法就會有所不同。接下來我會再進一步討論。
最後,可解釋性與透明性(Transparency)到底有什麼不同呢?透明性是指可以接受公眾的監督,並非隱匿或獨占的。剛剛提及的2019 OECD建議書便認為,透明性指的是,使演算法內部機制的資訊可被公眾監督,包括AI系統如何發展、訓練與應用,但並不保證此些資訊人類一定容易理解;而可解釋性則是將一些粗資訊(raw information),用容易理解的方式再重新表述,變成我們可以理解的內容。兩者間仍有差異。
然,法國學者Beaudouin於2020年發表的這篇論文中,便將可解釋性定義為透明性的一部分,亦即我們提升粗資訊的可解釋性後,能讓更多人可以理解,便能提升這個演算法的透明度(圖一)。Explainability contributes to transparency,transparency的增加又可以提升可追蹤性traceability,那可追蹤性的增加又可以去提升auditability(可評估性Evaluability),最後再提升可問責性或是可咎責性(accountability)。這個研究認為,可問責性/可咎責性會是最終的目標,可解釋性只是達成這個目標的一個下位方法。

但,2017年美國與德國的學者Bernhard Waltl 與Roland Vogl發表的論文,對可解釋性及透明性,有另外一種不同的理解。該論文將explainability理解為較上位的概念,而其下的兩個子概念分別為透明性及可說明性(Interpretability)(圖二)。這兩個有什麼不同呢?透明性是指電腦(機器)決策過程的各階段可視化,以及與演算法的各構成部分可互動,例如,有一些可測量的基準,如stimulatability。或可分解性(decomposability)及演算法本身的透明性。另一方面,可說明性則是人類或機器提供描述性的資訊,例如可視化圖形、某個特徵的影響等,使人類了解機器的決策。可以怎麼做或怎麼去評量呢?第一個方法是文脈的描述,譬如寫下一個使用者說明,讓使用者簡單地去了解該演算法的效果是什麼;第二個方法是可視化,將演算法的過程或計算的道理,用圖像表現出來,稍後我會舉例說明。第三個是local explanations,對為什麼發生這樣的結果給予解釋。
從上述有關法律文件或資訊科學論述,我們可以得知,可解釋性的定義仍具爭議性。

二、如何提升可解釋性
如何提升可解釋性,可能如同可解釋性的定義,不同的領域,我們提出來的建議可能不太相同。其次,我們到底需不需要追求AI可解釋性呢?這件事情可能要有成本效益的考量。前述學者們(Beaudouin等)的研究認為(圖三),AI可能造成的傷害與解釋帶來的利益可能成正比,例如自駕車對比購物推薦系統,傷害可能性越高,解釋就可帶來越高的社會利益;但我們平常使用社群網站,常常會看到一些廣告,這樣購物推薦系統帶來的損害比較小,因為買或不買只會影響商家賺不賺得到錢,透過解釋可帶來的社會利益較低。因此,在定義何種事情是需要解釋的時候,傷害可能性比較高的AI,可能就具有比較高的解釋效益或者利益,但是相對的也就需要花費額外的成本。解釋的時候,也應該要考量成本效益。

問題與討論(敬稱省略)
邱文聰:
前一張,就是左邊的這個圖,是解釋帶來的利益跟AI可能產生的傷害是成正比?
黃詩淳:
X軸是AI可能帶來的傷害,Y軸是解釋可能帶來的社會上的利益,學者認為是成正比。
邱文聰:
這樣的證明關係沒有問題,可是您馬上推論成「成本也會隨著解釋帶來的利益而增加」,可以請您再多做解釋嗎?
黃詩淳:
這不是我個人見解,是2020的一篇論文1中的見解,這樣的推論是立基於,想要提升AI的可解釋性,就必需要花費額外的開銷。DARPA做的事情就類似如此。
邱文聰:
是的,但是一個傷害比較低的AI,如果我們要讓他做解釋的話,他也要花成本,只是帶來的利益可能沒有很高,所以反而是,如果從marginal的概念來看的話,一個對於風險比較低的AI進行解釋,成本跟一個風險比較高的AI要進行解釋要花成本可能是一樣的。
黃詩淳:
我同意。
邱文聰:
所以這兩者並沒有隨著利益的變高,而有成本變高的問題。
吳建昌:
需要解釋的程度不一樣,如果說傷害程度比較大,可能要求解釋的詳細度會更高,為了提升解釋的詳細度,就需要更大的成本,我猜測學者可能是這樣推導
的。
邱文聰:
但學者沒有畫出成本的圖,所以不太清楚他是否真的認為一定是成正比,就是解釋的詳細程度。
黃詩淳:
如上所述,雖然是要解釋,但要解釋到多詳細,可能要考量的有四點。第一點是「受眾因素」:誰獲得解釋?其專業程度如何?時間充分度?例如我們買車可能較願意去理解這台車的AI是什麼樣的機制,但若只是如方才所言的線上購物,便可能較少人願意花很多時間去了解。第二點是「影響因素」:演算法會帶來的危害以及解釋能帶來的幫助。第三點是「規範因素」:這比較是法律的面向,當這個AI適用了之後,哪一種憲法上基本權會受影響,各個國家與法律制度的環境如何也要考量。第四點是「操作因素」:解釋的目的為何?確保安全?使用者信賴?那篇文章較想強調的重點或許是,雖然是一個explainability,但是詳盡程度,仍要隨著各種脈絡而有不同的調整空間。
那麼,有哪些國家或是地區,確實對於使用AI演算法做了法律上面的規制或規範(包括法院的判決)呢?首先是德州政府2使用演算法為教師打分數(考績)3,並依此終止僱傭契約,被打分數的教師向法院控訴有不公平的問題,法院判決認為,必須使被評分的教師本人有方法驗證自己被評的分數的正確性,並且對這個分數的結果有提出異議的機會。而荷蘭政府使用演算法預測社會安全金詐欺的可能性4,法院判決亦認為,政府要使用演算法影響人民的某些事情的時候,應該要受到比較嚴格的檢視。在私部門方面,若使用AI的主體不是政府而是公司的話,是否應受可解釋性的規範呢?通常其解釋義務伴隨公平義務而生,若某企業具有獨占地位或有強大市場力量使消費者產生依賴,就需要有比較高的解釋要求,例如GDPR要求有意義的資訊、法國關於AI醫療器材要求可追蹤性(由醫師告知病人診斷結果或治療方法)及美國銀行法要求銀行說明消費者申貸被拒之理由。

問題與討論(敬稱省略)
何之行:
所以GDPR在討論的這個,是看是否會造成當事人相等於法律上的效果,並沒有區分公、私部門去做區分。您這邊的分析是認為說,我們還是需要去考慮,到底決策的是公部門或私部門、是否會造成不同的判斷跟影響,而有解釋的介入的程度差異。
黃詩淳:
是的,相關論述都是出自學者Beaudouin 的那篇文章,他認為要看脈絡,所謂的脈絡也包含了今天運用的AI器材到底是何種主體,所以要受到規範的嚴格度也不同。
邱文聰:
圖四剛剛說明的「教師要能夠驗證自己分數正確性」,提出說明義務的人是誰?是政府?
黃詩淳:
使用這套評分機制的……
邱文聰:
學校或是學區。那麼教師要怎麼驗證?ground truth是什麼?
黃詩淳:
我沒有仔細研究這個裁判,但是我推測可能類似美國的信用分數評比方式,告訴教師們說,今天這個分數是百分之幾,是從什麼樣的表現得來,然後你獲得幾分,於是加總起來你的考績會是這樣,如此,或許教師就有機會驗證自己分數的正確性。不好意思,這個部分我可能要再去研究判決的內容。
邱文聰:
從後面那個銀行說明拒絕貸款的理由的例子得知,教師評分的例子,或許是要讓教師能夠驗證自己分數的正確性,讓教師能夠得知AI是按照個別的項目及權重,透過演算法,得出這樣的結果。
楊岳平:
我覺得這在這裡他的意思只是說要給他一個機會。
邱文聰:
那這跟可解釋性不一樣啊,他只是⋯⋯他只是一般due process裡頭。
蘇凱平:
這聽起來很像過去律師司法官考試,如果你申請複查他就把分數加一加給你,四題是這樣加起來沒算錯,但是其實他不會review,我又不能重新看答案,我怎麼會知道。
邱文聰:
對啊,我怎麼知道你演算法。
何之行:
可是他可解釋性,他可能可以考慮說我現在考慮的因素是什麼,那在揭露跟沒有揭露的時候會有差別。
邱文聰:
就是這些因素。基本上,我不跟你爭論啊,我說好你都考慮的因素,但是我不知道你的因素權重為什麼是這樣配,配出來的分數為什麼是這樣。
楊岳平:
我覺得這可能是跟要求的審查密度有關吧,我們要求這個可解釋,或者是給這個驗證分數的機會,背後代表說我們要求他要解釋到什麼程度,他也可以解釋說我的公式是這樣。
邱文聰:
對,就好像你複查分數,也是一種可解釋。
黃詩淳:
如果說司法考試的每一項配分都是預先設定好的,沒有因為AI自動計算的權重而有改變,那麼揭露佔分比例及跟打分數的方式,應該就足以滿足要求。
蘇凱平:
我有一點疑問,我上次在談COMPAS時有列一個公式,他們在算再犯的風險時也是乘以權重,另外在美國威斯康森法院討論的那個案子又有這個疑慮存在。像我們講的那個很低很低的標準,就是你只把分數加起來,那我相信你都用演算法了,分數不可能加錯,對我來說是沒有程度的可解釋性啊,等於根本沒在解釋。
楊岳平:
其實複查成績基本上也是這樣。
劉靜怡:
所以其實沒有解釋啊,你知道每一題每一個小題佔分多少,我只是在跟你講一次說,你這個小一題就是得幾分而已,我沒有跟你講說兩個評分的委員是用什麼樣的理由,給你這樣的分數,加出來是這樣的結果,然而去申請複查的這些人,想要知道是這些才是,而不是想要知道成績有沒有被加錯。
蘇凱平:
是的,所以如果成績複查的議題,如果要說這是最低程度的可解釋性,我有點疑惑,因為好像某個程度上來說跟沒解釋一樣。那麼剛才提及的美國銀行要求說明拒絕貸款的理由,也會有類似的問題,因為銀行會說它考量了什麼,但是為什麼那些考量的因素彼此的權重是這樣、最後得出被拒絕的結果,這個恐怕不知道是可以還是不可以解釋,有沒有要求要做這樣的解釋?
黃詩淳:
我記得上次是不是岳平有報告過FICO分數的計算方式?
楊岳平:
其實,他之所以要你做這個解釋的背後真正的目的是要確保說,有沒有考量到一些不該考量的因素,所以我覺得,當你揭露說我的計算公式是這樣、根據這樣的公式得出這個結果的時候,至少從消費者的角度,他可以確保說,譬如說你沒有考慮我的種族,或是你沒有考慮那些禁止考慮的因素,所以我覺得不能說完全沒有。
邱文聰:
對,但是這個就像⋯⋯把演算法拆解出來。那至於演算法所預測的事情,是不是真的就是實際上面會發生的事情,這件事情他是沒有解釋的。
楊岳平:
然後可能在立法的角度,他會覺得這是留給他的裁量空間或是判斷。
陳弘儒:
法律上不太確定,但我知道像工程師他們的可解釋性有比較一般性的講法是,processing of data是一個程序,representation of data或者representation of information是另外一個程序。那要跟他們的「可解釋」扯上關係的話,他們會想說把the processing of data弄開來就好,但我們要求的是更多,譬如說權重怎麼計算等等之類,但是對他們來說representation of data那部分其實也很困擾,所以如果要做個聯繫的話,看我們要求要擺在哪裡。
黃詩淳:非常感謝這個評論。我待會會稍微說明,關於使用AI預測一件事情的整個過程。過程中的確會是有data輸入的階段,然後怎麼樣去選取一個representation of feature,是一個選擇性,在最後中間才是algorithm selection。所以可解釋性的意義,我個人從法學者的角度看,是認為不是只有在選擇演算法那個部分,然後把演算法本身搞得很清楚,就算是達到可解釋性,而還是對data processing的這個部分也是期待的。
陳弘儒:
像剛剛那個Lipton他其實有來台大資工系演講過,他說前面的那一些feature或者label 的selection,其實是一個human decision,那就會有問題因為不是機器在那邊跑這樣子。那另外一個是常在工程學界使用,是一個叫32:59 X他其實也是這樣的觀念,就是說可解釋對他們來說很focus在使用部分,所以Lipton他自己在卡內基任教,他也說那個data building或者machine learning不完全是大家想像的那樣子,裡面有很多human decision。
黃詩淳:
是的,今天我會講解法學者可以決定的部分。
陳弘儒:
我想補充一下,之前有文獻討論,可解釋性跟透明性一起考慮的時候會先細分不透明性的這個部分,就是說,他是因為沒有揭露還是因為這是why的問題沒有釐清,還是how的問題沒有釐清,但我們現在討論可解釋性的時候,就直接跳到最後一個層次就是how,因為我們不知道這個演算法怎麼算,那其實很多時候只是why,或者是我們不知道他為什麼會考慮這些參數,跟第三個最深層次的how,可以做不同層次的區分,那在回應可解釋的時候,就會因為這三種不透明的,這個層次性會有不同的做法。
何之行:
是的,比如說剛才說為什麼考慮這些feature,就牽扯到剛才我們提到前面那個選擇feature的階段時人的介入,還有feature是如何由判決的文字然後被化成數字而來,這兩點其實都是需要被討論的。
黃詩淳:
接下來說明提升可解釋性操作面,這偏向資訊工程學界提出來的觀點。他們認為,我們在討論一個AI的模型演算法是不是可解釋的時候,應該先區分成兩個階段,第一個是學習階段(learning algorithm),第二個是訓練階段(trained algorithm)。為什麼要區分呢?因為前者的可解釋性牽涉到我們對這個模型跟特徵的理解,對應到上述的global explainability,可以提升的是這個部分。後者的話,如果在對這個階段有一個比較好的解釋,是有助於理解為什麼會得到某一個個別的結果,所以它能夠提升的是local explainability,於是就會有不同的做法。
邱文聰:
我有一些關於用語上的建議,我覺得中文不要使用「訓練」階段,因為他講的是trained已經是訓練好,所以實際上在運用的時候,他對於那個應用出來的結果的解釋,所以已經不是訓練階段,訓練階段講的應該是training,就是應該是ing不是ed了,如果你要用中文的訓練階段,紫色的應該是跟你前面的學習階段是同樣的階段,因為他這邊英文講的是trained所以是已經拿來用了,不適合用訓練階段,應該用「應用階段」。
黃詩淳:
好的。那麼關於learning algorithm階段的可解釋性要如何提升呢?不同的AI模型有不同的可解釋性,我們先複習一下machine learning 的三種分類。第一種是監督式學習(supervised learning),目前學界最多討論可解釋性的文獻或集中相關的研究,接下來我們會在第三部分再詳細說明。第二個是非監督式學習(unsupervised learning),這種方式並沒有給機器標準答案,只是請機器去分群或是分類。第三種是增強式學習(reinforcement learning),是現在比較少用的方法,我個人對這個方法也比較不熟悉,我們就先跳過。相對的是,我們剛剛說過的old fashion AI (symbolic AI),因為它是透過人的介入去設定規則再由機器做出判斷,所以對這種AI我們通常不會認為他有解釋性上的問題,這是指對於他的演算法本身,大家比較沒有疑問。
那麼,關於應用階段的可解釋性要如何提升呢?在工程學界有很多的方法,有些我也不是那麼的理解,第一個方法是基於perturbation method擾動的方法,簡單來說,就是用一個新的模型去解釋一個黑盒子模型,把一個簡單的解釋模型放入擾動用的輸入輸出的樣本,這個新的用來解釋的模型,其實並不會揭露原來黑盒子演算法,只是去模仿黑盒子,就是如何對不同的擾動產生反應,然後大概告訴我們說也許那位黑盒子的演算法,是基於這樣的一個判斷然後做出這樣的一個結果,好像是有些工具像是LIME或是kernel- shap是這樣一個作法。另外一個是畫圖,就是saliency map顯著圖,它是用在影像處理的這種AI,試圖去解釋它,目標就是把一般圖像的表示更為簡化,或是改變成容易分析的樣式,這就是非常的抽象。不過,這兩個可能跟法學比較沒有關係,因為他們主要想解謎的東西大多是NN神經網路那一類,這是用來做影像分析比較多的演算法,後面我們就不多提。
三、法資訊學常用的AI模型與可解釋性
回到法學及法資訊學,在拿資訊的工具然後用來分析法學問題這樣的一個領域,大家常用的AI模型是什麼呢?這些模型的可解釋性,又有什麼高低程度的不同呢?延續剛才的說法,主要的目標或是可解釋性提升的對象,畢竟還是監督式的機器學習,我們如何將它應用在分析問題呢?它的流程圖是圖五,首先研究者會先定義一個他要回答或是要解決的法學問題,舉一個最簡單的例子,這個案子應該判離婚或是不離婚,親權應該判給母親或父親,亦或者是有罪或無罪,這都是分類上的問題。但這個案子的損害賠償額要判多少,這可能是一個數值上的問題。設定好問題後的下一步驟,我們就要identification required data,蒐集解決這個問題所必要的資料,接著將通常是文字型態的法學資料,轉換成數字的形式,因為現在機器直接處理文字的效能還沒有那麼的好,我稍後會做簡單的比較。所以,在這個pre-processing的過程當中,很多的流派,包含我自己的作法,會把文字的資料會先轉換成數字的資料,這個過程中,其實有非常大的人工介入的空間跟必要性,那也就是法學者可以投入跟努力最多的地方。接下來,definition of training set是資工領域普遍的作法,欲當作訓練集和測試集,是需要分好的。接著,選擇一個演算法,不同的演算法可解釋性高低不同,所以會面臨選擇那一個演算法,既能夠準確的回答問題,又能夠兼顧可解釋性這樣的目標。之後就是訓練後用測試集驗證,看它算的效能好或不好,如果效能好,就能當作可資使用的分類器(模型),最後再讓分類器回答它沒有看過的問題。

問題與討論(敬稱省略)
邱文聰:
監督式學習比較能夠進行解釋,因為我們知道正確答案是什麼,但若是方才提集的教師評分的例子,有可能是監督式學習訓練出來的演算法嗎?也就是說,在machine learning的三種分類中,您只針對監督式學習討論有解釋的可能性,似乎意味著另外很難進行檢視。
黃詩淳:
有關教師評分的系統是否是透過監督式的學習學習出來的結果,這是有可能的,我們假設⋯⋯
邱文聰:
有「好的老師」的標準。
黃詩淳:
這個學校的十個老師的考績,A連續拿了好幾年的甲等,B則是有幾年拿甲等、有幾年拿乙等。我們將我們希望機器得到這樣的結果的一些特徵值輸進去,譬如老師的年資、今年發表的論文篇數或今年輔導的學生數、拿到科技部獎項的數量等,結果(目標值)會是他今年的考績是甲、乙、丙三個分類,於是機器就會根據過去一百或是一千位老師得分的結果,找出一個對應的評分標準,給出一個分數計算的公式。
邱文聰:
所以問題就會在於說,我們為什麼只有認為那樣的老師是好老師的問題,不是AI learning底下可解釋性能夠處理的,他起碼能夠讓我們知道說,演算法在決定什麼是好老師的時候已經預設了某一種類型的產生,其他不符合的都不是好老師。
蔡政宏:
我覺得這裡好像是兩個不同的概念,一個是可解釋性,一個是可證成性,剛剛的問題或許是,這些東西都透明化以後得出判準。這個判準到底是不是justified,是另外一個層面的問題。有時候這兩者會混淆,例如,我們說你這個決策機制好像是一個黑箱,一旦我們說黑箱,便有兩種意思,一個是你要做什麼,你自己知道,但是你不給別人知道,就像之前講的不揭露;另外一個是因為公式我們不知道,把它揭開以後,它的association都沒有。所以,我們在這裡要談的是可解釋性,還是可證成性,我認為剛剛有一部分的問題都在講可證成性,都已經揭露了,但是這個根據什麼來justified它是reasonable,可能在這裡沒有找到那些原則。但是另外一部分,都已經揭露了,但是怎麼解釋,我覺得比較困難。例如方才提到的教師評鑑案,一般我們評鑑老師或評鑑研究人員的時候都有一套機制,而那個機制只是用人來做計算,如果只是改成用AI計算,並沒什麼了不起,我覺得它應該是有一套超出我們目前的機制的計算方式。所以在這個情況下,我們才要問如何用機器做教師評鑑。這是我的猜測,實際的案例可能要再了解,才會知道究竟是可解釋性還是可證成性的問題。
邱文聰:
是啊,陳老師是這樣講。
蔡政宏:
他是兩個卡在一起嗎?就是可解釋性跟⋯⋯
邱文聰:
這兩個地方可能會有關聯,在某一些演算法的運用上,實際上把這兩個層次結合在一起,所以我們很難在一開始就知道透過要求可解釋這件事情有沒有辦法回答那個證成性上面的問題。
黃詩淳:
但是如果可以透過可解釋性的要求,讓教師評鑑的算式,或是例如教師指導學生的數量、發表寫論文的數量等,各項目的權重,最後佔他分數的權重是多少,都揭露的話,那也才有下一步討論證成性。
蔡政宏:
它不見得可證成。我以個人參與過兩次中研院打考績的經驗,我覺得每次打考績的方式都不一樣,判準也很難抓,您剛剛舉的例子如教師指導幾個學生或是要發幾篇論文作為評分項目,也不完全是這樣,即使有這些數據,但最後打出來的考績,也不完全是根據這些項目。有時候是參考對所的貢獻,但這就有點模糊了。所以這裡我想是比較接近可證成性的問題。
邱文聰:
因為在監督式學習,我們比較能夠期待用可解釋性先釐清好是用何種參數,才往下去討論可證成。但在非監督式學習的狀況,其實可能連解釋性這個階段可能都沒有辦法解決,因為沒有ground truth告訴我們說什麼是對的診斷,或是什麼是正確的一個結論。
黃詩淳:
是的,所以非監督式的學習,如果要導到分群之後給予不同的效果,這個結果是蠻可怕的,因為它做出來的分類並不是我們有給予它標準的分類,而是機器看了資料後,認為某些東西是一種特徵,所以它就把他劃分成幾類。
邱文聰:
尤其是將它運用在風險預測,無論是犯罪的風險預測,或者是貸款會不會倒債的風險預測,可能都會有類似的問題。
黃詩淳:
我相信大部分的系統一開始都會是用監督式學習去做。
陳弘儒:
不一定啊,例如說為什麼它會發現某一個我們認為沒有直覺上關聯性的項目,卻是可以作為一個指標來決定風險。
黃詩淳:
通常我們希望機器能夠分出風險例如不還款的風險高或低的,是我們給它一大堆訓練樣本,譬如過去的十萬個消費者,他們還款的人是這些,不還款的人是這些。然後這些原本的特徵是什麼,輸進去後再讓它分類並預測,一個新的消費者有這些特徵的時候他會不會還款,這樣子比較能夠達到原來設定它的系統要評估風險的目的。我比較難想像,丟二十萬個消費者的資料進去後用非監督式的學習,讓機器自動去分類的話,會分成什麼樣子,也許他就分成男跟女兩個類別,因為我們沒有給它設定目標(要它預測的是還款的風險高低),既然沒有給他目標,它可能就是用它覺得最能夠分出兩群的特徵,或者是你要它分成十群,它就按年齡分成十群也說不定。
陳弘儒:
我覺得剛剛這個議題其實真的是蠻有趣,說不定我覺得跟法學有銜接之處,就是不是每一種就是系統要面對的環境都可以用unsupervised。我覺得實際上簡單做都可以做得完,會有一連串適用的程度,因此在做可解釋性就是會有一些不同的標準出現。另外就是列一個表格(table),就是監督性非監督性,然後人類決策在各個步驟介入的程度等等,如果這樣列出來,那些人類決策有涉入的部分,可解釋性與透明性的要求我們要多高,人類決策沒有辦法涉入的部分又要怎麼要求等等,都能夠呈現。我會覺得那是蠻有意義的,我印象中非監督式學習的方式,不是每一種任務取向都適合,因為它會造成無效率,如同您剛剛舉例可能分成男女兩群。
黃詩淳:
所以您的意思,機器用不同的演算法,法學對它可解釋性的要求也會有不同的程度。
陳弘儒:
對,我不太確定這種想法站不站得住腳,主要是來自於陳昇瑋老師的想法,老師在探討人工智慧作為一個大的技術面的部分,有區分x軸y軸分成四個象限,並說明哪一些情形是適合一般性技術性的人來操作,所以非監督式有其特定適用的領域。
蔡政宏:
補充一個哲學的觀點,當我們問問題時,你的回答可能有兩種意涵,一個是normative reason,一個是motivating reason。舉例來說,問題是:「你為什麼要把這個桌子打壞?」回答說:「我心情不好。」這是動機,但是動機並沒有辦法作為normative reason。所以有時候機器雖然沒有動機,但是不見得是他的normative reason,只是將因果關係呈現出來,然而對人類來說,其實人類最終想要的是一個normative reason。所以我比較想看後面發展。
黃詩淳:
有關normative reason 我稍後會多加說明。法學者解釋進行研究、data的設定及加入特徵值的原因時,較能回答這套系統的normative reason是什麼。
講者:接著說明監督式的學習。首先是分類(categorizing),我們會先給機器經由人類標記過的正確結果的資料集,希望機器從這個資料集當中找出一個模式,什麼情況底下應該分類為勝訴,什麼情況底下又應該分類為敗訴。這個資料集需要人至少先標註目標值,例如是否為垃圾郵件,訓練完成後,當機器接觸到新的郵件的時候,根據訓練時找出的規律,然後預測結果。剛才略有提及的,我們可以讓機器做分類式的任務,例如輸出一個能預測類別的變數,舉個和法律比較相關的例子,過去有其他法學者已經做過的有:預測納稅人的身分是受雇者或自營業者,或親權歸屬父或母,或者是本案應該是強盜罪還是恐嚇取財罪等,醫學界也有學者做過受檢測人是癌症或是健康的研究等。
第二類是迴歸(regression),預測的輸出變數是數值變數,不是一個類別而是一個連續的數值,例如預測明天的台北股市收盤價、如何根據所在城市/坪數/學區等來預測房價。運用在法律議題上的話,機器要預測的可能是賠償金額,或刑事案件的刑度。
接著說明非監督式學習。非監督式學習使用無標記的訓練資料,對資料中隱含的結構,自由探索,對資料當中隱含的結構進行模型建立。聚類(clustering)的作法是,把樣本分堆,使同一堆中的樣本之間很相似,而不同堆之間的樣本就有些差別。非監督學習通常用於處理沒有正確答案的問題,例如:Facebook 辨別使用者屬於哪些不同的群組(運動愛好者、通勤族、蘿莉控…等),以滿足廣告投放商的需求,即使結果不是那麼精確,廣告投放商也不太在意。圖六操作的方式如圖所示,左圖是一群原始的資料,機器進行非監督式學習後,區分成右圖的三群,有些可能是運動愛好者,有些是喜歡宅在家的人,我們對宅在家的人就不需要投放運動用品類的廣告。

邱文聰:
但是我們要怎麼確保資料分類完後,這三個分類剛好就是你說的那三個分類?
黃詩淳:
其實是沒有辦法確保的。這個三類是怎麼分的,完全是要靠人事後看了資料去做解釋。
接著是關於學習階段的解釋(Global Explainability)。不同的AI模型可解釋性高低不同,有些既成的AI算法已經做成了套裝商品,例如Apache Spark, Scikit-learn, Deeplearning4j,以及我們常用的統計軟體SAS、SPSS或一般程式語言R與Python等。其實現在寫程式已經變得相當方便,不需要再自己全部從零開始建程式碼,只要將套件灌進去之後,便得以快速導入模型,替我們的資料來做預測及分類。這些套裝商品就是機器學習,例如做影像分類、文本分類、西洋棋的下一步、甚至勝訴可能性。
機器學習是怎麼進行的呢?機器學習依賴數學計算,例如樸素貝葉斯機率,其內部程序是完全確定的,且可被人類所複製或重現。機器學習處理高維度資料以及特徵表示,人類無法理解係自然之事。若只檢查分類器(模型)本身,可能無法獲得能滿足人類的「解釋」。學者Gunning認為討論模型的可解釋性時,有時候須離開該模型和演算法本身,與我們剛剛討論到,整個機器學習的運用過程不是只有模型選擇這件事,而是有前階段跟後階段的問題。
Gunning認為,下列問題有助評估機器決策,並成為改善可解釋性的指引5。首先是why:為何產生了這樣的output?為何不是他種output?接著是機器是在哪種案例產生了可信賴的決策?顯然這就跟data是有關係的。再來是我們可以提供信心分數給那個決策嗎?我們對這個預測的結果有多少的信心呢?有沒有什麼評量方式?而在何種狀況(狀態以及輸入值)下機器的決策可資信賴?下一個是法學最有興趣的問題是,哪個因素最影響決策(正向或負向)?到底哪一個因素(我們輸入哪一個feature)對機器來說是最重要的,讓機器做出原告勝訴或敗訴的判決。最後,如何更正錯誤?
回到演算法本身,從工程面理解,每一個演算法特性不同,但通常可解釋性與準確率是一個trade-off的關係,可解釋性比較高的,我們會認為人較能理解。圖七最右下角的rule-based就是以前的專家系統,或是我們剛才說的symbolic AI,它是可解釋性最高的,但通常若用於具體問題的預測,準確度則是最低的,其次是distance-based或tree-based,我蠻喜歡用決策樹的算法。或者是機率性、迴歸性或線性的。被大家認為是黑盒子的,其實是左上角的neural network。科學家對這些不同的model的透明度的三個要件給予了評價,圖八rule-based是所有透明度指標中最高的,他的透明度最高,neural network是最低的,在其他不同的文獻,也差不多是顯示這個結果。


圖九我們可以看到第二欄的neural network,準確度非常的高,但是透明度則偏低。相較最右邊的一欄的deductive logic based,也就是rule-based,它的準確度比較低,但是透明度等都比較好。

四、個人實踐經驗
來到最後一個部分,有關我個人在用這些演算法解決法律問題的時候,我自己的經驗跟感想是什麼。剛好上圖七中的演算法我都有使用過,我曾使用neural network這個很不透明的算法算過子女親權,也用它來做自然語言分析,像是我的〈酌定子女親權之重要因素:以決策樹方法分析相關裁判〉這篇論文,就是neural network太不太透明,所以決定改採決策樹的方法。〈離婚慰撫金的法律資料分析初探〉這篇論文中,因為不是分類問題(是或否、判給父親或母親等),而是迴歸(金額),必須改用線性的算法。〈初探車禍判決中法院認定之過失比例之因素〉這篇論文,我們使用機率性的算法,也就是羅吉斯迴歸,但仍是個分類問題。另外我覺得值得一提的是,可能可以回應剛才文聰老師的問題,〈新住民相關親權酌定裁判書的文字探勘:對「平等」問題的法實證研究嘗試〉這篇論文中,我們使用的是非監督式的學習,比較法院對新住民離婚後爭執子女親權的裁判和我國籍夫妻在離婚後爭執子女親權的案件,會不會有歧異性的對待,但如何定義「歧異性」呢?我們認為,不能光以外籍配偶未獲得子女親權,就定義為歧視,所以我們決定用一個有趣的方式定義,從觀察法院用的判決用語,是否有不同的區別對待,而選擇distance-based,要機器把所有判決通通放在一個pool裡面,再投影在二維的平面上,接著觀察判決間的相對位置並標出新住民的判決。大家可以想像,如果新住民的判決都跟本國配偶的判決距離很遠的話,或很明顯可以分成兩群的話,就可以合理的推斷,法院在判決用語上對新住民可能有所謂的歧視。然而結論是,我們並沒有看到這樣的差異,但是有趣的發現是,新住民的案件都集中在同一個角落,在圖的左下角那邊,本國籍則分散在不同的角落。
問題與討論(敬稱省略)
陳弘儒:
有關投影在二維的平面上的問題,請問X、Y軸分別代表什麼?最左下角是不是也有不是新住民的判決?
黃詩淳:應該不是在最左下角,但是左下角也有一大堆本國籍配偶的案件是在這邊。
陳弘儒:
那X軸跟Y軸⋯⋯
黃詩淳:
這個很難解釋,因為那是用自然語言與文字探勘去做的,所以每一個詞彙,譬如說租房、租屋,或者是出境這一個詞彙就是一個feature,機器到底把什麼feature壓在X軸、Y軸,我認為很難有一個法學上的意義。我有試圖解釋,但我自己也很難被說服。新住民的判決數量不多,我有一件一件的去看有什麼共通性,但很難解釋X、Y軸代表的意義;但是我可以解釋右下角這些案件和新住民的案件有何不同,右下角的案件都是離婚之後爸媽再對小朋友的親權有爭執而後續再開啟一個獨立的非訟的事件,而不是像左下角這些新住民案件直接在離婚訴訟中合併子女親權事件。
邱文聰:
所以用語的差別,有可能是這種程序性差異造成的?
黃詩淳:
其實是,其實是我們當時⋯⋯所謂程序性的差別?
邱文聰:
您剛剛說,一類是合併在同一程序中,另一類是獨立開啟新的程序,所以您抓的自然語言學習範疇是整個判決?
黃詩淳:
是整個判決。我補充說明,剛才提到的左下角和右下角的差異,我們後來用決策樹讓機器顯示,區分新住民和本國籍配偶的判決,最重要的用語(在前面的節點)是什麼?列出來的節點呢,是蠻有趣的,有「租屋」、「出境」和什麼國「人民」這些用語,所以我們之後再給它一個解釋。非監督式的學習結果(分類)都不是我設定的,在新住民判決中,「租屋」的這個詞彙比重非常的高,相對於本國籍配偶是高的,所以我給他的解釋是,外籍配偶在案件當中,他們經常會被法官問到你是不是在外租屋的這個事情,而本籍配偶提到租屋的狀況比較少。這之中可能的原因是什麼?可能是反映了背後的家庭支持系統的差異。結論上我給出的建議是,新住民配偶在爭取子女親權時,對於自己的居住環境的安排要預作準備。
高國祐:
老師,我想請問,就是我們是怎麼事後去判斷這個演算法算得好不好或者是算的對不對?
黃詩淳:
是的,稍後就會有一個事後判斷的一個標準方法。
我就先以親權事件為例,因為我用親權事件這個sample嘗試了很多不同的演算法。第一個步驟是蒐集裁判書,步驟二是把裁判書的文字data,通過人類標記的方式,轉換成數字型態的資料,在步驟二,我自己認為這是法學專家最能夠著力,也最應該去留意的部分,因為這關乎這整個計算結果,或是這個演算法適用的可解釋性與否,甚至結果是不是涉及歧視這樣的問題,如果沒有進行這個步驟,直接將裁判全文全部丟給機器的話,雖然是標準的大數據分析,但是我們就很難回答剛才Gunning提出的問題:哪一個因素是最影響決策的?但這通常才是我們法學者關心的。所以,步驟二又可以分為以下幾個小階段,第一個階段就是我們會決定要用什麼東西當作feature,在大量的法院判決書的詞彙中,為什麼要選擇這個特徵值,原因是來自研究者本身對於法學的關懷。我的研究問題就是在法條中所列的應該要考量的要素當中,法官考量何者最多或是最重要,因此如果我要回答的問題是一個規範性的問題,我給他的feature也會是規範性的,並盡量避免在研究上去呈現一些可能會造成歧視結果的feature。例如,我們其實有對判決作成的地區、法官的性別及原被告是否有請律師作觀察,只是我們沒有報告出來,我覺得這是研究者對這個研究的意義跟抉擇的問題。第二步驟是決定特徵值(feature, variable),也就是如何將因素變成數字,我覺得這是困難但可以創新的地方。法條已經告訴我要觀察父母的健康和品性,可是我要用什麼數字來代表呢?其實這個議題的實證研究是淵遠流長,從2000年到現在就有了,當時的研究都是這樣去表徵的:如果法官有考量到母親的撫育時間比較長和母親是主要照顧者,便將這兩個要素就標示為1,沒有提到的話則標示為0。然而這樣的表徵方式,並沒有辦法讓我們回答研究問題,因為我們的研究問題是要知道,有考量撫育時間的情況,判決的結果最後是有利於父親還是母親,也就是父親或母親獲得子女的親權?所以我們想換一個表徵方式,改為比較父親跟母親在特定feature上面的表現優劣,表現好的那一方就標3,另一方則標1,雙方的表現相同則標示為2,這是我那篇研究跟先前研究差別最大的地方,因為過去的研究不是如此數字化判決的。
邱文聰:
這個1、2或3的數字是類別?
黃詩淳:
是類別。
邱文聰:
所以你把原來的兩類變成三類?
黃詩淳:
對,也可以這麼說,而這三類有一類是對父親有利,有一類是對母親有利,就是按照剛才說的表徵方式就來做人工的標記,而不是由機器來標記。如果裁判分段分得好的話,也許機器透過我們設定好的條件,可以自動標記,某個程度替代人工標記,可是我的個人經驗是沒有非常成功,所以為了確保研究的可解釋性,我還是採用人工的做法。
步驟三是模型選擇,我們嘗試了決策樹,比較容易解釋它的演算結果。圖十第一個節點就是caregiver,如果是圖右邊的情形,大於等於2或是missing,也就是母親是主要照顧者,若父母都是主要照顧者且表現不分軒輊,或是法官沒有提到相關問題時,就來到右邊中間這個節點。其次法官考量的是子女的意願,子女比較希望跟父親或是母親呢?如果又到右下角那個線的話,是大於等於2或missing,如果小孩意願是偏向母親或是沒有任何意願的話,那最終的結果由母親獲得親權(以0表示)的機率是96.37%,父親(以1表示)獲得親權的機率可能只有3.63%,所以母親的取得親權機率就非常大;相對的,左邊那邊,如果子女的意願是小於2,也就是子女比較喜歡父親,那此時反而是1(父親取得親權)的機率會提升到81.25%,即使父親並不是主要照顧者。如果主要照顧者是父親,就是左邊的情形,小於2就是1是爸爸,此時法官會再進一步考量子女和父母的親子互動誰比較好,如果是右邊那條線(大於或等於3),母親跟子女的互動比較好,那母親取得親權機率也蠻高的,是77.78%;如果子女和父親互動更好,就是父親一面倒的情況,父親取得親權機率就是90.28%。當然這個決策樹其實不是只有三層,是經過修剪作業,如果將下面的節點都列上來,人眼太難理解。

另一個類似決策樹的算法──XGBoost,圖十一它是一個隨機森林的加強版,更厲害的地方是直接就將每一個特徵值對結果的影響權重可視化。第一個最重要影響法官決策的就是caregiver,權重可以達到0.35或甚至更多一些,其它有相當多的要素都是不重要的,例如支持系統、父母親的品行或是不良的行為,或撫育環境等,比重都非常小,所以我們可以說,父或母之中,何人在前三個要件表現的比較好,他取得親權的機率就會比較大。

我們進一步希望機器可以更會解釋,所以我們要它展示在某一個個案中為什麼會預測判給父親。圖十二0.5的那一條黑線是中間點, y軸的最上面是1,1是親權歸於父親,y軸的最下面是0,就是親權歸於母親,那最後這個預測值停留在哪裡呢?在圖的最右邊,停留在0.62的地方,換言之,這個案件機器認為父親有較高的機率獲得親權。機器是怎麼做出這個決策的呢?機器考量x軸上各個要素時,例如第二個白色直方條,標示的主要照顧者是爸爸是1,所以它就從剛才的截距0.1那個地方往上長了很多,就突破0.5,所以在考量主要照顧者是父親之後,父親的獲得親權的機率就變大了。這個案件依據這個圖示,父母各自在不同的feature上面,都表現的有好有壞,機器最後也很掙扎,只告訴你我的信心指數也許是比較低的,但是還是比較可能是歸屬於父親。

問題與討論(敬稱省略)
吳建昌:
這個個案最後是判給誰呢?
黃詩淳:
是判給爸爸,然後這個判決被上訴了。
陳弘儒:
機器有傷心嗎?
黃詩淳:
機器不會傷心,但可能當事人兩方都覺得自己有機會勝訴,沒有對地院的判決非常服氣,所以是一個少數有上訴的案例。
吳建昌:
所以他是根據很多個案累積的一種機率,可是在實際個案的時候,其實我們還是要猜。
黃詩淳:
對,然後他告訴我們為什麼會這樣猜,例如說主要照顧者他給爸爸加了多少分,然後在社工報告上面媽媽又加了多少。
吳建昌:
然後有趣的地方在於,可能判這個案件的法官自己都不知道有沒有想過這些事情。
黃詩淳:
對。
吳建昌:
法官自己都無法解釋為什麼做這個決定,那為什麼機器可以告訴我們他的邏輯?
黃詩淳:
機器告訴我們基於過去法官判斷的pattern。當機器面對的一個他不知道的案件,會依據過去的pattern做出相對應的判斷。
吳建昌:
所以此機制在一般典型法官下會有較精準的預測,但若碰到一個irritating法官那他猜錯的機率就會比較高。因為特立獨行的法官,其判斷方式與大趨勢不同,所以機器抓出的大數據趨勢就不是非常適用。
楊岳平:
或者是一些特殊個案使得個案的呈現方式很戲劇化,也有可能造成誤判。
黃詩淳:
對,我認為模型的好處是他可以替我們挑出什麼叫做典型的案例,以及法官可能會很掙扎的案例。如此我們就可以更專注去評析那些很掙扎的案例,會比較有故事可以講,所以大家在評釋的時候挑這種案例,就會有很多討論的地方。
陳弘儒:
我想釐清一下,那些機器分析判決之後就有一個現成的演算法可以用,再輸入一個特定的判決去做判斷。我覺得在這裡解釋或者理解機器的結果要特別小心,直接將結果推論到法官會不會這樣判,有點太過草率,因為這是實際做出來的判決,機器沒有這個法官他所做過的一系列的判決資訊。所以是不是可以推到該法官的想法,我認為這裡會有個gap。
黃詩淳:
當然,這只是機器告訴我們它為什麼判斷將親權歸給父親,絕對不是這個個案的法官的想法。我把判決字號放在旁邊,只是我們事後再去探討的時候方便對照。
楊岳平:
學姊我可以問一個問題嗎?我想關鍵是否是,計算前會先就各項特徵值設定權重,會影響計算的結果,但是從統計學來說,會給0.35還是0.30,可能跟它用的那個數值本身有關,因為我剛剛看您的數值分布較平均,那如果說今天你給的數值差距較大,說不定這個權重就會有所改變。
黃詩淳:
基本上我們的研究假設是,每一個因素,父親和母親的表現評價相同。
邱文聰:
但實際上?
黃詩淳:
實際上是不是這樣我們不清楚。
邱文聰:
那麼,訓練好這個演算法好,請問您有用其他判決驗證嗎?有得出類似的結果嗎?
黃詩淳:
驗證的結果也在我的報告中。
我們一開始嘗試使用最不透明的neural network演算法,圖十三x軸是我們丟進去的feature,然後我們設了兩三層的hidden layer,最後得出輸出值,結論是它表現的預測結果非常準,可是無法告訴我們為什麼會做出這個結果。

基於上述這些驗算法,我認為要開發類似這樣的使用者系統,是完全可能的,只是這個系統要怎麼用、有沒有意義去用,就是另外一個可以討論的問題。
我們要如何判斷模型準不準,通常在工程學界有幾種方法有,今天舉出具代表性的方法之一──Confusion Matrix來做模型效能的評價。這個混淆矩陣是對監督式學習進行評估的工具,將模型適用於測試組(test set)的結果可視化,使用一些數據如準確率、精確率或召回率等指標,來評價模型的表現。圖十四以covid-19的檢驗結果為例,大家先看這個表格,上方表示的是,真實情況這個人有沒有染上covid-19,左側則是機器預測的結果。套用到預測親權判定的案件,假設判給母親是陰性,機器預測判決結果是判給母親,真正的判決結果也是判給母親,就是真陰性,而會落在TN這個象限中;假設判給父親是陽性,機器預測判決結果是判給父親,真正的判決結果也是判給父親,就是真陽性,而會落在TP這個象限中。所以,(1)、(4)表示機器預測準確,(2)、(3)則是表示機器猜錯。只不過哪些指標比較重要,可能在應用上就會有不同,例如說醫學上偽陰性就是我們希望盡量不要發生的。

我們的研究測出的結果,是絕大部分案例機器都正確分類,圖十五請大家看表格右上方3這個數字,就是真正判決給父親可是機器卻猜錯給母親的狀況,所以並不是百分之百正確,總之會用準確率跟另外F1-score(他是一個可以兼顧precision也可以兼顧recall這兩者的一個算法)去評量模型的效能。1是滿分,其他的0.多就是實際的分數。

上述不同的幾個模型表現如何呢?圖十六我們發現,跟剛才提及的資工學界提出的xy軸的圖是很類似的,也就是說,使用neural network時,準確度跟F1-score是0.988或0.99,機器幾乎都猜對了,但是相對的,決策樹的F1-score卻只有0.88。最後一列的NLP跟+NN是我在去年六月報告過的一篇相關研究,不以人工設定feature的方式,而是以機器自動分詞,然後將分詞的結果全部丟給電腦用NN計算判決結果(將親權判給父親或母親),而準確率是0.7725,F1-score是0.8675,並不高。這樣的結果到底是好或是不好,我可以跟大家先說一個基本數字,其實我們的整個sample中,判給母親約佔六成以上,所以如果機器是按機率猜測,理論上也有六成的機率猜對,而既然這些都有在六成以上,就表示不是亂猜,而是有憑據計算出來的。

接著是我自己本身的一些想法。從資訊科學角度來說,也許會很在意94%跟99%的準確率,但是,對法學來說,我們在意的是,演算法在法律分析後,能不能夠為法學帶來貢獻。上述的模型中,我們發現NN的準確性是最高,但是沒有太大的用處,因為它只能提供一個預測的結果,做一個漂亮的使用者介面,讓大家覺得好像很厲害,但是對於法學的貢獻並不高;相對的是tree-based model,雖然準確度較低,但至少能告訴我們作出這個結果的判斷的原因和影響的要素是什麼。最後,在data製作上面人工介入最低的自然語言處理方式的這個研究,再加上NN的演算法,準確度最差又難以解釋,只能說也許機器某種程度讀得懂法官的語氣,知道在怎樣的語境下會判給母親或父親,但效果不佳,也無法解釋原因。
那麼,對於演算法本身的可解釋性,身為研究者,應該負責任揭露這件事,就是為什麼會是這樣output?為什麼不是其他種類的output?通常大家會想到的是,為什麼output只有父親或母親這種單獨親權的狀態,而現實世界中,還有共同親權或第三人監護,為什麼這些類型,沒有放在我們的模型當中呢?因為我們能夠收集到的sample太少了,在訓練機器的時候,我們希望正例跟反例或是每一個分類都能夠至少有7:3的比重,但共同親權的案例,只占全體sample不到10%,第三人監護則低於0.3%。接著是機器在哪種案例產生了可信賴的決策?在父母雙方皆為我國籍,且都有意願爭取親權的案例,且排除一造辯論的情形,機器產生了可信賴的決策。我絕對不會宣稱任何父母離婚爭取子女親權歸屬的案例都能適用這個模型,因為我們在挑data時,就已經先做過篩選。那麼,我可提供信心分數給該決策嗎?剛才報告的準確率、F1-score等,可以提供信心分數給該決策。而在何種狀況(狀態以及輸入值)下機器的決策可資信賴?在可確定父母表現優劣(事實關係確定)的情況下,換言之,法官已經將事實關係確定呈現出來時,,機器的決策可資信賴,如果事實尚未確定,也無法適用這個model預測。最後,哪個因素最影響決策(正向或負向)?我們發現,主要照顧者、親子互動、子女意願是最影響決策的三個要素。
五、小結:可解釋性的法學意義
總結今天的報告,可解釋性的法學意義是什麼呢?有某些國家雖已形諸明文,其定義與內涵尚無確定見解。接著,我自己想到這個問題,但是沒有辦法深入探討,違反法律對可解釋性的要求之效果跟咎責的關係是什麼?如果違反了法律對於可解釋性要求效果,會帶來什麼結果,是決策本身無效、得撤銷抑或是損害賠償?這可能要區分情境,會有完全不同的答案,所以目前我沒有定論。
身為一個法學者,在研究上如何促進AI的可解釋性?當我們用機器或AI技術來分析法律問題時,第一個流程就是設定問題,最好先設定一個我要回答的法學問題,而不是漫無目。第二,在資料蒐集與處理的步驟,目前先以人工篩選標記,再由機器演算,較能夠達到後續的可解釋的目標。第三,演算法本身的選擇,我們可以使用可解釋性較高的模型,而非迷失在演算法的效能。最後,我們的目的是透過演算法來理解並詮釋法學問題,而非取代法官或律師。
我們進行這樣的法學資料分析研究,所要導出的成果,絕對不是一個使用者介面。我最近受到凱平老師等參與的量刑系統研究的啟發,他們將研究的重點之一,放在「判決推薦」,因為既然研究過程中,已經將判決數據化,做出特徵的抽取和標記,便得以相同的數據,查找現行實務上和本案相似的判決,然後在系統上面推薦給法官或甚至法律人,我想這可能才是一般的法律人需要的法律資料分析成果的形式,亦即讓法律人得以透過這樣的系統,查找與本件情狀較類似的案例,將之作為援用參考的案件。這是我目前想到的,做這樣的一個研究分析,可能可以努力的方向。以上就是我今天簡單的報告,謝謝大家。
所長:謝謝老師精彩的演講,內容非常豐富。先開放大家發問。
問題與討論(敬稱省略)
蔡政宏:
由於我不是法律人,如果AI要在法庭中應用,會擔心其判斷的依據不太一樣,因為所謂法官的精準是他給我公平正義,但是AI自己認為的定義是從過往法庭的判決結果去數據化的學習,而不是說這個如果今天以一個法官的角度出發看要不要給其公平正義。也就是說法官想要給人的公平正義,與AI法官想要給人的公平正義,並不參考人類世界情理上的公平正義,而是設定此案件跟法官們過往的這些數據是否一致。另外就是在訓練AI時,所有資訊都是紙面上的文字與標示等等,他不會知道真實法庭的狀況,因為法官在做判決時受到的因素可能很多,包括假設這個被告跟原告的態度好不好,甚至會考慮該判決是否影響原被告的心情,這部分是不是也需列入考量。想了解AI法官本身設定的目的是什麼?謝謝。
吳建昌:
黃老師做真的下了非常多的苦工,也做了很多重要的貢獻。當然,我不是在批評法官,但是天下文章一大抄,法官的判決常常是先有結論,再擷取過往大家常用的論述,所以那一句話不斷地反覆被使用,其實不少判決文都是那些罐頭文章。我不曉得親權的裁判是否也有這樣的現象,但如果都是罐頭文章,資料都是同樣的東西,反覆分析下,是否只能代表,法官只是在判決書中門面話交代,因為這句話講起來非常有力量呢?謝謝。
邱文聰:
有關準確度的問題,現在的演算法只是在模仿法官,所以準確度是指它對於法官的模仿程度到底有多像,而不是多趨近於公平正義,因為我們並不知道什麼是公平正義啊,所以想請問,如果資料是以emulation的方式來當作是AI或是演算法的輸入,它還有可解釋性的需要嗎?要解釋什麼?考上法官就是考上了,當上法官之後就是要複製過去法官的做法。這裡的AI的可解釋性,其實我不認為有存在的空間,真正可解釋性的問題是在於,當發現新的sociation,不是在模仿,例如評鑑教師的表現,要從哪一些因素考量,而不是在模仿以前對教師的評價,有一些新的標準是過往打考績的時候不會特別想到的,這裡才會有可解釋性以及其後他的可證成性的問題。就您舉的例子而言,您認為雖然NN最準,但您寧可捨棄,改用決策樹,決策樹較能解釋,這能幫助我們了解法官在判斷的時候,他的側重點為何,而不是在於說這個演算法本身是不是有跟法官的行為是一致的。我覺得兩個問題層次是不太一樣的。
黃詩淳:
是的,所以我們要記得,今天我們用這樣的作法的目標是什麼?我並不是要設計一個AI法官系統,這不是我的目的。我的目的是要詢問,到目前為止法官判斷的pattern是什麼?我們找出那個pattern,也能夠在規範性的層面討論,這樣的pattern是否適當。
邱文聰:
若是如此,我們就不會談論所謂的AI法學,因為那是實證分析要做的事情,我們要去做的是,究竟判決用哪些factors在判斷,這個跟我們要發展出一個人工智慧的AI法,我覺得在任務上面是不太一樣,雖然在工具上面有一些是蠻雷同,因為你可以用NN或決策樹,但是我覺得好像在一開始的mission上面就已經分開了。
黃詩淳:
依文聰老師所言,我們要發展的AI法是?
邱文聰:
我想像中AI法,比較像是蔡老師說的,我們要把法官的任務交給AI來做,但我知道您的意思是想要用AI或者演算法所發展出來的一些工具,應用在法學研究上面,幫助我們理解過去法官的行為,這是您的mission,但是那個mission會跟法實證分析,或是所有的詮釋學類似,就我們都在做相同的工作只是我們現在多了一種工具,幫助我們可以完成這個任務。
黃詩淳:
不過,AI法學的目標是不是應該真的設定在研發一套系統,把法官的任務交給AI來做,這件事還是很有爭議性。
邱文聰:
是的,我也同意,但有些人的想法是,使用AI法學來預測這個犯人會不會再犯,是否能假釋,而非模仿過去法官的行為,是要以一個系統來預測人類沒辦法做的事情。
楊岳平:
剛剛聽詩淳老師的報告,我想我們的目的不是要創造AI法官,而是要去尋找我們既有的裁判模式,甚至再進一步的發現,過往法官或許使用了一些不應該考量的因素進行考量。這可以作為判決評釋的基礎,我覺得這部分的研究,是我們的貢獻。雖然剛剛文聰老師提到,一般法律實證研究就有在做類似的研究,但是我認為,詩淳老師是想要利用人工智慧的技術,讓實證分析能夠更強大,包括利用NN等演算法,找出更多傳統的統計學找不到的變數。
邱文聰:
但是在詩淳老師的研究,NN也沒辦法找出那些找不到的變數。
楊岳平:
這就我的問題,因為詩淳老師建議的方法是用人工標記的方法設定變數,但如此一來,就失去由人工智慧會看到人類看不到的變數的價值,但也可能是我理解錯誤了。我的第二個問題是,為了尋找裁判模式時,我們就需要找出會影響裁判的因素,過往我們的法律實證研究統計學研究,找因素時所在意的其實不是權重而是 significance。我們被訓練不要看權重,因為權重數字會隨著你採用的數字大小改變,只能讓你知道正負的意義,所以權重不是重點,關鍵是significance。除了significance,為了確保模型,須判斷是否有太多雜訊,雜訊太多表示其實有些該考慮沒有考慮到,斟酌是否要補充變數,可是我從剛剛的整個介紹的過程中,並沒有特別看到施淳老師著重這些面向的分析,是否有什麼方法論上的原因?
黃詩淳:
我先回應岳平提的第一個問題,如果使用人工標記的方式,會不會失去了讓機器自由去發展、標記而可能得以發現人沒有發現的insight。人工標記其實要耗費比較多時間,如果有時間的話,先經人工標記和不經人工標記,一定會兩個都做,再去兩相對照。而對比的結果,如同剛才的報告,確實,讓機器用分詞的方式去分析的話,能找出一些我們之前沒想過的東西,例如「租屋」的差異,是我們從來沒想過它是重要的因素。因此,我的意思絕對不是不使用機器自動去探索,但要導出一個規範面能和法學者對話的研究成果,或許人工的標記方式比較能夠說服大家。第二個是有關於變數的設定,實際上當這一批數據人工標記完,我們也同時做過迴歸,每一個方式我們都會嘗試,但只發表其中一個成果,也就是說,研究是在無數嘗試錯誤當中,挑出更有故事性的發表。而親權的研究迴歸的結果,其實在係數上和決策樹的結果並沒有太大的差異;離婚慰撫金的研究,我們則選擇使用迴歸。所以兩者並不是互斥關係,可以並行後對照,也能提出有趣的研究成果。
蘇凱平:
有關剛剛岳平問的第一個問題,為什麼詩淳老師選擇使用人工標記的方式,我覺得這是一個法律很有趣的niche,我們使用人工標記仍然能使AI的運作具有意義,只是這個研究方式不是在於發現了什麼,而是在於對於這些既存的因素法官實際上是怎麼看待的。例如在詩淳老師關於親權的判定的研究,民法明文規定法官在裁判子女親權歸屬時,應該要考慮哪些因素,所以我們本來就都知道法官會考慮這些因素,但是我們不知道的是法官「如何」考慮這些因素。如同我的量刑研究,刑法第57條已明定了10種法官應該考量的因素,包含犯罪的動機、目的、犯後態度、生活、品行、學經歷等,可是我們不知道的是,知識程度是否等於要考慮學歷,又,假設學歷要列入考量,也不知道它的意義。舉例而言,新聞時常報導法官沒有宣告案情嚴重的被告死刑,因為他小時候當過班長,或是他是大學畢業,而有可教化可能性。我們也知道,要考慮知識程度,大概會考慮學歷,可是考慮學歷是什麼意思呢?是因為學歷低,所以罪不至死,應該要判輕一點?還是因為學歷高,有好的工作,只是一時糊塗,所以再犯可能性低,法官何必判那麼重呢,要讓犯人回歸社會。所以同一個因素可以做兩方面的判斷,實際上我們也常見到這兩類判決,透過人工標記的方式,我們能得知個案是怎麼樣被判斷的。除了技術性的原因,從法實證研究本身的延伸而言,這個事情本身是有意義的,雖然我不清楚在其他的領域能不能這樣做,但是在法律領域,剛好法規有明文規定法官裁判時需要考慮的因素,我們就可以用人工標記的方式,了解看法官是怎麼考慮這些因素的,這也是法實證研究的意義。
楊岳平:
但是我必須要補充一點,不是所有的司法案件都是這樣的,例如,法官要認定當事人有沒有過失的時候,就沒有法律規定要看哪些因素。
蘇凱平:
沒錯,所以我才會說,法律裡面有「一些」niche是可以這樣做。
邱文聰:
我想更正我前面的說法。AI應用在法學上,因為法學研究本來就是一個後設的研究,對於法律的活動,尤其是法官行為,想要提出解釋,所以我們嘗試用法實證的方法,或是現有的AI工具解釋,所以可解釋性已經是預設在這個活動本身的目的當中。但如果AI是被運用在法律實踐,因為 NN的準確度高,可能會是比較好的選擇,可是當然就會出現剛剛蔡老師提的問題:機器是在模仿法官的行為,還是發現一些隱藏的關聯性?雖然詩淳老師今天報告的題目是可解釋性,但其實內涵上,應該做這樣的區分。
蔡政宏:
我想補充一點,在哲學上,我們在談AI的興起時,其中很重要的意涵是人類的心智怎麼運作,有人認為,AI能模仿或甚至超越人類,所以對整個AI發展,他們有一個比較崇高或遠大的目標:機器和人類是一樣,只是人類有肉體而已。哲學一直在探討的是,人類的智慧、人類的心智,到底是怎麼運作的?早期是用old school的方式,以symbolic logic或symbolic AI的方式模擬。AI法官的議題,哲學性設想AI法官能做的事情,是可以跟人類一樣,甚至比人類還要好,但目前設定的目標好像都和設想有差距。
蘇凱平:
蔡老師提的兩個問題我都有很深的感慨。蔡老師的觀察,我覺得很銳利也很精準,和過往判決一致的這件事情,我完全同意,這很尷尬,因為我和老師是做量刑系統出來的人,原本我不應該贊同這個觀點的,但是我很贊同這個觀點:它的目的是什麼?司法院做的系統,我覺得最多就只能反應過去那個區間判決的consistency而已。剛剛提到公平正義的概念的時候,什麼是公平正義,我們很難說對不對?被告認為自己是無辜的,但法官判他有罪,對他而言就更不公平了,對法官而言,也不能說他不在意這件事,但是對法官來說更在意的是什麼?是他會被指責,過去類似的判決都判5年,這個案件卻判15年,但是當然,我無意批評法官,特別是我還在做司法院的計畫,但是你可以想像,這是一個很現實的情況,所以對司法人員來說,他們的order很奇妙就是整理過去五十個月的量刑的結果,讓法官有參考的方針,作法其實跟詩淳老師指出來的非常類似,因為我們的合作者是相同的。但這樣好不好呢?我個人也覺得有非常大的風險,我今天交了期末報告,寫了很長的disclaimer,說明這個研究能在哪些問題應用、不適合在哪些問題應用或不能代表什麼。然後,蔡老師提出的第二個問題說,這個研究是否不能反映法庭的真實情況,我倒是有不同的觀點。我在研究中曾發現,官確實會受到社會現況影響,例如最近的治安不好,法官會傾向判重一點,後來林明仁老師的一個研究生繼續做相關研究,也發現確實有這個現象。刑法第57條明文規定量刑有10個要考慮的因素,但我們不知道哪些因素要考慮多一些,哪些因素要考慮少一點,因為法律並沒有規定法官應該考慮動機多一點,還是考慮學歷多一點,甚至是考慮犯後有沒有道歉多一點。雖然我們不知道,但我們可以從事後試著解釋,因為法律是個後設的學科,雖然判決背後有很多不能以文字呈現的考量。有沒有可能今天這個被告或辯護人長得比較醜,法官比較討厭他,所以就判得比較重,這是有可能的,但是法官不會在判決裡這麼寫,我們透過研究,或許能夠可以發現這個案子和過去的其他案子不太一樣。
楊岳平:
我加不好的vocation在你的disclaimer上面,就是雖然我們沒有辦法判斷過往那些案件的真實性或者是可靠性有多高,但是可以透過大數據把哪些異常分子給分散掉,把一些非系統性的部分分散掉,除非我們的司法有系統性的問題,讓所有的裁判都具有一定的不值得信賴,否則照理來說透過夠大的數據,你應該可以讓你設定的那個裁判變成值得信賴的一個bench mark。
蘇凱平:
沒錯,這是數據分析或是大數據分析的基本假設,所以嚴格來說我不太喜歡稱之它為判決預測,因為我並不真的知道這個判決會怎麼樣,我只能說這個刑度你如果判在5年到6年7個月中間,大概你就不太會被罵,因為過去大概都是這樣判的,你不會找到一個人說,你看好多判決都跟你判的不一樣,大家都判15年,你只有判5年,你是不是收紅包。
李建良:
謝謝詩淳的報告,AI跟可解釋性可能是兩個研究的對象,GDPR的第22條並沒有可解釋性這幾個字,只是我們解釋的結果,因為第22條要求提出有意義的相關資訊,他的目的是什麼?恐怕他有另外一個可解釋性脈絡的問題。另外,剛剛詩淳有提到幾個W,我剛剛一直在想四個W,就是What、Why、Who和How。首先我想從Why開始問起,為什麼AI要有可解釋性?就像我用電腦選號買一張大樂透,我會一直追問為什麼是這個號碼嗎?但是如果今天是用AI進行教師評鑑,我可能會想請你解釋給我聽。接著是What,當然你能告訴我教師評鑑的各個項目,加加減減出來總分是多少,但我知道這個有什麼意義?最難的部分是Who的問題,剛剛提到說是公權力還是私人?誰有解釋的義務?在私人的部分有很多規範面的問題,為什麼在私法自治下,私人有解釋的義務?公權力的部分我們知道有太多的例外可以不解釋,這個部分如果沒有辦法解決的話,就一直在同一個地方循環。
再來就是剛剛討論的supervised learning跟unsupervised learning,他學的東西follow人過去的經驗還是相似經驗有很大的差別,例如剛剛講的考績,我們若將他交給AI,是希望可以能把原來考績的打法透過AI給它follow下去,免得換一個人完全不一樣,這是一種思考可能性。另外一個可能性是,考績裡頭問題太多了,所以我們透過AI來倒過來解決我們人的盲點,而這裡就會有選擇的問題。或許我們可以用一個比喻就是顯微鏡,顯微鏡可以看得到人看不到的東西,可是還是人看到的,人發明的一些⋯⋯顯微鏡看到很多東西是人看不到,可是看到之後他可以很多這個,那我不知道這樣的比喻有沒有辦法放到這個AI上面去,AI可以看到人看不到,可是事實上他是人想看到的東西,那這個東西就是有沒有辦法做一些解釋。