以人工智慧輔佐法院心證?——統計證據的觀點

人工智慧與法律規範學術研究群
第三年期(2020-2021)

第六次會議
2020年12月18日(星期五)

主持人:李建良(中央研究院法律學研究所特聘研究員兼所長)
主講人:蘇凱平(台灣大學法律學系暨研究所助理教授)

◎ 整理:高國祐
◎ 定稿:李建良

壹、引言:AI與刑事審判

在刑事審判的進行過程中,從認識法律開始、到認定事實,以迄判斷證據之後,最終法官要做的事,即為量刑。從刑法第57條來看,我們可以看到有許多量刑因子,可以說就是審酌一切的情狀,也因而導致每一位法官在量刑時的差距可能甚大。這也是目前司法院在推動國民法官法時,遇到的巨大問題。對於職業法官而言,在受訓的過程中,事實上有一定的標準可供遵循;然而,對於國民法官而言,並沒有這樣的基礎。

一般認為,關於量刑的議題,相較於證據的判斷,AI的輔助似乎有較高的可能性。然而,可能要注意的是,在證據的類別中,有一類型是為「統計證據」。統計證據是一種數學化的證據,但就此是否即可以透過AI的輔助更幫助法官達成心證?因為就目前AI可以達到的技術而言,主要是具有整理事實的能力、抽象涵攝的能力以及計算的能力;AI比較受到質疑的地方是,它是否具有說明理由的能力。然而,在諸如美國陪審團制的制度之下,說明理由並非必要。因此,AI事實上在刑事審判中的過程仍應可以妥善應用。

更關鍵的問題在於,法院的裁判究竟有何要素是AI所不可取代?在關於證據法的討論中,普遍認為,人類法官在運用證據判斷事實的過程中,往往是一種模糊的狀態,是一種難以測量的洞見(ambiguous implications)。此外,人類法官可能有情緒控管的問題,也可能有意識或無意識地帶有歧視或偏見。對此而言,「機器人法官」會不會比人類法官做的更好?

Photo by Esaias Tan on Unsplash

貳、框架:AI與統計數字運用

進一步言之,以下討論層次在於,AI如果技術上能達到這樣的任務,我們要不要讓它這麼做?也就是,以下討論將聚焦在AI的「應與不應」,而非「能與不能」的問題。以COMPAS為例,常受到的批評是它有種族歧視的問題。然而,COMPAS在做的事情有三:之一,關於是否應予羈押以及其他替代措施的評估;之二,評估再犯的分數有多高;之三,對於暴力犯罪的統計。其中,關於再犯分數的統計,計算方式為:將年齡、初次被逮捕的年齡、過去暴力犯罪的歷史、正當職業的可能、過去不服從法院命令的歷史等因子分別乘以權重。在這樣的計算方式之下,歧視的問題究竟存在哪裡?關鍵在於這樣計算出來的結果可能會有偽陽性(false positive)的問題。亦即,機器可能預測出,「黑人」實際上被認為不會再犯,但卻被算出較高的再犯分數。然而,截至目前為止,美國仍有幾個州繼續使用COMPAS。原因在於,這些州認為,這種計算方式仍是針對個人,而不是針對個人所代表的群體。

問題與討論

陳弘儒:如果是針對個人,那這樣的系統是如何畫出權重?

蘇凱平:對此COMPAS公司有手冊,告知權重如何被運算而得出。

續上報告

因此,需要去思考的問題是,所謂的「偏見或歧視」究竟所指為何?就此須予以區別的是:主觀性(subjectivity)的偏見與客觀化(objectivity)的偏見。前者是指,人類的判斷者會有主觀的偏好,可能帶有人類的情緒,因而有主觀性的偏見;後者則指,這樣的偏見是來自於被判斷者,也就是透過個體所述群體的行為,去判斷這個人,而由此可能產生的偏見。比如因為被判斷者是個「黑人」,因為住在「特定區域」,因而受到負面的評價。AI會不會就是有「客觀化偏見」的問題?因為AI必須運用其他東西去衡量、計算以及模擬,而不是針對個體的具體情況。

類似的討論也存在於美國信用評等系統對於個人信用分數計算是否存有歧視的問題?一般人會認為沒有問題,理由在於,關於信用分數的計算是針對個人的「信用歷史」,比如是否超借現金、是否逾期還款、是否未繳款等。這些因子都是個人過去行為所導致的(How have you behaved in the past?),而不是以跟個人有關的群體去衡量計算(How have people like you behaved in the past?),因而不被認為有歧視的問題。

在此,需要思考的即是:後者這種以跟個人有關的群體去計算評估的方式究竟是否可行?這種統計學上通常能成立的模型,是否容許被應用?又如何去面對被錯誤分類而造成「波及損害」(collateral damage)的個人或個案?比如說,一個人可能只是因為剛出社會很窮因而住在較差的區域,由此去推得其容易再犯、容易脫逃。這樣是否要容許法院在審判中進行運用以及考慮?刑事審判中應該要如何去處理這樣的問題?

參、現況:刑事審判中的統計證據

在美國法的討論中,一般禁止運用統計證據直接去導出無罪或有罪的結論,而只能以輔助周遭事實的認定。以People v. Collins, 68 Cal. 2d 319 (1968)一案為例。案例事實為一對夫婦被指控為強盜案嫌犯,被告夫婦的外型特徵包括:丈夫為黑人,有時下頷蓄鬍;妻子為金髮白人;目擊證人在審判中證述看到嫌犯具有這類特徵。審判中,檢方的主要任務是說服法院:被告確實即為搶匪。檢方以統計專家做為專家證人,提出「搶匪恰好與本案被告具有相同的上述種族與外型特徵之可能性」僅有一千兩百萬分之一的意見。比如檢察官主張金髮女性又綁馬尾的機率為十分之一、黑人男性留有落腮鬍的機率為十分之一、白人女性與黑人男性結婚的為百分之一等;而把這些獨立事件的機率乘起來,即為這件事會發生的機率。最後,法院作成被告有罪的判決。

本案判決後經上訴到加州最高法院而被廢棄。加州最高法院提出的質疑有三:第一,這樣的判斷欠缺實證的基礎;第二,這幾件事情並非獨立變項,計算方式即為錯誤;第三,這樣的統計證據使用會誤導陪審團。就此,即能說明對於統計證據的運用即涉及關於數學的計算,而可能成為數學帶來的毀滅。

回到我國刑事法院中使用的統計證據。首先看台灣高等法院102年度上易字第2280號刑事判決:「實務上常針對DNA-STR型別實施檢測,將檢體之細胞核DNA進行分析,取得15組STR數值與性別染色體,再以統計推論所得之特定人口中DNA型別重複出現頻率為基礎,計算15組STR均相同之機率,如該機率數值甚微,代表該特定人口中幾無可能出現另一相同DNA-STR型別之人…足徵被告確曾至遭竊現場飲用上開寶特瓶所盛裝之飲料,是被告前開辯解,並不足採。」事實上,這樣的關於DNA的統計證據的使用方式,在我國與DNA有關的判決中,法院都會如此主張。

再來是關於血中毒品濃度的判斷,關於毒品濃度多少才會導致不能安全駕駛在法律中並未有所規定,而在最高法院的這個判決中,例如最高法院107年度台上字第205號刑事判決即表示:「況所謂不能安全駕駛,非係以瀕死亡、休克為判斷標準,法醫研究所經參考各國統計分析結果,認定血中甲基安非他命在500ng/ml以上,即構成不能安全駕駛,係依一般客觀情形判斷,常人若施用毒品達上開尿液濃度,已達不能安全駕駛之狀態,上訴人既已符合上開要件,應認已有不能安全駕駛之情。」由此,我們也可以看出,法院認定的方式是透過「其他人的情況」來判斷衡量在使用毒品的情況個人是否不能安全駕駛,而不是該個人的情況。

此外,尚有關於醫療糾紛的案件。在最高法院102年度台上字第809號刑事判決中,最高法院表示:「又脂肪栓塞除了造成肺部血管之栓塞外,全身其他器官血管是否都會有可能發生栓塞?腦部發生機率是否最高?…統計上,在沒有被考慮『脂肪性肺栓塞』診斷的病人中其死亡率多少?…敗血症、脂肪栓塞、血管內凝血溶血症(DIC)、肺部感染後導致之敗血症,是否均為引起急性呼吸窘迫症候群的原因?統計上,其死亡率若干?」亦即,最高法院認為前審未考慮脂肪性肺栓塞的死亡率是多少以及其所引發而導致之後的敗血症在死亡率上又是多少?然而,問題在於,法院就算考慮了這些統計數據,是否就能在個案中認定醫生的操作有過失?

在證券交易法領域也有關於統計證據的使用,關於內線交易的消息重大性又應如何認定?最高法院即有認為應將事件發生的或然率(可能性)列入考慮。

Photo by M. B. M. on Unsplash

肆、討論:比較的對象

由上想提出討論的是,對於統計證據的使用,加入AI的判斷來輔助會不會比較好?這又可以分為兩個層次來討論。第一,使用統計證據本身是否即為一種偏見?而這有幾個可能的回答選項:認為是偏見,因為是利用個體所屬的群體進行判斷;也可以認為不是偏見,因為證據的性質或者證明的本質就是如此。第二個層次的問題是,法院審判中,原本即容許統計證據的使用,是否也應容許使用AI輔助法院判斷?而這也有三個可能的選項:第一,一概的允許AI進入輔助;第二,在原本容許使用統計證據的類型,讓AI可以進入輔助;第三,一概的不允許。

問題與討論(敬稱省略)

李建良:

在People v. Collins一案中,第一審陪審團認定被告有罪,不需要有理由,但上級審法院認定第一審判決有問題。上訴審廢棄第一審判決,如何認定第一審陪審團的判斷的理由?於此想問的是制度上的問題。

蘇凱平:

在美國的審判制度下,對於事實審的審判是不附理由的。在此之下,上訴審不會去認定一審判決理由錯誤,而是看「上訴理由」是否有道理,也就是去看指摘一審錯誤的理由。

黃詩淳:

這邊討論的證據的意義是什麼?我們在討論的統計的東西比較像是經驗法則的問題,那在美國法上是證據的問題嗎?那要怎麼去思考這樣的證據能力的問題?

蘇凱平:

關於證據能力的討論是重要的問題,也就是是否能將這樣的證據呈現在陪審團前。有時候會有premier hearing,由專業法官先判斷證據有沒有證據適格而得以做為證據;有時候會是在審判中爭執,由辯護律師和檢察官在審判過程中爭執。但在本案中情況如何並不清楚。

陳弘儒:

這個案子可能的詮釋是,檢察官用的是機率論;然而這個在統計上的問題是,條件機率還有貝氏定理,是比較後期才發展出來的。在這樣的基礎上,再去應用於在既有的證據上,去檢驗對於假設成立的可能性有多高。因此從學科史的發展來看,可能再當初的確是有一個落差存在。

另外一個討論是,在COMPAS的情形,我會很好奇為何法院最終會認為算出來的數字是個別。也就是說在數學運算上,關於權重的設計並非針對個人因子,而是群體結構所得出的係數。還有一個問題是毒品案件的那個問題,我認為法院在此並不是在使用Proxy,因為那還是國外的數據。

蘇凱平:

關於COMPAS公式中的權重,我也不認為這是完全個人化。在它的手冊當中,它就寫這是經過研究之後,所得出的數字。所以我們也可以理解為何美國的多數州並沒有採用這個系統。

陳弘儒:

我的意思是,它是拿國外的數據,所以不是proxy概念。因為台灣沒有這部分研究,我們看不到數據。我認為這邊只是把國外研究套到自己身上,而不是到使用替代指標的概念。

邱文聰:

這邊有幾個概念可以再釐清。你這邊似乎把proxy和個人化因素混淆在一起了。zip code是一個proxy,但它還是會指向個人化因素;這跟國外的研究能不能引用,又是另外一個層次的問題。你的比較核心的攻擊點應該是在說,個人化因素不可能是真正的個人化。使其看起來像個人化,但它還是建立在個別的人所屬群體的統計上的特質。

蘇凱平:

在這個意義上,是不是沒有所謂的個人化因素呢?

邱文聰:

所以真正的核心問題是,我們在什麼樣的情況下,可以合理使用統計證據?而這會繫諸於制度設計目的到底是什麼的問題。比如我們要雇傭一個新人,我們就是基於它過去的表現來預測他未來的表現。但他還是基於一個一般化的因素,也就是相較於一般同儕的表現去比較。所以從這個角度來看,統計證據的使用是有效且符合目的的。而在刑事審判上,也是要看的是統計證據的使用有沒有符合目的。

蘇凱平:

除了按照制度目的來判斷是否合理外,也有人討論的是手段是否合理。也就是具體使用的因子到底是否合理,對於制度目的之達成是否妥適。

林勤富:

我也覺得COMPAS不是個人化的計算方式也沒辦法達到。最高法院也不這樣認為。所以才要加警語說,這是基於群體所得的資料。但從制度設計來看的話,COMPAS建議的風險值不是一個個人化的數值,所以只要法官不要完全使用,然後有參考其他資料的話,他某種程度上就已經達到個人化的考量。

何之行:

我們對AI的要求是希望能夠透明。而關於COMPAS權重因子都已經公開,該當事人就可以做一些行為選擇來改變結果。但在統計證據上,他的透明化以及揭露可能性對於當事人來講是不是很難做一個行為選擇?

蘇凱平:

如果很廣泛地以統計資訊來說,去改變是有可能的;在刑事法比較已經確定而無法改變的事。

楊岳平:

關於COMPAS再犯分數的計算,他的問題不是在於能不能做這樣的預測,而是他用的有些因素是不合理的因素。比如:年齡、職業教育程度等。關鍵應該是在於用了什麼因子在裡面。

蘇凱平:

而這些是行為改變動機,不一定是壞事。而在此例子中,比如暴力犯罪史,站在法官面前已經不能再被改變。但是像職業教育程度,在死刑無期徒刑的案子中就會盡力去主張,而也有法官真的會去進行考量。

邱文聰:

我記得COMPAS是137個因子,然後現在是濃縮成五個變項。那他跟我們想像的人工智慧的訓練不太一樣。因為這裡是人類挑選五個重要的因素,而AI是他不知道那些因素會影響再犯。所以COMPAS他應該不是用機器學習得到的公式吧?

黃詩淳:

COMPAS現在是用機器學習方式得到的。

蘇凱平:

是。過去沒有機器學習是用分析案件所得到,後面才加機器學習。

邱文聰:

會問這個問題是因為在談機器學習的時候,會說機器學習的東西不需要理論,而是讓它下去跑。而現在這看起來像是理論,用來引導特定行為的改變。應該是不一樣的徑路。

陳弘儒:

我認為應該還是有用機器學習,但問題在於權重的意義如何。透過機器學習的類神經網絡才連結時,GOOGLE也搞不清楚意義是什麼。所以如果權重是透過機器學習,那麼意義為何才是需要被思考的。此外,更大的挑戰在於,過去的資料是否可以精準未來。

蘇凱平:

這邊法院是說不可以只用COMPAS去判斷,所以這是應與不應的問題。而不是說AI在技術上做不到這樣,但剛剛弘儒講的是技術上做不到。所以你應該是覺得如果技術上做得到就可以。

吳建昌:

我比較質疑的是預測模型,我們都是餵資料給AI。所以如果拿30年前的資料訓練出來的AI也無法用於現在的情況。而在預測再犯這件事,有太多事情要做了。而且未來的社會環境情況也一直在改變,我不覺得AI也可以預測未來的這些事情。很多情況都還是用猜的,而我們可以接受多高的失誤率?

蘇凱平:

預測這件事情畢竟是預測,能不能做得到跟應不應這樣做還是兩個問題。

楊岳平:

補充一下FICO的部分。他事實上也沒有把所有可以用於預測的因子都放進來。比如說種族沒有放進來。而些因素之間都是進行權衡。而設計系統的目的絕對不會是單一的,而有其他需要平衡考量的目的。因此哪些目的應該要被考量才是關鍵,這還是需要有人去做價值判斷。

蘇凱平:

最後如果要一個改變行為模式的效應,還是需要手段和目的去配合。

張兆恬:

我國法的四個例子,使用的統計證據,應該是處理不一樣的問題。比如說毒品那個是在處理有無安全駕駛能力;而醫療糾紛的案子,處理的問題是討論機率問題。而這是處理不一樣的事情,所以討論要不要應用統計證據的時候,所要考量的事情是不一樣的。

蘇凱平:

而這些確實都是不一樣的。

高國祐:

想請問老師所討論的統計證據究竟所指為何?因為感覺有的是針對構成要件的解釋,有的又是針對個案中的事實判定問題。前者比如說對於毒品濃度不能安全駕駛的程度,到底多少是不能安全駕駛去進行定義,而這是大前提的問題;後者比如說醫療過失的案子,去個案認定事實有沒有未考量具體的死亡率。不知道這個是在美國法中對於證據會這樣使用嗎?因為前者應該不是用證據去認定個案事實的問題。

蘇凱平:

在英美證據法,證據法是全部都包括的。

林昕璇:

關於COMPAS的應用有沒有發展出可解釋性的AI,去彌補刑事審判實務上可能受到的透明性與黑箱的批評與挑戰?

蘇凱平:

在美國的案子中是用應然面去做規範,也就是規定不能只看AI所跑出來的結果去判斷。而在我國法上制度上沒有相關的討論。而在我國的量刑資訊系統只說可以參考,但還是要在個案中進行具體的認定。

李建良:

總結而言,需要分幾個層次思考:首先是AI運用在司法審判的角色,是輔助法官,或取代法官?截至目前的發展,似乎只能可能輔助法官,還做不到取代法官。既然AI只是輔助性法官做判斷,最終的決定權還是在人,在於法官,而法官原則上還是要透過訴訟程序直接「看到」當事人,這是AI沒有辦法取代的。其次是,AI若只是作為輔助性工具,那AI與法官(人類)於審判中扮演的比重為何?法官是否應無條件地接受AI(機器)分析的結果?在COMPAS一案中,關於再犯率的分析是以「過去」的數據為基礎,並未考量到系爭案件的情節,也就是說,法官在考量被告有無再犯的可能時,還是需要斟酌當下審理案件的情形,也就是本案的犯罪事實與內情,但COMPAS公式並未納入此等因素。此外,統計數字的應用還是要回到特定的規範面暨法秩序之下,進行分析考量。於此尚須區分「證據認定」(事實存否)與「法律評價」(事實是否該當於法律的評價)兩種層次的問題。例如凱平老師舉的例子中,有一些不是證據認定事實的問題。比如說汽車駕駛人吸食毒品濃度多少才會導致「不能安全駕駛」?對此法律沒有明定濃度,所以何謂「致不能安全駕駛」就需要進行解釋與判斷,但這不是證據問題,因為駕駛人吸食毒品「罪證確鑿」,而是法律評價的問題,也就是說,汽車駕駛人吸食毒品的「濃度」多寡,始能被認定其「不能安全駕駛」?