AI與刑事司法系統

人工智慧與法律規範學術研究群
第二年期(2019-2020)

第十一次會議(主題一)
2020年5月28日(星期四)

主持人:李建良(中央研究院法律學研究所特聘研究員兼所長)
主講人:蘇凱平(臺灣大學法律系助理教授)

◎ 整理:洪于庭
◎ 定稿:李建良

Photo by Chris Brignola on Unsplash

今天與詩淳老師一起報告AI與司法系統的關聯,我負責處理刑事審判有關的議題,詩淳老師做民事的部分。原則上我們有些共通的部分,涉及司法的基本原理或法官與AI基礎關係,由我先做開場。內容分成三個部分:技術理論、AI與法官/司法系統的運作、AI與刑事審判中的機制,最後簡單結論。

導論:從理論和謬誤談起

一開始談大家熟悉的所謂Waves of AI,一般分為三波,對此絕大部分老師都十分熟悉了,這與刑事司法系統或是刑事審判所需要用到的能力有密切相關。所謂的第一波AI停在描述事情的層次,有人說是人造的知識庫、智慧,英文有人說是crafted knowledge或是hand-crafted knowledge。事實上,重點是由人類告訴AI要做什麼,所以是非常的rule-based。所謂rule-based,最早在接觸此概念時,聽起起現像是法律的世界或是實務界,真人法官在適用時,也是rule-based的,就會有相應的聯想。

隨著科技發展,接下來就走到第二波AI,是現在的主流,有人將之稱為categorize或是statistical learning,較常聽到的是machine learning,是由機器通過特定領域的資訊提供,幫「自己」找出規則,而非承受由人類、其他知識者提供的規則,這是與第一波不同之處。所以第二波的重點是「機器學習」,特別我們在談深度學習時,這樣的概念如何發展機器在思考問題、學習上,有如人類的神經系、神經元的運作方式,這是所謂的第二波AI。

第三波現在較有共識了,最早創生此名詞時,只有停留在第二波AI,花了一段時間,大概在2010年後,在技術上較容易做到。如果AI是黑盒子很難說明理由時,可能會造成在運用或理論上的缺陷,慢慢走到第三波AI的重點是解釋為什麼會做出該決定,有人稱為白盒子(Whitebox AI)。不同於黑盒子,相對來說有方法知道決定如何做成,也有人稱為「脈絡性的調適」(contextual adaptation)。做法很多,譬如給AI的資料做一些變動,看看AI的結果會有何不同,不斷微調,慢慢找出如操縱變因,是否會造成AI在判斷上結果不一樣,因為原因變動導致結果不一樣,這是一種方式。

在審判的過程中或是刑事運作的過程中,人類法官所需具備的一些能力,包括剛剛提到的,在第一波的地方是rule-based,包括在理解、涵攝、分析,人類法官達成結論時,透過人類腦部神經元作用導出一個結論,我認為會與第一波、第二波AI會有類似的地方。

AI與法官/司法系統的運作

我們常討論AI是否有可能取代法官的問題?

今年四月下旬在最高法院有一場「具參考價值裁判評釋」的研討會,我評論其中一個與量刑有關的判決,討論如何運用量刑資訊系統幫助法官達成判決。量刑的運用量刑資訊系統本身在國內尚非主流,但是該判決被高院選為具參考價值的裁判,故有特別評論的價值。於會議中,即有一位庭長提到AI是否會取代法官的問題。

1. AI Fallacy(Richard Susskind)

英國最高法院首席大法官的IT Advisor,同時也是Society of county at law的主席Richard Susskind,對此問題提到一個概念,AI Fallacy。這個概念有許多層次。一般來說,當我們想像法官是否會被AI取代的時候,大家的結論通常是「不會」。不會的原因,可能是法官要思考、判斷的事情眾多、複雜,只有人類做得到。Susskind就指出:人類會這樣想這本身就是一個Fallacy,是一個認知上的謬誤。我們在想AI是否會取代某個工作時,我們想像的都是The way that Humans do(人類是這樣做的);因為AI似乎無法像人類一樣,如此細緻的在思考,故AI做不到,因此不會取代人類。從技術觀點來說,這個想法是較舊的想法。Richard Susskind認為AI只能做人類能做的事情,這概念可能是不對的,特別是在法院裁判。就法院而言,無論刑事案件或民事事件,可能大家會定睛在審判的結果上,以刑事法院為例,到底被告有無成立犯罪,可能是大家比較關心的。譬如最近眾所矚目的「嘉義殺警案」,判決無罪結果出爐後,輿論譁然。大家不見都有看或看得懂判決的理由,但大家聽到無罪的反應卻很大,可見大家很重視結果。結果如何才會被接受,這點可以再討論,但如果結果是這麼重要的話,我們可以想像AI可能給出一種結果,是社會大眾、人民所期待法院、法官做的。因此,AI不須要用法官一模一樣的思考方式,還是可以達成大家滿意的結果。所以,故那天在高院的研討會上被問「AI是否會取代法官」的問題時,我的答案是,如果是問AI是否會用人類法官思考的方式處理案子,我認為是不會。但我保留的是,如果我們容許用AI判決而達成令人滿意的結果,不問是用何種方法,那是不無可能的。

2. Turing Test: The Imitation Game

英國電腦科學之父Alan Turing的圖靈測試,他就是集中在結果上,Turing在1940年代時發展出的測試標準,右邊是他提出雛形的概念,A是電腦,B是人,C是訊息接收者、聽眾。在概念上,由A(電腦)盡可能模仿B此人類會做的事、反應,C在不知道AB哪個是人類、電腦的情況下,C由AB所交出的資料、回答的結果C來判斷哪個是電腦、人類。如果C最後判斷不出左邊是電腦,這就達到Alan Turing所設定人工智慧的標準,這就叫模仿遊戲,電腦、機器模仿人類。圖靈測試整個思維也是集中在結果上,過程中,A如何能達到這件事不論,最後的結果是希望能夠混淆AB的程度,為了要達到該程度,所以著重在結果,如果過程不論,是否就有可能達到AI法官如果能做出社會大眾能夠共同接受的結果,是否有可能取代人類法官。

3. 模仿遊戲與法院裁判的關聯思考

進一步思索會發現,模仿遊戲聚焦於行為最終結果,適用於法院判決中,有兩種可能性。因為,當初Alan Turing提出此概念時,並非針對online judge、AI judge、computer judge,其實未作較細的分化。如何才會通過模擬遊戲,機器的呈現是否像人一樣,而所謂像人一樣有兩個標準。第一個是A與B做出的是否一樣,第二個可能性是從C的觀點出發,即閱聽者、收看的人、決定者,A有無到達B的水準,這其實是兩種不同觀點。

我們會發現機器的呈現是否會像人,AB是否類似有不同可能性。一種可能性是電腦的反應是否可能與一個抽象的、想像中理想的法官是一樣的。第二種情況是特定的某一法官,很多時候與法官討論AI是否能取代法官,都是基於此觀點討論。因為法官們是用自己想像,他會想像自己判案子有多複雜、當初費了多少力氣才做了合適、各方都滿意的解決,AI如何能做到?中間有太多資源、人際關係、社會脈絡、經濟考量要考慮,法官們想的是自己特定的標準。我們所謂AI有達到法官標準的這件事,未必要滿足此特定法官之標準。因為並非法官每天都會處理到如此困難的案件,其他法官有無達到法官的一般標準。第二個觀點是從C的觀點來看,機器的呈現是否被人所接受,從模仿遊戲的觀點可以解釋為,如同剛才提到AB表現如何是由C決定,而C的決定可以說是追求絕對的正義觀,也可以說是世俗化、民主主義的觀點,能會是一個讓社會大眾所能接受的標準。像是最近在討論是否由專業法官制度變成由人民參與?人民參與,到底是要參審還是陪審,其實就在討論這件事。從第三人的觀點,到底什麼方式是社會大眾會滿意,當然這邊會有傳統法哲學、刑法學的討論。就刑法而言,為何要讓社會大眾滿意,會有既有傳統論述的討論,我只是拿來在論述詳細些,結合圖靈測試分析,可能會有這幾個觀點可以思考。

4. 三段論法的AI謬誤和探索

Richard Susskind提出AI Fallacy的三段論法,如果我們從三段論法的觀點來看,我們可以理解AI Fallacy到底所指為何,為何很多人法官或律師會認為其工作如此難、複雜是不會被取代的,是因為大前提是有偏見的。人類的思考模式是唯一可以接受的標準,我們在處理法律案件時,法官或檢察官會認為其方式最理想,如果要說AI是否能取代他,可能須視AI是否能按照他的方式做事,因為AI無法像法官用法官的方式來做事,故AI不能當法官。如果設定只有人類當法官後續就無需討論,就無討論機器法官的可能性,而自始排除這件事。就像社會或是司法政策機關有共識是只有受過專業法律訓練的人才能當法官,那就無用討論參審至、陪審制。如果這個前提不成立,不要求機器一定要與人類有相同思考模式才能解決問題,我們容許機器用別的方式解決問題,而該方式是大家可以接受的,包括涉案的當事人、社會大眾可以接受此標準,AI機器取代人類法官的一部分工作,或是刑事司法中的一部份工作,就並非不可能。

這裡附帶提到,Turing的貢獻,首先是將人類智能用演算法模擬出來。第二個是他將人類智能提出新的觀點。在模擬的過程中,人類重新了解如何思考一件事。在這過程中,我認為有很大的典範轉移,從最早1954年Turing過世,直到1956年在Stanford史上第一次的夏令營,參與該夏令營者都是後來AI的開創者,最早他們在了解AI討論的事情都是,我們如何透過AI發展更了解人類智能,到現在很多領域,AI現在更多的是,它能幫我解決問題,特別是醫療診斷領域,AI能做的比人好。AI如何能做的比人好,有一部分我們是不了解的,但是大家不介意使用它,並非大家不在乎人類智能或是人工智慧,而是說在很多領域,大家更能接受如果可以確保很穩定的解決問題有何不,這個概念在法律系統、審判系統是否適用,是後面會討論的問題。

Photo by Tingey Injury Law Firm on Unsplash

除了邏輯推理外,另外有許多東西也是我們在意的。任何國家的人民在詬病他們的法官時常常會說,法官有情緒控管的問題、有意識的偏見。譬如對於被告是年紀輕的孩子時,除了透過刑法第18條減輕外,法官還會因為個人的憐憫而減輕其刑,因為法官認為這是對的偏見,這還是法官自己有意識到。更多的情形是,法官無意識的偏見。美國有許多文獻集中討論種族、性別歧視的問題。在這些情況中,我們可以認為在情緒控管方面,AI不會有人類的問題,因為AI不會失控。廣泛的說,有關情緒控管的問題,AI能夠做得比人好。人類可能因為各種生活問題而情緒受到影響,但AI不會有這樣的問題。

關於有意識偏見的問題,如果人類有意識到此一問題,而在給定的資料中予以排除,似乎也能夠排除。大家比較擔心的是「無意識的偏見」部分。我們給AI的資料本身,如果有意識的偏見怎麼辦。這部分與信賴AI與否有本質上的關係。譬如自駕車,從數據上觀之,自駕車雖然也會發生事故,但比人類駕車的機率低很多。但只要一發生,大家就認為不信任自駕車,特別是有人死傷,不相信的比例就大幅上升,可是自己駕車不是也有可能發生危險嗎?

因此,我導出的想法是,是否有可能往「人機共作」的方向發展,如果不要這麼快走到機器取代人的議題,至少人機共作是有可能的。因為機器可以更好的處理關於邏輯的問題,邏輯以外的問題譬如情緒控管、有意識偏見,機器先天是不會發生。如果沒有特別輸入,資料已經特別排除有意識的偏見,就有可能以機器取代人處理法院的事物。最近有一篇UCLA法學院教授Eugene Volokh的文章,題目是「Chief Justice Robots」,即是站在此原理上,認為美國法官是有可能被機器取代,各位有興趣可以參考1

AI與刑事審判中的機制

1. 刑事審判的運作機制

接下來就落到AI與刑事審判較直接的部分,我集中在刑事審判,是因為到目前為止,刑事司法系統程序很長,包括前階段的偵查,還可以分成檢察官以外的偵查,譬如警察調查、接獲報案等,包括在檢察官偵查階段可能會聲請羈押、法院是否裁定羈押,到法院審判,而後執行,就是我們說的偵查、起訴、審判、執行等四大塊。在這四大塊中,AI都有運用的可能。譬如利用COMPAS(Correctional Offender Management Profiling for Alternative Sanctions)系統,從各種資料中分析被告有無危險性,以決定被告應不應該保釋、保釋金應該設定多少,但COMPAS系統後來被認為有歧視問題。在審判以外層次,較多的是技術運用,有可能走向AI的方向,有可能不用,這些部分會有很明顯的協助性技術(assisted technology, AT),在刑事審判中可能會是大家最關心的地方,因為有較多人需做決定之處。當然在刑事審判外,也有許多需要人做決定之處,譬如警察,我國警察的處分權較少由檢察官處理,那檢察官是否要起訴也都是決定,類似的決定在刑事審判中都觀察得到,而且是相對好觀察、好比較。如果我們要比較AI做的決定是否正確,審判程序是一個較好觀察的地方。因為偵查是不公開的,審判程序原則上是看到的,可以用人類法官、AI法官做比較,故我用此說明。運作機制大概是這樣,一開始法官認識法律,在認識法律的過程中一些較新的法律規範,法官個案中才碰到的,譬如廢棄物清理法,認識法律、法律的條文內容為何,這是刑事審判的機制。個案中認定事實,會分成法律事實與自然事實。法律事實與構成要件有關,自然事實輔助形成。判斷證據最基本是分成(美國法上)文件、供述(testimony)、物證部分,最大關鍵在認定犯罪,就是涵攝以上過程得出結論,這件事到目前為主,不管是任何的審判制度,大概前四點應該是一樣的。但是在認定犯罪涵攝得出結論認為有犯罪後,在有無需要附理由這件事,在不同審判制度就有不同操作方式。最近討論很熱烈的參審制和陪審制哪樣符合我國國情,反對陪審制的觀點就認為,譬如美國的陪審制是不附理由的,當然有其他國家陪審制是可以交代理由的。但是至少在人類社會中,有相當的矚目的勢力讓我們知道犯罪認定的過程中,人類法官、人類審判者的理由在某些案例中不附理由,人類也可以接受。例如O. J. Simpson的殺妻案刑事案件,判無罪係陪審團的決定,陪審團也無交代理由,理由這件事不一定會具備。最後是無罪當然沒有刑罰,認定有罪就有量刑的部分,這大概是刑事審判較完整的過程。

與刑事審判所需要AI做比較,需要AI的技術能力為何,大概會需要這幾個能力,一個是整理事實資料的能力。整理事實就包括認識法律、認定事實、判斷證據,這邊所需要的能力就是先前在講第二波AI的重點categorize的能力,將事情分類,分類後再處理,人類學習也不外如是,透過類比方式,這是人類認知方式。第二個是抽象涵攝的能力,主要是認定犯罪部分,還有涵攝以上三者,這是一般認為較複雜的能力。

我問過一些法官,他們基本上都不會認為AI沒有能力整理事實,法官認為自己比AI強的地方是如何抽象涵攝這麼多資料。再過來是計算能力,最主要與量刑部分有關。最後是說明理由的能力,目前是被認為較欠缺的,也就是最前面我們介紹第三波的AI,要將黑盒子換成白盒子,要說明理由這件事技術上還在發展中,被認為AI還較弱的部分,相對人類法官所操作的制度確實有一塊是不要求審判者說明理由的,要求整個程序進行是對的,結果是大家可以接受的,說明理由是AI較弱的,但在刑事審判上並非致命。

2. 三段論的邏輯推理

為何對人類有信心,而認為審判工作是AI機器所做不到的?如果回到法律人所學的依法審判過程、基礎理論、原理在操作時,會發現其實與機器原理沒有很大差別,甚至是系出同門的。如果我們能接受人類法官的審理方式是一個三段論的推理邏輯,這些邏輯從西元前四世紀亞里斯多德提出,透過各種已知的前提,其實與演算法類似,甚至與第一波演算法都很類似,即規則if, then,這個過程其實與解答或是證明科學方程式,要求嚴謹的思考,這其實是電腦科學、AI發展的核心思想。其實,我們的三段論述反而是與AI很接近的。有許多的學者如德國的萊布尼茲(Leibniz),他認為人類的推論能力應化為數學運算。在十七世紀、十八世紀沒有電腦的概念就提出二元的表達方式,如構成要件,人有無死亡,有或沒有,是否會限制行為能力人,有沒有這件事他認為人類就應該如此思考,事實上也是機器的思考方式。包括貝耶斯(Bayes)、布爾(Boole),布林邏輯的來源,事實上他寫過一本書「The Laws of Thought」(1854年),對於人類既有的哲學家、思想家,在講人類的推論能力都與數學掛上直接關聯性。由此可見,人類沒有很充足的理由相信自己能夠想而電腦不行,電腦的思維模式可能比人類更符合,亞里斯多德、萊布尼茲等一路以來提出的三段論嚴格的邏輯推理模式。

3. 小結

法律世界的三段論法:大前提、小前提、結論,機器目前為止已經可以很好的回答。絕大部分我們認知到IQ那些智商測驗推理的問題,如果機器能夠解決,那麼在三段論法的概念中為何會認為AI做不到?AI很可能會做不到的是附理由。事實上,我認為這是可以突破的。但至少AI要認識規則將規則分類,認識個案事實,將個案事實分類,哪些是個案事實、要件事實而需用刑法來取締?運用、以資料訓練,好像無法認為AI一定做不到,所以是否為Richard Susskind所提出的AI Fallacy的概念。很多時候,我們一直在執著人類腦袋運作方式是這樣,AI一定要與人類腦袋運作方式是一模一樣的。事實上第一點他AI可以不一樣,也可以達到人類需要的公平正義的結果。第二個是AI的運作方式與人類腦袋的運作方是,除了不能解釋的那一塊是很類似的,進一步推論,大家想到AI會認為量刑或民事損害賠償額度上較能運用,這可能也是一種謬誤,因為光是認定事實、認定法律涵攝,AI都有可能做的與人類一樣好,這不是不可能。

結語

法院審理案件的結果,包括結論與理由。如果認為要讓社會大眾接受結果是重要的,那就並不拘泥於一定要是人類法官思維方式達成,我這邊舉了「Power Drill Thinking」,人類社會要的判決結果可能是,我只要牆上有個洞,要插釘子掛東西,我可能去Hardware store,可能推薦我要一個電鑽才能打一個洞。但我不想要一個電鑽,我要的是洞,我要的是結果,而不是一整個人類思維,我只是要法律上、經濟上、整個脈絡上、文化上能夠接受的結果,人類並不一定會做的比AI好,AI不一定不能取代人類。

裁判的理由,之後有可能走向白盒子,那就算AI不能解釋理由,我們來看法院裁判的理由有多重要,大概三個重點。因為有理由我們才能審查裁判的結果是否正確,所以美國製的陪審制就沒有審查事實認定、包括認定結果正確與否的部分,他從二審開始就是很強的法律審性質,因為沒有附理由也無從審查,有理由可交代過程的正當性。最後結果,有理由的存在,好像讓我們認為裁判的存在較獲得信賴,這是裁判理由上的重要性。我們姑且講說,如果AI做法官,AI還無法很清楚的交代理由這件事,這三個的傷害為何。我認為應做更細的思考,我個人認為這三個,除了第三個較為先驗性的,本身是否認為AI所做的判決是否的信賴,人類社會是否能接受機器做的決定?有些國家能接受像愛莎尼亞已有機器法官的設計,如果我的國家能接受,結果正確與過程正當都可以透過其他方式確保。

有些反對AI法官的觀點會認為偏見等,有個觀點是認為因為人類法官的存在就有不確定性,不確定性就有可能帶著我們往前進,很常舉Brown v. Board of Education,以前美國社會認為隔離且平等,該案中認為隔離本身就是不平等的。那就是一個不確定的變異,因為如果按照之前判決觀之,並不會走到這。所以有人就認為不確定性是我們要確保的,因為就只有人類才會有。有些人觀點與此類似但不同,他們認為人類有insight,機器則無,這個觀點是否證明人類的判決,會有不確定或難以測量的事,判決中不確定或難以測量的存在是否是好的,可能會發生不好的結果,不確定性可能存在於因為法官情緒差,判決就叫嚴厲,不確定性不一樣是好的,似乎反過來證明機器法官是否會比人類法官好。有個有名的例子是以色列做的「Coffee Break Research」,專家進監獄決定是否假釋的決定,實證研究者研究發現,這群專家剛去上班一開始都很寬鬆決定,後來就越來越嚴,中間有個咖啡休息時間,休息結束後審查又變寬鬆,之後又變嚴格。人類會受到各種因素影響。美國法官有說過,正義就是法官那天早上吃了什麼,當然這是非常極端的說法,但可以告訴我們不確定性不一定是人民想要的。

Image by Somchai Chitprathak from Pixabay

最後講一下量刑,這是我國刑法第57條的量刑事由,理論上是法官要衡量這十項決定量刑,多數老師都十分清楚這十項的量刑是如何得來,這十項量刑並非一、犯罪之動機與目的給分,即非個別給分量刑加總量刑。人類法官的量刑是,刑事判決的最後一項會是科刑,科刑的內容中會按照事實動機等將這些抄上,行為人因故與人發生口角,因為他人被髒話所受刺激,又衡諸家裡離婚、高中畢業知識程度,就將此寫過一遍,一個型的結果就產出量八年四個月,我們也無法得知八年四個月的理由為何,人類法官的量刑是這樣,量刑部分也無法給理由。如果人類量刑是這樣,機器來做會比較差嗎?我個人存疑。其他相關討論之問題,後續詩淳老師都會提到包括民法與普通法的部分,刑法與民法是否更適合AI機器、Online Dispute Resolution(ODR)。

在AI與審判的討論中,經常會有兩的詞彙交互出現,其一是「reliability」,客觀上是否能信賴該審判結果,即大眾是否能接受;其二是否有無信心,即「confidence」。自駕車的例子就可以清楚看出,譬如自駕車的肇事率顯低於一般人類開車的肇事率,客觀上我們是可信賴的,但是一旦出事,即便出事的機率還是比人類低非常多,人類就主觀上對自駕車沒信心,如果以模仿遊戲的方式,告訴人類這個案件事實、法官作出的結果為何,可能大家對於判決都能接受,然後再告訴大家這是由機器法官做的非人類法官,會不會很多人就認為這樣無法接受,這就是「信賴」與「信心」問題。機器是否得在一部分領域替代法官工作,到底只是技術層次暫時限制,譬如認為判決理由這件事是很重要的,在技術上從黑盒子走到白盒子過程中,有可能在第三波AI中只是暫時限制,技術上有可能被突破。如果認為一定要附具理由且必須是人類思維方式做出,可能會有本質上困難,AI就不能做人類法官所做的事情。最後是「人機共作」的可能性,事實上,機器要局部取代法官工作這件事,很多人會擔心結果是否正確、過程是否正確等,要確定的是code是否正確。結果是否正確這件事,像愛沙尼亞的法院透過人類法官的審查,一審是由機器法官,對一審不服的有權利可上訴二審由人類法官審查,人類法官也有撤銷率、維持率、上訴率的問題,有無可能用上下級審關係操作,或是在陪審制、參審制中,專業法官與國民法官間的關係共作,用這種方式確保結果的可相信性,或是作為過渡階段過渡到慢慢使機器做部分的審判工作,這十年內都有可能會實現。

接續主題(二):人工智慧對民事程序之影響