Explainable AI: A Sociotechnical Process

公共性與AI論壇(二十二)

時間:2023/03/30(四)下午2:00-4:30
地點:中央研究院人文社會科學館9樓第一會議室

◎ 主講人:李韶曼(國立成功大學敏求智慧運算學院助理教授)
◎ 主持人:李建良(中央研究院法律學研究所特聘研究員兼所長)

◎ 整理:許雅琳、林宛潼

Photo by FLY:D on Unsplash

傳統計算機科學談論Explainable AI的缺失

講者在定義Explainable AI時,曾有些猶豫。這是一個社會科技互動過程中發展的現象,因此,講者在看待Explainable AI以及在學校講授這個主題的時候,總是與其多數同事有很大的不同。講者現任職於智慧運算學院,是當中唯一的法律專業人士,而同事們對Explainable AI的理解主要是從計算機科學的角度出發。儘管其觀點可被接受,但也看到他們的觀點所存在的限制,而這往往可能在傳統的計算機科學對於Explainable AI的討論中被忽視了。

當Explainable AI在社會中被實施時,會發現它不僅僅是計算機科學家需要考慮的問題,而是需要社會各領域的人一起參與,包含監管者、政策制定者和利害關係人等等。這些視角、視野和欠缺的結構、基礎設施和流程甚至是機構,才是Explainable AI實施的關鍵。這些事情從單純計算機科學的觀點而言,可能很難被看見。因此,講者將逐漸深入探索這些領域,並經驗分享。

在與同事們日常互動當中,講者認為Explainable AI是一個有機互動的過程和方法,彼此相互牽涉並交織。Explainable AI主要是讓使用者了解並信任機器學習演算法的過程和產出,以及演算法在生活中扮演的多重任務和角色。Explainable AI的興起主要是回應人們對機器的信任缺乏問題。「信任」非常難量化和捉摸,且涉及到多個方面的問題。正因為這種信任的缺乏,所以需要有很多回應的方式。在近期的人工智慧倫理問題的討論中,有許多很大的框架被提出,例如發展Trustworthy AI。而傳統計算機科學的解釋方法可能只是Trustworthy AI框架的其中一個環節,也是對於信任缺乏問題的其中一種回應方式。若我們將人與科技互動的問題看作是社會互動的一部分,我們會發現科技實際上只是互動過程中這個六角化多邊關係的其中一邊而已。我們經常忽略了支撐我們對科技的理解、討論和信任的文化面向,這可能涉及到不同的規範和程序,甚至包括速度和時間感。當然,這其中還牽涉到人們在其中扮演的角色,以及需要建立的結構和組織,才能使整個互動過程成為可能。

因此,在理解科技的時候,不能夠忽略這些複雜的面向。如果從Sociotechnical理論的進行觀察,當檢視傳統計算機科學回應人工智慧的討論時,立刻就會發現這些回應缺乏很多要素,因為只著重在科技方面時往往忽略了很多其他的面向。這也解釋了為什麼所謂的XAI,也就是用人工智慧來回答更多人工智慧問題的解決方法,在討論時常有許多缺陷。當中欠缺的正是講者指涉的Infrastructure、People、Goals / Matrixs、Procedures、Culture等其他要素。因此,當思考計算機科學討論的面向時,希望大家能夠意識到該討論往往缺少了很多重要的元素,從而成為講者思考此一問題的起點。

人工智慧演算法模型的信任問題

使用機器學習或人工智慧所引發的信任問題在近期已經開始出現非常嚴重可怕的後果。去年一篇引人注目的醫學期刊文章,係跨國研究團隊對胸腔X光切片影像偵測之研究。X光技術通常是透過放射線觀察身體內部的結構,故無法從影像中判斷患者的膚色或種族。然而,令人震驚的結果是研究團隊發現文中的影像偵測技術明顯針對種族產生顯著的落差反應,在所有種族中,黑人的判別率最低。

為什麼這個演算法能夠判別種族?為什麼它會發現它本不應該學會的東西?這已經超出該演算法最初被部署的任務範圍,因此研究人員對此現象感到非常驚訝。如果原本設計的模型是要找出人們想知道的資訊,那原先不知道的那些資訊怎麼會在其中扮演特定的關鍵角色呢?研究團隊認為整個演算法的開發步驟中並沒有任何和種族有關的因素,那為什麼最終卻在種族上表現出差異呢?這是一個尚未能解答的問題。

研究團隊事後回顧時,懷疑先前是否沒有意識到metadata中可能隱藏了一些種族相關的資訊。這或許是一種解釋的方向,但初步發現這個結果的時候,會覺得明明模型應該不會學習到這個資訊,這些資訊因素卻在不知不覺中被納入了,這意外的結果讓令人非常擔心。畢竟當AI模型變得越來越複雜、難以理解的情況下,萬一結果不如預期,而研究者又沒有足夠的能力可以掌握時,那麼其他那些我們已知或信任的AI模型是否也存在有同樣的問題。如果將這樣的模型應用在其他任務上,將可能帶來性命或安全的疑慮。因此,當研究團隊發現這樣的問題時,AI的信任問題似乎又被升高到了一個新的高度。

另一個案例是發生在美國法庭的審理過程中。2021年8月的某一天,美國發生了一起集會遊行命案。遊行活動進行時,當地的警察為了維持治安而與圍觀群眾起了爭執,在爭執的過程中發生了槍擊事件,不幸導致有民眾喪命。開槍的人聲稱他是出於自衛才開槍,但當時的情況非常混亂,要如何證明一個人是出於自衛而開槍十分困難。最後終於有人找到一個有點模糊的監視錄影器畫面,這是有關案發現場的唯一畫面,也只有這個角度和這樣的解析程度。這個畫面被呈到了法庭上,作為證明被告是否出於自衛而開槍的唯一證據。

在審理過程中,法官給陪審團每人一個iPad觀看這段畫面。出於平時使用手機的習慣,陪審團中的許多人都想將這段畫面放大。這時被告律師主張不能放大畫面,因為這麽做會牽涉到AI技術的使用。在使用Apple的照相攝影機功能或播放功能時,所呈現的影像可能不是原始影像的大小,而會受到影像優化和強化技術的影響。甚至在放大的過程中,影像AI技術會補充一些原始檔案中沒有的顏色或光線,從而可能導致誤判的產生。被告律師主張如果要讓陪審團可以放大看這個影像,那就需要有一個Apple的影像專家來作證,告訴大家這些AI技術的細節,以證明他所擔憂的情形並不存在,否則陪審團不應該放大觀看這個影像。最後,因為實在很難在短期內找來Apple的影像專家來作證,所以陪審團最後也只就能按照原影像大小進行觀察。

這個美國法庭案例說明,人們在很多時候並不了解生活中無所不在的AI技術的細節,甚至對於AI技術被使用於特定任務情境時,究竟能否達到任務的目標產生了不信任感。

Explainable AI紛雜的定義問題

近年來Explainable AI的發展很大程度上是為了讓AI能夠如實地達到其想要被部署開發的任務內容。我們必須確保這點才能建立信任。直到2021年的調查統計顯示,在確保AI能夠達成特定任務所需的重要價值因素中,透明度、責任和公平性在所有提出的人工智慧倫理標準中出現的佔比超過70%。即便在純計算機科學領域中,確保AI執行任務時的正確性和安全性,也是計算機科學家們投入Explainable AI開發的主要原因之一。因此,為了確保AI的結果是公平的、安全的,以及人與AI之間的互動能達到一定的平衡,近年來我們可以看到Sociotechnics這個計算機科學的子領域也正在慢慢興起。

在過去幾年裡,Explainable AI 的議題在Fairness、Accountability、Transparency的研討會上一直被提出。甚至在今年七月所舉行的ACM Conference中,Explainable AI 也已經被當作一個獨立的題目被討論。其具有豐富的面相輪廓可以進行討論呢,而這些不同的輪廓之所以可以浮現,絕對不只是計算機科學所定義的Sociotechnical issues而已,應該還包含其他不同面向。因此,我們可以看到Explainable AI已經成熟到是一個這樣的發展趨勢了。在過去的幾年中,每年相關的文章或許只有幾百篇,但我想今年的會議結束之後,相關文章量或討論應該會越來越盛行。

關於Explainable AI的發展一直存在著一個命名或認知上的問題,也就是Explainability到底是指什麼?我們都知道它Explainability與之前提到的Transparency有關,甚至有些人認為Transparency是Explainability的上位概念。Transparency此一概念本身就有許多層次區分,所以在IEEE初期的討論中,他們使用Transparency這個大的概念,其中可能包含Explainability、Traceability和Interpretability等下位層次。但這其實也是蠻傳統的工程師的思維,他們認為如果要確保AI的安全性,必須要能夠追蹤回溯(Traceability)每一步的操作;而Explainability指涉的究竟為何?Interpretability指的又是什麼?它提供的是人們可以理解的說法嗎?若是如此,那麼Explainability又是什麼呢?在這些名詞之間,人們開始出現許多混淆,並且存在著許多不同的看法。有人認為儘管Transparency的概念範圍最大,Explainability和Interpretability是相對較小的概念,這三者的關係與之前所提到的三個pillars的概念應該仍有所不同,因為這些概念之間似乎存在著相互包含的關係。也有許多人認為Transparency的概念範圍擴及非黑盒子的其他所有範圍。

另一方面,也有人認為Intelligible AI也應該是我們需要發展的方向,也就是要能夠和人們溝通說明演算法複雜的計算過程,最重要的是要能夠跟人們互動。因此,近期有越來越多人在談論Intelligible AI,認為它好像已經解決了AI不透明或是演算法黑箱的問題。這種說法特別在最近ChatGPT的發展中連帶被提出。ChatGPT帶來了很多我們從來沒有想過的事情,提供了一種親人的操作介面,讓人們能夠更容易地與之互動。如果用比爾蓋茲的觀點來看,他認為生成式AI並不是什麼新東西,但為什麼ChatGPT能夠帶來一種全新的示範呢?他認為這是因為ChatGPT提供了一個全新的更親切的對話式介面,這種對話式介面讓傳統上有些困難的事情變得十分容易,例如理解AI演算法所需要的知識背景等。

舉個例子,有一天講者的一個外文系學生說想自學寫程式,在過程中他練習了很多程式的基本功。其中一個是創建出一個字典,這個字典裡可能包含本來就有的英文字,可以用來進行比對,例如這個字在字典裡或者不在字典裡。兩週後他很失望地說他做不到,因並未搜尋到相關資料、甚至不知道如何發問求解。其了解此任務是需要使用python創建英文詞典,因此在Google輸入「English Python」搜尋,但翻遍了一頁又一頁的網頁都沒有他需要的結果,這讓他非常沮喪。講者詢問「English Python」是指英國的蟒蛇嗎?這個詞可能有另外一個意思,因此沒有辦法得到想要的結果。而此事件讓講者意識到,此任務需要一些自身並未意識到卻隱含的知識才能幫助找到正確的答案。然而,學生在與ChatGPT的互動過程中,可能不會如害怕問老師問題一樣,問了一次就不敢再問了,所以可以反覆地詢問,ChatGPT會猜測到他的意思,經過多次嘗試,直到找到正確的答案。這種具有耐心和親切的界面是Intelligible AI所需的知識和技術之一,或許有助於彌補透明性此一大原則中目前所缺失的部分。一些研究人員也認為,這些人性化的界面可能會對於促進AI透明化有所幫助。而這也是Explainability不完善的另一面。總結來說,Intelligible AI指出了傳統上對於Explainability的討論中往往忽略的與人互動的重要性,以及對於積極建構的人性化界面的需求面向。

回到傳統Interpretability和Explainability的討論。有些人認為只要有一個可以理解的方式來說明模型或演算法的內容,就能補足Interpretability的要求。儘管一般人不能夠理解,例如用線性代數來重新組織人工智慧模型如果可以讓在座的某些人理解,那就算是達到解釋的效果,就算是提供了某種程度上的詮釋。但也有另一部分的人主張,當我們討論解釋這件事時,使用人類可以理解的方式來解釋對於人類理解是非常重要的,怎麼能只使用計算機科學家或數學家熟悉的語言和數字來解釋AI呢?

針對如此複雜的框架和解釋,XAI的發展可能會有各種不同的發現和定義方式,甚至驗證的方法也都不同。因此,一些計算機科學家回顧過去幾年的發展,提出了更多以AI來解釋AI的方法。這其實有點令人遺憾,但也是現實。也有些人對此提出質疑,認為這種benchmark的方式是否適當,如果我們可以建立更好的模型,幫助更多人理解事物的本質,進而發展出更好的模型,這或許會成為計算機科學中的一種主流觀點。

Explainable AI發展的多元面向與難題

以上紛雜的定義,足以使各位意識到Explainable AI已經是處於一個多面向、多元發展的現況。即便在計算機科學領域內的發展方向就已經趨向多樣化,有許多途徑可供選擇。一種較為常見的方式,是透過模型的輸出方式來說明演算內涵,進而進行分類。有人提出,可以用更多數值來解釋模型的運作;有些人則會告訴你,模型的規則大概會長怎麼樣;還有一些人會提供文字的說明;甚至也有一些人可能會透過影像的協助。此外,有些模型也可能會提供一種混合的解釋方式,或是提供argument,甚至會訓練一個模型來幫助理解另一個模型。此外,常見的分類方式包括解釋方式是否能夠事前提供一些所有模型都可以適用的解釋方法,或只能針對特定的模型提供一些專屬的解釋方法。

甚至還有一些其他不同的方式可以用來表達這個結果,例如訓練如何使用不同的模型。最近一個經典案例是FICO,它是美國計算信用分數的一家私人企業。在美國,FICO的信用評分非常重要,會影響到私人和財務生活中的許多重要決定,例如能否獲得貸款,能否在急需時獲得足夠的資金,以及是否有資格申請到車貸、房貸、信用卡等。FICO長期以來一直以具有複雜的演算法而聞名。雖然該演算法可能並不完全是使用深度學習,但經過多年的迭代,它變得非常複雜而龐大。許多使用者常常會想知道這個演算法的邏輯原理是什麼。由於近年來像GDPR這樣的規範的實踐,也讓大家普遍慢慢地意識到,當演算法的自動化決策影響到人們的日常生活時,人們會想要知道更多關於背後原因的解釋,例如為什麼我的信用分數這麼低,導致我不能獲得應有的福利或優惠等。

FICO在前幾年舉辦了第一屆可解釋AI的FICO評分比賽。他們與幾個美國的研究型大學合作,透過相關的個資處理方式提供FICO所經手的真實數據,讓參加團隊可以自由地下載並進行各種有創意的解釋。他們希望藉由比賽的舉辦可以幫助FICO生成消費者所需的解釋。消費者所需的解釋主要關注以下問題:為什麼個人背景會得到這樣的評分?種族、學經歷、收入或哪一個環節是決定性因素?如果能夠了解背後的成因,是否變有辦法做出改變以獲得更好的評分?是否有助於發現社會系統性的偏見等問題?這些都是消費者想要了解的面向。這個方向與前面提到的可解釋AI中的發展方向不同,它更關注的是人們可以對於原因有所理解。當時有很多團隊投入了這個比賽。

而FICO面臨的難題是要如何進行評審。這彰顯出在這麼多的解釋方法當中,當發現這些matrix重視的方向完全不同的時候,要如何有一個合理的評審機制?要如何評斷這個解釋是不是忠實、是否正確?甚至是要如何評判不同的解釋當中何者較佳?最後,FICO採取的方式是邀請許多專家,當中包括法律和電腦科學領域的專家以及FICO內部的資深專員。FICO相信這些專家和專員在這個領域擁有有豐富的經驗和知識,應該能夠提供有價值的見解。FICO理想中最好的解釋是,該團隊所作出的評分結果能夠非常接近由這些專家和專員實際根據各種資料所評分的分數,並且還能夠向消費者解釋為什麼他們的評分不高。然而,這個目標非常困難,許多團隊也表示這與他們的技術開發方向完全不同。有一些團隊甚至使用了比FICO目前使用的模型更複雜的AI技術,但是評分結果仍有一定的落差。最終FICO選擇一些跟他們心中想的理由比較接近的團隊作為獲獎者。而在下一年的比賽中,有許多團隊抱怨自己的技術比獲獎者更先進,提出的模型更複雜而強大,但他們只得到了特別提及的獎項。由於諸多的爭議,遲遲未有下一屆比賽的舉辦。

FICO評分比賽的案例凸顯了這個領域發展中非常多的問題。首先是,純粹的計算機科學方法與領域專家或實際使用者想要的解釋好像不完全在同一個層面上。其次是,這些不同的方法之間缺乏對話的可能性。儘管大家處於不同的層次上,但似乎並沒有進行補充以幫助彼此理解。另外,其實很多尤其是電腦視覺領域的專家很習慣用影像來說故事。因此,大家經常會看到生活中可解釋性的應用方式,是採用熱區圖的形式說明在影像偵測過程中最重要的特徵是在哪裡。從output的角度來看,這是一種視覺化的表達方式。但在這些模型的訓練過程中,不同的演算法可能會產生類似的結果。因此,這樣的影像任務可能也需要服膺於Explainable AI多個複雜的面向當中。有些學者因而表示,我們需要複雜的圖像分類,但是這樣複雜的分類方法真的對於理解有所幫助,還是會讓新學者感到困惑呢?這也是當大家對目前發展的分類方法提出批評時,常有的觀察或評論。

Explainable AI本質上應是跨學科互動對話的議題

如果不是完全按照這樣的框架和方法來思考,那麼人類的努力目標會是什麼方向呢?如同剛才提到的,與人互動的完整介面可能是現在許多人指出的目標。因此,有人認為我們可能需要整合、相互補充各種模式的介面,讓人更容易掌握,而不是分散進行多個任務,這也是其他許多學者正在思考的方向。因此,人類互動的工具,包括視覺和文字等,主要是為了讓人類更能夠主動探索。這些工具的運作方式可能需要整群的融合以及各種方法的不斷努力。有人說,也許需要區分一般使用者和開發者或部署者使用的探索工具,並進行層級化的區分,這樣可能有助於提供不同解釋的服務。甚至一些計算機科學家一直主張應使用更多的可解釋模型,但他們所謂的可解釋模型,意味著更多使用線性代數、數值和數學化方法來解釋。AI是否真的可以帶領我們走得更遠呢?還是數學才是一切,數學才是真理?在通訊學界,有些人一直認為數學是王道,他們傾向於以數學為主流的想法。因此,對於在電機系,尤其是通訊領域的同事來說,可解釋性唯一的解決方法就是數學。在計算機科學領域中也能發現有不同的任務設置甚至不同的訓練方式,但當他們思考如何解決問題時,仍然會指向一個相似的發展方向。不知道各位是否同意interpretable model意味著更多數學?從這裡,我們可以看到一些已存在於計算機科學中的主流思想。

當然,在座各位都不是計算機科學領域的專家,對於解釋這個問題,不管是從法學的論證還是社會實踐的觀察,都不是剛才所講的那些。我們真正想知道的是,機器如何做出決策,以及產生特定output結果的成因。剛才講了很多複雜的概念,但這些能幫助我們理解嗎?因此,有一些學者便主張Explainable AI本質上是一個跨學科的問題,對於理由和解釋的理解從來不是計算機科學所專屬的。對於理由和解釋,許多學科都有自己的研究方法,並繼承了許多理論。例如,通訊影響觀念、資訊和接收等方面,實際上在傳播心理學、認知心理學、文學、哲學和社會學等領域都有許多的研究方法。因此,Explainable AI不應僅是計算機科學家的事情而已。

若如果我們放大思考Explanation或Transparency的本質,會發現這其實是一個跨領域互動與對話的問題。那麼,剛才提到的那些複雜的分支有哪些方式更適合去引入這種跨領域的對話或驗證呢?或許有些方式本質上更適合,但有些則不然。因此,如果情況是這樣的話,我們或許要深思,這樣的分類圖像本身可能也隱含著很大的偏見,而不是一個更整體的輪廓。舉一個現在已經比較成形的跨領域Explainable AI研究的例子來說,很多人都認為人能否理解一個資訊本身,與人作為主體的認知能力可能有很大的關係。因此,我們需要確定這些需要解釋的stakeholders是誰?也許我們需要更精確地掌握和理解他們的族群特徵,因為這些特徵可能是需求不同解釋的主要原因。此外,他們在AI被部署和使用過程中的不同角色往往也會塑造他們不同的期望和認知。

如果完全從人的認知能力的角度來看Interpretability,這其實是一個已經蠻成熟存在的學科,但這樣的研究對於解決這個問題可能需要採用不同的方法。比如說,認知心理學有很多研究是在探討使用者對於複雜系統的認識、回應和態度等,這些因素有時候與信任有密切關聯,只是剛才提到的那些計算機科學的方法可能不會直接考慮到這些因素,不過有些方面的研究或許可以作為計算機科學的測量基礎。因此,有學者提出,如果在一個系統中加入這些認知因素的matrix,那麼這個matrix是否可以用來衡量某些使用者的感受或態度呢?例如,這個解釋是否清晰易懂、是否充分涵蓋了複雜的細節部分、使用者對於解釋的理解程度高低等等。此外,使用者在閱讀完解釋後是否感到滿意、有被說服,還是無聊、分心、不相信等等,也是需要考慮的因素。使用者的好奇心和參與程度、專注度,甚至是否真正相信解釋的完整性和充足性都會影響他們的信任程度。

這些已存在的跨學科知識或許可以拿來作為評價XAI系統的指標。例如,使用者是否真正了解整個系統的運作方式,還是只知道某些特定功能?這些問題可以有更精確的討論方法,但需要跨學科知識的納入。此外,當使用者在操作AI系統時,他們的表現如何?使用的速度、效率以及是否能夠有效地掌握與系統互動的程度,都應該被考慮進來。這些問題都可以透過心理學的研究來解決,特別是在人機互動領域中已經有許多研究在探討心理因素對於評估人和AI系統互動過程中的影響。因此,這些研究成果應是作為擴大對XAI系統理解的一個很好的切入點。

在這裡,我想再舉一個例子說明人文學科是理解Explainable AI的一個非常重要的關鍵,但卻往往被大家所忽略。有一次,我觀察我的同事上課時講解XAI模型給學生聽。這個互動過程完全是在電腦科學家與電腦科學家之間所進行的,而我很好奇他們實際上講了些什麼。我發現,當我的同事要講解一個複雜模型運作方法時,他仍然會在一開始用一個簡單的譬喻來向學生們解釋這個方法的概念。例如他用大谷翔平丟球的一個例子來形容某個方法的球位移關係,以及資料擾動會對預測產生的影響。這個譬喻讓我印象深刻,因為它本身並不涉及到任何數學的表達方式,數學表達方式反而是我同事在最後才會使用的一些方法,而在一開始,他卻使用了一個我們都能夠聽得懂的方式來解釋模型這麽是如何運作的。下課後我就問我同事說,你一開始舉的譬喻解釋方法佔了你整個說明五分之一的時間,可見這是一個非常重要的運用方法。然而這個解釋方法既沒有牽涉到數學,也沒有牽涉到影像化,甚至也不是完全在說明這些模型怎麼運作的文字說明、論理,通通都不是,而是一個故事一個譬喻。你是為何會想到要用這個方法解釋給學生聽呢?他說是人都會想用這樣的方式講事情,那他也是人,所以一開始他就很直覺想要用這個方式講給學生聽。於是我再問他,如果這樣,那麼你為什麼認同XAI只有你剛剛提出來的分類方法中的那幾種呢?顯然,你剛才使用的方法無法被歸類為任何分類中的一種,這意味著有些事情不在你的認知框架內,但你卻自然而然地使用了它。

計算機科學家也是人,他們可能忽略了一些事情。那麼這些被忽略的事情是什麼呢?我認為觀察他們實際做事情中仍未捕捉到他們所想的某些方面是很有趣的。由此也讓我想起去年有一些學者就主張說我們在XAI的會議中只討論計算機科學家提出的方法論分類主題是完全不合理的。如果我們認為這個主題應該納入更多社會洞見和討論,那為什麼只有那些事前事後的方法、global觀或是local觀等等才是我們需要討論的重要面向?我們忽略的還有哪些方面呢?

這我想起一群學者提出了一個名為「Graspable AI」的概念,也就是用一個很像但稍有不同的詞來取代Explainable、Transparent或Interpretable等概念。他們認為對於事物的討論有很多不同的方式,例如我們對物體的觸感、時間感、事物的興衰、生老病死等等的認知,這些共同的譬喻和說法是人們所共享的,也容易引起大家的共鳴。又譬如在操作電腦介面的過程中,我們可能被介面本身的互動所影響,進而影響我們對抽象事物的看法,但這些的感受卻往往容易被忽略。然而,這些議題應該成為各個學科都要加入的討論,以幫助我們理解人與機器或人與演算法互動的本質。

Photo by Ricardo Gomez Angel on Unsplash

後援機制的建構與挑戰

學者們甚至有主張我們必須承認AI不可解釋性的存在,這種不可解釋性是Explainable AI應該涉及的領域。那麼什麼是不可解釋性呢?比如我雖然每天開著車在成大校園內行駛,但我對於車子的引擎系統如何運作其實一無所知。如果車子出現問題,我沒有辦法修理,只能夠在開車的過程中盲目地信任這台車子能夠正常運作。但這種情況並不影響我信任我的車子,因為我能夠操作它並且我信任這種互動的過程。而這社會上許多事情似乎都是建立在這樣的理解之上。那為什麼這種情況是可以接受的,但是當換到演算法的世界時,卻變得不能夠被接受呢?或許我們可以輕易地想到很多理由,例如當車子出現問題時,我們可以找道路救援、修車廠、校警等等來幫助我們,也有保險機制和其他的後援支持。而當人類與機器進行互動時,好像就缺少了這些可見的後援機制的建構,從而讓我們覺得跟機器互動是危險的,並且認為信任是很重要的問題。但是即便我對車子的內部一無所知,我卻不覺得信任是個問題。因此,或許這些支持我們信任的重要因素應該被建構起來,才能成為達到信任的主要基礎。那這些支持我們的東西是什麼呢?也許它是我們現在理解AI可信任性和解釋性時的一些非常重要的環節,這些環節是必須要被建構的。

從這些討論中,我們可以發現每個不同的觀點都是重要的,甚至人類社會的知識也很重要,因為這都有可能幫助我們理解人與演算法以及人與機器之間的複雜互動過程。此外,這些觀點也讓我們看到現在很多信任不足的問題,可能是因為準備不足,或是基礎建構的不足,而讓我們感到危險。但是一旦這些後援機制都被建構起來,我們與演算法、機器互動的面貌是否會變得不同,是否會對它更有信心呢?

當然,已經有一些國家、政府和非政府組織開始進行一些嘗試,試圖建構一些必要的基礎,期望未來這些基礎能夠逐漸被建立起來。我在這裡分享的都是一些非常初步的嘗試性作法,而不是像法律一樣是已經存在的東西。我將要提到的幾個例子,他們的做法或許未必都一樣,也未必都適用,甚至可能有些並不正確。但是當我們討論這些議題時,這些案例可以作為很好的觀察指標和開始的參考。

新加坡政府在2019年提出了一個Model AI Governance Framework計畫。他們邀請了一百家企業與他們一起進行實驗,所提出的AI治理框架中的第二項就是Explainability,也就是在演算法和機器學習的部署過程中,使用者要能夠理解演算法背後是在做什麼,甚至可以對AI決策行為進行詮釋。新加坡政府在網路上公布了他們認為比較合適的三十家企業作為試驗案例,這當中當然包括許多大型的跨國企業,而這些大企業也相信使用官方提出的架構導入自己的AI開發是沒有問題的。

那如何才能達到Explainability的目標呢?新加坡政府所提供的工具就是IBM的AI Explainability 360系統。這個工具可以方便產生視覺化的內容,讓人們了解該項AI任務是如何產生特定結果的。許多企業可以使用這個解釋工具輕鬆地完成影像監控任務並向使用者提供說明解釋。最終,新加坡政府的計畫實驗獲得成功,並且也推出了一個Quick Solution,透過使用現有的演算法或工具似乎已經能夠達到部分治理的效果。

對於這樣的解釋工具,我們可以有很多不同的看法。首先,這是一個用AI來解決AI問題的典型方法。特別是當大公司如IBM等開發這些工具時,我們似乎便愈來愈需要仰賴大公司所開發的大型語言模型來解決其他企業公司的模型解釋問題。然而,在政治經濟的背景下,這種做法可能引發許多爭議。此外,IBM Explainability 360工具有其限制,它只能使用與影像相關的演算法進行分類。如果可解釋性模型matrix的開發仍然以大公司為主導,是否真的能夠實現我們想像中的多元解釋?這也是值得討論的問題。

當然,人類社會有些後援機制的建構可能需要透過解釋的提供。但即便如果我們有權利要求就演算法提供解釋,這樣的後援是否就必定可以確保對人類的信任更為實在呢?傳統的法律系統好像可以要求提供某種解釋,就像我們剛剛看到的美國法院的例子,在審判過程中可以向法官要求提供解釋來提供支援。因此,有很多學者便主張在美國的common law體系下,很多案例的累積就已足以讓法官運用這些發展成熟的解釋判準。然而,不同的案件情境需要不同的解釋,不同的演算法需要不同層次的解釋,而法院是一個適合進行這種討論的地方嗎?法官可以做出的更多細緻的分眾處理是否比一般性的解釋更為合適?是否對於促進這個議題的多元、多層次、細膩的討論是更為適合的呢?即便如此,這確實是目前在美國學者的討論當中所提出的一個辦法,如果法官們能夠勇敢面對,或許可以為我們在思考這個問題時提供不錯的支援。

另外,現在也有很多的行政機關已經在使用AI系統進行決策,例如現在常被詬病的福利實施制度也是這樣的例子。美國現在已經在透過演算法的使用來找出誰是急需幫助、貧窮的人,但演算法使用的結果卻反而造成許多的歧視,讓窮人變得更窮。具體來說,許多保險公司會根據使用者的使用情況和行為來判斷誰可能是在詐保。而有些人往往可能就是因為急需幫助而提出了一些非常罕見的申請,使他們的申請被認為非常的可疑,進而被演算法判定應取消其續保資格。如此一來也就造成更大的社會問題,這些問題可能都是現在行政機關在使用演算法時所面臨的難解困境。

另外一個例子是,英國目前已經有發佈相關的準則,目前還在試驗階段。該準則要求在國家的資料計畫框架下,使用任何演算法來執行特定任務時,都必須積極說明演算法輔助進行的任務內容以及運作方式。該準則的網頁上已經有公佈了一些試驗研究的案例,當行政部門使用特定演算法執行某些行政任務時,則必須仔細說明演算法進行的具體任務內容。需要揭露的事項包括metadata、metadata每個欄位的資訊,以及存儲的資料型態,連core data的內容也必須進行完整的揭露。此外,揭露事項其中涉及到的細節非常多,例如當單位向外部購買演算法或AI服務時,必須揭露採購流程、採購標準金額,以及核心的技術規格、採用模型、模型運作方式及數據等。

當前也有許多的意見想法是呼籲應該要監控演算法所帶來的風險,並思考是否有任何減緩風險的方式。例如美國白宮所發布的AI權利法案藍圖(Blueprint for An AI Bill of Rights),就要求演算法的開發者和部署者須針對演算法可能帶來的風險進行影響評估。要做到這件事情,揭露演算法的細節結構和影響因素是非常重要的。目前已經有一些機關單位進行了演算法的揭露,但這些都只是初步的嘗試,並未有法律上的強制力。若將來這些風險評估的要求在法規上被要求強制實施,是否就能提供足夠強而有力的後援,使得人們即使不了解演算法的細節,仍然可以安心使用呢?這些初步的嘗試可能只是人類社會思考治理方式的起點,但是否能達到足夠的信任強度仍未可知。

許多關注演算法不透明性的學者都認為揭露是非常重要的。他們找出了很多法律依據,例如政府對涉及商品責任要求進行強制揭露、永續發展、證交法、證券交易安全,甚至公司法等演算法揭露的依據來源。然而,這些不同層面的揭露能否真正帶來信任和暸解,還有待商榷。我看到很多法律專家所提出的解決方案是通過提供許多資料表和文件來實現完整的揭露。但是,這些拼湊起來的解決方案是否能夠如我們所期望的那樣帶來高效益,仍有許多討論的空間。

這裡我們也可以看到PWC所發布的一份商業報告。這份報告內容談到演算法監理的未來趨勢,以及應該要求揭露演算法的風險,並且指出這必然將影響到公司企業的收益和聲譽,以及會影響公司企業是否要遵守這些法規的許多細節。報告內容中特別提到公司企業對演算法進行解釋的能力和內部組織準備程度之間可能存在巧妙的差距。根據PWC的評估結果,大部分演算法的可解釋性可能比我們人類所認知的還要高,只是公司企業好像還沒有準備好這樣做,因為公司內部的組織文化其實抗拒這種做法。

我曾經詢問過我的一位同事,阻礙公司企業開發可解釋性的說明或其他可解釋性模型的原因是什麼?他說,當投入一部分人力資源進行解釋性相關功能的開發時,就勢必會減少投入研發核心演算法的人力資源,使公司必須配置額外的人力和物力來做這件事,而這對於很多的小型公司來說是一個負擔。他認為公司規模和文化,特別是台灣的AI產業初創企業的文化,都會抗拒負擔這個成本和責任。此外,他也觀察到,在台灣的企業文化中,這些AI解釋性的問題很容易用其他替代方案解決,這些替代方案可能是我們生活中依賴的某些後援,或者是在實在無法提供解釋時請經理下跪,工程師道歉或總經理關說等簡單方法替代。

這當中當然有玩笑的成分,但其實也是在提醒大家,當大家還正在思考這些問題時,公司企業也許已經有他們的應對解決方案,所以當我向同學們提及這位同事所觀察到的這個現實後,大家哄堂大笑,但又認為他說得很對,未來自己或許也可能這樣去思考這個問題。而這在台灣企業文化的脈絡下將是無可避免的一環,畢竟公司是否願意檢視內部的文化,對這些問題的解決有非常大的關係,也是台灣或任何地方在談Explainable AI時,必須面對的真實和挑戰。

總結

最後,我想要回到觀察事情本質的思考框架。這是另外一個由OECD所產出的理解AI分類方式的圖片。OECD認為我們傳統上在理解AI時,常常看到非常複雜的分類方法,但是很多分類方法反倒讓我們越來越試圖像AI專家那樣進行思考。然而,其實我們並不需要像專家一樣思考,如果我們把事情的本質想成是與很大的經濟脈絡相關的,其中包括人類與這個星球之間的許多關係,那麼便只要把Date & Input、AI Model、Task & Output等有機地交織在這樣大的脈絡底下就可以了。這樣或許更能幫助我們看到這個事情的完整本質。因此,我們剛才所談到的那些面向或許都只是思考這個問題後的小小環節,儘管它們是相互牽連的。如果我們這樣去思考Explainable AI,我們是否需要克服一些本地獨特的經濟脈絡的問題,或者我們也可以同時思考剛才所提到的Explainable AI發展的其他面向,例如大型跨國資料公司對介面壟斷或獨立性的影響。也許在思考之後,我們可以看到更深層次的想法和省思,而不認為這是完全不健康的事情。

那麼該如何提供適當的支援,以促進人與AI之間的互動呢?這實際上是一個非常重要的課題。我認為隨著ChatGPT的發展,這將帶來更多更複雜的問題,特別是ChatGPT作為一個強大的人機互動介面,隨著其發展速度,這將帶來更多樂觀的結果。OpenAI的CEO在他最近的聲明中甚至表示,他們的科技發展是為了幫助人們理解和使用AI。從這個角度來看,這種界面的發展是否會對Explainable AI和Transparency AI有所貢獻呢?當然,我們也知道這同時也帶來了更多的問題。當ChatGPT的發展速度非常快時,我們是否已經準備好了?這不僅涉及到組織層面,還牽涉到整個經濟體和國家的層面。甚至跨國層面是否已經做好了應對的準備了呢?這些都是非常大的問題,需要我們進一步的思考和辯證。

最後總結來說,我認為在思考人與機器互動、人與電腦互動的過程中,信任、理解事情的本質等問題並不是每個人所單獨承擔的,而應該是整體的問題。我認為這當中需要一個全面的解決方案,而單純的XAI方法可能無法全面解決這個問題。當這個問題得到各領域的充分討論、相互支持、相互彌補彼此不足時,我們才能全面盤點人類社會中,人與語言算法間信任問題的所有環節,並找到最終的解決方案。

然而,我同時也持有悲觀的想法,這是否就意味著我們只能以人與AI發展的路徑前進,而無法停止了呢?當我們已經知道現在的發展狀況,卻無法停止時,我們需要以何種速度和步調進行討論,才能讓人類社會準備好迎接未來的挑戰、變革呢?我認為這需要更多的集體解決方案和共識,以更快的速度進展進行討論。

Photo by Almos Bechtold on Unsplash

問題與討論(敬稱省略)

何漢葳:想請問技術人員和規範者之間應如何進行溝通?演講的中後段討論到「Right to Explanation」,而我一直想問,受到演算法或自動化決策影響的特定個人,對於決策結果是否有改變的空間?當試圖提供解釋時,對於真正受到決策影響的人而言,有多大的能力處理這樣的問題呢?這也回到GDPR第13、14、15和22條條文似乎有規定一個揭露義務,若演算法的控制者有這樣的揭露義務,他所需要揭露的有意義的資訊需要達到什麼級別或程度?這是規範者一直想要問的問題,此外,也是造成司法如何解釋GDPR第22條的條文內容並作出判決的關鍵因素。目前也僅只有三個判決提到這個部分,應該是Amsterdam地院作出的,但是這個問題在判決內容中也沒有得到很好的處理,因為技術上似乎尚無法對於足夠的資訊和所謂涉及的邏輯應該達到什麼程度做出回應,進而協助受到演算法影響的特定個人去挑戰演算法做出的決策。

李韶曼:在技術上對這個問題的回應就跟剛剛FICO比賽在最後出現很大問題的想法一樣。因為FICO的想法會跟剛剛提到的那些個人使用者所要求的解釋、涉及的邏輯和如何改變相關連,他們需要的甚至是個案化的說明。然而,這恰恰是技術上比較難做到的事情。技術上可能比較容易做到的是提供一個典型的原型例子,或者用更複雜的方式來描摹一個模型並更貼近它。然而,這種用數學模型等方式去告訴大家這整個的邏輯並不是他們所要的。對於涉及到個人需求和案例處理的情況,對於這個模型的開發者而言,確實是一個很難的問題。因為這牽涉到許多複雜的因素,也並非他們擅長回答的問題面向。因此,在這方面確實有一些很難解決的問題。

我認為這可能延伸到許多人在思考這些框架的時候,他們會嘗試揭露某些部分,以迴避這個難以回答的問題。但是揭露這些事項與剛剛所提到的那些所涉邏輯和個人化處理是不同的,它只能讓人思考一些方法,並不一定是解決問題的辦法。而這中間的落差,這真的是一個純技術該解決的問題嗎?還是說我們人類社會早已有其他方法來幫助彌補或緩解這個緊張關係?我認為是有的,我會認為這不完全是一個技術的問題。

我其實也一直在思考人的角色究竟是什麼。FICO的專家透過長期的訓練,可能可以比電腦做得更好的事情是,他們也許會很快有一個直覺,認為某些因素可能會是關鍵因素,儘管我們也不確定這樣想是否正確。或者說,在這個過程中是否有其他類似的故事,例如個人化的經驗,或其他方面可以提供人所需的但機器無法做到的事情。因此,我一直在思考這些可能是我們在個案中更需要的事情。在個案中,我們需要一些敘事,而這些敘事恰好是機器難以做到的,但人類可能可以更好地利用想像力、同理心和人類社會存在的經驗等因素來處理這些問題。因此,我一直在思考,也許這樣的案例需要的解釋,不是技術本身,而是這些機制。我認為人的角色應該被強化和重視。

江彥生:我有一個想法也許跟剛才的提問相關,也不知道算不算是解方。我覺得資工領域所開發出來的東西與一般人能夠理解的差距相當大,因此我在思考是否需要一個轉譯者來幫助理解。舉個通俗易懂的例子,除了AI之外,我們在日常生活中也會遇到很多我們無法理解的事情,例如奧斯卡頒獎給媽的多重宇宙那部電影,我實在無法理解這部電影的內容,但我們仍然相信其中的正當性。同樣地,在日常生活中有很多我們無法理解的事情,但是我們還是遵循制度,因為制度提供了信用計算和可靠性,讓我們相信這些制度的正當性。就像奧斯卡頒獎制度提供了一個媒介,讓我們相信他們的正當性。AI也是一樣,它對我們的生活影響非常大。因此,在AI與人之間,是否需要一個類似轉譯者的角色呢?這個角色不僅僅是轉譯的作用,也有做測試的作用。正如何老師之前提到的Interpretable AI,當演算法開發出來之後,連工程師都不知道它會產生什麼樣的結果。當你把演算法套用到不同的數據上時,可能會得出不同的結果,這是工程師無法完全掌握的。因此,我認為轉譯者的角色不僅僅是將演算法翻譯成通俗易懂的語言,還需要進行測試,並且在極端情況下進行測試,如果有任何與歧視相關的問題產生,可以使用黑人或有色人種的數據進行測試,看是否會產生不同的結果。

另外一個在生活中可能比較能夠理解的例子是藥品的副作用。開發藥品的人其實不知道藥品會有什麼副作用,但我們有很多臨床實驗可以告訴你,如果你吃這個藥可能會有一項副作用。如果這個翻譯機器也是類似做這種臨床實驗的精神,那麼你就可以把這個機器拿去對很多種案例進行測試,看對某一種人會產生什麼樣的結果,對另外一種人會產生什麼樣的結果。這個東西需要大量的實驗,也需要一個新的身份,所以我才說想要分享這個想法,不確定會不會是解決方案。也就是說,可能會產生出一種新的身份,我不知道它叫什麼,但它的功能是負責把這個翻譯機器拆解到一個程度。這裡所謂的「拆解」不是指告訴你怎麼做,而是告訴你它能做出什麼樣的東西來,它對哪一些人有影響,它的社會層面是什麼。因此,這不僅僅是關注它如何產生結果,還要考慮它產生的結果對其他人產生什麼樣的影響。這是我想像中的一個願景,但只是單純的分享而已。

李韶曼:江老師講的這個測試層面或許是現在很多Governance Framework都在提倡的。也就是說,要有演算法的分風險評估和影響評估等機制的存在。因此,未來每個開發者內部可能會有一些團隊,例如是A、B兩個團隊,A團隊可能負責模型的建立,B團隊負責顛覆或者是一直不斷測試它。甚至有些人提出,每個公司未來的風險評估中還需要有外部監理的機制。公司內測試完之後還要交由外部團隊進行測試。外部團隊可能是不太知道數據細節的一些人,因此可能是中性的。這些風險評估和影響評估機制如果做得很好,確實可以回答一些問題。但我不太確知做這麼多風險評估和影響評估之後,對於個案的使用者來說,是不是能夠完美地補足他需要應該知道的解釋、知識跟理解。或許是還需要有更多重的角色存在,除了轉譯風險評估的結果外,甚至能夠將風險評估結果與個案個人的事實做出鏈結和說明。我認為這些多重角色應該都是需要的。

陳宏儒:我覺得解釋與信任有很大的關係,但我們好像沒有很認真地思考這個關係是什麼。我在想,是否有可能信任程度越高,我們越不需要解釋。舉個例子,我信任你是這個領域的權威專家,即使我有疑問,當你說出你的看法時,我可能就不需要進一步的解釋了。因此,我想知道這種關係是否意味著解釋的需求來自於對信任的欠缺。但我們需要思考的是,有時候信任的建立很有趣,因為當我們發現某個東西很好用時,我們就會信任它。例如使用ChatGPT來生成課綱內容非常好用,因此我信任它,並且不需要進一步的解釋。這也許是一個關鍵,當信任建立後,我們通常不再需要進一步的解釋。因此,我認為人文學者可以協助工程師進行一些思考,例如哲學界或北歐哲學中的某些書籍中,就有提到解釋、信任和社會關係之間的關係。這可能可以帶來一些有趣的想法。

第二個部分是我自己比較批判性的價值立場。我認為Transparency與權力有很大的關係。譬如說,我握有哪些資訊,然後我要怎麼揭露出去,我揭露給誰,到底揭露的這個項目是什麼。因此,我不太確定Transparency在早期被當成是可解釋性的上位概念時,是否有一些從工程學界比較批判性的想法出現。因為剛剛聽你講好像是到後期大家會比較習慣要分開或者是什麼。我不太確定現在這個部分的發展是什麼樣的情況。而Transparency與權力有所關聯的原因是,透明性在法學中的討論與問責性有關係。我們希望有一個可問責的對象,他的運作越透明越好。在這個脈絡下,選擇哪些東西要透明就表示要選擇哪些東西可被問責。這是我自己的一些小觀察。

最後,我想提供一個對我自己來說很有幫助的建議。有一本書叫做《日常設計心理學》很值得一讀。這本書的作者認為工程師們都應該要去念心理學,因為很多使用者覺得這個東西我不會用,有時不是使用者的問題,而是工程師的問題。因為工程師只是把他們那套邏輯用到機器上面。我覺得這個觀點可以帶給工程師們一起啟發思考,也很有趣。

何漢葳:我想趁這個機會請問江彥生老師,在法學中,Explain跟Interpret是否有些不一樣?

江彥生:比較制式的解釋會是,當法學中提到Legal Interpretation時,通常是指針對法律條文或規範的內容進行解釋。有時我們會將Legal Interpretation和解釋法律的某些方法混淆。如果要更精確地定義,我印象中Explanation是在科學哲學的脈絡中更常被討論。在法學中,這個詞彙很可能是因應 Explainable AI的興起而逐漸引入的,因為像Explanation這樣的詞彙通常會與Understanding相對比。但是,當我們解釋某個對象時,我們並不需要真正理解這個對象的意義是什麼,相反地,我們可以解釋它的某些因果機制,解釋者可能不必瞭解這個對象的意義,但這通常不是在法學中討論,而是在科學哲學等基礎知識領域中討論的主題,例如Explanation與Understanding間的差異的探討。在法學中,我印象中是比較少使用Explanation或Explainability這樣的詞彙。然而,在美國法的脈絡中,Interpretation則通常是指針對法律條文或規範的意義進行解釋,包括其中所用的語義內容。以上是我了解的部分,不太確定是否正確。

李韶曼:我回應學長剛才提到的解釋和信任問題。我認為,實現這兩者的方法有很多種。之前我看了幾篇實證研究,這些研究測試了在不同情境下使用者對解釋和信任的反應,以及這當中涉及心理學中認知方面的操作。其中一位傳播學者進行了一個實驗,他招募了三四百個人,其中一半是他的大學部學生。他要求這些參與者共同使用一個推薦系統,該系統會針對新聞和音樂進行推薦。推薦系統或許在某些情況下可能很重要,像一些大型社交媒體平台因為可能對民主有很大的危害,但是這個實驗只是在研究推薦系統的使用情境下進行的,並不涉及社群媒體平台所涉及的重要性問題。而這位學者發現,學生普遍認為對於越娛樂化的內容所需要的解釋越少。例如Netflix推薦某部影片只因為使用者的觀看紀錄,對此學生不會有太多質疑,因為他們認為觀看紀錄這件事已經足夠作為理由。然而,在不同情境下,學生的需求和要求就會有所不同。例如,當涉及到操縱新聞時,學生會認為這更重要,並且更會質疑,因為他們想知道為什麼系統會推薦這條新聞給他們。這位學者的實驗結果顯示,這些不同的概念之間有一些關聯,但是並不是所有的都有捷徑,具體的內容可以和學長再分享。總之,在此案例中學生是否需要解釋,並不一定完全是因為信任的問題,還可能和其他社會關係或事實有關。

此外,我也認同學長所講的權力和透明性之間存在著重要的關係。然而,目前我所看到的很多說法都以保護公司機密或業務開發等理由來阻礙應當揭露的事情。這是一個經常被討論的問題。我認為,這些領域確實需要更多的批判性思考,去看待權力運作和產生的解釋,並評估其中可能存在的權力影響。或許工程師們覺得這些方法對他們來說很方便,更符合他們平常的思考模式,並且能夠產生一些具體的結果。但是,他們必須為了更貼近人性做更多的努力,這是我覺得可能需要更多批判性思考的地方。剛才有一個討論是關於interpretable methods。很多我的同事、學生或認識的工程師都認為這是關於數學和線性代數能夠涉及的範圍。我認為,這種解釋方式帶有某種權力和傲慢,因此如果他們的解釋都指向這樣的方向,那麼這個方向本身就是一種權力運作,用以鞏固特定學科領域的權力或權威的形成方式,有些時候是明顯可以看出的,只是我們需要更用力地以批判性的眼光去揭露它。學長所推薦日常設計心理學以及剛才所介紹的Graspable AI 等當中很多設計師、哲學、美學家等人的說法,實際上在許多方面都可以互相印證。例如,我們可能不信任某些操作的感覺,或者我們對某種形體的印象和想法可能影響了我們對許多事情的思考框架。

何漢葳:作為一個比較偏技術領域的人,我認為有一件事情很重要,那就是你願意公開多少數據。我當然也很同意江老師所說的,即使在極端情況下也要進行報告,但是我認為更簡單的方法是,我們應該尋找更通俗一些、更一般大眾的例子。對於一些極端的例子,我覺得可以單獨處理。如果我們能夠這樣區分,就可以更好地建立模型和演算法,進而減少歧視偏誤的個案。

李韶曼:什麼是通俗大眾的例子?

何漢葳:像是統計學經常談到的outlier,當然具體也要看你如何定義它,而這可能取決於你想針對的問題是什麼。就統計學而言,我當然也知道有一些方法可以處理當資料中存在outlier的情況,例如可以讓結果稍微偏離一些,不必硬要fit每一個資料點。我相信韶曼對計算機科學的理解是,計算機科學上希望越接近正確率或其他目標越好,但我認為在追求高正確率的同時也需要注意over fitting的問題。因此,如果outlier可以單獨處理,或甚至是必須清楚地揭示資料的組成,這會讓人們在接觸你的演算法之前,多少有一點背景知識,了解你所處理的問題的基本情況。

其次是,在我短暫在台大電資學院修習課程的過程中,令我感到有些不適應的是他們太在意正確率。我曾經聽過一位老師說他並不太在意是否能夠解釋,因為他認為解釋沒有什麼意義。我聽到這句話感到有些驚訝,對我來說,他們把模型弄得很複雜,然後現在又提倡要有Explainable AI,這件事對我來說有點違和。所以我想請問韶曼的是,你的同事們對於AI和傳統科學研究間的異同的看法是什麼呢?

江彥生:幫忙補充,其實 Explainable AI 不僅僅對一般人來說是一個障礙,對我們這種做量化社會科學研究的人也是一個挑戰。我現在陷入一個糾結就是,到底是該選擇一個可以解釋我的資料分析結果的模型,就像你剛才提到檢視信用狀態的歷程,這個模型能夠告訴你,當你從高中升到大學時,你的信用機率可以高多少。如果使用簡單的線性模型,我可以做到這點,但如果我把資料放進一個龐大的人工智慧模型裡,我就無法解釋它所輸出的結果。所以不要說對一般大眾,對我們社會科學研究者來說都是一大挑戰。我需要在選擇傳統的可解釋模型與能夠提供更準確預測但無法解釋的模型之間做出取捨,這真的是一個非常困難的抉擇。

陳宏儒:這種脈絡下的可解釋性是否比較像是能不能提供因果關係的一種解釋?

江彥生:不是,因果關係是另外一個層次的解釋。

老師01:52:25:

甘偵蓉:又或者是最佳解釋呢?在哲學上,有所謂的Induction、Reduction、Abduction等解釋的方法,由於當中存在很多不確定性,因此可能只能得出最佳解釋,無法有一定的因果解釋。

我自己是人文背景,但我對於從事量化、技術工作的人還是蠻同情的。對他們而言,準確度是非常重要的,有時候他們會使用更多的數學語言進行解釋,這可能會讓人覺得難以理解。但對他們而言,他們需要找到一個可以讓大家一起評估的標準,就像當開發一個演算法時,需要一些基準來評估,不能自己說了算。因此,在我們的同行中,他們希望能夠得到專業認可,因此使用一些基準來評估模型的效果,這樣才能讓大家都信任這些數學方法。因此,我對他們還是蠻同情的,他們不是單純權力的傲慢,而是需要得到專業的認可。

當我跟演算法領域的人溝通時,他們會對我抱持著期望,希望我能夠成為兩個領域之間的橋樑。但我必須先了解他們的領域,才能夠成為一個真正的橋樑。至於人文學科方面,我也不認為自己了解到非常深入。因此,關於轉譯溝通,我也認同韶曼所提到的後援機制非常重要。剛才老師也提到了醫學是多麼複雜,開發藥品的過程中有許多已被法律規範的流程,例如動物實驗和三期臨床試驗等,整個治理架構看起來相當嚴謹。因此,我們信任這些制度,儘管有些人聲稱試驗過程中可能存在某些不透明的情況,也可能出現某些藥廠的不當行為,但大多數人仍然相信實驗結果是可靠的,畢竟已經通過了相關的評估並獲得政府了核發的證照,於此,社會轉譯溝通的重要性就凸顯了出來。

此外,我也聽過演算法方面也有類似的問題。例如有些演算法領域的人就曾無奈地表示過其實模型的準確率已經達到了98%,但是若個案有極端結果出現,而且涉及的又是有色人種,就會被放大檢視。在這一點上,我也有些同情他們,因為統計模型肯定不會是百分之百的準確,我們需要更好的溝通和解釋,不讓錯誤被放大,否則整個模型就會受到污名化。因此,我認為這個議題非常有趣,感謝韶曼提出社會科技和政治角度來看待這個問題。我也認同現在正缺乏相關的治理架構和信任機制。

甘偵蓉:我想請教一個問題。從社會政治或社會技術的角度來看,不論是可解釋AI或是演算法,當AI發展的時候,我常常會思考其中的規範性在哪裡?換句話說,當你評估一個AI或演算法的設計或產品時,往往牽涉到各種權力的角力,例如公司資源的投入等都需要被考慮進去。當我們了解完這些問題後,社會就會對AI的發展有所期待,希望它能走向更好的方向。然而,每次從這個角度思考時,我總是懷疑規範的normativity在哪裡?規範該如何被確立?當我們理解了所有權力的相關因素之後,我們還需要知道如何走向正確的方向。我覺得現在我還沒有看到那個方向該如何確定。

李韶曼:我確實也覺得這是一個問題。這樣一個方法或許真的比較難以指出一具體的方向,或許這個談法之後大家都會說所以我們要更多討論,從而看不到規範性在哪裡。所以我在想,這會不會是我們現在這種問題的一個共通點,就是因為我們不知道該怎麼做,所以我們需要共識和聆聽,某種程度上,這也反映了人與機器相處過程中的無力感。

江彥生:今天早上有一則關於ChatGPT的新聞。好像美國的幾位重要代表公開表示懇求先暫停ChatGPT的發展。我不知道韶曼老師是否有追蹤這個議題,並了解他們所關切的重點。

李韶曼:這當中確實有好幾個值得擔心的面向。其中一個是網路安全的問題,他們訓練的資料可能包含很多虛假不實的資訊,也很有可能會受到攻擊。例如之前有人批評Musk散佈虛假消息,他所說的事情並不真實,然而ChatGPT也可能生成很多虛假資訊。另外一個引起人們關注的問題是,由於ChatGPT所生成的資訊難以驗證,因此在過程中存在許多不平等和不符合人類價值的地方,這些align上的錯誤和不合,在使用者不知情的情況下,可能會產生負面的影響。雖然我們目前還沒看到實際的影響,但影響一旦發生就會快速擴散。此外,我還看到一些討論,人們希望在社會還沒有準備好的情況下,ChatGPT是否能夠暫停一段時間。OpenAI的CEO也多次提到,他們已經盡力每次發佈一個版本時,都盡量讓社會跟上並邀請政府一同討論。最近,他們在美國的電視新聞節目上接受了訪問,主持人問到他們的產品是否像社交軟體一樣,最終會導致民主危害,就像當時人們還未認識社交媒體可能帶來的負面影響時一樣,那是否他們的產品也會帶來如此巨大的影響和危害。OpenAI的團隊表示,他們開發產品是目的是為為了幫助人類,但對於這些指控仍然沒有給出實質有效的回應,他們只是說會邀請大家一起討論,藉此告訴他們哪些措施是必要的,甚至也提出要用跨國和跨政府的共識和組織來領導大家思考這個問題。

面對此一議題,如果我們帶著更多批判性來觀察,考量到發展太快所以應該將它停下來,但現實的情況就是ChatGPT的發展好像已經無法停下。或者從OpenAI自己的角度來看,他們沒有人願意停下來,而政府的力量又是否能讓他們停下來仍是一個問題。此外,還有一個主要的批評是,如果這樣的大型AI模型被獨裁政權所開發,世界會變得如何呢?目前我們所知的這些大型AI模型都是私人所擁有,這可能會帶來潛在的風險,若類似於北韓這樣的國家欲購買OpenAI的技術呢?這也是我們應討論到的另一個層面的問題。

江彥生:我能理解OpenAI原本的意圖是希望將整個世界當作他們的實驗場,但現在重點是他們必須為他們的行為負責。在我印象中Google算是比較保守,當他們進行實驗時,通常只會在較小的範圍內進行,以減少潛在的風險。但現在由於ChatGPT的發展已經如此蓬勃,當然這點我們大家都有責任,逼使Google和其他公司不得不參與這場競賽,進而導致了現在這個的局面。

何漢葳:台灣不是也想要發展ChatGPT?

李韶曼:國科會表示年底要上線,目前發行版本的參數大概只有十萬個,據說年底可能可以到達兩百萬以上。ChatGPT的參數目前大概有一千七百五十萬,因此精確度也有相當大的差距。我也試用過beta版,問它要如何從從台北車站搭公車到中正紀念堂,但它給我的都是不存在的公車路線,完全是錯誤的內容。

何漢葳:非常感謝大家熱烈的討論和參與,今天的公共性與AI論壇就到此結束,謝謝。