公共性與AI論壇(十八)
2022年10月24日(星期一)
◎ 主持人:李建良(中研院法律學研究所特聘研究員兼所長)
◎ 主講人:江彥生(中央研究院社會學研究所副所長暨研究員)
◎ 整理:陳俐蓉、林宛潼
講者為專門研究社會網絡之社會學家,社會網絡的範疇很大,包括人與人之間的關係,臉書即為一例。前陣子因緣際會與刑警局合作,研究以了解猖獗的組織型詐騙網絡,講者過往的研究皆著重於較為「正常」的人際互動或組織內部合作,參與刑警局案件的經驗著實令人眼界大開,過往對於此種犯罪型態的想像僅止於電影情節,然而實際參與後產生了全然不同的想法。以下將分享此一案件及如何用AI技術分析其中的細節。

暗網的概念
首先提到暗網dark network的概念,包括組織型的犯罪,恐怖份子的攻擊本身就是一個網絡的組織,參考圖一中的網絡,是美國911的恐怖份子攻擊。雖然已歷經二十年,但其組織間如何謀合,到目前為止還是非常經典的案例。FBI根據他們的通聯資料,將恐怖份子聯絡方式歸納出這樣的結論。上面有四個顏色,螢光綠色部分是當初撞上雙子星北棟那一架班機;紅色的部分是後來墜機在一樓大廈附近的飛機;藍色部分是沒有攻擊成功,後來被拍成電影聯航九十三號;最後粉紅色的是攻擊墜毀在雙子星南棟的恐怖份子。這是恐怖組織彼此間串連的通聯紀錄,恐怖份子的攻擊絕非偶發事件,事前經過縝密的溝通、串聯與協調。為免被偵查,十七個恐怖份子彼此間不會互通有無,因為只要其中一通電話被截查,可能這個團體即會瓦解。同一個顏色之間通聯紀錄比較密切,同一班機之間會有一些聯絡,但不同班機之間,亦非偶發事件。攻擊雙子星,與其他地方的恐怖份子多少還是串連在一起,因此執法的人員想了解在背後的串連與組織行為。

組織犯罪相關案例
與組織犯罪相關的例子相當多,包括毒品的走私、幫派,如有名的黑手黨運作。一九五零年代美國黑手黨的組成,如看過電影像是教父,應該熟習黑手黨在美國有勢力的三大家族:Gambino、Genovese以及Lucchese。其實整個黑手黨的勢力在美國是遍地開花的,他們不是一個獨立的單位運作,彼此間有家族性的連結,資料是來自於他們出現於同一個場合。幫派份子要喬事情的時候可能要去餐廳,我們在電影常常看到的場景,都來自於真實的一線辦案人員經驗,而對學術工作者來說,把這個資料整理成一個系統性、能用數量代表的東西。
幫派之間的仇殺也有一定的關係。圖二為從社會學的期刊上面節錄兩個地區的恩怨情仇的關係圖,三角形代表的是Latino拉丁裔的幫派,灰色的黑圈代表非裔美國人幫派。帶有箭頭的向量,代表該幫派份子曾經槍殺過另外一個幫派,也可能有相互殺害的報復的呈現,例如有些幫派非常中心性,代表他的幫派從來沒有被報復過。這樣的網絡途徑可以還原暗黑勢力與幫派的運作與生態。

暗網之核心原則與衡量
講者介紹2017年的專業期刊討論crime and networks,延伸到台灣海域之犯罪、勾結走私網絡。首先,學術上應先關心暗黑勢力、暗網背後的原則是什麼?從理論上來看,如果今天只是正常的運作組織的話,只需關心效率與利潤,希望能讓組織運作順暢,能獲利越高越好。然對地下組織來說,並不只在乎效率或者是利潤,尚需在乎安全。因為既然是地下組織,應不希望被人知道、不希望被警察破獲,但這兩個原則基本上是相互制衡的情形。一方面希望能夠發展幫派勢力,然而當幫派勢力大的時候樹大招風,便容易遭警察看上。從而,此兩原則之間如何取得平衡,是個有趣的問題。
荷蘭情治單位的學者利用簡單的法則去推敲:假如連結時有兩個考量,首先是想辦法讓效率達到越高越好,然而另一方面則考量安全性,今天如果部分被破獲,組織不會立刻瓦解,這兩個原則彼此之間是相互制衡的情況,即可推導而出。透過經濟學理如賽局理論來推敲,最後得出同時兼顧安全與效率的結構。組織雖然連在一起,然而並非連得緊密而容易被抓,而某種情況還是希望組織能連帶達到供與求的效應。從理論上我們可以推敲,兼顧安全與效率最後會得到何種結構。對執法單位來說則會反向思考,執法單位希望能夠破獲、瓦解暗黑組織,對其而言所應關切的議題就是誰是重要的人物。
另外可行性的指標是如何衡量組織之核心。只要破獲重要之人物後,可以讓整個組織瓦解,產生彼此之間不會再連結之效果。所謂重要人物,是整個結構上面屬於核心的位置,對辦案人員來說取下核心人物,基本上網路就分裂。警察必須將精力與有限的資源放在重要的人物身上。理論上來說幫派份子或者是底下組織成員的思考模式,跟辦案人員是相反的,是明跟暗之間之爭戰與搏鬥。看似是在電影、電視上的情節,事實上在文獻或是量化分級裡面一樣是存在類似的原則。這樣的研究其實不容易,因不像一般正常的研究,去了解一個組織,例如社會運動或政府的運作方法,可以正大光明收集資料。而這類型的暗黑的資料,通常來自幾個有限的資料來源。例如第一,與警察大學或政府合作,第二則是查法院公開資料,如過往的判決書,可能有詳盡關係圖顯示其共同關係。
講者與海巡署合作已達到一個階段,而希望講者研究的系統在犯罪進行中,可以立刻知悉潛在的嫌疑犯與危險人物。但是必須強調,相關實證研究其實挑戰很多,另外一個最大挑戰就是validation。辦案人員常分享即使收集很多資料、分析很多資訊,還是無法抓到核心人物。例如前陣子的柬埔寨詐騙,只抓得到部分,然而背後的組織還是相當活躍,最重要的罪犯一直認定不易。而偵查犯罪之細節,執法人員定罪或起訴時,證據多都來自於罪犯的供詞,然供詞會不會事先都已串謀好,重要大人物向來不會被供出來。通常資安單位或執法人員也只能根據供詞資料去偵查,一直以來都沒有辦法非常有效的解決以上問題。
犯罪網路之分析
回到恐怖份子攻擊的網絡圖,會產生如何認定犯罪網路組織與一般網路組織之差異,在分析原則上會採取與不合常理或是一般沒有規則來比較之方式,例如會與隨機來做比較。統計學的量化分析要掌握一個原則,假設一群人性別比落再百分之四十五或者五十五,這個比例算高、低還是正常?應比較之客體為何?隨機為何?講者解釋隨機如同擲硬幣,而出現正反兩面之機率的過程。因此網絡與隨幾比較而得出有無特殊,亦運用統計學的基本原則,是一種統計學界或量化分級公認的原則,大概是一個最理想、最中立、最沒有任何干擾因素的對照組。
與海巡署合作有利的立基點,便是可以將海上的犯罪活動與正常的海上活動做比較,即為講者當初發與海巡署合作重要的契機。因為海巡署有台灣進出港口、進出船隻的資料,包括上面船舶人員的資料,所以講者有立基點可以比較犯罪罪犯與正常的漁民之間之出海模式或彼此之間的交誼。所謂交友如海上活動船隻、人員彼此之間之共乘。如兩個人共乘同艘船出海,兩人之類型是否相同?在學術上講這強調這樣的契機真非常稀少,因為資料不太容易取得。其他例子例如,如何比較黑手黨與非黑手黨的聚餐模式或交友模式,必須找到一個相互對應能夠匹配的對照模式。對講者而言與海巡署合作有利之處在於,在相同地理條件上面,如今發現某一年的七八月海上犯罪活動減少,可以歸結出不是因為罪犯不想出海,而是因為台灣七八月很多颱風,正常漁民都不會出海,當然海上犯罪活動相對減少,從而歸因時不致歸因錯誤。什麼因素導致海上犯罪活動不出海,那個關鍵因素能夠與正常海上活動做比較,這是講者與海巡署合作進行學術上歸因之適例。有機會跟海巡署合作並取得非常完整的資料,然而研究問題還是欲定義罪犯與正常漁民、海上活動者之間的差異為何?一核心問題便是回到犯罪學,罪犯如何去保持神祕性,而同時希望犯罪活動能夠正常的運作。
犯罪分析之資料庫與網路建構
接下來講者介紹資料庫,這些資料是海巡署專業人員之分析,因為個人隱私還有個資的問題,分析時只能在機房裡面分析。而以下報告之資料皆具匿名性,而講者官方其實有非常詳盡資訊,包括犯罪紀律、航次、船隻紀錄以及個人出境資料;關於犯罪紀錄亦有非常詳盡資訊,包括海上各式走私彈藥、非法出入境、人口販運等,並有詳盡的被捕日期,以及罪犯於何艘船隻被查獲,船隻之流水號、個人的去識別化的ID、出港時間與入港時間,可以讓學者分析海上活動者何時一起出去、何時回來,這些海上活動是否異常?目前為止,講者把焦點放在出海活動的人身上,另外海巡署也思考可以透過船隻來辦案件,而非透過人來追查案件,雖然人才是犯罪的主體,而船隻是犯案工具,因此透過船隻來追查線索,可能是另一有趣的發展。
講者認為清理資料須花最久的時間。研究前半段光是清理資料便令人非常頭痛,因此能不能把一些不重要的閒雜人士去除掉?海上活動者如去花蓮賞鯨的人、遊客,或是去宜蘭龜山島坐船遊客,只要乘船基本上即有資料,然這些人都不是主要的分析對象,但無法訪問其是否為重要人物,所以研究便需要根據他們每一季的活動的資料進行分析。定義之過程可寬可嚴,講者取捨後分析的資料為2016-18三年中,三個月為一季,出海、出航計數大於第二次來定義為活躍份子,進一步根據這個資料來做更細膩的分析。
而如何把這些資料形成網絡?講者的專長與研究是網絡,而是用人來做圖形,形成的網絡關係圖是很有趣的研究議題。可以從另外線索分析,海上活動者是不是一起共乘過,而是否為長期共乘關係。例如說a、b與c曾經共乘過,可能可以推測他們某種程度應該知道有犯罪活動,因為一艘漁船出海乘客約為十個人,在如此空間之下多少會知道彼此身分,如果一年下來或是三年下來,發現兩人共乘多達七八次,變得猜測他們的關係應該超越一般陌生人。研究結果會把人與船之間的關係,轉成人與人間之關係,我們稱之為two-mode。真正應關心點是人與人之間的關係,而one-mode的意思是這邊只有人而沒有船的關係,實際上我們是透過船的共乘的資料來推敲人與人之間的關係,共乘的關係才是我們的分析重點。
三年下來學者總共撈了將近五萬兩千多個note,每個note代表一個海上活動者,其中只有1.2%,也就是六百九十五個人是曾經有案底的,比例非常低。使用AI分析技巧時,必須非常小心處理此問題。這個density僅0.05,代表這個網絡中每個人都很綿密地與其他人連結,density越低代表人與人的關係並如此深。三年來五萬多個台灣海域的海上活動者,大部分的關係其實非常稀疏,對大部分漁民來說,與何人出海都大多固定,且並無頻繁共乘,這符合我們大致的想像。但是比較令人關切的,是一群看似不是嚴密連結,然而可以從此連繫到其他人上,因此我們網絡的命名叫component。Component代表這是一個大型的連結組織,而分析就是儘量只看這個比較有關係,雖然不是非常密切的共同組織。
例如前述五萬多個海上活動者,但是事實上僅有六百九十五是有案底的資料,剩下的都是漁民或各類型的海上活動者,而其中每個關係皆帶有數量,代表一起出海的次數。所以我們可以去理解,這個link代表有連結關係,那下面這個link wait就是總共出海次數。假設兩者間平均一起出海的次數是一點多,但是Non criminal是六百五十多,所以罪犯確實在出海次數上面是較為謹慎,比起非罪犯,他們與他人一起出海的次數只有一般正常漁民的三分之一左右。這些都是根據這個網絡圖所勾勒出來的幾個圖案,這是另外一種示意圖,大部分黃色區域都是非罪犯,只有灰色區域代表一個小型罪犯。這兩區域似乎是兩個不同世界,其中有一些連結關係,有點像一個小型世界,有趣的地方在於這些橋接的人是誰?可能是背後的大頭或金主,他們不在灰色區,因為他們從來沒被抓過,故在黃色區,但是常常又與灰色區有密切的關係,故橋接連結的角色非常重要。

Blend in與Hide out的犯罪策略與分析
在犯罪學歸類上,罪犯通常有兩種趨避風險的策略,第一個我們稱之為Hide out,也就是需躲得越精越巧。另一個叫做Blend in,這裡有百分之九十五以上都是正常人,警察治安單位與海巡署不可能一一查哨,因而其較關注罪犯的異常行為。而若罪犯知悉警察辦案的原則,就知道何為異常,從而要將自己變得並非異常,所以Blend in是另一種倒過來思考的策略,兩種策略都有其道理。那到底是Hide out還是Blend in是台灣海上犯罪者使用的策略,如何知道呢?從比較他們的關係網絡圖研究,如果是Hide out代表看起來並無差別,如果是Blend in代表這兩個結構不太一樣,才知道其實是不一樣的結構生態。接下來要用一些統計工具或者AI方式,將這兩種策略做區別,這是我們的研究假設。

講者分析為何要使用AI。一個網絡將近五萬多個接點,假設今天有十個人,如果只是處理一般資料的話,就有十筆資料,然而今天分析的客體並非人,分析的單位乃是關係。所以當我們分析的人從十人到五萬多人的時候,成長的不是線性,而是幾何計數,因此在分析資料的時候一開始碰到的最大問題在於分析方法。傳統社會科學分析方法,會在運算當中出現很大的問題,如同執行大規模事業的統計分析,不論是統計軟體或程式,皆為大型的運算。講者使用傳統的社會科學方法運算了一個月仍未得結果,這就是為什麼後來使用深度學習作為工具。Graph Neural Networks是深度學習其中一種,專門處理Graph。大量的網絡叫做graph,深度學習幫助我們了解犯罪與非犯罪到底之差異,分析是否能將罪犯與非罪犯做出區分。
Graph Neural Networks及深度學習模型
Graph Neural Networks的input將網絡資料輸入,網絡資料就是各式各樣彼此之間的關係,它會先主動製造出一點點數串,上面會有一個數字,每個點上都有一連串的數字,創造這些數字僅為隱性個人的特徵,而稱之為latent class 或latent value。這些數字會不停的變,深度學習的方法是先給每個點一個數字,再透過計算彼此間的關係,把這個數字融合,原則在於若兩者於網絡上的距離很近,或者在同一區域內,其數字會越來越接近,這是深度學習的基本原則。輸入資料進去之後,每一個點都會有一個數字,這不是最理想、其中有極端的狀態,罪犯之數值會類似,或者比較極端。因此深度學習強的話,應可將正常漁民與罪犯做出區分,如果深度學習不強,代表其分辨能力不佳,這是深度學習很成功的地方。深度學習將資料分析清楚,然而此分析結果之因來自於資料彼此間的關係,將數字融合,若分析之結果能讓數字接近,而一樣都是罪犯,代表其在網絡結構上之位置接近,這是深度學習Graph Neural Networks 功能。
深度學習的模型,像聲音辨識或字串文字都很類似Graph Neural Networks 架構。神經網絡最重要的兩件事情,就是輸入與輸出分別為何。輸入關係圖,深度學習會一一審查,判斷良民與罪犯之差異。任何的模型皆有精確度之分,例如前開讓深度學習分辨圖片貓或狗,當然人類也有能力比較貓與狗之間的差異性,從此可以得出該深度學習的精確度。同理,我們輸入網絡圖,請深度學習判斷欲研究之對象是罪犯還是良民,就能取得資料。該深度學習判斷精確度可以接近到九成左右,其實還可以更高。深度學習有時候很有趣,其實可以自行調整最後的結果,但其仍會有所權衡,其實可以讓它判斷的很準確,然其中上有差別。如果今天將一罪犯歸類為非罪犯,其實這個結果跟顛倒過來而將一個非罪犯定義為罪犯,這兩個結果就不太一樣。其中有所權衡,這亦是談機器學習的基本概念。機器學習最後得到的結果,發現的確是可以透過AI很快的把這兩、三年下來的共乘關係的網絡分析,判斷誰是罪犯誰是不是罪犯。對海巡署而言,可以拿來做辦案的工具;對學術而言,可以研究罪犯與罪犯之差異。執此,其實罪犯在網絡裡面的定位,與非罪犯其實不同,這對學術來說非常重要。無論如何,透過機器學習這個工具確實可以成為辦案人員判斷的輔助工具。
假設有一準確率將近九成的AI,今天輸入資料便可以判斷是否為罪犯,在機器學習裡面稱之為accuracy;另外一個爭議問題是,如何解釋其是否「了解」,此二原則不盡相同。前者是指the capacity to make accuracy 這個是understanding,機器學習模型準確率準將近九成。而機器學習如何區分罪犯與非罪犯?即便是資工的工程師也一頭霧水,之所以模型最後能分辨出來,是因為模型裡面總共有數十、數百個點,上面皆有全數。近期有一位法律學者Johnathan Zittrain,2019年時稱之為Intellectual debt,也就是Answers gained at the expense of understanding。可以訓練機器做相當準確的判斷,今天五萬多個點,機器判斷其實比人還要省力,人看不出來研究對象之間的關係,機器則可以快速判斷。然如回頭探究機器是如何做判斷的,最多僅有一個模型圖及一堆數字,但最後是如何變成一個結論,其實會發現捉襟見肘。到底應如何去了解機器學習可以做到可視性的機器學習?
Definitions, methods, and applications in interpretable machine learning
最近有一篇新的研究相當有趣(Murdoch, W. James, Singh, Chandan, Kumbier, Karl, Abbasi-Asl, Reza, & Yu, Bin. Definitions, methods, and applications in interpretable machine learning. United States. ),他詢問大眾假如如今手機有機能強大的AI軟體,可以做很棒的決策,但是它沒有辦法解釋如何做出決策,大眾會想要使用此AI軟體,還是使用另一款相較之下準確度下降10%,然可以清楚解釋其如何決策,感覺較有駕馭或改變該AI軟體之可能。如同黑盒子,可以輸出一個數字給,沒有辦法解釋如何進行,但準確率比較高。學者發現人們希望其又準確又能夠清楚知道其如何運作,兩者之抉擇甚是兩難。部分原因是因為通常圖型相當複雜的情況下,機器學習才有辦法做很棒的預測,但就是因為太複雜了,所以無法解釋並讓人理解為何會做出這樣的決定。
這篇文章有提供一些不錯的原則可以參考。首先,在想辦法讓網絡圖形變具有可讀性或能夠理解的情況下,能否將模型圖稍微減少,可是同時也不希望犧牲其預測率。第二個原則則是能否於模型複雜之情形下,用不一樣的方式來理解如何詮釋,能否使用simulation方式?講者舉例,汽車能夠運作,如請工程師解釋汽車為何會運作,工程師表示必須講述三年的課程才能詮釋。而對於使用者而言,欲理解汽車在水裡面是否能運作?將汽車泡水就會得出引擎遇水汽車就不能運作的結論。同理,如此繁雜的model與機器具有其預測性,然某種程度其實是可以藉由嘗試而去理解,好比汽車,之所以會運作有其機械上的原理,可以問假設性的問題而讓機器運作,便得藉由不停測試過程中,慢慢理解機器的性質,而好處為機器之測試畢竟不會有如人體、動物般傷天害理的問題。講者偏好第二種方式。
第三種方式,在複雜的模型中其實彼此之間是獨立的。講者提到graph neural network有許多結構,其實每個結構都具不同功能,對資工領域的學者來說,欲了解其如何運作可以分該觀察,研究結構彼此之間是獨立或非獨立,如此有助於理解如何詮釋圖型運作。第四種方式則是盡量使用domain knowledge。假設機器被用來預測、判讀醫療領域,醫生的概念、醫生的知識,以及累積的經驗還是非常重要的。講者接下來將進行相關性的研究,如將模型或演算法與海巡署第一線的工作人員比較,比較第一線辦案工作人員的實務經驗或過往的一些判斷,與從機器學習得到的結果將會有何不同。
結語
關於未來AI之挑戰與衝擊的議題,AI將來是否會取代人類?一直以來人們以為AI具有機械性,然以探究講者此篇研究,AI似亦得扮演偵探與實務工作的角色。此議題包括是否會衝擊海巡署或治安單位?是否將用AI判讀做為辦案方向,而非仰賴第一線工作人員?講者認為也許可以嘗試將開發的AI與真人做實驗進而對照。另外則是更大範圍的問題,罪犯或可疑份子是否有可能知悉他們的犯罪模式是透過AI來處理,未來是否真如電影情節般,罪犯組織專業化到某程度後,專門訓練AI來引導犯罪,講者覺得不是完全不可能。將來如果AI普及化,使用在好的用途與被罪犯利用,也是資工或者是機器學習重要討論的議題。
問題與討論(敬稱省略)
李建良:關於走私香菸的判決,罪犯大概走私了七十萬包香菸而被抓到,在法律上爭議有三種人,即所謂同船人:船長、船員、租船者。走私行為是租船者所為,除了租船者,要不要處罰船長與船員?法律問題認為船長應該知道。法律問題很簡單,船出去他停靠站依照規定要登記,可是他停靠地方不是登記的地方,以此推測出如果你知道不是該停的地方、而你停了,代表你應該知道這是走私。在那這個模式中,用甚麼方式測試出他是壞人?在法律上如何正確地測出船長是壞人?「為甚麼」可能很難解釋,如此之prediction事後可否access?
江彥生:AI跟深度學習非常靠資料,只根據輸入的資料,他就會學甚麼東西、輸出出甚麼東西,他所謂的準確是在那個範圍中準確,立論是有範圍的。未來可能難免有司法審查時認為有多重管道,靠知識邏輯的是第一個線索,第二個線索是來自共乘的網絡關係,不同的資料有不同的學習方法,你給他甚麼資料,他想辦法抓出蛛絲馬跡加以堆疊,我的確可以這樣做,但我會加一個條件,根據過往資料我猜他有可能是,法理判斷上可能要更多的線索。
李建良:因此必須要有共乘資料,如果他是第一次,可能就沒辦法?
江彥生:訓練出來有點像是根據這群人,假設這群人跟新的人是同個母體,便有其他線做判斷跟預測。
李建良:如何判斷這個結果是正確的?
江彥生:回到資料科學或社會科學,倫理或法治最大的挑戰,最後學的還是靠人的資料,學習的路上做評分,拿真的資料作比較,給他怎樣的真實答案會影響到他的判定。問海巡署辦案者,深度學習在資料裡面,他無法預測資料以外的東西,所以有一個方式是他們正在做的,先預測是否有很大風險,再觀察預測的跟實際的有何影響,而不只是回顧過去。
李建良:法律上論述剛好相反,因為他根本否定正確性,回過頭來要你解釋給我聽,因為他就先question這是正確的,然後請你解釋給我聽,這是法律的思維構造。
江彥生:機器學習再怎麼強,因果推論是非常弱的,機器學習還是做相關性,誰是因誰是果現在說不到,另外一派比較有企圖心的認為AI要走到判斷因果性,會是未來的跳躍。
提問:為何海巡署或者是辦案的警方,或者是警察大學等等的研究會開始想要用這樣去預測他是不是這樣?好奇實際上開展的原因。
江彥生:現在越來越多智慧型辦案,而一線的辦案人員辦案常有見樹不見林的情形,執法人員辦案時只抓一個線索,抓完了就放一邊,海巡署跟執法單位希望站在比較高的視野,認為應該不是單一事件。翁科長提到,希望透過船隻資料看到走私集團,不只是個人,而是看到集團、組織跟生態,他認為台灣在海峽中心絕對有,船隻不是隨機走到台灣,約在哪裡、大船換中船,一連串的謀和事件。如果交給一線辦案人員,只會根據有沒有情資來做判斷,無法透過事後資料大規模搜索線索,因此希望使用較不同的角度跟工具來了解犯罪的生態。
李建良:這種研究其實有非常高的實用性,是否必然要跟警政單位來合作?會不會是一個純粹的學術研究,然後將其發展?
江彥生:最寶貴的是資料,1980年代就開始發展,缺的便是資料。資料是很大的學問,還很多官僚之間,警政署資料跟警察局資料不會共享,資料如果是資產,誘因上如何設計讓其願意共享資料,否則難以將全部串連起來。
李建良:有可能不想分享、從法律上角度,事實上他們是不能分享,資料傳輸問題,不同領域之間原則上不可以共享資料,除非有特別的規定。
提問:想請問有無辦法更細分海上犯罪類型,人口販運、共乘者樣態不同?
江彥生:以學術來說,分太細樣本太少,一開始想關注毒品,毒品是大案件,全世界都關注,大概只有不到一百個,跑統計模型得不出結論,技術上跟務實考量,還是合在一起。
提問:如果不是我國登記在籍的船隻,是否就無法跑資料?假設都是私漁船或是報廢船,就不會顯示?如果已經有司法資料庫去連結犯罪者或非犯罪者,中間那塊有可能是橋接者,在犯罪學上是犯罪黑數,這是資料本身的性質?
江彥生:我最近的投稿被犯罪學者質疑,我所使用的犯罪資料都是判決確定的資料。而如果是用GPS就不限制要用登記者,想要看大船怎麼變中船,中船如何變小船,基本上台灣海峽上面的任何船都有一個定位或號碼。
提問:罪犯標記的問題,假設海巡署最後用了那套去辦案,標示曾經有犯案紀錄者,會不會造成標示犯罪者,然後他們確實更容易犯罪,他們更容易被抓、更容易成為罪犯,這個東西是經濟學可以解決的嗎?還是本身因為資料輸入的原因無法避免的問題?
江彥生:海上活動的再犯率非常高,但是不是因為警察被誤導,因為這個東西才剛出來,因為再犯率很高,問第一線工作人員,的確容易找有犯過的,除了毒品之外,其他的有可能罰個錢、關一下,一開始用的是比較簡單的經濟學,他只用再犯率,結果百分之九十九,經濟學抓到,因為你曾經犯過,再犯率很高,這邊特定用共乘,如果單純用再犯率,其他甚麼東西都沒那麼重要,而是用他們合作過去推斷犯罪,有些規則很容易被經濟學者抓到。
提問:不管是再犯率或是前科、共乘關係或是親戚關係,很容易陷入行為人刑罰而不是行為刑罰,有沒有可能不是綁在人,而是綁在物,綁在人身上效果會更好嗎?
江彥生:船是一種工具,如果今天不是判斷人,只判斷這艘船會不會有,的確是另一個方式,船的好處是數目沒有人多,實證上還在比較,目前還不敢打包票一定是一樣的效果,而也可以用其他地理方面。
李建良:換一個變數,想要做的東西就會有很大的不同,走私很大部分就是漁民,漁民其實是正常的,跟大陸的做漁獲交換,像這種因素,他比較不是像菸、毒品等走私,這種network,因為他本身也是在捕魚,在某個moment跟對岸漁民做漁獲交換,他也是走私。
江彥生:因為沒有對岸資料。
李建良:category很多,需要一個個去create研究範疇。
江彥生:談到暗網,分工很關鍵,我倒是另外調查局的案子,舊案,2013年,最後破獲的分工很清楚,跨國的,各式各樣的,柬埔寨的case應該也是類似。
提問:這一個研究成果現在有被海巡單位拿出來對付犯罪嗎?
江彥生:還沒有,這個計畫有拿到院方補助,很興奮可以拿來當偵查工具,我一開始就說還沒到這個程度,首先光是從資料要到把機器訓練好是一段,這個計畫執行了快兩年,有進展的話是海巡署說要把他跟現實資料串連,現在資料進來立刻可以吐出來。AI如何在其他勞動市場或產業鏈,都會碰到類似的問題,慢慢想要跟即時資料串連,例如將來變成一線辦案,不只要克服開發成本,還有共識成本,願意接受這個工具,還沒到那個程度,中間很多制度、跟機器學習無關的課題要討論。
提問:剛才說道如果model本身精確度愈高本身能夠被解釋的可能性就會相對較多嗎?這兩種目的是不是在AI科技本身就是互斥的、不太可能又精確又簡單,或是又精確又可以被解釋,是這個科技本身就要去面對的事實?再來是,AI必須透過過往資料學習,假設運用在刑事偵查,可能是對犯罪的證據角色,或是藉由對過去資料的評價作為犯罪的預測,如果政府可以接受的話,某種程度必須放棄解釋之所以證據之所以可以成為證據、或是提前介入被預測者生活或行為?如果運用AI手段,是不是形同把一部分決策權,讓渡給AI,變成他成為一個新的決策者?
江彥生:深度指的是要幾台、愈多台愈深,愈深不見得愈好,有可能到一個程度是剛好,像是起碼都要五台,五台之後可能沒什麼效果。最簡單是來自迴歸分析,但它比不上深度學習,結構愈複雜,不見得愈好,即使只有兩排,因為有太多線,有點仿造大腦神經元,就算數字很透明化也很難,但如何轉化成我們懂的語言亦很難,不妨拿來做測試,這是另一個方式。第二個問題,現在會在討論AI主導性,他是根據過去歷史資料,要拿來做現在的判斷,前提是情形一樣,如果資料跟過去不一樣,AI就沒有那樣的主導權,不過這個就是未來的挑戰性,能否預測跟能否解釋,氣象報告也是,可能來自很多資料,溼度等,經過一連串告訴你下雨機率,那是一連串物理學熱學很難解釋,AI有可能發展成這個。
提問:觀察點怎樣被決定?會選擇怎樣的資料?
江彥生:需要domain knowledge,需要有專業人士找代表性,像是出海以季為單位、還是要看他們做判斷,機器學習只是抓線索而已。
李建良:今天來上課之前,在線上國際AI研討會,他們報告的題目也有這個圖,然後就是五層,最左邊是手寫的一,最右邊是印刷的一,談AI都會有這個圖,可解釋性,一般人都不知道飛機怎麼飛,但我們不會問,為甚麼?但是為甚麼需要他解釋,其實原因是因為,他的結論我們可能不贊同,法律思維就是一定會質疑這個decision,搭飛機基本上不會有這個,所以我們don’t care,不會說如果你不告訴我你要退我錢,這是問題的背景因素。再來就是說,預測跟會不會取代人的主導權,假設用的結果真的抓到了,接下來問題會是,我可能不會跟法官說我是因為AI,因為你可能有其他證據來證明,這就會有一個關聯。我之前聽另一個演講,他在做日治時期詩社,笠社詩社,有好多詩社誰跟誰比較熟,也是一個網絡,分析的結果可以回去推斷日治時期某甲跟某乙關係很密切,然後要做一個推論,都有類似的研究,其實蠻有意思的。
江彥生:我們看這個人如何在關係中發展出關係,典型的社會學視野
李建良:因為詩社在日治時期發展出社會運動,誰是key person,如何發展出關聯性,林獻堂跟誰有甚麼關聯性,除了可以預測,也可以回到過去。