公共空間之人工智慧應用

公共性與AI論壇(十五):公共空間之人工智慧應用
2022 年 09 月 12 日(星期一)

◎ 主持人:李建良(中研院法律學研究所特聘研究員兼所長)
◎ 主講人:張義明(凌群電腦股份有限公司資安巨資暨智慧城市技術研發處處長)

◎ 整理:鄭心穎、林宛潼

Photo by Ryoji Iwata on Unsplash

壹、引言

講者目前在研發中心做資安及與智慧城市有關的大數據,專長在資訊安全、大系統整合、系統規劃跟專案管理,還有如UNIX 資料庫資訊安全等技術。凌群公司運營迄今第四十六年,業務涵蓋系統整合、軟體、電子商務及大型網路,在金控、電信、政府、醫療、製造跟教育界皆有實例,且大多都為B-to-B,B-to-G,並不對一般的消費者直接提供服務。

貳、訓練AI背景資料的重要性

在人工智慧的應用上,訓練的資料非常重要,資料來源為何、資料來源合法性及正確性,需要有這些要素才能進一步討論人工智慧的應用,如果資料來源不合法,訓練出來的結果就須具備受檢驗性。

案例一:微軟聊天機器人

微軟曾經在Twitter上訓練聊天機器人,希望可以利用網路上與眾人聊天的過程豐沛資料,從中學習以更接近真人聊天的模式,然而做完之後不到一天即遭網友「玩壞」,因為網友使用了很多負面的資料,例如帶有種族歧視、激進的言論,讓它被訓練成充滿歧視性的聊天機器人,因而微軟馬上將其關閉。

上述案例凸顯出一重點,該重點即為現在設計的訓練背後較少關注價值判斷,如果提供有問題的學習資料,訓練出來的將是有問題的人工智慧。實務上在做人工智慧時,常開玩笑稱人工智慧為「工人智慧」,因爲須透過很多程式設計師把關輸入資料的正確性,才能加入訓練模組,而為確保最終得獲得正確結果,人工智慧的訓練尤為需要做資料盤查、資料清理,以免因此產生錯誤之結果呈現。

案例二:美國女兒懷孕案

第二個是美國曾發生的成功行銷案例,一位父親收到寄給他十五歲女兒推薦懷孕用品的廣告信,這個父親當下有些憤怒,但數日後女兒便向其坦承了懷孕之事。案例背後的實情是,案例中的嬰兒用品公司與百貨公司一同合作,百貨公司藉此蒐集資料並預測曾經蒞臨之顧客懷孕的機率,而該父親的女兒在此過程中即被精準預測懷孕。此案例談的是「資料來源」的問題,該百貨公司的資料來自僅國外存在的資料仲介業者,而業者的資料是從所有社交網站等蒐集且未去識別化而來,因為在對象特定之情形下方可精準地行銷。

參、虛擬環境的公共空間

實體的公共空間爭議較小,而至於公共空間近來所面臨新增「虛擬公共空間」的議題,可區分為三類:第一類是網站內容公開,不需要帳號認證即可直接觀看者,如報刊、電子報的訊息來源;第二類是需要帳號但所有人都能申請者,如Twitter、FB);第三類則是隱藏於後的存取紀錄(如先前提及之懷孕案例)。

關於第三類之虛擬公共空間,使用者在Google的搜尋紀錄、在電子商務網站購物紀錄等存取紀錄本身,是否屬於可定義的公開空間?前例中將這些存取紀錄當做資料販賣,國外的資料仲介業者存在可資依循的法律標準,惟國內在這一塊目前並沒有相對應的法規。

接續,則是此一空間裡的議題發酵問題,議題拋出後之三十分鐘到一個小時會以倍數成長,若不更正則可能幾天之後就來不及收回此消息的影響,因而在分析輿論關注的議題上,必須留意資料來源,並於蒐集之後再觀察議題發酵的程度。假設其為一問題資訊,此時有關部門應如何回饋、何時之前需及時處理、如何預測是否將轉變為無法控制皆為應著重關注之處。

案例:2014年Facebook醜聞

討論資訊安全時經常提出此案例,同時也是極佳的AI運用實例。該公司透過劍橋大學設計的心理測驗,在FB上提供免費使用藉以蒐集用戶資料,蒐集完資料後開始進行分析,一段時間之後FB察覺這家公司蒐集的資料,因有疑慮故與其中斷合作,並要求將資料刪除,然而該公司卻繼續利用這些資料做了很多的分析,並藉此盈利,直到後來被內部吹哨者檢舉,才揭露這些資料被用來幫川普打美國總統選戰。該公司之作法是透過蒐集來的資料進一步取得FB使用者的個資,以演算法分析個人的政治傾向,接下客製化設計專屬廣告,達成傾向投給川普的目的,藉由投放第一次廣告後回應,再做修正廣告來操縱投票意象。

此案例之背後議題是從FB中取得之資料,實際上有取得用戶同意,亦即用戶使用前會跳出通知:「當您免費玩這個心理測驗時,設計者將取得您的臉書資料,包括通訊錄、聯絡人、及貼文。」,而用戶按下同意的同時即已同意將前述資料全部收進資料庫,開始演算法以進行分析政治傾向。

以上為跟虛擬空間有關的補充,我們有太多的資料在網路上,後續被何人拿去進行何種分析,若無吹哨者時常難以得到揭露,舉例如當我們使用FB、IG、DCARD此類社群平台時,後台的個人資料有無被利用分析,使用者通常較難確知,因而在虛擬環境的公共空間的議題上,其爭議更為複雜。

肆、公共空間IOT資料預測與分析

實體空間則可以分為以下部分:

一、IOT相關:以空汙預測為例,環保署偵測空氣品質的sensor並沒有到處部署,只有特定部署的點會有實際的量測值,至於未部署處則以預測的方式進行,採用的方法論稱為類神經網路。其方法為首先把google地圖網格化,把sensor的位置標出來,沒有sensor的地方則用演算法預測,預測時要搭配氣候、風向等跟空間有關可能影響空汙的因素,當這些都參數化後,再把過去的資料匯入進行訓練,最後得出結果就可以預測每一區的空汙,並以不同的顏色表現,此時就能查詢各地預測的空氣品質。至於驗證方法則是把其中一個有sensor點的值拿掉,從其他偵測到實際值的點預測前面這個點的值是多少,再與實際的量測值比較以評估準確度,此時需注意:1.曲線的趨勢是否相同;以及2.誤差值,以現今技術而言,大約八九成正確即可稱精準,當資料量累積越大且重複訓練之後,誤差值會越來越低。

圖片來源:講者提供

二、空間影像:首先談「科技執法」,為減少交通違規而利用科學技術代替員警在路邊攔檢,過程中將藉由許多設備例如雷射、攝影機等方法抓測速、違規停車、跨越雙黃線、行駛路肩等違規駕駛行為,當中多項技術即是利用人工智慧科技。以抓取違規右轉為例,需先訓練機器兩項要件,一為識別紅燈右轉為違規行為,一般稱此為物件追蹤,二則為利用車牌辨識得知車主身分。

此些科學技術除了抓取違規之外還有更多用途,例如可透過控制方法舒緩塞車,當中又涵括了兩個議題,第一是如何預測即將塞車,第二則是有無機會透過管理來舒緩塞車。

關於預測塞車,使用的技術包括利用電子圍籬將特定範圍框起,再利用演算法判斷車流量、車長、車速、車種為何、車輛有無轉彎等,透過這些項目可進一步來判斷車流量是否過多以及預測何時塞車。茲因交通管制層面上若於塞車之後再做車流量之控制已為時已晚,必須在即將塞車前即有所控制,此外,在判斷車種上亦需配合特定場域的需要,例如蘇花改由於大貨車不能進隧道,因此當偵測前端有大貨車,即可預測它屆時會轉彎,而不會影響進隧道的車流。

至於停等長度的原理則是基於停等長度越長,表示塞車車輛越多,因而須先定義何謂「停等」的情形為何,是車輛完全不動或車速低於多少,才能讓機器去做判斷;車速的部分則是因為若平均車速太慢,表示車輛已經過多;在轉向判斷上,做法是定義三個區域A、B及C區,B區到A區為右轉,B區到C區為直行,過去實務計算交通流量,會由交通單位派人拿錶在路邊算,在沒有攝影機的情況下也無法驗證是否正確,只能全盤信任;現在則會透過比較機器與人工計算的數量一不一致進行驗證,目前已可做到較為準確之判斷模式。

犯罪偵查上的應用

犯罪偵查上的應用設計不太相同,需要有特定案件要偵辦才能使用,所以在設計上使用者登入,輸入案件,才開始操作。

在「追蹤特定人」的流程上,首先是使用者登錄;其次操作前先定義此次搜尋的標的;接續再設定條件,包括人在銀幕上的長寬高和走向;再來選擇特定錄影片段,尋找要追蹤的對象後將他框起來,最後再請程式把此人出現在影帶的位置呈現出來。在應用情境上,例如員警接獲搶劫之報案,此人頭戴白色安全帽、身穿雨衣,過去員警會調閱所有的攝影機,花費一至二個小時把符合條件者全部找出,現在則可透過程式將符合條件者框完後於所有攝影片段比對,能大幅節省警方查閱影帶之時間。

「人員追蹤」(即「人臉辨識」)則更加精準,同時也更具爭議性。前面提的只是符合外型條件者就將其框出,此處則是要追蹤到特定個人,因而須先選擇特定人像再把影像導入,框出追蹤對象的人臉,亦即先將人臉框出再用人臉辨識進行比對,惟需注意的是,這裡並未把人臉辨識找到的人與個人資料整合,使用上通常只是想找出特定人員的位置。而從技術角度觀之,這幾年人臉辨識的精準度非常高,只要影像品質不錯,且攝影機拍攝的角度正確,大致皆能迅速判斷出特定人員是誰,然而實務應用上,目前這個系統中華民國警方並未導入利用。

另一個在犯罪偵防上的應用是「抓涉案車」,可以讓程式自行判斷車種、顏色以縮小嫌疑車輛的範圍,同樣不再需要以人工從頭看到尾,因而會發現人員追蹤與車輛追蹤的設計方法都與目擊證人陳述的內容類似,將這些內容做成篩選的條件,來快速將符合條件的目標挑出以節省時間,背後邏輯大致相同。

犯罪偵查以外的應用

接下來的應用是在公開空間內,第一個案例是我們幫客戶客製化製作的,該名客戶曾因客人飲料打翻造成其他顧客滑倒,遭請求賠償醫療費用之情形,因而希望能製作「辨識飲料打翻與及時通知之系統」,以便盡快派清潔人員處理,但演練後發現此技術仍然受到限制,若是礦泉水打翻因地板為光亮顏色相近,較難成功辨識,由此案例可得知在人工智慧技術在識別上可能會受限於環境與條件,而仍有部分領域無法克服。

另一案例分享是關於「辨識禁制區人員之逗留」,其目的在避免因跌倒產生危險,以及擔心人員於區域中放置爆裂物;而關於「可辨識標示導引」,其原理為其提供的很多資訊後面都有資料進行預測或判斷,因而能夠提供從a地到b地的旅途時間;另一案例為「噪音偵測」,此時必須先做降噪,識別出噪音來源後將無關者排除,確認為目標端的聲音,才能進行噪音值的判斷。

在國外於聲音部分可以有許多應用,包括「攔截電話」、「槍聲偵測」、「聊天機器人」等。「槍聲偵測」是指經由碰一聲的背景音,馬上可以判斷出是槍聲或其他聲音、開槍地點等資訊,並可立刻通知警方,但此項目因為國內槍枝管制的關係較無需求;

「聊天機器人」的語音辨識,可訓練來判斷特定人員之情緒,長期照顧即為極佳的運用實例,許多長者可能於家中無人陪伴,而利用聊天機器人與之對談回應的聲音、語調即可判斷他當下的情緒,並藉由控制對談的內容,機器人便能依照情緒給予不同的聲音來達到照顧目的,惟目前此部分仍停留在測試階段。

國內的其他部分例如這兩年開始比較多的「智慧燈桿」,是指在一根桿子上裝設攝影機、無線基地臺、環保署的空汙sensor、太陽能板等各式應用,其等皆與人工智慧相關,目前相關人工智慧的運用實例非常多。現行聊天機器人亦越來越普及,通常為自由式的聊天並不特別限定條件,目前實務上的應用仍比較單純,像是問蘋果的siri台北市今天天氣如何其答案通常較精準,然若是與情緒有關的連續性問題,可能就會越來越不精準,這是目前聊天機器人仍在努力克服之處,亦是微軟希望借助眾人的力量訓練機器人之原因。人工智慧在公共空間上的運用,從虛擬空間到實體空間,從IOT資料影像資料到其他的文字資料,都有很多的用途可以去分享、分析及預測。

Photo by Alan J. Hendry on Unsplash

問題與討論(省略敬稱)

同學:疫情時期戴口罩,是否會影響人臉辨識的辨識率?

張義明:目前技術已克服此問題,戴口罩辨識的準確率可達九成。至於國內執法單位使用方式與中國天網的差異在於中國天網是隨時監控,而在民主國家中,人臉辨識的系統設計成僅限執行法定勤務方可使用,然不可否認的是此技術仍有可能被有心人士挪作他用,此時問題即不在於工具本身,而是事後可否稽核、追蹤此種濫用行為,所以我們在跟警方配合的系統上,雙方都非常注意此點,與天網系統的立基點亦有不同。

同學:兩個問題請教,第一,剛才提及區間測速的應用,雖然可以較傳統測速方式為精確,但是否在執行上會有衍生的隱私權問題?第二,關於去識別化的議題,是否會認為很難有資料能完全做到去識別化?只要存在恢復識別化的可能,就無法做到完全中立或者去識別化?

張義明:首先,關於區間測速先前的實務上爭議是我國曾有使用的設備疑似為中國製造,且該地點附近有軍事基地而有國防安全危害之疑慮,因而當時即先暫停使用待後來更換設備才繼續啟用。區間測速的目的在於避免如傳統的測速方式,駕駛僅在定點才會遵守速限,區間測速則可以確保在較長距離區間內遵守速限;至於隱私方面的問題,區間測速必然與車牌辨識搭配,而在個資法中,車牌並未與特定人對應故應非個資,然而若將車牌與車主連結時即會成為個資之項 目,應受個資法保護,但在個資法中也有免除政府單位執行法定勤務時利用個資的告知義務,且在超速時的作法並非自動化開罰,而是系統偵測到超速的違規行為時傳送資料予警方,再由警方檢視證據並判斷是否確實違規,若是的話才進一步調資料開罰單,而這樣的方式在我的認知對隱私權較無太大風險。再者是去識別化的問題,是否符合去識別化的要求,ISO及國際規範皆有一定的可驗證標準,國內也有CNS標準,若依循其標準操作至特定程度,回復識別化的機率過低時即可認為已符合去識別化的要求,雖然就技術層面來說,難以做到100%無法回復,然而經過非對稱性的加密技術後,可能需要數百年才有辦法回復,屆時該個資存在的意義似也已喪失其重要性。

同學:現代社會中較難避免各式資料的蒐集,有些會主張已經告知後同意,被蒐集者應知道被應用的目的、範圍或方法,然如剛剛所展示的區間測速系統,被蒐集者其實不知道自己進入會被檢索,有沒有方法可以事前讓當事人知道,事後可以主張退出或去除該資料嗎?

李建良:拍攝行進間車輛時,如果是自車子的方向或大小進行判斷,是否可以不需要拍攝車牌號碼?甚至先不談車牌會不會連結到個人軌跡,而是從資料最小化的角度切入,可否只拍行進路線就好,不要拍到車牌?

張義明:可以從幾個不同的角度回答,首先,目前個資法排除公開場域攝錄影獲取的資料,因為在立法時即有討論,目前公開道路上的攝影機為數眾多,無法一一告知當事人;其次在利用影像辨識進行交通管理的議題上,因判斷即將塞車而進行動態紅綠燈調整,關於紅綠燈的秒數調整,若非經常經過也很難得知該行經路段之秒數是多少。

同學:是否也有某個地方加強執法,利用先進技術以抓到先前無法抓到的違規行為,如噪音車等?

張義明:科技執法的部分政府皆會告示,不可以偷拍否則也會有先前申訴的案例。

同學:這種告示是否會擴大到方才討論到的對人監控?

張義明:目前政府規定是限定用途,須挪作他用的話要有特別的程序,例如曾看過一個路口有好多支攝影機,但每支作用都不同,討論過應該要一支多用途,可以監控亂丟垃圾、又可以做交通流量管制、犯罪時警察亦可調閱,目前預算以及計畫呈報的原因於實作上雖有困難,但為了整體效益及維護的考量,應該要再進一步討論如何改善。

同學:哪些屬性的資料構成影像資料?影像資料中有沒有涵蓋其他屬性的資料,例如時間或是文字可以進行搜索?

張義明:攝影機傳送的資料就僅限影像資料,其他的資料都是另外透過技術去處理,例如影像中的時間資料也是後續疊上去的,同樣的,若要搜尋影像中是否含有大車小車等物件,也要用物件辨識把每個物件識別出來,同時設計一個資料結構,把該物件類別跟影像的某一段連結起來才可以進行搜尋。這些都是需要經過後續處理,影像本身並不會主動提供;以Facebook為例,照片的人臉辨識,也是經過後製判斷的,在上傳照片時,該照片並不具備標示人別的資料,是透過使用者同意之後在將關聯的人名標示到照片上。

同學:也就是說,影像本身如果沒有進行後續的處理,便無法完成搜尋的作用,必須要跟搜尋的條件格式相同,才有辦法運用?

張義明:對,如果是純粹影片的話就只能看,沒辦法下搜尋條件也無法進行比對,而若用人工檢視則耗時耗力,故現行通常是用人工智慧將物件挑出來,例如某位戴白色安全帽及黑色雨衣的騎士,若識別出來之後就可以搜尋,後製的過程其實就是識別的過程。

同學:現有的技術有無監督管理上的問題?進一部言之,第一個問題是針對技術本身需要公開透明到何種程度,得以讓大眾確保未把額外的資訊放進去作為參數?第二個是資料的使用上,應專案性還是可以隨時隨地去做,有哪些內部或外部監督?

張義明:第一個問題比較複雜,已有很多國家針對機器或人工智慧訂定法律進行規範,國內目前還沒,僅有這方面的研究,但還未有草案等的架構;第二個部分是如同剛剛提到的,政府單位進行運用都有內部的稽核及督導,定期檢視是否在合理使用範圍之內,但就我所知應無第三方公正單位進行監督,這部分也有討論空間在於第三方公正單位的定義為何,以及其如何判斷是否為合理使用。

同學:是否可以判斷影像資料已遭編造或改變?

張義明:此問題可以自兩個角度切入,一是不管是物件偵測或人臉識別,一定是輸入何種資料就出來什麼結果,所以如果被換臉,那就是偵測出換臉後的結果,目前來說無法在物件識別前先去檢測資料造假的可能性,但是單獨識別造假資料這部分已有人進行研究,只是兩邊目前尚未連結;這時恐有疑慮認為若用假造證據進行搜尋會產生錯誤結果,但警方辦案不會依單一證據,會多重確認,以最近的台南殺警案為例,雖然公布的第一個嫌疑犯錯誤,後續仍然利用其他證據找到正確的人,顯然是有其他輔助的證據。

李建良:稍微進行總結,涉及個資的部分,當然首先要判斷是否屬於個資,這是一個群體性的問題,如果肯定的話,其基本原則就是「知情後同意」,但有無「例外」?如今日討論到關於公共場合的監視錄影是否要告知,因為是公共空間的個資,相對於私領域就較為複雜,如果是例外的話,就不需告知或同意。然而「無法告知或徵求同意」與「有無告知的義務」是兩個不同層次的問題,在公共場所常會見到「錄影中請同意」的標語,其目的就在進行告知義務的履行,但此時人來人往,無法一一取得同意,這就是第二層次例外的問題,之後若有機會可以討論,工作場所可否放置隱藏式錄影機等問題,這也是告知義務相關。

其次是物件辨識的部分,最關鍵的問題是錄影機,監視錄影機的設置本身就是前提性需討論的問題,討論上可能又需區分是公部門或是私人設置的,公部門設置的就需要法律依據及理由,其法源為警察執權行使法第10條,且限定為犯罪容易發生之處,該規定是否有排他性、地方可否自行訂立自治條例設置監視錄影機都仍然是需要討論的議題;若無法廣設監視錄影機,先不談攝影而得之影像能否互相傳輸的問題,實務上法律判決曾有過稅務單位使用監視錄影器進行課稅,衍生出來的問題是可否使用監視錄影器,與是否必須使用監視錄影器,例如超速無法用肉眼偵測一定要借助機器判斷,又是不同層次的問題。剛才也一直想請教,進行物件搜索的資料庫是公部門還是包含私部門?

張義明:僅限公部門。

李建良:那接下來的問題就是私部門可否設置監視錄影器?這個問題更為複雜,因為現在每個人幾乎都有監視錄影器如行車紀錄器等,隨時在錄影,有無個人隱私以及合法性的問題,有機會再來好好討論。