YOLOv4 & YOLOv7的發展過程

公共性與AI論壇(二十一)
2022年12月7日(星期三)

◎ 主持人:李建良(中研院法律研究所特聘研究員兼所長)
◎ 主講人:廖弘源(中研院資訊科學研究所所長)

◎ 整理:陳俐蓉、林宛潼

講者為中研院資訊所AI研究的先進廖弘源所長,大學攻讀物理系,後至美國轉攻電機,於西北大學取得博士學位。去年五月至今年七月七號計一年兩個月內,YOLOR real-time face detection成為世界第一,擊敗了如Google、Microsoft、Amazon等大公司,七月七號又藉由YOLOV7打敗YOLOR。AI第一期時,YOLOV4已是其中相當醒目的計畫之一。當時學者包括邱文聰、劉靜怡教授與一位清大教授,組織團隊並透過網路與講者討論AI的疑慮。

講者實驗室開發的YOLOv4在2020年9月28日至2020年12月15日,雄踞世界第一的排行榜上約兩個半月,並僅花費八百到一千多萬的研究經費,當初王博士想打造連窮人都可以使用的object detector,Google打造了128部TPU(T取自於tensor processing units)為一非常昂貴的機器,僅有Google能夠支付,而講者使用8部V100便將之擊敗。2021年有位法國人寫了一篇paper《2020的A Year Full of Amazing AI papers — A Review》,挑了2020年全世界共28篇與AI有關的論文,第一名就是YOLOv4。

Photo by Cristiano Firmani on Unsplash

Image net

Object detection是透過deep learning的方法進行,傳統上在進行computer vision object detection時會模擬人腦的運作的方式。

2010年時image net產生,成為objection detection的濫觴。當時普林斯頓大學兩位成員分別為鄧嘉及李飛飛開始了此一計畫,利用一千四百萬張影像,並自動分類,從bottom、raw data慢慢進化、組合,分析出兩萬一千種物件的category。其中內涵是一個具有2100個單字的字典,但是以影像的方式存在。影像對電腦與人類而言呈現方式不同,電腦所看到的皆為數字。而我們需要字典的原因是,字典是一個assemble。同理,Image Net利用一千四百萬張影像訓練出兩萬一千種category,相當於形成了兩萬一千個字的視覺字典,所以輸入一張未知影像時,不必從頭開始認識。

講者在三十年前開始做影像處理時,必須要針對影像先進行age detection,再進行segmentation,最後進行description。對物件的描述必須如此,一步一步classify。現在則是輸入影像後,電腦會自動將其中的物件match到字典中,如同查字典,而此後之研究,皆為類神經網絡之深度學習訓練。2014年時,來自講者實驗室的研究人員研發出Microsoft coco dataset,將影像透過Image Net參考,再進一步加工,就可以做object localization。以不同顏色代表semantic segmentation以進行區分。

進一步發想,既然可以將影像編纂成字典,那動作是否亦可以發展出字典?一部一秒鐘三十張的影片,是否可以將時間軸上的動作分辨出來是什麼動作?在2017年便有新的進展,發展出Visual Genome此種dataset 、knowledge base。先透過ImageNet的基礎辨認出影像中有哪些物件,接下來深化semantic,將物件之間的關係形成natural language processing,用以描述影像的場景。此研究之目的在探討Image Net除了可以作為字典,取得這些基本物件資訊後,物件與物件之間的關係如何Xerography,亦即將該圖簡短describe。實際用途包含輔助視障者,系統可以分析其面前情況、亦可以進行無人車等發展。

2012年於一場辨認unknown image的比賽中,講者研究了三十年的handcrafted傳統方法因錯誤率達10%而遭淘汰。2015年時電腦已經超過人類辨識的5%error 極限,ImageNet為基礎之辨識錯誤率降到僅3.7%。講者2016年才進入該領域研究, 2017年募集十二個團隊針對此項目進行研究,包含十九路圍棋的冠軍吳宜成教授。後來在2018年第一期的AI專案計畫時,共六百多個project投稿,約僅一成proposal通過,講者即於該時開始第一個計畫。

YOLO的出現與發展

object detection tracking已經做二十幾年了,包括籃球的追蹤偵測。2012年為deep learning的濫觴,2013年11月出現RCNN,為object detector的第二階段。2015年6月開發出Fast RCNN,又為RCNN的第二階段,同月YOLOv1出現。其作者為JUniversity of Washington Seattleoseph Redmon的PHD,認為這項研究對人類生命可能造成危險,假若派出攜帶武器的無人機,又可快速且清晰辨識人臉,可能遭濫用進行暗殺等不法情事。所以在2016年持續開發出YOLOv2、20184月又研發出YOLOv3,但當中都僅有微幅調整。

講者與王健堯博士、Alexey Bochkovskiy於2020年4月發展出YOLOv4,是理論上的重大突破,迄今該領域仍為台灣研究者之天下。而YOLOR與YOLOv7亦為講者團隊所研發。講者原先研究者為YOLOv6,當即將完成paper、準備發表時,中國美團公司發送e-mail詢問其是否可以發表YOLOv6,講者團隊認為該公司宣稱研發YOLOv6似乎不不正當性,故答覆可以命名為YOLOv6但並非official,後來美團公司發表了YOLOv6而未有paper。講者團隊進而實驗,在同一條件下美團公司的inference speed為0.5 milliseconds,約為一秒鐘兩千張,而講者團隊的研究得到的inference speed數據為兩千五百張(0.4 milliseconds),且準確率較高。故一週後講者團隊將原先研究的YOLOv6改稱YOLOv7,自此之後台灣於此一領域為世界領先。

RCNN的運行需兩個步驟。首先使用region proposal、再使用深度學習執行recognition,前後進行兩步驟因而速度緩慢。當resolusion提高時,所費時間越長,然準確率亦越高,此時便產生trade off,這就是為何YOLO後來成為objection detection主軸的原因。Microsoft coco dataset作者林宗毅,研發出Focal Loss,成為RetinaNet的重要根本。

YOLOv4

 YOLOv4問世後即相當出名,其形成與義隆電子有關。2018年1月開始一件科技部的解決交通車流計畫,科技部也要求業界出題學界解題。講者團隊當時請義隆電子出題,並從中挑選題目, merge成三件可以執行的項目,其中交通的部分發展進展良好,因此講者團隊後來四年研究皆與交通相關。這些交通題目最重要的皆係object detection,研究團隊甫開始時即需懂video process。目標一是希望能把學術界的研發能量帶到業界;二是祈能將團隊研究的AI技術商品化,讓與其合作的廠商的產品得以進入國際社會;三為講者畢生希望,讓世界能看見台灣。

當時世界排名前六名中,一、二、四、六名皆為講者實驗室的研究,第三、五名及七到十名為Google之研究。因速度與正確率之間有trade off,速度越快則準確率越低,以此為準據比較,在一百八十隊參與排名的180組隊伍中,包含微軟、qa.com、 Facebook等,前十名僅台灣可與Google分庭抗禮。使用YOLOv4偵測的影片,若以GPS 1080TI處理,速度可達430 frame per second。detection速度快的好處,可以support後面的所有application,包含tracking、depth recovery、pose estimation以及instance segmentation,因為其快速偵測,因此留下空間可以進行其他事,並且皆在real time裡完成。


提問:若提供YOLOv7一本漫畫書,是否可以變成一本文字故事?

講者:通常漫畫是用畫的, 8byte三個RGB,一個byte則是兩百五十六個grey level,作畫時只能有十六個至三十二個grey level,information少,如果使用image base的方法展示漫畫,可能的機會較大。因為漫畫是繪製成作品,轉變成3d的難度更高,因能使用的information少,做registration相當困難。

提問:以世界杯足球賽為例,YOLOv4是否可藉由分析得知人與球的流動,並轉化成文字轉播,相當於電腦在轉播?

講者:是的,以後記者可能會受影響。但第一個受有影響的可能是放射科醫生。

提問:請問數態化辨識率降低是不是因為速度快而resolution降低,trade off導致辨識率降低?

講者:通常tracking不會快是因為detect結束後,通常detection的resolution不需很高,accuracy亦不需很高,在resolution較低的狀況下可以做detection。但假設速度很快又detect佳的話,track可以連續一直進行。

提問:如有法律糾紛,需調閱監視器,其是否並非詳實記錄每一秒鐘,而存在間隔差?

講者:是的,通常Surveillance的camcorder因記憶體緣故,通常為一秒鐘三到五張。

提問:警察追蹤犯人時使用人眼視力搜索,而如美國2013年波士頓馬拉松案件,則是完全用AI技術搜索,如果監視器為0.01秒、0.02秒跳躍式紀錄,是否會對案情偵破有所影響?

講者: 2008年時左營的命案,醫院的frame rate surveillance camcorder frame rate是一秒鐘一張,檢察官為了破案蒐證,以一秒鐘三十張的速度轉錄原來的tap,如用同樣的速度,播三十秒亦無動作,因此該案成了懸案四年。


YOLOv4相關論文至今已經累積7071次下載紀錄,back bone則CSB累積1642次,而scaled yolov4 scaled up down為642次(2021年)。挑題目非常重要,因為挑到好題目可以替台灣爭光。該計畫與義隆電子合作,公司提供經費,並且與桃園地方政府協調,於大園機場附近連續五個路口設置了兩種攝影機,一種是三百六十度的魚眼攝影機,另外一種是在每個路口放四隻延伸方向的槍型攝影機。之後計算該路口的交通參數,計算完畢後直接在路口互相傳遞而不送回雲端,動態控制交通號誌即不需人為介入。第一年使用魚眼執行,但因為義隆電當時希望不要發展路口edge computing的技術,所以給予講者團隊最糟的設備TX2,TX2的countering power僅有1080T1的百分之五,又不將video送回雲端。其實YOLOv4的發展發展需感謝義隆電子,實驗迫使講者團隊讓model變得比較簡單。

提問:為何使用魚眼鏡頭?

講者:魚眼鏡頭具八十公尺縱深之特性,在路口使用八十公尺縱深,便可得知十字路口所有交通參數,而難處是必須要在扭曲distorted的空間裡面訓練,尤其在邊界的地方會相對較小。

提問者:為何不放置遠些,然後使用35-50mm鏡頭?

講者:如此一來會需要更多鏡頭,槍型鏡頭需要四隻,而魚眼則可以放在中間只需要一支即可cover完整八十公尺縱深的十字路口。因為動態的資料太多,傳遞路口information的資料無法訓練完成,便必須要使用reinforcement learning(增強式學習),此部分委託十九路圍棋冠軍、交通大學的吳毅成教授進行。

Photo by Enrique Alarcon on Unsplash

YOLOv4 back bone的發展

以猜字遊戲為例,第一個人拿到題目往下傳遞資訊,到第五個人時很難猜對最先的題目。網路亦為如此,因為其依賴回傳,深層網路是藉由回傳的Gradient改變其位置,wed越來越小,準確率越來越高,當網路被訓練完成後,其穩定並降低錯誤率後即可用來辨識任務。然而深層網路的壞處是層數越多,最後能訓練後面的magnitude便越來越小。在Facebook工作的中國人何愷民便想出解決方法,應自每一層皆重新開始。但是義隆電子給講者團隊TX2,不能夠在edge端處理如此大量資訊。王博士便於2018年時,提出Gradient flow split的方法,他甫開始時為讓網路較清醒,速度、正確率盡量保持,使用兩個residual net(resnet)的版本,一個是保持同樣的computation connection與增加gradient comprehension, 另一個版本則是將計算量降低、perimeter亦降低,並保持connection,increase gradient comprehension。

成功後速度變快了,該方法的速度是YOLOv3的兩倍,但不幸的是其正確率比m2det小了6%,比YOLOv3差了4%,隔年(2019年)五六月時,王博士使用相同概念設計CSPNet,即現在YOLOv4的back bone,其概念為 CSPnet與darknet53的結合。其後講者團隊將成果上傳至GitHub上開源,從而Darknet的maintainer(俄羅斯人Alexey Bochkovskiy)在十月,十一月時發現CSPnet。2019年10月起,王健堯博士以不同的GPU(包括maxwell pascal volta)運行此一軟體,五個月的不眠不休至2020年3月底,相較於YOLOv3的frame rate不到10,YOLOv4已可達60 frame per second,其中30是real time。2020年3月底, Alexey提議製作YOLOv4,講者與王健堯花費三週製作,直到2020年4月23號release open source encode paper,從發表日迄今,已被引用七千次,以每月約四百至五百的速度增加。

提問:在技術面上,ject detection所偵測到的object為何?是形象嗎?

講者:依如何訓練而定,訓練有dataset,例如想了解是否有大腸癌,照內視鏡看大腸癌的腫瘤,使用腫瘤的資訊訓練,結合coco dataset與已經訓練好的object category,加入data training並train。

提問:以交通偵測為例,能偵測到何種程度?駕駛表情等是否亦可以偵測?

講者:訓練表情亦可以,一般paper有七種表情。陳玉溪曾製作一款系統,以一台camera偵測人類表情,其僅將七種表情分為正、負面兩類,負面包含睡著、無聊,如面無表情、呆若木雞,另一面則是興奮、眼睛睜大、笑的正面表情。以camera照人臉部,可以達到統計量,分析人臉表情是正面或負面,若聽者大部分為負面表情,系統會自動提醒講師講個笑話,但是該系統仍須訓練。

提問:每一個被locate的位置,被detect的東西,可以predict?

講者:過去需要描述細節才能追蹤,現在反過來,可以先追蹤再描述其細節。

從YOLOv4到YOLOv7

目前YOLOv4已經完成,YOLOR是unified network for multiple tasks,基本上不是YOLO系列,而是only learn one representation。至於YOLOv7則是you only look once version7,通常講者團隊提升其效能有幾個步驟要下手:首先為network architecture,最主要可以區分為backbone、neck以及head。feature integration是neck部分,不同的feature organization可以serve不同的object task;detection method則是在head的部分。接著,如何定義loss function、如何assign label,及training method,這幾個因素決定了多個層面,即為YOLOv3。至於YOLOv4跟YOLOv3的差別在於YOLOv4引進了CSPnet,此關鍵性的影響了之後的研究只須按照需求進行,例如MSE改成CIOU。

講者與義隆電子合作,巴士之車身龐大司機之視野有限,然透過發展之技術,未來巴士可不需後視鏡,只需透過車身兩旁裝置之攝影機拍攝左右二邊,以黃色半透明標示出blind zone,再以YOLOv4執行,當其他車輛駛進field of view中,便框成紅框提醒駕駛。

提問:請問國道上顯示路段壅塞的交通路況,是由人類判斷的嗎?

講者:該判斷尚非以電腦進行,因測試時萬一出車禍會讓YOLOv4揹責任。故科技執法仍須步步邁進,目前可以進行車牌辨識。而多少人參與群眾運動,YOLOv4計算之精準度可達90%以上。本來YOLOv4僅能偵測正向之bombing box,現可偵測軌跡、可自無人機上拍攝而用以分析交通。以生物多樣性中心的沈聖鋒研究員微粒,其使用YOLOv4進行研究,埋葬蟲潛伏於地底,該研究團隊使用特殊的攝影機拍攝地底數小時,觀察埋葬蟲如何分解老鼠屍體。過去人類研究分析約需花費三個月時間,如今拜YOLOv4自動分析所賜可以兩週完成。

提問:競爭與優化應是無止境的,請問講者如何決定在這個階段換其他的研究,而非在已經領先的領域繼續研究?

講者:目前已經證明台灣在這個領域的國際地位,再繼續研究下去即非創新了,講者為須學生前途著想。

提問:根據許多人工智慧方面的法律規範文章,對於影像識別最大的爭議是data privacy隱私權,隱私權的解法有decentralized不送至雲端,是否有可real time辨識後完全不用留資料者?

講者:是的,事實上因為在edge端直接可以處理video,處理data但是不會存起來,例如有人載著小三被照到,但是不會送回雲端,也不會留下資料,因為必須要將computing power留給後面處理項目,故不會maintain。

提問:請問如何偵測到影像?

講者:ImageNet是關鍵,當時進行一個實驗,將一千四百萬張影像從最低層處理,並將物件分為兩萬一千類,包括人、人臉與其他所有東西。

提問:請問警察或是當科技偵查法立法後,未來是否可以達到只要錄影,便可以自動偵測出某人?

講者:是可以的。通常若是在edge端完成,只要回報如裡面有一千八百人即可,其他資訊不留存。所以edge computing的好處是local不放在edge,不須memory或者是留下資訊,只要計算人數並傳送。至於人別辨識,系統只進行偵測,而繼續下去的研究講者恐干預人權便止步,作為科學家都知道應如何拿捏,要成為世界第一,但不是第一而用來傷害人。從俄烏戰爭可以明顯知道西方的世界的communication skills,通訊及無人機的技術遠高過俄羅斯,因為制空權都被歐美國家掌握,俄方本想利用電子干擾破壞烏克蘭的通訊,但馬斯克在空中設了兩千顆低軌衛星保持通訊,雖然其網路可能會被破壞,但是空中的低軌衛星提供communication,歐美無人機的技術佳,加上以色列的computer vision,講者認為YOLOv4最大的受益者應是歐美國家。

提問:針對現在研發的YOLOv7階段,研究團隊針對其limitation認知達到何種程度?

講者: Technically的limitation應該差不多研究完成,講者最近的研究paper designing network design strategies through gradient path analysis即為如何gradient path。gradient path相當重要,因為要回傳來訓練網路,訓練的越來越準且stable。

講者團隊討論如何設計,也同時討論到,通常網路的設計有幾個變數、幾個scaled需scaling factor,一個是resolution input image,第二個則是depth即網路,其縱深是layer的數目,數目越多encode input越detail,因此產生深度的問題,但是其亦會累積更多data。Width為何?講者以梨泰院解釋,梨泰院巷子的寬度固定,柯文哲表示simulation沒問題,但僅於人不多的時候沒問題,若要爬坡其寬度一樣時會產生踩踏,從而當layer數目越來越多時,encode深度越深時data累積量越來越大,因為其成數越多時累積要傳輸的data越來越多,超過原來橫軸是channel width,channel像是巷子的寬度,當人數越來越多時,巷子寬度如果不同時加寬會擠死人,因此到後面要進行的是將其拉長,data量變多,feature需要描述越準越detail的時候,feature map要越長,width如果不scaling up,會產生如梨泰院事件的結果。

通常detection resolution的reequipment並不高,故不需描述精細即可detect,如detect三位不同的人,只需知道最基本人型,然如你要detect人別則需知道更精細information(identity check)

提問:人臉識別技術是否可input?

講者:相信全世界有很多案例,但也涉及人權問題,講者認為中國很可惜,本來其AI是全世界數一數二,但因制度導致可能走向回頭路,其創意可能越來越回頭,未來科技的發展層面,會因此受到較大的限制。

提問:從社會與科技的角度,常常擔心所謂雙面刃的效應。

講者:同意,如同氫彈發展,原來的用意是發展出好的方法,幫助人類往前,像蒸汽機發明。但許多科技的發展皆為雙面刃,網路發展亦同。講者認為在自由體制與非自由體制下,發展可以benefit自由世界比較多,尤其在俄烏戰爭後,講者之研究來應對自由世界的幫助較大,因為computer vision強國是美國與以色列,通訊最強應亦是自由國家,因此俄烏戰爭與制空權非常有關係。

提問:講者分享的技術著重detecting,然其似乎也有tracking?

講者: Tracking,如果使用GTS1080 5TI一秒鐘可以四百三十張時,事實上就形同tracking,從而可以反過來做,先tracking再描述,因知道描述的是何者,是確切bond住,可以針對其詳細描述。

講者團隊在七月份release針對GitHub star與twitter likes(根據twitter按likes), most popular AI search worldwide講者團隊第四名, twitter按照github star第一名是中研院,這之後還有Wisconsin、Google、Berkely等學校。 這些數字是機率,detect到人或物,也可以進行pose estimation,openpose作者之一魏士恩亦為講者實驗室人才,後來念CMU,現在在Acura(臉書的base acquire)team的leader,現在可以研究pose estimation,看動作是否合格,也可以幫助運動產業。

提問:講者覺得下一個突破是何領域?

講者:應該是quantum computing,在computing science應該是quantum computing有許多尚未explore的部分,因ImageNet後事情變得possible,講者的資訊所有幾個優秀學者,有理論方面專家、有比賽的、做standard世界級的,講者團隊幸運recruit一位德國專家,剛好他的太太是台灣人,另一方面講者團隊又有Quantum computing高手楊博一、周楷尹在此,產生群聚效應,所以德國專家願意過來。講者認為 virtual reality部分不好發展,因為研究graphic多鍛羽而歸。

提問:請問中研院是否有研究deep fake的反制?

講者:這是一個application,講者以前研究過water mark,通常要研究,最佳方法是在video撒上water mark即可digital water mark,講者早期進行過一系列的water mark,在sensing device上直一邊錄時一邊灑碼,速度相當快是因為在transform domain中撒碼,但若要去篡改,如deep fake是篡改臉的部分,連續的圖無撒入watermark的點,即可得知其被算改。

提問:因此可以從規範角度去分析?

演講者:是的,以後sensing device尤其重要,必須撒浮水印。

提問:研究所為之發展為高度科技層面,然而科技的發展之後如何運用,不是科學家應煩惱的部分?是否繼續往下研究是一種可能性,而問題是為何要做?剛剛講者提到,這個部分應要換一種思維,前陣子剛好與資訊處的處長提及,製作一錄音設備將聲音錄下,透過演算後可以重現整個場景,並且知道誰坐在何處,亦能以模仿聲音,創造另一場虛擬會議,但他覺得不要再繼續研究,因為可能會有出乎意料的發展。然而不繼續研究後,其他人可能會進行,科技是中性的,但人其實非中性,讓科技成為一種危害人類的用途,因此必須在往前時同時製作反制的技術。

講者:電影神鬼交鋒,湯姆漢克說服李奧納多加入FBI後大有所為,同樣意思,犯罪最厲害者反而可以防治犯罪。 講者作為刑事局顧問已有一段時間,過去二十幾年來幫助很多司法單位,例如民間司法會、冤獄賠償會,以及法官、檢察官與刑事局,講者破了數個案子,陳玉溪則協助一件冤獄案,有一名外籍勞工在工廠裡不小心觸動鍋爐旁按鈕,另一外籍勞工因此導致夾死,第一審被判十個月,當時司改會求助於講者團隊,但是鍋爐已拆除,只剩一張照片,想了解鍋爐的高度為何,陳玉溪使用camera calibration算出高度,約七十公分左右,最後因此被判無罪。另一個是鳳山醫院案,原來犯被判三年六個月,但究竟是誰打誰仍有爭議,講者團隊請post doc協助幫查看frame rate,重播後就開始會有動作,最後該案被判無罪,此其實科技可以幫助人。高雄另一案是,家長請同居人開車帶小孩去加油站加油,清洗車內使用噴槍放入小孩嘴裡致死,講者團隊被請求協助分析兇手究竟是同居人還是孩子的爸爸,講者團隊分析影像,查出是外面的廣告版飛落,並非同居人著手,但之後可能有別的證據而被判刑,講者團隊不收取費用,以免造成日後麻煩。

Photo by Izabel 🇺🇦 on Unsplash

提問:很好奇剛剛吃老鼠屍體的案件,偵測是土上的蟲還是土壤下的?

講者:不是蟲,是使用YOLOv4 detect蟲並追蹤。地底下有特殊攝影機拍攝整個過程,可能在暗房裡拍攝。

提問:影像識別技術可以結合紅外線偵測包內是否持有刀、槍等違禁物?

講者:Sensor可以,有使用YOLOv4偵測天文,更有顯微鏡、內視鏡皆使用YOLOv4,只要有sensing device,有image from formation,但須有dataset training的dataset。

提問:請問系統如何在實際上運用?

講者:這個不是講者團隊的工作,系統被用來做何種運用,例如要進行內視鏡運用,系統便接受內視鏡訓練,只是系統可以快速得出bounding box,並按照訓練所提供的內容快速precise relocate其最準確的position,但training dataset需要另外進行。

提問:感覺process assessment有難度。最近AI的accountability如咎責時也有困難。

講者:例如台北市當年馬特拉案子,其下二十一個轉包商,無從得知如何咎責。

提問者:Follow up前面問題,研究科學一定會討論到的limitation部分如何。

講者:Eventually dataset一定會影響performance,時常研究團隊測試、audit後發現,如果dataset之多元性不夠時,例如intersectionality可能無法cover。MIT一位研究者發現,或許gender例如African American female particular的部分較高,於此情形可能並無特定intersectionality問題的dataset,但講者團隊進行社會性研究即會出現如此eliminate的狀況。天生data不公平,因較黑時期resolution之grey level較低,其detunes較小。又例如放射科醫生的影像,也許其variable未如前例之intersectionality如此明顯,然不同research也許其variety或diversity問題仍有浮現之可能,從而dataset其實相當重要,但多數data scientist they don’t do。 請問陳玉溪single object tracking進行後應如何擴增dataset?

陳玉溪:從原有的data,擴充datase之方法,例如亮度變化,或是將場景切除部分等等,如此基本上兩者即可算是不同data,或是左右反轉,其flick後以電腦來說是完全不同之data,然實際上僅是擴增成多筆data,且團隊知悉正確答案為何,此刻該訓練變得擁有更多資源訓練成更完備的狀態。

提問:發展科技有許多用途,並且使用open source方式大家可以取用,包括政府部門、國外的政府部門皆可能將此技術取用,如此會開啟相當多問題的面相,那尤其是detector object decture,變成detector,亦即變成器具之時。而變成detector時,又是另一問題,detector可能會有各種不同的情況,例如會如何放置?是否使用無人機方式?請問講者團隊在實驗中,是否須實際測試detection?

講者:與義隆電合作即是如此,義隆電當時於桃園大園連續五個路口進行detection,義隆電十分demanding,需要指派工程師馬上到場執行,每小時報告一次。

提問:業界人士與交通部合作,亦在研究 detection相關議題,交通部有assorted ,例如實驗時是否可以對應交通流量,因為會涉及到一些問題。

講者:若研究相反方向可能較容易觀察更多面向,過去嚴重後來崩盤的虛擬貨幣,即完全不受監管,反向觀察其極端,先研究其究竟如何violate,再回頭探討應如何監管,如此將能open up 相當的spectrum,可以利用兩邊方向來研究此議題。

提問:待解決的問題,技術或許無法如此行,或是有法律上的limitation。

講者:舉例虛擬貨幣規避許多法律問題、幫助洗錢,幕後操縱者為了for security,將不法手段取得的錢財流入虛擬貨幣。可以反思的是,如此科技 open與不open會有的局面與兩難,尚得進一步探討,開啟研究的議題。