數位與人文講堂(三)
2021年6月17日(星期四)
主持人:李建良(中研院法律學研究所特聘研究員兼所長)
主講人:胡耿銘(國立台灣師範大學物理系博士後研究員)

引言與介紹
李建良:
胡耿銘博士今天的題目是系統性的人文分析跟公共參與,以苑裡的這個櫟社詩人文化產業為例。
胡耿銘:
謝謝李老師,大家好我是胡耿銘,目前在台師大物理系做博士後的研究。今天我來分享一些我用統計與網絡分析的系統性分析工具,來分析地方人文資料的工作,以苑裡的櫟社詩人的文化資產為例。
前面只看標題可能不會很清楚題意,今天的演講內容呢,主要會介紹過去三年我為了參與家鄉地方小鎮文化公共議題,用了統計方法來分析數位人文資料,嘗試重構我們鄉下小鎮的一些歷史跟文化脈絡。這邊大概有三個部分,第一個就是用了怎麼樣的數位人文資料,第二個是參與了怎麼樣的文化公共議題,最後是用了什麼樣的統計分析方法來做研究。
首先是數位人文資料的部分,我會先介紹什麼是數位人文,以及我的數位人文研究概念是什麼樣子。接著就是所涉及的公共議題,也就是苑裡消費市場火災以及衍伸的文化公共議題。為了去處理這些公共議題,我嘗試使用系統性分析工具,去建立櫟社的人文網路,來嘗試回饋到這個公共議題上。最後我會給一些結論。
數位人文與相關研究方法
各自表述的數位人文

首先是數位人文。作為一個最近一二十年比較新的領域,雖然叫數位人文領域,但是好像有很多東西都可以稱之為數位人文。譬如說用數位的方式來儲存人文實體的資料,是一種數位人文。或是建置數位化的資料庫,把人文的數據整合成一個資料庫,這也是數位人文的一種。或者是用資料科學的分析方法來分析人文數據,也是數位人文的一個範疇。前三個是比較偏研究端的,其他面向例如用數位方式來展演資料,或是用數位的方式來進行人文教育,甚至於在比較社會端的探討數位時代的人文衝擊,也都可以視為是數位人文的一環。所以說一個數位人文各自表述,大家都有一個自己的數位人文概念。因此在介紹前,我想我應當先講一下我自己的數位人文觀,跟我的研究方法。
我的數位人文研究方法
我最初的數位人文觀

我是一個物理背景的理工人,聽起來跟人文比較遙遠一點。而我最初接觸數位人文,大概是在2017年左右。那時候我跟一些朋友們對於探究地方的一些人文議題感到有興趣。我們休息或假日時候會去旅行或是去各處參觀,有時遇到真實世界的人文謎題,可能是不知為何如此,或跟我們自以為熟悉的歷史脈絡違背的,就會透過資料搜索、田野調查、以及推理分析的方式來探究他。幾個循環後,若有了一些論點跟見解,再嘗試把成果做成一個成品,轉譯出來給大家分享。而其中資料搜索的部分,主要仰賴許多網路上的數位人文資料庫,這也是我涉入數位人文最初的一個切入點。
使用數位人文資料庫遭遇的問題

這邊列出一些我初期愛用的數位資料庫,像是中研院台史所的台灣文獻叢刊資料庫,涉及許多台灣古文獻的數位化電子書。台灣百年歷史地圖,可以幫助我們把一百多年來的許多地圖做GIS的對照,方便我們做古今的地理比對。台灣日記知識庫,包含很多台灣知識份子的日記,方便我們查找他們那個年代紀錄了什麼樣的事情。數位方輿收藏很多更古早的地圖,可能是數百年以前的,這些地圖雖然不精確,但是透過他們可以讓我們了解古人的地理觀。前四個都是中研院的數位人文資料庫,此外像國史館台灣文獻館,典藏了日本時代的總督府檔案,有非常多日本時代的官方資料跟文書;台灣圖書館還有國立公共圖書館有很多書報雜誌的檔案,方便我們查找以前的書報雜誌。比較特別的是台灣文學館的古典詩資料庫,他裡面有很多台灣詩人寫的詩,也方便了解那時候台灣文人的一些想法。跟他們遇到什麼樣事件,而有了什麼樣的文學創作。當然最好用還是Google,Google是一個搜尋上非常好用的東西,我們可以很方便的透過他搜尋到很多資料。

但是我們開始用這些數位人文資料庫一段時間之後,發現好像出了一些問題,令人覺得怪怪的。像這個是2018年世界閱讀日時,我們內部一個小講座的討論主題, “在現代數位化古文獻中尋求正確答案,是否搞錯了什麼?”。那麼大體上來說,使用數位化資料庫以及古文獻資料研究人文歷史,會遇到什麼問題呢?
首先就是文獻本身的問題,我們發現有很多的文獻內容是不實或者是不足的。這邊大概有兩個原因,一個是當時的文獻作者沒有把問題弄清楚就書寫,或是另一個可能是刻意為之有關。畢竟以前的資訊沒有像現在這樣發達,所以那時候作者的知識域可能不夠,他們對這些議題沒有辦法充分的討論,或者是會產生誤解。也有可能因為作者主觀因素,而刻意把一些事實扭曲後寫進著作。另外一點是有些文獻會互相抄襲,這個在地方志裡面最常見。例如說可能B地方志抄襲A地方志的內容,抄襲過去的兩個地方,內容變得一模一樣就很奇怪。再來就是陳述會彼此矛盾,這就跟第一點有關。假如說有些文獻的內容都不實或不足,那對於同一個事實的幾個不同的文本陳述,就可能會出現一些矛盾的特性,這是文獻本身會遇到的問題。
而到了文獻再版的時候,也會出問題。其中一點就是內容可能會缺漏。再版文獻都要依循更古老的文獻,但是在典藏的過程中,古老文獻可能會因為蟲蛀或是髒污或是被奇異筆塗掉,而導致有些內容的缺漏,再版的時候就無法重現。再來就是竄改文本,就是在文獻再版的時候,可能因為再版的編輯者,他的主觀想法會把文獻做某些形式的竄改或是增加或刪減。再來空間關係消失指的就是文獻再版之後文字重新排版,原本文字的關係就不見了。因為文獻其實是寫在一張紙上的,那是一個二維的資料,你把原本的空間關係重新排列之後,有些資訊可能會消失。簡單來舉例,例如網絡時代很多人會寫藏頭文,如果我們把藏頭文重新排列,這個藏頭文的資訊可能就會不見了。
那到了數位化資料庫這邊,又會遇到新的問題。第一個就是資料呈現會不完整。例如有一些古老的文字,在現在的電腦字體已經不見了,這些字體大概就會用相近的字體把它取代。但特別在詩詞類,有時候一個字就會影響到詩的境界,換了一個字,可能詩的境界跟意念就跑掉了。轉換過程再出錯,可能包含重新打字的人打錯字,或是說例如簡體繁體的轉換出錯,特別是蠻多在中國那邊的數位化文獻,簡體字重新打了再翻成繁體字,很多字就會有點錯亂掉。空間關係的問題在數位化資料庫裡面就更嚴重,因為數位化時代,使用者介面跟儲存的文本是分開的,所以文字的部分我們可能只是儲存一條很長的文字,如果視覺化是透過使用者介面呈現,這裡的空間關係就會更為消失掉。

前面是概念性的介紹,下面我來舉幾個例子。首先是內容不實加彼此矛盾的例子,這邊舉的例是淡水廳志。淡水廳志是1870年的時候,淡水同知陳培桂所編纂的淡水地方志,編纂完不久另外一個當時的知識份子,金門的舉人林豪就寫了一篇文章批判這份地方志。原文很長我們看重點就好,例如這邊講說施侯之攻雞籠這段,講的是當時施琅帶著清兵來打鄭成功的東寧王朝,曾經在雞籠嶼發生了海戰。這個雞籠嶼在澎湖,澎湖海戰施琅成功之後,就可從澎湖直接攻入台灣。但是我們知道台灣的北部也有一個雞籠嶼,就在現基隆外海,在那個年代是屬於淡水廳。所以淡水廳志那邊看到施琅在雞籠嶼打敗鄭成功的軍隊,阿不對~那時候施琅應該是打敗鄭克塽的軍隊,他認為那個雞籠嶼就是淡水的雞籠嶼,就把它寫進淡水廳志了,於是就導致內容的不實。而這邊,另一個問題是1862年戴潮春事件,作者林豪是戴潮春事件的專家。事件當時他在台灣。他認為官方的事件紀錄不盡可信,而到處訪問事件相關人士,做了充分的田野調查,寫了一本叫做東瀛記事的書來記述戴潮春事件。以他的立場來批評淡水廳志在這邊的記載脫誤太多,是很有代表性的。當時林豪對淡水廳志的批判是較嚴苛的,通常寫錯可能是善意的因為不了解而寫錯,也有可能是惡意故意要寫錯。但林豪給的評價很嚴苛,他認為陳培桂如此做法,可能是因為他想要拔幟立幟,建立自己的勢力,而做很多的竄改。總之從這邊可以看到內容不實跟彼此矛盾的地方。
那互相抄襲跟竄改刪減,我這邊舉一個例子是樹杞林志,樹杞林就是現在新竹的北埔與竹東一帶。這個地方志是在光緒二十四年,1899年3月的時候開始編纂,4月的時候整本就寫完了,只花了一個月的時間就編輯出來,速度非常的快。這原因是因為他抄襲另外一本鎮志叫苑裡志,在1897年出版。他有非常多內容抄襲苑裡志,因為我家鄉就在苑裡,當時我在數位資料庫搜尋苑裡志的內容的時候,我會把苑裡志內容的其中一段文字拿去搜尋,卻常常同時出現兩段文字一模一樣,另一段就在樹杞林志,應該就是抄襲所致。其實苑裡志那時候因為寫了很多日本人來台灣治理的政績,導致後來在台灣文獻叢刊的內容,為了所謂的國家民族大義,被刪減掉七千多字。樹杞林志這個地方志,因為他抄苑裡志抄了很多,也被刪除掉了四千字左右,所以這是一個相互抄襲跟竄改刪減的例子。
空間錯亂的例子,舉一個苑裡志的物產考這個地方,物產考就是講說這個地方有什麼樣的物產,我們可以看到通常一個文章都是上面是一個標題,下面是內容,這是一個中文文章大略的一個格式,我們由上看到下,看到標題再看內容。但台灣文獻叢刊資料庫中的苑裡志有一個奇怪的地方,像是這邊,物產考的上標題寫著右稻屬,下面寫的卻是大麥、小麥、番麥;右麥屬,下面接的是蘆黍、鴨蹄黍、狗尾黍、黍仔;右黍屬下面接的則是豆子類。他們上下的關係是沒有對應到的,而且前面都要講一個右,為什麼不直接寫稻屬或麥屬或者是黎屬就好了呢?在一開始我看電子檔文獻就覺得很奇怪,為什麼會有這種排列的方式,讓人家看不懂這個物產到底在講什麼。後來我們去找了1897年的原版鎮志,目前在台灣能找到的最早的苑裡志版本,存放在永和四號公園台灣圖書館,是一個推估 1899年的手抄版本,我們取得他的複印版本。物產考中,我們可以看到標題跟內容在前面是一致的,先標題再內文。但講到物產的時候,他先寫了有什麼物產,然後再寫說,在我們的右邊是什麼類別。所以這邊列很多稻類,然後再寫右邊是稻子;寫大麥、小麥、番麥,再寫說右邊是麥子類的。他陳述很奇怪,先講內容再講標題,但為了怕混淆,他就寫說右邊是什麼,這個空間關係就很重要,必須要是直行書寫的中文字才能夠判讀這些關係,經過再版跟電子化之後那個檔案都變成橫的,所以導致這個空間關係就整個錯亂掉,這也會影響到我們對於文獻的一些判讀。
理工觀點的數位人文分析方法

從前面的例子我們可以看到說,在使用數位資料庫或是說我們看古文獻中,會因為很多因素導致人文的一些事證不太明確,遇到這種情況我們應該怎麼處理呢?我有請教過歷史人文領域的專家,人文類的處理方式大概會是這樣的,當史料不太正確的時候,我們為了釐清史料,會去比對各種外部的資料來佐證,並且嘗試從各種角度去剖析,然後看哪一個史料比較可信,這是比較偏人文類的處理法。因為我是屬於比較理工背景,理工領域的人在處理數據時,會有一些不一樣的態度。如果我們把人文類的資料當成一種數據來處理,從理工角度看來就會有些不太一樣的觀點。首先就是理工類觀念裡,是沒有準確的數據存在的,也就是說我們所記錄的數據都一定是不精確的。為什麼呢? 那是因為數據在記錄的過程中必然會發生誤差,包含系統性的誤差,以及觀測時主觀性的偏差。系統性的誤差是指記錄過程必然出現的差異,就是說不論怎樣公正客觀,我們去記錄這個東西一定會產生不一樣的,一定不能記到最準確的結果。而主觀性的偏差,則是因為個人或其它主觀因素導致記錄數據產生差異。此外在資料轉換的過程還會導致資訊的喪失,資料由一個形式轉變到另外一個形式一定會喪失某些資訊。再來就是誤差會累積,當我們前面用的資料是錯的,在我們這個步驟又錯了不斷地累積下來,資料錯誤就會一個一個累積越來越大。理工類遇到這類問題我們會怎樣處理呢?我們會使用統計的方法建立模型來分析,雖然數據可能不精準,但我們把數據整合在一起,然後分析並詮釋它,再嘗試從中找出整體的一些特徵,這就是比偏理工與統計的做法。這些是我所想像的人文跟理工面對不精確的資料或數據的一種差異性。

所以我就嘗試從比較偏理工一點的概念,來建構一個數位人文的分析流程。這個流程就是像這張圖所說,首先一開始我們有一些人文事證,可能是物件或是文獻或是圖片或是其他什麼的。這些人文事實,經過數位轉化的過程就變成一個數位人文檔案,這個過程方便我們儲存跟傳播。古文獻或古物都很尊貴,但是轉換成數位檔案之後就可以很方便又不損傷的透過網路傳送,或是透過儲存裝置複製貼上,給感興趣的研究者們來進行分散典藏跟研究。再來我們可以把這些檔案透過資料科學的方法轉換成人文數據,也就是Data。將檔案傳換成數據後,就方便我們做整合性的分析。原本變成電子化檔案後,我們能更方便的轉移,也能夠用資料搜索的方式來快速檢索。而轉換成數據後,下一步是理工領域的人會更感興趣的,就是透過數理統計的方式來建構模型,再透過分析數據的方式來嘗試找出這些資料背後隱藏的一些隱藏訊息,得到進一步的結果。但是要注意的是,這邊透過模型分析出來的結果,跟事實還是兩回事。理工領域的基礎是事實,分析出來的結果,還要經過一些詮釋。透過資料分析跟數據詮釋的方法,嘗試說出更多的故事,再將他們回饋到前面的人文事證部分,看能不能幫助我們對所關心的人文事情有更加完整的了解。這大概是一個理工觀點的,系統性數位人文的概念。

前面是一個比較大概的看法,就是事證不限於是什麼,可能是文獻或是圖片或是古文物。因為我最近比較針對文獻的部分,而文獻都是一則一則的紀錄,對我來講就是一則一則的故事。所以文獻部分的操作,第一步就是將故事轉成數據資料,也就是我們要將故事或轉換成可以分析的資料格式。第二部分那個數學橋下的統計說書人,是一個比較浪漫的說法。其實就是在數理統計的邏輯與方法下,建立模型來重新處理轉換後的人文數據資料。通常用數學建模的方式,可以將數據描述為一個比較抽象的高維空間的結構,第三部份,我們可以嘗試從這些抽象結構中詮釋處理出來的結果,再看看有沒有什麼新的發現。
那針對文獻類,我大概是用這樣的處理態度。首先遇到第一個問題是,你的故事不是我的資料。故事要轉換成資料,是要轉換成什麼樣的資料呢?可能有幾個需要注意的地方。第一點就是我們是要建模型用數學來分析轉換的資料嘛,所以轉換後的數據,必須要具有數學可分析性。第二點就是資料的完備性,轉換出來的結果不可以失真,或者是多了什麼東西。完備大概有兩個層面,一個叫做絕對完備,就是轉換過程都完全不失真。但這是難以苛求之事。因為我剛剛前面說過,在理工觀點裡,資料轉換一定會失真的。另一個叫做相對完備,也就是在我們關心的範疇內沒有失真,是完整的。那再來就是我們要有一個客觀通用的操作方式,也就是轉換過程要有一個SOP。有這種操作方式的話,就可以讓每個人都遵循這個操作方式獲得相同結果,這可以有助於跨領域的分段分工,更有效的去處理這些古代的文獻。

這是我針對前面講的文獻類的數據轉換,所想像的故事轉資料的轉換方式。我叫他事件組與人生軌跡圖。就像這樣,首先我們在座標圖中畫出時間跟空間的座標軸來,然後把一些事件標出。事件通常都是有一個時間範圍跟空間範圍,我們就把事件的時間範圍跟空間範圍標定出來。有些事件還會有子事件,我們就把事件中的這些子事件也都標出,就可以得到一個事件的集合,我們把它叫事件集。另外人物會參與事件,把這過程如圖畫出來,我們叫人生軌跡。人物參與這些事件時,有時這個人物在這個時間參與這個事件,後來他又到另外一個地方參與另個事件,他的另外一個夥伴可能一開始一起參與,後來又參與另外一個事件跟其他人再一起,把這些過程畫在座標軸上,就可以畫出人生軌跡。這個方法的好處就是我們可以把很多文獻資料都畫在圖像上,那全部畫出來我們就可以把同時期或人物的很多資料交相驗證,驗證後如果有些不一樣,可以比較說有什麼差異。同時從這邊人物與事件在時間空間的位置,或交互關係的關聯,還可以拿來描述相近或相遠的關係,所以我們還可以從圖片中來探討人物跟事件間彼此的關連性。

事件集與人生軌跡圖是描述故事的一種圖像化呈現方式,但這個方式對於資料分析其實並沒有很方便。因為如果我們要做數位分析的話,我們可能要用軟體或者是電腦來處理,我們會需要一個電腦能讀數學也能分析的格式,而圖片是不容易做到的。所以我嘗試將這個高維空間的結構轉換成一個表格,變成表格的資料形式之後,電腦容易讀取,我們也就可以方便的用程式來進行數位的分析。而且表格的資料格式還具有外延性,也就是我可以不斷地把新的資料依循相同模式加在下面,就可以做出無限長的表格,把所有的資料串在一起成為一個人文的資料鏈。那舉個例子來說,像我剛剛畫的事件圖與人生軌跡圖,我們轉換成表格的模式,轉換成以事件架構為基礎的表格好了。我們這邊就會描述說這個事件是什麼,事件要給一個他的發生日期跟起始範圍,發生地就是事件的空間在哪個地方,參與人就是說有哪些人參與這些事件,事註就是說這個事件有些還特別需要被註解的,可能有什麼東西是資料上沒有顯示的。然後還有原始資料,就是原始的內容是什麼,方便我們去對照原始資料來檢視我們處理後的表格到底夠不夠完備。那來源出處就是他文獻來源,因為不同文獻來源可能會記錄不同資訊,就要去把它特別標注。經過這樣子的處理後我們就可以把將這個圖片轉換成表格模式,這個可以讓電腦去閱讀,也方便用程式來做一些分析。

前面是數據轉換的部分,而講到建立模型分析數據時,通常針對不同的數據以及根據我們想問的問題,會有適合他的不同的模型。所以我們在解答不同的問題時候,可能需要不同的數據或者是組織數據的方法,然後再搭配或設計特定的模型,用模型來詢問我們的數據才有意義。那正常有幾個需要注意的地方,第一個是模型的合理性,我們選用的模型必須要能基於數據合理的來回答我們關心的問題。第二個是合理的模型是否可以真的能夠充分應用並詮釋我們關心的數據,至少要這樣才是可用的模型 。再來就是說可能不只一個模型可以解釋我們的問題跟數據,或許會有幾種模型,他不見得每個都會得到一致的答案,所以我們可能要有辦法去評斷什麼是最佳的模型。這是在模型的level上我們需要去注意的問題。到這邊為止,就是我在過去三年來建構的一個我對數位人文分析的概念。
發生在苑裡的文化公共議題
苑裡消費市場火災與文化資產設置

那接著我會講一下,發生在苑裡的文化公共議題。苑裡是苗栗最南邊靠海的小鎮,其實他就是我的家鄉,也因此我對他會特別關心。在2018年的時候發生一件事情,就是我們鎮上民生所賴的老市場發生了火災。火災發生了之後因為一些公共性質的目的,所以當時我跟地方上一群人希望能夠申請把火災後的市場設為文化資產,藉由暫定古蹟設立的過程,爭取到一些時間空間,讓地方的居民跟相關的行政組織能進行具有公民參與性質的溝通,討論市場要怎麼重建。我第一步去找尋了市場相關史料,首先是在台灣文獻館資料庫中,找到了市場在1934年的設計圖,從1934年設計圖當中的配置圖,跟衛星地圖的空拍圖做GIS對照,確認了當時配置圖的建築輪廓至今大都還是存在的。然後我又去火場的現場做田野調查,去拍攝火場後的留下的殘構件,發現殘構件跟當年的設計圖都可以有互相的對應。所以我就確定了被火災燒掉的市場,他的建築結構是確實始於1934年的設計圖。另外我也找到一些跟市場建設相關的文書,包含在1897年的鎮志中,留下了這麼一篇由蔡振豐所提的苑裡建設市場議。議中陳述這個市場的歷史可以追溯到1852年的一場地方械鬥,然後到1897年,蔡振豐在鎮志中倡議說,我們要蓋一個市場。然後到1934年的時候,當時的庄長陳貫,跟總督府提案說,因為我們市場老舊了需要改建,才有了1934年的建築體。找到這些資料之後我們去把他提報文化資產,後來在2019年,這個市場就成為苗栗縣新的一個歷史建築。那之後也幫我們爭取到一些時間空間,可以去討論他進一步的重建過程。
被遺忘與誤解的歷史衍伸出新的文化公共議題

那在這個過程當中我就發現了一些新的有趣問題,這個市場是詩人們所蓋出來的。那時候我還蠻驚訝,因為在這之前我都一直以為我家是個海邊的小鎮好像蠻偏僻的,怎麼會有什麼厲害的知識份子呢? 但是在市場相關文獻中,我發現有兩個詩人的存在。第一個就是在1897年倡議建設市場的蔡振豐,還有1934年改建市場的當時庄長叫陳貫,這兩位都是同屬於一個叫櫟社的詩社的詩人。那我就好奇說這些詩人背後到底是什麼樣的身份,查了一下發現在一百多年前也就是1900那個年代,他們都是很有名望跟很有人望的知識份子。譬如說蔡振豐,他是百年前的文壇領袖,這個是蔡振豐的照片,是1906年在現在台中公園那邊拍的。他是櫟社的首代之長。他那時候蠻有名的啊,譬如說這是當年台灣日日新報的剪報,他退休還有他過世的時候,報紙都是會報導的。然後這是豐原的一個詩人張麗俊的日記所記載,記載蔡振豐過世二十五週年之後,全台灣的知識份子還會齊聚到他的墳墓前去祭拜他。我想一個人過世二十五年後,大家都還很懷念他,並為了紀念他而開紀念會,這代表蔡振豐在那個時代應該是很有名望,然後也應該有做了一些事情讓大家非常認同。那陳貫他跟他哥陳瑚他們兩兄弟都是很有名的詩人,尤其是他的哥哥陳瑚,在他過世的時候,櫟社的紀錄以痛失巨擘稱之。在櫟社四十年的紀錄中,只有三個詩人被以這樣的資格來稱呼,所以可見陳瑚在櫟社中的地位。而陳貫他也是很有才華的詩人,但是因為他的哥哥實在是太有名,所以在不少紀錄中就用瑚弟來描述,就哥哥名氣太大,所以雖然弟弟也很厲害,但是大家就會稱說他是誰的弟弟這樣子。

總之我們可以看到說,當時倡議跟改建市場的都是很有名的詩人,但是經過一百多年後到了我的年代,我在我家那邊去詢問,卻幾乎沒有人認識他們,大多人都不知道他們是誰。這我就覺得很奇怪啊,這麼有名的曾經在地方做了很多事情的人們,但為什麼一百年後就被所有人都忘記了呢? 不知道他們做過任何事情,甚至於說有些人的名聲變得比較不是那麼正面。所以我就開始去嘗試做一些更深一步的調查。那以蔡振豐為例,他在日本時代,從日本時代文獻中可以發現他是一個被大家所敬仰的文壇領袖。但大概到日本時代結束國民政府之後,開始有一些著作跟文獻把他的思想抹除,或者是對他人格進行再評價。譬如說1959年的時候,台灣銀行出版了台灣歷史文獻叢刊,也把蔡振豐的著作苑裡志重新出版了一次。但是在出版的過程中,他認為說苑裡志裡面很多內容有害於國家民族的利益。例如苑裡志裡面寫到日本政府來台灣後做了一些行政措施,譬如說減稅啊或者是基於什麼樣的理念來推動台灣的行政,他認為這些內容講日本人的好話,這些東西都有問題,違背國家民族大義,必須要刪除掉。那還有一些插圖都畫得太過潦草,就刪除不要附上。最終苑裡志被刪除了七千多字,還有許多的插圖。在重新出版的弁言中有一句話是這麼說的,我們這一作法,除非有人想要研究著者的思想之外,對於文獻的本質跟歷史是沒有任何影響的。我當時看到時,就覺得有點被打臉。阿我現在就是想了解我們家鄉以前的文人有怎麼樣的思想,跟怎麼樣的態度為地方做事情,以及對家鄉有著怎麼樣的心心念念,你把它刪除掉,我就不知道怎麼了解了阿。所以那時候我就覺得有點不是滋味。而自1959年台灣銀行出版了這一系列文獻叢刊,到了90年代之後被中研院台史所的台灣歷史文獻叢刊資料庫所數位化,所以現在中研院的這些數位典藏資料,全都是有被國家民族大義所修改過的篡改後版本,這也導致了數位資料內容出現很多跟原本的不一樣,可能會有一些被微妙的錯開。那到了90年代之後有些學術文章,也對其人格有些再評價,譬如說我舉一個例子,這是朝陽學報的一篇文章,2003年的。他裡面說蔡振豐他當時一開始有參與抗日,後來失敗後就沉狂美色。接著呢就跟日本人交好。他就認為說這個人在日本來之後就跟日本人交好,是一個識時務者為俊傑的愛好名聲人物,絕對不是如同史志中所說是一個好義守節的文人。那當然作者有他的立場,但是單就說一個人只是跟日本人交好,所以就一定是一個沒有節操的人,我覺得這樣的判斷好像是有一點太過武斷了。我猜想有可能是因為早期的文獻拿掉了他的一些思想,在近期一點的學術文章的評論又對他人格進行再評價,導致我們後來就越來越少談論這個人。那就因此延伸出一些新的文化問題,就是說他的故居。蔡振豐他的故居還在苑裡天下路的老街上,像這張照片就是蔡振豐的故居,跟這一位是他的孫子蔡明良蔡阿伯,目前在老街開理髮店,地點就在蔡振豐的故居。 而蔡振豐的故居正面臨著都市計劃拆遷的問題,這邊有一條叫做中興路的道路要開過這邊,就希望把包含蔡振豐故居這邊的老房子全部拆除掉。但是地方居民是不太樂意,因為大家都在這裡生存了數代,可能很多是上百年的家族生活在這裡。所以在最近二三十年來不斷地有一些陳情,希望都市計劃不要進行,要保留著這些老房子。那近二十年來,地方居民開始訴諸文化手段,提出老街總體營造的方案,或是主張說這些地方是有文化價值的資產,我們應該要保留。但我記得是2006年左右,這是我的印象因為我最近一直找不到當時的資料,當時到內政部去陳情,那時內政部的回應是說,你這邊只是一些老房子,這些老房子沒有任何的文化價值,所以呢我們應該要照都市計劃把這些房子全部拆除掉。那當然現在又過了十幾年,因為很多老人家還這在這裡,鎮公所也不敢貿然拆除,那就面臨了這個困境。因為大家不知道這是詩人的故居,不知道這個詩人對地方上有許多貢獻,所以就評斷認為這是沒有文化價值的一些建物要被拆除掉,我覺得這樣蠻可惜的。
難以系統性探討的地方人文學

前面的那些發生在苑裡的事例讓我想到,因為我們對過去歷史的遺忘,會導致現在公共政策無法顧及到文化歷史的層面而有所缺憾,所以我就想說我們要如何去找回地方上被遺忘或誤解的重要人文特色呢? 那我一開始的嘗試就是試著多找尋連結,既然有些東西被遺忘了,那就找尋連結把他們重新連起來吧。 我就這樣,開始嘗試描繪那些地方知識分子的一些相關連結網絡。如圖上這是1897年倡議蓋市場的蔡振豐,這是1934年重建市場的陳貫,那還有他的哥哥陳瑚,他們三個都是同屬一個詩社櫟社的詩人。那再看下他的後代,蔡振豐他的大兒子蔡汝修好像也是一個詩人,但是相對沒有那麼有名。他在1910年左右就搬到后里那一帶去了,我目前還找不到他的資料。蔡振豐他的第二個兒子的次子,也就是蔡振豐的孫子,蔡明良阿伯他現在在天下路的老街開理髮店,是一個傳統的理髮店,他開著店也守護著他阿公的故居。 他是一個老街匠人,像我的老家也在老街,我的阿公跟我爸跟我都給他理過頭髮。然後市場的重建者陳貫,他的兒子陳南邦後來在民國六零年代左右成立了蓬山美術會,專精在書法跟繪畫領域,每年都會在鎮上辦美展,來推廣鎮上的藝術與文化。然後陳瑚他的外孫,是台灣作曲家郭芝苑,郭芝苑可能在座各位對他瞭解不是很多,他所擅長的音樂類型是把台灣的本土元素跟西方的音樂結合在一起,融合創作出一種以台灣本土元素為主軸的西方類型音樂。他在2013年已經過世了,他的追隨者們像是阮文池老師還持續的在發揚他的理念跟音樂類型,所以現在每年還有辦音樂會,像今年是郭芝苑誕生的一百週年,今年年底在高雄衛武營跟台北國家音樂廳都會有他的音樂會舉辦。所以我們可以看到,一百年前的這些詩人們,後代有可能是匠人,守護著傳統技藝跟阿公故居,有可能是成立藝術家團體發展繪畫跟美術,有可能成為音樂家來發揚創作本土有特色的音樂。這邊的一些文化概念好像是有持續傳承著的。
但是在我調查的過程中,其實不太容易了解以前他的前輩做了什麼,頂多只能知道他們在這個年代做了什麼事情。我會覺得這個網路其實不是很夠,這是受限於目前我能找到的人文史料還是有點匱乏。其實我透過田野調查找出的關係,頂多只能夠重建出後人跟前輩之前的關聯,你爸爸做什麼事,然後你也是在做一些跟文化有關的事情,交互對照之後我就覺得能夠講出來的東西是很有限的。但我比較關心的是地方文人的人文思想跟公共領域的成果。那希望能有更多的資料,來探討出他們有怎麼樣的哲思跟功業,這是我比較關心的,我覺得有這樣的資料才比較能夠重建一個地方的人文思想脈絡。

那回到這個問題就是說,為什麼地方的人文會難以系統性的探討,或是資料為什麼這麼匱乏呢? 我就開始嘗試去思索這個問題。那第一個就是關心的人數實在太少。例如說全世界有幾十億人,台灣有兩千三百萬人,而我家鄉一個小鎮只有五萬人,相對人數少很多。能產生的能夠進行這些能典藏與分析的人才相對的也會比較少。但這並不代表說這個地方的資料是不重要的。那也因為人數少對應人才少,所以他的產出就不夠多,甚至比較少人去閱讀,那他的知名度可能就不夠高。但這並不代表他的品質差或者是沒有討論內涵。還有就是影響範圍有限,因為地方的東西,他的涉及範圍就是地方跟鄰近區域,那可能就不像全國或全世界這麼大的範圍,那這並不代表他不深遠。像以苑裡來看,有些詩人以及他們的後代或者是追隨者們,都持續繼承發揚著這些苑理相關文化以及志業。但地方因為人數少又邊緣的問題,而導致他們的資料不容易留存跟比較匱乏。所以我就開始思考,我們是否能夠用系統性的分析方法來翻轉這個問題呢? 例如資料少的話,能不能在其他地方把資料找回來補齊。其他地方可能有紀錄我家鄉的資訊,雖然資訊少也可能比較片段,但從其他地方把各種片段蒐集回來,重新組合,類似拼拼圖的概念,到處找碎片來拼這樣子,就可能拚出較大的一塊。基於這樣的概念,我就想說我需要建立一個新型態的數位資料庫,再搭配統計分析的方法,方便我們將地方分散四處的資料重新彙整起來,進行重建,然後豐富地方的人文脈絡。
系統性分析工具在地方人文學的應用
用櫟社資料庫補足苑裡地方人文資料

所以我就有一個這樣的概念出現,以苑裡的情況來說,就是我們現在有很片段稀少的苑裡詩人的人文事證,那他們都是屬於櫟社的社員,只是苑裡的資料很少。但是櫟社是一個在清末日初跟日本時代很重要的一個詩社,他留有一個很大也充分的資料庫,所以我們就從櫟社的資料庫來著手。櫟社的資料庫可能會找到更多涉及的詩人分散在東亞各地,包含台灣人跟日本人也有部分大清帝國的。那我們分析資料庫的內容,拓展之後我們再找出人與人間的連結。那找到連結之後,我們就可以找出跟苑裡的櫟社詩人有關的好朋友。他們是好朋友就可能就會比較多交流,所以他好朋友的紀錄可能就會記錄到我們苑裡詩人的一些資料。那透過這個方法呢,將系統特徵串連,就可以支援一下苑裡這邊不足的資料。這個方法可以用在我家鄉苑裡,也可以也用到其他的偏鄉,因為我相信這個問題不只在我家鄉而已,其他比較偏鄉的地方他的人文應該也面對相同的問題。所以我那時候是有個企圖,想要利用這種方法建構一個模式,可以幫助偏鄉做人文分析來完善地方的資料。那苑裡來說,現階段資料就是從櫟社出發,因為百年前有許多苑裡櫟社詩人。
從詩社聚會紀錄建構人文關係網路
關於櫟社

前面我還沒仔細介紹櫟社,現在來介紹一下。櫟社是一個以霧峰林家為首的中部詩人結社,活躍於1900-1940年左右,他們會定期的聚會,彼此交流,並且詳細記錄他們的聚會過程。這邊是一些櫟社的簡單歷史,1901年的時候,由霧峰林家的林癡仙、林南強,以及彰化燕霧大庄的賴悔之,他們三個人創立了櫟社。那接著同年,蔡啟運、陳滄玉等人響應加入。這邊標橘紅色的就是我們苑裡的詩人,標粗體字是比較重要的人,像是創社人或社長等級的。那1906年的三月前,他們又加入了一些社員總共有九個,九個人在現在台中公園這邊拍了一張合照,後來因為這張照片,他們就被稱為創社九子。那同年的下半年,苑裡的其他詩人也加入,其中陳聯玉就是改建市場的陳貫。那接下來的數十年間,其實很多的成員加入跟退出,這邊我們就不贅述。那這個詩社除了吟詩外,也有濃厚的公共性。譬如說在1918年的時候,詩社在清水舉辦聚會,清水的詩人蔡惠如就認為說,當時日本治理臺灣已經二十多年,他很擔心說在日本治理的文化影響下,台灣的漢文學會逐漸式微。後來肇因於此,櫟社詩人們接著就成立台灣文社進行一系列活動來捍衛台灣的漢文學。從這邊可見他們捍衛自我文化的意志。到1920年之後,由櫟社的成員林獻堂主導,那時候他們覺得台灣的文明應該要有跟上世界潮流的一些進步,所以就成立了台灣文化協會,推動台灣文化文明的進展。那到了後期呢,為了要跟日本政府爭取台灣民權,也發展了台灣議會請願運動,來跟日本政府爭取台灣人的參政權。這些運動當中許多櫟社詩人都有參與。櫟社活躍於相關文化公共議題的時期大概是在1920年之後到1930-40之間。到了1946年之後,前一代社長傅鶴亭他過世了,林獻堂在1947年繼任了社長,率領了櫟社第三代成員。當時櫟社已經經歷四十年,所以櫟社成員已經一代一代的到了第三代,林獻堂率領了第三代成員意圖要再次復興櫟社。但隔年二二八事件就發生了,林獻堂因為二二八事件避走日本,之後櫟社就此衰微消滅。從某個層面來講,櫟社也可以說是二二八事件裡面的文化犧牲者。回顧櫟社簡單的歷史之後,我們再來看一下,櫟社第一代社長傅鶴亭他幫櫟社留下一本詳細記錄叫做【櫟社沿革志略】。裡面有非常詳細的聚會紀錄還有詩集,另外他也留下了大量的跟詩社聚會有關的照片、以及成員間的書信往返。這些資料建立出很大的資料庫,可供我們來研究櫟社這個詩社組織。
櫟社的聚會紀錄

那櫟社的聚會紀錄有多詳細呢?我們來看這是其中某一次的聚會紀錄。首先是被篡改的年號,雖然這邊寫清宣統二年,但他其實是一個被篡改的年號。實際上原本的版本應該是…,清宣統二年是1910年,所以可能是明治的42還是 43年。如果沒記錯的話,他原本的格式可能是明治四十三年庚戊。但因為這是1959年台灣銀行的版本,他認為這些詩人當時應該是不得以而要寫日本年號,因此就想說那我好心幫你改成中國年號好了,於是就把它篡改過來。接著他講到社員病故,像這一年鄭濟若在一月二十五號病故。鄭濟若就是苑裡的其中一位櫟社詩人,他在那一年過世。那也有社員加入,譬如說霧峰林灌園,林灌園就是林獻堂,他在1910年成為詩社的社員。再來就是聚會的內容,包含了時間,就是四月二十三日,他們在1910年的四月二十三日聚會。還有地點在瑞軒。還有與會成員,就是聚友有多少人。那天有二十個櫟社社員參與,還有十一個客人總共有三十一人。包含很多台灣人,還有像永鳥蘇南這名字,很明顯是日本的文人有一起來參與。那還有吟詩的內容,包含說台中竹枝詞之類的主題詩作。可見他的紀錄很是詳細,甚至拍照時有誰抱病或有誰後到都會寫進去。另外連當天的照片都還找的到。還有照片留著,所以我們可以從照片去對照出每一個人長得什麼樣子,只是對照這邊比較辛苦。

從這裡可以知道說櫟社的聚會留下了非常詳細的紀錄,這是非常完整的資料。那我就在想說,這些資料能夠拿來做一些分析嗎? 所以我就嘗試做了這樣的事情。我先把聚會紀錄整理成表格,那如圖這是我整理出來的表格。這個字可能會太小,所以我上面標了一些表格大略的大綱,我先標出事件,就是說這個櫟社的聚會在某年某月某日。然後日期的範圍是因為聚會可能不只有一天,他有些聚會可能會持續一到三天左右。然後前事就是這個事件之前串接的是什麼事件。然後人就是說涉及這次聚會的人物,這次聚會有多少人參與。詩就是他吟了什麼樣的詩,地點就是說他們聚會地點在何處。那當然出處這裡有空白,因為目前內容出處都是同一本的櫟社沿革志略,所以我就沒特別標註。然後是他的原文跟註解,註解處我就放照片。整個聚會記錄其實總共有四十年的資料,但是因為分析的速度沒有這麼快,所以我目前整理好只有1902-1922年的資料。那在這二十年間呢,總共涉及了二十場的聚會跟一百五十一個人物,那我就嘗試想基於這些資料來做一點分析。那就有一點問題就是,要怎麼從中找到跟苑裡的櫟社詩人比較親近的人物呢?然後我就可以從他們的史料中探索更多苑理的櫟社詩人的資訊。
櫟社人文關係網路的建立
那我的想法,就是從聚會關係中建構每個人之間友誼的親疏遠近,我想說建立一個人文關係網路,從聚會的關係中描繪出他們之間的友誼。那這個友誼關係要怎麼建構呢?有一個假設就是若這兩個人越常一起出席,代表較常交流,那他們的關係可能就比較好。另一方面是他們彼此有越多交流,就越有機會從各自的紀錄中找到彼此的資訊。那或許我就可以從另外一個人資料找到我希望找到的人的資料,可以幫助我多找到一些紀錄。那這時候就有一個的問題了,我們怎麼用數學來從聚會的關係描述彼此的親疏呢?

數學操作是比較偏理工的方面,剛好那時候我在做生物統計,生物統計有一些方法好像不錯用,我就把它拿來套用。這個是Hyper-geometric function它其實是當時我在做生物資訊研究的一些生物統計分析會用到,在生物資訊上會拿它拿來比較人體內的兩條生化路徑有多相近。但是在社會關係上,我覺得用它來描述聚會中的緣分關係好像蠻適當的,所以我比較浪漫的把它叫緣分演算法。就根據這些聚會關係來建構描述這兩個人緣分如何。那他的數學表現是這樣,就是如果說總共有M次聚會,這兩個各出席了N次跟K次,其中他們一起出席了X次,那這個聚會關係是隨機的機率就是p,就是說他們這樣聚會的結果是隨機的機率是p。這個p值越小,代表說這個關係是越不隨機的,越不隨機就代表這兩個間一定有什麼梗或八卦,所以導致他們這麼不隨機的出席。這樣講大家可能不是很懂,稍微舉一個例子好了,假設現在這裡有一萬顆球,一萬顆球都有編號。我從這一萬顆球裡面挑出十顆球,我把球放回去,再找我的朋友也挑十顆球,假如我們所各挑的十顆球呢,號碼居然有九顆都一致,那我們就會說這太巧了,這裡面一定有什麼因素存在,導致你們挑的球重複率這麼高。那這就是一個隨機的可能性極小的行為,因為正常來說一萬顆球我跟朋友隨便挑十顆,號碼重複的可能性會很低嘛,所以說這個號碼重複性很高的機率就會很小。所以說這個p值就會代表類似我剛剛講號碼重複性的機率,這機率越小代表我們之間可能有什麼特殊的關連性,而導致我們挑出來的結果是這樣子。所以p值就代表兩人出席聚會的成果是完全隨機的機率,這個值越小代表這兩個越親近,就是他們距離是越短的。

那藉由這個緣分演算法所建立出來的p值,可以描述每個人與人間的親疏關係。但是我們如果只是把這樣的資料圖象化,就會畫出一個全連結的網路,會看到一團球而已,無法呈現出一些有意義的資訊。所以我希望使用一些網路分析的分群跟視覺化的方法,讓相關資訊能夠清楚的被視覺化。那我挑選用的方法就是Minimum Span clustering演算法,簡稱MSC演算法。 這個方法其實是我在師大的生物資訊的群組裡面,做生物資訊的網路分析會用到的一個演算法。這個方法非常簡單,而且他能夠很快速的將網路進行分群。他的概念呢,就是我們讓每個人跟他關係最好的朋友手牽手,然後這些網路就會產生一些分群還有一些視覺化的圖像。那舉例來說吧,我們可以看到這裡有一個全連結的網路,這裡有六個同伴,連結上的數值就代表他的親密程度的距離,也就是親近關係。這裡數值越小代表他們是越親近,那我們就把最親近的朋友連在一起,夥伴一跟夥伴二最近,夥伴二跟夥伴一最近。夥伴三最近是夥伴四,夥伴四最近是夥伴五,夥伴五則是夥伴四,夥伴六則是夥伴二。你看透過這樣的連結,我們很快就分出兩個區塊。然後我們會注意到夥伴六,夥伴一到五呢他們的親近度都在十以下。但夥伴六呢,跟所有人關係都在一百以上。基本上他跟大家都很遙遠,所以這個連結應該是要被移除的,因為假如這個連結要連起來呢,其他五個人也應該都要連結在一起。所以我就把這個邊緣人的連結找出來剔出掉,除掉之後,從這個例子我們可以看到產生兩個友誼的小圈圈還有一個邊緣人。透過這個方法我們就可以將一個很大的全連結網路進行分群。

那這個方法,最早是我目前所在的師大物理陳啟明老師的生物資訊群組所開發並操作應用的,其實他也用在一些社會關係上過。我之前主要拿它來做一些生物資訊的分析,像這是我2017年發表的paper,我用它來系統性分析一些蛋白質的網路。拿來對GPCR這種蛋白質做系統性的分群分析,以及描繪他的演化特徵。我們建構出了GPCR這種蛋白質的分群特徵跟他的視覺化網路圖樣。所以他之前已經被我們用於生物資訊中的蛋白質網路分析上。

但我後來發現他在友誼網路上也蠻好用的。我最早將它用在友誼網路上,其實是我在網路文章上,看到有人提問了一個問題說,假如有十二個女生,他們會形成幾個友誼的小圈圈呢?那時候我看到就覺得這個問題,用我們的方法應該可以處理。甚至說我們的方法不僅是用在蛋白質系統,用在這種友誼小圈圈的問題,好像更為切題。也就是假設友誼圈圈形成的原因,是因為我們會跟最親近的人手牽手,然後就形成一個個友誼小圈圈,那這就完全符合這個演算法的操作內涵。所以我打算用MSC這個演算法來分析十二個女生的友誼網路,那十二個女生的友誼關係要怎麼決定呢?就用電腦模擬的方式。我用數值模擬隨機產生了十二個女生之間隨機的友誼關係,然後再用MSC這個方法進行分群,看看它們出現幾群也就是幾個小圈圈。那當然只有一個模擬是沒有意義的,那只是一個隨機行為的結果。我就把這個過程重複了十萬次,做了十萬次的模擬,然後進行統計,來看看結果如何。那右上圖是我模擬出來的分群的結果,我們會看到說在十二個女生的十萬次模擬當中,最容易出現就是分成三個群,有約46%可能性會分出三個小圈圈出來。當然如果他們要團結在一起,只有1.7%的可能性,所以我們可以知道團結在一起其實很不容易啊,只有五十分之一左右的機率可以團結在一起。那這個結果我回文在網路上,網路上有些人覺得這個觀點蠻有趣的,所以後來也有被一些人拿去轉載跟報導。這是其中找到一篇,他標題說:瘋了!網友問十二個女生在一起會形成幾個小圈圈,回文居然…。其實有不少人轉載這篇文章,有些把內容重新再報導過,成為他們自己的樣子。特別轉這篇,是因為他附了我們paper裡面介紹MSC演算法的圖,代表說他讀了我的文章後又去讀我的paper,然後把裡面的內容重新組織之後,再寫成一篇心得報導,我覺得他蠻有心的。那基本上從這個例子我就發現說,剛剛介紹這個MSC的方法,我們是可以用它來討論友誼網路的。他應該是一個蠻有趣的也蠻合理的會讓大家感興趣的一個方法,所以應該是可以拿來應用在友誼網路上。不過這個事件我最大的一個感受就是,身為阿宅,請不要隨意用數學來分析女生。因為性別議題是很敏感的,十二個女生可能會聯合起來幹譙我這樣。

雖說性別議題是比較敏感的,有時候研究這些問題會比較緊張一點。但是拿來分析歷史的問題就比較沒有問題,因為都已經是前輩,所以比較不會有人對你有意見。所以我就把這個分析方法拿來用在分析櫟社詩人的網路上,如圖就是我建構出來的櫟社詩人友誼小圈圈網路圖。我用緣分演算法建構出來櫟社詩人們的友誼關係。再用MSC這個方法,將這個友誼關係分群並且視覺化成網路圖。那我剛剛提到說有二十場聚會跟一百五十一個人物,那因為有些成員只來參加過一兩次,這些人在演算的概念上屬於邊緣人,就沒有出現在圖中。所以網路圖中就只留下比較積極參與的重要詩人,跟他們所屬的社群。
其中苑裡的櫟社詩人我特別用紅圈圈了出來,螢幕上字如果太小,旁邊有放大鏡可以放大。像這個是蔡啟運,就是倡議蓋市場的蔡振豐。旁邊連向他的陳瑚,就是陳貫的哥哥。蔡振豐連結到的林癡仙,是櫟社的創社者之一。然後陳貫他連結到蔡惠如這邊比較奇怪,就是說他是個苑裡的詩人,但連結到清水的詩人,他不跟他哥連結到一起。然後鄭濟若這個詩人我對他比較不熟,他連結到的是台中神岡那邊筱雲山莊的呂厚菴。那當然我畫出這些連結之後,他其實只是一些分析結果的呈現,其實還不是很有意義。我還需要找到一些真實的事證,來檢驗並證實說這些分析結果是真的有意義的,才能佐證這個系統性分析的結果是有價值的。
那怎麼檢查呢?在蔡振豐跟林癡仙的部分,剛好我去年有機緣遇到了台灣做櫟社研究的權威,就是廖振富廖老師。他是之前台灣文學館的館長,那時候我遇到跟他詢問說,廖老師我想詢問一下蔡振豐跟林癡仙是不是很好的朋友。他跟我說,對的,林癡仙跟蔡振豐是很好的朋友。我就想說BinGo,至少我先找到一條連結是對的。那我就追問說林癡仙有沒有什麼良好的紀錄留存呢?因為我在中研院的日記知識資料庫裡面,發現並沒有林癡仙的日記,但是有林獻堂或者是其他一些重要人物的日記。然後廖老師就跟我說,那個林癡仙他有日記,但是沒有被數位化。所以雖然我找到這個連結,相關性是有的,但是因為連過去的對方,他的資料也沒有這麼完整,對於要找到更多資料,仍有不夠完善的問題。那另外陳貫跟蔡惠如的連結,一開始我覺得很奇怪,為什麼他的哥哥也在詩社,他卻特別連到清水的詩人呢?我就去找尋各種文獻佐證,後來我找到的是蔡惠如在1929年過世時,那時候陳貫曾經寫了一封信給櫟社社長傅錫祺,信中表達了陳貫對蔡惠如過世的一些看法。他在他的明信片就寫到說,他跟蔡惠如的關係是「日相過從,情逾骨肉」。可見他跟蔡惠如關係很好,蔡惠如過世這件事令他感到非常的悲痛。從情逾骨肉這句看來,他跟蔡惠如連結比他跟他哥連結還要重要似乎也無不合理。總之這個親近關係在這個文獻中似乎也某種程度可以被驗證。那這個陳氏兄弟間沒有連結在一起,看似疏離的關係,我原本覺得很奇怪。除了陳貫跟蔡惠如的親密關係可以驗證外,從陳貫的詩中也可以看到一些佐證。櫟社詩人多有各自的詩集,我原本從陳貫的詩集中以為他是個兄控,就是很黏哥哥的人,這是比較新世代的用語啦。因爲陳貫有一首詩叫做秋日寄兄,這首詩說到「五人季仲兩人存,兄又天涯自走奔」,講的是他們本來是五個兄弟,到寫詩的時候只剩下陳瑚與陳貫兩個兄弟。接著哥哥天天在天涯海角四處走奔,因為陳瑚會來來回回到處跑,有時在台灣,有時也會去日本。陳貫覺得他都一個人在家,孤單寂寞覺得冷,希望哥哥有空回家,我們兄弟再聚一下。當初我讀這首詩的時候,一開始想說陳貫可能是個兄控,很黏哥哥吧。所以哥哥出去一下,他就會覺得一段時間不見了,我很想你,希望哥哥回來。但是從聚會關係可以提供另外一個可能的解釋,或許他哥哥真的很常出去,導致兄弟真的不常見面或一起出席活動。所以這邊我們可以看見我的這些分析結果,好像隱隱約約可以再找到一些資料來做一些證實,會有一些蠻有趣的對照。
人文關係網路的效能與侷限
但是呢,雖然從人文關係網路中好像真的呈現出了某些關聯性,而且與事實對照後,這些連結真的是可以與事實相提並論,就我現在找到的連結,幾乎都可以再進一步的從其他真實史料裡找到一些關鍵性的說法來佐證他們真的是親近。但是呢,從文獻中新找到的其他櫟社的人物,像林癡仙他的資料沒有被數位化,蔡惠如我後來有去清水去打聽他的消息,但聽說後來家族沒有很興旺,所以蔡惠如的資料相對來講也是沒有這麼多。所以雖然我找到一些跟苑裡櫟社詩人有所關聯的人物,但他們的資料剛好也沒有這麼完備。所以儘管我還是可以透過鎖定尋找他們的資料,來試著找到一些苑裡櫟社詩人相關的對照資訊。但還沒有這麼的完整,這是一個遺憾。雖然說確實我分析出的連結好像是有意義的,但是呢連結兩端的兩個點的資料,都還不是這麼完善。但是雖然如此,兩個不足的資料整合在一起,我還是可以多講一些故事。
那再來就是說我後來重新檢討這個友誼關係的演算方法,我覺得他裡面有潛在的問題,我必須要自我揭露一下。就是說我使用二十年的資料來做平均,也就是從1902-1922來做,但是人際關係是會隨著時間變動的。二十年的時間有可能原本的友誼關係會發生變化,像是中途才從陌生變友好,或是中途好友的友誼決裂之類。那我這邊舉一個例子就是鹿港的詩人陳懷澄跟連雅堂,連雅堂是台灣通史的作者,他們本來是好朋友,從紀錄中可查到,1912年的時候中華民國成立後,雖然在日本統治下他們他還自視是一個中華文化圈的人,所以他那時候還留著清朝的辮子,等到中華民國建立之後他們就覺得新時代來臨,於是陳懷澄就寫信跟連雅堂相約說,欸好哥們我們一起把我們頭髮剪斷一起迎向新的時代吧。所以可見那時候是好朋友,剪頭髮都會寫信互約這樣子。但是到1930年代的時候,連雅堂因為鴉片有益論這個事件,就那時候櫟社詩人像林獻堂這一派的人,他們覺得說,日本政府在台灣推行鴉片的販賣制度,對台灣的人是有傷害的,所以櫟社詩人群起反對台灣總督府對鴉片的公賣制度。但連雅堂他卻投書報紙寫了支持鴉片的文章,導致他後來被櫟社開除。當時在櫟社裡面開第一槍批判連雅堂的就是陳懷澄。他留下的陳述很是嚴苛,他說”我社留此冷血動物,有何益處”這樣子。我們可以看到他們1912年還是好朋友,還會相約斷髮,到1930年他們就決裂了,因為一些知識份子的理念問題,而導致決裂。我們可以看到說在不同的年代,人與人間的關係可能可以一開始是好友,帶最後卻是走入立場不同的決裂關係。從平均的觀點來看,就無法呈現這個特徵。

那另外有一個比較屬於統計視覺化的方式,也可以呈現出不同年代有所差異的結果,就是文字雲。這張圖上我根據櫟社沿革志略在不同時期的資料,做了人物的文字雲。由於之前整理過1902-1922有二十年的資料來畫網路圖。所以我就把1902到1911切為第一個十年,1912到1922切為第二個十年。來看看說他的文字雲有沒有差異。如圖,我把這個時期中,聚會紀錄裡的人名拿來統計,出現次數愈多的,就把圖片對應人名的文字放的越大。所以這邊這個人名長的越大,代表他在聚會中出現的次數越多。被提及的次數越多,應該就是他越具有重要性或是他越常出席。那我們可以看到1902-1911的文字裡面呢,可以說是一個苑裡詩人積極參與的年代。像這個啓運就是蔡振豐,那個滄玉是陳瑚,聯玉是那個陳貫,濟若是鄭濟若。這四個都是苑裡的詩人,他們字體都還蠻大的,那像是創社人林癡仙、賴悔之,跟林南強,還有初代社長傅鶴亭,他們都是一些比較重要的成員,所以他的字體也是很大。所以從第一個十年的文字雲,可以感受到苑裡詩人的積極參與,但是到了第二個十年就有點不一樣了。第二個十年我們看到說那個癡仙的名字變得很小,那是因為他在1913年就過世了,所以後面他就比較少被提起。同樣的像蔡啟運他在1911年過世,後來就比較少提起。1912到1922這個時期呢,一方面是第一代櫟社詩人中有部分過世或漸老,那另一方面可以從文字雲看到,林獻堂的重要性開始凸顯,他的名字開始變大。代表說林獻堂的參與度在1910年後逐漸增加。林獻堂在1907年只是以賓客的身份參與櫟社的聚會,到了1910年之後,才正式加入了櫟社。此後他的重要性就快速崛起,隨後到1920年代之後,他就開始帶領著包含櫟社詩人的一批知識份子,參與了台灣文化協會跟台灣議會請願運動之類的公共運動。從這邊我們可以看到不同時期,櫟社聚會中與會詩人的組成,也是有一點不一樣的。從文字差異我們可以見證櫟社的不同時期具有不同的特質。所以我們拿二十年的資料來進行統計呢,就看不到這種不同年代間的差異。我那時候想說,希望可以開發一個能夠凸顯時代差異的分析方法,但其實這個方法目前我還在開發中。因為相關的資料,二十年的資料比較完整。但如果我切割每一年的資料,相對就會比較零碎,用這些零碎的資料來做統計,難度就會更高。可能要用一些比較新的模型或一些比較新的統計方法才能處理。那這邊我還沒有找到一個特別好的方式,還在思考跟開發中這樣。
小結

我要講的內容大概主要是這樣,那接下來是我的一個小結。那首先就是邊緣的地方人文學。礙於資源與規模小,通常對地方或偏鄉的人文資源所投入的維護跟研究是相對稀少的,因此就會容易導致很多資料的匱乏。但是這些資料的匱乏會導致另一個問題,就是所謂的全局其實應該是由每一個地方所累積的,所以地方人文學資料的缺漏呢,可能也會造成我們整體歷史的缺漏,甚至因為地方一些史料與論述的缺乏,可能會導致整體歷史的失真。例如在上層修改一些我們過去的記憶,如果少了一些地方人文學細節的對照,後世就沒辦法凸顯其中的矛盾發現出了一些問題。那苑裡的一些資料就是這樣子,因為在國家層級的資料庫,他的一些記憶被篡改,所以導致我們地方這邊的資料也跟著稀少以及被遺忘。那以苑裡的櫟社詩人為例呢,我透過使用系統性的工具來分析人文的數據,我希望用這個方法可以精準的從國家級的檔案資料庫中挑選出一些碎片來補足地方資料的缺漏。希望能透過類似的模式嘗試開發一個方法,可以翻轉地方人文所面對的困境。那從我初步的一些結果,就是找到更多人文串鍊,也就是透過櫟社詩人聚會網路,找到更多具備意義的連結。這些連結暗示我或許可以透過林癡仙或是蔡惠如的資料協助進行苑裡櫟社詩人資料的互補。但是相關方法還有進一步改進之處。因為像我剛剛說,我用二十年來做平均,可能就無法討論各時期的人文差異,這是可能會需要注意的,也是我目前想辦法能看能否改進他的部分。這是我今天的演講,感謝大家的聆聽,謝謝。
問題與討論(敬稱省略)
李建良:
謝謝胡博士的演講,我只能說非常非常的精彩,我之前只聽過一點點的片段,現在有整個完整全面的了解。整個演講只能說非常的引人入勝,我自己也有非常的有收穫,甚至於就是可以打開非常多的視野,真的謝謝胡博士。現在開放大家討論,我想大家應該有很多的想法跟問題。那我可不可以先請教一個,比較是應該是怎麼講,也不能說是技術性問題,而是說我剛剛看到一個問題就是,就是對於櫟社的這個關聯,你有提到那個式子,就分群法。那另外後來就是為了校正用就是用文字雲呈現這個不同時期誰比較有影響力的彰顯,那我剛剛一直在觀察那個分群那部分,就是網路那個部分,我不知道因為後來才知道那個林灌園就是林獻堂,那在那個網路的這個人際網絡那個部分,沒有特別看到林獻堂是不是?
胡耿銘:
林獻堂我看一下喔,我找一下,這個有一個可能是因為⋯⋯
(講者註:林獻堂位在網路圖中最大群的核心位置,標為林灌園。過去本人也有針對網路圖中林灌園的友誼圈位置,與鴉片有益論事件後櫟社開除連雅堂的事件做過比較,唯此次演講未特別提及。實際上林獻堂在此網路圖中已經處在較為核心的位置,只是此次線上演講時,或因螢幕太小不易找字,或因演講完稍感疲累,一時未能及時找出林灌園的位置。)
李建良:
就是第一個我先確認一下在這個關係網絡的這個部分,沒有特別凸顯林獻堂,然後到了文字的地方,林獻堂在1912年開始重要性出來。那我現在問一個問題這也不是一個問題,就是兩個不同的方法呈現出來的一些關係,我剛剛的一個想法就是,林獻堂在這個整個因為他後來又變成是社長,他的影響力應該是蠻大的,關係等等應該是很重要的。可是這個關係網絡當中他反而沒有那麼清楚,這裡會不會呈現一個就是詮釋性的問題就是說,他可能很有影響力但是他未必跟人家交往沒有那麼頻繁?
胡耿銘:
對因為林獻堂雖然是很有影響力,但是他是在我這邊是1902-1922年,林獻堂是1911年開始加入,他影響力可能在1911年之後後期才逐漸變重要,所以在20年平均中他的重要性可能還沒有那麼凸顯,所以這是一個可能的原因,所以他在我這個網路圖中就變成沒有那麼重要,也可能是平均造成的差異。
李建良:
所以我就一直在想一個問題,所謂的影響力是怎麼呈現出來,因為他不會是突然影響力突然出現,那個影響力應該是慢慢延伸的,他的影響力是來自於哪裡?是來自於人跟人之間的網路關聯還是來自於他?我剛剛兩個對照只是我在想這個問題,這個也是有趣,因為你剛剛有提到說你們在抓這個關係網路的時候,你們要把邊緣人抓出來,那個邊緣人他反而是重要的。
胡耿銘:
這裡的連結呢是透過聚會關係的,所以有可能是林獻堂1910加入了之後,他在聚會的次數可能沒有那麼多,但是他在1911到1922間他的重要性有可能是,他參與聚會次數沒有這麼多,但是他的被提及次數可能更多,所以這個可能人與人連結是透過聚會關係,所以你參加越多聚會,然後有另外一個人跟你一起參與聚會,一個是要多去聚會,一個是要多跟某些朋友一起聚會,他們倆的交流重要性才會凸顯。就可能林獻堂參加很多次聚會,但是跟別人關係又不明確,這也是有可能,這需要進一步再回到我們的網路數據去探討。這也是我還沒有詳細去做的,裡面還有蠻多東西可以分析。
李建良:
我只是直覺啦,那我想先來開放我想大家應該有很多的想法跟問題,那我現在來開放大家提問跟討論,請大家發言。
盧省言:
就非常謝謝胡博士的演講,有時候我感覺胡博士比我更適合當一個歷史學家,在你比較前面的,有一張叫做你的故事不是我的資料,然後我對於那張非常非常有興趣。就是你有講到說數學資料,資料的數學分析這只是一個很小的問題,什麼樣的資料對你來講是不具有數學分析性的呢? 譬如說以史料來講,我們最常看到的就是敘述性的史料,那因為你這次用的都是一些聚會譬如說聚會有誰有誰,這個其實還蠻可以用數學或統計的方式來運作,那有沒有什麼資料對你來說,就舉例有沒有什麼資料對你來說是它很難用數學去分析或是不具有數學分析性,譬如說像是一些史家他單純敘述的東西,然後你很難把它變成數學去分析,這是第一個小問題。第二個可能不太算是問題,只是一個建議,就是因為你剛剛會有提到說其實你去看這二十年,有一些是數學或數字上面沒有辦法反應出來,譬如說你剛剛有講到後面那個連橫跟那個誰就是相約斷髮,後來他友誼的小船就翻船。那只是一個評論就是說,如果要做數位,通常數位人文的取向他就是看趨勢,所以他很難去注重到細節,可是我覺得你沒辦法去注重他們友誼就是翻船了,這種細節就是很無可避免。這是很正常,因為通常來說數位人文者他做的東西都是兩三百年起跳,然後這也讓我覺得說,請問櫟社存在多久我只是想說如果你再把時間。
胡耿銘:
剛剛講說1901-1940。(講者註:這邊指聚會紀錄的紀錄時間,櫟社實際存活至1947年之後。)
盧省言:
我剛剛原本是想說如果他更久的話,你可以看個五十年之類的。
胡耿銘:
但我覺得資料充分度是說,你兩三百年如果只有十筆資料,你四十年有一千筆資料,那可能四十年資料也很值得去討論。
盧省言:
對,然後大概就這兩個。
李建良:
第一個問題我插一句,可以先解釋一下什麼叫做數學可分析性嗎?
胡耿銘:
數學可分析性就是說,這個故事能不能轉換成一種可以用數學進行分析的資料,也就是數學或電腦程式可以分析的格式。譬如說轉換成表格的話,我們可以把表格一格一格來處理。或者是轉換為數字,比如說出現年代可能做一些統計。但這個數學可分析性其實就是牽涉到轉換的過程。把一個故事轉換格式雖然可能會失去一些資訊,譬如說人在哪個年代可能就會少掉一些他的其他特徵。但重點就是說我轉換出來的新的資料如果是是數字或者是表格,我的程式就很容易分析了。那如果轉換出來是圖片或是什麼的話就會比較不好分析。但是不好分析不見得不能分析,工程師魂發作然後努力把各種不同的資料都處理也是有可能,但是需要技術層面就會高很多。所以我們如果夠把這個故事轉換成一個更好處理的資料,在後端處理就會比較方便。那如果我們轉換出來的資料是不好處理的呢,在後端數學跟程式的範疇,我們就要絞盡腦汁去思考說,到底要怎麼樣把這資料處理好,所以其實可分析性跟我們的功力還有我們的能力也是有點關聯的。那另外第二個又是省言剛剛提到說,現在數位人文都是看一個趨勢,那當然趨勢有很多是平衡態統計上取個平均的特徵,但另外其實對於不夠完備的資料,也還有非平衡態統計的一些數學方法可以應對。對於目前還難以處理的問題,如果是很感興趣的,我或許也會希望說能不能絞盡腦汁把那種理工數學魂發揮到極致,看有沒有辦法發展出新的數學模型跟分析方法,來分析那些感興趣但是比較不易分析的資料。這現在都是我有在思考的問提,但是這邊的嘗試有其困難,不少問題到現在仍然沒有非常大的進展。
盧省言:
好,然後感謝胡博士的回答,然後是小麥有說所長剛剛問那個,沒有看到林獻堂在詩人網路的那一張,那個小麥有留言他說他找到了,可以回去那張,他說在圖片的中央。
胡耿銘:
我其實印象中是有,但我剛剛沒看到。
盧省言:
就是林癡仙的右上角有兩個,就是鄭濟若跟呂厚菴那邊。
胡耿銘:
我剛剛也覺得有點疑惑,我記得好像有,但剛剛所長跟我都沒看到。我想說我剛剛自己也找不到,對不起那個字真的太小,抱歉我下次圖應該要呈現大一點這樣子。那林獻堂確實還在網路圖裡面沒錯。但是確實會有一些人因為聚會關係的不明確可能會被移除掉。所以我覺得所長剛剛問的問題也是蠻有意義的,就是有些人可能是他也可能會常出席,但是跟別人的關係非常隨機的被排除掉,是有可能性的這樣子。
李建良:
延續剛剛省言的那個問題,當然他期待說胡博士來當歷史學家,我覺得今天這個議題大概可以分三塊,一個大概就是資料的問題,怎麼樣尋找資料,第二個是分析工具的問題,就是怎麼樣去分析等等怎麼樣去做。那其中最核心的是說,那個公共議題在哪裡,就是做這個東西是做什麼,隨著公共議題的不同,那資料庫跟這個分析工具可能也會有所調整。所以我就回到剛剛這個苑裡問題當中,我剛剛想到兩個公共性的問題,第一個就是苑裡市場的問題,火災之後目前是要朝向重建嘛,所以他是要把他恢復原狀嗎?然後再來就是恢復原狀當然有一個正當性,他是某一種層面的文化資產,所以你必須證明他是一個文化資產,所以接下來他整個的後續發展就是以重建來發展,那這個部分就是說,我先問一個事實問題就是,他本身是一個文化資產嗎?有被認定過歷史建物嗎?
胡耿銘:
目前苑裡市場的文資身分,在國家文化資產庫是有登錄的。
李建良:
之前就被登錄還是之後?
胡耿銘:
之前沒有,我找資料後還有地方青年團體提出文化資產的申請跟審議之後確定。
李建良:
對,所以我說這個就會是一個公共議題,就是說他之前不是,可是我們透過這樣的資料分析等等,還原他其實是一個文化資產,所以以這個部分他可能火災燒完之後大家反而會覺得沒有保存價值,那這一塊地可能可以重新來開發。所以這個火災有沒有可能是一個非常詭異的一個因素。有另外一個原因,可是現在透過這種方式去把它的文化性凸顯出來,他其實就是可以變成是一個要保存的東西,所以我就說這個東西的議題性可能就是在這裡。未必是我們要去做所謂的歷史研究,那另外就是剛剛提到要拆詩人故居的部分,所以那個部分現在還在他還是處於隨時處於被拆掉的情況,所以現在的這些做法,包括這些網路的連結,含有這些文字,這些東西能不能夠來就算是四十年好了,那四十年也在我們的舊時代歷史建物其實也夠了,所以這會不會也是公共議題裡頭要做分析的,應該說算是一個取向,這個例子跟你剛剛一開始提到的整個架構。
胡耿銘:
對,那我來跟大家把發生在苑裡的文化公共議題再講詳細一些。那市場當時發生火災,一開始情況是有點偏混亂的。通常我們會認為一個正常的市場重建流程好像是應該,火災之後公所協助給予租約攤商補助跟輔導,然後蓋一個中繼市場讓他們進駐,這樣做可以維持攤商生計也維護民生經濟所需。而在市場端,可能需要清理現場再行規劃重建,然後最後市場再恢復後攤商回歸。這是一個比較理想的過程。但是在苑裡市場火災之後發生的事情比較特別,就是公所在火災發生之後呢,他積極尋求跟攤商解約。到現在三年了,公所還繼續尋求解約,導致現在攤商跟公所還在打國賠的官司,那當時攤商跟一些地方民眾是擔心說,這個地方會不會就這樣被擺爛掉,所以就產生了申請暫定古蹟來獲得一些時間空間讓大家能夠互相討論的想法。所以因為這樣的一個起點,我提供了我找的資料協助大家做暫定古蹟的申請。通過申請暫定古蹟之後就多了一些時間空間,讓大家可以進行公部門以及公民的溝通。所以在2019年時,在一些地方團隊(講者註:如苑裡的掀海風團隊)跟市場自救會的努力下,辦了非常多的公民參與式的工作坊,包含有建築師事務所來到我們鎮上與公所協辦,召集地方關心市場的鎮民,一起來進行公民參與式討論,討論說我們需要一個怎麼樣的市場,以及市場要怎麼重蓋。這些參與式討論進行了四五次,最近一次在今年的三月,剛好那次我回家有參與到。這張圖這是燒毀市場的配置圖,火災後遺構已經成為歷史建築,這部分會交由文化部來組織重建。那這邊有一些沒有完全波及到不是歷史建築的部分,因為現行都市計畫法建蔽率的問題,老建築的重建往往會壓縮到室內空間而影響到市場攤商的數量,所以這個地方會一起參與改建,經濟部會注資過來協助這邊老舊市場的重建。所以順利的話,應該會在明年將歷史建築市場恢復。透過文化部跟經濟部的注資合作,來重新建構出一個新的市場出來,符合歷史建築跟市場使用空間。但是這個是理想,就我所知攤商跟公所他們之間還有一些糾紛,所以還不知道接下來是不是都能夠順利照著走。但是透過暫定古蹟的申請與歷史建築的設立有爭取到時間空間,確實促進我們鎮上公民參與來討論說,我們需要一個怎麼樣更好的市鎮環境這樣子。那另外第二個就是那個故居拆遷的議題,就故居拆遷 議題就是發展比較不順遂的地方,就是說自從2006年之後內政部公告說,你們這邊就是一些不具文化價值的老房子,那應該要去拆遷。但問題是居民都還住在那邊,都是老人家,這個拆遷下去可能會出很多事情,所以公部門也不敢貿然拆遷,因為有可能會出很多事。有很多老人住在這裡,突然換了一個環境不知道會出什麼事不知道,所以公所是說你們這些房子已經要拆除了,所以你們不能再度整修他們。這個老房子前半段其實是1935年的新竹大地震倒後重建,後半段其實是清代時候的建築結構,你看這個房子他二樓是用一些波浪板把它擋起來,那是因為公部門單位說你們這些房子都要拆了,你要住在這裡但是你不可以整修。你房子壞了不可以修,就只能讓它自然壞掉,所以房子壞掉他只能用簡陋的東西補起來。那他又有情感,希望住在裡面,所以就導致房子越來越爛還是努力住在這邊。當時我就覺得當年內政部的一些詮釋是有問題的,文化價值沒有被凸顯,那或許我把這些東西講的更清楚一點,或許可以幫助地方鄰居更多,看有沒有比較好的處理方案。近年也有一些像私老建築的一些老屋保存重建方案,我也有跟那個蔡阿伯提過,有時候我會去找蔡阿伯聊這些問題。但因為政府的政策對應到在民間施行時,還是有一些問題。就是政府有美意希望讓那些私有的老建築可以有某種方式保存下來,但是實際到居民端的時候卻有產生一些問題,譬如說你可能要整修完房子之後才能夠撥給你補助款,但問題是這些居民不一定有閒餘財力來做這些房屋整修,所以那些補助的政策會有看得到吃不到的問題。所以這邊會面臨到蠻多的問題,那我初步希望讓大家知道這邊有很重要的文化價值,越多人覺得重要,或許就會比較有機會翻轉這些公共政策上的一些決定,這是當時做這些問題的一些想法。

蔡政宏:
大家好,那個謝謝胡老師的演講,我有一個小問題,我對於那個緣份演算法感覺蠻有趣的,我想是不是有可能可以那個商業化?就是某個人如果用這個演算法,就是可以找出原來他有某個小三。那另外一個方面來看,如果有一個罪犯因為他就死不承認他的同夥,我們是不是可以用這個演算法來找出他的同夥。我其實背後的問題是透過這個演算法,找出連結。這個演算法是否可以把那個連結進一步告訴我們那個關係是什麼,因為連結跟關係似乎還是有一個gap在,那不知道這個演算法是否有這樣的一個作用呢?這是我的好奇謝謝。
胡耿銘:
有做這個之後,曾有朋友開玩笑跟我說,你是不是要準備去找Facebook的工作之類的。因為透過這些關聯資料好像可以定出人跟人之間的關係,在現在社群網路的時代是很重要的。這個不論是找小三或是要找一個罪犯的關聯,我覺得確實他一定可以透過某些相關的數據算出一個結果出來。但是在實際上,結果也是要詮釋,就像我透過緣分演算法建構出人與人間的友誼關係之後,我還要透過MSC分群法進行分群並建立了視覺化友誼網路圖,產生的連結也還需要找資料進一步佐證。 所以我覺得在應用到其他系統的時候呢,我們還是要先謹慎挑選數據。緣份演算法應用在我目前整理的聚會數據,在分析後得到到不錯有意義的結果,但我這邊使用的model套用在另一個類似的問題上,是否也有效呢?我覺得蠻有可能的,但是是否真的這麼有效呢?在每一個問題上我覺得都還是要double check一下才能夠去確定。所以我的回答是我覺得是有這個潛力,但是要做的時候,每個問題要謹慎的選擇分析用的數據。
何之行:
謝謝胡博士,我覺得接著剛剛蔡老師提到的問題,就再往前問一步。因為現在所謂這個網路的親近關係,就是看兩個變數,就是看他出現的頻繁度,然後來預測這兩個人之間的緊密關係。但是頻繁度是一個數值,那推到緊密關聯性其實是一個詮釋,那會不會就是可能是兩個人他們同時的非常喜歡參與這個聚會,但是他們兩個人的互動因為當時比較難還原。所以我們在解釋這個同樣高度出現的頻率,我們就把他們解釋成他們兩個其實是很好很親密關係,但他們只是偶然的剛好就是都很喜歡出席同樣的聚會。那其實更近一步的問題就是,在這個數值呈現的狀況下,我們用怎麼樣一個解釋或是詮釋的方法可以更好的去把歷史還原。然後這個解釋的本身他可能帶來的bias是怎麼樣? 讓詮釋者可以知道這樣的一個限制,然後可以去避免這樣的限制謝謝。
胡耿銘:
我覺得何老師問了一個很厲害的問題,就是緣分演算法的數學本質部分。確實他會有一些問題存在,如果兩個人都很積極參與他出席了全部的會議他的p值會變得很大,他們都全部出席了,所以在隨機上來講這個情況是沒有任何隨機性的,所以說我這個方法呢,在某些部分就是會有這種限制,就是你出席太多次時候在這邊會出現一個bias沒錯。所以說這是這個方法的其中的一個bias。實際上要修正這些,我們就不能只看一個數值,但因為在做純量網路分析的時候,我們就指定一個數值,所以當時選用這個Hyper-geometric function的時候,就純粹是算比較初步的嘗試,希望可以透過他抓到一些有意義的特徵。那其實他還有蠻多可以進一步修飾的空間,就像bias的問題也是一個我在思考,bias可能就無法用p值來描述他這樣子,這樣有回答老師的問題嗎?謝謝何老師。
李建良:
不過我剛剛在想這個方法,至少可找出誰跟誰比較熟。可不可這樣說,那他是不是具有影響力,就是說是不是參與會議比較多,那麼他就影響比較大,那這個就可能會有詮釋性,跟也有一點點保留。也很多人喜歡去開會啊,那很多人有影響力他在幕後我們看不到的地方影響力很大,可是誰跟誰比較熟或是他是一個圈圈,這個我覺得這個方法一定程度是有一定的客觀性,這我覺得是可以,那其他有沒有再提問?
盧省言:
那我就先講好了,其實這不太算是發問只是針對我剛剛想到一個建議,就是回歸到胡博士今天的公共性參與跟去參與這種地方文化,就是其實數位人文比起傳統他有一個很大的特點,因為他把資料轉譯過,然後用簡單的方式呈現出來,所以他比較容易為大眾所接受。所以我只是一個建議是說,因為剛剛胡博士有提到說,其實你很努力想要讓地方人士去注重這個苑裡市場的問題,那就是可不可以透過更簡單的方式,比如說你剛剛算出來的那個,就是反正就透過它們的緣分然後還有就是其他,用比較簡單的呈現方式或是做影片或是圖片方式,然後可能發給地方的人士。其實我覺得也不用地方,或是有志想要保存地方歷史或是地方文化的人,然後看能不能推動就是進一步的努力啊之類的,然後讓這件事情就是為更多人所知。因為其實公共性我覺得要提起大家對於地方歷史公共性最好的方式,就是你今天用的這個數位人文的方式,因為他會把很多事情簡化,就是人不會想要去看你剛剛講到的那個苑裡志,也不會想要去看物產考,可是如果你可以進一步的把它用圖像的方式呈現,像是胡博士應該沒有特別解釋剛剛第一張投影片就是最開始那邊,他其實你第一張下面不是有那個圖畫嗎?我覺得那個是一個很好的起始點,就是即便只是做一個小小的影片一分鐘兩分鐘,或者是說一個可能像這個圖畫應該就是古地圖上面的吧,我印象中是。反正我覺得像這個古地圖就是一個很好的起始點,因為我記得地圖上面會畫很多的房舍河流,還有樹木,然後如果把這些東西集合起來可能做一個演變。就是說我們從可能一百年好了,這個地圖就是在苑裡這個地方建築物的改變,然後做一個小小的影片依照這個,去引起大家的注意力的話,可能就會有更多人關心市場的問題吧。但這個只是一個建議而已,好我講完了非常謝謝。
胡耿銘:
那我回覆一下,首先是我之前也有做過這方面的嘗試,之前有一些朋友在音樂祭辦的展覽,我有協助做策展跟大家介紹市場的歷史跟一些東西,但是有一些深入的東西我覺得或許一個人做起來實在是很累。就是說你要做影片或什麼比較不容易。但是做介紹解說,我做過一些嘗試,但是這個部分我覺得有做過也有他的效果在,但我覺得效果還不夠。 所以我會期待把故事整理的更好,因為就算我跟鄉民們說這個很重要,他們也可能只是覺得說那又如何,會被問說你講的這些文化有很重要嗎? 甚至會被問說誰給你錢講這些話的,就是很容易受到一些異樣的對待。所以我希望我可以基於事實,把一個故事講的更完整更引人入勝,這也是我後來更加涉入的初衷。我想說這很重要,那為什麼重要但他們不太care呢? 那當然整合出一個完整的介紹,譬如說拍影片或者是寫一本小書,或是說辦個小展覽這都是我會期待能嘗試的部分。不過因為只有我一個人,要做到這件事情難度會比較高,當然我也有在嘗試這樣子。那另外就是封面的部分就是,大家應該有看到這艘小船,他其實出自於苑裡志被刪除掉的圖片,苑裡八景中的一幅,二子蓬溪晚渡。那這個圖片當時在台銀版的文獻裡面說這些圖畫的太潦草,所以他把些圖片全部刪除掉,那後來我以一個苑裡地方人士的觀點去重新看這圖,發現這個圖真的是有夠潦草。但是呢,裡面有一些在地人才看的出來的東西,有很多外人看似潦草的筆觸,在我這個在苑裡長大,也對家鄉有過一些基本探索的人來說,那些潦草的筆畫勾勒,卻可以對應到真實世界生長環境的風景。 這些圖畫是一百多年前畫的,因此以我這樣在地居民的生活經驗來看這些圖畫裡,可以做一百年環境地景的互相比對。譬如說這張八景圖中的樹長什麼樣子,還有畫著樹怎麼圍繞著房子種植,或是店屋街道怎麼跟渡口連結。現在也是欸!到了描繪的地點,還可以看到類似的樹以及類似的居住模式,或是交通殘跡。而從圖片可以知道,一百年來他們就一直是這個樣子。或是說他很特別畫出一個故事,像他很多八景圖中都是只有風景,僅有少數幾張圖有畫人。蓬溪晚渡的景圖中,卻特別在渡船的船上畫了兩個人,標題還特別標說二子篷溪晚渡。可見畫插圖的人,應該刻意地想把一些人文故事藏在他的插圖當中吧。所以其實順著這張圖的脈絡去思考說,這裡面兩個人,一個人可能鎮志著者蔡振豐,另外一個可能是誰呢?所以我們會想解出謎題,有可能是蔡振豐的好朋友,或許是詩人陳瑚,也有可能是苑裡弁務署長淺井元齡,也有可能是其他當地或外地仕紳或神秘好朋友,但目前尚未有定論。當時他們怎麼去搭船,也有對應的詩句做了紀錄。那另外這些圖片也呈現當時船的格式,同樣一個蓬溪晚渡,現在苑裡鎮公所也在房裡溪邊有做一個意象雕塑,但他們雕塑中的船,呈現的是現代化的膠筏,就是一根根水管綁起來的,上面有人在撐著一個篙,那他就說這是一個晚渡的意象。但如果我們有找到這些圖片,我們就發現以前的船是小舟,而不是膠筏,那實際上晚渡也不只是撐篙,圖畫中呈現了文人會很悠閒的在船上面閱讀詩文的過程。總之後來我透過一些詩文跟圖片的對應就發現,現在對那個事實的描述,跟以前的描述會產生落差。那就因為他的這些圖片被刪除掉,所以之前在考證上就會遇到困難。那時候放這個圖片,也就想說跟苑裡有關的演講,就放一個跟苑裡有關的一些小元素在裡面這樣。
李建良:
那大家我想這個時間的關係,我後面稍微做一些也不算總結,因為覺得今天這個演講我個人其實收穫多,那我剛剛也提到說,整個來說可以分三個部分,第一個部分就是整個資料的部分,第二個部分就是公共議題的部分,第三個是這個分析方法的部分,那當然分析方法對我來講永遠是一個比較外行,因為這個部分需要比較資工方面的一些知識。那就前兩者來說,資料跟公共議題之間,我覺得他之間也有一些交互關聯的地方,那特別是我要提出來剛剛一開始胡博士有提到,當資料有他的正確性問題怎麼樣去處理的時候,有人把他分成是人文的處理方式跟這個從理工的方式去處理,那我對理工方面的處理我覺得那個部分不完全是理工方面,可以把它一般性的是屬於社會科學人文也應該有這樣的思維,就屬於系統性誤差的問題。系統性誤差譬如說觀測的一些偏差資料庫,資料轉換的過程當中有一些資訊的喪失還有累積的誤差,其實這一直都發生在這個我們的人文社會科學領域。那就法學的角度來講也更常發生。就是我最近常常在發現我們很多的一些規定,或者很多的法規,在寄送過程當中有非常多的系統性誤差,就是你在抓一些規定的時候,在理解的人可能他自己覺得理解,或者是理解當中有一些疏漏,或者是說可能這些疏漏因為你記得關係跟原來的樣貌有非常大的一個差別。所以我覺得今天這個有關於系統性的誤差,他本身是一個資料的問題,可是我又覺得他身也是一個公共議題的問題,那所以我剛剛特別提到說今天以這個櫟社的這個為例,特別是以這個蔡振豐為例,我想到說這裡有一個史料的轉型正義問題。就是說它裡頭基於很多的史觀把很多東西拿掉,所以呢其實這裡是可以獨立成為一個議題,叫做史料或者是資料轉型正義的問題。其實這有非常多可以做的,所以我就從這邊也可以回到這個胡博士這邊,以上就我現在看到非常有意義的演講,其實也可以開拓另外一個領域。然後過去有意的要把蔡振豐的有一些東西基於一些歷史政治上的考量,其實也有還原史料還原他歷史真實面貌的一個公共議題。
胡耿銘:
對,我也很認同所長的想法,我自己也有在思考這邊的資料轉型正義問題,只是這邊還沒有做到,不只是蔡振豐,其實在蠻多地方都會遇到類似的問題,如果相關問題再重新修正回來,對於我們台灣的歷史應該會蠻有幫助。謝謝所長講出我心中想講的,所長真的太厲害了,講出了一些我心中還沒講的話。
李建良:
我其實收穫還蠻多,這個只是一個附帶談到就是詩社的問題,不是問題,就是詩社在日治時期其實台灣是非常蓬勃的,我相信除了櫟社之外台灣應該有非常多詩社,還有詩社之間的關聯這應該也是一個有趣的議題可以推展,ok那不曉得大家還有什麼要提出來的?如果大家沒有要提出來的在這邊再次感謝胡博士給我們今天非常精彩的演講,謝謝。在結束之前也跟大家預告我們下禮拜五下午兩點我們還有一場,一樣我們是在線上的一個跟AI有關的研討會,這次這個議題是比較硬一點他是跟刑法有關,刑法跟自駕車的這個關係,再這邊跟大家預告有興趣也歡迎大家參加,我們在此就結束今天的研討會,那謝謝大家的參與謝謝胡博士今天的演講,謝謝大家謝謝。