公共性與AI論壇(一)
2020年8月31日(星期一)
主持人:李建良(中央研究院法律學研究所研究員兼所長)
主講人:魏志平(國立臺灣大學資訊管理學系教授)
◎ 整理:洪于庭
◎ 定稿:李建良

研究領域
人工智慧
唸書時有在管理學院研究人工智慧相關議題,在當年並非一個熱門的題目。後以資料為導向變成人工智慧中一個大的脈絡,當時叫做資料判斷,這個詞大概於1990年前期到中期被界定出。故機器學習現在所談的基礎,大概就是資料探勘的基礎,做所謂的監督式學習的概念。我也做很多文字相關分析、文字探勘、資料檢索、社群媒體分析,這個在技術層面,過去30年我大概就環繞在類似的主題上。
應用領域:商業智慧、專利分析與探勘、醫療資訊
於應用領域,在管理學院是做與商業有關,比如說分析社群媒體資料,目的是為了解決行銷決策的問題、品牌管理相關問題,故下文會談及品牌個性如何利用社群媒體資料能夠偵測出來。那財務上,這兩年做了兩個相關研究,如一間新創公司的模型為何,我們使用許多數據在操作,包括募資、企業內部資料、社群媒體上被討論的內容等等。清華科技管理學院有許多同事從事專利分析,將資訊的技術用到專利的分析上,可以有各種不同層級,譬如專利層級。譬如企業中,美國專利每四年、八年、十二年需要維護,而到底哪些專利需要被維護,我們使用IBM過去關於維護、不維護的資料想辦法產生某些變數、建立模型,以產出該專利是否應維護等等。這講的是專利層級,情境是企業中智財管理的範疇。如是科技領域的層級,譬如奈米科技,先定義好奈米科技,透過某些關鍵字跟類別的搜尋,找出科技機會在哪,即哪些區塊過去沒有很多人研究。
醫療部分,分為兩大部分,一個是我們曾經使用過健保資料庫,於2012年台大的一個健康加值計畫與藥學系老師合作,利用健保資料庫裡的100萬人抽樣檔尋找藥物不良反應的訊號。並非特別著重急性藥物反應,比如吃感冒藥會頭暈、嗜睡,我們著重是長期反應,如哪些藥會導致癌症、心臟病、心血管疾病、腎毒、肝毒等。所以使用10年的數據串連人的資料,較能偵測到這種長期性不良反應。另一部分是做文獻探勘,使用美國醫學文獻,到目前為止是2500萬份以上,想辦法理解每一個文獻中的概念與關係。譬如某篇文獻中是討論A藥來治療B病,A藥可能跟某基因有關。另一篇文獻可能探討該基因跟另個基因有抑制作用等等。我們將關係萃取出後做圖論的推論,即有無未知關係,可以從現有關係推理出來。典型的例子是「舊藥新用」,某藥當初的適應症、能解決的問題可能是某疾病,可是他可以被再提出治療其他疾病。較耳熟能詳的例子如落健、柔沛,原是掉髮禿頭用藥,當初一個是高血壓用藥,一個是前列腺用藥,後來發現二藥的服用效果可以抑制禿頭。再者我也有做機器閱讀理解,這幾年較熱門的人工智慧題目,也就是輸入一段、一篇文章、一個問題找出答案。
社群媒體資料的價值
社群媒體包括社群網站、產品評論、論壇、部落格、微博等等,已經是人類常常利用分享自己日常生活發生的事情當下的心情、經驗、看法、探度等等。那社群媒體資料目前看來也成為許多領域重要研究議題的一個替代數據來源。特別在管理上面,很多過去我們可能需要用問卷去問的意見,我可能可以透過社群媒體資料的分析,得到一個檔案。
社群媒體資料已成為許多領域重要研究議題的資料來源:
消費者行為分析、行銷管理
如於在消費者行為分析、行銷管理上,可以透過分析顧客留下來的產品評論、個人經驗也好,我們可以試圖了解消費者對某些商品服務的消費金額和情感態度,進而可以做到消費者行為理解和行銷品牌管理。
股票漲跌預測
30年前在管理學院念書時,利用基本分析來分析這個股票到底好不好,後來就有技術分析。不管是基本分析或技術分析,技術分析大概以天為單位,也就是我分析今天的線圖,可能是使用過去的線圖預測明天股票可能的漲或跌的趨勢。現在許多人在社群媒體上,甚至一些與投資財務有關的社群,讓大家大量分享對於股市大盤趨勢的看法、對於某些產業的想法、對於某一張股票分析的結果,這些資料是以分鐘可以收集到。故這十年來有不少研究就是做專門在收集社群媒體的資料,如Twitter上的數據以每15分鐘登記一次,決定下15分鐘這張股票的漲跌。可以認為買股票已經是以分鐘的決策為單位,而非以過去我們看昨天的線圖來決定明天的趨勢。這大概是股票漲跌預測。
前陣子我做完一分析,即IPO股票新上市對於財務的人而言,他第一天的漲跌是他重要的議題,叫underpricing,也就是所謂的發行價一般而言會低過市場的預期價格,所以看第一天漲多少,想知道到底是什原因,或有沒有預測模型可以來預測,所以我們拿財務上的指標再加上社群媒體討論IPO股票數據,可以看到,以這類管理或財務議題,那這幾年來利用社群媒體上面的資料將他們過去的模型往前推一步。
政治輿情分析
政治人物常透過社群媒體的觀察網民的看法,網路上的風向、談的議題、對某政黨的看法、政治事件的看法。在資管中,某些文獻也表明,他們利用過去2008年的美國總統大選觀察社群媒體對於美國總統大選的影響。
藥物不良反應
在公衛藥學領域,過去仰賴衛福部食藥署的不良反應通報,一般使用者使用某藥覺得不適,有一些你可以觀測到的不良反應,可以主動通報。藥廠如果知道有這個反應,他必須義務性且強制需通報。惟我們也分析過美國不良反應通報系統上的數據,那他們的數據的落後程度,也就是說很多人要再去用應用程式登錄,並非他所習慣的日常使用。可能較傾向在Twitter、Facebook上面就寫我昨天使用哪個藥,我現在頭痛的要命,所以有些研究抓Twitter上的數據或是Facebook上的數據進行不良反應早期偵測。他們也發現會比利用食藥署不良反應通報系統的數據,可能可以早上幾個禮拜或幾個月可以更快知道不良反應訊號在哪。
精神疾病偵測
上學期與學生用Twitter的數據做可能憂鬱症的可測,於Twitter上面收集很多人的數據,抓完回來那哪些人可能是憂鬱症可能不是,怎麼辦呢? 如果我要發問卷也不知道那些人是誰,也要經過學術倫理審查等等,將曠日費時。較簡單、較沒有倫理問題,我們使用醫生看這些人寫的內容,用他的專業判斷,懷疑他是否有憂鬱症傾向,所以找了三個住院醫師,大概coding出來幾百個使用者,我們用了某些特殊的關鍵字比如說depression、depressive這幾個字,所以比率上就比隨機去抓回來的多。最後我們分析文字內容、情緒變化,建立一個預測模型來偵測精神疾病可能的訊號。
問題與討論(敬稱省略)
邱文聰:
如何確認Ground Truth?
魏志平:
於藥物不良反應,當時本來是希望藥學系合作的人能幫我們看,惟沒辦法看。所以我們能做的是針對我們找出來的訊號,去Micromedics的網站,該網站有某個研究說A可能導致某個不良反應。他們就分級,比如說這是一個大型的調查結果,這是一個動物實驗,故我們只要認為已經有研究在談這個訊號,被我們找到,就當成他是Ground Truth。那至於有沒有很多東西我們抓到可能是,那可能還沒有研究,那我們希望有,也就是說precision是underestimated。
至於精神疾病,我們討論過幾個方案,一個就是在我們周邊的人想辦法招募幾百個人,願意把Facebook或Twitter的帳號資料,讓我們的程式存取。同時做某些精神疾病的檢測,但這曠日廢時,需要經過研究倫理審查等等,而且這些人可能也不願意。所以我們能做的就是,我們請醫生看著他的寫作去判斷。那有沒有可能誤判,有可能。有沒有可能錯過掉,有可能。但是我們就只能在這樣的概念之下去做Ground Truth。
邱文聰:
這樣訓練出來的演算法,他是要趨近於一個精神科醫師的能力去判斷在社群媒體上某一句話的人,他是有精神方面的疾病,是要達到這樣的目的嗎?
魏志平:
我們沒有要取代任何精神科的概念,我們在做很多偵測或預測模型,任何一個專業每天要面對這麼多訊號要處理,其實是很恐怖。如果可以幫你過濾掉某些或是確定這些訊號優先順序,希望能夠幫助專業人士減輕壓力。就像藥物不良反應偵測,我們列出我們系統中偵測到我們認為訊號最強的,也就是機率最大的。當時一個林藥所的老師,他認為我覺得這個訊號很特別,他要做藥理分析。他做完藥理分析最後認為訊號是正確的,所以就發了一篇文章,故我們沒有要取代任何專業的人。
吳舜文:
我想追問剛剛的問題,因為我認識的憂鬱症患者,在症狀嚴重的期況下,他們任何事都不想做。這種偵測是不是只能只能偵測到早期的一些可能徵狀,所以真的被診斷為憂鬱症的患者,可能根本不會使用Twitter。
魏志平:
是的,在執行這個研究計畫的學生本身是患者,所以我大概清楚剛提的情況,當他真的在一個比較糟糕的狀況,他是沒有能力和外面溝通。當他好一點的時候他可以溝通。
吳舜文:
可是有時候,說不定有些較擅長表達的人,是抒發壓力,也許他不是真的有該傾向。
邱文聰:
就剛剛的問題,我其實是好奇,像第三種藥物不良反應的演算法,他聽起來好像並不是已經能夠去找到一些隱藏的因素。而是你們用台大的database,看有沒有暗示,這邊找出來的不良反應的某些訊號或症狀,有沒有在社群媒體上出現。如果只是這樣,我需要有一個演算法嗎?還是,我只是用關鍵字就可以??
魏志平:
我簡單講一下不良反應偵測當時的邏輯,我們在捕捉的是,用藥後後續看診中間,有沒有強的關聯性。這個關聯性你有很多不同的算法。我們當時想辦法把這些的指標建一個機器學習的模型,故當很多人吃了同一個藥,半年後、一年後都發生某個問題,沒有吃藥機率上明顯比剛剛來的低,顯然這個訊號是強的。我們是在這麼大的搜尋空間裡,想辦法去找出訊號比較強,然後我們做一定的排序,故希望排在前面的可能就是真的訊號。所以被我們找出來的東西有部分可能是已知的不良反應。希望有一大部分是真的都不知道的不良反應。沒有用社群媒體的資料,也不是已知吃A藥會得癌症,去健保資料庫搜尋,我們不是做確認,比較像是做探索。
李建良:
在Twitter上收集資料,有經過當事人同意?或是如何收集?
魏志平:
因為Twitter有開放API,所以我只要下關鍵字,我找到某些人。那這個帳號只要他願意公開,就直接收集,故當事人不知道他的資料在我們的資料庫裡。
李建良:
第二個問題就是要做什麼?會不會有商業利用的可能性?
魏志平:
如果藥物不良反應,我覺得有,只是需視藥廠願不願意付錢。如果會讓他的藥讓他暴露在越高的風險可能不願意。曾經有人跟我說我們應該去找藥廠,但沒有人希望把自己的東西找更厲害的演算法把弱點揭露出來。但是誰可能可以用?食藥署可能可以用、做藥學研究的人可能可以利用。精神疾病方面就是純然以學生的狀態,對題目有興趣,而且顯然他是非常有病識感的人。他也覺得有沒有可能從社群媒體當中。我相信沒人要用最後一個研究的結果。那學校方面可能可以用,我不知道。
李建良:
最後會建立預測模式或模型,這模型應該會有很多人想要用。
蔡政宏:
想確認一下,剛講到股票有一堆資料,政治輿情有一堆資料。那這些數據要建構成模型。在講自然科學或哲學,在科學哲學中也是有一堆資料,那資料是自然界的。那科學界是根據這些數據要建構模型。但在科學中,模型最主要有兩個目的一個是預測,另外一個是解釋,要去能夠說明性向的連結。像資料漲跌和政治輿情這些找出來的模型,好像與科學的科學模型不太一樣,因為至少要做兩個。像看古代太陽和地球之間的關係,古代人可以建構的是一個地動說,地球是宇宙的中心,他收集的數據是這樣,但我們現在知道不是。所以只是純粹預測,可能在沒有太大的誤差下,兩個預測都可以,但到現在我們知道解釋完全不一樣。所以我想知道從資管的角度來看,建構模型最後的目的純粹只是做預測,但是對解釋他其實是不在乎的?
魏志平:
在管理中,這兩派的人是分開的,建構解釋性模型的人目的是做政策依賴跟管理依賴。那建構預測的人,是要利用預測模型,他要加速他的某些決策,這兩個完全不一樣。所以做解釋性模型的人,在假說的推論背後的理論基礎要求十分嚴謹,也就是說從A推論到B,從B推論到C,所以你有一個假說,A跟C的關係是呈現正向或負向。或甚至一個倒U的關係,要講得非常清楚。目標是當我已經知道推論結果,資料呈現,應是比關聯性多一點點的相關的可能性。所以這時我知道他們有負面關係,所以我只要操作A應該預期可以達到C。預測者目標是想辦法提供準確的模型,至於變數本身,他是相關的關係還是共同因素,可能是影響AB共變,那A影響C,所以我抓B以為他影響他,其實不是。
我常跟學生說,你覺得身高跟你考上理想中大學有沒有關係,可能真的有關係。如果真的是相關的,那大學聯考就改成身高測驗。可是可能不是相關的,可能是因為家境好,他願意投注在教育資源的能力比較好,同時因為家境好,所以營養比較充足。所以源頭是家庭經濟、社經背景,導致教育資源投入,與身高高,最後成績好是因為家境好不是身高。所以做預測模型,然後儘量把所有可能變數放進來,目標是建構一個真的具有一定準確度的模型。因此建構預測性模型的人比較不會去說明和在意,變數放進到底是因果還是剛講的關係,反正我人為有關係就放,模型自己會去過濾。
【報告大綱】
- 情感分析:個人特質
- 使用者輪廓分析
- 品牌個性偵測
情感分析
情感分析(sentiment analysis)技術
概念
情感分析是各位常聽到的正評負評,有很多層級,最常被提到的就是文件 層級或者是概念層級的情感分析。那所謂的概念層級是什麼意思?下圖是使用者寫的評論,描述這是很棒的飛行經驗,娛樂設施雖然比較少,但是食物很好,工作人員很親切等等,這是一個最佳選擇。所以如果以整體文件的情感態度,雖然標註紅色的字不滿,但是整體是正評。所以這叫做文件層級,整體文件是正評或負評。第二個是更細微的分析,除了知道正評負評,我可以算出60%的人對這家航空是正評,似乎對經營管理沒太大幫助,想知道他們到底在講內容為何,他們在意的是正還是負。故以這一篇評論來講,談到四個面向,所以aspect可以叫做概念可以叫做面向。第一個是娛樂選擇,這個人認為是負面的。座位大小是正面、食物是正面、工作人員是正面。所以各位可以想像,如果將所有EVA AIR的評論全部做左邊文件層級,我只能夠得到正評比率有多少。如果做右邊概念層級的分析,經過彙整之後可以知道多少人討論了座位大小,而在討論座位大小裡頭有多少比率是正評,有多少比率是負評,有多少人在講食物,有多少比率是正評,有多少比率是負評。當將兩家航空公司都做概念層級的分析之後,我可以dimension to dimension比較整個市場上,對於兩家航空公司在不同面向的優越勝敗到底為何,可以得到更細緻的分析。我們剛在講情感態度、正評負評,可以是negative或neutral。那情感分析也可以看一個人在文本裡表現出的情感狀態,比如說他是生氣的、悲傷的、快樂的。也可以拿來做某些客觀的分析,這個評論是主觀的,這個發言是客觀的等等。所以有各種不同面向。從內容上他想要表達的情緒、態度、主觀都可以涵蓋在這個大的範疇裡。

問題與討論(敬稱省略)
陳弘儒:
老師您剛提到主客觀分析,他的區分是,主觀是指他的active嗎?
魏志平:
主觀會描述比較多個人的active,客觀就是對一個事件的描述。所以比如說,看餐廳評論,有人講菜色不好,他每個都很具體分析,我覺得是客觀的。但是有人直接說太糟糕了,我根本就不想來,我覺得他沒具體講出任何東西,甚至講一個服務人員態度不好,如果我只講態度不好,我也認為這有點主觀。但如果講說他點餐時一句話都不問,我提問,他就跟你講說你問這麼多幹嘛,所以我覺得不好,這就非常客觀。他提供具體的事實。
【續上報告】
實務應用案例
那情感分析在實務上的應用是做輿情分析,不管是在企業界對於產品服務,在政治界對政治人物、公共政策的態度,我們都可以用剛剛所提及的概念去做。那在金融股票的應用,前面提到利用Twitter上網民的分享,大體上作正、負評,就可以知道市場是朝正面的態度還是負面的態度,可以用此資訊來協助提升股票的分析或漲跌預測。電商系統或社交網絡中,現在很多聊天機器人他們很想將情緒放入,也就是說,如果今天跟聊天機器人討論,已經有點不耐煩,他還跟你說我聽不太懂你在講什麼,那這個產品很糟糕。他如果可以偵測到你有點悲傷,不要再告訴你很多客觀事實、安撫情緒。如果他能夠做到,這機器人可能擬人化的程度會比較高一點。那聊天機器人除了理解人對話的語意跟如何回應之外,情緒或情感分析的技術可以協助他更擬人。
文件層級的情感分析技術
在文件層級,大家可以想像一個文章,為什麼讓你覺得他是正評還是負評,可能跟他使用的字詞有關。以我剛提到的例子而言,藍色屬於正面,紅色屬於負面,因為紅色、藍色比率看起來差很多,最終的那句話也就是最佳選擇,讓我們就可以判斷是高度正面。所以在技術上比較常見的是把他視為文件分類的問題,也就是說,每個文件想辦法萃取重要的關鍵字,代表很多文章中比較常出現的字。再去評估每個字在文章中出現的重要性,比如說出現越多重要性越大,最後會變成一個矩陣,可以建立預測模型,太細節不多講。通常再萃取這些字的時候,做自然語言處理有一派喜歡對詞性去做分析。我認為在表達情感或情緒,一般而言可能都用動詞形容詞,最多加副詞,很少用名詞代表。舉例,你會說I’m very happy你不會說My happiness is high。你不會形容東西變成一個名詞,然後再用一個等第的形容詞去描述。這是我們看文件描述情感通常用形容詞、動詞,最多再使用副詞。我們先把文章的每一句話去做詞性標註,留下我想要的留下詞性的字,接下來進行重要性評估,那留下文章代表的關鍵字或特徵字詞再往下做。
問題與討論(敬稱省略)
邱文聰:
所以標註是你們標註?
魏志平:
詞性標註是使用程式標。
邱文聰:
那標完之後判定正、負是由人來做?
魏志平:
對我們一定要有訓練數據訓練。
邱文聰:
這個trainer是你們自己?
魏志平:
對,我們自己。
邱文聰:
比如前面EVA AIR,法律人應該比較知道有些文字稍微轉換一下,意涵可能就整個變了。你可以先把正面寫在前面,即經濟艙座位大很舒服、工作人員很親切等等,可是機上娛樂實在是太少了。
魏志平:
那可能就變負面。
邱文聰:
所以這邊也是要你們主觀判斷?
魏志平:
這邊是主觀判斷。但在管理學院做coding,應該還算是比較小心,假設我們要對這個做判斷。實務上是,這些網站上都有心得,我們就不用判斷,也就是這個人給了三顆、四顆、五顆、兩顆、一顆星。我們把四顆、五顆跟一顆、二顆當正跟負,如果沒有的話,在管理學院,會做coding 的訓練,我想很多做文本分析的都是這樣,我們先拿二十篇出來跟大家解釋正評、負評概念是什麼,然後請coder開始標,標了二十篇對答案。對完答案說第三題大家意見不一致,其他幾題差不多,我們針對這些不一致的開始討論,所以有可能像老師講的,他把負面評論寫在後面,顯然他很在意這件事情。或他的轉折是怎麼寫的,那大家搞不好最後有共識認為他標得有道理。所以我們經過一次訓練數據,再做第二次訓練,一直等到匯集後之後,看你設定為多少, code就直接標他是什麼。那偏技術的人就覺得這個太麻煩了,乾脆每個人找十個人標,最後取共識群就好。我們舉辦投票,五五波的全部拿掉,我就可以得到兩個極端。這是大部分人同意正評和負評,所以標註有不同做法。
邱文聰:
所以是二元?
魏志平:
對。那你也可以把它變成不同等第。
何琳潔:
想請問語跟詞跟句子邏輯上面,像上面這則比較完整,可以看出比較通順。但一般,尤其是年輕人在寫社群比較短,而且有時會用一些詞,如酸言,那機器要怎麼判斷?尤其是句子短,前後看不出來,要如何處理?
魏志平:
我們也看過一個評論這樣寫「zzzzzzzzz」,可能這產品或服務對她來講像是要睡著了,看起來是負評。以我們做文字分析,發現formal document的準確度一定比較高,比如說文獻探討或文獻分析。機器讀醫療文獻,複製編輯器(copy editor)幫你看過十次,應該不大會有錯。可是走到社群媒體就有很多問題。所以有一些應該被處裡的,比如說應該放emoji的一個字典在背後。比如說笑臉。會有一個emotion的dictionary,所以就可以把那些東西就轉換成某個token,像「nooooooo」可能會有一些規則去處理,比如說repeated character,就把它縮到到字典裡有的字,就解決了問題。
何琳潔:
在擷取時會不會連帳號的個人資訊,而判斷他們的用詞用語。
魏志平:
應視研究的目的在哪,如果我們只做回顧,不擷取其他東西,因為太麻煩。但如果我做以人為單位,我可能希望他揭露了、公開某些資訊,我可能有興趣做。但是我們會盡量做合乎API就抓。如果我們做的有違法,請大家再跟我們說。
何琳潔:
老師我的意思是因為不同群體或是不同年紀的人用某個字的意思可能會不一樣。那剛剛老師說把它放到TRAINING或DICTIONARY的時候,會不會考量他們的背景,再把他放進來?
魏志平:
不會,太複雜。
【續上報告】
範例:情感詞典
傳統算法每一個字當成獨立,你可以想成這個文章變成二十個關鍵字。至於關鍵字的前後次序關聯,我們完全不在意。這是最傳統的模型。這個大概是深度學習之前只能做到這樣。那在深度學習之前我們偶爾會做某些事情。就是說你只要出現一個字叫「organization」,假設這個字我認為重要,那可能出現叫「firm」這個字,一個組織、一個公司其實意義差不多。那一頭出現「happy」,那另一頭出現「joyful」可能都是一樣,差不多。所以同義字或相關字在傳統模型上,視為不同的token、不同的元件,準確度基本上是會有問題的,特別當你的文件長度短的時候。像我們如果分析學術文章動輒三頁、五頁,問題比較少,因為你常在裏頭換不同的字。可是如果是一個貼文,以Twitter來講,是144個字大概是3、5行,這時候你會用不同字描述不同概念的機率不高。所以文章越短,一義多字或相關詞的問題沒這麼嚴重。那到了深度學習,做這種工程的人,要去理解每個字的意義其實不容易,但如果我們可以把字投影到空間上,讓相似的字在附近,所謂相似的字是在語意上也好、文法上的特性相似的都聚在附近。我們自然就可以做運算法。比如說,所有形容快樂的都在這一區,形容悲傷的都在那一需,形容人的都在這一區。還有一個很有趣的技術是,經過深度學習去學每一個字在多維空間上的位子。他們發現其實很有趣。這邊出現東京、DC、台北、北京,這邊出現日本、美國、臺灣、中國,就是首都跟國家的關係。那他們用這個來解釋他們空間的投影,除了抓到可能的意思之外,連相對的關係其實都可能在這多維空間上。所以到後來的模型到深度學習在理解文字這件事,就不是走Vector space model,即每個字當成一個token單獨處理。他就是把字投影到空間上面,那字一旦能夠投影,那在經過複雜一點的訓練,現在可以做到句子投影到空間上面去。所以「我今天很快樂」跟「我今天感到非常愉悅」這兩句話,我用的詞可能不太一樣,但是這兩句話意義差不多。所以如果在空間上,這兩句應該投影到同一個地方去。那句子一旦能夠投影之後,文章就能投影,因為文章是由句子所組成的。那這個模型不知道大家有沒有聽過,現在最常被用到的,BERT的模型,它是Google用的非常大量的corpus的模型,BERT想辦法訓練文章中句子上下文的關係,將句子投影到空間上。現在很多的深度學習以此基礎,往下去做。
問題與討論(敬稱省略)
蔡政宏:
做文本分析是否會遇到情況是,因為聽起來在多維空間裡面可以被脈絡化,脈絡化可以被計算化。那會不會有個詞,可能同時佔據比較好或比較不好。我舉個例子,比如之前軍人干政就有一個幹字。比如在文脈短的情況下,可能說幹這不像是人間的食物,可是同樣都有我們認為是髒話的這個詞,那這個情況不知道常不常見,或有沒有有趣的例子?
魏志平:
情感詞典是我請我的助理去看了幾百篇,幫我勾出來哪些是講情感。例子長這樣。有些字的意義在不同脈絡下都是有同樣的概念,比如說「滿意」,比如說「很好」。但確實有些字在不同脈絡下,可能意義上不太一樣。比如說「溫和」,在政治的場域上,溫和這個字搞不好不是太好的評論,說你是個很溫和的政治人物可能不是一個好的意思,可是如果你在家裡是個溫和的老公、溫和的太太,這就是一個大家稱羨的家庭。搞不好某些詞在某些情境底下確實是如此,那我回到情感字典,這件事情理論上都可以被取出來,我覺得機器有它的極限。人有時候都判斷不出來,更何況機器,再用更多文本去訓練它可能也沒辦法做到我們希望它做到的那麼準。
吳全峰:
請問比如以化粧品來講的話,溫和特定在清潔力下面的意涵嗎?還是溫和這個字比如說出現在質地或膚感的話,會另外給它一個詞性的分析嗎?還是它就是定型一個詞性分析?
魏志平:
做技術的人只能列一個正面負面的等第,我將之歸類,是因為我這樣比較能夠知道他在所指回想。不過很多字,即便在同個種類面對不同的面向,搞不好意思上不太一樣,如果要做到更細,應該要做到你剛講的這個面向。
吳全峰:
所以在分的時候並沒有清潔力、質地或膚感,這樣的分類。
魏志平:
沒有。
【續上報告】
概念層級的情感分析技術
如果以技術層面相對是容易的,有些人會想辦法建立情緒詞典,如同上,譬如是分析旅館、分析醫療服務,利用該情緒詞典開始掃描每一個文本中出現的情緒的平率。正面情緒的字有多少,負面情緒的字有多少,當然也要考慮所謂的否定詞,如棒與很棒之間應要在分類,甚至可以利用其出現的段落給予不同的權重。利用一個非監督式的方法,想辦法計算情緒正負的分數,利用給予判定情緒整體的區分,這是以文件層級,相對而言技術層面較不複雜。如果要做到概念層級,邏輯上,要先找到產品特徵,不管是物質上或商業上的產品、被評論對象(如政治人物)、公共政策等,如附圖,先找出明黃色,在附近找可能針對該明黃色的產品特徵表達任何情緒。譬如娛樂選擇,在附近找到較少(於此為負面詞),那我們可以認定此為負面的。如食物旁有很棒,工作人員附近有親切,所以我們可得知為正面或負面。這個任務變成會有兩個子任務,一個是子任務萃取產品特徵,另外一個是透過人書寫習慣,在附近尋找有無含有情感態度的詞,我們就此可作標註。他可以是非監督式的方法,或監督式的方法。
稍微解釋這兩個詞,所為的非監督室是沒有任何訓練,透過衡量方法或是規則想辦法將我需要萃取出的東西決定出,故非監督式的方法以此情感分析的技術而言,針對人於寫作常用的習慣來訂定處理原則,利用這些自然語言的工具進行上述兩件子任務,萃取產品特徵、判斷文件中產品特徵的情感態度。第一個部分是,我們一般在描述產品特徵,決大部分是以名詞描述,第二個是,我們聚焦在較常出現名詞與複合名詞上,邏輯上是,你給予評論可能與產品、醫療院所、醫生服務品質有關,我們針對評論中的每句話作詞性標註,這是用程式去做的,留下名詞或複合名詞,譬如服務品質(service quality)就是複合名詞,成本(cost)就是名詞,我們就開始計算所謂常出現的指標,故我們希望留下明黃色這些字。接下來在判斷不同的產品特徵上,如果有一個以建立好的情感詞典,就在剛所找到可能為產品特徵的附近去找,有無列表中出現的情緒詞典,如果有,按照列表中詞典所標註的正、負,考量否定詞,決定該評論講到這件事到底是正面評價還是負面評價。這樣的做法當然會有很多的問題及極限,第一個是情感詞典不會是完整的,但我們可以訓練深度學習,讓其判斷該字為正面或是負面,既然字都可以投影在空間上,應該也可以訓練一個模型,利用空間上的位置關係,據此表明該字為正或是負,這是第一個問題,利用非監督式的方法,通常在實務、研究上不會有完整的情緒詞典,要想辦法利用其他資源做語意分析,或是利用深度學習學習何字為正評或負評。第二個是,很多時候是使用隱喻的方式,譬如這支手機無法放進我的口袋,請問這是在形容何產品特徵?應該是尺寸,請問是正面還是負面?應是負面。產品評論非如同法律評論,會有較多的隱喻,這是較特殊狀況,惟資料量豐富時,如果剛剛提到得情況不是大宗的案例的話,在管理的研究上某部分是可以被忽略的。

以深度學習為架構之概念層級的情感分析技術
現在的做法是使用深度學習,下圖為類神經結構,我並沒有要介紹此,因為太複雜。此最終要標註的是,一個句子中哪個字是產品特徵,情感態度為何。最底層是BERT,利用google讀了幾億篇上下文關係,將句子、字投影至空間上的模型。故簡單而言經過第一層BERT model後,每一個字、句子都已經在空間上的某個特定位置,接下來想辦法讓它標註中間哪個字、是否會產品特徵的一部份,到了LSC,是在標註哪些字是正負詞,最終將二者合一,一起訓練,即得到標註結果。現在邏輯是用此複雜的結構,我是要告訴大家幾個技術上議題,這些結構非常複雜,很多的網絡、權重串連,以這張圖各位可以猜測有多少的權重需要訊量,可能是幾百萬個,現在以深度學習做應用分析的研究者都希望資料量越大,故標註資料就是現在做人工智慧中最辛苦的工作。
問題與討論(敬稱省略)
邱文聰:
所以利用google學習幾億篇下上文關係是人工標註?
魏志平:
Google在學習並未做人工標註,他學上下文的任務是,給兩句話要判斷是否為同個文章中出現的,故他的標註是自動標註,以訓練文本模型而言。Google有人工標註是利用大眾在做訓練,譬如我們使用Google 有時會需要認證是否為機器人,會給予一些圖需要點擊,是否為人行道、紅路燈等,其實是在訓練image。在做資訊的人會發現與很多研究領域不同,如果以大宗而言,學術包括美國的幾個知名學校,無法超越google,因為資源太豐富。故訓練BERT,全台灣沒有人辦法,將如此大量的數據,因為需要的GPU不夠,需要幾百個、幾千個TPU。我要說的是Google沒有做人工標註,他的任務簡單,因為只想學句子意義,故他找出一個簡單的方式是,兩個句子如果在同一篇文章,要標註是否為上下文,類神經的訓練是要認出兩句話是否為上下文,認出上下文就有辦法學到是否為語言模型。一個簡單的例子是,他們最早是訓練字、克漏字,挖掉這些字,譬如我今天很_來到中研院,當你們文本是幾億篇或是幾十億的句子,前面會出現我今天、你明天,就會發現有些描述情緒的字會在一起,學出來的代表開心與不開心會在附近,因為他學校前後文的旁邊字可能差不多,故將這些字堆在一起,這堆在一起是有意義的因為這些都在描述我。再譬如,台北前後出現的字與東京前後出現的字結構差不多,故城市(尤其是首都)都會聚集在一起。假設是有意義地抓到某些關聯,就可以計算、比對。
陳弘儒:
所以BERT不太透過字詞語意,而是算字詞位置?
魏志平:
他是用大量文本中,兩個字如果常在一起,而有關聯,他就會找出它應有的位置。就像google translation是用機率計算,有時候會發現翻譯結果很糟,可能是因為那部分讀得不多,機率較低,不像我們在做翻譯模型,需要很多配對樣本學習。完全就是當量大時,兩個字出現的頻率很高,前後文相像,這兩個字有關聯,這件事就是可靠的。
吳全峰:
所以BERT在這整個模型下,第一個所做的工作為何?
魏志平:
第一個BERT就是決定每個字空間上位置,同時參考上下文,這個BERT是64層或32層的網絡,非常深度的網絡,他的邏輯是經過幾億篇、幾十億或幾百億的訓練,他知道權重,所謂權重就是這個字與別的字的關係,故假設AA航空的服務品質沒有我想像中的高,我就將每個字輸入,每個字在原來空間就有其應該有的位置,接下來放進BERT中,他就會參考左右的字,在已經訓練好的模型,幫你把每一個字參考左右後,就會放進一個可能有上下文語意的位置,同時也產生這句話的代表的向量,這對我們而言所代表的向量就是這句話在空間上的位置。
黃詩淳:
如在傳統模型與BERT模型,如同使用同一批資料,最後成果差異為何。我想分享一個經驗,最近在參加一個日本比賽,邀請我們回答以前日本司法考題,訓練機器答題,視其正確率,各個不同研究者用了不同方法訓練模型,最後我發現BERT的準確度非常厲害,這讓我十分驚訝可以與傳統表現差這麼多。
魏志平:
如果問題本身不複雜,譬如只是分析這個文章是正評或負評。你的任務是答對是非題或是選擇題,這顯然較複雜,因為他不可能理解。如果是剛剛所說的只是要分正、負,較簡單的問題,我們做過的實驗用BERT有比較好一點,大概就是1%-2%的差距。實務上,需要訓練這麼多資料、買這麼多GPU,跟我直接使用關鍵字,如果只差1%-2%,企業會認為不要如此複雜。有些問題確實是很難用傳統方式,譬如剛剛所提到語言翻譯,會有很多複雜關係,我覺得用深度學習應是一好方法。又如機器閱讀理解,輸入幾千篇文章、訓練樣本,用規則寫不容易,越複雜的是用深度學習較好,傳統分類有些時候會看到較大的差距。
【續上報告】
這大概是深度學習架構的概念,很多人現在在用BERT,這是一個非常複雜的語言模型。下圖的結果並非我們自己標註,是在做情感分析的公開資料集合,F1大家可以想成是準確度與召回率的平均值,我們抓出這個字為情感的字,態度為正確或負面,完全正確我們才算正確,F1可以到67-72%,我認為在這個資料量下還可以接受,所以這是利用複雜模型訓練出的結果。

使用者輪廓分析(user profiling)
使用者輪廓分析重要應用
在使用者輪廓分析中,想辦法從一個人留下的文本輪廓出這個人的個性,譬如可以推估使用者的人口統計變量,是男或女寫的、年齡層為何、教育程度為何、人格特質、政治傾向在台灣可能可以很清楚的辨識,在美國也是。如果剛剛所說的性別從文本推估,通常被視為文件分類問題,過去大概是用文字作分析,去年有一組學生是用Instagram的圖片做分析人格特質,準確度還可以。User profile最傳統是用文字分析,我認為圖片應該是下一波,這件事是否有重要運用,如果可以知道男生、女生對於產品或是政治人物的評價是否有所不同,年齡層對於某些產品不滿意的原因可能會不同,可以有更細緻的分析結果。也可以協助做產品推薦,現在的產品推薦很多是以過往點擊的產品在做推薦,但很多傳統推薦其實是在人口統計變量上,很多的推薦可能因為對顧客不瞭解,而是用概念做推薦機制,如果能夠針對使用者的profile分析,對於電商網絡平台做產品推薦可以增加額外推薦方式多元性。最後還是講到機器人,聊天機器人如果知道聊天對象可能是男生或女生,可能的年齡層,使用的文字上、話語的標註會有更多元的選擇,做出適性化、個人化的回應。
範例:更精細的網路輿情分析
我針對某航空公司大概兩至三百篇評論的統計,如果給這麼大約的分數,對航空公司而言只會知道可能還不夠好,如果可以給更細緻的分析,較能更符合顧客要求。有這些細緻分析後,網民意見的看法能夠有更精細的討論。
使用者特徵影響寫作風格與用詞?
這如何做profile,就社會學或語言學的角度觀之,使用者特徵會影響到寫字的風格,如Schler等學者2006年分析blogger.com超過71,000部落格內容發現,不同性別與年紀層的寫作風格有明顯差異。男生年紀較大的部落客使用較多的介係詞,女性、較年輕的部落客較常使用代名詞及贊成或否定的字詞較高。而Otterbacker(2010)學者提到女生在寫評論時傾向用第一人稱,男生評論較常使用第三人稱。Rao等學者(2010)的研究發現年輕的推特使用者較常使用重複的字詞來強調他們的情緒。Schwartz等學者(2013)分析75,000臉書使用者的15,400,000的臉書貼文發現,女性使用者的臉書貼文較常使用情緒字詞(如”excited”)以及第一人稱單數,而男性使用者的臉書貼文較常出現髒話(swear words)。外向的臉書使用者較常使用一些社交相關的字詞(如”party”, “love you”),而內向的使用者較常使用與個 人活動有關的字詞(如”computer”, “reading”)。比較神經質(neuroticism)的臉書使用者較常使用”sick of”來表達他們的負面情緒,而高情緒穩定的使用者比 較常描述令人愉快的社交活動之字詞(如”sports”, “vacation”, “beach”)。
可以用以推測使用者輪廓的變數
綜合剛剛所說的文獻,我們建立一個推估使用者輪廓的變數,依是文章中使用的字詞,有些字詞較容易出現在男生或是某些特定的人,挑出具有區隔力的300個字。寫作風格考量,譬如詞性,男生一般而言比較不會用太多的副詞,女生較會使用,在詞性的分佈比率不一樣,在功能詞性,包括介系詞、代名詞、限定詞、連接詞、助動詞及介副詞的使用可能不一樣,因此我們採用6個變數,停用詞的比率、詞彙的豐富度,即同文章中不重複的字詞佔所有字詞的比率,文章中句子的長度,男生的句子通常較短,女生的句子的修飾程序較大,字數的統計上會較多。
使用者輪廓分析實驗
用這麼多變數建立模型去做實驗,我們使用較有強烈性別傾向的產品,例如刮鬍刀應該是男生會購買,女裝、女鞋、瑜珈褲應該是女性會購買,故我們至Amazon的網站上搜尋這些產品的所有評論,暫時標註評論這些產品的是女生或男生,當然也無法排除幫老公、老婆、兒子、女兒購買等,這些就無法得知,故在評論中出現有boyfriend、girlfriend、husband、son、wife等字詞的評論刪掉。至於Airbnb並非用代號,他的名稱通常是純英文字,故我們根據評論者的人名,將放置到Genderize的網站,Genderize提供的API來標註評論者的性別,這個API根據提供的名字回傳最可能的性別以及機率,最後我們只保留那些性別機率在0.9以上的評論。
另外,我們找了兩個評論網站Yelp、Tripadvisor做為資料來源,我們想做的是國家比,因為這些網站都有提供評論者的國籍資料,假設國籍資料是正確的。Amazon是62,000筆的評論,Airbnb是54,000筆評論,國家別比較少分別是6,400與7,800筆評論,這是使用我們的模型跑出的資料,平均而言準確度可以到八成。性別Amazon的數據較準確,Airbmb大概70%準確。簡而言之,我相信當我們用更複雜的深度學習的模型,此模型僅有用 vector space model,如果資料量更大用更複雜的模型,或許準確度可以更高。這是user of profile,這個議題會與個人隱私或是影響更大,當一個網站握有你許多資料,影響層級可能更多,不單純只是商品推薦的準確度,可能影響到政治傾向與性別傾向等。


品牌個性偵測(brand personality detection)
品牌個性
所謂品牌個性,也就是以人類個性特徵來個性化品牌,如「哈雷」給人的感覺就是粗獷,「維多利亞秘密」給人的感覺就是性感、漂亮的等等。在管理上,企業的品牌經理人基本上會透過分析可能的市場或定位,形塑其品牌個性。如麥當勞用廣告創造歡樂形象,例如世足賽、奧運等行銷。很多研究認為品牌個性與人的真實個性是吻合的,他的品牌態度、品牌偏好、品牌忠誠度和信任度、購買意向與正面口碑會較高。故形塑品牌個性是企業中在建立品牌很重要的一環,重點是企業想要的品牌個性與消費者真實感受到的品牌個性可能有所不同,所以品牌經理人需要不斷確認企業想要的品牌個性與顧客想要的是否有落差,因此需要定期發問卷詢問,確認企業目標的評排個性與顧客感知的是否一致,甚至是不同年齡層、文化對於同一品牌的感受。
品牌個性管理的重要工作
這些都透過問卷詢問將會曠日費時、成本高,尤其是一個事件發生後,企業經理人還要評估該事件發生後對於品牌個性的影響,以及危機復原的程度到何種程度,如果都以問卷,事後可使用,事前卻沒辦法,下圖的資料是BrandZ consulting firm在全球做的品牌Volkswagan,兩個品牌面向值得信賴度拿到25分,不誠實程度不高,大概佔了8%。過去2010~2015年的全球調查都是差不多分數,到了2015年、2016年,發上了排放的醜聞,2016年的調查兩個品牌面向都各自下降,經過一年調查才逆轉。故企業在看品牌個性,遇到危機或是損害事件會採取災害復原,要先知道受損有多大,經過半年的災害復原,譬如推出免費保證等,能不能在不同的品牌回到原有水準之上,這些都是重要的。在企業上一直用問卷詢問的成本太高,有沒有替代方法,我們的研究就是做這件事。

以社群媒體資料為基礎的品牌個性偵測技術
我們視為分類問題或是回歸問題,如果品牌個性按中間值分成高低就是分類問題,如果以0~100分就是一個回歸問題等。分類以傳統方式而言,可以將重要字詞挑出,簡單而言該品牌可能有1000篇評論,我們就將此1000篇評論當作是一整篇的文章,我們就將文章中最重要的關鍵字詞,就權重找出當作舉證,據此建模型。也可以使用深度學習即BERT,找到每個句子或文章空間上的位置,再把所有與該品牌有關的空間上的向量取出平均值,即代表該品牌所有評論對他的觀點,據此建模型。簡單而言,我們認為品牌的值得信賴度高者會出現某些特定的字詞,值得信賴度低者會出現某些字詞或用語,技術上大概是這樣。
品牌個性偵測的評估實驗
我與在數據庫的學生合作,歸納20個正面的不同品牌個性,樣本大概819個,涵蓋了航空公司、汽車、咖啡、尿布等196個品牌,我們擷取twitter的數據,大概兩百萬個twitter,平均而言2,400篇評論,這是做出的結果。回到剛剛詩淳老師所提問的,如果使用傳統的Vetor space model,我只考慮關鍵字,不考慮關鍵字中間的意義、關聯,使用兩個顏色區別,超過八成使用藍色,低於七成使用紅色,在最中間那一欄大部分是低過七成。如使用BERT為基準,大概是多5~6%,在不同面向都贏過傳統技術,平均而言我們將20個品牌個性準確度提出,傳統只考慮字詞,可以到將近七成的準確度,如果使用BERT可以將近76.28%,大概多了7%的準確度,這個模型還是有她中意的價值存在。

未來展望
最後,仍需要克服許多技術、管理的挑戰。從技術層面而言,第一個我們一直在想辦法提升準確度。第二個是,如果以產品分析、情感特徵大家使用不同字詞描述相同或類似的東西,譬如價格、房價、CP值,我們要想辦法類似的歸類在一起,使能夠彙整不同人寫作的內容得到一個合計後的結果,這件事必須要做到。再者是話語,如果是單一國家的品牌,可以以單一國家製作。惟像是航空公司,評論者來自不同國家、不同語言,如何合計、分析不同語言。此外開發與改善偵測假評論與假評論作者技術,譬如我們做過中國電影評論網的分析,在中國電影評論的寫手很多,因為電影可能成本小,需要仰賴寫手幫助,不只有中國,可能很多地方也是。假評論本身應有些線索可得而知,如細節部分無法完善,字詞通常會較模糊。假評論是有時間限制,不能等到產品出來再寫,通常於適應期就大量寫評論,這些人的評論通常會是極端正評或是極端負評,不會給予3、4分,對於影響評分沒有幫助。故會有內容上的特徵,可以辨識出,評論的行為本身是有線索的。最後是利用大數據的實證研究與實務意涵的討論,應審慎地檢視在社群媒體發言的樣本與所有顧客的樣本是否存有很大的差異,社群媒體上的樣本如同我們認為鄉民有辦法代替全部人民的想法嗎,可能無法。社群網站發言者不管評論產品或其他,他的樣本與所有顧客是否有差距,這是利用大數據做相關實證研究在探討實務意涵時可能要特別關注的問題,惟對做技術的人而言可能會是下個運用端的人要去思考的問題。
問題與討論(敬稱省略)
蔡政宏:
前面有關股票漲跌與政治輿情時,事實上與假評論類似,但可能不是假的,而是需帶領某個風向,類此情況。我認為自然科學相對是較客觀的,較極端如同假評論,在輿論或股票操作,某些人想要達到目的可以透過此達成。第二個,情感詞典有提到Metaphor或是我們會說言外之音是較偵測不出的。我好奇的是像在語言哲學或是語言學中提到人在溝通時,我們會遵守幾個溝通原則,例如今天晚上看電影,另一人回答功課未完成。事實上兩者對話無關,故打破溝通相關連的原則。有無可能透過語言學或是語言哲學,後面有提到聊天機器人要找profile,最後還是需要知道主人的情緒為何,剛剛的情境中一方是不想去,所以只是看對話內容而不了解情感,這部分有無可能解決。
魏志平:
我先回答最後一個問題,我於1988年碩士二年結束就開始研究人工智慧,在處理文字時,會一直回想字詞上的意涵。人工智慧在處理文字這件事,過度受到複雜東西的影響,到了深度學習的時代,沒有任何語言學的基礎,我們做自然語言處理會認為詞是一個很重要的概念,譬如computer center,單說computer或center可能不知所指為何,合在一起就可知道所指為資訊中心,詞是有意義的,將多個詞按照某次序組合,就有語言上的意義。他們在輸入BERT時是使用單字輸入的,以解決程序上的複雜度,這會有一個問題是out of vocabulary,因為總有可能有沒看過的字。最後就拆字,拆成更小的單元,以解決out of vocabulary的問題。這可能會變成語言好像比字還小的component,我認為BERT的邏輯不遵循語言學的概念,沒有所謂語言分層好幾個層次的概念,他是用大量數據訓練,他認為要能夠運算一定要放在空間上,這個字的前後常出現某些字,那這個字放在此應是正確的位置,經過前後上下文的判斷就可以將句子放進適當的位置,他是使用極大量的數據想辦法imbedding,在空間上找位置代表他。
吳舜文:
如果其他領域研究者想要利用social media分析,例如今天我想做一個政策的分析,有沒有軟體可以使用,還是一定會需要寫程式?
魏志平:
我們程式都是自己寫的。
邱文聰:
回到蔡老師的問題,現在這種應該不會稱為自然語言,已經拆成看不出是語言,只是透過資料算出位置。也因此很難期待真的讀得懂玄外之音,譬如棒、好棒、好棒棒,可能會有不一樣甚至相反意思,很難用拆解字位置就真的有辦法抓到微小的差異,他有很厲害的地方,但也恐怕有它的極限。
魏志平:
我覺得任何技術都有侷限,有些單位特別是企業界都可能會高估其準確度。管理學院都會考量成本、效率概念,機器能做的是大量這件事,不見得很準確,他能夠讀2,500萬份文獻,人終其一生可能也無法達到,機器可以在幾天內分析完,或許有一定比例的錯誤,但當這麼大量時一定要靠機器。在做技術的人常常會有一個Ground Truth,經過較嚴謹的訓練訓練機器做準確度到八成,同樣的東西找人做,做出來的答案相同,就認為超越人類、人的極限。為何人類會輸給機器,應是人的會疲倦、前後標準不一致,如同改考卷,任何兩份我的評分標準,會經過再檢視,會希望把差異降低。人會輸給機器我會認為可能是因為認知負擔或疲憊,不是因為人真的做不了這些東西。期望或許再過幾年玄外之音有辦法被突破,當看過更多文本後。
陳弘儒:
做此分析時是用很大量的數據進行,在管理學中,是否有朝著不用太多數據可以做出相同的分析的方向前進。且某個程度上文本分析是可以無限的。
魏志平:
在技術上有所謂Transfer-limited,很多不同層次的移轉,簡單而言,如同剛剛的例子,想要分男性、女性的評論,可否拿Amazon的數據當作訓練樣本,真實的目標可能是分析Airbnb,其中的寫作內容可能不一樣,因為用戶的特性不同,寫作的內容、風格不一樣,這時我拿這個東西學習,某種程度上利用此更新,其實人有這個能力。人在看某些東西,再以此為基礎看類似的東西會有基本的理解,這叫做Transfer-limited。我們今年剛作完閱讀理解,才標註3千多份數據,是由台達電放出一批數據,是在做一般性的閱讀理解,我的目標就是標這麼多,我想做醫學的對話,我們發現確實可以轉換,在抓題目跟答案中間可能還是有基本的邏輯變化,這叫做閱讀理解。技術上很多人想辦法再突破,即能不能將無關的是納入。
莊芸芸:
老師請問一下,我們都是到機器學習耗電要求機器設備,如果需要使用BERT模型需要有什麼設備才可以運作此模型?
魏志平:
大概要幾個GPU,一個大概四萬到五萬間,因為BERT十分耗運算資源。
莊芸芸:
假設BERT模型退下,老師有推薦什麼樣的模型替代?
魏志平:
BERT light是更小的BERT,我們其實都用BERT light。我認為跨領域合作才有辦法,讓我們去學法律很困難,因為邏輯思維完全不同。
李建良:
現在在檢索系統輸入字詞進去,以前會是與檢索系統一樣的才會跳出,但是現在會將字詞拆開,顯示一樣與相關的。
魏志平:
早期是建立字詞關係,人工智慧算其他關係性給予權重,現在我相信也適用字詞的空間位置運算。
李建良:
這種發展是我認為進步,在檢索時會檢索到許多不一定需要字詞一樣的資料。再者是,剛剛提到假評論的問題,其實會有三種情況,譬如影評,可以給予寫手看劇情內容,寫假的評論。第二種是他是盲目,沒看就寫評論。這兩種情況會不同,如果是希望能帶風向可以用第一種情況。而第三種情況可能是用人工智慧寫評論,將來可能寫手根本不是人,我們從閱聽者角度會有這個問題,另外是對做網絡媒體分析的人,也就是要分辨這三種情況。
魏志平:
現在一些網站是用管理機制限制,完全排除很難,譬如Amazon要購買才能夠評論,一部份的盲目的人會被排除。只是後來發現,如果真的是公司可能也不在意購買,只是讓中介商得利,正評還是會增加。故某幾個網站進一步規範,只能寫買過,一個月最多只能寫兩個評論,再削弱寫手被操作的可能性,技術一定要偵測到哪些是假的,讓網站的人有辦法找到有嫌疑的人進行調查,也是在解決控管上的問題。
李建良:
在網路世界會變成資料量是十分大,問題才開始,這是一個我關心的問題。剛提到跨領域研究,這我非常同意,也是請魏老師演講的主要目的之一,希望未來程式相關的問題可以請教。