AI模型「訓練」階段之資料搜集——侵害智慧財產權或合理使用?

◎ 戚雲珽

自從ChatGPT於去年11月推出後,生成式AI模型便在全球掀起話題,而此種模型的開發過程,通常會需要大量的資量以供其進行模型訓練,一經訓練完成後,只要用戶輸入指令,模型即得自動生成文字、圖像或影片;然而,看似只是單純資料搜集的「模型訓練階段」,近期卻也引發智慧財產權的相關爭議1

Photo by Google DeepMind on Unsplash

GitHub是一個可以由大眾自由分享程式原始碼的服務平台,而微軟和GitHub合作開發的AI工具——Capilot,即利用該平台上公開的原始碼進行模型訓練,使其取得教導使用者如何寫出原始碼的能力;然而,該作法被質疑侵害智慧財產權,畢竟GitHub上的資訊雖然是免費使用的,仍然會受到智慧財產權的保護,但開發公司卻未事前取得創作者的同意,即將平台上的原始碼用作模型訓練的用途;也因此,今年一月便有GitHub平台上的用戶,聯合對開發公司提起集體訴訟,要求公司為其行為負責2

而GitHub一案,並非近期唯一一起AI模型訓練過程中,產生智慧財產權爭議的案例;例如Getty Images便控告Stable Diffusion的開發公司Stability AI,因為在AI藝術工具的領域中,往往需要大量的插圖、藝術品或照片進行模型訓練,而Stable Diffusion便從Gerry Images公司的圖庫中,複製了1200多萬張圖片,作為Stability AI自動生成藝術作品的基礎3;除了此藝術領域外,AI模型訓練亦開始引起新聞產業的反彈,起因為一位名為Francesco Marconi的記者,向ChatGPT詢問被用於訓練其自身的新聞來源名單,並得到ChatGPT的回覆,包含20幾家媒體的名稱,其中包含華爾街日報、CNN、彭博社等,而CNN也針對此事件作出回應,認為使用新聞訓練ChatGPT,應已違反社群網路的服務條款4

針對上述AI模型訓練的智慧財產權爭議,事實上,主要圍繞在二個核心問題:其一,AI是否真的有「使用」別人的創作?有認為在AI模型訓練過程中的資料搜集行為,其實只是讓AI進行吸收、學習,而當訓練完成後,AI即有能力進行「自己」的創作,無需就他人的創作進行重製、改作,是以,並不侵害他人的智慧財產權,例如GitHub案中的被告即採取此種主張。其二,將網路上之資訊用以訓練AI模型,是否構成智慧財產權的「合理使用」?惟是否構成合理使用,通常涉及眾多價值判斷,例如AI使用創作之目的、AI對原創作在市場上的影響等,法院究竟會如何認定,仍留待日後觀察5

與此同時,我國經濟部智慧財產局在今年六月即有作出相關函釋,其認為AI模型的訓練資料,如果受有著作權法之保護,任何會涉及「重製」原始著作的行為,例如AI將訓練資料中之原始著作予以再現,或AI的利用人進一步將該著作用作商業用途,除非有著作權法第44條至第65條合理使用之情形,否則即應取得著作財產權人之同意或授權;惟「合理使用」的認定標準,經濟部智慧財產局亦未給出明確之答案,尚須透過法院的判決予以形成6


參考文獻

  1. The Verge,〈Microsoft, GitHub, and OpenAI ask court to throw out AI copyright lawsuit〉,https://www.theverge.com/2023/1/28/23575919/microsoft-openai-github-dismiss-copilot-ai-copyright-lawsuit
  2. The Verge,〈Getty Images sues AI art generator Stable Diffusion in the US for copyright infringement〉,https://www.theverge.com/2023/2/6/23587393/ai-art-copyright-lawsuit-getty-images-stable-diffusion
  3. Bloomberg,〈OpenAI Is Faulted by Media for Using Articles to Train ChatGPT〉,https://www.bnnbloomberg.ca/openai-is-faulted-by-media-for-using-articles-to-train-chatgpt-1.1885092
  4. 謝達文,Case報科學,〈AI用了我的創作,怎麼辦?——生成型AI的智慧財產權爭議〉,https://case.ntu.edu.tw/blog/?p=41742