《紐約時報》對OpenAI與Microsoft提起著作權侵權訴訟
  • Post category:News
  • Post author:

◎ 劉汶渝

《紐約時報》(The New York Times)於12月27日主張OpenAI與Microsoft1侵害其著作權,並以之為被告,向美國曼哈頓地方法院提起訴訟2。雖AI訓練與著作權之爭議、訴訟已屢見不鮮3,惟此舉仍引發大眾譁然;不僅因《紐約時報》的響亮知名度,更是因為此案將逐漸白熱化的「利用未授權使用著作訓練AI之開發者與著作權人間之爭」增添一筆具重要性甚至決定性的判決,且本案有望得以一窺美國最高法院針對此類案件之態度。

《紐約時報》所提出之長達69頁的起訴書中,主要主張如下。

《紐約時報》主張其發布的數以千萬計的文章作品,被OpenAI用以訓練生成式AI,而造成該生成式AI現今與新聞媒體相互競爭之窘境。

原告起訴書之第一段即開宗明義地表示「獨立新聞對於民主之不可或缺」(Independent journalism is vital to our democracy.),與其從事新聞業長達170年,並以獨立、深度、專業之報導自豪。再者,其亦強調《紐約時報》記者冒著巨大風險與代價下進行報導,並藉由龐大、費用不貲的組織提供法律、保全、營運支援與編輯們的努力,以確保其新聞報導達到最高標準的準確度與公平性。被告卻無償利用原告投入難以估計的心血與金錢投資之新聞產出,並以此為其吸引了數十億美元之投資資金4;再者,被告亦因此創造得以生成《紐約時報》之替代品的生成式AI、搶奪原告之受眾並與之競爭5,進而扼殺、減少原告吸引受眾至其網站瀏覽文章作品所生之訂閱、授權、廣告相關收入6

《紐約時報》主張被告應對其「非法複製」(unlawful copying)與「使用《紐約時報》之獨特、珍貴的作品」負數十億美元的法定與實際損害賠償7

原告於起訴書中表示,其已於2023年4月時向被告針對使用其文章作品與智慧財產權相關之問題提出疑問,並釋出善意以進一步相互尋求和諧的解決方式,惟會談後雙方並未達成任何共識8。被告亦多次公開表示其使用未授權資料以訓練生成式AI之行為,係「轉化性使用」(transformative),而符合「合理使用原則」(fair use);惟原告以為被告無償利用《紐約時報》作品並搶走其受眾之行為並無任何「轉化性」可言,尤其被告生成式AI模型之產出模仿《紐約時報》且與其相競爭;繼而被告之生成式AI產品實為一立基於大規模侵犯著作權之商業模式(A business model based on mass copyright infringement.)9

再者,一般而言,《紐約時報》每天產出約莫250個原創文章、每年派送記者至約160個國家進行實地報導,並與編輯、攝影師、平面設計師、影音剪輯師等一同攜手製作贏得了135個普立茲獎(Pulitzer Prize)的報導,可見《紐約時報》之高品質與重要影響力。且在網路時代的衝擊下,人們閱讀習慣從紙本印刷移轉至數位產品時,《紐約時報》亦重新開發其商業模式以建立數位訂閱制度,並為一大成功;惟被告恣意濫用原告受著作權保護之文章作品,將大大地減少使用者造訪《紐約時報》網站之意願10,進而減少原告之收入來源、造成原告無法繼續負擔製作高品質報導所需之人力、設備資源。

被告完全未公布GPT-3.5與GPT-4之設計與訓練資訊11

相較前幾代GPT之釋出,OpenAI均有大量、詳細地關於大型語言模型訓練、設計、硬體之報告;惟GPT-3.5與GPT-4均付之闕如。且OpenAI發布之GPT-4技術報告中亦明文表示:「本報告中不含關於硬體、訓練計算、數據資料庫之建構、訓練方法等之更進一步的詳細資料」,此行為使被告得以隱藏其非法複製、利用著作權人之作品的事實。

被告生成式AI之「幻覺」問題(hallucinations)12

原告於起訴書中提供實例,即詢問Microsoft的Bing機器人「《紐約時報》中列舉的15種有益心臟健康的食物」,其中高達12種並未見於《紐約時報》中(包含紅酒)。被告產品之「幻覺」誤導使用者獲得資訊之來源,並造成使用者錯誤地認為該資訊已經由《紐約時報》審查、出版。因而被告之GPT若被詢問《紐約時報》相關之出版品或文章時,其不應提供捏造之不實回覆,而應提供《紐約時報》之本文連結,以避免侵害其商譽及公信力。

被告未經授權而公開展示《紐約時報》之作品13

被告之產品——ChatGPT、Bing Chat、Microsoft 365 Copilot均利用GPT模型,而以兩種方式生成並展示《紐約時報》之作品:

  1. 透過顯示從模型中檢索記憶裡的(memorized)《紐約時報》作品副本或衍生物
  2. 透過Bing的搜尋索引中儲存之副本產出並顯示與《紐約時報》作品實質上相似的合成搜尋結果,且該搜尋結果亦未提供超連結予使用者以造訪《紐約時報》網站。

被告為故意侵權

《紐約時報》於其網頁中每一頁均清楚標示著作權注意事項,被告卻明知並故意利用原告之作品、文章予以訓練、微調(fine-tuning)、測試GPT模型。

原告之證據提供

原告於起訴書99段以下提供多個其利用GPT-4所產出之回答與《紐約時報》文章之相比對證據。舉例而言,一篇經歷了18個月的調查、600場訪談、多達上千份的資料紀錄之淬鍊而生的2019年獲普立茲獎肯定之《紐約時報》文章,在OpenAI的猖獗無權利用下,卻僅需向GPT-4進行極少量的提問、提示(prompt),即得逐字產出該文章之大部分內容。

原告請求銷毀被告於訓練GPT、LLM模型、訓練模組中侵害其著作權之作品(17 U.S.C. § 503(b))14


自《紐約時報》提出之起訴書中,可見生成式AI對出版商與新聞媒體造成之強烈衝擊。於此同時,亦不乏有與OpenAI成為合作夥伴關係者;如The Associated Press於2023年7月時與OpenAI達成協議並授權其部分新聞檔案予OpenAI使用15、Axel Springer,一德國出版公司,亦於同年12月13日宣布與OpenAI合作16。在生成式AI與文字工作者、出版商、新聞媒體之拉鋸戰中,究竟應如何找出其間的平衡點甚至共創榮景,期望未來在本案中得以有所共識。

更新:OpenAI 針對本訴訟之回應

OpenAI 於2024年1月8日於其官方網站發表聲明17以回應《紐約時報》之訴訟,並表示其「支持新聞業,並與新聞業並肩合作;而《紐約時報》之訴訟係毫無根據的(without merit)」。聲明中亦再次強調其利用著作訓練模型係「合理使用」(fair use),且 OpenAI 亦已存在「退出機制」(opt-out)供著作權人反應。
特別的是,於該聲明之第四點,OpenAI 利用簡短有力的「《紐約時報》並未陳述完整的故事」一句話,表達其對《紐約時報》進行訴訟之不滿,並指出《紐約時報》提供的證據(即模型之「反芻(Regurgitation)」現象)係《紐約時報》自行蓄意操弄、故意提示而生;同時亦揭露於2023年12月19日,雙方有建設性進展的溝通,並嘗試建立高價值的合作夥伴關係,而 OpenAI 卻諷刺地於同月27日於《紐約時報》上得知其被《紐約時報》提起訴訟一事,使 OpenAI 團隊深感錯愕與失望。