當AI掠奪創作：美國著作權局如何面對生成式AI的衝擊

人工智慧

羅世宏2025-06-11 09:32

美國著作權局近期針對生成式人工智慧（generative AI）發佈《著作權與人工智慧》（Copyright and Artificial Intelligence）報告，直指當今AI產業對著作權的系統性侵犯已達「產業規模」。(圖片來源/pexels)

美國著作權局近期針對生成式人工智慧（generative AI）發佈《著作權與人工智慧》（Copyright and Artificial Intelligence）報告，旋即引起國際出版、藝術與科技界的關注。該報告直指當今AI產業對著作權的系統性侵犯已達「產業規模」，而「合理使用」（fair use）防線正在被高科技公司推向崩潰邊緣。

該報告猶如「AI版權戰爭白皮書」，揭露了生成式AI模型在爬蟲抓取、資料庫建立到模型訓練過程中，如何大規模地掠奪未經授權的書籍、新聞、影像與音樂作品。

大數據背後的未授權重製

報告開門見山指出，開發大型語言與影像模型所需的訓練資料量，動輒以億計，涵蓋作品從科學論文、小說、報導、歌曲到圖像。「這些內容不只是資料，更是創作者智慧的具體表現」。以深度學習文字到圖像生成模型Stable Diffusion為例，其訓練模型所使用的LAION-5B資料集，包括超過20億組圖文對應內容，其中許多來自未經授權的平台，甚至含有圖庫業者Getty Images的浮水印圖片及《華爾街日報》的新聞原文。

這樣粗暴的資料彙整與轉換，包括下載、格式重組與轉譯編碼，實質上已落入美國《著作權法》第106條所界定的「重製與改作行為」。報告強調：「AI開發者在建置訓練資料集的每一個步驟中，幾乎都觸及作品的專屬權利，有些甚至來自非法來源。」若不及時因應這些狀況，不僅損害創作者權益，也將掏空整個著作權制度的根基。

AI公司還能宣稱「合理使用」？

AI開發商一直以「合理使用」為護身符，特別是強調模型訓練具有高度轉化性（transformative use），屬於法律保護範疇。他們主張AI只是從資料中提取統計關聯性，並未複製原始表現，訓練用途與創作目的不同，自然不構成侵權。

OpenAI甚至在國會聽證會中表示，其模型「不會記得特定句子，只會理解語言模式」。然而，報告提出實證反駁：生成模型實際可重現小說段落、流行歌詞與記者報導，甚至在輸入特定提示後，逐字重製教材內容或照片說明。這類行為顯示模型具備「記憶性重製」能力，早已超越單純的模仿。

控告科技公司Anthropic的美國唱片業協會（RIAA）即指出，該模型可輕易還原泰勒絲或碧昂絲的完整歌詞，證明其訓練資料來自未經授權的商業音樂庫，已構成重製與衍生性侵權。

資料洗白的風險

報告進一步揭露AI公司如何透過策略性操作，將原本侵權風險極高的資料，包裝為「非商業用途」，達成「資料洗白」（data laundering）的目的。一種典型模式是：企業資助非營利機構建立資料集，再利用這些資料進行訓練，最終推出可商業營利的模型或API。美國著作權局在報告中明確指出，合理使用判準不應只看機構名義，而是其使用是否實質上促進商業利益。

更嚴重的是，不少資料集來源包含非法下載平台，如BitTorrent或Z-Library，甚至透過技術手段繞過新聞網站的付費牆，抓取如《紐約時報》或《衛報》等媒體的原文報導。例如有一個名為「Books3」的資料集，其內容包含近20萬本盜版電子書，其中許多仍在著作權保護期內。更有甚者，部分資料被刪除原著作權資訊或偽造出處，已違反DMCA第1202條禁止篡改版權管理資訊的規定，可能涉及刑事處罰。這些行為不僅破壞市場公平，也讓合法創作者處於資訊與權益保護上的劣勢地位。

政策出路：集體授權或法定授權？

在面對AI技術日益擴張、產業規模超越現有授權機制的情況下，報告提出三項可能的政策方向，希望在創新發展與創作保護之間取得平衡。首先是自願授權（voluntary licensing）：由創作者主動與平台建立協議，授權其作品供AI訓練。然而，由於作品分散、議價權不對等，加上部分創作者不具談判能力，此方式恐難以全面實施。

其次是擴大集體授權（extended collective licensing）：仿效北歐國家，授權組織代表權利人統一收費與分配補償。這種制度具有較高效率，能涵蓋中小型創作者或已故作者的作品。第三是法定授權機制（compulsory licensing）：由國會設立標準與補償方式，強制授權某類AI用途，並設有退出機制（opt-out），讓不願被使用的創作者保有選擇權。

報告強調，現行法律並未針對AI訓練進行任何授權規範。未來立法是否朝向集體管理、產業課徵補償費或設定最低補償門檻，將攸關AI發展與文化產業是否能共存互利。

從本次報告的基調來看，美國著作權局試圖重申一個核心價值：科技的進步，不能以掠奪創作者的智慧結晶為代價。AI雖然為教育、醫療與語言應用帶來無限可能，但若其基礎建立在「大規模未授權學習」上，終將滋生諸多後遺症。

這份報告拒絕以「技術中立」為藉口掩蓋侵權事實，並為政策制定者提供一套針對AI訓練資料合法性的新準則。它也提醒我們：資訊社會的公平正義，不僅靠資料的開放，也必須保護創作的尊嚴與勞動。正如報告結語所說：「我們正處於創作自由與技術創新正面衝突的轉捩點，必須做出有遠見的選擇」。美國在這方面的相關制度設計與抉擇，勢必將牽動全球數位治理的未來走向。

當AI掠奪創作：美國著作權局如何面對生成式AI的衝擊

美國著作權局近期針對生成式人工智慧（generative AI）發佈《著作權與人工智慧》（Copyright and Artificial Intelligence）報告，直指當今AI產業對著作權的系統性侵犯已達「產業規模」。(圖片來源/pexels)

社群評論