Systems & Infrastructure Writer

人工智慧訓練的辯論已不再是創新與所有權的簡單對立,而是實際測試版權法在模型大規模吸收書籍、文章及其他受保護作品時能承受多大程度。關鍵問題並非AI系統是否令人震撼,而是在仔細檢視原始材料、使用模式及市場影響後,驅動AI的複製行為是否可合理主張為合理使用。 其市場影響需嚴密審視。[4][5][6][9]

美國公平使用原則強調情境而非口號。法定的分析核心包括使用目的及性質、被複製作品的性質、取用數量,以及對原作品市場的影響。[4][7] 這套架構歷史悠久,然而面臨的新壓力是,生成式AI使過去狹窄的法律測試變成廣泛的基礎設施問題,因為訓練已成為產品設計的核心,而非邊緣問題。 四因素測試仍是所審查資料中的基本參照。[4][7]

美國版權局已表明,解答不太可能是一體適用。該局針對生成式AI訓練發布的報告涵蓋法律及技術背景,並指出相關事實可能會隨新系統出現而改變。[1][6] 報告亦傾向將授權納入考量,特別是在權利人可證明存在或可能存在訓練數據市場時。這很重要,因為當使用開始類似原創者應掌控的市場替代品時,合理使用的力道便會減弱。 報告將生成式AI視為一個持續變動的技術目標,而非固定類別。[1][6][11]

2025年法院判決將理論推向實務訴訟。在涉及Anthropic的案件中,加州北區一聯邦法官認為,在該法院稱為高度轉化的語境中,對書籍進行訓練可能構成合理使用。[2][5][9] 同案中所涉書籍既有購買得來也有從盜版網站下載,這類細節瓦解了泛泛的敘事。當資料來源不同,法律態度亦隨之更變。這是想要簡單答案的人經常忽略的關鍵。 判決依據訓練資料與轉化的具體事實,而非對所有模型的通行許可。[2][5][9]

另一個重要案件則採取更嚴厲立場。涉及Ross Intelligence與Thomson Reuters資料的訴訟中,根據來源摘要,特拉華州法院認定基於AI訓練資料的使用構成版權侵權。[8] 這同樣不代表普遍規則,而是顯示法院願意區分轉化產出與未授權輸入,且來源仍然重要。企業不能認為稱其模型為“AI”就能抹去訓練數據的來源。 法律問題仍需依據具體事實與複製材料的來源和用途判斷。[8][9]

因此,「AI引用」一詞可能令人誤解。出版中的引用通常指涉歸屬與透明度,然而訓練資料爭議關乎複製、替代市場,以及法律是否應該容許當最終產品為新創作時所進行的中間複製。 這些雖相關,卻不相同。模型可產生看似原創的輸出,卻依賴於引發獨立法律問題的複製輸入。[4][10] 工程技術也許高超,但法律鏈條可能依然錯綜複雜。

市場誘因明顯。模型開發者希望使用廣泛數據集,因其通常提升能力;權利人則要求報酬,因其作品非免費基礎設施。兩者間形成的授權市場仍然不均且正在發展。 來源指出新聞、音樂和語音等領域已有或正探索授權安排。[3][6][11] 這暗示將來法律許可將成為訓練工作流程的一部分,如同如今雲端合約或API條款在應用開發中扮演的角色。

尚未明朗的是任何持久規則的範圍。判例仍極度依賴事實。法院可能對一條訓練管線視為轉化使用,另一條則視為普通複製,尤其當來源數據未經授權或輸出威脅原始市場時。 這意味著下輪重點證據不會是行銷口號,而是數據集來源、授權紀錄、輸出行為,以及市場損害的證明或其缺失。[2][5][9] 在這些事實尚未明確前,所有關於合理使用的泛泛宣稱大多屬猜測。

日本的政策資料也指向同一方向。它將AI與版權視為不斷變動的技術與法律問題,而非既定教條。[6] 此態度正確。政府正努力跟上變動快速、超越以往複製形式的法律條文的系統變化。實務上,這要求開發者、出版者及使用者承擔簡單責任:了解資料來源、其附帶權利,且不要以為模型邊界即為法律邊界,因為通常並非如此。 後續版本應關注授權協議、上訴判決與強制模型建構者揭露資料來源的標準。[1][3][5] 目前,明確的結論是:在AI領域中,「合理使用」並非通行證,而是一場關於具體事實的爭鬥,而事實正發揮最大的作用。