适用场景
从事人工智能技术开发、特别是利用大语言模型(LLM)提供服务的中国出海企业,在模型训练数据准备和产品开发阶段需要重点关注。
核心要点
1. “转换性使用”是核心辩护理由
美国法院认为,使用版权作品训练大语言模型以生成全新文本,其目的和性质具有高度“转换性”。关键在于训练行为不是为了复制或取代原作品,而是为了创造不同的新内容。如果模型输出内容与原作品无直接可追溯关联,此要素将有力支持“合理使用”的认定。
2. 训练数据的合法来源至关重要
法院明确区分了数据来源的合法性。通过合法购买渠道获取作品并转换为数字格式用于训练,可能被允许。但使用盗版来源获取的数据进行复制和训练,几乎不可能构成“合理使用”,其损害无法通过事后补买来消除。
3. 市场替代效应的认定偏向创新
法院倾向于认为,AI生成内容的大量出现,并不构成对原作品市场的直接替代。版权法旨在保护原创作品,而非保护作者免受由新技术带来的广义市场竞争。单纯因AI内容激增导致的竞争压力,不被视为受版权法保护的市场损害。
4. 合理使用需综合四要素个案分析
美国法院遵循“目的性质、作品性质、使用数量与实质性、市场影响”四要素进行审查,并进行综合权衡。不会因单一要素不利就全盘否定,而是基于具体行为(如训练与建库)分类评估。企业需为每个使用场景准备详细的合理性论证。
实务建议
- 建立严格的训练数据采购与审核流程,优先与版权方合作或从明确授权的数据供应商处获取数据,并保留完整的采购凭证和授权协议。
- 避免使用任何来自盗版网站、未经明确授权的爬取数据作为训练数据源,这是高风险行为。
- 在模型设计上,确保输出内容与训练数据中的具体版权作品没有直接、可追溯的复制关系,强化其“转换性”和创造性。
- 对已购买但后续不再用于训练的版权数据副本,评估其保留的必要性。若无明确、合理的后续使用计划,考虑安全地删除或隔离,避免被认定为不必要的永久性留存。
- 关注并记录中国(如杭州互联网法院奥特曼案)与目标市场国家的相关司法判例,动态调整自身的数据合规策略。
风险提示
- 切勿抱有“先使用后补票”或“用盗版数据训练后再购买正版”的侥幸心理,法院明确表示这无法消除侵权损害。
- 注意“合理使用”是抗辩理由,而非事前授权。一旦被诉,企业将面临漫长的诉讼和不确定性,应优先寻求合法授权以降低风险。
- 不同法域对“合理使用”的认定标准可能差异巨大。美国本案观点不代表其他国家和地区(包括中国)的司法实践会完全一致,需进行本地化合规分析。
- 即使训练行为可能被认定为“合理使用”,未经授权复制作品构建中央数据库的行为(尤其是使用盗版源时)仍可能被单独认定为侵权。