适用场景
计划或正在使用生成式AI技术(如内容创作、产品开发、营销)的出海企业,尤其是在模型训练和产品部署阶段。
核心要点
1. AI训练数据来源是核心风险点
使用受版权保护的内容(如音乐、文本、图像)训练AI模型,可能构成对复制权的侵犯。出海企业需重点关注训练数据的合法来源,避免未经授权的数据抓取和使用。
2. 中美“合理使用”抗辩存在重大差异
在美国,AI公司可能以“转换性使用”为由进行“合理使用”抗辩。但在中国,《著作权法》对“合理使用”的规定更为严格,通常要求非商业目的且限于法定情形,商业性AI训练很难适用此抗辩。
3. 侵权举证面临技术挑战
权利人难以直接从AI输出结果反向推导其训练数据。常见的举证策略包括:引用被告方关于数据来源的公开陈述,以及展示AI在特定提示下生成与版权作品高度相似的内容。
4. 全球司法实践尚在探索期
针对AI训练阶段的版权侵权,全球尚未形成统一的司法判例。中国已有相关案件进入审理程序,其判决结果将对出海企业的合规实践产生重要指引。
5. 合规关乎商业可持续性与社会责任
忽视数据版权合规不仅会引发高额诉讼赔偿(如美国案例中单件作品最高可达15万美元),还可能损害企业声誉,并阻碍技术创新与社会福祉的平衡发展。
实务建议
- 在启动AI项目前,对拟使用的训练数据进行全面的版权尽职调查,建立合规的数据获取渠道(如购买授权、使用开源数据集)。
- 建立并保留完整的数据来源记录和授权证明,以备在发生争议时进行举证。
- 审慎评估业务模式,避免完全依赖可能侵权的数据训练模型,探索合成数据、自有数据等替代方案。
- 密切关注中国、美国、欧盟等主要目标市场关于AI训练数据版权的最新立法动态和司法案例。
- 在产品设计上,考虑加入技术措施,降低模型直接输出受版权保护内容的风险,并建立用户投诉和处理机制。
风险提示
- 误区:认为AI的“学习”行为等同于人类的“学习”,不构成侵权。事实是:机器学习过程通常涉及对数据的复制,可能受版权法规制。
- 误区:认为只要最终输出内容不同,训练过程就不侵权。事实是:训练行为本身可能独立构成对复制权的侵犯。
- 注意事项:不要轻信“合理使用”能成为万能挡箭牌,尤其在中国的法律环境下,商业性使用很难通过此路径免责。
- 注意事项:避免在公开场合发表可能被视为“承认使用未经授权数据”的言论,这类言论可能在诉讼中被对方用作证据。
- 注意事项:即使作为AI服务的使用方而非开发者,若明知或应知上游模型训练侵权,仍可能面临连带风险。