适用场景
研发生成式AI大模型、提供AIGC工具或涉及大规模数据抓取的中国出海企业,在进行底层数据收集、模型训练及海外市场拓展阶段需重点关注。
核心要点
1. 核心抗辩基础:构成“转换性使用”
在欧美版权法框架下,AI模型将受保护的作品(如图像)转化为“数据对”进行深度学习,而非利用其原有的艺术美学价值。这种赋予作品新用途和新意义的数据处理过程,是主张“合理使用”的最有力支撑。
2. 作品性质与复制程度的考量
虽然AI训练通常需要对具有高度独创性的作品进行“全部复制”,但只要这种海量复制是实现AI深度学习所必需的,且属于不向终端用户展示原始作品的“过渡性复制”,在法律上仍有极大可能被豁免。
3. 市场替代效应的界定
评估侵权风险的关键在于AI的训练行为是否挤占了原作品的商业市场。由于AI将作品作为底层数据使用,并未在审美或艺术市场上与原作者直接竞争,因此通常不会对原作品的潜在市场造成实质性破坏。
4. 输入端与输出端的风险隔离
必须明确区分“模型训练(输入)”与“内容生成(输出)”的法律定性。即便训练阶段的数据使用被认定为合理使用,若AI最终生成的图片或文本与原作品高度相似,依然会面临独立的侵权指控。
实务建议
- 在技术架构上,确保模型训练过程仅提取数据特征和元素关联(如图像与文本的映射关系),坚决避免在最终模型中存储或向用户展示原始版权作品的副本。
- 建立完整的训练数据处理日志,留存技术处理过程的证据,以便在面临诉讼时能够有效证明数据抓取和使用的“过渡性”与“转换性”。
- 在AI产品的输出端设置相似度过滤机制或安全护栏,防止用户通过特定提示词(Prompt)生成与受保护版权作品实质性相似的内容。
- 密切关注目标市场(如美国、欧盟、英国等)关于“文本与数据挖掘(TDM)”的最新立法动态,针对不同司法管辖区的版权豁免门槛制定差异化的数据合规策略。
风险提示
- 误将“合理使用”视为全球通用的避风港:各国对版权合理使用的认定标准差异巨大,美国采用灵活的四要素分析,而中国等部分国家传统上采用封闭式列举,需防范跨国法律适用风险。
- 忽视商业化程度带来的负面影响:若AI工具的商业变现模式与被抓取作品的权利人存在直接利益冲突(如直接售卖特定艺术家的仿制画作),将大幅削弱合理使用抗辩的成功率。
- 混淆开源数据集的商用权限:使用第三方提供的开源数据集(如LAION)进行训练时,切勿想当然认为其完全免责,仍需审查数据集中是否包含未经授权的受保护作品。