实务指南数据、网络与技术合规2026-02-23

出海企业AIGC模型训练:美国版权“合理使用”实务指南

适用场景
从事人工智能技术开发、特别是利用大语言模型(LLM)提供服务的中国出海企业,在模型训练数据准备和产品开发阶段需要重点关注。
M7 · 数据与隐私合规M8 · 网络安全与技术安全M11 · 内容合规与知识产权M17 · AI与新兴技术合规
#AIGC合规#版权合理使用#大模型训练#数据来源#美国法律#知识产权#出海合规#人工智能

适用场景

从事人工智能技术开发、特别是利用大语言模型(LLM)提供服务的中国出海企业,在模型训练数据准备和产品开发阶段需要重点关注。

核心要点

1. “转换性使用”是核心辩护理由

美国法院认为,使用版权作品训练大语言模型以生成全新文本,其目的和性质具有高度“转换性”。关键在于训练行为不是为了复制或取代原作品,而是为了创造不同的新内容。如果模型输出内容与原作品无直接可追溯关联,此要素将有力支持“合理使用”的认定。

2. 训练数据的合法来源至关重要

法院明确区分了数据来源的合法性。通过合法购买渠道获取作品并转换为数字格式用于训练,可能被允许。但使用盗版来源获取的数据进行复制和训练,几乎不可能构成“合理使用”,其损害无法通过事后补买来消除。

3. 市场替代效应的认定偏向创新

法院倾向于认为,AI生成内容的大量出现,并不构成对原作品市场的直接替代。版权法旨在保护原创作品,而非保护作者免受由新技术带来的广义市场竞争。单纯因AI内容激增导致的竞争压力,不被视为受版权法保护的市场损害。

4. 合理使用需综合四要素个案分析

美国法院遵循“目的性质、作品性质、使用数量与实质性、市场影响”四要素进行审查,并进行综合权衡。不会因单一要素不利就全盘否定,而是基于具体行为(如训练与建库)分类评估。企业需为每个使用场景准备详细的合理性论证。

实务建议

  • 建立严格的训练数据采购与审核流程,优先与版权方合作或从明确授权的数据供应商处获取数据,并保留完整的采购凭证和授权协议。
  • 避免使用任何来自盗版网站、未经明确授权的爬取数据作为训练数据源,这是高风险行为。
  • 在模型设计上,确保输出内容与训练数据中的具体版权作品没有直接、可追溯的复制关系,强化其“转换性”和创造性。
  • 对已购买但后续不再用于训练的版权数据副本,评估其保留的必要性。若无明确、合理的后续使用计划,考虑安全地删除或隔离,避免被认定为不必要的永久性留存。
  • 关注并记录中国(如杭州互联网法院奥特曼案)与目标市场国家的相关司法判例,动态调整自身的数据合规策略。

风险提示

  • 切勿抱有“先使用后补票”或“用盗版数据训练后再购买正版”的侥幸心理,法院明确表示这无法消除侵权损害。
  • 注意“合理使用”是抗辩理由,而非事前授权。一旦被诉,企业将面临漫长的诉讼和不确定性,应优先寻求合法授权以降低风险。
  • 不同法域对“合理使用”的认定标准可能差异巨大。美国本案观点不代表其他国家和地区(包括中国)的司法实践会完全一致,需进行本地化合规分析。
  • 即使训练行为可能被认定为“合理使用”,未经授权复制作品构建中央数据库的行为(尤其是使用盗版源时)仍可能被单独认定为侵权。

免费注册,向 AI 提问

注册后可无限浏览知识库,并获得 5 次免费 AI 合规咨询

免费注册,向 AI 提问