实务指南数据、网络与技术合规2026-02-23

出海企业AIGC模型训练：美国版权“合理使用”实务指南

适用场景

从事人工智能技术开发、特别是利用大语言模型（LLM）提供服务的中国出海企业，在模型训练数据准备和产品开发阶段需要重点关注。

M7 · 数据与隐私合规M8 · 网络安全与技术安全M11 · 内容合规与知识产权M17 · AI与新兴技术合规

#AIGC合规#版权合理使用#大模型训练#数据来源#美国法律#知识产权#出海合规#人工智能

适用场景

从事人工智能技术开发、特别是利用大语言模型（LLM）提供服务的中国出海企业，在模型训练数据准备和产品开发阶段需要重点关注。

核心要点

1. “转换性使用”是核心辩护理由

美国法院认为，使用版权作品训练大语言模型以生成全新文本，其目的和性质具有高度“转换性”。关键在于训练行为不是为了复制或取代原作品，而是为了创造不同的新内容。如果模型输出内容与原作品无直接可追溯关联，此要素将有力支持“合理使用”的认定。

2. 训练数据的合法来源至关重要

法院明确区分了数据来源的合法性。通过合法购买渠道获取作品并转换为数字格式用于训练，可能被允许。但使用盗版来源获取的数据进行复制和训练，几乎不可能构成“合理使用”，其损害无法通过事后补买来消除。

3. 市场替代效应的认定偏向创新

法院倾向于认为，AI生成内容的大量出现，并不构成对原作品市场的直接替代。版权法旨在保护原创作品，而非保护作者免受由新技术带来的广义市场竞争。单纯因AI内容激增导致的竞争压力，不被视为受版权法保护的市场损害。

4. 合理使用需综合四要素个案分析

美国法院遵循“目的性质、作品性质、使用数量与实质性、市场影响”四要素进行审查，并进行综合权衡。不会因单一要素不利就全盘否定，而是基于具体行为（如训练与建库）分类评估。企业需为每个使用场景准备详细的合理性论证。

实务建议

建立严格的训练数据采购与审核流程，优先与版权方合作或从明确授权的数据供应商处获取数据，并保留完整的采购凭证和授权协议。
避免使用任何来自盗版网站、未经明确授权的爬取数据作为训练数据源，这是高风险行为。
在模型设计上，确保输出内容与训练数据中的具体版权作品没有直接、可追溯的复制关系，强化其“转换性”和创造性。
对已购买但后续不再用于训练的版权数据副本，评估其保留的必要性。若无明确、合理的后续使用计划，考虑安全地删除或隔离，避免被认定为不必要的永久性留存。
关注并记录中国（如杭州互联网法院奥特曼案）与目标市场国家的相关司法判例，动态调整自身的数据合规策略。

风险提示

切勿抱有“先使用后补票”或“用盗版数据训练后再购买正版”的侥幸心理，法院明确表示这无法消除侵权损害。
注意“合理使用”是抗辩理由，而非事前授权。一旦被诉，企业将面临漫长的诉讼和不确定性，应优先寻求合法授权以降低风险。
不同法域对“合理使用”的认定标准可能差异巨大。美国本案观点不代表其他国家和地区（包括中国）的司法实践会完全一致，需进行本地化合规分析。
即使训练行为可能被认定为“合理使用”，未经授权复制作品构建中央数据库的行为（尤其是使用盗版源时）仍可能被单独认定为侵权。

免费注册，向 AI 提问

注册后可无限浏览知识库，并获得 5 次免费 AI 合规咨询

免费注册，向 AI 提问