适用场景
自主研发大模型或集成生成式AI(AIGC)技术的出海企业,在进行模型训练、产品上线运营及后续迭代优化阶段需重点关注。
核心要点
1. 训练数据获取与知识产权合规
企业必须确保大模型训练数据的来源合法,防范侵犯他人著作权或商业秘密,在商业化大模型训练中不能盲目依赖“合理使用”豁免。若通过网络爬虫获取数据,需严格遵守目标网站的Robots协议,避免因替代他人服务或干扰网站正常运行而构成不正当竞争。
2. 个人信息与人格权保护
在处理包含个人信息的数据集时,必须依法取得信息主体的明确同意或具备其他法定事由。特别是在涉及人脸肖像、声音等敏感特征时,未经授权直接用于模型训练将面临极高的人格权侵权风险。
3. 数据标注与质量管控标准
企业需建立完善的数据标注规则,并对标注人员进行专项合规培训与考核。同时,应建立常态化的数据质量评估机制,确保输入模型的数据在真实性、准确性、客观性和多样性上达标。
4. 内容生成与持续优化合规
在AI应用阶段,需采取技术手段防止生成虚假、歧视性或侵犯他人知识产权的内容。若收集用户的输入指令和生成结果用于模型的二次优化,这些新增数据同样需要经过严格的合法性审查和质量把控。
实务建议
- 建立训练数据供应商白名单制度,采购外部数据集时务必签署明确的知识产权与隐私授权保证协议。
- 制定企业内部爬虫行为规范,设置合理的抓取频率,并建立Robots协议动态监测机制,避免暴力抓取。
- 针对数据标注环节制定标准化SOP,定期对标注结果进行抽检,并保留完整的标注规则和培训记录备查。
- 在AI产品端更新隐私政策与用户协议,明确告知用户其输入数据是否会被用于模型训练,并提供便捷的拒绝或退出(Opt-out)选项。
- 建立全生命周期的数据合规台账,对数据来源、处理过程、标注规则及生成内容审核机制进行留痕,确保随时可审计。
风险提示
- 误以为互联网公开数据等同于“免费开源数据”,未经授权随意抓取用于商业化训练,极易引发著作权侵权与不正当竞争诉讼。
- 忽视用户交互数据的合规性,未经明确授权直接将用户的输入提示词(Prompt)和个人信息用于下一代模型的迭代优化。
- 缺乏对生成内容的有效过滤机制,导致AI输出侵犯他人肖像权、名誉权或生成违反目的国法律的违规内容。