文章核心总结与翻译
一、主要内容
该研究针对大型语言模型(LLMs)的版权保护问题,提出了一种基于模型编辑的水印框架EditMark,用于解决现有LLM水印方法存在的训练成本高、水印隐蔽性差、模型性能受损等缺陷。
核心背景
LLMs训练需大量数据和计算资源,是重要数字资产,但面临未授权转售、商业化等版权威胁。现有水印方法分为两类:
- 生成文本水印:通过控制推理过程嵌入水印,易被白盒场景下的攻击者移除;
- 模型级水印:基于后门或知识注入,前者隐蔽性差、水印容量低,后者需微调训练,计算开销大且影响模型性能。
EditMark框架核心设计
EditMark是首个无训练、高隐蔽性、无性能损失的开源LLM水印方案,包含四大组件:
- 生成器(Generator):基于伪随机数生成器(PRNG)和预定义模板,生成多答案(MA)问题(如不等式求解问题),确保问题逻辑正确、存在多个合法答案;
- 编码器(Encoder):利用字典序排列理论,将水印映射为MA问题的目标答案,实现水印与答案的一一对应;
- 编辑器(Editor):改进模型编辑技术,采用自适应多轮稳定编辑策略和噪声矩阵注入,在模型权重中嵌入水印,同时保留原始知识;
- 解码器(Decoder):通过相同MA问题查

订阅专栏 解锁全文
1330

被折叠的 条评论
为什么被折叠?



