LLM作为裁判的五大失效陷阱与七层防御体系

最新推荐文章于 2026-06-15 16:51:16 发布

原创最新推荐文章于 2026-06-15 16:51:16 发布 · 452 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#LLM as Judge #大模型裁判 #自动评估

[网站分类]3.非技术区(技术之外的文章同时被 2 个专栏收录

21 篇文章

订阅专栏

但不要涉及任何政治内容)

21 篇文章

订阅专栏

1. 这不是“让大模型打分”那么简单：为什么用LLM当裁判反而容易翻车

最近半年，我陆续帮三支不同领域的团队落地了“LLM as Judge”方案——一支是做编程教育平台的，想用大模型自动批改学生代码作业；一支是法律科技初创公司，尝试让模型对合同条款风险等级打分；还有一支是跨境电商客服中台，计划用模型评估客服回复质量。表面看都是“让大模型当裁判”，但实操下来，没有一个项目是照着论文里那句“LLMs can serve as scalable, cost-effective evaluators”直接跑通的。真正卡住进度的，从来不是模型能不能输出一个分数，而是它在什么条件下会给出 看似合理、实则危险 的判断。比如编程题批改里，模型把一段有严重内存泄漏但能通过测试用例的代码判为“优秀”；法律合同评审中，它给一条明显违反《电子商务法》第十七条的免责条款打了92分；客服质检场景更隐蔽——模型连续三天给同一段机械重复“亲亲理解”的话术打出高分，只因文本长度和情感词密度达标。这些不是模型“能力不足”，而是我们没意识到： 当LLM脱离生成任务、进入评判角色时，它的推理路径、置信度分布、错误模式会彻底重构 。它不再追求“说得像人”，而是开始“模仿人类打分逻辑”，而这个逻辑本身，在不同领域、不同任务粒度、不同标注标准下，根本不存在统一范式。所以这篇不是教你怎么调API，而是把我踩过的17个坑、验证过的5种防御性设计、以及3套可即插即用的校验模板，全盘托出。适合正在设计自动评估流程的产品经理、需要快速验证模型判分可靠性的算法工程师，以及被老板问“为什么AI评分和人工差30%”却答不上来的技术负责人——你不需要懂Transformer结构，但得知道什么时候该拦住模型，什么时候该换数据，什么时候干脆别用。

2. 核心问题拆解：五类典型失效场景与底层成因

2.1 语义漂移陷阱：模型在“理解任务”上就已失焦

最常被忽略的问题，是模型根本没搞清“你在让它评什么”。我们曾给客服质检设计过一个简单prompt：“请根据[专业性、同理心、解决率]三个维度，对以下对话打分（1-5分）”。结果模型把“解决率”理解成“客户是否说了‘解决了’这个词”，导致只要客户结尾说句“好的谢谢”，哪怕问题完全没处理，解决率维度就给5分。这不是模型幻觉，而是 任务定义模糊触发的语义坍缩 ——当prompt里缺乏可操作的判定锚点时，模型会退化到用字面高频词匹配。后来我们重写prompt，强制加入否定案例：“注意：客户说‘解决了’不等于问题已解决，需结合客服是否提供有效方案、是否确认客户操作成功等事实判断”。效果立竿见影，但代价是prompt长度翻倍，且必须人工构造至少12个反例。这里的关键洞察是： 评判任务的prompt工程，本质是构建一个微型知识图谱 ，它必须显式编码领域规则（如“法律合同风险=条款是否免除平台法定责任+是否排除消费者主要权利”）、操作定义（如“同理心=是否复述客户情绪关键词+是否提供情绪安抚短语”）、以及最重要的—— 边界案例 （如“客户说‘随便吧’时，不能视为同意解决方案”）。没有这三层，模型就是在用统计规律猜谜。

2.2 分布偏移放大器：训练数据与实际场景的隐性错配

很多团队默认“用ChatGPT-4或Claude-3做裁判就够了”，但实际部署后发现：模型在测试集上AUC 0.92，上线首周人工复核误差率就飙到38%。根源在于 评估数据分布与生产环境的静默偏移 。举个真实案例：某教育平台用公开的CodeXGLUE数据集微调模型判分，该数据集里92%的错误代码都带有明显语法错误（missing semicolon, undefined variable）。但真实学生作业里，67%的bug是逻辑错误（循环边界错误、条件判断遗漏），这类代码语法完全合法，模型却因训练数据中缺乏对应样本，倾向于给高分。更致命的是，这种偏移会自我强化——当模型持续误判逻辑bug为“低风险”，运营团队就会减少对此类样本的人工标注，导致数据飞轮进一步偏离。我们后来做了个简单实验：把线上真实误判样本按错误类型聚类，发现“逻辑错误类”样本在训练集中的覆盖率仅1.3%，而在误判样本中占比达64%。这意味着模型不是“不会判”，而是“没见过足够多的同类错误”。解决方案不是换更大模型，而是建立 动态分布监测机制 ：每200条人工复核样本，就用UMAP降维+DBSCAN聚类，实时检测新出现的错误簇。一旦发现某类错误在误判样本中占比超阈值（我们设为15%），立即触发标注队列，要求标注员优先处理该簇样本。这套机制上线后，误判率从38%压到12%，且后续波动控制在±3%内。

2.3 元认知缺失：模型无法表达“自己有多不确定”

所有LLM裁判系统都面临一个幽灵问题： 它从不告诉你这个分数有多可信 。我们曾让模型对100份医疗报告打分（0-100分），人工复核发现：模型给72分的报告，有41%实际应低于50分；但给95分的报告，98%确实优质。这说明模型的高分段置信度远高于低分段，但它不会主动提示“此评分基于有限上下文，建议人工复核”。这是因为LLM的输出概率分布（logits）与人类感知的“确定性”不匹配——模型可能对某个错误给出0.99的token概率，但这个概率反映的是语言连贯性，而非事实正确性。我们试过三种校准方法：第一种是温度系数调节（temperature=0.3），结果高分更集中但低分误判加剧；第二种是让模型自评置信度（“请用1-5分评价你对上述评分的信心”），发现信心分与实际准确率相关性仅0.21；第三种是引入 不确定性量化层 ：对同一输入，用不同prompt变体（如交换评分维度顺序、添加“假设你是资深专家”前缀）生成5个分数，计算标准差。实测发现，当标准差>8.2时，人工复核必要性提升3.7倍。现在我们的系统强制要求：所有分数必须附带不确定性指数（UI），UI>7的自动进入人工队列，且前端显示为“需专家复核（置信度低）”。

2.4 价值对齐断层：模型内在偏好与业务目标的隐性冲突

最危险的问题，是模型在“认真执行任务”时，悄悄替你做了价值选择。某电商公司让模型评估商品描述质量，prompt明确要求“突出核心参数（如CPU型号、电池容量）”。但模型持续给含大量emoji和感叹号的文案打高分，因为其训练数据中，高互动率商品描述恰好充满这些元素。这暴露了 基础模型的价值先验与业务目标的结构性矛盾 ：模型从互联网文本中学到的“好文案=高传播性”，而业务要的是“好文案=高转化率”。我们做过对比实验：用相同prompt让GPT-4、Claude-3、Llama-3分别评分，发现GPT-4对营销话术敏感度最高（相关系数0.83），Claude-3最关注参数完整性（0.79），Llama-3则偏向长文本（0.65）。这意味着选型不是看谁分数高，而是看谁的偏差方向与你的业务容忍区最匹配。后来我们采用 双阶段对齐策略 ：第一阶段用RLHF微调，奖励函数明确包含“参数提及数/总字数”“技术术语密度”等硬指标；第二阶段在推理时注入 价值约束层 ——对每个评分维度，预设一个“不可妥协阈值”（如“核心参数缺失则专业性维度强制≤2分”），模型输出后自动触发规则引擎校验。这套组合拳让参数遗漏误判率从29%降至3.4%。

2.5 反馈闭环断裂：人工修正无法有效传导至模型决策

很多团队以为“加个人工复核环节”就万事大吉，但实际发现：人工修正的样本喂给模型后，同类错误复发率仍超60%。根本原因是 反馈未穿透到决策链路 。传统做法是把人工修正后的分数当监督信号，用监督微调（SFT）更新模型。但问题在于，人工改分只改变了最终输出，而模型出错往往发生在中间推理步骤（如错误归因、忽略关键证据）。我们跟踪过一个典型案例：模型将一份含虚假功效宣称的保健品文案判为“合规”，人工改为“严重违规”。SFT训练后，模型对同一文案仍判“合规”，只是分数从85降到72。根源在于，SFT只告诉模型“这个输入该输出更低分”，但没教会它“为什么错”——它依然没学会识别“临床试验”“经XX认证”等虚假背书话术。后来我们转向 推理链蒸馏（Chain-of-Thought Distillation） ：要求人工标注员不仅改分，还要用结构化模板填写错误归因（如“错误类型：虚构权威背书；证据位置：第3段第2句；正确依据：《广告法》第17条禁止使用科研单位、学术机构名义作证明”）。然后用这些标注训练一个轻量级分类器，专门预测“当前评分是否需触发归因检查”。当分类器置信度>0.85时，强制模型生成推理链并接受规则校验。这套方案使同类错误复发率降至6.2%，且人工标注效率提升40%（因模板化归因比自由书写快2.3倍）。

3. 实操防御体系：从Prompt设计到系统架构的七层防护

3.1 Prompt层：用“三明治结构”封堵语义漏洞

我们弃用了所有开放式prompt，转而采用严格分层的“三明治结构”：

[顶层指令]  
你是一个{领域}专家评审员，严格遵循以下原则：  
1. 所有判断必须基于文本中明确出现的事实，禁止推测未提及信息；  
2. 当文本存在{领域特定禁忌}（如法律场景：免除平台法定责任；教育场景：答案未覆盖题目全部子问题），该项直接计0分；  
3. 若评分维度间存在逻辑冲突（如“专业性”高分但“准确性”低分），必须重新校验。  

[中层锚点]  
评分维度与操作定义：  
- {维度1}：{可验证动作}（例：法律风险→检查是否出现“概不负责”“自行承担”等免责表述）  
- {维度2}：{可计数指标}（例：教育反馈→统计是否包含≥2个具体修改建议）  
- {维度3}：{否定清单}（例：客服质量→若出现“我不知道”“你找别人”等短语，此项强制≤1分）  

[底层示例]  
正向案例：{文本片段} → {维度1:4分，维度2:5分，维度3:3分}  
反向案例：{文本片段} → {维度1:0分（理由：出现‘概不负责’），维度2:2分，维度3:1分（理由：含‘你找别人’）}

这个结构强制模型在三个层面建立约束：顶层用原则框定行为边界，中层用可操作定义消除歧义，底层用正反案例固化模式识别。我们测试过，相比传统prompt，三明治结构使维度间一致性（Cohen's Kappa）从0.41提升至0.79，且人工复核工作量下降53%。关键技巧在于： 反向案例必须来自真实误判样本 ，且每类错误至少配置3个变体（如同一免责话术的不同表述形式），否则模型只会死记硬背。

3.2 数据层：构建“对抗性分布平衡集”

我们不再依赖单一数据源，而是构建三层数据集：

数据集类型	构建方式	占比	核心作用
基准集	人工精标高质量样本（覆盖所有评分维度组合）	30%	定义黄金标准，校准模型基线能力
对抗集	用规则引擎生成边界案例（如：参数齐全但逻辑错误的代码；合规表述但隐藏风险的合同）	45%	暴露模型脆弱点，强制学习鲁棒特征
漂移集	每周从线上误判样本中抽样，经人工清洗后加入	25%	动态捕捉分布偏移，防止能力退化

特别强调对抗集的构建逻辑：不是随机扰动，而是基于领域知识设计攻击向量。例如教育场景，我们编写了12条规则生成“高迷惑性错误”：

规则1：保持答案格式正确，但将关键数字替换为近似值（如“3.14”→“3.141”）
规则2：在正确答案后追加无关正确陈述（如“答案正确。另外，Python是解释型语言。”）
规则3：用同义词替换核心概念（如“递归”→“函数自我调用”）
这些规则生成的样本，使模型在对抗测试中的准确率从61%提升至89%，且泛化到未见过的错误类型。

3.3 模型层：混合专家（MoE）架构应对多维评判

单一模型难以兼顾所有评判维度，我们采用轻量级MoE架构：

主干模型 ：Qwen2-7B（开源可商用，推理成本可控）
维度专家 ：为每个评分维度训练独立的小型LoRA适配器（<5MB/个）
路由层 ：用文本嵌入相似度动态分配权重（例：含大量技术参数的文本，自动提升“专业性”专家权重）

具体实现时，我们不直接输出分数，而是让各专家输出 维度置信度向量 （如专业性专家输出[0.92, 0.87, 0.95]对应三个子项），再由路由层加权融合。这样做的好处是：当某维度专家置信度骤降（如检测到新类型错误），系统可自动降权该专家，甚至切换至规则引擎兜底。实测表明，MoE架构使多维度评分一致性（Fleiss' Kappa）达0.83，远超单模型的0.62，且推理延迟仅增加17ms（在T4 GPU上）。

3.4 推理层：引入“双通道验证”机制

所有评分必须经过两条独立路径验证：

通道A（模型路径） ：MoE模型输出原始分数+不确定性指数
通道B（规则路径） ：用领域知识图谱（Neo4j构建）执行硬规则校验（如“合同含‘不可抗力’条款且未定义范围→风险分+15”）

最终分数 = 0.7 × 通道A分数 + 0.3 × 通道B分数，但 当通道B触发任一高危规则时，强制覆盖为通道B结果 。例如规则引擎检测到“医疗文案使用‘治愈’‘根治’等禁用词”，直接将合规性维度设为0分，无视模型输出。这个设计让我们规避了92%的监管风险事件，且规则库可随法规更新实时热加载，无需重训模型。

3.5 反馈层：构建“归因驱动”的增量学习闭环

我们废弃了传统SFT，转而采用 归因增强的对比学习 ：

对每个误判样本，人工标注“错误归因树”（如：错误类型→证据位置→法规依据→修正动作）
将原始prompt与修正prompt构造成正负样本对（正样本：含归因提示的prompt；负样本：原prompt）
训练对比损失函数，拉近正样本输出距离，推远负样本

关键创新在于： 归因提示不是附加说明，而是重构prompt结构 。例如原prompt：“请评分”，修正后变为：“请先定位文本中与{维度}相关的所有事实陈述（逐条列出），再基于{法规/标准}判断每条陈述的合规性，最后综合给出分数”。这种强制归因的prompt，使模型在推理时自然产生可验证的中间步骤。上线三个月，模型对新出现错误类型的首次捕获率从31%提升至79%。

3.6 监控层：部署“四维健康度仪表盘”

我们监控的不是准确率，而是四个先导性指标：

维度漂移度 ：各评分维度分数分布的JS散度（每周同比）
归因断裂率 ：模型输出分数但无法回溯到具体证据片段的比例
规则触发率 ：通道B规则引擎的月度触发频次（异常升高预示新风险）
人工复核逃逸率 ：被模型高置信度评分但最终被人工推翻的样本占比

当任一指标突破阈值（如归因断裂率>15%），系统自动冻结该维度评分，转为纯规则引擎，并触发告警。这个仪表盘让我们在监管新规出台前两周，就通过“规则触发率”异动，提前识别出新型违规话术，比同行早18天完成模型升级。

3.7 人机协同层：设计“渐进式接管”工作流

我们不追求全自动，而是定义清晰的接管边界：

L0（全自动） ：UI<5且无高危规则触发 → 直接输出
L1（半自动） ：UI 5-7或触发中危规则 → 输出带“建议复核”标记，运营人员可一键采纳
L2（人工主导） ：UI>7或触发高危规则 → 隐藏模型分数，仅展示归因分析和规则依据，供专家决策

关键设计是 接管点可配置 ：运营人员可在后台调整各层级阈值，且每次调整都会生成影响预测报告（如“将L1阈值从5调至6，预计复核量减少22%，误判率上升1.3%”）。这个设计让业务方真正掌控风险收益平衡，而不是被技术黑箱绑架。

4. 实战问题排查手册：21个高频故障与根治方案

4.1 “模型突然对所有样本打高分”——如何定位是prompt失效还是分布漂移？

这是最典型的误判信号。我们建立三级排查流程：
第一步：隔离测试

用基准集（30%精标样本）重跑，若准确率正常（>85%），说明是分布漂移；若也崩坏，进入第二步
第二步：Prompt压力测试
输入强对抗样本（如法律合同中插入“本条款无效”字样），观察模型是否仍给高分。若仍高分，说明prompt未生效，检查：

提示：确认prompt中是否包含明确的否定指令（如“若出现XX，则此项为0分”），而非模糊表述（如“应避免XX”）
提示：检查模型是否支持system message（部分开源模型忽略system role）
第三步：分布诊断
对线上样本做TF-IDF特征提取，与基准集计算余弦相似度。若中位相似度<0.3，确认分布漂移，启动漂移集扩充流程。

我们曾用此流程，在客服质检系统中快速定位到：新上线的“智能话术推荐”功能，导致客服回复中大量出现模板化短语（如“为您查询中…”），这些短语在基准集中未覆盖，触发分布漂移。解决方案不是重训模型，而是用规则引擎临时拦截此类话术，同时将样本加入漂移集。

4.2 “模型对细微差异极度敏感”——为什么改一个标点分数就跳变20分？

这暴露了模型在细粒度评判上的不稳定性。根治方案是 引入平滑化采样 ：

对同一输入，用5种prompt变体（如调整维度顺序、增删礼貌用语、改变分数制式）生成分数
取中位数而非均值（避免极端值干扰）
若5个分数标准差>12，触发“归因一致性检查”：强制模型生成5次推理链，统计各证据点被提及频次，频次<3的证据点视为不可靠，从评分依据中剔除

实测表明，平滑化采样使细粒度评分标准差降低68%，且人工复核时发现，模型对“标点敏感”的问题，本质是它把标点当作语义强度信号（如感叹号=热情），而业务要的是内容实质。因此我们在prompt中明确加入：“忽略标点符号、大小写、空格等格式特征，仅关注语义内容”。

4.3 “人工复核员总和模型意见不一致”——如何判断是模型错还是人错？

这是信任危机的起点。我们采用 三方仲裁机制 ：

当模型与人工评分差值>15分时，自动提交至第三方（资深领域专家）
专家不看原始分数，只看模型归因链+人工修改理由
仲裁结果录入知识库，用于更新规则引擎和归因模板

关键经验： 72%的“人机分歧”源于标准不一致 。例如教育场景，人工认为“未写出解题步骤”应扣10分，而模型依据的是“答案是否正确”。解决方案是：在prompt中强制要求模型输出“扣分依据”，并与人工标注的扣分点做Jaccard相似度计算，低于0.4时触发标准对齐会议。这个机制使团队内部评分标准一致性（ICC）从0.51提升至0.89。

4.4 “模型拒绝评分，输出‘无法判断’”——如何避免系统性拒答？

拒答率>5%即需干预。我们发现主因是 prompt中存在不可验证的抽象要求 。例如：“请评估文案的创意性”——模型无法定义“创意”，只能拒答。根治方案：

将所有抽象维度拆解为可计数指标（如“创意性”→“使用非常规比喻次数+行业新术语密度+句式变化率”）
在prompt中提供计算公式（如“句式变化率=（疑问句+感叹句+被动句）/总句数”）
对无法量化的维度，强制要求模型输出替代方案（如“无法直接评估创意性，但可报告：新术语密度=0.12，高于基准集均值0.08”）

这个改造使拒答率从12.7%降至0.3%，且输出的替代指标，意外成为运营优化的新抓手。

4.5 “模型在长文本上表现极差”——为什么超过2000字就乱评分？

根本原因是 注意力机制对长距离依赖的衰减 。我们不用RAG（增加延迟），而是采用 分段聚焦策略 ：

将长文本按语义块切分（如合同按条款、客服对话按轮次）
对每个块独立评分，再用规则加权（如“违约责任”条款权重=2.0，“一般条款”权重=0.5））
强制模型在归因中注明“本分数基于第X段第Y句”

关键技巧：切分点必须由领域规则定义（如法律合同按“第X条”切分），而非固定字数。我们测试过，规则切分比固定切分使长文本评分准确率提升41%。

4.6 “模型对新术语完全无法理解”——如何让LLM快速掌握领域黑话？

当业务出现新词（如“618大促GMV破亿”），模型常误判为错误。解决方案是 术语注入协议 ：

在prompt开头添加术语表（不超过5行）：
“【术语】618大促：指每年6月18日电商平台年度购物节；GMV：商品交易总额，非实际成交额”
要求模型在归因中引用术语表（如“依据术语表，‘618大促’指购物节，故该文案符合时效性要求”）
术语表每月更新，自动同步至所有prompt实例

这个简单设计，使新术语相关误判率从63%降至4.2%，且术语表维护成本极低（平均每月新增2.3个术语）。

4.7 “模型评分结果无法解释，审计不通过”——如何满足合规性要求？

金融、医疗等强监管领域，必须提供可追溯的决策链。我们采用 结构化归因输出协议 ：

{
  "score": 87,
  "dimension_scores": {
    "compliance": {"score": 95, "evidence": ["第2段第3句：'符合国标GB/T 12345-2020'", "第4段第1句：'经XX机构检测合格'"]},
    "clarity": {"score": 72, "evidence": ["第1段未定义专业术语'量子加密'"]}
  },
  "audit_trail": "基于术语表v3.2及《广告法》第17条校验"
}

所有字段强制JSON Schema校验，缺失evidence字段即视为无效输出。这套协议使审计通过率从58%升至100%，且归因字段可直接对接企业知识图谱。

4.8 “模型对同一文本多次评分结果不同”——如何确保结果可重现？

这是确定性要求的核心痛点。我们实施 三重锁定机制 ：

Prompt锁定 ：所有prompt版本化管理，每次变更生成SHA256哈希
模型锁定 ：使用确定性推理框架（vLLM开启--seed 42 --repetition-penalty 1.0）
环境锁定 ：GPU驱动、CUDA版本、PyTorch版本全部容器化固化

实测表明，三重锁定后，1000次重复评分的标准差为0，完全满足金融级审计要求。关键提醒：不要用temperature=0，某些模型在temperature=0时仍有微小随机性，必须配合确定性框架。

4.9 “业务方总想改评分标准，导致模型频繁重训”——如何解耦业务规则与模型能力？

我们构建 规则-模型分离架构 ：

模型只输出“基础事实判断”（如“文本含‘治愈’一词：是/否”）
业务规则引擎（Drools）根据事实判断组合，执行评分逻辑（如“含‘治愈’且为医疗文案→合规性=0”）
业务方只需修改规则文件，无需触碰模型

这个设计使业务规则迭代周期从2周缩短至2小时，且模型重训频率下降90%。我们甚至为规则引擎开发了可视化编辑器，业务方拖拽即可配置新规则。

4.10 “模型在多语言混合文本上失效”——如何处理中英混排等复杂场景？

我们放弃让模型理解混合语义，转而采用 语言路由策略 ：

用fastText检测每段文本主体语言
中文段走中文模型（Qwen2），英文段走英文模型（Llama-3），混合段强制切分
对专业术语（如“API”“SDK”），建立跨语言映射表，统一归因

这个策略使中英混排文本评分准确率从41%提升至86%，且处理速度比单一大模型快2.3倍（因可并行调用）。

5. 经验总结：那些没写在论文里的残酷真相

我在交付第7个LLM裁判项目时，客户CEO问我：“到底要多少数据才能让模型稳定？”我回答：“不是数据量的问题，是你们敢不敢承认——有些评判标准，人类自己都没达成共识。”这句话背后，是我们踩过的最深的坑：试图用模型固化一个尚未收敛的业务标准。比如某教育平台，教研团队对“编程作业的优雅性”有3种定义，模型在训练时学到了所有版本，结果输出分数在32-89分之间震荡。后来我们停掉模型，先组织12位教师用德尔菲法达成评分共识，再用共识数据训练模型，准确率直接跃升至94%。这让我明白： LLM裁判不是替代人类判断，而是放大人类已有的共识 。没有共识，模型只是把混乱自动化。

另一个血泪教训是过度追求“端到端”。我们曾为法律合同评审设计过一个巨模型，试图让模型直接输出“风险等级：高/中/低”。结果上线后，法务总监拒绝签字，因为“看不出模型为什么这么判”。后来我们砍掉90%的模型能力，只保留“条款提取+关键词匹配”，把风险等级判断交给规则引擎，反而通过了所有合规审查。真正的工程智慧，有时是知道在哪里画下能力的边界。

最后分享一个反直觉发现： 模型规模与裁判可靠性并非正相关 。在客服质检场景，我们对比了GPT-4、Claude-3、Qwen2-7B、Phi-3-mini，发现Phi-3-mini在“情绪识别”维度上F1值最高（0.89 vs GPT-4的0.72）。原因很简单：小模型参数少，对prompt指令更“听话”，而大模型总想“发挥创意”。所以选型时，我现在的第一问是：“这个任务，需要创造力，还是需要绝对服从？”——前者选大模型，后者选小而精的定制模型。

这些经验没法写进论文，因为论文要讲普适性，而实战要解决具体人的具体问题。如果你正站在LLM裁判项目的起点，记住： 最该花时间的不是调参，而是和业务方一起，把“好”和“坏”的定义，掰开揉碎，写成机器能懂的句子 。剩下的，不过是工程实现而已。