Leveraging Test Driven Development with Large Language Models for Reliable and Verifiable Spreads...

一、文章主要内容总结

该研究提出了一个将测试驱动开发(TDD)与大型语言模型(LLMs)相结合的结构化研究框架,旨在解决LLM生成代码(含电子表格公式)时存在的幻觉、逻辑不一致、语法错误等可靠性问题,尤其适用于金融建模、科学计算等对准确性要求极高的场景。

核心背景
  • LLM(如ChatGPT)在传统代码和电子表格逻辑生成中应用广泛,但存在幻觉、逻辑偏差等固有缺陷,在非专业开发者使用的电子表格场景中,错误风险更突出(如Excel Copilot生成公式后,用户缺乏验证能力)。
  • 测试驱动开发(TDD)是成熟的软件工程方法,通过“先写测试、再实现代码”的流程保证输出正确性,可作为LLM生成的技术约束和认知支架。
研究框架与假设
  • 实验设计:招募40-50名具备基础编程和LLM知识的大学生,随机分为两组——仅使用GPT组(无结构化测试要求)和TDD+GPT组(必须先编写测试用例,再借助GPT实现代码)。
  • 核心任务:开发简易任务管理系统(支持添加、编辑、标记完成、删除任务及逾期提醒),并通过预测试(编程基础、TDD/LLM熟悉度)、实验任务、后测试(代码理解、调试、功能修改)收集数据。
  • 四大假设:TDD+GPT组合能提升计算思维(代码分解、测试设计)、代码理解与错误诊断能力、用户信心与参与度、策略性提示工程技能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值