LDA主题模型用于BUG修复人推荐《DRETOM: developer recommendation based on topic models for bug resolution》

利用LDA主题模型分析开发者兴趣与专长,为Bug报告智能匹配最佳修复人员,提高修复效率。

这项研究的论文来自PROMISE 2012,点击下载论文《DRETOM: developer recommendation based on topic models for bug resolution


LDA自从2003年由David Blei(刚发现Andrew Ng竟然也是提出者之一)提出后就一直火的不行,特别在机器学习和文本挖掘领域被广泛研究和应用,造诣可圈可点。LDA能够从文本中学习出潜在的topics,挖掘文本的潜在结构。该模型认为在某个特定的语料集中,任意一篇doc都是由给定的N个topics中的若干个或全体构成。doc中的词取自特定的word-topic分布。使用LDA时我们不需要提供训练语料,也不需要对语料进行任何的预处理,我们要做就是设置4个参数:topic数N、迭代数、参数α和β。待算法执行完毕后,我们会得到N个topic,以及每一个主题下频繁共现的词集,用以表示该主题,下图是对Mozilla Firefox的Bug report集执行LDA后学校到的20个topic中的4个以及最能代表着4个topic的Top 10 words。(LDA的实现原理将在后续文章详细介绍)
 

那么这篇文章为什么会想到用LDA来进行缺陷修复人的推荐呢?

首先需要注意的是这篇paper中的缺陷修复人和我先前文章《浅谈缺陷修复人预测(Bug Triaging)》提到的缺陷修复略有不同。本文把所有参与到某个Bug修复过程的开发者,包括实际修复人和提出修改意见的人,都作为这个bug合适的修复人。而之前的文章中提到的缺陷修复人仅表示bug的实际修复人。

一个bug的修复是一个collaborative activity,许多开发者会在一起交流,给出修改意见,为Bug的修复做出自己的贡献。下面这张表给出的是对Eclipse JDT和Mozilla Firfox两个项目中参与Bug修复的人数统计。在Eclipse JDT中平均每个Bug约有2个人参与,而Mozilla Firfox中是7个。
 

另外我们发现,每个开发者有自己的兴趣点和强项(这是不同,开发者可以对某个领域感兴趣,但并不意味就很在行,很牛叉)。换句话说开发者喜欢去修复跟自己兴趣或专攻方向相关的BUG。这里说的兴趣和专攻方向其实就是“主题”。为了证明这一点,本文的作者把Eclipse JDT的所有BUG借用LDA划分到20个topic中,然后统计了3个开发者DEV-24, DEV-20, DEV 32分别修复各个topic中Bug的数量,统计结果如下图所示。我们发现,DEV-24主要关注的是Topic-15上的BUG,DEV-20主要关注的是Topic-4上的BUG,而DEV-32主要关注的是Topic-4, topic-11, topic-14, topic-20上的BUG。

 


这里一个新的问题出现了,即作者是如何把Bug划分到不同主题的?要知道我们使用LDA建立了主题模型,也就是给出了20(本文中设置的topic数)个主题下的词集。那就好办了,我们只需要计算Bug report属于这个20个主题的概率,再取概率最大的那个topic和这个BUG建立映射关系就OK了。那归属概率怎么计算呢?最简单直接的方法,计算Bug Report和每个主题词集的cosin相似度,最后将20个相似度值归一化,搞定!!这里也举个例子,假设我们有3个主题,5个BUG,我们最终可以得到如下图所示的BUG-topic分布。
 
讲到这,一条由topic作为中间纽带连接developer和Bug report的关系链就生成了,如下图所示。给定一个新的Bug,这个Bug会被划分到某个Topic,这个Topic正是某些developers的兴趣点或专攻方向,因此这些deveopers被来修复该Bug的概率就会比较高。
 


至此,基于主题模型的算法的基本思想就介绍完了,下面我们就需要将抽象的思想使用公式来具体表示出来。

给定一个BUG,我们需要预测每个developer适合修改该BUG的概率,我们可以用条件概率来表示。之前我们说将每个BUG之和概率最高的Topic进行映射,但不代表和其他topic就没有关系,同样的一个developer并不是关注了自己喜欢或专注的topic,跟其他topic就一点也没有关系。因此在计算最终概率的时候,所有的20个Topic都要考虑,计算公式如下图所示:
 
其中表示bug属于指定topic的概率,表示dev修改该topic的BUG的概率。有两部分组成,一部分是兴趣度,即dev对这个topic有多大兴趣,可以用这个topic中由该dev参与的BUG数占dev参与的总BUG数的比例度量,换句话说,dev修复的BUG中你这个topic到底占多少分量,占得的分量越重,说明越感兴趣,我们用;另一部分是专业度,即dev在这个topic上权不权威,这里用topic中有dev参数的BUG数占topic中BUG总数的比例来度量,也就是说在这个topic中dev修复BUG占比越高,说明dev在这个topic上越权威,我们用来表示。

 



 

上式中使用差值参数θ来平衡兴趣度和专业度。在使用中要根据实际情况进行调整,没有一个经验值可供参考。表示dev在topic上参与修复的BUG数; 表示dev参与修复的总bug数;表示这个topic上的BUG数。


那么对于一个新来的BUG,计算所有dev的P(dev|bug)概率,然后去TOP K作为最终的推荐结果。

至此应用LDA主题模型来进行缺陷修复人推荐的方法介绍结束。至于最终的实验结果和评价指标,有兴趣的童鞋可以详读Paper。

内容概要:本文档详细介绍了基于直驱永磁同步发电机(PMSG)的1.5MW风力发电系统在Simulink环境下的建模与仿真全过程,涵盖了风力机空气动力学模型、PMSG电磁特性建模、不可控整流与逆变电路、直流环节、空间矢量脉宽调制(SVPWM)技术以及核心控制策略的设计。重点实现了最大功率点跟踪(MPPT)控制以提升风能捕获效率,并构建了电压外环与电流内环协同工作的双闭环控制系统,通过仿真验证了系统在不同风速条件下稳定运行的能力及动态响应性能。; 适合群:适用于具备电力系统、电机控制理论基础及Simulink仿真操作经验的研究生、科研员和从事新能源发电系统开发的工程技术员;特别适合正在进行风电系统建模、控制算法研究或完成相关毕业设计的专业士。; 使用场景及目标:①深入理解直驱式PMSG风力发电系统的整体架构与工作机理;②掌握从物理部件建模到控制策略实现的完整Simulink仿真流程;③学习并复现MPPT控制、双闭环控制等关键技术方案;④为后续开展低电压穿越、并网稳定性分析、故障诊断等高级课题提供可靠的仿真平台支撑。; 阅读建议:建议结合Matlab/Simulink软件动手实践,逐模块搭建模型,重点关注各控制环节的参数设计与调试方法,同时可参照文中提供的其他风电相关资源进行拓展学习与对比分析。
已经博主授权,源码转载自 https://pan.quark.cn/s/868afdd63918 在信息技术领域中,前端开发构成了Web应用程序构建的关键环节,而登录注册页面则是用户与网站进行互动的起始界面。"150款web登录注册页面模板(附带效果图+源码)"这一资源为前端工程师们提供了一系列预先设计的界面组件,支持他们迅速构建既美观又实用的登录及注册界面,从而有效缩减开发周期并增强工作效率。 这些模板囊括了多样化的风格和设计潮流,涵盖了扁平化设计、Material Design、渐变色彩、暗黑模式等,能够适应不同项目的特定要求。在设计中强调用户体验,通过科学的布局安排,提升了表单的便捷操作性和可辨识度,并且不忽视视觉层面的吸引力。设计师通常会关注自适应设计,保证页面在多种设备(涵盖手机、平板及桌面电脑)上均能呈现良好的视觉效果。 这些模板均配备了源代码,使得开发者得以深入探究并个性化定制每个构成部分,涉及HTML的页面构造、CSS的样式修饰以及JavaScript的交互逻辑。HTML主要承担着页面基础结构的搭建,CSS用于实现页面美化与布局控制,JavaScript则常用于处理表单验证和交互效果。对于那些精通这三种技术的开发者而言,他们可以根据个需求对模板进行功能扩展和样式调整。 在实际部署时,登录注册页面通常需要集成基础的输入项,例如用户名、密码、电子邮箱等,并且必须重视安全性考量,诸如密码强度指引、验证码系统等。除此之外,为了优化用户体验,还可能集成记住密码、自动填充、社交平台登录(例如微信、QQ、微博)等功能。 在开发阶段,前端工程师还需关注Web标准和无障碍访问(WCAG)规范,确保页面的通用友好性,这包括视障、听障或其他有特殊需求的用户群体。具体措施涉及标...
源码直接下载地址: https://pan.quark.cn/s/9af8b9f95652 ### Multisim模型的导入和使用 ### 一、引言 随着电子设计自动化(EDA)工具的进步,Multisim已经成为电子工程师进行电路仿真、分析和设计的关键工具之一。借助Multisim,工程师们能够便捷地构建电路模型,并对电路进行仿真验证。本文将系统阐述如何在Multisim中导入并运用芯片仿真模型,这对于提升电子产品的研发效能具有显著价值。 ### 二、Multisim中构建新元器件 构建新元器件是Multisim中的核心功能,特别是对于那些需要特定模型或无法从Multisim库中直接获取的元器件来说更为关键。以下为构建新元器件的具体流程: ##### 步骤1:录入元器件信息 在Multisim中启动“Component Wizard”,即元器件向导,开始创建新的元器件。首先需要录入元器件的基本资料,包括型号、主要功能、类型等。这些资料将有助于用户更高效地管理和检索元器件。 ##### 步骤2:录入封装信息 接下来需要设定元器件的封装信息。在这一环节中,用户需要依据实际芯片的封装规格来选择适宜的引脚数量。同时,还需明确是构建单一部件元器件还是复合部件元器件。如果是复合部件元器件,则必须确保引脚数量与符号中使用的引脚数量保持一致。 ##### 步骤3:录入符号信息 在此步骤中,用户可以编辑元器件在仿真过程中的显示符号。编辑符号可以通过三种途径进行:直接编辑、从数据库中复制现有符号或复制当前符号以备将来使用。编辑符号时应注重其在电路图中的可辨识度和清晰度。 ##### 步骤4:设定管脚参数 在该步骤中,用户需要参照数据手册上的管脚顺序为每个管脚命名,并选择恰当的类型。...
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值