朴素贝叶斯算法最典型的应用就是垃圾邮件的识别,在数据量非常大的情况下,识别的正确率可以达到接近100%,同时实现起来思路并不复杂。本文介绍的就是基于朴素贝叶斯算法的垃圾邮件识别的实现。如果之前对贝叶斯算法不了解的同学可以先阅读这篇文章,非常好懂!https://blog.csdn.net/fisherming/article/details/79509025
这篇文章最后得到一个非常通俗的公式:

第一个“=”代表的就是贝叶斯公式,第二个“=”是在此基础上使用全概率公式进行展开。通过这个公式,使对未知概率的预测转换成了对已知概率的运算。贝叶斯算法的实现其实就是在统计已知数据的概率,最后套入公式计算。
1 数据集
贝叶斯算法实现并不复杂,主要难点在于对数据集的处理,使算法的正确率提高。因此编码之前需要先选择好合适的数据集。
1.1 数据集的下载
这是我在网上找到的非常不错的一个垃圾邮件数据集,里面有中英文两种垃圾邮件数据集下载。我下载的是中文垃圾邮件,里面包含了几万封正常邮件和垃圾邮件。
1.2 数据集的索引
这份数据集里面包含了3个文件夹,data里面包含的就是邮件文件夹,包含了60000+封邮件,正常、垃圾邮件都有,没有进行分类和标识。

delay和full里面包含的都是索引文件,索引文件里面每个索引对应一封邮件。如
spam ../data/000/000
ham ../data/000/001
代表的是data中000文件下的000文件为一封垃圾(spam为垃圾)邮件;001文件为一封正常(ham)邮件。
1.3 邮件信息的处理
每一封邮件的格式都是邮件传输信息+邮件主体。
Received: from hp-5e1fe6310264 ([218.79.188.136])
by spam-gw.ccert.edu.cn (MIMEDefang) with ESMTP id j7CAoGvt023247
for <lu@ccert.edu.cn>; Sun, 14 Aug 2005 09:59:04 +0800 (CST)
Message-ID: <200508121850.j7CAoGvt023247@spam-gw.ccert.edu.cn>
From: "yan"<(8月27-28,上海)培训课程>
Reply-To: yan@vip.163.com"<b4a7r0h0@vip.163.com>
To: lu@ccert.edu.cn
Subject: =?gb2312?B?t8eyxs7xvq3A7bXEssbO8bncwO0to6jJs8XMxKPE4qOp?=
Date: Tue, 30 Aug 2005 10:08:15 +0800
MIME-Version: 1.0
Content-type: multipart/related;
type="multipart/alternative";
boundary="----=_NextPart_000_004A_2531AAAC.6F950005"
X-Priority: 3
X-MSMail-Priority: Normal
X-Mailer: Microsoft Outlook Express 6.00.2800.1158
X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2800.1441
非财务纠淼牟莆窆芾-(沙盘模拟)------如何运用财务岳硖岣吖芾砑ㄐ
[课 程 背 景]
每一位管理和技术人员都清楚地懂得,单纯从技术角度衡量为合算的方案,也许
却是一个财务陷阱,表面赢利而暗地里亏损,使经
营者无法接受。如何将技术手段与财务运作相结合,使每位管理和技术人员都从
老板的角度进行思考,有效地规避财务陷阱,实现管理决策与居勘甑囊恢滦裕
本课程通过沙盘模拟和案例分析,使企业各级管理和技术人员掌握财务管理知识
,利用财务信息改进管理决策,实现管理效益最大化。通过学习本课程,您将:
★ 对会计与财务管理有基本了解,提高日常管理活动的财务可行性;
★ 掌握业绩评价的依据和方法,评估居导,实施科学的业绩考核;
★ 掌握合乎财务栽虻墓芾砭霾叻椒,与老板的思维同步;
★ 通过分析关键业绩指标,形成战略规划与全面预算;
★ 突出企业管理的重心,形成管理的系统性。
而邮件的传输

本文介绍基于朴素贝叶斯算法的垃圾邮件识别实现,使用2006TRECPublicSpamCorpora数据集,详细讲解数据预处理、特征提取及模型训练过程,通过联合概率法和贝叶斯公式法计算邮件为垃圾邮件的概率。
470

被折叠的 条评论
为什么被折叠?



