机器学习实战-边学边读python代码(5)-阿里云开发者社区

机器学习实战-边学边读python代码(5)

2015-12-15 1065

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1): p1 = sum(vec2Classify * p1Vec) + log(pClass1) p0 = sum(vec2Classify * p0Vec) + log(1.

def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
p1 = sum(vec2Classify * p1Vec) + log(pClass1)
p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
if p1 > p0:
return 1
else:
return 0

注意：

p1Vect = log(p1Num/p1Denom)
p0Vect = log(p0Num/p0Denom)

>>> p0V
array([ 0.04166667, 0.04166667, 0.04166667, 0. , 0. ,
.
.
0.04166667, 0. , 0.04166667, 0. , 0.04166667,
0.04166667, 0.125 ])
>>> p1V
array([ 0. , 0. , 0. , 0.05263158, 0.05263158,
.
.
0. , 0.15789474, 0. , 0.05263158, 0. ,
0. , 0. ])

在本例中，ci分为侮辱性和非侮辱性两个类别，而w0,w1,w2..wN为单词向量（文档中所有单词的汇总），p0V和p1V是由训练文档计算出来的，如果文档为侮辱性文档，统计文档中各个词语在单词向量中出现情况，计算出概率向量p0V,同样计算出p1V.

贝叶斯定理如下：

p(ci|w)

= p(w|ci)p(ci)/p(w)

=p(w0,w1,w2..wN|ci)p(ci)/p(w)

=p(w0|ci)p(w1|ci)p(w2|ci)..p(wN|ci)p(ci)/p(w)

计算一个特定的文档w属于c0(侮辱性文档)或者c1(非侮辱性文档),统计这篇文档中各个单词在两个不同类别中的出现概率，由贝叶斯公式进行量化，也就是把特定文档中的每个单词在p0V或者p1V中找到对应的单词概率，把这些概率相乘，即p(w0|ci)p(w1|ci)p(w2|ci)..p(wN|ci)，再乘以p(ci),最后的结果得出两个概率值，概率大的即为特定文档最后的类别。

作者： HarlanC

博客地址： http://www.cnblogs.com/harlanc/
个人博客： http://www.harlancn.me/
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出, 原文链接

如果觉的博主写的可以，收到您的赞会是很大的动力，如果您觉的不好，您可以投反对票，但麻烦您留言写下问题在哪里，这样才能共同进步。谢谢！

机器学习实战-边学边读python代码(5)

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

机器学习实战-边学边读python代码(5)

热门文章

最新文章

相关课程

相关电子书

推荐镜像