数据挖掘——贝叶斯分类_数据挖掘贝叶斯分类中什么是先验概率-CSDN博客

什么是分类？

找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号

一般过程

学习阶段建立描述预先定义的数据类或概念集的分类器训练集提供了每个训练元组的类标号，分类的学习过程也称为监督学习（supervised learning）
分类阶段使用定义好的分类器进行分类的过程

概念区分

分类与预测：分类是预测分类（离散、无序）标号，预测建立连续值函数模型预测数值

分类与聚类：分类是有监督学习，提供了训练元组的类标号，聚类是无监督学习，不依赖有类标号的训练实例

先验概率：根据以往的经验分析得到的概率，不需要样本数据

后验概率：根据具体样本数据得到的概率

贝叶斯算法

$\frac{P(B|A) \cdot P(A)}{P(B)}$

P(A∣B)**：后验概率（已知B发生时A的概率）
P(B∣A)**：似然度（已知A发生时B的概率）
P(A)：先验概率（A的初始概率）
P(B)：证据概率（B发生的总概率，可通过全概率公式计算）

贝叶斯算法的核心思想是通过考虑特征概率（后验结果概率）来预测分类（先验），即对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大，就认为此待分类样本属于哪个类别。

朴素贝叶斯分类

贝叶斯分类本质上是同时考虑了先验概率和似然概率的重要性

假设D的属性 $a_i$ 之间相互独立，转化成求多个条件概率，即朴素贝叶斯分类。
$h_{MAP}=\max_{h\in H}P(h|\lt a_1,a_2,\ldots,a_n\gt) = \max_{h\in H}P(\lt a_1,a_2,\ldots,a_n\gt|h)P(h) = \max_{h\in H}\prod_{i}P(a_i|h)P(h)$
朴素贝叶斯方法的条件独立假设看上去过于天真，为什么预测结果却相当准确呢？在文本中，词汇之间的相关性并没有想象的那么大。有人对此提出了一个理论解释，并且建立了什么时候朴素贝叶斯的效果能够等价于非朴素贝叶斯的充要条件，这个解释的核心就是：有些独立假设在各个分类之间的分布都是均匀的，所以对于似然的相对大小不产生影响