朴素贝叶斯分类会涉及到极大似然估计的知识,对其做一个总结;

https://blog.csdn.net/zengxiantao1994/article/details/72787849

\\t 开始和结束

We can have this issue?

朴素贝叶斯法

  • 生成学习方法:通过训练数据学习联合概率分布P(X,Y),然后求后验概率P(Y|X)
  • 具体来说利训练数据学习P(X|Y)和P(Y)的估计,得到联合概率分布\(P(X,Y) = P(Y)P(X|Y) \) 概率估计方法可以是极大似然估计,或者贝叶斯估计。
  • 朴素贝叶斯法的基本假设是条件独立性, 这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减少,
  • 朴素贝叶斯法的学习与预测大为减少。因而朴素贝叶斯法搞笑,且易于实现,缺点是分类的性能不一定很高。
  • 朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。
  • $$ P(Y|X)=\frac{P(X,Y)}{p(X)}=\frac{P(Y)P(X|Y)}{\sum_{Y}{}P(Y)P(X|Y)} $$ 将输入x分到后验概率最大的类y $$ y=arg \ \underset{c_{k}}{max}P(Y=c_{k}) \prod_{j=1}^{n}P(X_{j}=x^{j}|Y=c_{k}) $$

贝叶斯决策

经典的贝叶斯公式是 $$p(w|x) = \frac{p(x|w)p(w)}{p(x)}$$

  • p(w)先验概率,代表每种分布的概率。
  • p(x|w)类条件概率,表示在某种类别前提下,某事发生的概率。
  • p(w|x)后验概率,标识某事x发生了,它属于某一类别的概率,有了后验概率,就可以进行分类了。
  • 而且后验概率越大,说明某种状态属于这个类别的可能性就越大,就越有理由把它归到这个类别下。

先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。

类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。 总之要直接估计类条件概率的密度函数很难。 解决的办法就是,把估计完全未知的概率密度\(p(x|w)\)转化为估计参数。这里就将概率密度估计问题转化为参数估计问题, 极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确, 在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。 伯努利分布下估计的一个例子: https://blog.csdn.net/DawnRanger/article/details/52988184

举例子: 已知:在某公园男性穿凉鞋的概率是1/2, 女性穿凉鞋的概率是2/3,并且公园里面男女比例通常是2:1。 问题:若你再公园中随机遇到了一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?

设\(w_{1}=男性, w_{2}=女性, x=穿凉鞋\)