朴素贝叶斯法

基本概念
- 先验概率：根据以往经验得到的概率，属于客观概率。统计历史下的概率。比如根据若干年的统计（经验）或者气候（常识），得到某个地方下雨的概率。
- 后验概率：当下由因及果的概率。比如天上有乌云，下雨的概率
- 条件概率：$P(A|B)=\frac{P(AB)}{P(B)}$
- 全概率公式：$P(A)=\displaystyle \sum_{i=1}^{{\infty}}P(B_i)P(A|B_i)$
- 贝叶斯公式推导：
  $$ 因为 P(A|B)P(B)=P(B|A)P(A)=P(AB) $$
  $$ 且 P(A)=\displaystyle \sum_{i=1}^{\infty}P(B_i)P(A|B_i) $$
  $$ 所以 P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\displaystyle \sum_{i=1}^{\infty}P(B_i)P(A|B_i)} $$
基本方法
- 先验概率分布：$P(Y=c_k),k=1,2,3,...,K.$
- 条件概率分布：

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k)$

条件独立假设：

$$ \begin{equation}\begin{aligned}P(X=x|Y=c_k)&=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_k)\\&=\displaystyle \prod_{j=1}^nP(X^j=x^j|Y=c_k)\end{aligned}\end{equation} $$

根据贝叶斯公式可得后验概率分布:
$$ \begin{equation}\begin{aligned}P(Y=c_k|X=x)&=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\displaystyle\sum_kP(X=x|Y=c_k)P(Y=c_k)}\\&=\frac{\displaystyle\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)}{\displaystyle\sum_k\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)}\end{aligned}\end{equation} $$
故朴素贝叶斯分类器为
$$ \begin{equation}\begin{aligned}y=arg\underset{c_k}max=\frac{\displaystyle\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)}{\displaystyle\sum_k\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)}\end{aligned}\end{equation} $$
注意到分母对所有$c_k$都是相同的，所以
$$ \begin{equation}\begin{aligned}y=f(x)=arg\underset{c_k}max{\displaystyle\prod_{j=1}^nP(X^j=x^j|Y=c_k)P(Y=c_k)}\end{aligned}\end{equation} $$

极大似然估计
- 先验概率$P(Y=c_k)$的极大似然估计
  $$ P(Y=c_k)=\frac{\displaystyle\sum_{i=1}^NI(y_i=c_k)}{N} $$
  其中N为总样本数目
- 设第j个特征$x^{(j)}$可能取值的集合为$\{a_{j1},a_{j2},...,a_{jS_j}\}$，条件概率$P(X_j=a_{jl|Y=c_k})$的极大似然估计是
  $$ P(X^{j}=a_{jl}|Y=c_k)=\frac{\displaystyle\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},y_i=c_k)}{\displaystyle\sum_{i=1}^{N}I(y_i=c_k)} $$
skleran的贝叶斯算法API看这里

朴素贝叶斯法

目录

k近邻法

latax使用

评论区 0

朴素贝叶斯法

目录

k近邻法

latax使用

评论区 0

微信分享二维码