机器学习_概率论
概念
先验概率:
A的边缘概率表示为P(A),B的边缘概率表示为P(B)
联合概率:
表示两个事件共同发生的概率。A与B的联合概率表示为P(A∩B)或者P(A,B)。
条件概率(又称后验概率):
事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”,。
考虑一个问题:P(A|B)是在B发生的情况下A发生的可能性。
首先,事件B发生之前,我们对事件A的发生有一个基本的概率判断,称为A的先验概率,用P(A)表示;
其次,事件B发生之后,我们对事件A的发生概率重新评估,称为A的后验概率,用P(A|B)表示;
类似的,事件A发生之前,我们对事件B的发生有一个基本的概率判断,称为B的先验概率,用P(B)表示;
同样,事件A发生之后,我们对事件B的发生概率重新评估,称为B的后验概率,用P(B|A)表示。
贝叶斯公式
贝叶斯定理
$$ P(B_i|A) = \frac{P(B_i)P(A|B_i)}{\sum_{j=1}^n{P(B_j)}{P(A|B_j)}}$$
贝叶斯公式
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
因为联合概率$P(A,B)$
$$P(A,B)=P(A|B)*P(B)=P(B|A)*P(A)$$
假设B事件是由A1、A2事件导致的
$$P(B)=P(B|A1)P(A1)+P(B|A2)P(A2)$$
理解:
P(规律|现象)=P(现象|规律)P(规律)/P(现象)
案例1
假设有两个班级其中1班有男生30人,女生20人;2班有男生25人、女生25人。体育老师抓到一个抽烟的男生,该男生打死也不告诉体育老师是那个班的。问题来了体育老师怎么判断该男生来自那个班?
先将1班和2班标记为事件A1和事件A2,男生标记为事件B
那么我们所求的就是P(A1丨B)和P(A2丨B)
因为只有2个班那么我们先验概率P(A1)=P(A2)=50%;来自1班男生的概率P(B丨A1)=3/5:来自2班男生的概率P(B丨A2)=1/2
那么我们求出P(B)就可以代入公式得到结果:
P(B)=P(B丨A1)P(A1) P(B丨A2)P(A2)=0.55
P(A1丨B)=P(B丨A1)P(A1)/P(B)=0.6*0.5/0.55=55%
P(A2丨B)=P(B丨A2)P(A2)/P(B)=0.5*0.5/0.55=45%
由结果我们可以得出:该男生来自1班的概率从50%(先验概率)上升到55%(后验概率)
案例2
一种癌症,得了这个癌症的人被检测出为阳性的几率为90%,未得这种癌症的人被检测出阴性的几率为90%,而人群中得这种癌症的几率为1%,一个人被检测出阳性,问这个人得癌症的几率为多少?
我们用 A 表示事件 “测出为阳性”, 用 $B_1$ 表示“得癌症”, $B_2$ 表示“未得癌症”。
得到以下信息:
$P(A|B_1)=0.9$得癌症的人检测阳性 0.9
$P(A|B_2)=0.1$得癌症的人检测阴性 0.1
$P(B_1)=0.01$得癌症的概率 0.01
$P(B_2)=0.99$未得癌症的概率 0.99
计算:
人群中检测为阳性且得癌症的几率$P(B_1,A)$,联合概率
$$P(B_1,A)=P(B_1)*P(A|B_1)=0.01*0.9=0.009$$
检测阳性并且未得癌症概率$P(B_2,A)$,联合概率
$$P(B_2,A)=P(B_2)*P(A|B_2)=0.99*0.1=0.099$$
目前状态是已经检测除阳性,求患癌症概率$P(B_1|A)$
$P(B_1|A)=\frac{0.009}{0.099+0.009}=0.083$
未患癌症概率$P(B_2|A)$
$P(B_2|A)=\frac{0.099}{0.099+0.009}=0.917$