算法

贝叶斯定理

Apr 5, 2026 • 4 min read

核心思想

不断根据新的证据，将先验概率调整为后验概率，使之更接近客观事实

P(AB)=P(A)×P(B∣A)=P(B)×P(A∣B)

很容易理解： AB同时发生，就是A发生的情况下， B也发生。或者B发生的情况下， A也发生。 两种理解分别对应P(AB)P(AB)P(AB)的两种表示。

举个例子

现在有两枚硬币，硬币A与硬币B，硬币A掷出去朝上概率为0.7，朝下为0.3。硬币B朝上概率为0.4，朝下为0.6。

现在你从中任选一枚硬币掷，已知，选中硬币A的概率为0.8，选中硬币B的概率为0.2。

现在，你掷出硬币，发现硬币正面朝上，这时要求判断：你选出的硬币是A还是B？

根据条件概率的定义，我们可以用P(A∣硬币正面朝上)，来表示基于目前已发生的硬币朝上的条件下，我们选硬币A的可能性。

同理，P(B∣硬币正面朝上)，来表示选择硬币B的可能性。而贝叶斯优化所要做的，就是判断两者的大小关系，选择其中更大的一个。

那么，根据条件概率公式，我们首先有：

P(A∣硬币正面朝上)×P(硬币正面朝上)=P(硬币正面朝上∣A)×P(A)

这里引出概念：

显然：

由于分母相同（事实上贝叶斯优化中都是如此），我们只需要比较分子的大小：

第一个等式的分子：P(硬币正面朝上∣A)×P(A)=0.7∗0.8=0.56;
第二个等式的分子：P(硬币正面朝上∣B)×P(B)=0.4∗0.2=0.08;
差距十分悬殊，毫无疑问，基于硬币朝上这一观测现象结果，选择A的概率是更大的。这个例子是小学初中的水平，但是这就是贝叶斯优化的实质：选择后验概率更大的那一个。
P(硬币正面朝上∣A) 被称为类条件概率。

在机器学习中，先验概率和类条件概率很容易由训练集得到。比如总共有10000枚硬币（10000个样本），其中8000枚是A硬币，2000枚是B硬币（标签）。那么我们认为先验概率就是 P(A)=0.8，P(B)=0.2。

就如同著名的西瓜分类例子之中：我们在众多的西瓜（样本）里，发现好瓜的条纹清晰的概率远远大于坏瓜，那显然，当我们又看到一个新的条理清晰的瓜时，我们有理由判定它大概率是好瓜。这就是贝叶斯分类的实质，也是我们生活中最符合常理的逻辑。