机器学习先验知识

全概率公式

全概率公式是概率论中的一个基本公式，它为在一些特定条件下计算事件的概率提供了一个框架。当一个随机实验的样本空间 $S$ 能被分割成若干个互斥且完备的事件 $B_{1}, B_{2}, \dots, B_{n}$ 时，全概率公式可以用来计算事件 $A$ 的概率。这些事件 $B_{i}$ 被称为完备事件组。

全概率公式可以写作：

P (A) = \sum_{i = 1}^{n} P (A | B_{i}) \cdot P (B_{i})

在这个公式中：

$P (A)$ 是我们想要求的事件 $A$ 的概率。
$B_{1}, B_{2}, \dots, B_{n}$ 是一组互不相容（互斥）的事件，并且它们的并集构成了整个样本空间 $S$ ，即 $B_{1} \cup B_{2} \cup \dots \cup B_{n} = S$ 。
$P (A | B_{i})$ 是在事件 $B_{i}$ 发生的条件下事件 $ A $ 的条件概率。
$P (B_{i})$ 是事件 $B_{i}$ 的概率。

通过全概率公式，我们可以将复杂事件 $A$ 的概率分解为在不同的 $B_{i}$ 条件下 $A$ 的条件概率和 $B_{i}$ 的概率的乘积，然后对所有的 $i$ 求和，从而得到 $A$ 的总概率。

先验概率和后验概率

先验概率和后验概率是贝叶斯统计中的两个核心概念，它们与贝叶斯定理密切相关。

先验概率 (Prior Probability, $P (H)$ ):
- 这是我们在观测到任何新数据或证据之前，关于一个假设 $H$ 的概率。
- 它反映了我们的先验知识或信念，这些知识或信念可能基于先前的经验、研究或专家意见。
- 例如，考虑一个疾病的发病率。在进行任何新的测试或观察之前，我们对一个随机选定的个体患有该疾病的概率就是先验概率。
后验概率 (Posterior Probability, $P (H | D)$ ):
- 这是在观测到新数据或证据 $D$ 后，我们对假设 $H$ 的更新概率。
- 它基于先验概率，并使用贝叶斯定理与新的数据进行结合来计算。
- 例如，考虑上述疾病的例子。如果一个个体接受了测试并得到了阳性结果，那么该个体实际患有该疾病的后验概率可能会增加，具体取决于测试的准确性和先验概率。

贝叶斯定理

贝叶斯定理为我们提供了一种从先验概率和观测到的数据计算后验概率的方法。公式如下：

P (H | D) = \frac{P (D | H) \times P (H)}{P (D)}

其中：

$P (H | D)$ 是后验概率。
$P (D | H)$ 是给定假设 $H$ 下观测到数据 $D$ 的概率，称为似然。
$P (H)$ 是先验概率。
$P (D)$ 是观测到数据 $D$ 的概率，也被称为边缘似然。
通过这种方式，贝叶斯定理为我们提供了一种在新的数据或证据出现时更新我们信念的机制。

马尔可夫链

马尔可夫链是随机过程的一种，其中系统的下一个状态只依赖于其当前状态，而不依赖于它之前的状态。这种属性称为“无记忆性”或“马尔可夫性质”。

更正式地说，对于所有时间点 $t$ 和所有状态 $i, j$ ，马尔可夫链满足以下条件：

P (X_{t + 1} = j | X_{0}, X_{1}, \dots, X_{t}) = P (X_{t + 1} = j | X_{t} = i)

这意味着，给定现在的状态，未来的状态与过去的状态是独立的。
马尔可夫链的几个关键概念包括：

状态空间：描述系统可能处于的所有状态的集合。
转移概率：从一个状态转移到另一个状态的概率。这些概率可以用转移矩阵表示，其中矩阵的第 $i$ 行和第 $j$ 列的元素表示从状态 $i$ 转移到状态 $j$ 的概率。
稳定分布：如果存在，这是一个马尔可夫链最终会收敛到的状态分布。在这个分布下，系统从一个状态转移到另一个状态的概率不会改变分布。
马尔可夫链在许多领域都有应用，包括统计物理、经济学和计算机科学。在机器学习和统计中，马尔可夫链特别用于马尔可夫链蒙特卡洛（MCMC）方法，这是一种用于从复杂概率分布中采样的技术，特别是当直接采样很困难时。

总的来说，马尔可夫链为研究随机过程提供了一个强大的框架，其核心特点是系统的未来状态仅取决于其当前状态。

信息论知识

信息熵