机器学习 - 需要了解的条件概率、高斯分布、似然函数

似然函数是连接数据与参数的桥梁，通过“数据反推参数”的逆向思维，成为统计推断的核心工具。理解它的关键在于区分“参数固定时数据的概率”与“数据固定时参数的合理性”，这种视角转换是掌握现代统计学和机器学习的基础。

一、在学习似然函数之前，我们需要弄懂什么是条件概率

概率是指在事件 B 已经发生的前提下，事件 A 发生的概率，记作 P(A|B)，读作“在 B 发生的条件下 A 发生的概率”。其定义为：

其中，P(A ∩ B)表示事件 A 和事件 B 同时发生的概率，P(B) 表示事件 B 发生的概率。需要注意的是，P(B)必须大于零，否则条件概率无法定义。

示例：

一个标准的52张扑克牌堆，问从中随机抽取一张牌，这张牌是红心的概率是多少？这是一个无条件概率问题，答案(红心) = 13/52 = 1/4。

现在，假设已知抽到的牌是一张（或方片），在此条件下，这张牌是红心的条件概率是多少？这是一个条件概率问题。

设事件 A 为“抽到红心”，事件 B 为“抽到红色牌”，则：

因此，条件概率 P(A|B) 为：

需要注意的是，条件概率 P(A|B) 与 P(B|A) 一般不相等。例如，在上述例子中，P(红心|红色牌) = 1/2，而 P(红色牌|红心) = 1，因为在抽到红心的情况下，必然是一张红色牌。

条件概率在统计学、概率论以及机器学习等领域有广泛的应用，特别是在贝叶斯定理中，条件概率是核心概念之一。

高斯分布（也称为正态分布）是统计学中最常见的连续概率分布之一。其概率密度函数呈对称的钟形曲线，描述了数据在均值附近的集中程度。高斯分然科学和社会科学中广泛应用，常用于表示未知的随机变量。

概率密度函数：

对于均值为 μ、标准差为 σ 的高斯分布，其概率密度函数为：

其中，μ 决定了分布的位置，σ 决定了分布的幅度。

标准正态分布： μ = 0、σ = 1 时，标准正态分布，其概率密度函数为：

性质：

在三维视图中，二维高斯分布的概率密度函数图像类似于一个倒置的碗，中心最高，向四周逐渐降低。其数学表达式为：：

应用：

高斯分布在统计学中具有重要地位，常用于描述自然和社会科学中的随机变量。例如，在测量误差分析中，假设误差服从高斯分布可以简化分析过程。

此外，根据中心极限定理，当对大量独立同分布的随机变量求和时，其和的分布趋近于高斯分布，这使得高斯分布在统计推断中尤为重要。

需要注意的是，虽然高斯分布在理论和应用中广泛存在，但并非所有数据都服从高斯分布。在进行数据分析时，应首先检验数据的分布特性，以选择适当的统计模型。

为了直观理解，我们来看一下高斯分布对应的图像：

高斯分布（也称为正态分布）的图像呈现为对称的钟形曲线，其形状由均值（μ）和标准差（σ）决定。均值 μ 确定曲线的中心位置，标准差 σ 控制曲线的宽度和高度。标准差越小，曲线越陡峭；标准差越大，曲线越平坦。

想象你在测量一群人的身高：

在概率论与统计学中，独立同分布（Independent and Identically Distributed，简称 i.i.d.）指一组随机变量彼此独立，且服从相同的概率分布。这意味着每个随机变量的取值不会影响其他变量的取值，并且它们具有相同的分布特性。

独立：随机变量之间互不影响，即一个变量的取值不依赖于其他变量的取值。

同分布：所有随机变量遵循相同的概率分布，具有相同的分布函数、期望值和方差等统计特性。

示例：

抛硬币实验：假设我们进行多次抛硬币实验，每次记录硬币正面朝上的结果。每次抛掷都是独立的（一次抛掷的结果不影响另一次），且每次抛掷的结果服从相同的分布（正面和反面的概率相同）。因此，这些抛掷结果构成一组独立同分布的随机变量。
掷骰子实验：假设我们多次掷骰子，每次记录掷出的点数。每次掷骰子都是独立的，且每次的结果服从相同的分布（每个点数出现的概率相同）。因此，这些掷骰子的结果也是独立同分布的随机变量。

独立同分布是许多统计推断和机器学习方法的基础假设。例如，在训练机器学习模型时，通常假设训练数据是从同一分布中独立采样的，以确保模型对新数据的有效性。

需要注意的是，独立同分布并不意味着每个事件发生的概率都相同，而是指随机变量之间相互独立，并且遵循相同的概率分布。