文件浏览器

022 《离散概率：原理、方法与应用 (Discrete Probability: Principles, Methods, and Applications)》

作者Lou Xiao, gemini创建时间2025-04-19 17:17:33更新时间2025-04-19 17:17:33

🌟🌟🌟本文案由Gemini 2.0 Flash Thinking Experimental 01-21创作，用来辅助学习知识。🌟🌟🌟

书籍大纲

▮▮▮▮ 1. chapter 1：概率论基础 (Foundations of Probability)
▮▮▮▮▮▮▮ 1.1 引言：概率的思想 (Introduction: The Idea of Probability)
▮▮▮▮▮▮▮ 1.2 样本空间与事件 (Sample Space and Events)
▮▮▮▮▮▮▮▮▮▮▮ 1.2.1 样本空间 (Sample Space)
▮▮▮▮▮▮▮▮▮▮▮ 1.2.2 事件 (Events)
▮▮▮▮▮▮▮▮▮▮▮ 1.2.3 事件的运算 (Operations on Events)
▮▮▮▮▮▮▮ 1.3 概率的公理化定义 (Axiomatic Definition of Probability)
▮▮▮▮▮▮▮▮▮▮▮ 1.3.1 概率公理 (Probability Axioms)
▮▮▮▮▮▮▮▮▮▮▮ 1.3.2 基本概率性质 (Basic Probability Properties)
▮▮▮▮▮▮▮ 1.4 集合论回顾 (Review of Set Theory)
▮▮▮▮▮▮▮ 1.5 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 2. chapter 2：计数方法 (Counting Techniques)
▮▮▮▮▮▮▮ 2.1 基本计数原理 (Basic Counting Principles)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.1 加法原理 (Addition Principle)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.2 乘法原理 (Multiplication Principle)
▮▮▮▮▮▮▮ 2.2 排列与组合 (Permutations and Combinations)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.1 排列 (Permutations)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.2 组合 (Combinations)
▮▮▮▮▮▮▮ 2.3 二项式系数 (Binomial Coefficients)
▮▮▮▮▮▮▮ 2.4 容斥原理 (Inclusion-Exclusion Principle)
▮▮▮▮▮▮▮ 2.5 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 3. chapter 3：条件概率与事件的独立性 (Conditional Probability and Independence of Events)
▮▮▮▮▮▮▮ 3.1 条件概率 (Conditional Probability)
▮▮▮▮▮▮▮ 3.2 全概率公式与贝叶斯定理 (Law of Total Probability and Bayes' Theorem)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.1 全概率公式 (Law of Total Probability)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.2 贝叶斯定理 (Bayes' Theorem)
▮▮▮▮▮▮▮ 3.3 事件的独立性 (Independence of Events)
▮▮▮▮▮▮▮ 3.4 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 4. chapter 4：离散随机变量与概率分布 (Discrete Random Variables and Probability Distributions)
▮▮▮▮▮▮▮ 4.1 随机变量的概念 (Concept of Random Variables)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.1 随机变量的定义 (Definition of Random Variables)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.2 离散随机变量 (Discrete Random Variables)
▮▮▮▮▮▮▮ 4.2 概率质量函数 (Probability Mass Function, PMF)
▮▮▮▮▮▮▮ 4.3 累积分布函数 (Cumulative Distribution Function, CDF)
▮▮▮▮▮▮▮ 4.4 期望 (Expectation)
▮▮▮▮▮▮▮▮▮▮▮ 4.4.1 离散随机变量的期望 (Expectation of Discrete Random Variables)
▮▮▮▮▮▮▮▮▮▮▮ 4.4.2 期望的性质 (Properties of Expectation)
▮▮▮▮▮▮▮ 4.5 方差与标准差 (Variance and Standard Deviation)
▮▮▮▮▮▮▮ 4.6 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 5. chapter 5：几种重要的离散分布 (Important Discrete Distributions - Part 1)
▮▮▮▮▮▮▮ 5.1 伯努利分布 (Bernoulli Distribution)
▮▮▮▮▮▮▮ 5.2 二项分布 (Binomial Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.1 二项分布的推导 (Derivation of Binomial Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.2 二项分布的性质与应用 (Properties and Applications of Binomial Distribution)
▮▮▮▮▮▮▮ 5.3 几何分布 (Geometric Distribution)
▮▮▮▮▮▮▮ 5.4 负二项分布 (Negative Binomial Distribution)
▮▮▮▮▮▮▮ 5.5 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 6. chapter 6：几种重要的离散分布 (Important Discrete Distributions - Part 2)
▮▮▮▮▮▮▮ 6.1 泊松分布 (Poisson Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.1 泊松分布的推导与意义 (Derivation and Significance of Poisson Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.2 泊松分布的应用 (Applications of Poisson Distribution)
▮▮▮▮▮▮▮ 6.2 超几何分布 (Hypergeometric Distribution)
▮▮▮▮▮▮▮ 6.3 离散均匀分布 (Discrete Uniform Distribution)
▮▮▮▮▮▮▮ 6.4 分布之间的关系 (Relationships Between Distributions)
▮▮▮▮▮▮▮ 6.5 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 7. chapter 7：多维离散分布 (Multivariate Discrete Distributions)
▮▮▮▮▮▮▮ 7.1 联合概率分布 (Joint Probability Distributions)
▮▮▮▮▮▮▮ 7.2 边缘概率分布 (Marginal Probability Distributions)
▮▮▮▮▮▮▮ 7.3 条件概率分布 (Conditional Probability Distributions)
▮▮▮▮▮▮▮ 7.4 随机变量的独立性 (Independence of Random Variables)
▮▮▮▮▮▮▮ 7.5 协方差与相关系数 (Covariance and Correlation Coefficient)
▮▮▮▮▮▮▮ 7.6 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 8. chapter 8：生成函数 (Generating Functions)
▮▮▮▮▮▮▮ 8.1 概率生成函数 (Probability Generating Functions, PGF)
▮▮▮▮▮▮▮▮▮▮▮ 8.1.1 概率生成函数的定义与性质 (Definition and Properties of PGF)
▮▮▮▮▮▮▮▮▮▮▮ 8.1.2 利用PGF求期望与方差 (Using PGF to Find Expectation and Variance)
▮▮▮▮▮▮▮ 8.2 矩生成函数 (Moment Generating Functions, MGF)
▮▮▮▮▮▮▮ 8.3 卷积与生成函数 (Convolution and Generating Functions)
▮▮▮▮▮▮▮ 8.4 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 9. chapter 9：极限定理与近似 (Limit Theorems and Approximations)
▮▮▮▮▮▮▮ 9.1 大数定律 (Law of Large Numbers)
▮▮▮▮▮▮▮ 9.2 中心极限定理 (Central Limit Theorem) (离散情况讨论)
▮▮▮▮▮▮▮ 9.3 泊松逼近二项分布 (Poisson Approximation to Binomial Distribution)
▮▮▮▮▮▮▮ 9.4 其他近似方法 (Other Approximation Methods)
▮▮▮▮▮▮▮ 9.5 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 10. chapter 10：离散概率的应用 (Applications of Discrete Probability)
▮▮▮▮▮▮▮ 10.1 计算机科学中的应用 (Applications in Computer Science)
▮▮▮▮▮▮▮▮▮▮▮ 10.1.1 随机算法 (Randomized Algorithms)
▮▮▮▮▮▮▮▮▮▮▮ 10.1.2 数据结构与算法分析 (Data Structures and Algorithm Analysis)
▮▮▮▮▮▮▮ 10.2 排队论简介 (Introduction to Queuing Theory)
▮▮▮▮▮▮▮ 10.3 可靠性分析 (Reliability Analysis)
▮▮▮▮▮▮▮ 10.4 生物信息学应用 (Applications in Bioinformatics)
▮▮▮▮▮▮▮ 10.5 其他领域应用 (Applications in Other Fields)
▮▮▮▮▮▮▮ 10.6 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮ 11. chapter 11：马尔可夫链初步 (Introduction to Markov Chains)
▮▮▮▮▮▮▮ 11.1 马尔可夫链的基本概念 (Basic Concepts of Markov Chains)
▮▮▮▮▮▮▮▮▮▮▮ 11.1.1 马尔可夫性质 (Markov Property)
▮▮▮▮▮▮▮▮▮▮▮ 11.1.2 状态空间与转移概率 (State Space and Transition Probabilities)
▮▮▮▮▮▮▮ 11.2 转移概率矩阵 (Transition Probability Matrix)
▮▮▮▮▮▮▮ 11.3 平稳分布 (Stationary Distributions)
▮▮▮▮▮▮▮ 11.4 马尔可夫链的应用 (Applications of Markov Chains)
▮▮▮▮▮▮▮ 11.5 本章小结与习题 (Chapter Summary and Exercises)
▮▮▮▮▮▮▮ A.1 集合论基础 (Basic Set Theory)
▮▮▮▮▮▮▮ A.2 微积分基础 (Basic Calculus) (针对需要的情况进行回顾)

1. chapter 1：概率论基础 (Foundations of Probability)

1.1 引言：概率的思想 (Introduction: The Idea of Probability)

概率论是一门研究随机现象规律的数学学科。在日常生活中，我们常常会遇到各种各样的不确定性，例如，抛掷硬币的结果是正面还是反面？明天的天气是晴朗还是下雨？股票价格是上涨还是下跌？这些现象的结果事先无法准确预知，但当我们重复进行大量试验或观察时，会发现它们呈现出一定的规律性。概率论正是研究和揭示这种规律性的有力工具。

概率的思想起源于对机会和偶然性的思考。早在古代，人们就对掷骰子、抽签等赌博活动中的机会现象产生了兴趣。然而，概率论作为一门严谨的数学学科，其发展历程相对较短。17世纪，由于赌博问题的盛行，一些数学家开始系统地研究概率问题。帕斯卡 (Pascal) 和费马 (Fermat) 通过研究分赌注问题，奠定了古典概率论的基础。随后，伯努利 (Bernoulli)、拉普拉斯 (Laplace) 等数学家进一步发展了概率论，使其在科学和工程领域得到了广泛应用。

概率的解释和定义随着概率论的发展而不断深化。主要有以下几种对概率的理解：

① 古典概率 (Classical Probability)：这种定义基于等可能性假设。如果一个随机试验的所有可能结果是有限的，并且每个结果发生的可能性相同，那么事件 $A$ 的概率定义为：
\[ P(A) = \frac{事件 A 包含的结果数}{样本空间的总结果数} \]
例如，抛掷一枚均匀的硬币，出现正面的概率为 $1/2$，因为总共有两个等可能的结果（正面和反面），而正面只占其中一个。古典概率的优点是直观易懂，计算简便，但其局限性在于它要求所有基本结果是等可能的，这在实际问题中往往难以满足。

② 频率概率 (Frequentist Probability)：频率概率基于大量重复试验的统计结果。如果一个随机试验重复进行 $n$ 次，事件 $A$ 发生了 $n_A$ 次，那么事件 $A$ 的概率定义为当试验次数 $n$ 趋于无穷大时，事件 $A$ 发生的频率的极限：
\[ P(A) = \lim_{n \to \infty} \frac{n_A}{n} \]
例如，为了估计抛掷一枚硬币出现正面的概率，我们可以重复抛掷硬币很多次，然后用正面出现的频率来近似概率。频率概率的优点是具有客观性，可以通过实验来估计概率，适用于可以重复进行的随机试验。然而，频率概率的局限性在于它依赖于大量的重复试验，对于不能重复或难以重复的试验，频率概率就难以应用。此外，极限的概念在实际应用中也存在一定的抽象性。

③ 主观概率 (Subjective Probability)：主观概率，也称为贝叶斯概率，它将概率视为个人对事件发生可能性的 বিশ্বাস程度。这种概率可以基于个人的经验、知识和信仰。例如，专家预测某公司未来一年盈利的概率为 0.8，这反映了专家基于其专业知识和经验对该公司盈利前景的信心程度。主观概率的优点是可以应用于各种类型的事件，包括那些不能重复或难以重复的事件，并且能够融合个人的先验信息。然而，主观概率的缺点是具有一定的主观性，不同的人可能会对同一事件给出不同的主观概率。

在现代概率论中，最常用的是公理化概率 (Axiomatic Probability) 的定义。由柯尔莫戈洛夫 (Kolmogorov) 提出的公理化概率，它建立在集合论的基础上，用数学公理严格定义了概率的概念，从而将概率论发展成为一门严谨的数学学科。公理化概率不依赖于等可能性假设或重复试验，具有更广泛的适用性，是现代概率论的理论基础。本书将主要采用公理化概率的框架来讨论离散概率。

概率论的应用非常广泛，几乎渗透到自然科学、社会科学、工程技术、经济金融等各个领域。例如：

⚝ 计算机科学：随机算法、密码学、网络通信、机器学习等都离不开概率论。
⚝ 统计学：概率论是统计学的理论基础，统计推断、假设检验、回归分析等都建立在概率论的基础上。
⚝ 物理学：统计物理、量子力学等领域广泛应用概率论来描述微观粒子的行为和宏观系统的性质。
⚝ 金融学：金融衍生品定价、风险管理、投资组合优化等都依赖于概率模型。
⚝ 生物学：遗传学、流行病学、生物信息学等领域应用概率论来研究生物现象和疾病传播规律。
⚝ 工程学：通信工程、控制工程、可靠性工程等领域应用概率论来分析系统性能和设计优化方案。

本章作为概率论的入门章节，将介绍概率论的基本概念和公理体系，为后续章节的学习打下坚实的基础。我们将从样本空间和事件的概念入手，逐步引入概率的公理化定义和基本性质，并回顾必要的集合论知识。通过本章的学习，读者将对概率论的基本思想和框架有一个初步的了解。

1.2 样本空间与事件 (Sample Space and Events)

在概率论中，我们研究的是随机试验的结果。为了精确地描述随机试验，我们需要引入样本空间和事件的概念。

1.2.1 样本空间 (Sample Space)

定义 1.2.1 (样本空间)：随机试验 $E$ 的所有可能结果构成的集合称为 $E$ 的样本空间 (sample space)，记为 $S$。样本空间中的每个元素称为样本点 (sample point) 或基本事件 (elementary event)，通常用 $ω$ (omega) 表示。

样本空间是随机试验所有可能结果的全体，它为我们描述和分析随机试验提供了一个框架。理解样本空间的关键在于明确随机试验的所有可能结果是什么。

例 1.2.1 (抛硬币)：抛掷一枚硬币一次，观察正面 (H) 或反面 (T) 出现的情况。样本空间可以表示为：
\[ S = \{H, T\} \]
其中，$H$ 和 $T$ 都是样本点。

例 1.2.2 (掷骰子)：掷一个骰子一次，观察出现的点数。样本空间可以表示为：
\[ S = \{1, 2, 3, 4, 5, 6\} \]
其中，$1, 2, 3, 4, 5, 6$ 都是样本点。

例 1.2.3 (连续抛硬币)：连续抛掷一枚硬币两次，观察每次出现正面 (H) 或反面 (T) 的情况。样本空间可以表示为：
\[ S = \{(H, H), (H, T), (T, H), (T, T)\} \]
其中，$(H, H)$ 表示两次都出现正面，$(H, T)$ 表示第一次出现正面，第二次出现反面，以此类推。每个有序对都是一个样本点。

例 1.2.4 (产品寿命)：考察一个电子元件的寿命（单位：小时）。样本空间可以是：
\[ S = \{t \mid t \ge 0\} = [0, \infty) \]
这是一个连续的样本空间，包含了所有可能的非负实数寿命值。

例 1.2.5 (灯泡寿命)：考察一批灯泡中次品的个数。如果这批灯泡共有 $N$ 个，那么次品个数的样本空间可以是：
\[ S = \{0, 1, 2, \ldots, N\} \]
这是一个离散的样本空间，包含了从 0 到 $N$ 的所有整数。

根据样本空间中包含的样本点个数，我们可以将样本空间分为离散样本空间 (discrete sample space) 和连续样本空间 (continuous sample space)。如果样本空间包含有限个或可列无穷多个样本点，则称其为离散样本空间；如果样本空间包含不可列无穷多个样本点，则称其为连续样本空间。本书主要讨论离散概率，因此我们主要关注离散样本空间。

1.2.2 事件 (Events)

在随机试验中，我们不仅对单个结果感兴趣，更常常关注某些结果的集合是否发生。例如，在掷骰子的试验中，我们可能关心“出现的点数是偶数”这一事件，而不是仅仅关心“出现点数 2” 这样的基本事件。

定义 1.2.2 (事件)：样本空间 $S$ 的子集称为事件 (event)。当试验结果 $ω$ 属于事件 $A$ 时，称事件 $A$ 发生。

事件是样本空间 $S$ 的子集，它可以包含一个样本点，多个样本点，甚至不包含任何样本点（空集），或者包含所有样本点（样本空间本身）。

例 1.2.5 (掷骰子事件)：在掷骰子的试验中，样本空间为 $S = \{1, 2, 3, 4, 5, 6\}$。
⚝ 事件 $A$ = “出现的点数是偶数” 可以表示为集合 $A = \{2, 4, 6\}$。
⚝ 事件 $B$ = “出现的点数大于 4” 可以表示为集合 $B = \{5, 6\}$。
⚝ 事件 $C$ = “出现的点数是 7” 可以表示为集合 $C = \emptyset$ (空集)，这是一个不可能事件 (impossible event)。
⚝ 事件 $D$ = “出现的点数小于等于 6” 可以表示为集合 $D = \{1, 2, 3, 4, 5, 6\} = S$，这是一个必然事件 (sure event)。
⚝ 事件 $E_1$ = “出现的点数是 1” 可以表示为集合 $E_1 = \{1\}$，这是一个基本事件 (elementary event)。

基本事件是由样本空间中的单个样本点构成的事件。在离散样本空间中，任何事件都可以表示为基本事件的并集。

1.2.3 事件的运算 (Operations on Events)

由于事件是样本空间的子集，我们可以利用集合论中的运算来研究事件之间的关系和运算。常用的事件运算包括：

① 并 (Union)：设 $A$ 和 $B$ 是两个事件，事件 $A$ 并 $B$ (或称 $A$ 或 $B$) 记为 $A \cup B$，表示事件 $A$ 和事件 $B$ 至少有一个发生。
\[ A \cup B = \{ω \mid ω \in A \text{ 或 } ω \in B\} \]
例 1.2.6 (掷骰子事件的并)：设 $A = \{2, 4, 6\}$ (偶数点)，$B = \{5, 6\}$ (点数大于 4)。则 $A \cup B = \{2, 4, 5, 6\}$，表示“出现的点数是偶数或大于 4”。

② 交 (Intersection)：设 $A$ 和 $B$ 是两个事件，事件 $A$ 交 $B$ (或称 $A$ 且 $B$) 记为 $A \cap B$ (或 $AB$)，表示事件 $A$ 和事件 $B$ 同时发生。
\[ A \cap B = \{ω \mid ω \in A \text{ 且 } ω \in B\} \]
例 1.2.7 (掷骰子事件的交)：设 $A = \{2, 4, 6\}$ (偶数点)，$B = \{5, 6\}$ (点数大于 4)。则 $A \cap B = \{6\}$，表示“出现的点数是偶数且大于 4”，即“出现的点数是 6”。

如果 $A \cap B = \emptyset$，则称事件 $A$ 和事件 $B$ 是互斥的 (mutually exclusive) 或不相容的 (disjoint)，表示事件 $A$ 和事件 $B$ 不可能同时发生。

③ 差 (Difference)：设 $A$ 和 $B$ 是两个事件，事件 $A$ 减 $B$ (或称 $A$ 差 $B$) 记为 $A \setminus B$ (或 $A - B$)，表示事件 $A$ 发生但事件 $B$ 不发生。
\[ A \setminus B = \{ω \mid ω \in A \text{ 且 } ω \notin B\} = A \cap B^c \]
其中，$B^c$ 是事件 $B$ 的补集 (complement)。

④ 补 (Complement)：设 $A$ 是一个事件，事件 $A$ 的补集 (或称 对立事件 (opposite event)) 记为 $A^c$ (或 $\bar{A}$ 或 $A'$)，表示事件 $A$ 不发生。
\[ A^c = \{ω \mid ω \in S \text{ 且 } ω \notin A\} = S \setminus A \]
例 1.2.8 (掷骰子事件的补)：设 $A = \{2, 4, 6\}$ (偶数点)。则 $A^c = \{1, 3, 5\}$，表示“出现的点数不是偶数”，即“出现的点数是奇数”。

事件的运算满足集合运算的规律，例如：
⚝ 交换律 (Commutative Laws)： $A \cup B = B \cup A$，$A \cap B = B \cap A$
⚝ 结合律 (Associative Laws)： $(A \cup B) \cup C = A \cup (B \cup C)$，$(A \cap B) \cap C = A \cap (B \cap C)$
⚝ 分配律 (Distributive Laws)： $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$，$A \cap (B \cup C) = (A \cap B) \cup (A \cap C)$
⚝ 德摩根律 (De Morgan's Laws)： $(A \cup B)^c = A^c \cap B^c$，$(A \cap B)^c = A^c \cup B^c$

理解事件的运算对于分析复杂事件的概率至关重要。通过事件的运算，我们可以将复杂事件分解为更简单的事件，从而更容易计算其概率。

1.3 概率的公理化定义 (Axiomatic Definition of Probability)

为了严格地定义概率，我们需要建立一套公理体系。柯尔莫戈洛夫 (Kolmogorov) 提出的公理化定义为现代概率论奠定了基础。公理化定义从数学的角度抽象地刻画了概率的本质属性，使得概率论成为一门严谨的数学学科。

1.3.1 概率公理 (Probability Axioms)

定义 1.3.1 (概率的公理化定义)：设 $S$ 是样本空间，$\mathcal{F}$ 是 $S$ 的一些子集构成的集合，称为事件域 (field of events) 或 $\sigma$-代数 ($\sigma$-algebra)。概率 $P$ 是定义在事件域 $\mathcal{F}$ 上的一个实值函数，满足以下概率公理 (probability axioms)：

① 非负性 (Non-negativity)：对于任意事件 $A \in \mathcal{F}$，有 $P(A) \ge 0$。
② 规范性 (Normalization)：对于样本空间 $S$，有 $P(S) = 1$。
③ 可加性 (Additivity)：若 $A_1, A_2, \ldots$ 是一列互斥事件 (即对于任意 $i \ne j$，$A_i \cap A_j = \emptyset$)，则有
\[ P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) \]
对于离散概率，我们通常只需要考虑有限可加性 (finite additivity)，即若 $A_1, A_2, \ldots, A_n$ 是一列互斥事件，则有
\[ P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i=1}^{n} P(A_i) \]

这三条公理是概率论的基石。公理①保证了概率值是非负的，符合我们对概率的直观理解；公理②规定必然事件的概率为 1，表示必然事件一定会发生；公理③描述了互斥事件的概率关系，表明互斥事件的并的概率等于各事件概率之和。

在离散样本空间中，事件域 $\mathcal{F}$ 通常取为 $S$ 的所有子集构成的集合，即幂集 $2^S$。对于有限样本空间，我们可以直接定义每个基本事件的概率，然后利用可加性计算任意事件的概率。

1.3.2 基本概率性质 (Basic Probability Properties)

从概率公理出发，我们可以推导出一些基本的概率性质，这些性质在概率计算中非常有用。

性质 1.3.1 (空集的概率)：空事件 $\emptyset$ 的概率为 0，即 $P(\emptyset) = 0$。
证明：因为 $S \cup \emptyset = S$ 且 $S \cap \emptyset = \emptyset$，所以 $S$ 和 $\emptyset$ 是互斥事件。根据可加性公理，有 $P(S \cup \emptyset) = P(S) + P(\emptyset)$。又因为 $S \cup \emptyset = S$，所以 $P(S) = P(S) + P(\emptyset)$。根据规范性公理 $P(S) = 1$，因此 $1 = 1 + P(\emptyset)$，从而 $P(\emptyset) = 0$。

性质 1.3.2 (有限可加性)：若 $A_1, A_2, \ldots, A_n$ 是一列互斥事件，则
\[ P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i=1}^{n} P(A_i) \]
证明：可以将无限可加性公理中的 $A_{n+1}, A_{n+2}, \ldots$ 都取为空集 $\emptyset$。由于 $P(\emptyset) = 0$，无限可加性退化为有限可加性。

性质 1.3.3 (概率的有界性)：对于任意事件 $A$，有 $0 \le P(A) \le 1$。
证明：由非负性公理，$P(A) \ge 0$。又因为 $A \subseteq S$，所以 $A$ 和 $A^c$ 是互斥事件，且 $A \cup A^c = S$。根据可加性和规范性公理，$P(A \cup A^c) = P(A) + P(A^c) = P(S) = 1$。由于 $P(A^c) \ge 0$，所以 $P(A) = 1 - P(A^c) \le 1$。因此，$0 \le P(A) \le 1$。

性质 1.3.4 (补事件的概率)：对于任意事件 $A$，其补事件 $A^c$ 的概率为 $P(A^c) = 1 - P(A)$。
证明：由性质 1.3.3 的证明过程可知，$P(A) + P(A^c) = 1$，移项即得 $P(A^c) = 1 - P(A)$。

性质 1.3.5 (容斥原理 - 两个事件)：对于任意两个事件 $A$ 和 $B$，有
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]
证明：可以将 $A \cup B$ 分解为三个互斥事件的并：$A \cup B = A \cup (B \setminus A) = A \cup (B \cap A^c)$。又可以将 $B$ 分解为两个互斥事件的并：$B = (B \cap A) \cup (B \cap A^c)$。根据有限可加性，
\[ P(A \cup B) = P(A) + P(B \setminus A) = P(A) + P(B \cap A^c) \]
\[ P(B) = P(B \cap A) + P(B \cap A^c) \]
所以 $P(B \cap A^c) = P(B) - P(B \cap A)$。代入第一个等式，得到
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

性质 1.3.6 (单调性)：若 $A \subseteq B$，则 $P(A) \le P(B)$。
证明：若 $A \subseteq B$，则 $B$ 可以分解为互斥事件的并：$B = A \cup (B \setminus A)$。根据可加性，$P(B) = P(A) + P(B \setminus A)$。由于 $P(B \setminus A) \ge 0$ (非负性)，所以 $P(B) \ge P(A)$，即 $P(A) \le P(B)$。

这些基本性质是概率计算的重要工具，它们可以直接从概率公理推导出来，体现了公理化定义的严谨性和逻辑性。

1.4 集合论回顾 (Review of Set Theory)

由于事件是样本空间的子集，概率论的基础与集合论紧密相关。本节简要回顾一些集合论的基本概念和运算，以便更好地理解概率论的内容。

① 集合 (Set)：集合是由一些确定的、彼此不同的对象汇集而成的整体。集合中的对象称为元素 (element)。常用大写字母 $A, B, C, \ldots$ 表示集合，小写字母 $a, b, c, \ldots$ 表示元素。

② 元素与集合的关系：
⚝ 若 $a$ 是集合 $A$ 的元素，记作 $a \in A$。
⚝ 若 $a$ 不是集合 $A$ 的元素，记作 $a \notin A$。

③ 集合的表示方法：
⚝ 列举法：将集合的所有元素一一列举出来，用花括号括起来。例如，$A = \{1, 2, 3\}$。
⚝ 描述法：用描述元素特征的谓词来表示集合。例如，$B = \{x \mid x \text{ 是小于 10 的正偶数}\}$。

④ 常用数集：
⚝ 自然数集 (Natural numbers)： $\mathbb{N} = \{1, 2, 3, \ldots\}$ (有时包含 0，记为 $\mathbb{N}_0 = \{0, 1, 2, 3, \ldots\}$)
⚝ 整数集 (Integers)： $\mathbb{Z} = \{\ldots, -2, -1, 0, 1, 2, \ldots\}$
⚝ 有理数集 (Rational numbers)： $\mathbb{Q} = \{p/q \mid p, q \in \mathbb{Z}, q \ne 0\}$
⚝ 实数集 (Real numbers)： $\mathbb{R}$

⑤ 集合之间的关系：
⚝ 子集 (Subset)：若集合 $A$ 的所有元素都是集合 $B$ 的元素，则称 $A$ 是 $B$ 的子集，记作 $A \subseteq B$ (或 $B \supseteq A$)。若 $A \subseteq B$ 且 $A \ne B$，则称 $A$ 是 $B$ 的真子集 (proper subset)，记作 $A \subset B$ (或 $B \supset A$)。
⚝ 相等 (Equality)：若 $A \subseteq B$ 且 $B \subseteq A$，则称集合 $A$ 和 $B$ 相等，记作 $A = B$。
⚝ 空集 (Empty set)：不包含任何元素的集合称为空集，记作 $\emptyset$。空集是任何集合的子集，即 $\emptyset \subseteq A$ 对任何集合 $A$ 都成立。

⑥ 集合的运算：
⚝ 并集 (Union)： $A \cup B = \{x \mid x \in A \text{ 或 } x \in B\}$
⚝ 交集 (Intersection)： $A \cap B = \{x \mid x \in A \text{ 且 } x \in B\}$
⚝ 差集 (Difference)： $A \setminus B = \{x \mid x \in A \text{ 且 } x \notin B\}$
⚝ 补集 (Complement)：在给定的全集 $S$ 下，$A^c = S \setminus A = \{x \mid x \in S \text{ 且 } x \notin A\}$

⑦ 集合运算的定律：
⚝ 交换律： $A \cup B = B \cup A$，$A \cap B = B \cap A$
⚝ 结合律： $(A \cup B) \cup C = A \cup (B \cup C)$，$(A \cap B) \cap C = A \cap (B \cap C)$
⚝ 分配律： $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$，$A \cap (B \cup C) = (A \cap B) \cup (A \cap C)$
⚝ 德摩根律： $(A \cup B)^c = A^c \cap B^c$，$(A \cap B)^c = A^c \cup B^c$

⑧ 韦恩图 (Venn Diagram)：韦恩图是一种用图形表示集合及其运算的工具，通常用矩形表示全集 $S$，用圆或椭圆表示集合，通过图形的重叠关系来表示集合之间的运算和关系，直观易懂。

掌握这些基本的集合论知识，有助于我们更好地理解和应用概率论的概念和方法。在后续章节中，我们将频繁使用集合论的语言和工具来描述和分析概率问题。

1.5 本章小结与习题 (Chapter Summary and Exercises)

本章小结

本章作为概率论的入门章节，主要介绍了概率论的基本概念和公理体系。

⚝ 首先，我们探讨了概率的思想，了解了概率的不同解释，包括古典概率、频率概率和主观概率，并重点介绍了现代概率论采用的公理化定义。
⚝ 接着，我们学习了样本空间与事件的概念，样本空间是随机试验所有可能结果的集合，事件是样本空间的子集。我们还介绍了事件的运算，包括并、交、补等，以及互斥事件的概念。
⚝ 然后，我们深入学习了概率的公理化定义，掌握了概率的三个公理：非负性、规范性和可加性，并从公理出发推导了一系列基本概率性质，如空集的概率、有限可加性、概率的有界性、补事件的概率以及容斥原理等。
⚝ 最后，我们回顾了必要的集合论知识，包括集合的基本概念、关系和运算，为后续章节的学习打下了基础。

通过本章的学习，我们对概率论的基本框架和核心概念有了初步的认识，为进一步学习离散概率的理论和应用做好了准备。

习题 1.5

写出下列随机试验的样本空间：
▮▮▮▮ⓐ 抛掷一枚骰子，观察出现的点数。
▮▮▮▮ⓑ 从一副扑克牌 (52 张) 中随机抽取一张牌，观察其花色和点数。
▮▮▮▮ⓒ 记录某城市一天内发生的交通事故次数。
▮▮▮▮ⓓ 测量某电子元件的寿命，精确到小时。
设样本空间 $S = \{a, b, c, d, e\}$，事件 $A = \{a, b, c\}$，$B = \{b, d\}$，$C = \{c, e\}$。求：
▮▮▮▮ⓐ $A \cup B$
▮▮▮▮ⓑ $A \cap C$
▮▮▮▮ⓒ $B^c$
▮▮▮▮ⓓ $A \setminus B$
▮▮▮▮ⓔ $A \cup B \cup C$
▮▮▮▮ⓕ $A \cap B \cap C$
▮▮▮▮ⓖ $(A \cup B)^c$
▮▮▮▮ⓗ $A^c \cap B^c$
验证德摩根律：$(A \cup B)^c = A^c \cap B^c$ 和 $(A \cap B)^c = A^c \cup B^c$。
已知 $P(A) = 0.6$，$P(B) = 0.5$，$P(A \cap B) = 0.3$。求：
▮▮▮▮ⓐ $P(A \cup B)$
▮▮▮▮ⓑ $P(A^c)$
▮▮▮▮ⓒ $P(B^c)$
▮▮▮▮ⓓ $P(A^c \cap B^c)$
▮▮▮▮ⓔ $P(A^c \cup B^c)$
▮▮▮▮ⓕ $P(A \setminus B)$
▮▮▮▮ⓖ $P(B \setminus A)$
证明：若 $A \subseteq B$，则 $P(B \setminus A) = P(B) - P(A)$。
证明：对于任意三个事件 $A, B, C$，有
\[ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) \]
(提示：可以先考虑 $D = B \cup C$，然后利用 $P(A \cup D) = P(A) + P(D) - P(A \cap D)$ 和容斥原理。)
解释古典概率的局限性，并举例说明。
比较频率概率和主观概率的优缺点，并分别举例说明其应用场景。
思考题：概率的公理化定义是否完全符合我们对概率的直观理解？如果不是，请举例说明。

参考文献

⚝ Sheldon Ross. A First Course in Probability. Pearson, 10th Edition, 2018.
⚝ Dimitri P. Bertsekas and John N. Tsitsiklis. Introduction to Probability. Athena Scientific, 2nd Edition, 2008.
⚝ William Feller. An Introduction to Probability Theory and Its Applications, Vol. 1. Wiley, 3rd Edition, 1968.
⚝ Kai Lai Chung. A Course in Probability Theory. Academic Press, 3rd Edition, 2001.
⚝ Jay L. Devore. Probability and Statistics for Engineering and the Sciences. Cengage Learning, 9th Edition, 2016.

2. chapter 2：计数方法 (Counting Techniques)

2.1 基本计数原理 (Basic Counting Principles)

2.1.1 加法原理 (Addition Principle)

加法原理 (Addition Principle)，也称为求和法则，是计数方法中最基本的原理之一。它用于处理互斥事件的计数问题。简单来说，如果完成一项任务有若干种方法，且这些方法之间是互斥的（即选择了一种方法就不能同时选择另一种方法），那么完成这项任务的方法总数就是每种方法的方法数之和。

定义 2.1.1 (加法原理)：
假设完成任务 $T$ 有 $n$ 种互斥的方法，其中第一种方法有 $N_1$ 种不同的方式，第二种方法有 $N_2$ 种不同的方式，...，第 $n$ 种方法有 $N_n$ 种不同的方式。那么，完成任务 $T$ 的总方式数为：
\[ N = N_1 + N_2 + \cdots + N_n = \sum_{i=1}^{n} N_i \]

关键词:
⚝ 互斥事件 (Mutually Exclusive Events): 两个或多个事件不可能同时发生。如果事件 $A$ 和事件 $B$ 是互斥的，则 $A \cap B = \emptyset$，即它们的交集为空集。

示例 2.1.1 (选择交通工具)：
假设小明从家到公司可以选择的交通工具有：
① 乘坐公交车，有 3 条不同的公交线路可以到达。
② 乘坐地铁，有 2 条不同的地铁线路可以到达。
③ 骑自行车，只有 1 条路线可以到达。

由于乘坐公交车、地铁和自行车是互斥的方法（小明不可能同时乘坐公交车和地铁），根据加法原理，小明从家到公司共有 $3 + 2 + 1 = 6$ 种不同的交通方式。

示例 2.1.2 (选择课程)：
某大学提供以下课程供学生选修：
① 数学类课程：3 门 (离散数学、高等代数、数学分析)。
② 计算机类课程：4 门 (数据结构、算法设计、计算机网络、操作系统)。
③ 物理类课程：2 门 (普通物理、热力学)。

如果一位学生需要从这三类课程中选择一门课程进行选修，那么他有多少种选择？

根据加法原理，学生可以选择数学类课程、计算机类课程或物理类课程，这些选择是互斥的。因此，总的选择数为 $3 + 4 + 2 = 9$ 种。

总结:
加法原理的核心在于识别任务完成的不同方法是否是互斥的。如果是互斥的，则可以直接将每种方法的方式数相加得到总的方式数。

2.1.2 乘法原理 (Multiplication Principle)

乘法原理 (Multiplication Principle)，也称为乘法法则或分步计数原理，是另一种基本的计数原理。它用于处理分步完成的任务的计数问题。如果完成一项任务需要分成若干个步骤，且每个步骤的完成方式数是确定的，那么完成这项任务的总方式数就是每个步骤完成方式数的乘积。

定义 2.1.2 (乘法原理)：
假设完成任务 $T$ 需要分成 $k$ 个步骤，其中完成第一个步骤有 $N_1$ 种不同的方式，完成第二个步骤有 $N_2$ 种不同的方式，...，完成第 $k$ 个步骤有 $N_k$ 种不同的方式。那么，完成任务 $T$ 的总方式数为：
\[ N = N_1 \times N_2 \times \cdots \times N_k = \prod_{i=1}^{k} N_i \]

关键词:
⚝ 步骤 (Steps): 完成一个任务所需要经历的各个阶段。这些步骤通常是顺序执行的，一个步骤的完成是下一个步骤开始的前提。
⚝ 相互独立 (Independent): 每个步骤的选择方式与其他步骤的选择方式无关。

示例 2.1.3 (搭配服装)：
小红有 3 件不同的上衣和 2 条不同的裤子。她有多少种不同的服装搭配方案？

完成服装搭配需要两个步骤：
① 选择上衣：有 3 种选择。
② 选择裤子：有 2 种选择。

根据乘法原理，小红共有 $3 \times 2 = 6$ 种不同的服装搭配方案。

示例 2.1.4 (安排行程)：
小明计划从北京出发，先到上海，再从上海到广州。
① 从北京到上海，他可以选择乘坐飞机 (5 个航班) 或高铁 (3 趟列车)。
② 从上海到广州，他可以选择乘坐飞机 (4 个航班) 或高铁 (2 趟列车)。

小明有多少种不同的行程安排方案？

完成行程安排需要两个步骤：
① 从北京到上海：有 $5 + 3 = 8$ 种选择 (根据加法原理)。
② 从上海到广州：有 $4 + 2 = 6$ 种选择 (根据加法原理)。

根据乘法原理，小明共有 $8 \times 6 = 48$ 种不同的行程安排方案。

示例 2.1.5 (创建密码)：
创建一个 4 位密码，每位可以是数字 (0-9) 或小写字母 (a-z)。密码的总数是多少？

创建密码需要 4 个步骤，每一步选择一位密码字符：
① 第 1 位：有 $10 + 26 = 36$ 种选择 (数字或字母)。
② 第 2 位：有 $10 + 26 = 36$ 种选择。
③ 第 3 位：有 $10 + 26 = 36$ 种选择。
④ 第 4 位：有 $10 + 26 = 36$ 种选择。

根据乘法原理，总密码数为 $36 \times 36 \times 36 \times 36 = 36^4 = 1,679,616$ 种。

总结:
乘法原理的核心在于将任务分解为若干个步骤，并确定每个步骤的完成方式数。然后将每个步骤的方式数相乘得到总的方式数。使用乘法原理时，需要确保每个步骤的选择是相互独立的，或者说，前一个步骤的选择不影响后一个步骤的选择范围。

2.2 排列与组合 (Permutations and Combinations)

排列 (Permutations) 与组合 (Combinations) 是计数方法中两个非常重要的概念，它们都涉及到从一个集合中选取元素的方式，但关键区别在于是否考虑元素的顺序。

2.2.1 排列 (Permutations)

排列 (Permutations) 是指从 $n$ 个不同元素中取出 $m$ ($m \leq n$) 个元素，按照一定的顺序排成一列的方法数。排列强调顺序，即元素的排列顺序不同，被认为是不同的排列。

定义 2.2.1 (排列)：
从 $n$ 个不同元素中取出 $m$ ($m \leq n$) 个元素进行排列，称为从 $n$ 中取 $m$ 的排列，其排列数记为 $P(n, m)$ 或 $A(n, m)$ 或 $ {}_nP_m $。

排列数的计算公式:
推导排列数的计算公式可以使用乘法原理。
⚝ 选择第 1 个位置的元素，有 $n$ 种选择。
⚝ 选择第 2 个位置的元素，由于元素不能重复使用（元素不同），剩下 $n-1$ 种选择。
⚝ 选择第 3 个位置的元素，剩下 $n-2$ 种选择。
⚝ ...
⚝ 选择第 $m$ 个位置的元素，剩下 $n-(m-1) = n-m+1$ 种选择。

根据乘法原理，从 $n$ 个不同元素中取出 $m$ 个元素的排列数为：
\[ P(n, m) = n \times (n-1) \times (n-2) \times \cdots \times (n-m+1) \]
这个公式也可以用阶乘 (factorial) 来表示。回忆一下，$n$ 的阶乘 $n!$ 定义为 $n! = n \times (n-1) \times (n-2) \times \cdots \times 2 \times 1$，并且定义 $0! = 1$。

我们可以将排列数公式写成：
\[ P(n, m) = \frac{n \times (n-1) \times \cdots \times (n-m+1) \times (n-m)! \times \cdots \times 1}{(n-m)! \times \cdots \times 1} = \frac{n!}{(n-m)!} \]

特殊情况:
当 $m = n$ 时，即从 $n$ 个不同元素中取出 $n$ 个元素进行排列，称为全排列 (Full Permutation)。全排列数 $P(n, n)$ 为：
\[ P(n, n) = \frac{n!}{(n-n)!} = \frac{n!}{0!} = n! \]

示例 2.2.1 (数字排列)：
用数字 1, 2, 3 可以组成多少个没有重复数字的三位数？

这相当于从 3 个不同数字中取出 3 个进行排列，即全排列 $P(3, 3)$。
\[ P(3, 3) = 3! = 3 \times 2 \times 1 = 6 \]
这 6 个三位数分别是：123, 132, 213, 231, 312, 321。

示例 2.2.2 (字母排列)：
从字母 a, b, c, d, e 中取出 3 个字母进行排列，有多少种不同的排列方法？

这相当于从 5 个不同元素中取出 3 个进行排列，即 $P(5, 3)$。
\[ P(5, 3) = \frac{5!}{(5-3)!} = \frac{5!}{2!} = \frac{5 \times 4 \times 3 \times 2 \times 1}{2 \times 1} = 5 \times 4 \times 3 = 60 \]
因此，有 60 种不同的排列方法。例如，abc, acb, bac, bca, cab, cba, ... 等都是不同的排列。

总结:
排列的关键在于顺序。当我们需要考虑元素的排列顺序时，应该使用排列数公式 $P(n, m) = \frac{n!}{(n-m)!}$。全排列是排列的特殊情况，其排列数为 $n!$。

2.2.2 组合 (Combinations)

组合 (Combinations) 是指从 $n$ 个不同元素中取出 $m$ ($m \leq n$) 个元素，组成一组的方法数，不考虑元素的顺序。组合只关注元素的选择，只要元素相同，不论顺序如何，都认为是同一种组合。

定义 2.2.2 (组合)：
从 $n$ 个不同元素中取出 $m$ ($m \leq n$) 个元素组成一组，称为从 $n$ 中取 $m$ 的组合，其组合数记为 $C(n, m)$ 或 $ \binom{n}{m} $ 或 $ {}_nC_m $。$ \binom{n}{m} $ 也被称为二项式系数 (Binomial Coefficient)，将在后续章节详细介绍。

组合数的计算公式:
组合数与排列数之间存在密切关系。对于从 $n$ 个元素中取出 $m$ 个元素的每一种组合，都可以进行 $m!$ 种不同的排列。因此，从 $n$ 个元素中取出 $m$ 个元素的排列数等于组合数乘以 $m!$。
\[ P(n, m) = C(n, m) \times m! \]
由此，可以得到组合数的计算公式：
\[ C(n, m) = \frac{P(n, m)}{m!} = \frac{n!}{m!(n-m)!} \]

组合数的性质:
⚝ 对称性: $C(n, m) = C(n, n-m)$。
▮▮▮▮⚝ 从 $n$ 个元素中选出 $m$ 个元素的组合数，等于从 $n$ 个元素中选出 $n-m$ 个元素不选的组合数。
▮▮▮▮⚝ 例如，$C(5, 2) = C(5, 3) = \frac{5!}{2!3!} = 10$。
⚝ 递推关系: $C(n, m) = C(n-1, m-1) + C(n-1, m)$。
▮▮▮▮⚝ 考虑从 $n$ 个元素中选出 $m$ 个元素，可以分为两种情况：
▮▮▮▮▮▮▮▮⚝ 包含第 $n$ 个元素：需要在前 $n-1$ 个元素中选出 $m-1$ 个元素，有 $C(n-1, m-1)$ 种方法。
▮▮▮▮▮▮▮▮⚝ 不包含第 $n$ 个元素：需要在前 $n-1$ 个元素中选出 $m$ 个元素，有 $C(n-1, m)$ 种方法。
▮▮▮▮⚝ 根据加法原理，总的组合数为 $C(n-1, m-1) + C(n-1, m)$。

特殊情况:
⚝ $C(n, 0) = 1$。从 $n$ 个元素中选 0 个元素的组合数只有 1 种，即什么都不选。
⚝ $C(n, n) = 1$。从 $n$ 个元素中选 $n$ 个元素的组合数只有 1 种，即全部都选。
⚝ $C(n, 1) = n$。从 $n$ 个元素中选 1 个元素的组合数有 $n$ 种，即选择任何一个元素。

示例 2.2.3 (委员会组成)：
从 5 名学生中选出 3 名组成一个委员会，有多少种不同的组建方案？

由于委员会成员的顺序不重要，只需要选择哪些学生即可，因此是组合问题，即 $C(5, 3)$。
\[ C(5, 3) = \frac{5!}{3!(5-3)!} = \frac{5!}{3!2!} = \frac{5 \times 4 \times 3 \times 2 \times 1}{(3 \times 2 \times 1)(2 \times 1)} = \frac{5 \times 4}{2 \times 1} = 10 \]
因此，有 10 种不同的组建方案。

示例 2.2.4 (彩票选号)：
某种彩票从 35 个号码中随机抽取 7 个号码作为中奖号码。如果购买一张彩票需要选择 7 个不同的号码，那么共有多少种不同的彩票号码组合？

彩票号码的顺序不重要，只需要选择 7 个号码即可，因此是组合问题，即 $C(35, 7)$。
\[ C(35, 7) = \frac{35!}{7!(35-7)!} = \frac{35!}{7!28!} = \frac{35 \times 34 \times 33 \times 32 \times 31 \times 30 \times 29}{7 \times 6 \times 5 \times 4 \times 3 \times 2 \times 1} = 6,724,520 \]
因此，共有 6,724,520 种不同的彩票号码组合。

总结:
组合的关键在于不考虑顺序，只关注元素的选择。当我们需要计算从一个集合中选取若干元素组成一组的方法数时，应该使用组合数公式 $C(n, m) = \frac{n!}{m!(n-m)!}$。

排列与组合的区别与应用场景:

特征	排列 (Permutations)	组合 (Combinations)
顺序	考虑顺序 (Order matters)	不考虑顺序 (Order does not matter)
定义	从 $n$ 个不同元素中取出 $m$ 个元素按顺序排列的方法数	从 $n$ 个不同元素中取出 $m$ 个元素组成一组的方法数
计算公式	$P(n, m) = \frac{n!}{(n-m)!}$	$C(n, m) = \frac{n!}{m!(n-m)!}$
应用场景	密码设置、排名、安排座位等，凡是顺序影响结果的场景	委员会选举、彩票选号、选择课程等，凡是顺序不影响结果的场景

在实际问题中，首先要判断是否需要考虑元素的顺序。如果顺序影响结果，则使用排列；如果顺序不影响结果，则使用组合。

2.3 二项式系数 (Binomial Coefficients)

二项式系数 (Binomial Coefficients) 就是组合数 $C(n, m) = \binom{n}{m} = \frac{n!}{m!(n-m)!}$，之所以称之为二项式系数，是因为它们出现在二项式定理 (Binomial Theorem) 的展开式中。

二项式定理:
二项式定理描述了 $(x+y)^n$ 的代数展开式。
\[ (x+y)^n = \sum_{k=0}^{n} \binom{n}{k} x^{n-k} y^k = \binom{n}{0} x^n y^0 + \binom{n}{1} x^{n-1} y^1 + \cdots + \binom{n}{n} x^0 y^n \]
其中，$\binom{n}{k}$ 就是二项式系数，表示在 $(x+y)^n$ 的展开式中，$x^{n-k}y^k$ 项的系数。

二项式系数的性质:
除了之前提到的组合数性质外，二项式系数还有一些重要的性质：

对称性: $\binom{n}{k} = \binom{n}{n-k}$。
递推关系 (帕斯卡恒等式, Pascal's Identity): $\binom{n}{k} = \binom{n-1}{k-1} + \binom{n-1}{k}$。
求和公式:
▮▮▮▮⚝ $\sum_{k=0}^{n} \binom{n}{k} = 2^n$。 (令 $x=1, y=1$ 在二项式定理中得到)
▮▮▮▮⚝ $\sum_{k=0}^{n} (-1)^k \binom{n}{k} = 0$。 (令 $x=1, y=-1$ 在二项式定理中得到)
▮▮▮▮⚝ $\sum_{k=0}^{n} \binom{n}{k}^2 = \binom{2n}{n}$。 (范德蒙恒等式 (Vandermonde's Identity) 的特殊情况)
吸收恒等式 (Absorption Identity): $k \binom{n}{k} = n \binom{n-1}{k-1}$。

帕斯卡三角形 (Pascal's Triangle):
帕斯卡三角形是一个由二项式系数排列成的三角形阵列，其中第 $n$ 行第 $k$ 列的数就是二项式系数 $\binom{n}{k}$ (行和列都从 0 开始计数)。帕斯卡三角形直观地展示了二项式系数的递推关系 $\binom{n}{k} = \binom{n-1}{k-1} + \binom{n-1}{k}$。

1.双击鼠标左键复制此行；2.单击复制所有代码。

                                
                                    
                            1
                                    n=0:      1
                        

                            2
                                    n=1:     1   1
                        

                            3
                                    n=2:    1   2   1
                        

                            4
                                    n=3:   1   3   3   1
                        

                            5
                                    n=4:  1   4   6   4   1
                        

                            6
                                    n=5: 1  5  10  10  5  1
                        

                            7
                                    ...

每一行的数字都是上一行相邻两个数字之和（边界上的 1 可以看作是与 0 相加）。

示例 2.3.1 (二项式展开)：
展开 $(x+y)^4$。

根据二项式定理：
\[ (x+y)^4 = \binom{4}{0} x^4 y^0 + \binom{4}{1} x^3 y^1 + \binom{4}{2} x^2 y^2 + \binom{4}{3} x^1 y^3 + \binom{4}{4} x^0 y^4 \]
计算二项式系数：
⚝ $\binom{4}{0} = 1$
⚝ $\binom{4}{1} = 4$
⚝ $\binom{4}{2} = \frac{4!}{2!2!} = 6$
⚝ $\binom{4}{3} = \frac{4!}{3!1!} = 4$
⚝ $\binom{4}{4} = 1$

所以，$(x+y)^4 = x^4 + 4x^3y + 6x^2y^2 + 4xy^3 + y^4$。

示例 2.3.2 (路径计数)：
在一个 $n \times m$ 的网格中，从左下角 $(0, 0)$ 走到右上角 $(n, m)$，每次只能向上或向右走一步，有多少种不同的路径？

总共需要走 $n+m$ 步，其中 $n$ 步向右，$m$ 步向上。相当于从 $n+m$ 步中选择 $n$ 步向右（或 $m$ 步向上），其余步数则确定。因此，路径数为 $\binom{n+m}{n} = \binom{n+m}{m}$。

例如，从 $(0, 0)$ 走到 $(3, 2)$ 的路径数是 $\binom{3+2}{3} = \binom{5}{3} = \frac{5!}{3!2!} = 10$。

总结:
二项式系数 $\binom{n}{m}$ 不仅是组合数，也是二项式定理中的系数，具有丰富的性质和广泛的应用，例如在代数展开、路径计数、概率计算等领域都有重要作用。

2.4 容斥原理 (Inclusion-Exclusion Principle)

容斥原理 (Inclusion-Exclusion Principle) 是一种重要的计数方法，用于计算并集的大小。当我们需要计算多个集合并集元素的个数，而这些集合之间可能存在交集时，容斥原理提供了一种有效的方法。

两个集合的容斥原理:
对于两个集合 $A$ 和 $B$，它们的并集 $A \cup B$ 的元素个数为：
\[ |A \cup B| = |A| + |B| - |A \cap B| \]
直观理解：先将 $|A|$ 和 $|B|$ 加起来，这时 $A \cap B$ 部分的元素被重复计算了一次，所以需要减去 $|A \cap B|$ 来修正。

三个集合的容斥原理:
对于三个集合 $A$, $B$, 和 $C$，它们的并集 $A \cup B \cup C$ 的元素个数为：
\[ |A \cup B \cup C| = |A| + |B| + |C| - (|A \cap B| + |A \cap C| + |B \cap C|) + |A \cap B \cap C| \]
直观理解：
1. 先将 $|A|, |B|, |C|$ 加起来。
2. 减去两两交集的大小 $|A \cap B|, |A \cap C|, |B \cap C|$，因为这些部分被重复加了两次，需要减去一次。
3. 加上三个集合的交集大小 $|A \cap B \cap C|$，因为在第二步中，三集合的交集部分被减去了三次，又加了三次（在两两交集中各出现一次），所以总共被减去了，需要再加回来一次。

一般形式的容斥原理:
对于 $n$ 个集合 $A_1, A_2, \ldots, A_n$，它们的并集 $A_1 \cup A_2 \cup \cdots \cup A_n$ 的元素个数为：
\[ \left| \bigcup_{i=1}^{n} A_i \right| = \sum_{i} |A_i| - \sum_{i 其中，
⚝ $\sum_{i} |A_i|$ 表示所有单个集合大小之和。
⚝ $\sum_{i ⚝ \(\sum_{i ⚝ ...
⚝ \( (-1)^{n-1} \left| \bigcap_{i=1}^{n} A_i \right| $ 表示所有 $n$ 个集合交集大小，符号取决于 $n$ 的奇偶性。

示例 2.4.1 (学生调查)：
某班级有 50 名学生，调查显示：
⚝ 25 人喜欢数学。
⚝ 20 人喜欢英语。
⚝ 10 人既喜欢数学又喜欢英语。

问：有多少人喜欢数学或英语？

设 $M$ 为喜欢数学的学生集合，$E$ 为喜欢英语的学生集合。已知 $|M| = 25$, $|E| = 20$, $|M \cap E| = 10$。
根据两个集合的容斥原理：
\[ |M \cup E| = |M| + |E| - |M \cap E| = 25 + 20 - 10 = 35 \]
因此，有 35 人喜欢数学或英语。

示例 2.4.2 (错误排列问题 - 错位排列, Derangement)：
有多少种方法将 $n$ 封信放入 $n$ 个已写好地址的信封，使得每封信都放错了信封？这个问题称为错位排列问题。

设 $A_i$ 为第 $i$ 封信放入第 $i$ 个信封的事件，我们要求的是所有信都放错信封的方法数，即求 $ \left| \overline{A_1} \cap \overline{A_2} \cap \cdots \cap \overline{A_n} \right| $，其中 $\overline{A_i}$ 表示事件 $A_i$ 的补事件，即第 $i$ 封信没有放入第 $i$ 个信封。
根据德摩根定律 (De Morgan's Laws)，$ \overline{A_1} \cap \overline{A_2} \cap \cdots \cap \overline{A_n} = \overline{A_1 \cup A_2 \cup \cdots \cup A_n} $。
因此，错位排列数 $D_n$ 为：
\[ D_n = n! - \left| \bigcup_{i=1}^{n} A_i \right| \]
其中，$n!$ 是所有排列的总数（包括正确排列和错误排列）。我们需要用容斥原理计算 $ \left| \bigcup_{i=1}^{n} A_i \right| $。

⚝ $|A_i| = (n-1)!$ (固定第 $i$ 封信放入第 $i$ 个信封，其余 $n-1$ 封信任意排列)。共有 $\binom{n}{1}$ 项。
⚝ $|A_i \cap A_j| = (n-2)!$ (固定第 $i$ 和第 $j$ 封信放入对应信封，其余 $n-2$ 封信任意排列)。共有 $\binom{n}{2}$ 项。
⚝ $|A_i \cap A_j \cap A_k| = (n-3)!$。共有 $\binom{n}{3}$ 项。
⚝ ...
⚝ $ \left| \bigcap_{i=1}^{n} A_i \right| = 1 = 0!$。共有 $\binom{n}{n}$ 项。

根据容斥原理：
\[ \left| \bigcup_{i=1}^{n} A_i \right| = \binom{n}{1}(n-1)! - \binom{n}{2}(n-2)! + \binom{n}{3}(n-3)! - \cdots + (-1)^{n-1} \binom{n}{n} 0! \]
由于 $\binom{n}{k} = \frac{n!}{k!(n-k)!}$，所以 $\binom{n}{k}(n-k)! = \frac{n!}{k!}$。
\[ \left| \bigcup_{i=1}^{n} A_i \right| = \frac{n!}{1!} - \frac{n!}{2!} + \frac{n!}{3!} - \cdots + (-1)^{n-1} \frac{n!}{n!} = n! \left( \frac{1}{1!} - \frac{1}{2!} + \frac{1}{3!} - \cdots + (-1)^{n-1} \frac{1}{n!} \right) \]
因此，错位排列数 $D_n$ 为：
\[ D_n = n! - \left| \bigcup_{i=1}^{n} A_i \right| = n! - n! \left( \frac{1}{1!} - \frac{1}{2!} + \frac{1}{3!} - \cdots + (-1)^{n-1} \frac{1}{n!} \right) = n! \left( 1 - \frac{1}{1!} + \frac{1}{2!} - \frac{1}{3!} + \cdots + (-1)^{n} \frac{1}{n!} \right) \]
\[ D_n = n! \sum_{k=0}^{n} \frac{(-1)^k}{k!} \]

示例 2.4.3 (计算 $D_4$):
计算 4 封信的错位排列数 $D_4$。
\[ D_4 = 4! \left( 1 - \frac{1}{1!} + \frac{1}{2!} - \frac{1}{3!} + \frac{1}{4!} \right) = 24 \left( 1 - 1 + \frac{1}{2} - \frac{1}{6} + \frac{1}{24} \right) = 24 \left( \frac{12 - 4 + 1}{24} \right) = 9 \]
因此，4 封信的错位排列数是 9。

总结:
容斥原理是处理集合并集计数问题的有力工具，尤其在集合之间存在交集时。其核心思想是先加后减，再加再减，交替进行，以确保不重不漏地计算并集的大小。容斥原理在组合数学、概率论、计算机科学等领域都有广泛应用。

2.5 本章小结与习题 (Chapter Summary and Exercises)

本章小结:

本章主要介绍了离散概率中常用的计数方法，包括：

基本计数原理:
▮▮▮▮⚝ 加法原理 (Addition Principle): 用于互斥事件的计数，总数等于各方法数之和。
▮▮▮▮⚝ 乘法原理 (Multiplication Principle): 用于分步完成任务的计数，总数等于各步骤方法数之积。
排列与组合:
▮▮▮▮⚝ 排列 (Permutations): 考虑顺序的元素选择，排列数 $P(n, m) = \frac{n!}{(n-m)!}$。
▮▮▮▮⚝ 组合 (Combinations): 不考虑顺序的元素选择，组合数 $C(n, m) = \binom{n}{m} = \frac{n!}{m!(n-m)!}$。
二项式系数 (Binomial Coefficients): 组合数 $\binom{n}{m}$，出现在二项式定理中，具有多种重要性质和应用。
容斥原理 (Inclusion-Exclusion Principle): 用于计算多个集合并集的大小，通过交替加减不同阶数的交集大小来避免重复计数。

掌握这些计数方法是学习离散概率的基础，它们在后续章节的概率计算、分布分析以及应用问题中都将发挥重要作用。

习题:

书架摆放: 某书架有三层，第一层有 20 本数学书，第二层有 30 本计算机书，第三层有 15 本物理书。
① 如果要从书架上取出一本书，有多少种不同的取法？
② 如果要从书架上每一层各取出一本书，有多少种不同的取法？
车牌号码: 某地区车牌号码由 3 位数字和 2 位字母组成，数字可以是 0-9，字母可以是 A-Z (不区分大小写)。
① 如果数字和字母可以重复使用，可以有多少种不同的车牌号码？
② 如果数字和字母都不能重复使用，可以有多少种不同的车牌号码？
球队比赛: 8 支球队进行单循环比赛 (每两支球队之间比赛一场)。
① 总共需要比赛多少场？
② 如果要从这 8 支球队中选出 3 支球队颁发奖牌 (金、银、铜)，有多少种不同的颁奖方案？
扑克牌: 从一副标准的 52 张扑克牌中 (不包括大小王) 抽取 5 张牌。
① 有多少种不同的抽法？
② 抽出的 5 张牌中恰好有 3 张红桃的抽法有多少种？
③ 抽出的 5 张牌中至少有 1 张 A 的抽法有多少种？ (提示：可以使用容斥原理或反向思考)
集合运算: 设集合 $A = \{1, 2, 3, 4, 5, 6\}$, $B = \{4, 5, 6, 7, 8\}$, $C = \{6, 7, 8, 9, 10\}$。
① 计算 $|A \cup B|$, $|A \cap B|$, $|A \cup C|$, $|A \cap C|$, $|B \cup C|$, $|B \cap C|$, $|A \cup B \cup C|$, $|A \cap B \cap C|$。
② 验证两个集合和三个集合的容斥原理。
错位排列: 计算 5 封信的错位排列数 $D_5$。
二项式系数:
① 计算 $\binom{7}{3}$, $\binom{10}{5}$, $\binom{n}{2}$。
② 证明 $\binom{n}{k} = \binom{n}{n-k}$ 和 $\binom{n}{k} = \binom{n-1}{k-1} + \binom{n-1}{k}$。
③ 计算 $\sum_{k=0}^{5} \binom{5}{k}$ 和 $\sum_{k=0}^{5} (-1)^k \binom{5}{k}$。

这些习题旨在帮助读者巩固本章所学的计数方法，并能够灵活应用于解决实际问题。通过练习，可以更深入地理解加法原理、乘法原理、排列、组合、二项式系数和容斥原理等概念。

3. chapter 3：条件概率与事件的独立性 (Conditional Probability and Independence of Events)

3.1 条件概率 (Conditional Probability)

在概率论中，条件概率 (Conditional Probability) 是指在给定某事件 $B$ 发生的条件下，另一事件 $A$ 发生的概率。它回答了这样一个问题：“如果事件 $B$ 已经发生，那么事件 $A$ 发生的可能性有多大？” 条件概率是理解复杂概率现象和进行概率推理的关键工具。

定义 3.1.1 (条件概率的定义)

设 $A$ 和 $B$ 是样本空间 $\Omega$ 中的两个事件，且 $P(B) > 0$。事件 $A$ 在事件 $B$ 发生的条件下的条件概率 (Conditional Probability)，记作 $P(A|B)$，定义为：

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} \]

其中，$P(A \cap B)$ 是事件 $A$ 和事件 $B$ 同时发生的概率，$P(B)$ 是事件 $B$ 发生的概率。

理解条件概率

条件概率的核心思想是在已知某些信息（即事件 $B$ 发生）的情况下，重新评估事件 $A$ 发生的可能性。从样本空间的角度来看，当已知事件 $B$ 发生时，我们的关注点就从整个样本空间 $\Omega$ 缩小到了事件 $B$ 所代表的样本空间子集。因此，我们在事件 $B$ 这个新的“条件样本空间”中，考察事件 $A$ 发生的概率。

为了更直观地理解条件概率，我们可以考虑以下例子：

例 3.1.1 (抛掷硬币)

假设我们抛掷一枚均匀的硬币两次。样本空间为 $\Omega = \{HH, HT, TH, TT\}$，其中 $H$ 表示正面朝上，$T$ 表示反面朝上。每个基本事件的概率均为 $1/4$。

设事件 $A$ 为“至少有一次正面朝上”，即 $A = \{HH, HT, TH\}$。
设事件 $B$ 为“第一次抛掷是正面朝上”，即 $B = \{HH, HT\}$。

我们来计算在事件 $B$ 发生的条件下，事件 $A$ 发生的概率 $P(A|B)$。

首先，我们需要计算 $P(A \cap B)$ 和 $P(B)$。
事件 $A \cap B$ 表示“第一次抛掷是正面朝上，且至少有一次正面朝上”，实际上就是事件 $B$，即 $A \cap B = \{HH, HT\}$。
因此，$P(A \cap B) = P(B) = P(\{HH, HT\}) = \frac{2}{4} = \frac{1}{2}$。

事件 $B = \{HH, HT\}$，所以 $P(B) = \frac{2}{4} = \frac{1}{2}$。

根据条件概率的定义，我们有：

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{1/2}{1/2} = 1 \]

这个结果是符合直觉的。如果已知第一次抛掷是正面朝上（事件 $B$ 发生），那么“至少有一次正面朝上”（事件 $A$）必然发生，因为第一次已经是正面朝上了。因此，条件概率为 1。

例 3.1.2 (抽取扑克牌)

一副标准的 52 张扑克牌，从中随机抽取一张。

设事件 $A$ 为“抽到红桃 (Hearts)”，事件 $B$ 为“抽到红色的牌 (Red Card)”。

我们想计算在已知抽到红色的牌的条件下，抽到红桃的概率 $P(A|B)$。

首先，计算 $P(A \cap B)$ 和 $P(B)$。
事件 $A \cap B$ 表示“既抽到红桃，又抽到红色的牌”。由于红桃本身就是红色的牌，所以 $A \cap B = A$，即“抽到红桃”。
红桃共有 13 张，所以 $P(A \cap B) = P(A) = \frac{13}{52} = \frac{1}{4}$。

红色的牌包括红桃和方块 (Diamonds)，共有 $13 + 13 = 26$ 张，所以 $P(B) = \frac{26}{52} = \frac{1}{2}$。

根据条件概率的定义：

\[ P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{1/4}{1/2} = \frac{1}{2} \]

这意味着，如果已知抽到的是红色的牌，那么这张牌是红桃的概率为 $1/2$。这是因为在所有红色的牌中，一半是红桃，一半是方块。

条件概率的性质

条件概率 $P(\cdot|B)$ 满足概率的所有公理和基本性质。例如：

① 非负性 (Non-negativity): 对于任何事件 $A$，$P(A|B) \ge 0$。
② 归一性 (Normalization): $P(\Omega|B) = 1$。
③ 可加性 (Additivity): 如果 $A_1, A_2, \dots$ 是一系列互斥事件，则
\[ P\left(\bigcup_{i=1}^{\infty} A_i \Big| B\right) = \sum_{i=1}^{\infty} P(A_i|B) \]

这些性质保证了条件概率仍然是一个合理的概率测度，只是它是在条件事件 $B$ 发生的约束下定义的。

乘法公式 (Multiplication Rule)

从条件概率的定义式 $P(A|B) = \frac{P(A \cap B)}{P(B)}$ 可以推导出乘法公式 (Multiplication Rule)，也称为概率的链式法则 (Chain Rule of Probability)。

将定义式变形，得到：

\[ P(A \cap B) = P(B) P(A|B) \]

或者，如果 $P(A) > 0$，也可以写成：

\[ P(A \cap B) = P(A) P(B|A) \]

更一般地，对于多个事件 $A_1, A_2, \dots, A_n$，乘法公式可以推广为：

\[ P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) P(A_2|A_1) P(A_3|A_1 \cap A_2) \dots P(A_n|A_1 \cap A_2 \cap \dots \cap A_{n-1}) \]

这个公式在计算多个事件同时发生的概率时非常有用，尤其是在事件之间存在依赖关系时。

例 3.1.3 (连续抽取扑克牌 - 不放回)

从一副扑克牌中不放回地连续抽取两张牌。计算第一张抽到红桃，第二张抽到黑桃 (Spades) 的概率。

设事件 $A_1$ 为“第一张抽到红桃”，事件 $A_2$ 为“第二张抽到黑桃”。我们需要计算 $P(A_1 \cap A_2)$。

根据乘法公式，$P(A_1 \cap A_2) = P(A_1) P(A_2|A_1)$。

首先，计算 $P(A_1)$。一副牌中有 13 张红桃，共 52 张牌，所以 $P(A_1) = \frac{13}{52} = \frac{1}{4}$。

接下来，计算 $P(A_2|A_1)$，即在已知第一张抽到红桃的条件下，第二张抽到黑桃的概率。如果第一张抽到红桃，那么剩下的牌共有 51 张。其中，黑桃的数量仍然是 13 张（因为第一张抽走的是红桃，不是黑桃）。因此，$P(A_2|A_1) = \frac{13}{51}$。

所以，第一张抽到红桃，第二张抽到黑桃的概率为：

\[ P(A_1 \cap A_2) = P(A_1) P(A_2|A_1) = \frac{1}{4} \times \frac{13}{51} = \frac{13}{204} \]

条件概率和乘法公式是概率论中非常基础且重要的概念和工具，它们为我们分析和解决涉及条件和依赖关系的概率问题提供了理论基础。

3.2 全概率公式与贝叶斯定理 (Law of Total Probability and Bayes' Theorem)

全概率公式 (Law of Total Probability) 和 贝叶斯定理 (Bayes' Theorem) 是概率论中两个非常重要的定理，它们在处理复杂事件的概率计算，尤其是在涉及条件概率和因果关系分析时，发挥着关键作用。

3.2.1 全概率公式 (Law of Total Probability)

全概率公式 (Law of Total Probability) 提供了一种计算复杂事件概率的方法，通过将样本空间划分为若干个互斥且完备的事件，然后利用条件概率来计算目标事件的概率。

定理 3.2.1 (全概率公式)

设 $\{B_1, B_2, \dots, B_n\}$ 是样本空间 $\Omega$ 的一个划分 (Partition)，即 $B_1, B_2, \dots, B_n$ 是互斥事件，且 $\bigcup_{i=1}^{n} B_i = \Omega$，并且对于所有 $i$，$P(B_i) > 0$。则对于任意事件 $A$，有：

\[ P(A) = \sum_{i=1}^{n} P(A \cap B_i) = \sum_{i=1}^{n} P(B_i) P(A|B_i) \]

证明：

由于 $\{B_1, B_2, \dots, B_n\}$ 是样本空间 $\Omega$ 的一个划分，事件 $A$ 可以表示为：

\[ A = A \cap \Omega = A \cap \left(\bigcup_{i=1}^{n} B_i\right) = \bigcup_{i=1}^{n} (A \cap B_i) \]

由于 $B_1, B_2, \dots, B_n$ 是互斥的，因此 $A \cap B_1, A \cap B_2, \dots, A \cap B_n$ 也是互斥的。根据概率的可加性，我们有：

\[ P(A) = P\left(\bigcup_{i=1}^{n} (A \cap B_i)\right) = \sum_{i=1}^{n} P(A \cap B_i) \]

再根据乘法公式 $P(A \cap B_i) = P(B_i) P(A|B_i)$，代入上式，即可得到全概率公式：

\[ P(A) = \sum_{i=1}^{n} P(B_i) P(A|B_i) \]

理解全概率公式

全概率公式的本质是将事件 $A$ 的发生分解为在不同条件 $B_i$ 下发生的情况。我们可以将 $P(A|B_i)$ 理解为在条件 $B_i$ 下事件 $A$ 发生的概率，而 $P(B_i)$ 是条件 $B_i$ 发生的概率。全概率公式将这些条件概率加权求和，得到事件 $A$ 的总概率。

例 3.2.1 (产品合格率)

某工厂有三个车间生产同一种产品。一车间、二车间和三车间的产量分别占总产量的 50%, 30% 和 20%。这三个车间的产品合格率分别为 98%, 95% 和 90%。求从工厂生产的所有产品中随机抽取一件，抽到合格品的概率。

设事件 $A$ 为“抽到合格品”。
设事件 $B_1$ 为“产品由一车间生产”，$B_2$ 为“产品由二车间生产”，$B_3$ 为“产品由三车间生产”。

$\{B_1, B_2, B_3\}$ 构成样本空间的一个划分，且已知：
$P(B_1) = 0.5$, $P(B_2) = 0.3$, $P(B_3) = 0.2$
$P(A|B_1) = 0.98$, $P(A|B_2) = 0.95$, $P(A|B_3) = 0.90$

根据全概率公式：

\[ P(A) = P(B_1) P(A|B_1) + P(B_2) P(A|B_2) + P(B_3) P(A|B_3) \]
\[ P(A) = (0.5 \times 0.98) + (0.3 \times 0.95) + (0.2 \times 0.90) = 0.49 + 0.285 + 0.18 = 0.955 \]

因此，从工厂生产的所有产品中随机抽取一件，抽到合格品的概率为 0.955，即 95.5%。

3.2.2 贝叶斯定理 (Bayes' Theorem)

贝叶斯定理 (Bayes' Theorem) 描述了在已知某些观测结果的条件下，关于事件原因的概率推断。它提供了一种从后验概率 (Posterior Probability) 推断先验概率 (Prior Probability) 的方法，是贝叶斯统计学的核心。

定理 3.2.2 (贝叶斯定理)

设 $\{B_1, B_2, \dots, B_n\}$ 是样本空间 $\Omega$ 的一个划分，且对于所有 $i$，$P(B_i) > 0$。设 $A$ 是一个事件，且 $P(A) > 0$。则对于任意 $j \in \{1, 2, \dots, n\}$，有：

\[ P(B_j|A) = \frac{P(A|B_j) P(B_j)}{P(A)} = \frac{P(A|B_j) P(B_j)}{\sum_{i=1}^{n} P(B_i) P(A|B_i)} \]

证明：

根据条件概率的定义，我们有：

\[ P(B_j|A) = \frac{P(A \cap B_j)}{P(A)} \]

根据乘法公式，$P(A \cap B_j) = P(A|B_j) P(B_j)$。而分母 $P(A)$ 可以用全概率公式展开为 $P(A) = \sum_{i=1}^{n} P(B_i) P(A|B_i)$。将这两部分代入上式，即可得到贝叶斯定理：

\[ P(B_j|A) = \frac{P(A|B_j) P(B_j)}{\sum_{i=1}^{n} P(B_i) P(A|B_i)} \]

理解贝叶斯定理

在贝叶斯定理中：

⚝ $P(B_j)$ 称为 先验概率 (Prior Probability)，表示在观测到事件 $A$ 之前，我们对事件 $B_j$ 发生的概率的初始估计。
⚝ $P(A|B_j)$ 称为 似然度 (Likelihood)，表示在事件 $B_j$ 发生的条件下，观测到事件 $A$ 的概率。它反映了在不同原因 $B_j$ 下，产生观测结果 $A$ 的可能性大小。
⚝ $P(A) = \sum_{i=1}^{n} P(B_i) P(A|B_i)$ 是 边缘概率 (Marginal Probability) 或 证据 (Evidence)，表示事件 $A$ 发生的总概率，可以通过全概率公式计算。
⚝ $P(B_j|A)$ 称为 后验概率 (Posterior Probability)，表示在观测到事件 $A$ 之后，我们对事件 $B_j$ 发生的概率的更新估计。贝叶斯定理的核心作用就是根据观测结果 $A$ 来更新我们对原因 $B_j$ 的概率判断。

贝叶斯定理的应用

贝叶斯定理在很多领域都有广泛的应用，尤其是在：

⚝ 医学诊断 (Medical Diagnosis)：根据症状 (事件 $A$) 推断疾病 (事件 $B_j$) 的概率。
⚝ 垃圾邮件过滤 (Spam Filtering)：根据邮件内容 (事件 $A$) 判断邮件是否为垃圾邮件 (事件 $B_j$)。
⚝ 机器学习 (Machine Learning)：在分类问题中，根据特征 (事件 $A$) 判断样本属于哪个类别 (事件 $B_j$)。
⚝ 风险评估 (Risk Assessment)：根据某些事件发生 (事件 $A$) 推断潜在风险来源 (事件 $B_j$) 的概率。

例 3.2.2 (疾病检测)

假设某种疾病在人群中的发病率为 0.1% (即先验概率 $P(\text{患病}) = 0.001$)。有一种检测方法可以检测出该疾病，其灵敏度 (Sensitivity) 为 99% (即患病的情况下，检测结果为阳性的概率 $P(\text{阳性}|\text{患病}) = 0.99$)，特异性 (Specificity) 为 95% (即未患病的情况下，检测结果为阴性的概率 $P(\text{阴性}|\text{未患病}) = 0.95$，因此 $P(\text{阳性}|\text{未患病}) = 1 - 0.95 = 0.05$)。

如果某人的检测结果为阳性，那么他真正患病的概率是多少？

设事件 $B_1$ 为“患病”，事件 $B_2$ 为“未患病”，事件 $A$ 为“检测结果为阳性”。
已知：
$P(B_1) = P(\text{患病}) = 0.001$
$P(B_2) = P(\text{未患病}) = 1 - 0.001 = 0.999$
$P(A|B_1) = P(\text{阳性}|\text{患病}) = 0.99$
$P(A|B_2) = P(\text{阳性}|\text{未患病}) = 0.05$

我们需要计算后验概率 $P(B_1|A) = P(\text{患病}|\text{阳性})$。根据贝叶斯定理：

\[ P(B_1|A) = \frac{P(A|B_1) P(B_1)}{P(A|B_1) P(B_1) + P(A|B_2) P(B_2)} \]
\[ P(B_1|A) = \frac{(0.99) \times (0.001)}{(0.99) \times (0.001) + (0.05) \times (0.999)} \]
\[ P(B_1|A) = \frac{0.00099}{0.00099 + 0.04995} = \frac{0.00099}{0.05094} \approx 0.0194 \]

即使检测结果为阳性，这个人真正患病的概率也只有约 1.94%。这个结果可能会让人感到惊讶，但它强调了在低发病率疾病检测中，即使检测方法具有较高的灵敏度和特异性，阳性预测值 (Positive Predictive Value, PPV) 也可能较低。这是因为先验概率 (发病率) 非常低，导致即使有少量假阳性 (False Positive)，也会显著影响后验概率。

3.3 事件的独立性 (Independence of Events)

事件的独立性 (Independence of Events) 是概率论中一个核心概念，它描述了两个或多个事件之间是否相互影响。如果两个事件是独立的，那么一个事件的发生不会影响另一个事件发生的概率。

定义 3.3.1 (事件的独立性)

两个事件 $A$ 和 $B$ 是独立的 (Independent)，如果满足以下条件：

\[ P(A \cap B) = P(A) P(B) \]

如果上式不成立，则称事件 $A$ 和 $B$ 是不独立的 (Dependent) 或 相关的 (Correlated)。

理解事件的独立性

从直观上看，如果事件 $A$ 和 $B$ 是独立的，那么事件 $B$ 的发生不应该改变事件 $A$ 发生的概率。也就是说，条件概率 $P(A|B)$ 应该等于无条件概率 $P(A)$。我们可以从条件概率的定义出发来验证这一点。

如果 $A$ 和 $B$ 独立，则 $P(A \cap B) = P(A) P(B)$。假设 $P(B) > 0$，根据条件概率的定义 $P(A|B) = \frac{P(A \cap B)}{P(B)}$，将 $P(A \cap B) = P(A) P(B)$ 代入，得到：

\[ P(A|B) = \frac{P(A) P(B)}{P(B)} = P(A) \]

反之，如果 $P(A|B) = P(A)$，则 $P(A \cap B) = P(B) P(A|B) = P(B) P(A)$，即 $P(A \cap B) = P(A) P(B)$。

因此，事件 $A$ 和 $B$ 独立的定义也可以等价地表示为（在 $P(B) > 0$ 的情况下）：

\[ P(A|B) = P(A) \]

或者，对称地，如果 $P(A) > 0$，则：

\[ P(B|A) = P(B) \]

例 3.3.1 (抛掷硬币 - 再次)

抛掷一枚均匀硬币两次。
设事件 $A$ 为“第一次抛掷是正面朝上”，$B$ 为“第二次抛掷是正面朝上”。

$A = \{HH, HT\}$, $B = \{HH, TH\}$, $A \cap B = \{HH\}$。
$P(A) = \frac{2}{4} = \frac{1}{2}$, $P(B) = \frac{2}{4} = \frac{1}{2}$, $P(A \cap B) = \frac{1}{4}$。

验证独立性条件：
$P(A) P(B) = \frac{1}{2} \times \frac{1}{2} = \frac{1}{4} = P(A \cap B)$。

因此，事件 $A$ 和 $B$ 是独立的。第一次抛掷的结果不会影响第二次抛掷的结果，这符合我们对抛掷硬币的直观理解。

例 3.3.2 (连续抽取扑克牌 - 放回)

从一副扑克牌中放回地连续抽取两张牌。
设事件 $A_1$ 为“第一次抽到红桃”，事件 $A_2$ 为“第二次抽到红桃”。

由于是放回抽取，第一次抽取的结果不会影响第二次抽取的概率。因此，我们期望 $A_1$ 和 $A_2$ 是独立的。

$P(A_1) = \frac{13}{52} = \frac{1}{4}$。
由于是放回抽取，第二次抽取时牌的组成与第一次抽取前相同，所以 $P(A_2) = \frac{13}{52} = \frac{1}{4}$。

事件 $A_1 \cap A_2$ 表示“第一次和第二次都抽到红桃”。由于独立性，我们有：
$P(A_1 \cap A_2) = P(A_1) P(A_2) = \frac{1}{4} \times \frac{1}{4} = \frac{1}{16}$。

我们可以验证这个结果。样本空间可以看作是 $52 \times 52$ 对有序牌的集合（考虑放回）。事件 $A_1$ 对应 $13 \times 52$ 对，事件 $A_2$ 对应 $52 \times 13$ 对，事件 $A_1 \cap A_2$ 对应 $13 \times 13$ 对。因此，
$P(A_1) = \frac{13 \times 52}{52 \times 52} = \frac{1}{4}$, $P(A_2) = \frac{52 \times 13}{52 \times 52} = \frac{1}{4}$, $P(A_1 \cap A_2) = \frac{13 \times 13}{52 \times 52} = \frac{1}{16}$。

确实满足 $P(A_1 \cap A_2) = P(A_1) P(A_2)$，所以 $A_1$ 和 $A_2$ 是独立的。

例 3.3.3 (连续抽取扑克牌 - 不放回 - 再次)

从一副扑克牌中不放回地连续抽取两张牌。
设事件 $A_1$ 为“第一次抽到红桃”，事件 $A_2$ 为“第二次抽到红桃”。

我们已经计算过 $P(A_1) = \frac{1}{4}$。但是，由于是不放回抽取，第二次抽取的概率会受到第一次抽取结果的影响。

$P(A_2|A_1) = \frac{12}{51}$ （如果第一次抽到红桃，剩下 51 张牌，其中红桃 12 张）。
$P(A_2|A_1^c) = \frac{13}{51}$ （如果第一次没有抽到红桃，剩下 51 张牌，其中红桃 13 张）。

显然，$P(A_2|A_1) \neq P(A_2|A_1^c)$，也与 $P(A_2)$ 不同（实际上，可以用全概率公式计算 $P(A_2) = P(A_1)P(A_2|A_1) + P(A_1^c)P(A_2|A_1^c) = \frac{1}{4} \times \frac{12}{51} + \frac{3}{4} \times \frac{13}{51} = \frac{12+39}{4 \times 51} = \frac{51}{4 \times 51} = \frac{1}{4}$，但条件概率是不同的）。

因此，$A_1$ 和 $A_2$ 是不独立的。不放回抽取导致了事件之间的依赖关系。

多个事件的独立性

对于多个事件 $A_1, A_2, \dots, A_n$，它们的相互独立 (Mutually Independent) 定义为：对于任意 $k \in \{2, 3, \dots, n\}$ 和任意 $1 \le i_1 < i_2 < \dots < i_k \le n$，都有：

\[ P(A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_k}) = P(A_{i_1}) P(A_{i_2}) \dots P(A_{i_k}) \]

这个条件需要对所有可能的子集都成立。例如，对于三个事件 $A, B, C$ 相互独立，需要满足以下四个条件：

① $P(A \cap B) = P(A) P(B)$
② $P(A \cap C) = P(A) P(C)$
③ $P(B \cap C) = P(B) P(C)$
④ $P(A \cap B \cap C) = P(A) P(B) P(C)$

仅仅满足两两独立（即条件 ①, ②, ③）并不能保证相互独立（即条件 ④）。相互独立比两两独立更强。

独立性与互斥性 (Independence vs. Mutual Exclusivity)

独立性 (Independence) 和 互斥性 (Mutual Exclusivity) 是两个容易混淆的概念。它们描述的是事件之间完全不同的关系。

⚝ 互斥性 (Disjointness)：如果事件 $A$ 和 $B$ 是互斥的，意味着它们不能同时发生，即 $A \cap B = \emptyset$，所以 $P(A \cap B) = 0$。对于非空事件 $A$ 和 $B$，如果它们是互斥的，则 $P(A \cap B) = 0 \neq P(A) P(B)$ (因为 $P(A) > 0, P(B) > 0$)，因此 非空互斥事件不可能是独立的。

⚝ 独立性 (Independence)：如果事件 $A$ 和 $B$ 是独立的，意味着一个事件的发生不影响另一个事件发生的概率，即 $P(A \cap B) = P(A) P(B)$。对于非零概率事件 $A$ 和 $B$，如果它们是独立的，则 $P(A \cap B) = P(A) P(B) > 0$，因此 非零概率的独立事件不可能是互斥的（除非其中一个事件的概率为 0）。

总结：

⚝ 互斥事件不可能独立 (除非其中一个事件概率为 0)。
⚝ 独立事件不可能互斥 (除非其中一个事件概率为 0)。

理解独立性和互斥性的区别对于正确分析概率问题至关重要。独立性关注的是事件之间概率上的相互影响，而互斥性关注的是事件在样本空间中是否可以同时发生。

3.4 本章小结与习题 (Chapter Summary and Exercises)

本章小结

本章主要介绍了条件概率 (Conditional Probability) 和 事件的独立性 (Independence of Events) 这两个离散概率论中的核心概念。

条件概率：定义了在给定事件 $B$ 发生的条件下，事件 $A$ 发生的概率 $P(A|B) = \frac{P(A \cap B)}{P(B)}$。条件概率是概率推理的基础，它帮助我们理解在已知某些信息的情况下，事件发生的可能性。
全概率公式：提供了一种计算复杂事件概率的方法，通过将样本空间划分为互斥完备的事件组 $\{B_i\}$，利用条件概率公式 $P(A) = \sum_{i=1}^{n} P(B_i) P(A|B_i)$ 来计算事件 $A$ 的概率。
贝叶斯定理：描述了在已知观测结果 $A$ 的条件下，推断事件原因 $B_j$ 的概率 $P(B_j|A) = \frac{P(A|B_j) P(B_j)}{\sum_{i=1}^{n} P(B_i) P(A|B_i)}$。贝叶斯定理是贝叶斯统计学的基石，广泛应用于医学诊断、机器学习等领域。
事件的独立性：定义了两个事件 $A$ 和 $B$ 独立的条件为 $P(A \cap B) = P(A) P(B)$。独立性描述了事件之间是否相互影响，是简化概率计算和分析复杂系统的关键概念。我们还讨论了多个事件的相互独立性，以及独立性与互斥性的区别。

掌握本章内容对于深入理解概率论，以及应用概率论解决实际问题至关重要。条件概率、全概率公式、贝叶斯定理和事件独立性是后续学习随机变量、概率分布等内容的基础。

习题

条件概率计算：
在一个盒子中有 3 个红球和 2 个蓝球。随机抽取两个球，不放回。
▮▮▮▮ⓐ 求第一个球是红色的概率。
▮▮▮▮ⓑ 求在第一个球是红色的条件下，第二个球也是红色的概率。
▮▮▮▮ⓒ 求在第一个球是蓝色的条件下，第二个球是红色的概率。
全概率公式应用：
某公司有两台机器生产零件。机器 1 生产的零件占总产量的 60%，次品率为 3%；机器 2 生产的零件占总产量的 40%，次品率为 5%。从所有零件中随机抽取一个，求抽到次品的概率。
贝叶斯定理应用：
已知某种疾病在人群中的发病率为 0.01。有一种检测方法，患病者检测为阳性的概率为 0.95，未患病者检测为阴性的概率为 0.98。如果某人检测结果为阳性，求他真正患病的概率。
事件独立性判断：
抛掷两个均匀的骰子。设事件 $A$ 为“第一个骰子点数为奇数”，事件 $B$ 为“两个骰子点数之和为 7”。判断事件 $A$ 和 $B$ 是否独立，并说明理由。
独立性与互斥性辨析：
举例说明两个事件可以是独立的，可以是互斥的，可以既不独立也不互斥。并解释为什么非零概率的独立事件不可能互斥，非空互斥事件不可能独立。
乘法公式应用：
一个袋子中有 5 个白球和 3 个黑球。不放回地连续抽取 3 个球。求依次抽到白球、黑球、白球的概率。
推广的全概率公式：
设 $\{B_1, B_2, \dots, B_n\}$ 是样本空间 $\Omega$ 的一个划分，且 $P(B_i) > 0$ 对于所有 $i$。证明对于任意事件 $A$ 和 $C$，有：
\[ P(A|C) = \sum_{i=1}^{n} P(A|B_i \cap C) P(B_i|C) \]
并解释这个公式的意义。

希望这些习题能够帮助读者巩固本章所学的知识，并提升解决概率问题的能力。在学习概率论的过程中，理解概念的本质，掌握公式的应用，并通过练习加深理解是非常重要的。

4. chapter 4：离散随机变量与概率分布 (Discrete Random Variables and Probability Distributions)

4.1 随机变量的概念 (Concept of Random Variables)

4.1.1 随机变量的定义 (Definition of Random Variables)

在概率论中，我们经常需要研究随机现象的数值结果。例如，掷骰子的点数，或者某段时间内到达网站的访客数量。为了方便数学上的处理，我们引入了随机变量 (Random Variable) 的概念。

定义 4.1.1 (随机变量)：
一个随机变量 (Random Variable) $X$ 是一个函数，它将样本空间 (Sample Space) $\Omega$ 中的每一个结果 (outcome) $\omega$ 映射到一个实数 $X(\omega)$。更正式地说，随机变量是一个从样本空间 $\Omega$ 到实数集 $\mathbb{R}$ 的可测函数。

简单来说，随机变量就是用数值来表示随机实验结果的变量。它将抽象的实验结果（例如，抛硬币的“正面”或“反面”）转化为我们可以进行数学运算的数值。

示例 4.1.1 (掷硬币)：
考虑抛掷一枚硬币的实验。样本空间是 $\Omega = \{\text{正面}, \text{反面}\}$。我们可以定义一个随机变量 $X$ 来表示实验结果：
\[ X(\omega) = \begin{cases} 1, & \text{如果 } \omega = \text{正面} \\ 0, & \text{如果 } \omega = \text{反面} \end{cases} \]
这里，$X$ 就是一个随机变量，它将样本空间中的结果 “正面” 映射到数值 1，将 “反面” 映射到数值 0。

示例 4.1.2 (掷骰子)：
考虑掷一个标准六面骰子的实验。样本空间是 $\Omega = \{1, 2, 3, 4, 5, 6\}$。我们可以直接定义随机变量 $Y$ 为掷出的点数：
\[ Y(\omega) = \omega, \quad \omega \in \Omega \]
在这个例子中，随机变量 $Y$ 直接取样本空间中的数值结果。

要点总结：
① 随机变量是一个函数，不是变量本身，但习惯上我们称之为“变量”。
② 随机变量将实验结果映射到实数，使得我们可以用数学工具分析随机现象。
③ 随机变量通常用大写字母表示，如 $X, Y, Z$。而随机变量的具体取值用小写字母表示，如 $x, y, z$。

4.1.2 离散随机变量 (Discrete Random Variables)

随机变量可以分为不同的类型，其中最基本的一种是离散随机变量 (Discrete Random Variable)。

定义 4.1.2 (离散随机变量)：
如果一个随机变量 $X$ 的取值是可数 (countable) 的，即它可以取有限个值，或者可以取无限个但可以与自然数集建立一一对应关系的值，那么 $X$ 就被称为离散随机变量 (Discrete Random Variable)。

换句话说，离散随机变量的取值可以是有限的，例如 $\{0, 1, 2, \dots, n\}$，或者无限但可数的，例如 $\{0, 1, 2, 3, \dots\}$ (自然数集)。

示例 4.1.3 (离散随机变量的例子)：
⚝ 抛掷 $n$ 次硬币，正面朝上的次数。取值范围为 $\{0, 1, 2, \dots, n\}$ (有限可数)。
⚝ 在某十字路口，一小时内通过的汽车数量。取值范围为 $\{0, 1, 2, 3, \dots\}$ (无限可数，可以非常大，但仍然是可数的)。
⚝ 首次抛硬币出现正面所需的抛掷次数。取值范围为 $\{1, 2, 3, \dots\}$ (无限可数)。

非离散随机变量的例子 (作为对比)：
⚝ 人的身高。身高可以在一个连续的范围内取值，例如 $[1.5, 2.0]$ 米，是不可数的。这种类型的随机变量通常是连续随机变量 (Continuous Random Variable)，将在后续章节中讨论。
⚝ 房间的温度。温度也是在一个连续范围内取值，是不可数的。

总结：
离散随机变量的关键特征是其取值是“离散”的，可以一个一个地列举出来，即使有无穷多个，它们之间也是有“间隔”的。这与连续随机变量形成对比，连续随机变量的取值是连续的，充满一个区间，无法一个一个列举。

4.2 概率质量函数 (Probability Mass Function, PMF)

对于离散随机变量，我们用概率质量函数 (Probability Mass Function, PMF) 来描述其概率分布。PMF 给出了随机变量取每个特定值的概率。

定义 4.2.1 (概率质量函数)：
设 $X$ 是一个离散随机变量，其可能的取值为 $x_1, x_2, x_3, \dots$。概率质量函数 (Probability Mass Function, PMF) $p_X(x)$ 定义为：
\[ p_X(x) = P(X = x) \]
即，$p_X(x)$ 是随机变量 $X$ 取值等于 $x$ 的概率。

为了使 $p_X(x)$ 成为一个有效的 PMF，它必须满足以下两个条件：
① 非负性 (Non-negativity)：对于所有 $x$，$p_X(x) \ge 0$。概率值不可能为负数。
② 归一性 (Normalization)：所有可能取值的概率之和为 1，即 $\sum_{x} p_X(x) = 1$，其中求和是对 $X$ 的所有可能取值进行的。

示例 4.2.1 (掷硬币的 PMF)：
对于示例 4.1.1 中抛掷硬币的随机变量 $X$，假设硬币是均匀的，则正面和反面出现的概率均为 0.5。因此，$X$ 的 PMF 为：
\[ p_X(x) = \begin{cases} 0.5, & \text{如果 } x = 1 \\ 0.5, & \text{如果 } x = 0 \\ 0, & \text{其他 } \end{cases} \]
我们可以验证 PMF 的性质：
① 非负性：$p_X(0) = 0.5 \ge 0$，$p_X(1) = 0.5 \ge 0$，其他值为 0 也非负。
② 归一性：$\sum_{x} p_X(x) = p_X(0) + p_X(1) = 0.5 + 0.5 = 1$。

示例 4.2.2 (掷骰子的 PMF)：
对于示例 4.1.2 中掷骰子的随机变量 $Y$，假设骰子是均匀的，则每个面出现的概率均为 $1/6$。因此，$Y$ 的 PMF 为：
\[ p_Y(y) = \begin{cases} 1/6, & \text{如果 } y \in \{1, 2, 3, 4, 5, 6\} \\ 0, & \text{其他 } \end{cases} \]
同样可以验证 PMF 的性质：
① 非负性：对于 $y \in \{1, 2, 3, 4, 5, 6\}$，$p_Y(y) = 1/6 \ge 0$，其他值为 0 也非负。
② 归一性：$\sum_{y} p_Y(y) = \sum_{y=1}^{6} p_Y(y) = 6 \times (1/6) = 1$。

使用 PMF 计算事件的概率：
PMF 不仅给出了随机变量取特定值的概率，还可以用来计算随机变量取值在某个集合内的概率。例如，如果 $A$ 是随机变量 $X$ 可能取值的一个集合，则事件 $X \in A$ 的概率为：
\[ P(X \in A) = \sum_{x \in A} p_X(x) \]

示例 4.2.3 (计算事件概率)：
对于掷骰子的随机变量 $Y$，计算掷出的点数是偶数的概率。令 $A = \{2, 4, 6\}$ 为偶数点数的集合。则：
\[ P(Y \in A) = P(Y=2) + P(Y=4) + P(Y=6) = p_Y(2) + p_Y(4) + p_Y(6) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{3}{6} = \frac{1}{2} \]

总结：
PMF 是描述离散随机变量概率分布的核心工具。它清晰地展示了随机变量在每个可能取值上的概率分布情况，并满足非负性和归一性。通过 PMF，我们可以方便地计算各种事件的概率。

4.3 累积分布函数 (Cumulative Distribution Function, CDF)

除了 PMF，累积分布函数 (Cumulative Distribution Function, CDF) 也是描述随机变量概率分布的重要工具，它适用于所有类型的随机变量（包括离散和连续）。

定义 4.3.1 (累积分布函数)：
随机变量 $X$ 的累积分布函数 (Cumulative Distribution Function, CDF) $F_X(x)$ 定义为：
\[ F_X(x) = P(X \le x) \]
即，$F_X(x)$ 是随机变量 $X$ 取值小于等于 $x$ 的概率。CDF 的定义对所有实数 $x \in \mathbb{R}$ 都有意义。

CDF 的性质：
对于任何随机变量 $X$，其 CDF $F_X(x)$ 具有以下基本性质：
① 单调不减 (Monotonically Non-decreasing)：如果 $x_1 \le x_2$，则 $F_X(x_1) \le F_X(x_2)$。因为事件 $X \le x_1$ 是事件 $X \le x_2$ 的子集，所以其概率不可能更大。
② 右连续 (Right-continuous)：对于任何 $x$，$\lim_{y \to x^+} F_X(y) = F_X(x)$。
③ 极限性质 (Limit Properties)：
▮▮▮▮ⓓ $\lim_{x \to -\infty} F_X(x) = 0$。当 $x$ 趋于负无穷时，事件 $X \le x$ 几乎不可能发生，概率趋于 0。
▮▮▮▮ⓔ $\lim_{x \to +\infty} F_X(x) = 1$。当 $x$ 趋于正无穷时，事件 $X \le x$ 几乎必然发生，概率趋于 1。
⑥ 用 CDF 表示概率：
▮▮▮▮ⓖ $P(a < X \le b) = F_X(b) - F_X(a)$。
▮▮▮▮ⓗ $P(X > a) = 1 - F_X(a)$。
▮▮▮▮ⓘ $P(X = a) = F_X(a) - \lim_{x \to a^-} F_X(x)$。对于连续随机变量，由于 CDF 连续，$P(X=a) = 0$。但对于离散随机变量，$P(X=a)$ 可能大于 0，此时 $F_X(x)$ 在 $x=a$ 处会发生跳跃。

离散随机变量的 CDF 与 PMF 的关系：
对于离散随机变量 $X$，其 CDF 可以通过 PMF 累加得到：
\[ F_X(x) = P(X \le x) = \sum_{y \le x} p_X(y) \]
反之，如果已知离散随机变量的 CDF $F_X(x)$，则其 PMF 可以通过 CDF 的差分得到：
\[ p_X(x) = P(X = x) = F_X(x) - F_X(x^-) \]
其中 $F_X(x^-) = \lim_{y \to x^-} F_X(y)$ 表示从左侧趋近 $x$ 的极限。如果 $x$ 是 $X$ 的一个可能取值，则 $p_X(x)$ 等于 CDF 在 $x$ 处的跳跃高度。

示例 4.3.1 (掷硬币的 CDF)：
对于示例 4.1.1 中抛掷硬币的随机变量 $X$，其 PMF 在示例 4.2.1 中已给出。现在计算其 CDF $F_X(x)$。
⚝ 当 $x < 0$ 时，$F_X(x) = P(X \le x) = P(X < 0) = 0$。因为 $X$ 的取值只能是 0 或 1，不可能小于 0。
⚝ 当 $0 \le x < 1$ 时，$F_X(x) = P(X \le x) = P(X = 0) = p_X(0) = 0.5$。
⚝ 当 $x \ge 1$ 时，$F_X(x) = P(X \le x) = P(X = 0 \text{ 或 } X = 1) = p_X(0) + p_X(1) = 0.5 + 0.5 = 1$。

因此，掷硬币随机变量 $X$ 的 CDF 为：
\[ F_X(x) = \begin{cases} 0, & x < 0 \\ 0.5, & 0 \le x < 1 \\ 1, & x \ge 1 \end{cases} \]
CDF 的图像呈阶梯状，在 $x=0$ 和 $x=1$ 处发生跳跃，跳跃高度分别为 $p_X(0) = 0.5$ 和 $p_X(1) = 0.5$。

示例 4.3.2 (掷骰子的 CDF)：
对于示例 4.1.2 中掷骰子的随机变量 $Y$，其 PMF 在示例 4.2.2 中已给出。计算其 CDF $F_Y(y)$。
\[ F_Y(y) = P(Y \le y) = \sum_{k \le y} p_Y(k) \]
⚝ 当 $y < 1$ 时，$F_Y(y) = 0$。
⚝ 当 $1 \le y < 2$ 时，$F_Y(y) = p_Y(1) = 1/6$。
⚝ 当 $2 \le y < 3$ 时，$F_Y(y) = p_Y(1) + p_Y(2) = 1/6 + 1/6 = 2/6 = 1/3$。
⚝ ...
⚝ 当 $6 \le y$ 时，$F_Y(y) = \sum_{k=1}^{6} p_Y(k) = 1$。

因此，掷骰子随机变量 $Y$ 的 CDF 为：
\[ F_Y(y) = \begin{cases} 0, & y < 1 \\ 1/6, & 1 \le y < 2 \\ 2/6, & 2 \le y < 3 \\ 3/6, & 3 \le y < 4 \\ 4/6, & 4 \le y < 5 \\ 5/6, & 5 \le y < 6 \\ 1, & y \ge 6 \end{cases} \]
CDF 的图像也是阶梯状，在 $y=1, 2, 3, 4, 5, 6$ 处发生跳跃，跳跃高度均为 $1/6$。

总结：
CDF 提供了另一种描述随机变量概率分布的方式，它给出了随机变量取值小于等于某个值的累积概率。对于离散随机变量，CDF 是阶梯函数，可以通过 PMF 累加得到，反之亦然。CDF 的性质使其成为分析和比较不同随机变量分布的有力工具。

4.4 期望 (Expectation)

期望 (Expectation)，也称为均值 (Mean) 或期望值 (Expected Value)，是概率论中最重要的概念之一。它表示随机变量取值的平均水平。对于离散随机变量，期望是所有可能取值按照其概率加权平均的结果。

4.4.1 离散随机变量的期望 (Expectation of Discrete Random Variables)

定义 4.4.1 (离散随机变量的期望)：
设 $X$ 是一个离散随机变量，其 PMF 为 $p_X(x)$。如果级数 $\sum_{x} x \cdot p_X(x)$ 绝对收敛，则 $X$ 的期望 (Expectation) $E[X]$ 定义为：
\[ E[X] = \sum_{x} x \cdot p_X(x) \]
其中求和是对 $X$ 的所有可能取值进行的。如果级数不绝对收敛，则期望不存在。在实际应用中，我们通常遇到的离散随机变量的期望都是存在的。

直观理解，期望就是随机变量所有可能取值的加权平均，权重是每个取值对应的概率。

示例 4.4.1 (掷硬币的期望)：
对于示例 4.1.1 中抛掷硬币的随机变量 $X$，其 PMF 在示例 4.2.1 中已给出。计算其期望 $E[X]$。
\[ E[X] = \sum_{x} x \cdot p_X(x) = 0 \cdot p_X(0) + 1 \cdot p_X(1) = 0 \cdot 0.5 + 1 \cdot 0.5 = 0.5 \]
这表示，如果多次重复抛掷硬币，平均每次得到的数值（正面为 1，反面为 0）将接近 0.5。

示例 4.4.2 (掷骰子的期望)：
对于示例 4.1.2 中掷骰子的随机变量 $Y$，其 PMF 在示例 4.2.2 中已给出。计算其期望 $E[Y]$。
\[ E[Y] = \sum_{y} y \cdot p_Y(y) = \sum_{y=1}^{6} y \cdot \frac{1}{6} = \frac{1}{6} (1 + 2 + 3 + 4 + 5 + 6) = \frac{21}{6} = 3.5 \]
这表示，如果多次重复掷骰子，平均每次得到的点数将接近 3.5。

函数的期望：
更一般地，如果 $g(X)$ 是随机变量 $X$ 的一个函数，那么 $g(X)$ 也是一个随机变量。其期望 $E[g(X)]$ 定义为：
\[ E[g(X)] = \sum_{x} g(x) \cdot p_X(x) \]
同样，要求级数 $\sum_{x} |g(x)| \cdot p_X(x)$ 收敛。

示例 4.4.3 (函数的期望)：
设 $Y$ 是掷骰子的点数，计算 $Y^2$ 的期望 $E[Y^2]$。
\[ E[Y^2] = \sum_{y=1}^{6} y^2 \cdot p_Y(y) = \sum_{y=1}^{6} y^2 \cdot \frac{1}{6} = \frac{1}{6} (1^2 + 2^2 + 3^2 + 4^2 + 5^2 + 6^2) = \frac{1}{6} (1 + 4 + 9 + 16 + 25 + 36) = \frac{91}{6} \approx 15.17 \]

4.4.2 期望的性质 (Properties of Expectation)

期望具有许多重要的性质，这些性质使得期望在概率论和统计学中成为一个非常有用的工具。

① 线性性 (Linearity)：
▮▮▮▮ⓑ 对于常数 $c$，$E[c] = c$。常数的期望就是它本身。
▮▮▮▮ⓒ 对于常数 $c$ 和随机变量 $X$，$E[cX] = cE[X]$。常数可以从期望中提出。
▮▮▮▮ⓓ 对于随机变量 $X$ 和 $Y$，$E[X + Y] = E[X] + E[Y]$。期望对加法运算是线性的。
▮▮▮▮ⓔ 更一般地，对于常数 $c_1, c_2, \dots, c_n$ 和随机变量 $X_1, X_2, \dots, X_n$，
\[ E\left[\sum_{i=1}^{n} c_i X_i\right] = \sum_{i=1}^{n} c_i E[X_i] \]
期望对线性组合运算是线性的。

② 单调性 (Monotonicity)：
如果 $X \ge 0$ (即 $X$ 的所有可能取值都非负)，则 $E[X] \ge 0$。
如果 $X \le Y$ (即对于每个样本点 $\omega$，$X(\omega) \le Y(\omega)$)，则 $E[X] \le E[Y]$。

③ 非负随机变量的期望与尾概率的关系：
如果 $X$ 是一个非负离散随机变量，则
\[ E[X] = \sum_{x=1}^{\infty} P(X \ge x) = \sum_{x=0}^{\infty} P(X > x) \]
这个性质在某些情况下可以简化期望的计算。

应用示例 (线性性)：
假设我们同时掷两个均匀的骰子，令 $X_1$ 和 $X_2$ 分别表示第一个和第二个骰子的点数。我们想计算两个骰子点数之和 $S = X_1 + X_2$ 的期望 $E[S]$。
根据期望的线性性，我们有：
\[ E[S] = E[X_1 + X_2] = E[X_1] + E[X_2] \]
我们已经计算过一个骰子的期望为 3.5，即 $E[X_1] = E[X_2] = 3.5$。因此，
\[ E[S] = 3.5 + 3.5 = 7 \]
两个骰子点数之和的期望是 7。这比直接计算 $S$ 的 PMF 再求期望要简便得多。

总结：
期望是描述离散随机变量中心位置的重要指标。它代表了随机变量取值的平均水平。期望的线性性等性质大大简化了期望的计算，使其在概率论和统计应用中非常重要。

4.5 方差与标准差 (Variance and Standard Deviation)

方差 (Variance) 和 标准差 (Standard Deviation) 是描述随机变量取值离散程度 (dispersion) 的重要指标。方差衡量了随机变量的取值偏离其期望值的平均程度。标准差是方差的平方根，与随机变量本身具有相同的单位，更易于解释。

定义 4.5.1 (方差)：
设 $X$ 是一个随机变量，其期望为 $E[X] = \mu$。$X$ 的方差 (Variance) $Var(X)$ 定义为：
\[ Var(X) = E[(X - \mu)^2] = E[(X - E[X])^2] \]
方差衡量了 $X$ 的取值相对于其期望值 $\mu$ 的平均偏离程度。

定义 4.5.2 (标准差)：
随机变量 $X$ 的标准差 (Standard Deviation) $SD(X)$ 定义为方差的非负平方根：
\[ SD(X) = \sqrt{Var(X)} \]
标准差与随机变量 $X$ 具有相同的单位，因此在实际应用中更易于解释。

方差的计算公式：
根据期望的定义，对于离散随机变量 $X$，方差的计算公式为：
\[ Var(X) = \sum_{x} (x - E[X])^2 \cdot p_X(x) \]
在实际计算中，通常使用以下更方便的公式：
\[ Var(X) = E[X^2] - (E[X])^2 \]
这个公式可以通过展开 $E[(X - E[X])^2]$ 得到：
\[ Var(X) = E[(X - E[X])^2] = E[X^2 - 2XE[X] + (E[X])^2] = E[X^2] - 2E[X]E[X] + E[(E[X])^2] = E[X^2] - 2(E[X])^2 + (E[X])^2 = E[X^2] - (E[X])^2 \]
其中利用了期望的线性性以及 $E[E[X]] = E[X]$ 和 $E[(E[X])^2] = (E[X])^2$，因为 $E[X]$ 是一个常数。

示例 4.5.1 (掷硬币的方差和标准差)：
对于示例 4.1.1 中抛掷硬币的随机变量 $X$，我们已经计算了 $E[X] = 0.5$。现在计算 $E[X^2]$。由于 $X$ 的取值只能是 0 或 1，所以 $X^2$ 的取值也只能是 0 或 1，且 $X^2 = X$。因此，$E[X^2] = E[X] = 0.5$。
则方差为：
\[ Var(X) = E[X^2] - (E[X])^2 = 0.5 - (0.5)^2 = 0.5 - 0.25 = 0.25 \]
标准差为：
\[ SD(X) = \sqrt{Var(X)} = \sqrt{0.25} = 0.5 \]

示例 4.5.2 (掷骰子的方差和标准差)：
对于示例 4.1.2 中掷骰子的随机变量 $Y$，我们已经计算了 $E[Y] = 3.5$ 和 $E[Y^2] = 91/6 \approx 15.17$。
则方差为：
\[ Var(Y) = E[Y^2] - (E[Y])^2 = \frac{91}{6} - (3.5)^2 = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12} \approx 2.917 \]
标准差为：
\[ SD(Y) = \sqrt{Var(Y)} = \sqrt{\frac{35}{12}} \approx \sqrt{2.917} \approx 1.708 \]

方差的性质：
① 非负性 (Non-negativity)：$Var(X) \ge 0$。方差总是非负的。
② 常数的方差为零：$Var(c) = 0$，其中 $c$ 是常数。常数没有波动，所以方差为零。
③ 线性变换的方差：对于常数 $a$ 和 $b$，
\[ Var(aX + b) = a^2 Var(X) \]
证明：
\[ Var(aX + b) = E[(aX + b - E[aX + b])^2] = E[(aX + b - (aE[X] + b))^2] = E[(aX - aE[X])^2] = E[a^2(X - E[X])^2] = a^2 E[(X - E[X])^2] = a^2 Var(X) \]
特别地，$Var(X + b) = Var(X)$，平移不改变方差；$Var(aX) = a^2 Var(X)$，尺度变换会平方地影响方差。

标准差的性质：
对于常数 $a$ 和 $b$，
\[ SD(aX + b) = |a| SD(X) \]
标准差的单位与随机变量 $X$ 相同。

应用示例 (方差的线性变换性质)：
假设温度 $C$ 服从某个分布，其方差为 $Var(C)$。现在要将温度从摄氏度转换为华氏度 $F = \frac{9}{5}C + 32$。求华氏温度 $F$ 的方差 $Var(F)$。
根据方差的线性变换性质，
\[ Var(F) = Var\left(\frac{9}{5}C + 32\right) = \left(\frac{9}{5}\right)^2 Var(C) = \frac{81}{25} Var(C) \]

总结：
方差和标准差是衡量随机变量取值离散程度的重要指标。方差表示随机变量偏离其期望值的平均平方偏差，标准差是方差的平方根，单位与随机变量相同。掌握方差和标准差的计算和性质，有助于我们更好地理解和分析随机变量的分布特征。

4.6 本章小结与习题 (Chapter Summary and Exercises)

本章小结：
本章我们介绍了离散随机变量 (Discrete Random Variable) 和 概率分布 (Probability Distribution) 的基本概念。主要内容包括：
① 随机变量的定义：随机变量是将样本空间中的结果映射到实数的函数。
② 离散随机变量：取值是可数的随机变量。
③ 概率质量函数 (PMF)：描述离散随机变量概率分布的函数，$p_X(x) = P(X = x)$，满足非负性和归一性。
④ 累积分布函数 (CDF)：描述随机变量概率分布的函数，$F_X(x) = P(X \le x)$，适用于所有类型随机变量，具有单调不减、右连续等性质。
⑤ 期望 (Expectation)：随机变量取值的平均水平，$E[X] = \sum_{x} x \cdot p_X(x)$，具有线性性等重要性质。
⑥ 方差 (Variance) 和标准差 (Standard Deviation)：衡量随机变量取值离散程度的指标，$Var(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2$，$SD(X) = \sqrt{Var(X)}$。

理解和掌握这些基本概念是进一步学习离散概率分布和应用的基础。在后续章节中，我们将介绍几种重要的离散分布，并探讨它们的应用。

习题：

随机变量的识别：以下哪些是离散随机变量？哪些不是？请说明理由。
▮▮▮▮ⓐ 某城市一天内的降雨量（毫米）。
▮▮▮▮ⓑ 某工厂一天生产的合格产品数量。
▮▮▮▮ⓒ 电话交换台在一定时间内收到的呼叫次数。
▮▮▮▮ⓓ 股票市场的股票价格波动幅度。
▮▮▮▮ⓔ 一个灯泡的寿命（小时）。
▮▮▮▮ⓕ 100 件产品中次品的数量。
PMF 的性质：验证示例 4.2.1 和 4.2.2 中的 PMF 满足非负性和归一性。
CDF 的计算：
设离散随机变量 $X$ 的 PMF 为：
\[ p_X(x) = \begin{cases} 0.1, & x = -1 \\ 0.2, & x = 0 \\ 0.3, & x = 1 \\ 0.4, & x = 2 \\ 0, & \text{其他 } \end{cases} \]
▮▮▮▮ⓐ 验证 $p_X(x)$ 是一个有效的 PMF。
▮▮▮▮ⓑ 计算 $X$ 的 CDF $F_X(x)$，并画出 CDF 的图像。
▮▮▮▮ⓒ 计算 $P(X \le 1.5)$，$P(X > 0)$，$P(-0.5 < X \le 2)$，$P(X = 1)$。
期望的计算：
对于习题 3 中的随机变量 $X$，计算其期望 $E[X]$。
方差和标准差的计算：
对于习题 3 中的随机变量 $X$，计算其方差 $Var(X)$ 和标准差 $SD(X)$。
期望的线性性应用：
设随机变量 $X$ 和 $Y$ 的期望分别为 $E[X] = 2$，$E[Y] = 3$。计算以下期望值：
▮▮▮▮ⓐ $E[2X + 3]$。
▮▮▮▮ⓑ $E[-Y + 5]$。
▮▮▮▮ⓒ $E[3X - 2Y + 1]$。
实际应用：
某彩票游戏规则如下：购买一张彩票花费 2 元，中奖概率为 0.01，中奖金额为 100 元。设 $X$ 为购买一张彩票的净收益（中奖金额减去成本）。
▮▮▮▮ⓐ 写出随机变量 $X$ 的 PMF。
▮▮▮▮ⓑ 计算购买一张彩票的期望净收益 $E[X]$。
▮▮▮▮ⓒ 从期望值的角度分析，这个彩票游戏对玩家是否有利？

希望这些习题能够帮助读者巩固本章所学的知识，并提升解决实际问题的能力。在接下来的章节中，我们将继续深入学习离散概率的更多内容。祝大家学习愉快！😊

5. chapter 5：几种重要的离散分布 (Important Discrete Distributions - Part 1)

5.1 伯努利分布 (Bernoulli Distribution)

伯努利分布 (Bernoulli Distribution)，又称两点分布或0-1分布，是描述单次伯努利试验 (Bernoulli trial) 结果的离散概率分布。伯努利试验是一种只有两种可能结果的随机试验，通常我们将其结果称为“成功 (success)” 或 “失败 (failure)”。例如，抛掷一次硬币，结果可以是正面朝上（成功）或反面朝上（失败）；检查一件产品是否合格，结果可以是合格（成功）或不合格（失败）。

定义 5.1.1 (伯努利分布)：
如果随机变量 $X$ 只能取两个值 0 和 1，且其概率质量函数 (Probability Mass Function, PMF) 为：
\[ P(X=k) = \begin{cases} p, & \text{if } k=1 \\ 1-p, & \text{if } k=0 \\ 0, & \text{otherwise} \end{cases} \]
其中 $0 \le p \le 1$ 是成功 (success) 的概率，则称 $X$ 服从参数为 $p$ 的伯努利分布，记作 $X \sim \text{Bernoulli}(p)$。当 $X=1$ 时，表示试验成功；当 $X=0$ 时，表示试验失败。

关键特征：
① 单次试验：伯努利分布描述的是仅进行一次试验的结果。
② 两种结果：试验结果只有两种可能，通常标记为成功 (1) 和失败 (0)。
③ 成功概率 $p$：分布由一个参数 $p$ 决定，$p$ 代表单次试验中成功的概率。

概率质量函数 (PMF)：
如定义所示，伯努利分布的概率质量函数非常简单：
\[ f(k; p) = P(X=k) = p^k (1-p)^{1-k}, \quad k \in \{0, 1\} \]
当 $k=1$ 时，$f(1; p) = p$；当 $k=0$ 时，$f(0; p) = 1-p$。

累积分布函数 (Cumulative Distribution Function, CDF)：
伯努利分布的累积分布函数 (CDF) $F(x; p) = P(X \le x)$ 为：
\[ F(x; p) = \begin{cases} 0, & \text{if } x < 0 \\ 1-p, & \text{if } 0 \le x < 1 \\ 1, & \text{if } x \ge 1 \end{cases} \]

期望与方差：
对于服从伯努利分布 $X \sim \text{Bernoulli}(p)$ 的随机变量 $X$，其期望 $E[X]$ 和方差 $\text{Var}(X)$ 可以计算如下：

期望 (Expectation)：
\[ E[X] = \sum_{k} k \cdot P(X=k) = 0 \cdot P(X=0) + 1 \cdot P(X=1) = 0 \cdot (1-p) + 1 \cdot p = p \]
因此，伯努利分布的期望就是成功概率 $p$。

方差 (Variance)：
\[ \text{Var}(X) = E[X^2] - (E[X])^2 \]
首先计算 $E[X^2]$：
\[ E[X^2] = \sum_{k} k^2 \cdot P(X=k) = 0^2 \cdot P(X=0) + 1^2 \cdot P(X=1) = 0 \cdot (1-p) + 1 \cdot p = p \]
所以，方差为：
\[ \text{Var}(X) = E[X^2] - (E[X])^2 = p - p^2 = p(1-p) \]
标准差 (Standard Deviation) $\sigma_X = \sqrt{\text{Var}(X)} = \sqrt{p(1-p)}$。

示例 5.1.1：
抛掷一枚均匀硬币一次，正面朝上的概率为 $p=0.5$。设随机变量 $X$ 表示抛掷结果，$X=1$ 表示正面朝上（成功），$X=0$ 表示反面朝上（失败）。则 $X \sim \text{Bernoulli}(0.5)$。
⚝ 概率质量函数：$P(X=1) = 0.5$，$P(X=0) = 0.5$。
⚝ 期望：$E[X] = 0.5$。
⚝ 方差：$\text{Var}(X) = 0.5 \times (1-0.5) = 0.25$。

应用场景：
伯努利分布是许多更复杂离散分布的基础，例如二项分布 (Binomial Distribution) 和几何分布 (Geometric Distribution)。在实际应用中，伯努利分布可以用来模拟各种只有两种结果的简单随机事件，例如：
⚝ 电子元件的寿命测试：元件在一定时间内是否失效。
⚝ 医学试验：病人接受治疗后是否康复。
⚝ 市场调查：顾客是否购买某种产品。
⚝ 质量控制：产品是否合格。

5.2 二项分布 (Binomial Distribution)

二项分布 (Binomial Distribution) 是描述在 $n$ 次独立重复的伯努利试验 (Bernoulli trials) 中，成功 (success) 次数的离散概率分布。每次伯努利试验的成功概率都相同，设为 $p$。

定义 5.2.1 (二项分布)：
设在 $n$ 次独立重复的伯努利试验中，每次试验成功的概率为 $p$（$0 \le p \le 1\））。随机变量 \(X$ 表示 $n$ 次试验中成功的次数。则 $X$ 服从参数为 $n$ 和 $p$ 的二项分布，记作 $X \sim \text{Binomial}(n, p)$ 或 $X \sim B(n, p)$。其概率质量函数 (PMF) 为：
\[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n \]
其中 $\binom{n}{k} = \frac{n!}{k!(n-k)!}$ 是二项式系数 (binomial coefficient)，表示从 $n$ 次试验中选择 $k$ 次成功的组合数。

关键特征：
① 固定试验次数 $n$：二项分布基于固定次数 $n$ 的试验。
② 独立重复试验：每次试验都是相互独立的，且条件相同。
③ 两种结果：每次试验只有成功或失败两种结果。
④ 成功概率 $p$ 不变：每次试验成功的概率 $p$ 保持不变。
⑤ 关注成功次数：二项分布关注在 $n$ 次试验中成功的总次数。

5.2.1 二项分布的推导 (Derivation of Binomial Distribution)

为了推导二项分布的概率质量函数 (PMF)，我们考虑在 $n$ 次独立的伯努利试验中获得 $k$ 次成功的概率。

首先，考虑一个特定的成功 $k$ 次和失败 $n-k$ 次的序列。例如，如果 $n=3$，$k=2$，一个可能的序列是 “成功-成功-失败”。由于每次试验是独立的，这个特定序列的概率是 $p \cdot p \cdot (1-p) = p^2 (1-p)^1 = p^k (1-p)^{n-k}$。

然而，成功 $k$ 次和失败 $n-k$ 次的序列可以有多种排列方式。我们需要计算有多少种不同的序列包含恰好 $k$ 次成功。这相当于从 $n$ 次试验中选择 $k$ 次作为成功，其余 $n-k$ 次作为失败的组合数，即二项式系数 $\binom{n}{k}$。

因此，将特定序列的概率 $p^k (1-p)^{n-k}$ 乘以序列的总数 $\binom{n}{k}$，就得到了在 $n$ 次试验中恰好成功 $k$ 次的概率：
\[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n \]
这就是二项分布的概率质量函数 (PMF)。

推导过程总结：
① 计算一个特定 “$k$ 次成功，$n-k$ 次失败” 序列的概率：$p^k (1-p)^{n-k}$。
② 计算 “$k$ 次成功，$n-k$ 次失败” 序列的总数：$\binom{n}{k}$。
③ 将两者相乘得到二项分布的概率质量函数：$P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$。

5.2.2 二项分布的性质与应用 (Properties and Applications of Binomial Distribution)

性质：

1. 概率质量函数 (PMF)：
\[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n \]

2. 累积分布函数 (CDF)：
二项分布的累积分布函数 (CDF) $F(x; n, p) = P(X \le x)$ 为：
\[ F(x; n, p) = P(X \le x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1-p)^{n-k} \]
其中 $\lfloor x \rfloor$ 表示小于或等于 $x$ 的最大整数。

3. 期望 (Expectation)：
二项分布的期望 $E[X]$ 为 $n$ 次试验中平均成功的次数。可以通过线性性求期望，设 $X_i$ 表示第 $i$ 次试验是否成功，$X_i \sim \text{Bernoulli}(p)$，则 $X = \sum_{i=1}^{n} X_i$。
\[ E[X] = E\left[\sum_{i=1}^{n} X_i\right] = \sum_{i=1}^{n} E[X_i] = \sum_{i=1}^{n} p = np \]
因此，二项分布的期望是 $np$。

4. 方差 (Variance)：
类似地，可以计算二项分布的方差 $\text{Var}(X)$。由于每次试验是独立的，所以：
\[ \text{Var}(X) = \text{Var}\left[\sum_{i=1}^{n} X_i\right] = \sum_{i=1}^{n} \text{Var}(X_i) = \sum_{i=1}^{n} p(1-p) = np(1-p) \]
标准差 (Standard Deviation) $\sigma_X = \sqrt{\text{Var}(X)} = \sqrt{np(1-p)}$。

5. 均值与方差的关系：
对于二项分布，方差总是小于或等于均值，因为 $0 \le 1-p \le 1$，所以 $np(1-p) \le np$。当 $p=0$ 或 $p=1$ 时，方差为 0。当 $p=0.5$ 时，方差最大，为 $n/4$。

6. 二项分布的形状：
二项分布的形状取决于参数 $n$ 和 $p$。
⚝ 当 $p=0.5$ 时，分布是对称的。
⚝ 当 $p < 0.5$ 时，分布右偏 (skewed to the right)。
⚝ 当 $p > 0.5$ 时，分布左偏 (skewed to the left)。
⚝ 当 $n$ 足够大时，二项分布可以用正态分布 (Normal Distribution) 近似（中心极限定理）。

应用场景：
二项分布在各个领域都有广泛的应用，主要用于模拟重复进行独立试验，并关注成功次数的场景。

① 产品质量检验：
假设某工厂生产的产品合格率为 $p$。从一批产品中随机抽取 $n$ 个进行检验，合格品数量 $X$ 服从二项分布 $B(n, p)$。可以用来计算抽样中合格品数量的概率，评估产品质量。

② 医学试验：
某种新药的有效率为 $p$。对 $n$ 个病人进行临床试验，记录有效人数 $X$。$X$ 服从二项分布 $B(n, p)$。可以用来分析药物的有效性。

③ 市场调查：
市场调查中，调查顾客对某种产品的购买意愿。假设顾客购买意愿的概率为 $p$。随机调查 $n$ 位顾客，记录愿意购买的人数 $X$。$X$ 服从二项分布 $B(n, p)$。可以用来估计产品的市场接受度。

④ 民意调查：
在选举前进行民意调查，了解选民对候选人的支持率。假设选民支持率为 $p$。随机抽取 $n$ 位选民进行调查，记录支持某候选人的人数 $X$。$X$ 服从二项分布 $B(n, p)$。可以用来预测选举结果。

示例 5.2.1：
抛掷一枚均匀硬币 10 次，求恰好出现 3 次正面向上的概率。
这里 $n=10$，每次试验成功的概率（正面朝上）$p=0.5$。设随机变量 $X$ 表示 10 次抛掷中正面朝上的次数，则 $X \sim \text{Binomial}(10, 0.5)$。
我们需要计算 $P(X=3)$：
\[ P(X=3) = \binom{10}{3} (0.5)^3 (1-0.5)^{10-3} = \binom{10}{3} (0.5)^{10} \]
计算二项式系数：
\[ \binom{10}{3} = \frac{10!}{3!(10-3)!} = \frac{10!}{3!7!} = \frac{10 \times 9 \times 8}{3 \times 2 \times 1} = 10 \times 3 \times 4 = 120 \]
所以，
\[ P(X=3) = 120 \times (0.5)^{10} \approx 120 \times 0.0009765625 \approx 0.1171875 \]
因此，抛掷一枚均匀硬币 10 次，恰好出现 3 次正面向上的概率约为 0.117。

5.3 几何分布 (Geometric Distribution)

几何分布 (Geometric Distribution) 描述在一系列独立的伯努利试验 (Bernoulli trials) 中，直到第一次成功 (success) 发生所需的试验次数的离散概率分布。与二项分布 (Binomial Distribution) 不同，几何分布关注的是达到第一次成功所需的试验次数，而不是固定试验次数内的成功次数。

定义 5.3.1 (几何分布 - 类型一)：
设在一系列独立的伯努利试验中，每次试验成功的概率为 $p$（$0 < p \le 1\））。随机变量 \(X$ 表示第一次成功发生在第 $k$ 次试验时所需的试验次数。则 $X$ 服从参数为 $p$ 的几何分布（类型一），记作 $X \sim \text{Geometric}(p)$ 或 $X \sim \text{Geom}(p)$。其概率质量函数 (PMF) 为：
\[ P(X=k) = (1-p)^{k-1} p, \quad k = 1, 2, 3, \ldots \]
其中 $k$ 表示直到第一次成功所需的试验次数。

另一种定义 (几何分布 - 类型二)：
有些文献中，几何分布被定义为在第一次成功之前失败的次数。设随机变量 $Y$ 表示在第一次成功之前失败的次数。则 $Y = X - 1$，且 $Y$ 的取值为 $0, 1, 2, \ldots$。其概率质量函数 (PMF) 为：
\[ P(Y=j) = (1-p)^{j} p, \quad j = 0, 1, 2, \ldots \]
为了避免混淆，本书采用第一种定义，即 几何分布表示直到第一次成功所需的试验次数。

关键特征：
① 一系列伯努利试验：基于一系列独立的伯努利试验。
② 关注首次成功：关注的是第一次成功发生所需的试验次数。
③ 试验次数不固定：试验次数是随机变量，直到成功才停止。
④ 成功概率 $p$ 不变：每次试验成功的概率 $p$ 保持不变。

概率质量函数 (PMF)：
如定义所示，几何分布的概率质量函数为：
\[ f(k; p) = P(X=k) = (1-p)^{k-1} p, \quad k = 1, 2, 3, \ldots \]
要使第一次成功发生在第 $k$ 次试验，前 $k-1$ 次试验必须全部失败，第 $k$ 次试验必须成功。由于试验是独立的，所以概率为 $(1-p)^{k-1} \cdot p$。

累积分布函数 (CDF)：
几何分布的累积分布函数 (CDF) $F(x; p) = P(X \le x)$ 为：
\[ F(x; p) = P(X \le x) = \sum_{k=1}^{\lfloor x \rfloor} (1-p)^{k-1} p = 1 - (1-p)^{\lfloor x \rfloor}, \quad x \ge 1 \]
当 $x < 1$ 时，$F(x; p) = 0$。
推导过程：
\[ F(x; p) = \sum_{k=1}^{\lfloor x \rfloor} (1-p)^{k-1} p = p \sum_{k=1}^{\lfloor x \rfloor} (1-p)^{k-1} \]
这是一个等比数列求和，首项为 $1$，公比为 $(1-p)$，项数为 $\lfloor x \rfloor$。
\[ \sum_{k=1}^{\lfloor x \rfloor} (1-p)^{k-1} = \frac{1 - (1-p)^{\lfloor x \rfloor}}{1 - (1-p)} = \frac{1 - (1-p)^{\lfloor x \rfloor}}{p} \]
所以，$F(x; p) = p \cdot \frac{1 - (1-p)^{\lfloor x \rfloor}}{p} = 1 - (1-p)^{\lfloor x \rfloor}$。

期望与方差：
对于服从几何分布 $X \sim \text{Geometric}(p)$ 的随机变量 $X$，其期望 $E[X]$ 和方差 $\text{Var}(X)$ 可以计算如下：

期望 (Expectation)：
\[ E[X] = \sum_{k=1}^{\infty} k \cdot P(X=k) = \sum_{k=1}^{\infty} k (1-p)^{k-1} p = \frac{1}{p} \]
几何分布的期望是 $1/p$，表示平均需要 $1/p$ 次试验才能获得第一次成功。例如，如果成功概率 $p=0.5$，平均需要 $1/0.5 = 2$ 次试验。

方差 (Variance)：
\[ \text{Var}(X) = E[X^2] - (E[X])^2 = \frac{1-p}{p^2} \]
标准差 (Standard Deviation) $\sigma_X = \sqrt{\text{Var}(X)} = \sqrt{\frac{1-p}{p^2}} = \frac{\sqrt{1-p}}{p}$。

无记忆性 (Memoryless Property)：
几何分布具有无记忆性，这意味着未来事件的概率不依赖于过去事件的结果。具体来说，对于任意正整数 $m$ 和 $n$，有：
\[ P(X > m+n \mid X > m) = P(X > n) \]
解释：如果在前 $m$ 次试验中都没有成功（$X > m\）），那么从第 \(m+1$ 次试验开始，直到第一次成功所需的额外试验次数的分布，与从第一次试验开始直到第一次成功所需的试验次数的分布相同。

证明：
\[ P(X > m+n \mid X > m) = \frac{P(X > m+n \text{ and } X > m)}{P(X > m)} = \frac{P(X > m+n)}{P(X > m)} \]
因为 $X > m+n$ 蕴含 $X > m$，所以 $P(X > m+n \text{ and } X > m) = P(X > m+n)$。
\[ P(X > k) = \sum_{j=k+1}^{\infty} (1-p)^{j-1} p = p (1-p)^k \sum_{i=0}^{\infty} (1-p)^i = p (1-p)^k \frac{1}{1-(1-p)} = (1-p)^k \]
所以，$P(X > m) = (1-p)^m$，$P(X > m+n) = (1-p)^{m+n}$。
\[ P(X > m+n \mid X > m) = \frac{(1-p)^{m+n}}{(1-p)^m} = (1-p)^n = P(X > n) \]
因此，几何分布具有无记忆性。

应用场景：
几何分布适用于模拟等待首次成功的事件，例如：

① 产品寿命测试：
假设电子元件的失效概率为 $p$。不断测试元件，直到第一个失效为止。失效前测试的元件数量（加 1）服从几何分布。

② 电话销售：
假设每次电话销售成功的概率为 $p$。不断拨打电话，直到第一次成功销售为止。拨打的电话次数服从几何分布。

③ 轮询系统：
在计算机网络中，轮询系统不断轮询各个终端，直到找到一个需要服务的终端为止。假设每次轮询找到需要服务终端的概率为 $p$。轮询次数服从几何分布。

④ 游戏中的尝试次数：
在游戏中，玩家不断尝试完成某个任务，直到第一次成功为止。假设每次尝试成功的概率为 $p$。尝试次数服从几何分布。

示例 5.3.1：
抛掷一枚不均匀硬币，正面朝上的概率为 $p=0.6$。求第一次正面朝上出现在第三次抛掷的概率。
设随机变量 $X$ 表示第一次正面朝上所需的抛掷次数，则 $X \sim \text{Geometric}(0.6)$。
我们需要计算 $P(X=3)$：
\[ P(X=3) = (1-0.6)^{3-1} \times 0.6 = (0.4)^2 \times 0.6 = 0.16 \times 0.6 = 0.096 \]
因此，第一次正面朝上出现在第三次抛掷的概率为 0.096。

5.4 负二项分布 (Negative Binomial Distribution)

负二项分布 (Negative Binomial Distribution) 描述在一系列独立的伯努利试验 (Bernoulli trials) 中，直到观察到 $r$ 次成功 (success) 所需的试验次数的离散概率分布。几何分布是负二项分布的特例，当 $r=1$ 时，负二项分布退化为几何分布。

定义 5.4.1 (负二项分布)：
设在一系列独立的伯努利试验中，每次试验成功的概率为 $p$（$0 < p \le 1\））。随机变量 \(X$ 表示观察到第 $r$ 次成功时所需的试验次数。则 $X$ 服从参数为 $r$ 和 $p$ 的负二项分布，记作 $X \sim \text{NegativeBinomial}(r, p)$ 或 $X \sim \text{NB}(r, p)$。其概率质量函数 (PMF) 为：
\[ P(X=k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}, \quad k = r, r+1, r+2, \ldots \]
其中 $k$ 表示直到第 $r$ 次成功所需的试验次数，$r$ 是预定的成功次数，$\binom{k-1}{r-1}$ 是二项式系数 (binomial coefficient)，表示在前 $k-1$ 次试验中恰好有 $r-1$ 次成功的组合数。

关键特征：
① 一系列伯努利试验：基于一系列独立的伯努利试验。
② 关注第 $r$ 次成功：关注的是达到第 $r$ 次成功所需的试验次数。
③ 试验次数不固定：试验次数是随机变量，直到达到 $r$ 次成功才停止。
④ 成功概率 $p$ 不变：每次试验成功的概率 $p$ 保持不变。
⑤ 参数 $r$ 和 $p$：分布由两个参数 $r$（成功次数）和 $p$（成功概率）决定。

概率质量函数 (PMF) 的推导：
要使第 $r$ 次成功发生在第 $k$ 次试验，必须满足两个条件：
① 在前 $k-1$ 次试验中，恰好有 $r-1$ 次成功。
② 第 $k$ 次试验必须是成功。

前 $k-1$ 次试验中恰好有 $r-1$ 次成功的概率为 $\binom{k-1}{r-1} p^{r-1} (1-p)^{(k-1)-(r-1)} = \binom{k-1}{r-1} p^{r-1} (1-p)^{k-r}$。
第 $k$ 次试验成功的概率为 $p$。
由于试验是独立的，将两个概率相乘得到负二项分布的概率质量函数：
\[ P(X=k) = \binom{k-1}{r-1} p^{r-1} (1-p)^{k-r} \cdot p = \binom{k-1}{r-1} p^r (1-p)^{k-r}, \quad k = r, r+1, r+2, \ldots \]

期望与方差：
对于服从负二项分布 $X \sim \text{NegativeBinomial}(r, p)$ 的随机变量 $X$，其期望 $E[X]$ 和方差 $\text{Var}(X)$ 可以计算如下：

期望 (Expectation)：
\[ E[X] = \frac{r}{p} \]
负二项分布的期望是 $r/p$，表示平均需要 $r/p$ 次试验才能获得 $r$ 次成功。例如，如果需要 3 次成功（$r=3\）），成功概率 \(p=0.5$，平均需要 $3/0.5 = 6$ 次试验。

方差 (Variance)：
\[ \text{Var}(X) = \frac{r(1-p)}{p^2} \]
标准差 (Standard Deviation) $\sigma_X = \sqrt{\text{Var}(X)} = \sqrt{\frac{r(1-p)}{p^2}} = \frac{\sqrt{r(1-p)}}{p}$。

与几何分布的关系：
当 $r=1$ 时，负二项分布退化为几何分布。
\[ P(X=k) = \binom{k-1}{1-1} p^1 (1-p)^{k-1} = \binom{k-1}{0} p (1-p)^{k-1} = (1-p)^{k-1} p, \quad k = 1, 2, 3, \ldots \]
这正是几何分布的概率质量函数 (PMF)。因此，几何分布是负二项分布的一个特例。

应用场景：
负二项分布适用于模拟需要多次成功事件的场景，例如：

① 销售人员的业绩：
假设销售人员每次拜访客户成功签单的概率为 $p$。销售人员需要签 $r$ 个订单才能完成任务。拜访客户的总次数服从负二项分布。

② 篮球比赛中的投篮：
假设篮球运动员每次投篮命中的概率为 $p$。运动员需要投中 $r$ 个球才能结束训练。投篮的总次数服从负二项分布。

③ 网络服务器的请求处理：
假设网络服务器每次处理请求成功的概率为 $p$。服务器需要成功处理 $r$ 个请求才能完成一批任务。尝试处理请求的总次数服从负二项分布。

④ 生物学研究：
在生物学研究中，例如昆虫捕捉实验，假设每次捕捉到特定昆虫的概率为 $p$。研究人员需要捕捉到 $r$ 只昆虫才能完成实验。捕捉的总次数服从负二项分布。

示例 5.4.1：
某篮球运动员每次投篮命中的概率为 $p=0.7$。求他投中 3 个球需要投篮 5 次的概率。
这里 $r=3$，$k=5$，$p=0.7$。设随机变量 $X$ 表示投中 3 个球所需的投篮次数，则 $X \sim \text{NegativeBinomial}(3, 0.7)$。
我们需要计算 $P(X=5)$：
\[ P(X=5) = \binom{5-1}{3-1} (0.7)^3 (1-0.7)^{5-3} = \binom{4}{2} (0.7)^3 (0.3)^2 \]
计算二项式系数：
\[ \binom{4}{2} = \frac{4!}{2!(4-2)!} = \frac{4!}{2!2!} = \frac{4 \times 3}{2 \times 1} = 6 \]
所以，
\[ P(X=5) = 6 \times (0.7)^3 \times (0.3)^2 = 6 \times 0.343 \times 0.09 = 0.18522 \]
因此，该篮球运动员投中 3 个球需要投篮 5 次的概率约为 0.185。

5.5 本章小结与习题 (Chapter Summary and Exercises)

本章小结：
本章介绍了四种重要的离散概率分布：伯努利分布 (Bernoulli Distribution)、二项分布 (Binomial Distribution)、几何分布 (Geometric Distribution) 和负二项分布 (Negative Binomial Distribution)。这些分布在概率论和统计学中占据着核心地位，并在实际应用中非常广泛。

⚝ 伯努利分布：描述单次伯努利试验的结果，只有成功和失败两种结果，参数为成功概率 $p$。
⚝ 二项分布：描述 $n$ 次独立重复伯努利试验中成功的次数，参数为试验次数 $n$ 和成功概率 $p$。
⚝ 几何分布：描述首次成功所需的试验次数，参数为成功概率 $p$，具有无记忆性。
⚝ 负二项分布：描述达到 $r$ 次成功所需的试验次数，参数为成功次数 $r$ 和成功概率 $p$，是几何分布的推广。

理解这些分布的定义、性质、概率质量函数 (PMF)、累积分布函数 (CDF)、期望和方差，以及它们的应用场景，对于掌握离散概率至关重要。这些分布不仅是理论基础，也是解决实际问题的有力工具。

习题：

伯努利分布：
假设某地区人群中患有某种疾病的概率为 0.05。随机抽取一人进行检查，求此人患病的概率分布。写出其概率质量函数 (PMF)、期望和方差。
二项分布：
某公司生产的灯泡，合格率为 0.9。随机抽取 20 个灯泡进行检验，求：
(a) 恰好有 18 个合格的概率。
(b) 至少有 18 个合格的概率。
(c) 合格灯泡数量的期望和方差。
几何分布：
某射击运动员每次射击命中目标的概率为 0.8。假设每次射击是独立的，求：
(a) 第一次命中目标发生在第三次射击的概率。
(b) 在三次射击内至少命中一次目标的概率。
(c) 平均需要射击多少次才能第一次命中目标？
负二项分布：
某推销员每次拜访客户成功推销产品的概率为 0.4。他需要成功推销 5 件产品才能完成任务。求：
(a) 他拜访 10 位客户才能完成任务的概率。
(b) 他需要拜访客户次数的期望和方差。
分布选择：
针对以下场景，选择合适的离散分布模型（伯努利分布、二项分布、几何分布、负二项分布）并说明理由：
(a) 检查 100 件产品中不合格品的数量。
(b) 连续抛硬币，直到出现反面为止，记录抛掷次数。
(c) 调查一位顾客是否会购买某种新产品。
(d) 某工厂需要生产 20 个合格零件才能完成一批订单，记录生产过程中不合格零件的数量（直到生产出 20 个合格零件为止）。 (提示：考虑负二项分布的另一种定义，即失败次数)

6. chapter 6：几种重要的离散分布 (Important Discrete Distributions - Part 2)

6.1 泊松分布 (Poisson Distribution)

6.1.1 泊松分布的推导与意义 (Derivation and Significance of Poisson Distribution)

泊松分布 (Poisson Distribution) 是一种描述在固定时间或空间内，随机事件发生次数的离散概率分布。它特别适用于稀有事件的建模，例如在一定时间内某地区发生的交通事故数、某医院一天内接待的急诊病人数量、或者在一定长度的电话线路中发现的缺陷数等。

推导 (Derivation):

泊松分布可以从二项分布 (Binomial Distribution) 在特定条件下推导出来。考虑一个二项分布，其中进行了 $n$ 次独立试验，每次试验成功的概率为 $p$。当试验次数 $n$ 非常大，而每次试验成功的概率 $p$ 非常小，但乘积 $ \lambda = np $ 保持为一个常数时，二项分布就近似于泊松分布。这里的 $ \lambda $ 代表单位时间或空间内事件发生的平均次数（速率）。

具体推导过程如下：

假设我们想计算在 $n$ 次试验中，事件发生 $k$ 次的概率，二项分布的概率质量函数 (Probability Mass Function, PMF) 为：
\[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k} \]
其中，$ \binom{n}{k} = \frac{n!}{k!(n-k)!} $ 是二项式系数。

现在，我们令 $n \to \infty$，$p \to 0$，但保持 $np = \lambda$ 为常数。因此，$p = \frac{\lambda}{n}$。将 $p = \frac{\lambda}{n}$ 代入二项分布的 PMF，并进行极限运算：

\[ P(X=k) = \binom{n}{k} \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} \]

展开二项式系数：
\[ P(X=k) = \frac{n!}{k!(n-k)!} \frac{\lambda^k}{n^k} \left(1-\frac{\lambda}{n}\right)^{n-k} \]

整理表达式：
\[ P(X=k) = \frac{n(n-1)\cdots(n-k+1)}{k!} \frac{\lambda^k}{n^k} \left(1-\frac{\lambda}{n}\right)^{n-k} \]
\[ P(X=k) = \frac{\lambda^k}{k!} \cdot \frac{n(n-1)\cdots(n-k+1)}{n^k} \cdot \left(1-\frac{\lambda}{n}\right)^{n-k} \]

当 $n \to \infty$ 时，我们分别考虑各项的极限：

① $ \lim_{n \to \infty} \frac{n(n-1)\cdots(n-k+1)}{n^k} = \lim_{n \to \infty} \frac{n}{n} \cdot \frac{n-1}{n} \cdots \frac{n-k+1}{n} = 1 \cdot 1 \cdots 1 = 1 $

② $ \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{n-k} = \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{n} \cdot \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{-k} $
由于 $ \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{n} = e^{-\lambda} $ 并且 $ \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{-k} = 1^{-k} = 1 $，所以
$ \lim_{n \to \infty} \left(1-\frac{\lambda}{n}\right)^{n-k} = e^{-\lambda} $

将上述极限代入 $P(X=k)$ 的表达式，得到泊松分布的概率质量函数 (PMF)：
\[ P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}, \quad k = 0, 1, 2, \ldots \]
其中，$ \lambda > 0 $ 是泊松分布的参数，表示单位时间或空间内事件发生的平均次数。

意义 (Significance):

泊松分布的意义在于它提供了一个强大的工具来建模和分析稀有事件的发生规律。它的重要性体现在以下几个方面：

① 稀有事件建模 (Modeling Rare Events): 泊松分布非常适合描述在大量试验中，每次试验成功的概率很小，但总的成功次数却不是很少的情况。例如，在电话交换机系统中，单位时间内接到的呼叫次数；在放射性物质衰变过程中，单位时间内放射出的粒子数；在生产过程中，单位面积产品上的缺陷数等。

② 独立增量性 (Independent Increments): 泊松过程 (Poisson Process) 是泊松分布的基础，它假设在不重叠的时间区间内，事件的发生是独立的。这意味着在一个时间区间内发生的事件数量不会影响到另一个不相交时间区间内事件的发生数量。

③ 参数 $ \lambda $ 的解释 (Interpretation of Parameter $ \lambda $): 泊松分布只有一个参数 $ \lambda $，它代表单位时间或空间内事件发生的平均次数。$ \lambda $ 既是泊松分布的期望 (Expectation) 也是方差 (Variance)。这使得泊松分布的参数具有非常直观的物理意义。

④ 广泛的应用 (Wide Applications): 泊松分布在自然科学、工程技术、社会科学等领域都有广泛的应用，例如：
⚝ 排队论 (Queuing Theory): 顾客到达服务台的数量通常可以用泊松分布来建模。
⚝ 风险管理 (Risk Management): 保险行业中，意外事故的发生次数可以用泊松分布来预测。
⚝ 通信工程 (Communication Engineering): 电话呼叫、网络数据包到达等可以用泊松分布来描述。
⚝ 生物学 (Biology): 细菌在培养皿中的分布、基因突变的次数等可以用泊松分布来分析。
⚝ 物理学 (Physics): 放射性衰变事件、宇宙射线到达地球的次数等可以用泊松分布来建模。
⚝ 计算机科学 (Computer Science): 哈希冲突的次数、服务器接收请求的次数等。

总结 (Summary):

泊松分布是通过二项分布在 $n \to \infty$，$p \to 0$，$np = \lambda$ 条件下的极限得到的。它描述了在固定时间或空间内随机事件发生的次数，参数 $ \lambda $ 代表事件发生的平均速率。泊松分布在建模稀有事件、排队现象、随机到达过程等方面具有重要的理论价值和广泛的应用前景。理解泊松分布的推导和意义，有助于我们更好地应用它来解决实际问题。

6.1.2 泊松分布的应用 (Applications of Poisson Distribution)

泊松分布由于其独特的性质和对稀有事件的良好建模能力，在众多领域都有广泛的应用。以下列举一些典型的应用场景，并结合案例进行说明。

① 排队论 (Queuing Theory)

在排队论中，顾客到达服务系统的数量常常被建模为泊松过程 (Poisson Process)，即单位时间内到达的顾客数服从泊松分布。例如，考虑一个银行的柜台服务系统：

案例 1：银行柜台顾客到达模型

假设某银行在工作日的上午 9:00 到 10:00 之间，平均每分钟到达 2 位顾客。我们可以假设顾客的到达过程是泊松过程，到达速率 $ \lambda = 2 $ 人/分钟。那么，在任意一分钟内，到达 $k$ 位顾客的概率可以用泊松分布计算：
\[ P(X=k) = \frac{2^k}{k!} e^{-2}, \quad k = 0, 1, 2, \ldots \]
例如，计算在一分钟内没有顾客到达的概率（$k=0\））： \[ P(X=0) = \frac{2^0}{0!} e^{-2} = e^{-2} \approx 0.135 \] 计算在一分钟内到达 3 位顾客的概率（\(k=3\））： \[ P(X=3) = \frac{2^3}{3!} e^{-2} = \frac{8}{6} e^{-2} = \frac{4}{3} e^{-2} \approx 0.180 \] **② 通信工程 (Communication Engineering)** 在通信系统中，例如电话交换机、网络服务器等，单位时间内接收到的呼叫或请求的数量常常可以用泊松分布来描述。 **案例 2：呼叫中心呼叫量模型** 某呼叫中心平均每小时接到 30 个呼叫。假设呼叫到达过程服从泊松分布，到达速率 \( \lambda = 30 $ 呼叫/小时。那么，在一个小时内接到 $k$ 个呼叫的概率为：
\[ P(X=k) = \frac{30^k}{k!} e^{-30}, \quad k = 0, 1, 2, \ldots \]
例如，计算在一个小时内接到少于 20 个呼叫的概率：
\[ P(X < 20) = \sum_{k=0}^{19} \frac{30^k}{k!} e^{-30} \]
这个概率可以通过累加泊松分布的 PMF 值来计算。

③ 质量控制 (Quality Control)

在制造业中，产品上的缺陷数、机器故障的次数等可以用泊松分布来建模。

案例 3：产品缺陷数模型

某工厂生产的电子元件，平均每 100 个元件中出现 2 个缺陷。假设缺陷的出现是随机且独立的，可以用泊松分布来描述。以每 100 个元件为一个单位，缺陷的平均数 $ \lambda = 2 $。那么，在每 100 个元件中发现 $k$ 个缺陷的概率为：
\[ P(X=k) = \frac{2^k}{k!} e^{-2}, \quad k = 0, 1, 2, \ldots \]
例如，计算每 100 个元件中没有缺陷的概率（$k=0\））： \[ P(X=0) = \frac{2^0}{0!} e^{-2} = e^{-2} \approx 0.135 \] 计算每 100 个元件中缺陷数超过 4 个的概率： \[ P(X > 4) = 1 - P(X \leq 4) = 1 - \sum_{k=0}^{4} \frac{2^k}{k!} e^{-2} \] **④ 生物学与医学 (Biology and Medicine)** 在生物学和医学研究中，泊松分布可以用来描述细胞计数、细菌分布、基因突变次数、疾病发生次数等。 **案例 4：显微镜下细胞计数** 在显微镜下观察细胞样本时，单位面积视野中细胞的数量可以近似用泊松分布来描述。假设在某视野下，平均细胞数为 5 个。那么，在视野中观察到 \(k$ 个细胞的概率为：
\[ P(X=k) = \frac{5^k}{k!} e^{-5}, \quad k = 0, 1, 2, \ldots \]
例如，计算在视野中观察到 8 个或更多细胞的概率：
\[ P(X \geq 8) = 1 - P(X < 8) = 1 - \sum_{k=0}^{7} \frac{5^k}{k!} e^{-5} \]

⑤ 风险管理与保险 (Risk Management and Insurance)

在保险行业中，意外事件（如交通事故、火灾等）的发生次数可以用泊松分布来预测，从而帮助保险公司评估风险和制定保费。

案例 5：交通事故发生次数模型

某城市在一年内平均发生 1000 起交通事故。假设交通事故的发生是随机的，可以用泊松分布来建模。以年为单位，交通事故的平均发生次数 $ \lambda = 1000 $。那么，一年内发生 $k$ 起交通事故的概率为：
\[ P(X=k) = \frac{1000^k}{k!} e^{-1000}, \quad k = 0, 1, 2, \ldots \]
例如，计算一年内发生少于 950 起交通事故的概率：
\[ P(X < 950) = \sum_{k=0}^{949} \frac{1000^k}{k!} e^{-1000} \]
由于 $ \lambda = 1000 $ 较大，直接计算累加和比较复杂，在实际应用中，可能会使用正态分布近似 (Normal Approximation) 或其他数值计算方法。

⑥ 计算机科学 (Computer Science)

在计算机科学中，泊松分布可以应用于哈希表冲突分析、网络数据包到达模型、随机算法分析等。

案例 6：哈希表冲突分析

假设我们使用一个大小为 $m$ 的哈希表，并随机地将 $n$ 个键值插入到哈希表中。如果哈希函数将每个键值均匀地映射到 $m$ 个槽位中的任何一个，那么当 $n$ 远小于 $m$ 时，每个槽位中冲突的次数可以近似用泊松分布来描述。平均冲突次数 $ \lambda \approx \frac{n}{m} $。

总结 (Summary):

泊松分布在各个领域都有广泛的应用，从排队论、通信工程到质量控制、生物医学、风险管理和计算机科学。通过合理地假设事件的发生过程满足泊松过程的条件（独立性、平稳性、稀有性），我们可以使用泊松分布来建模和分析各种实际问题，进行概率计算和预测，为决策提供支持。理解泊松分布的应用场景，有助于我们更好地运用概率统计方法解决实际问题。

6.2 超几何分布 (Hypergeometric Distribution)

超几何分布 (Hypergeometric Distribution) 描述的是不放回抽样的情况下，从一个有限总体中抽取若干个个体，其中具有某种特定属性的个体数量的概率分布。它与二项分布类似，都是描述成功次数的分布，但二项分布是放回抽样或总体无限的情况，而超几何分布是不放回抽样且总体有限的情况。

场景描述 (Scenario Description):

假设在一个有限的总体中，共有 $N$ 个个体，其中具有某种特定属性的个体有 $K$ 个（称为成功个体），不具有该属性的个体有 $N-K$ 个（称为失败个体）。我们从中不放回地随机抽取 $n$ 个个体。我们感兴趣的是，在这抽取的 $n$ 个个体中，恰好有 $k$ 个是成功个体的概率。

概率质量函数 (Probability Mass Function, PMF):

超几何分布的概率质量函数 (PMF) 为：
\[ P(X=k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]
其中，

⚝ $N$：总体大小 (Total population size)。
⚝ $K$：总体中成功个体的数量 (Number of success individuals in the population)。
⚝ $n$：抽取的样本大小 (Sample size drawn without replacement)。
⚝ $k$：抽取的样本中成功个体的数量 (Number of success individuals in the sample)。

参数的取值范围：

⚝ $k$ 的取值范围：$ \max(0, n-(N-K)) \leq k \leq \min(n, K) $。
▮▮▮▮⚝ 下限 $ \max(0, n-(N-K)) $ 保证了抽取的成功个体数 $k$ 至少为 0，且最多为 $n-(N-K)$ （如果抽取的样本数 $n$ 超过了失败个体数 $N-K$，则至少要抽取 $n-(N-K)$ 个成功个体）。
▮▮▮▮⚝ 上限 $ \min(n, K) $ 保证了抽取的成功个体数 $k$ 不超过样本大小 $n$ 和总体中成功个体数 $K$。
⚝ $N, K, n$ 均为正整数，且 $n \leq N$，$K \leq N$，$0 \leq k \leq n$，$0 \leq k \leq K$。

推导 (Derivation):

超几何分布的 PMF 可以通过组合计数的方法推导出来。

① 从总体 $N$ 个个体中抽取 $n$ 个个体的总方法数是 $ \binom{N}{n} $。这是样本空间的总大小。

② 要抽取到恰好 $k$ 个成功个体，我们需要：
▮▮▮▮ⓑ 从 $K$ 个成功个体中抽取 $k$ 个，方法数为 $ \binom{K}{k} $。
▮▮▮▮ⓒ 从 $N-K$ 个失败个体中抽取 $n-k$ 个，方法数为 $ \binom{N-K}{n-k} $。

根据乘法原理，抽取到恰好 $k$ 个成功个体和 $n-k$ 个失败个体的方法数是 $ \binom{K}{k} \binom{N-K}{n-k} $。

因此，抽取到恰好 $k$ 个成功个体的概率为：
\[ P(X=k) = \frac{\text{有利结果数}}{\text{总结果数}} = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} \]

期望与方差 (Expectation and Variance):

超几何分布的期望 (Expectation) 和方差 (Variance) 为：

⚝ 期望 (Mean): $ E(X) = n \frac{K}{N} $
⚝ 方差 (Variance): $ Var(X) = n \frac{K}{N} \left(1 - \frac{K}{N}\right) \frac{N-n}{N-1} $

与二项分布的比较 (Comparison with Binomial Distribution):

特征 (Feature)	超几何分布 (Hypergeometric Distribution)	二项分布 (Binomial Distribution)
抽样方式 (Sampling)	不放回抽样 (Sampling without replacement)	放回抽样 (Sampling with replacement) 或总体无限 (Infinite population)
总体大小 (Population Size)	有限总体 (Finite population) $N$	无限总体 (Infinite population) 或近似无限 (Approximately infinite population)
每次试验成功概率 (Success Probability)	每次抽样成功概率会变化 (Probability of success changes with each draw)	每次试验成功概率固定为 $p$ (Probability of success is constant $p$)
应用场景 (Applications)	有限总体不放回抽样问题，如彩票、产品检验等 (Finite population sampling without replacement)	独立重复试验，每次试验结果二元，如抛硬币、产品合格率等 (Independent and identical trials)

应用案例 (Application Examples):

案例 1：产品质量检验 (Quality Inspection)

一批产品共 100 件，其中有 10 件次品。从中不放回地随机抽取 5 件进行检验。求抽取的 5 件产品中恰好有 2 件次品的概率。

⚝ $N = 100$ (总体产品数量)
⚝ $K = 10$ (总体次品数量)
⚝ $n = 5$ (抽取的样本数量)
⚝ $k = 2$ (样本中次品数量)

使用超几何分布公式计算：
\[ P(X=2) = \frac{\binom{10}{2} \binom{100-10}{5-2}}{\binom{100}{5}} = \frac{\binom{10}{2} \binom{90}{3}}{\binom{100}{5}} \]
计算组合数：
$ \binom{10}{2} = \frac{10 \times 9}{2 \times 1} = 45 $
$ \binom{90}{3} = \frac{90 \times 89 \times 88}{3 \times 2 \times 1} = 117480 $
$ \binom{100}{5} = \frac{100 \times 99 \times 98 \times 97 \times 96}{5 \times 4 \times 3 \times 2 \times 1} = 75287520 $

\[ P(X=2) = \frac{45 \times 117480}{75287520} \approx \frac{5286600}{75287520} \approx 0.0702 \]
因此，抽取的 5 件产品中恰好有 2 件次品的概率约为 0.0702。

案例 2：彩票中奖概率 (Lottery Probability)

某种彩票从 35 个号码中不放回地随机抽取 7 个作为中奖号码。某人购买了一张彩票，选择了 7 个号码。求该彩票恰好中了 4 个号码的概率。

⚝ $N = 35$ (总号码数)
⚝ $K = 7$ (中奖号码数)
⚝ $n = 7$ (购买彩票选择的号码数)
⚝ $k = 4$ (中奖号码数)

使用超几何分布公式计算：
\[ P(X=4) = \frac{\binom{7}{4} \binom{35-7}{7-4}}{\binom{35}{7}} = \frac{\binom{7}{4} \binom{28}{3}}{\binom{35}{7}} \]
计算组合数：
$ \binom{7}{4} = \frac{7 \times 6 \times 5}{3 \times 2 \times 1} = 35 $
$ \binom{28}{3} = \frac{28 \times 27 \times 26}{3 \times 2 \times 1} = 3276 $
$ \binom{35}{7} = \frac{35 \times 34 \times 33 \times 32 \times 31 \times 30 \times 29}{7 \times 6 \times 5 \times 4 \times 3 \times 2 \times 1} = 6724520 $

\[ P(X=4) = \frac{35 \times 3276}{6724520} = \frac{114660}{6724520} \approx 0.0170 \]
因此，该彩票恰好中了 4 个号码的概率约为 0.0170。

总结 (Summary):

超几何分布适用于描述有限总体不放回抽样中，抽取到特定属性个体数量的概率。其 PMF 由组合数构成，参数包括总体大小 $N$、总体中成功个体数 $K$、样本大小 $n$。超几何分布在产品质量检验、彩票中奖概率计算、捕鱼业资源评估等领域有重要应用。理解超几何分布的关键在于区分其与二项分布的应用场景，即是否为不放回抽样和有限总体。

6.3 离散均匀分布 (Discrete Uniform Distribution)

离散均匀分布 (Discrete Uniform Distribution) 是最简单的离散概率分布之一。它描述了在有限个等可能结果中，每个结果发生的概率都相等的概率分布。

定义 (Definition):

如果一个离散随机变量 $X$ 的所有可能取值是有限的，例如 $ \{x_1, x_2, \ldots, x_n\} $，并且每个取值发生的概率都相等，即 $ P(X=x_i) = p $ 对于所有 $i = 1, 2, \ldots, n $，那么 $X$ 服从离散均匀分布。由于概率之和必须为 1，所以 $ \sum_{i=1}^{n} P(X=x_i) = np = 1 $，因此 $ p = \frac{1}{n} $。

概率质量函数 (Probability Mass Function, PMF):

离散均匀分布的概率质量函数 (PMF) 为：
\[ P(X=x) = \begin{cases} \frac{1}{n}, & \text{if } x \in \{x_1, x_2, \ldots, x_n\} \\ 0, & \text{otherwise} \end{cases} \]
更常见的情况是，离散均匀分布的取值范围是连续整数集合 $ \{a, a+1, \ldots, b\} $，其中 $a$ 和 $b$ 是整数且 $a \leq b$。此时，可能取值的个数为 $n = b - a + 1$，PMF 为：
\[ P(X=x) = \begin{cases} \frac{1}{b-a+1}, & \text{if } x \in \{a, a+1, \ldots, b\} \\ 0, & \text{otherwise} \end{cases} \]

期望与方差 (Expectation and Variance):

对于取值范围为 $ \{a, a+1, \ldots, b\} $ 的离散均匀分布，其期望 (Expectation) 和方差 (Variance) 为：

⚝ 期望 (Mean): $ E(X) = \frac{a+b}{2} $
⚝ 方差 (Variance): $ Var(X) = \frac{(b-a+1)^2 - 1}{12} = \frac{(b-a)(b-a+2)}{12} $

推导期望 (Derivation of Expectation):

\[ E(X) = \sum_{x=a}^{b} x P(X=x) = \sum_{x=a}^{b} x \frac{1}{b-a+1} = \frac{1}{b-a+1} \sum_{x=a}^{b} x \]
利用等差数列求和公式 $ \sum_{x=a}^{b} x = \frac{(a+b)(b-a+1)}{2} $，得到：
\[ E(X) = \frac{1}{b-a+1} \cdot \frac{(a+b)(b-a+1)}{2} = \frac{a+b}{2} \]

推导方差 (Derivation of Variance):

首先计算 $ E(X^2) $：
\[ E(X^2) = \sum_{x=a}^{b} x^2 P(X=x) = \sum_{x=a}^{b} x^2 \frac{1}{b-a+1} = \frac{1}{b-a+1} \sum_{x=a}^{b} x^2 \]
利用平方和公式 $ \sum_{x=1}^{n} x^2 = \frac{n(n+1)(2n+1)}{6} $，可以推导出 $ \sum_{x=a}^{b} x^2 = \sum_{x=1}^{b} x^2 - \sum_{x=1}^{a-1} x^2 $。
或者直接使用公式 $ \sum_{i=0}^{n} (a+id)^2 = (n+1)a^2 + na(n+1)d + \frac{n(n+1)(2n+1)}{6}d^2 $，当 $d=1$ 时，
\[ \sum_{x=a}^{b} x^2 = \sum_{i=0}^{b-a} (a+i)^2 = (b-a+1)a^2 + (b-a)a(b-a+1) + \frac{(b-a)(b-a+1)(2(b-a)+1)}{6} \]
化简后得到：
\[ \sum_{x=a}^{b} x^2 = \frac{(b-a+1)(b^2+ba+a^2+b+a)}{3} \]
因此，
\[ E(X^2) = \frac{b^2+ba+a^2+b+a}{3} \]
方差 $ Var(X) = E(X^2) - [E(X)]^2 = \frac{b^2+ba+a^2+b+a}{3} - \left(\frac{a+b}{2}\right)^2 $
化简后得到：
\[ Var(X) = \frac{(b-a+1)^2 - 1}{12} = \frac{(b-a)(b-a+2)}{12} \]

应用案例 (Application Examples):

案例 1：掷骰子 (Rolling a Fair Die)

掷一个均匀的六面骰子，其结果服从离散均匀分布，取值范围为 $ \{1, 2, 3, 4, 5, 6\} $。每个点数出现的概率都是 $ \frac{1}{6} $。

⚝ $a = 1$, $b = 6$, $n = b-a+1 = 6$
⚝ PMF: $ P(X=x) = \frac{1}{6}, \quad x \in \{1, 2, 3, 4, 5, 6\} $
⚝ 期望: $ E(X) = \frac{1+6}{2} = 3.5 $
⚝ 方差: $ Var(X) = \frac{(6-1+1)^2 - 1}{12} = \frac{36-1}{12} = \frac{35}{12} \approx 2.917 $

案例 2：随机数生成 (Random Number Generation)

在计算机程序中，生成指定范围内的均匀随机整数，例如生成 1 到 100 之间的随机整数，通常可以使用离散均匀分布。

案例 3：抽签 (Drawing Lots)

在一个抽签活动中，假设有 $N$ 张签，其中只有一张是中奖签。如果随机抽取一张签，那么抽到每张签的概率都是 $ \frac{1}{N} $。如果签的编号为 $ \{1, 2, \ldots, N\} $，则抽到的签号服从 $ \{1, 2, \ldots, N\} $ 上的离散均匀分布。

总结 (Summary):

离散均匀分布是最简单的离散分布，它描述了有限个等可能结果的概率分布。其特点是所有可能取值的概率相等。离散均匀分布在掷骰子、随机数生成、抽签等简单随机现象中广泛应用。理解离散均匀分布是学习其他复杂离散分布的基础。

6.4 分布之间的关系 (Relationships Between Distributions)

离散概率分布之间存在着密切的联系，有些分布可以通过其他分布在特定条件下近似或推导得到。理解这些关系有助于我们更灵活地选择合适的分布来建模实际问题，并加深对各种分布性质的理解。

① 二项分布与泊松分布 (Binomial Distribution and Poisson Distribution)

⚝ 关系 (Relationship): 当二项分布的试验次数 $n$ 很大，而每次试验成功的概率 $p$ 很小，但乘积 $ \lambda = np $ 保持为一个常数时，二项分布可以近似为泊松分布。
⚝ 条件 (Condition): $n \to \infty$, $p \to 0$, $np = \lambda$ (常数)。
⚝ 应用 (Application): 当需要计算二项分布概率，但 $n$ 很大 $p$ 很小时，可以使用泊松分布近似计算，简化计算过程。例如，计算 $B(1000, 0.001)$ 的概率，可以使用 $Pois(\lambda=1)$ 近似。

② 二项分布与正态分布 (Binomial Distribution and Normal Distribution)

⚝ 关系 (Relationship): 当二项分布的试验次数 $n$ 足够大时，二项分布可以近似为正态分布。
⚝ 条件 (Condition): $n$ 足够大，通常要求 $np \geq 5$ 且 $n(1-p) \geq 5$。
⚝ 应用 (Application): 当 $n$ 较大时，计算二项分布的累积概率 $P(X \leq k)$ 可以使用正态分布近似，简化计算。近似的正态分布的均值为 $ \mu = np $，方差为 $ \sigma^2 = np(1-p) $。需要进行连续性修正 (Continuity Correction) 以提高近似精度。例如，$P(X \leq k)$ 可以近似为 $P(Y \leq k + 0.5)$，其中 $Y \sim N(np, np(1-p))$。

③ 泊松分布与正态分布 (Poisson Distribution and Normal Distribution)

⚝ 关系 (Relationship): 当泊松分布的参数 $ \lambda $ 较大时（通常 $ \lambda \geq 10 \）），泊松分布可以近似为正态分布。 ⚝ **条件 (Condition):** \( \lambda $ 较大，通常 $ \lambda \geq 10 $。
⚝ 应用 (Application): 当 $ \lambda $ 较大时，计算泊松分布的累积概率 $P(X \leq k)$ 可以使用正态分布近似，简化计算。近似的正态分布的均值和方差均为 $ \lambda $。同样需要进行连续性修正。例如，$P(X \leq k)$ 可以近似为 $P(Y \leq k + 0.5)$，其中 $Y \sim N(\lambda, \lambda)$。

④ 几何分布与指数分布 (Geometric Distribution and Exponential Distribution)

⚝ 关系 (Relationship): 几何分布是离散时间下的“无记忆性”分布，而指数分布是连续时间下的“无记忆性”分布。当几何分布的成功概率 $p$ 很小时，它可以近似为指数分布。
⚝ 条件 (Condition): 几何分布的成功概率 $p$ 很小。
⚝ 应用 (Application): 在某些情况下，可以用指数分布近似描述等待首次成功的时间，尤其当成功事件非常稀有时。

⑤ 二项分布与超几何分布 (Binomial Distribution and Hypergeometric Distribution)

⚝ 关系 (Relationship): 当超几何分布的总体大小 $N$ 远大于样本大小 $n$ 时（通常 $N \geq 20n$，或 $N$ 远大于 $K$ 和 $N-K$），超几何分布可以近似为二项分布。
⚝ 条件 (Condition): $N \to \infty$，或者 $N$ 远大于 $n$，$K$，$N-K$。
⚝ 应用 (Application): 当总体很大，样本相对较小时，不放回抽样与放回抽样在概率上差异很小，因此可以使用更简单的二项分布来近似超几何分布，简化计算。二项分布的成功概率 $p = \frac{K}{N}$。

总结 (Summary):

理解离散分布之间的关系，特别是近似关系，对于实际应用非常重要。在某些情况下，使用近似分布可以简化计算，或者在理论分析中提供方便。例如，当处理大样本或稀有事件时，使用正态分布或泊松分布近似二项分布可以大大简化计算。同样，在总体很大时，使用二项分布近似超几何分布也是一种常用的简化方法。需要注意的是，近似分布的使用都有一定的条件，需要根据具体情况判断近似的精度是否满足要求。

6.5 本章小结与习题 (Chapter Summary and Exercises)

本章小结 (Chapter Summary):

本章我们深入探讨了几种重要的离散概率分布，作为“几种重要的离散分布 (Important Discrete Distributions)”系列的第二部分。主要内容包括：

① 泊松分布 (Poisson Distribution): 详细介绍了泊松分布的推导过程，从二项分布极限出发，阐述了泊松分布的意义，即描述固定时间或空间内稀有事件发生次数的分布。并通过多个案例，展示了泊松分布在排队论、通信工程、质量控制、生物医学、风险管理、计算机科学等领域的广泛应用。

② 超几何分布 (Hypergeometric Distribution): 深入讲解了超几何分布，强调其适用于不放回抽样、有限总体的情况，并给出了概率质量函数 (PMF)、期望、方差的公式。通过与二项分布的对比，突出了超几何分布的特点和应用场景，并通过产品质量检验和彩票中奖概率的案例，具体说明了超几何分布的应用。

③ 离散均匀分布 (Discrete Uniform Distribution): 介绍了最简单的离散分布——离散均匀分布，其特点是所有可能取值的概率相等。给出了 PMF、期望、方差的公式，并通过掷骰子、随机数生成、抽签等案例，展示了离散均匀分布的应用。

④ 分布之间的关系 (Relationships Between Distributions): 讨论了离散分布之间以及离散分布与连续分布之间的近似关系，包括二项分布与泊松分布、二项分布与正态分布、泊松分布与正态分布、几何分布与指数分布、超几何分布与二项分布的近似关系，并阐述了各种近似成立的条件和应用场景。

通过本章的学习，读者应该掌握泊松分布、超几何分布、离散均匀分布的定义、性质、应用场景，并理解它们与其他分布之间的联系，为后续学习和应用离散概率分布打下坚实的基础。

习题 (Exercises):

泊松分布应用题： 某城市市中心在高峰时段平均每小时发生 3 起交通事故。假设交通事故的发生服从泊松分布。
(a) 求在接下来的 30 分钟内，该市中心没有发生交通事故的概率。
(b) 求在接下来的 2 小时内，该市中心发生 5 起或更多交通事故的概率。
超几何分布应用题： 一个盒子中有 20 个灯泡，其中 5 个是坏的。从中随机不放回地抽取 4 个灯泡。
(a) 求抽取的 4 个灯泡中恰好有 2 个是坏的概率。
(b) 求抽取的 4 个灯泡中坏灯泡数量的期望值。
离散均匀分布应用题： 假设一个随机数生成器产生 1 到 10 之间的均匀分布的整数。
(a) 写出该随机变量的概率质量函数 (PMF)。
(b) 求该随机变量的期望和方差。
(c) 求该随机变量取值为奇数的概率。
分布关系题： 某工厂生产一批产品，次品率为 0.01。现随机抽取 200 件产品进行检验。
(a) 使用二项分布计算抽取的样本中次品数不超过 3 件的概率。
(b) 使用泊松分布近似计算 (a) 中的概率，并比较结果。
(c) 讨论在什么情况下可以使用泊松分布近似二项分布？
综合应用题： 某网站服务器平均每秒收到 50 个请求，请求到达过程可以近似为泊松过程。服务器在处理请求时，如果请求过多导致排队，则可能发生延迟。
(a) 求在 0.1 秒内，服务器收到超过 10 个请求的概率。
(b) 如果服务器每秒最多能处理 60 个请求，求在 1 秒内，请求数量超过服务器处理能力的概率。
(c) 假设每当请求数量超过 70 个时，服务器会发出警报。求在 1 秒内，服务器发出警报的概率。

希望这些习题能够帮助读者巩固本章所学的知识，并提升应用离散概率分布解决实际问题的能力。在解答习题时，请仔细分析问题背景，选择合适的分布模型，并正确运用公式进行计算。如有疑问，请回顾本章内容或查阅相关资料。

7. chapter 7：多维离散分布 (Multivariate Discrete Distributions)

7.1 联合概率分布 (Joint Probability Distributions)

在之前的章节中，我们主要关注的是单个离散随机变量的概率分布。然而，在现实世界的许多问题中，我们往往需要同时考虑多个随机变量。例如，在掷骰子的实验中，我们可能同时关注两个骰子的点数；在调查家庭情况时，我们可能同时关注家庭的收入和子女的数量。为了描述多个随机变量的概率行为，我们需要引入联合概率分布 (Joint Probability Distributions) 的概念。

定义 7.1.1 (联合概率质量函数)

设 $X_1, X_2, \ldots, X_n$ 是定义在同一个样本空间上的 $n$ 个离散随机变量。它们的联合概率质量函数 (Joint Probability Mass Function, Joint PMF) $f(x_1, x_2, \ldots, x_n)$ 定义为：

\[ f(x_1, x_2, \ldots, x_n) = P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) \]

其中，$x_1, x_2, \ldots, x_n$ 是各个随机变量可能取的值。联合 PMF 描述了随机向量 $(X_1, X_2, \ldots, X_n)$ 取特定值 $(x_1, x_2, \ldots, x_n)$ 的概率。

对于联合 PMF $f(x_1, x_2, \ldots, x_n)$，它必须满足以下两个基本性质：

① 非负性 (Non-negativity)：对于所有可能的取值 $(x_1, x_2, \ldots, x_n)$，都有 $f(x_1, x_2, \ldots, x_n) \ge 0$。概率值不可能为负数。

② 归一性 (Normalization)：所有可能的联合概率之和为 1，即：

\[ \sum_{x_1} \sum_{x_2} \cdots \sum_{x_n} f(x_1, x_2, \ldots, x_n) = 1 \]

其中，求和是对所有随机变量 $X_1, X_2, \ldots, X_n$ 的所有可能取值进行的。这个性质保证了联合 PMF 描述的是一个完备的概率分布。

示例 7.1.1

考虑同时抛掷两个均匀骰子的实验。设随机变量 $X$ 表示第一个骰子的点数，随机变量 $Y$ 表示第二个骰子的点数。$X$ 和 $Y$ 的取值范围都是 $\{1, 2, 3, 4, 5, 6\}$。由于骰子是均匀的且相互独立，因此任意一对点数 $(x, y)$ 出现的概率是相等的。总共有 $6 \times 6 = 36$ 种可能的结果，每种结果的概率都是 $1/36$。

因此，$X$ 和 $Y$ 的联合 PMF 可以表示为：

\[ f(x, y) = P(X = x, Y = y) = \begin{cases} \frac{1}{36}, & \text{如果 } x, y \in \{1, 2, 3, 4, 5, 6\} \\ 0, & \text{其他 } \end{cases} \]

我们可以验证联合 PMF 的性质：

① 非负性：显然，$f(x, y) = \frac{1}{36} \ge 0$ 或 $f(x, y) = 0 \ge 0$。

② 归一性：

\[ \sum_{x=1}^{6} \sum_{y=1}^{6} f(x, y) = \sum_{x=1}^{6} \sum_{y=1}^{6} \frac{1}{36} = 36 \times \frac{1}{36} = 1 \]

示例 7.1.2

假设在一个盒子中有 3 个红球和 2 个蓝球。我们从中不放回地随机抽取 2 个球。设随机变量 $X$ 表示抽到的红球数量，随机变量 $Y$ 表示抽到的蓝球数量。可能的 $(X, Y)$ 取值对为 $(2, 0), (1, 1), (0, 2)$。

我们可以计算联合 PMF 如下：

⚝ $P(X = 2, Y = 0)$：抽到 2 个红球的概率。从 3 个红球中抽取 2 个，总共有 $\binom{3}{2}$ 种方法。从 5 个球中抽取 2 个，总共有 $\binom{5}{2}$ 种方法。因此，
\[ P(X = 2, Y = 0) = \frac{\binom{3}{2}}{\binom{5}{2}} = \frac{3}{10} \]

⚝ $P(X = 1, Y = 1)$：抽到 1 个红球和 1 个蓝球的概率。从 3 个红球中抽取 1 个有 $\binom{3}{1}$ 种方法，从 2 个蓝球中抽取 1 个有 $\binom{2}{1}$ 种方法。因此，
\[ P(X = 1, Y = 1) = \frac{\binom{3}{1} \binom{2}{1}}{\binom{5}{2}} = \frac{3 \times 2}{10} = \frac{6}{10} \]

⚝ $P(X = 0, Y = 2)$：抽到 2 个蓝球的概率。从 2 个蓝球中抽取 2 个有 $\binom{2}{2}$ 种方法。因此，
\[ P(X = 0, Y = 2) = \frac{\binom{2}{2}}{\binom{5}{2}} = \frac{1}{10} \]

联合 PMF 为：

\[ f(x, y) = P(X = x, Y = y) = \begin{cases} \frac{3}{10}, & \text{如果 } (x, y) = (2, 0) \\ \frac{6}{10}, & \text{如果 } (x, y) = (1, 1) \\ \frac{1}{10}, & \text{如果 } (x, y) = (0, 2) \\ 0, & \text{其他 } \end{cases} \]

同样，我们可以验证性质：

① 非负性：显然成立。

② 归一性：
\[ \sum_{x} \sum_{y} f(x, y) = \frac{3}{10} + \frac{6}{10} + \frac{1}{10} = \frac{10}{10} = 1 \]

7.2 边缘概率分布 (Marginal Probability Distributions)

当我们有了多个随机变量的联合概率分布后，有时我们可能只对其中一个或几个随机变量的概率分布感兴趣，而忽略其他变量的取值。边缘概率分布 (Marginal Probability Distributions) 就是用来描述这种单个或部分随机变量的概率分布的概念。

定义 7.2.1 (边缘概率质量函数)

设 $f(x_1, x_2, \ldots, x_n)$ 是随机变量 $X_1, X_2, \ldots, X_n$ 的联合 PMF。随机变量 $X_i$ 的边缘概率质量函数 (Marginal Probability Mass Function, Marginal PMF) $f_{X_i}(x_i)$ 定义为：

\[ f_{X_i}(x_i) = \sum_{x_1} \cdots \sum_{x_{i-1}} \sum_{x_{i+1}} \cdots \sum_{x_n} f(x_1, x_2, \ldots, x_n) \]

其中，求和是对除了 $X_i$ 之外的所有其他随机变量的所有可能取值进行的。直观上，边缘 PMF $f_{X_i}(x_i)$ 是通过将联合 PMF 中其他所有随机变量的所有可能取值对应的概率加总起来得到的，从而“边缘化”了其他变量的影响，只留下 $X_i$ 的概率分布。

对于两个随机变量 $X$ 和 $Y$ 的联合 PMF $f(x, y)$，$X$ 的边缘 PMF $f_X(x)$ 和 $Y$ 的边缘 PMF $f_Y(y)$ 分别为：

\[ f_X(x) = \sum_{y} f(x, y) = \sum_{y} P(X = x, Y = y) = P(X = x) \]

\[ f_Y(y) = \sum_{x} f(x, y) = \sum_{x} P(X = x, Y = y) = P(Y = y) \]

示例 7.2.1

对于示例 7.1.1 中抛掷两个骰子的例子，联合 PMF 为 $f(x, y) = \frac{1}{36}$ for $x, y \in \{1, 2, 3, 4, 5, 6\}$。

我们可以计算 $X$ 的边缘 PMF $f_X(x)$：

\[ f_X(x) = \sum_{y=1}^{6} f(x, y) = \sum_{y=1}^{6} \frac{1}{36} = 6 \times \frac{1}{36} = \frac{1}{6}, \quad x \in \{1, 2, 3, 4, 5, 6\} \]

同样，$Y$ 的边缘 PMF $f_Y(y)$ 为：

\[ f_Y(y) = \sum_{x=1}^{6} f(x, y) = \sum_{x=1}^{6} \frac{1}{36} = 6 \times \frac{1}{36} = \frac{1}{6}, \quad y \in \{1, 2, 3, 4, 5, 6\} \]

这表明，单个骰子的点数分布是均匀分布，符合我们的直觉。

示例 7.2.2

对于示例 7.1.2 中抽球的例子，联合 PMF 为：

\[ f(x, y) = \begin{cases} \frac{3}{10}, & (x, y) = (2, 0) \\ \frac{6}{10}, & (x, y) = (1, 1) \\ \frac{1}{10}, & (x, y) = (0, 2) \\ 0, & \text{其他 } \end{cases} \]

我们可以计算 $X$ 的边缘 PMF $f_X(x)$：

\[ f_X(x) = \sum_{y} f(x, y) \]

⚝ 当 $x = 0$ 时，$f_X(0) = f(0, 2) = \frac{1}{10}$。
⚝ 当 $x = 1$ 时，$f_X(1) = f(1, 1) = \frac{6}{10}$。
⚝ 当 $x = 2$ 时，$f_X(2) = f(2, 0) = \frac{3}{10}$。
⚝ 其他 $x$ 值，$f_X(x) = 0$。

所以，$X$ 的边缘 PMF 为：

\[ f_X(x) = \begin{cases} \frac{1}{10}, & x = 0 \\ \frac{6}{10}, & x = 1 \\ \frac{3}{10}, & x = 2 \\ 0, & \text{其他 } \end{cases} \]

同样，我们可以计算 $Y$ 的边缘 PMF $f_Y(y)$：

\[ f_Y(y) = \sum_{x} f(x, y) \]

⚝ 当 $y = 0$ 时，$f_Y(0) = f(2, 0) = \frac{3}{10}$。
⚝ 当 $y = 1$ 时，$f_Y(1) = f(1, 1) = \frac{6}{10}$。
⚝ 当 $y = 2$ 时，$f_Y(2) = f(0, 2) = \frac{1}{10}$。
⚝ 其他 $y$ 值，$f_Y(y) = 0$。

所以，$Y$ 的边缘 PMF 为：

\[ f_Y(y) = \begin{cases} \frac{3}{10}, & y = 0 \\ \frac{6}{10}, & y = 1 \\ \frac{1}{10}, & y = 2 \\ 0, & \text{其他 } \end{cases} \]

7.3 条件概率分布 (Conditional Probability Distributions)

在研究多个随机变量时，我们有时会对在给定某些随机变量取特定值的情况下，另一些随机变量的概率分布感兴趣。条件概率分布 (Conditional Probability Distributions) 就是用来描述这种情形的概念。

定义 7.3.1 (条件概率质量函数)

设 $X$ 和 $Y$ 是两个离散随机变量，它们的联合 PMF 为 $f(x, y)$，$Y$ 的边缘 PMF 为 $f_Y(y)$。在给定 $Y = y$ 的条件下，$X$ 的条件概率质量函数 (Conditional Probability Mass Function, Conditional PMF) $f_{X|Y}(x|y)$ 定义为：

\[ f_{X|Y}(x|y) = P(X = x | Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)} = \frac{f(x, y)}{f_Y(y)} \]

前提是 $f_Y(y) = P(Y = y) > 0$。如果 $f_Y(y) = 0$，则条件概率无定义。

类似地，在给定 $X = x$ 的条件下，$Y$ 的条件 PMF $f_{Y|X}(y|x)$ 定义为：

\[ f_{Y|X}(y|x) = P(Y = y | X = x) = \frac{P(X = x, Y = y)}{P(X = x)} = \frac{f(x, y)}{f_X(x)} \]

前提是 $f_X(x) = P(X = x) > 0$。

示例 7.3.1

对于示例 7.1.1 中抛掷两个骰子的例子，我们已知 $f(x, y) = \frac{1}{36}$ 和 $f_Y(y) = \frac{1}{6}$ for $x, y \in \{1, 2, 3, 4, 5, 6\}$。

在给定 $Y = 3$ 的条件下，$X$ 的条件 PMF $f_{X|Y}(x|3)$ 为：

\[ f_{X|Y}(x|3) = \frac{f(x, 3)}{f_Y(3)} = \frac{1/36}{1/6} = \frac{1}{6}, \quad x \in \{1, 2, 3, 4, 5, 6\} \]

这表明，即使已知第二个骰子的点数为 3，第一个骰子的点数仍然是均匀分布的，不受第二个骰子点数的影响。

示例 7.3.2

对于示例 7.1.2 中抽球的例子，我们已知联合 PMF 和边缘 PMFs。

在给定 $Y = 1$ (即抽到 1 个蓝球) 的条件下，$X$ (红球数量) 的条件 PMF $f_{X|Y}(x|1)$ 为：

\[ f_{X|Y}(x|1) = \frac{f(x, 1)}{f_Y(1)} = \frac{f(x, 1)}{6/10} = \frac{10}{6} f(x, 1) \]

⚝ 当 $x = 1$ 时，$f_{X|Y}(1|1) = \frac{10}{6} f(1, 1) = \frac{10}{6} \times \frac{6}{10} = 1$。
⚝ 当 $x \neq 1$ 时，$f(x, 1) = 0$，所以 $f_{X|Y}(x|1) = 0$。

这结果看起来不太对，我们重新计算一下。

正确的计算应该是：

⚝ 当 $x = 1$ 时，$f_{X|Y}(1|1) = \frac{f(1, 1)}{f_Y(1)} = \frac{6/10}{6/10} = 1$。
⚝ 当 $x = 2$ 时，$f_{X|Y}(2|1) = \frac{f(2, 1)}{f_Y(1)} = \frac{0}{6/10} = 0$。
⚝ 当 $x = 0$ 时，$f_{X|Y}(0|1) = \frac{f(0, 1)}{f_Y(1)} = \frac{0}{6/10} = 0$。

所以，在给定 $Y = 1$ 的条件下，$X$ 的条件 PMF 为：

\[ f_{X|Y}(x|1) = \begin{cases} 1, & x = 1 \\ 0, & \text{其他 } \end{cases} \]

这意味着，如果已知抽到了 1 个蓝球，那么必然抽到了 1 个红球（因为总共只抽 2 个球）。这符合逻辑。

让我们再看一个条件概率，在给定 $X = 2$ (即抽到 2 个红球) 的条件下，$Y$ (蓝球数量) 的条件 PMF $f_{Y|X}(y|2)$ 为：

\[ f_{Y|X}(y|2) = \frac{f(2, y)}{f_X(2)} = \frac{f(2, y)}{3/10} = \frac{10}{3} f(2, y) \]

⚝ 当 $y = 0$ 时，$f_{Y|X}(0|2) = \frac{10}{3} f(2, 0) = \frac{10}{3} \times \frac{3}{10} = 1$。
⚝ 当 $y \neq 0$ 时，$f(2, y) = 0$，所以 $f_{Y|X}(y|2) = 0$。

所以，在给定 $X = 2$ 的条件下，$Y$ 的条件 PMF 为：

\[ f_{Y|X}(y|2) = \begin{cases} 1, & y = 0 \\ 0, & \text{其他 } \end{cases} \]

这意味着，如果已知抽到了 2 个红球，那么必然抽到了 0 个蓝球。这也符合逻辑。

7.4 随机变量的独立性 (Independence of Random Variables)

独立性 (Independence) 是概率论中一个非常重要的概念。对于随机变量而言，独立性描述了多个随机变量之间互不影响的性质。

定义 7.4.1 (随机变量的独立性)

两个随机变量 $X$ 和 $Y$ 是相互独立 (Independent) 的，如果对于任意可能的取值 $x$ 和 $y$，都有：

\[ P(X = x, Y = y) = P(X = x) P(Y = y) \]

用联合 PMF 和边缘 PMFs 表示，即：

\[ f(x, y) = f_X(x) f_Y(y) \]

如果上式对所有 $x$ 和 $y$ 都成立，则 $X$ 和 $Y$ 独立；否则，$X$ 和 $Y$ 是不独立 (Dependent) 的。

对于多个随机变量 $X_1, X_2, \ldots, X_n$，它们是相互独立的，如果对于任意可能的取值 $x_1, x_2, \ldots, x_n$，都有：

\[ P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) = P(X_1 = x_1) P(X_2 = x_2) \cdots P(X_n = x_n) \]

用联合 PMF 和边缘 PMFs 表示，即：

\[ f(x_1, x_2, \ldots, x_n) = f_{X_1}(x_1) f_{X_2}(x_2) \cdots f_{X_n}(x_n) \]

定理 7.4.1 (独立性的等价条件)

以下条件等价：

① $X$ 和 $Y$ 相互独立。
② 对于所有 $x$ 和 $y$ 使得 $f_Y(y) > 0$，有 $f_{X|Y}(x|y) = f_X(x)$。
③ 对于所有 $x$ 和 $y$ 使得 $f_X(x) > 0$，有 $f_{Y|X}(y|x) = f_Y(y)$。

条件 ② 和 ③ 表明，如果 $X$ 和 $Y$ 独立，则在给定 $Y$ 的取值后，$X$ 的条件分布与 $X$ 的边缘分布相同，即 $Y$ 的信息不影响 $X$ 的分布，反之亦然。

示例 7.4.1

对于示例 7.1.1 中抛掷两个骰子的例子，我们已经计算出 $f(x, y) = \frac{1}{36}$，$f_X(x) = \frac{1}{6}$，$f_Y(y) = \frac{1}{6}$。

我们可以验证独立性条件：

\[ f_X(x) f_Y(y) = \frac{1}{6} \times \frac{1}{6} = \frac{1}{36} = f(x, y) \]

由于对于所有 $x, y \in \{1, 2, 3, 4, 5, 6\}$ 上式都成立，因此，两个骰子的点数 $X$ 和 $Y$ 是相互独立的，这符合我们对独立抛掷骰子的直观理解。

示例 7.4.2

对于示例 7.1.2 中抽球的例子，我们来检验 $X$ 和 $Y$ 是否独立。例如，考虑 $x = 2, y = 0$。

$f(2, 0) = \frac{3}{10}$。
$f_X(2) = \frac{3}{10}$。
$f_Y(0) = \frac{3}{10}$。

$f_X(2) f_Y(0) = \frac{3}{10} \times \frac{3}{10} = \frac{9}{100} \neq \frac{3}{10} = f(2, 0)$。

由于 $f(2, 0) \neq f_X(2) f_Y(0)$，因此，随机变量 $X$ (红球数量) 和 $Y$ (蓝球数量) 是不独立的。这也很容易理解，因为在不放回抽样中，抽到的红球数量会影响到剩余的蓝球数量，从而影响后续抽到蓝球的概率。

7.5 协方差与相关系数 (Covariance and Correlation Coefficient)

协方差 (Covariance) 和 相关系数 (Correlation Coefficient) 是用来度量两个随机变量之间线性相关程度的指标。

定义 7.5.1 (协方差)

两个随机变量 $X$ 和 $Y$ 的协方差 (Covariance)，记为 $Cov(X, Y)$ 或 $\sigma_{XY}$，定义为：

\[ Cov(X, Y) = E[(X - E[X])(Y - E[Y])] \]

对于离散随机变量，协方差的计算公式为：

\[ Cov(X, Y) = \sum_{x} \sum_{y} (x - E[X])(y - E[Y]) f(x, y) \]

定理 7.5.1 (协方差的计算公式)

协方差还可以用以下公式计算：

\[ Cov(X, Y) = E[XY] - E[X]E[Y] \]

其中，$E[XY]$ 是 $XY$ 的期望，计算公式为：

\[ E[XY] = \sum_{x} \sum_{y} xy f(x, y) \]

性质 7.5.1 (协方差的性质)

① $Cov(X, Y) = Cov(Y, X)$ (对称性)。
② $Cov(X, X) = Var(X)$ (与方差的关系)。
③ $Cov(aX, bY) = ab Cov(X, Y)$，其中 $a, b$ 是常数。
④ $Cov(X + a, Y + b) = Cov(X, Y)$，其中 $a, b$ 是常数 (平移不变性)。
⑤ 如果 $X$ 和 $Y$ 相互独立，则 $Cov(X, Y) = 0$。反之不成立。

定义 7.5.2 (相关系数)

两个随机变量 $X$ 和 $Y$ 的相关系数 (Correlation Coefficient)，记为 $\rho_{XY}$ 或 $Corr(X, Y)$，定义为：

\[ \rho_{XY} = Corr(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X) Var(Y)}} = \frac{\sigma_{XY}}{\sigma_X \sigma_Y} \]

其中，$\sigma_X = \sqrt{Var(X)}$ 和 $\sigma_Y = \sqrt{Var(Y)}$ 分别是 $X$ 和 $Y$ 的标准差。

性质 7.5.2 (相关系数的性质)

① $-1 \le \rho_{XY} \le 1$。
② $\rho_{XY} = \rho_{YX}$ (对称性)。
③ 如果 $X$ 和 $Y$ 相互独立，则 $\rho_{XY} = 0$。反之不成立。
④ $\rho_{XY} = 1$ 当且仅当存在常数 $a > 0$ 和 $b$ 使得 $Y = aX + b$ (完全正线性相关)。
⑤ $\rho_{XY} = -1$ 当且仅当存在常数 $a < 0$ 和 $b$ 使得 $Y = aX + b$ (完全负线性相关)。
⑥ $\rho_{XY} = 0$ 表示 $X$ 和 $Y$ 不线性相关，但可能存在其他类型的相关性 (不相关)。

示例 7.5.1

对于示例 7.1.1 中抛掷两个骰子的例子，我们已知 $X$ 和 $Y$ 独立，因此 $Cov(X, Y) = 0$ 和 $\rho_{XY} = 0$。我们可以验证这一点。

首先，计算 $E[X]$ 和 $E[Y]$。由于 $X$ 和 $Y$ 都是均匀分布在 $\{1, 2, 3, 4, 5, 6\}$ 上，所以：

\[ E[X] = E[Y] = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5 \]

然后，计算 $E[XY]$。由于 $X$ 和 $Y$ 独立，$f(x, y) = f_X(x) f_Y(y)$，所以：

\[ E[XY] = \sum_{x=1}^{6} \sum_{y=1}^{6} xy f(x, y) = \sum_{x=1}^{6} \sum_{y=1}^{6} xy f_X(x) f_Y(y) = \left( \sum_{x=1}^{6} x f_X(x) \right) \left( \sum_{y=1}^{6} y f_Y(y) \right) = E[X] E[Y] \]

因此，$Cov(X, Y) = E[XY] - E[X]E[Y] = E[X]E[Y] - E[X]E[Y] = 0$。
相关系数 $\rho_{XY} = 0$。

示例 7.5.2

对于示例 7.1.2 中抽球的例子，我们计算 $X$ 和 $Y$ 的协方差和相关系数。

首先，计算 $E[X]$ 和 $E[Y]$。
\[ E[X] = 0 \times \frac{1}{10} + 1 \times \frac{6}{10} + 2 \times \frac{3}{10} = \frac{6+6}{10} = \frac{12}{10} = 1.2 \]
\[ E[Y] = 0 \times \frac{3}{10} + 1 \times \frac{6}{10} + 2 \times \frac{1}{10} = \frac{6+2}{10} = \frac{8}{10} = 0.8 \]

然后，计算 $E[XY]$。
\[ E[XY] = \sum_{x} \sum_{y} xy f(x, y) = (2 \times 0) f(2, 0) + (1 \times 1) f(1, 1) + (0 \times 2) f(0, 2) = 0 + 1 \times \frac{6}{10} + 0 = \frac{6}{10} = 0.6 \]

协方差为：
\[ Cov(X, Y) = E[XY] - E[X]E[Y] = 0.6 - (1.2)(0.8) = 0.6 - 0.96 = -0.36 \]

接下来，计算 $Var(X)$ 和 $Var(Y)$。
\[ E[X^2] = 0^2 \times \frac{1}{10} + 1^2 \times \frac{6}{10} + 2^2 \times \frac{3}{10} = \frac{6+12}{10} = \frac{18}{10} = 1.8 \]
\[ Var(X) = E[X^2] - (E[X])^2 = 1.8 - (1.2)^2 = 1.8 - 1.44 = 0.36 \]
\[ E[Y^2] = 0^2 \times \frac{3}{10} + 1^2 \times \frac{6}{10} + 2^2 \times \frac{1}{10} = \frac{6+4}{10} = \frac{10}{10} = 1 \]
\[ Var(Y) = E[Y^2] - (E[Y])^2 = 1 - (0.8)^2 = 1 - 0.64 = 0.36 \]

相关系数为：
\[ \rho_{XY} = \frac{Cov(X, Y)}{\sqrt{Var(X) Var(Y)}} = \frac{-0.36}{\sqrt{0.36 \times 0.36}} = \frac{-0.36}{0.36} = -1 \]

相关系数为 -1，表明 $X$ 和 $Y$ 之间存在完全负线性相关。这在抽球的例子中是合理的，因为抽到的红球越多，抽到的蓝球就越少，且总数固定为 2。实际上，在这个例子中，$X + Y = 2$，即 $Y = -X + 2$，是一个完全负线性关系。

7.6 本章小结与习题 (Chapter Summary and Exercises)

本章小结

本章我们介绍了多维离散分布，主要涵盖了以下几个核心概念：

⚝ 联合概率分布 (Joint Probability Distributions)：用于描述多个离散随机变量的概率行为，通过联合概率质量函数 (Joint PMF) 来表示。联合 PMF 必须满足非负性和归一性。
⚝ 边缘概率分布 (Marginal Probability Distributions)：描述单个或部分随机变量的概率分布，通过对联合 PMF 进行求和（边缘化）得到边缘概率质量函数 (Marginal PMF)。
⚝ 条件概率分布 (Conditional Probability Distributions)：描述在给定某些随机变量取特定值的情况下，另一些随机变量的概率分布，通过条件概率质量函数 (Conditional PMF) 来表示，它是联合 PMF 与边缘 PMF 的比值。
⚝ 随机变量的独立性 (Independence of Random Variables)：描述多个随机变量之间互不影响的性质。两个随机变量 $X$ 和 $Y$ 独立，当且仅当 $f(x, y) = f_X(x) f_Y(y)$ 对所有 $x, y$ 成立。
⚝ 协方差与相关系数 (Covariance and Correlation Coefficient)：度量两个随机变量之间线性相关程度的指标。协方差 $Cov(X, Y) = E[(X - E[X])(Y - E[Y])]$，相关系数 $\rho_{XY} = \frac{Cov(X, Y)}{\sqrt{Var(X) Var(Y)}}$。独立的随机变量协方差和相关系数为 0，但反之不成立。相关系数的取值范围是 $[-1, 1]$，绝对值越接近 1 表示线性相关性越强。

理解多维离散分布是进一步学习和应用概率论的重要基础，特别是在处理涉及多个随机因素的问题时，例如在统计建模、机器学习、以及各种工程和科学领域。

习题 7

设随机变量 $X$ 和 $Y$ 的联合 PMF 如下表所示：

$f(x, y)$ $y = 1$ $y = 2$ $y = 3$
$x = 1$ 0.1 0.2 0.1
$x = 2$ 0.15 0.3 0.15

(a) 验证这是一个合法的联合 PMF。
(b) 分别求 $X$ 和 $Y$ 的边缘 PMF。
(c) 求在给定 $Y = 2$ 的条件下，$X$ 的条件 PMF。
(d) $X$ 和 $Y$ 是否独立？为什么？
(e) 计算 $Cov(X, Y)$ 和 $\rho_{XY}$。
在一个盒子中有 4 个白球和 3 个黑球。从中不放回地随机抽取 3 个球。设 $X$ 为抽到的白球数量，$Y$ 为抽到的黑球数量。
(a) 求 $X$ 和 $Y$ 的联合 PMF。
(b) 分别求 $X$ 和 $Y$ 的边缘 PMF。
(c) 求在给定 $X = 2$ 的条件下，$Y$ 的条件 PMF。
(d) $X$ 和 $Y$ 是否独立？为什么？
(e) 计算 $Cov(X, Y)$。
设 $X$ 和 $Y$ 是两个独立的随机变量，都服从参数为 $p$ 的伯努利分布。令 $Z = X + Y$。
(a) 求 $X$ 和 $Y$ 的联合 PMF。
(b) 求 $Z$ 的概率分布。
(c) 求 $Cov(X, Z)$。
假设随机变量 $X$ 和 $Y$ 的联合 PMF 为 $f(x, y) = c(x + y)$，其中 $x \in \{1, 2\}$，$y \in \{1, 2, 3\}$，$c$ 为常数。
(a) 求常数 $c$。
(b) 求 $X$ 和 $Y$ 的边缘 PMF。
(c) 求 $P(X \le Y)$。
(d) $X$ 和 $Y$ 是否独立？为什么？
解释协方差和相关系数的意义，并说明为什么即使两个随机变量的协方差为 0，它们也可能不是独立的。举例说明。

\(f(x, y)\)	\(y = 1\)	\(y = 2\)	\(y = 3\)
\(x = 1\)	0.1	0.2	0.1
\(x = 2\)	0.15	0.3	0.15

8. chapter 8：生成函数 (Generating Functions)

8.1 概率生成函数 (Probability Generating Functions, PGF)

8.1.1 概率生成函数的定义与性质 (Definition and Properties of PGF)

概率生成函数 (Probability Generating Function, PGF) 是在离散概率论中一个非常有力的工具，尤其适用于处理非负整数值随机变量。它将概率分布的信息编码在一个函数中，使得我们可以通过分析这个函数来研究随机变量的性质，如期望、方差以及分布的卷积等。

定义 8.1.1 (概率生成函数 (Probability Generating Function, PGF))：
设 $X$ 是一个取非负整数值的离散随机变量，其概率质量函数 (Probability Mass Function, PMF) 为 $P(X=k) = p_k$，其中 $k = 0, 1, 2, \ldots$。随机变量 $X$ 的概率生成函数 $G_X(z)$ 定义为：
\[ G_X(z) = E[z^X] = \sum_{k=0}^{\infty} p_k z^k = p_0 + p_1 z + p_2 z^2 + \cdots \]
其中，$z$ 是一个复数变量，通常我们关注 $|z| \leq 1$ 的情况，以保证级数收敛。

性质 8.1.1 (概率生成函数 (Probability Generating Function, PGF) 的基本性质)：

① 在 $z=1$ 处的值: 当 $z=1$ 时，概率生成函数的值为所有概率之和，即：
\[ G_X(1) = \sum_{k=0}^{\infty} p_k (1)^k = \sum_{k=0}^{\infty} p_k = 1 \]
这表明，如果概率质量函数 $ \{p_k\} $ 构成一个有效的概率分布，那么 $G_X(1)$ 必须等于 1。

② 在 $z=0$ 处的值: 当 $z=0$ 时，概率生成函数的值为 $p_0$，即随机变量 $X$ 取值为 0 的概率：
\[ G_X(0) = \sum_{k=0}^{\infty} p_k (0)^k = p_0 \]

③ 概率质量函数 (PMF) 的唯一性: 概率生成函数与概率质量函数之间存在一一对应的关系。也就是说，给定一个概率生成函数 $G_X(z)$，我们可以唯一确定随机变量 $X$ 的概率质量函数 $ \{p_k\} $。反之亦然。我们可以通过对 $G_X(z)$ 在 $z=0$ 处进行泰勒展开来恢复概率质量函数：
\[ G_X(z) = \sum_{k=0}^{\infty} \frac{G_X^{(k)}(0)}{k!} z^k \]
比较系数可知，$p_k = \frac{G_X^{(k)}(0)}{k!}$，其中 $G_X^{(k)}(0)$ 表示 $G_X(z)$ 的 $k$ 阶导数在 $z=0$ 处的值。因此，
\[ p_k = \frac{1}{k!} \frac{d^k}{dz^k} G_X(z) \Big|_{z=0} \]

④ 收敛半径: 概率生成函数 $G_X(z) = \sum_{k=0}^{\infty} p_k z^k$ 是一个幂级数。由于 $ \sum_{k=0}^{\infty} p_k = 1 $ 收敛，根据幂级数理论，$G_X(z)$ 的收敛半径至少为 1。实际上，其收敛半径 $R$ 满足 $R \geq 1$。在 $|z| < R$ 内，$G_X(z)$ 是解析的，可以进行求导、积分等运算。

⑤ 独立随机变量和的 PGF: 设 $X$ 和 $Y$ 是两个独立的非负整数值随机变量，它们的概率生成函数分别为 $G_X(z)$ 和 $G_Y(z)$。令 $Z = X + Y$，则 $Z$ 的概率生成函数 $G_Z(z)$ 等于 $X$ 和 $Y$ 的概率生成函数的乘积：
\[ G_Z(z) = G_X(z) G_Y(z) \]
这个性质是概率生成函数在处理独立随机变量和时非常强大的工具。它可以推广到多个独立随机变量之和的情况。

例 8.1.1 (伯努利分布 (Bernoulli Distribution) 的 PGF)：
设 $X \sim Bernoulli(p)$，即 $P(X=1) = p$ 和 $P(X=0) = 1-p = q$。则 $X$ 的概率生成函数为：
\[ G_X(z) = P(X=0)z^0 + P(X=1)z^1 = q + pz = (1-p) + pz \]

例 8.1.2 (二项分布 (Binomial Distribution) 的 PGF)：
设 $X \sim Binomial(n, p)$，其概率质量函数为 $P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}$，$k = 0, 1, \ldots, n$。则 $X$ 的概率生成函数为：
\[ G_X(z) = \sum_{k=0}^{n} \binom{n}{k} p^k (1-p)^{n-k} z^k = \sum_{k=0}^{n} \binom{n}{k} (pz)^k (1-p)^{n-k} \]
根据二项式定理 $(a+b)^n = \sum_{k=0}^{n} \binom{n}{k} a^k b^{n-k}$，令 $a = pz$ 和 $b = 1-p$，得到：
\[ G_X(z) = (pz + (1-p))^n = (1-p+pz)^n \]

例 8.1.3 (泊松分布 (Poisson Distribution) 的 PGF)：
设 $X \sim Poisson(\lambda)$，其概率质量函数为 $P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}$，$k = 0, 1, 2, \ldots$。则 $X$ 的概率生成函数为：
\[ G_X(z) = \sum_{k=0}^{\infty} \frac{e^{-\lambda} \lambda^k}{k!} z^k = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda z)^k}{k!} \]
利用泰勒展开式 $e^x = \sum_{k=0}^{\infty} \frac{x^k}{k!}$，令 $x = \lambda z$，得到：
\[ G_X(z) = e^{-\lambda} e^{\lambda z} = e^{\lambda(z-1)} \]

8.1.2 利用 PGF 求期望与方差 (Using PGF to Find Expectation and Variance)

概率生成函数不仅可以简洁地表示概率分布，还可以方便地计算随机变量的期望、方差等矩 (moments)。

定理 8.1.2 (利用 PGF 求期望 (Expectation using PGF))：
设 $X$ 是一个非负整数值随机变量，其概率生成函数为 $G_X(z)$。如果 $E[X]$ 存在，则期望 $E[X]$ 可以通过对 $G_X(z)$ 求导并在 $z=1$ 处取值得到：
\[ E[X] = G_X'(1) \]
其中 $G_X'(z) = \frac{d}{dz} G_X(z)$ 是 $G_X(z)$ 的一阶导数。更精确地说，$E[X] = G_X'(1^-)$，表示从左侧趋近于 1 的极限。如果 $G_X'(1)$ 发散到无穷，则 $E[X] = \infty$。

证明:
对 $G_X(z) = \sum_{k=0}^{\infty} p_k z^k$ 求导，得到：
\[ G_X'(z) = \frac{d}{dz} \sum_{k=0}^{\infty} p_k z^k = \sum_{k=1}^{\infty} k p_k z^{k-1} \]
当 $z=1$ 时，
\[ G_X'(1) = \sum_{k=1}^{\infty} k p_k (1)^{k-1} = \sum_{k=1}^{\infty} k p_k = E[X] \]
因此，$E[X] = G_X'(1)$。

定理 8.1.3 (利用 PGF 求二阶矩和方差 (Second Moment and Variance using PGF))：
设 $X$ 是一个非负整数值随机变量，其概率生成函数为 $G_X(z)$。如果 $E[X^2]$ 存在，则二阶矩 $E[X^2]$ 和方差 $Var(X)$ 可以通过 $G_X(z)$ 的一阶和二阶导数在 $z=1$ 处的值计算得到：
\[ E[X(X-1)] = G_X''(1) \]
\[ E[X^2] = G_X''(1) + G_X'(1) \]
\[ Var(X) = E[X^2] - (E[X])^2 = G_X''(1) + G_X'(1) - (G_X'(1))^2 \]
其中 $G_X''(z) = \frac{d^2}{dz^2} G_X(z)$ 是 $G_X(z)$ 的二阶导数。同样，更精确地说，应使用左极限 $G_X''(1^-)$。

证明:
对 $G_X'(z) = \sum_{k=1}^{\infty} k p_k z^{k-1}$ 再次求导，得到：
\[ G_X''(z) = \frac{d}{dz} \sum_{k=1}^{\infty} k p_k z^{k-1} = \sum_{k=2}^{\infty} k(k-1) p_k z^{k-2} \]
当 $z=1$ 时，
\[ G_X''(1) = \sum_{k=2}^{\infty} k(k-1) p_k (1)^{k-2} = \sum_{k=2}^{\infty} k(k-1) p_k = E[X(X-1)] = E[X^2 - X] = E[X^2] - E[X] \]
因此，$E[X^2] = G_X''(1) + E[X] = G_X''(1) + G_X'(1)$。
方差 $Var(X) = E[X^2] - (E[X])^2 = G_X''(1) + G_X'(1) - (G_X'(1))^2$。

例 8.1.4 (利用 PGF 求二项分布 (Binomial Distribution) 的期望和方差)：
对于 $X \sim Binomial(n, p)$，其 PGF 为 $G_X(z) = (1-p+pz)^n$。
首先求一阶导数：
\[ G_X'(z) = n(1-p+pz)^{n-1} \cdot p \]
期望：
\[ E[X] = G_X'(1) = n(1-p+p)^{n-1} \cdot p = np \]
再求二阶导数：
\[ G_X''(z) = n(n-1)(1-p+pz)^{n-2} \cdot p^2 \]
\[ G_X''(1) = n(n-1)(1-p+p)^{n-2} \cdot p^2 = n(n-1)p^2 \]
方差：
\[ Var(X) = G_X''(1) + G_X'(1) - (G_X'(1))^2 = n(n-1)p^2 + np - (np)^2 = n^2p^2 - np^2 + np - n^2p^2 = np - np^2 = np(1-p) \]
这与我们已知的二项分布的期望和方差公式一致。

例 8.1.5 (利用 PGF 求泊松分布 (Poisson Distribution) 的期望和方差)：
对于 $X \sim Poisson(\lambda)$，其 PGF 为 $G_X(z) = e^{\lambda(z-1)}$。
一阶导数：
\[ G_X'(z) = \lambda e^{\lambda(z-1)} \]
期望：
\[ E[X] = G_X'(1) = \lambda e^{\lambda(1-1)} = \lambda e^0 = \lambda \]
二阶导数：
\[ G_X''(z) = \lambda^2 e^{\lambda(z-1)} \]
\[ G_X''(1) = \lambda^2 e^{\lambda(1-1)} = \lambda^2 \]
方差：
\[ Var(X) = G_X''(1) + G_X'(1) - (G_X'(1))^2 = \lambda^2 + \lambda - \lambda^2 = \lambda \]
这同样与泊松分布的期望和方差公式一致。

8.2 矩生成函数 (Moment Generating Functions, MGF)

矩生成函数 (Moment Generating Function, MGF) 是另一种与概率生成函数类似的工具，但它适用于更广泛的随机变量，不限于非负整数值随机变量。矩生成函数通过生成随机变量的矩来描述其分布。

定义 8.2.1 (矩生成函数 (Moment Generating Function, MGF))：
设 $X$ 是一个随机变量，其矩生成函数 $M_X(t)$ 定义为：
\[ M_X(t) = E[e^{tX}] \]
其中 $t$ 是实数变量。矩生成函数在 $t=0$ 附近的一个区间内存在，即存在 $h > 0$，使得对于 $|t| < h$，$E[e^{tX}]$ 是有限的。

性质 8.2.1 (矩生成函数 (Moment Generating Function, MGF) 的基本性质)：

① 矩的生成: 矩生成函数之所以称为“矩生成”函数，是因为它可以用来生成随机变量的矩。随机变量 $X$ 的 $k$ 阶原点矩 $E[X^k]$ 可以通过对 $M_X(t)$ 求 $k$ 阶导数并在 $t=0$ 处取值得到：
\[ E[X^k] = M_X^{(k)}(0) = \frac{d^k}{dt^k} M_X(t) \Big|_{t=0} \]
其中 $M_X^{(k)}(0)$ 表示 $M_X(t)$ 的 $k$ 阶导数在 $t=0$ 处的值。

② 唯一性: 如果两个随机变量的矩生成函数在包含 0 的某个开区间内相等，则这两个随机变量具有相同的分布。

③ 线性变换的 MGF: 设 $Y = aX + b$，其中 $a$ 和 $b$ 是常数。则 $Y$ 的矩生成函数 $M_Y(t)$ 与 $X$ 的矩生成函数 $M_X(t)$ 之间有如下关系：
\[ M_Y(t) = E[e^{tY}] = E[e^{t(aX+b)}] = E[e^{atX} e^{bt}] = e^{bt} E[e^{(at)X}] = e^{bt} M_X(at) \]

④ 独立随机变量和的 MGF: 设 $X$ 和 $Y$ 是两个独立的随机变量，它们的矩生成函数分别为 $M_X(t)$ 和 $M_Y(t)$。令 $Z = X + Y$，则 $Z$ 的矩生成函数 $M_Z(t)$ 等于 $X$ 和 $Y$ 的矩生成函数的乘积：
\[ M_Z(t) = M_X(t) M_Y(t) \]
这个性质与概率生成函数类似，也是 MGF 在处理独立随机变量和时的一个重要优势。

例 8.2.1 (泊松分布 (Poisson Distribution) 的 MGF)：
设 $X \sim Poisson(\lambda)$，其概率质量函数为 $P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}$，$k = 0, 1, 2, \ldots$。则 $X$ 的矩生成函数为：
\[ M_X(t) = E[e^{tX}] = \sum_{k=0}^{\infty} e^{tk} P(X=k) = \sum_{k=0}^{\infty} e^{tk} \frac{e^{-\lambda} \lambda^k}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda e^t)^k}{k!} \]
利用泰勒展开式 $e^x = \sum_{k=0}^{\infty} \frac{x^k}{k!}$，令 $x = \lambda e^t$，得到：
\[ M_X(t) = e^{-\lambda} e^{\lambda e^t} = e^{\lambda(e^t-1)} \]

例 8.2.2 (标准正态分布 (Standard Normal Distribution) 的 MGF)：
设 $Z \sim N(0, 1)$，其概率密度函数 (Probability Density Function, PDF) 为 $f_Z(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$。则 $Z$ 的矩生成函数为：
\[ M_Z(t) = E[e^{tZ}] = \int_{-\infty}^{\infty} e^{tz} f_Z(z) dz = \int_{-\infty}^{\infty} e^{tz} \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} dz = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-\frac{1}{2}(z^2 - 2tz)} dz \]
配方 $z^2 - 2tz = (z-t)^2 - t^2$，得到：
\[ M_Z(t) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-\frac{1}{2}((z-t)^2 - t^2)} dz = e^{\frac{t^2}{2}} \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{-\frac{1}{2}(z-t)^2} dz \]
令 $u = z-t$，则 $du = dz$，积分变为 $\int_{-\infty}^{\infty} e^{-\frac{u^2}{2}} du = \sqrt{2\pi}$。因此，
\[ M_Z(t) = e^{\frac{t^2}{2}} \frac{1}{\sqrt{2\pi}} \sqrt{2\pi} = e^{\frac{t^2}{2}} \]

概率生成函数 (PGF) 与矩生成函数 (MGF) 的联系:
对于非负整数值随机变量 $X$，概率生成函数 $G_X(z) = E[z^X]$ 和矩生成函数 $M_X(t) = E[e^{tX}]$ 之间存在密切联系。如果我们令 $z = e^t$，则有 $G_X(e^t) = E[(e^t)^X] = E[e^{tX}] = M_X(t)$。因此，矩生成函数可以看作是概率生成函数的一种推广，通过变量替换 $z = e^t$ 将 PGF 扩展到更一般的形式。

8.3 卷积与生成函数 (Convolution and Generating Functions)

生成函数在处理随机变量的和时非常有用，尤其是在计算卷积 (convolution) 时。卷积在概率论中描述了两个或多个独立随机变量和的分布。

定义 8.3.1 (离散卷积 (Discrete Convolution))：
设 $X$ 和 $Y$ 是两个独立的离散随机变量，它们的概率质量函数分别为 $p_X(i) = P(X=i)$ 和 $p_Y(j) = P(Y=j)$。令 $Z = X + Y$，则 $Z$ 的概率质量函数 $p_Z(k) = P(Z=k)$ 是 $p_X$ 和 $p_Y$ 的离散卷积，记为 $p_Z = p_X * p_Y$，其定义为：
\[ p_Z(k) = (p_X * p_Y)(k) = \sum_{i+j=k} p_X(i) p_Y(j) = \sum_{i} p_X(i) p_Y(k-i) \]
其中求和是对所有满足 $i+j=k$ 的非负整数 $i, j$ 进行的，或者等价地，对所有可能的 $i$ 值求和，其中 $p_Y(k-i)$ 当 $k-i < 0$ 时取值为 0。

定理 8.3.1 (卷积与概率生成函数 (Convolution and Probability Generating Functions))：
设 $X$ 和 $Y$ 是两个独立的非负整数值随机变量，它们的概率生成函数分别为 $G_X(z)$ 和 $G_Y(z)$。令 $Z = X + Y$，则 $Z$ 的概率生成函数 $G_Z(z)$ 是 $G_X(z)$ 和 $G_Y(z)$ 的乘积：
\[ G_Z(z) = G_X(z) G_Y(z) \]
这个定理表明，在概率生成函数的层面上，独立随机变量和的分布可以通过概率生成函数的乘积来简单地获得。这大大简化了卷积的计算。

例 8.3.1 (泊松分布的可加性 (Additivity of Poisson Distribution))：
设 $X \sim Poisson(\lambda_1)$ 和 $Y \sim Poisson(\lambda_2)$ 是两个独立的泊松分布随机变量。令 $Z = X + Y$。求 $Z$ 的分布。
$X$ 和 $Y$ 的概率生成函数分别为 $G_X(z) = e^{\lambda_1(z-1)}$ 和 $G_Y(z) = e^{\lambda_2(z-1)}$。
根据定理 8.3.1，$Z$ 的概率生成函数为：
\[ G_Z(z) = G_X(z) G_Y(z) = e^{\lambda_1(z-1)} e^{\lambda_2(z-1)} = e^{(\lambda_1+\lambda_2)(z-1)} \]
我们Recognize $G_Z(z)$ 是参数为 $(\lambda_1+\lambda_2)$ 的泊松分布的概率生成函数。因此，$Z = X + Y \sim Poisson(\lambda_1+\lambda_2)$。这表明泊松分布具有可加性。

例 8.3.2 (利用 PGF 求卷积分布)：
设 $X$ 和 $Y$ 是两个独立的随机变量，$X \sim Bernoulli(p)$ 和 $Y \sim Bernoulli(p)$。令 $Z = X + Y$。求 $Z$ 的分布。
$X$ 和 $Y$ 的概率生成函数均为 $G(z) = (1-p) + pz$。
$Z$ 的概率生成函数为：
\[ G_Z(z) = G_X(z) G_Y(z) = ((1-p) + pz)^2 = (1-p)^2 + 2p(1-p)z + p^2 z^2 \]
展开后，我们得到 $Z$ 的概率质量函数：
\[ P(Z=0) = (1-p)^2 \]
\[ P(Z=1) = 2p(1-p) \]
\[ P(Z=2) = p^2 \]
这表明 $Z$ 的分布是可能的取值为 0, 1, 2 的离散分布。实际上，如果 $X$ 和 $Y$ 是独立同分布的伯努利随机变量，那么 $Z = X + Y \sim Binomial(2, p)$，其概率质量函数为 $P(Z=k) = \binom{2}{k} p^k (1-p)^{2-k}$，$k=0, 1, 2$。

8.4 本章小结与习题 (Chapter Summary and Exercises)

本章小结:
本章介绍了生成函数在离散概率论中的应用，重点讨论了概率生成函数 (PGF) 和矩生成函数 (MGF)。
⚝ 概率生成函数 (PGF) 是针对非负整数值随机变量定义的，通过幂级数形式编码了概率质量函数的信息。我们学习了 PGF 的定义、基本性质，以及如何利用 PGF 计算期望和方差。
⚝ 矩生成函数 (MGF) 是对 PGF 的推广，适用于更广泛的随机变量。MGF 通过期望 $E[e^{tX}]$ 的形式定义，可以生成随机变量的各阶矩，并具有唯一性等重要性质。
⚝ 卷积与生成函数 的关系揭示了生成函数在处理独立随机变量和时的强大功能。独立随机变量和的生成函数等于各随机变量生成函数的乘积，这为计算卷积提供了便利的方法。

生成函数是研究离散概率分布的有力工具，它不仅简化了矩的计算，也为分析随机变量的和提供了有效途径。掌握生成函数的方法，可以更深入地理解和应用离散概率论的知识。

习题 8.4:

设随机变量 $X$ 服从几何分布 (Geometric Distribution)，其概率质量函数为 $P(X=k) = (1-p)^{k-1} p$，$k = 1, 2, 3, \ldots$。求 $X$ 的概率生成函数 $G_X(z)$，并利用 PGF 计算 $E[X]$ 和 $Var(X)$。
设 $X$ 和 $Y$ 是相互独立的泊松分布随机变量，$X \sim Poisson(\lambda_1)$，$Y \sim Poisson(\lambda_2)$。利用概率生成函数证明 $Z = X + Y \sim Poisson(\lambda_1 + \lambda_2)$。
设随机变量 $X$ 的概率生成函数为 $G_X(z) = \frac{z}{2-z}$。求 $P(X=k)$，$k = 0, 1, 2, \ldots$，并计算 $E[X]$ 和 $Var(X)$。
设 $X \sim Binomial(n, p)$。求 $Y = n - X$ 的分布，并求 $Y$ 的概率生成函数。
设 $X$ 和 $Y$ 是独立同分布的随机变量，都服从参数为 $p$ 的几何分布 (Geometric Distribution)。令 $Z = X + Y$。求 $Z$ 的概率生成函数 $G_Z(z)$。

9. chapter 9：极限定理与近似 (Limit Theorems and Approximations)

9.1 大数定律 (Law of Large Numbers)

大数定律 (Law of Large Numbers, LLN) 是概率论中描述大量随机变量平均结果稳定性的定律。它指出，随着试验次数的增加，随机事件的频率趋于其理论概率。大数定律是概率论和统计学的基石，它解释了为什么在大量重复试验中，我们可以期望观察到稳定的统计规律性。大数定律主要分为两种形式：弱大数定律 (Weak Law of Large Numbers, WLLN) 和强大数定律 (Strong Law of Large Numbers, SLLN)。

9.1.1 弱大数定律 (Weak Law of Large Numbers, WLLN)

弱大数定律指出，对于独立同分布 (independent and identically distributed, i.i.d.) 的随机变量序列 $X_1, X_2, X_3, \ldots$，如果每个随机变量的期望 $E[X_i] = \mu$ 存在且有限，那么样本均值 $\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$ 依概率收敛 (converges in probability) 于总体均值 $\mu$。

更具体地说，对于任意给定的正数 $\epsilon > 0$，当 $n \to \infty$ 时，有：
\[ P(|\bar{X}_n - \mu| > \epsilon) \to 0 \]

这意味着，随着样本容量 $n$ 的增大，样本均值 $\bar{X}_n$ 偏离总体均值 $\mu$ 超过任意小正数 $\epsilon$ 的概率趋近于零。换句话说，样本均值 $\bar{X}_n$ 越来越接近总体均值 $\mu$。

理解弱大数定律的关键点：

① 依概率收敛 (Convergence in Probability)：弱大数定律描述的是一种概率意义上的收敛。它并不保证对于每次具体的试验序列，样本均值都一定会收敛到总体均值，而是说这种偏差发生的概率会越来越小。

② 独立同分布 (i.i.d.)：弱大数定律通常要求随机变量序列是独立同分布的。独立性保证了每次试验的结果互不影响，同分布保证了每次试验的随机变量具有相同的期望和方差。

③ 期望存在且有限：弱大数定律要求每个随机变量的期望 $\mu$ 存在且是有限值。这是保证样本均值能够稳定收敛到某个确定值的必要条件。

例子：抛硬币

考虑一个经典的例子：抛掷一枚均匀的硬币。设随机变量 $X_i$ 表示第 $i$ 次抛掷的结果，如果正面朝上，$X_i = 1$，如果反面朝上，$X_i = 0$。假设正面朝上的概率 $P(X_i = 1) = p = 0.5$，反面朝上的概率 $P(X_i = 0) = 1-p = 0.5$。则每次抛掷的期望 $E[X_i] = 1 \times 0.5 + 0 \times 0.5 = 0.5 = \mu$。

根据弱大数定律，当抛掷次数 $n$ 足够大时，正面朝上的频率 $\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$ 将依概率收敛于期望值 $\mu = 0.5$。这意味着，当我们抛掷硬币的次数越来越多时，正面朝上的次数占总次数的比例会越来越接近 50%。

9.1.2 强大数定律 (Strong Law of Large Numbers, SLLN)

强大数定律比弱大数定律更强。它指出，在相同的条件下（独立同分布的随机变量序列 $X_1, X_2, X_3, \ldots$，且 $E[X_i] = \mu$ 存在且有限），样本均值 $\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i$ 几乎必然收敛 (converges almost surely) 于总体均值 $\mu$。

更具体地说，强大数定律表示：
\[ P(\lim_{n \to \infty} \bar{X}_n = \mu) = 1 \]

这意味着，几乎所有的样本路径 (sample path) 都会使得样本均值 $\bar{X}_n$ 收敛到总体均值 $\mu$。“几乎必然 (almost surely)” 的含义是指，只有概率为零的事件才会导致样本均值不收敛到总体均值。

弱大数定律与强大数定律的比较：

⚝ 收敛方式不同：弱大数定律是依概率收敛，强大数定律是几乎必然收敛。几乎必然收敛是一种比依概率收敛更强的收敛方式。
⚝ 结论强度不同：强大数定律的结论更强，它表明对于“几乎所有”的样本序列，样本均值都收敛到总体均值。而弱大数定律只表明对于固定的 $n$，样本均值偏离总体均值超过一定程度的概率很小。

直观理解：

⚝ 弱大数定律：随着试验次数的增加，样本均值“很可能”接近总体均值。
⚝ 强大数定律：随着试验次数的增加，样本均值“几乎肯定”接近总体均值。

在实际应用中，强大数定律提供了更强的理论保证，表明在大量重复试验下，样本均值会非常可靠地接近总体均值。

9.1.3 大数定律的应用 (Applications of Law of Large Numbers)

大数定律在各个领域都有广泛的应用，尤其是在统计学、精算学、金融学和工程学等领域。

① 统计推断 (Statistical Inference)：大数定律是统计推断的理论基础。在统计学中，我们经常使用样本数据来估计总体参数。大数定律保证了当样本容量足够大时，样本统计量（如样本均值、样本比例等）能够有效地估计总体参数。例如，民意调查、市场调研等都需要依赖大数定律来保证结果的可靠性。

② 精算学 (Actuarial Science)：在保险行业中，精算师利用大数定律来预测风险和计算保费。例如，保险公司通过分析大量的历史数据，可以预测在一定时期内发生保险事故的概率，从而合理地设定保费水平。

③ 金融学 (Finance)：在金融市场中，大数定律可以用来解释投资组合的多样化效应。当投资组合中包含足够多的不相关资产时，整体风险会降低，收益会趋于稳定。此外，在算法交易和风险管理中，大数定律也有重要的应用。

④ 蒙特卡洛方法 (Monte Carlo Method)：蒙特卡洛方法是一种通过随机抽样来解决计算问题的数值方法。大数定律保证了当抽样次数足够大时，蒙特卡洛方法得到的数值结果会接近真实值。蒙特卡洛方法广泛应用于物理学、工程学、计算机科学等领域。

⑤ 质量控制 (Quality Control)：在工业生产中，大数定律可以用于质量控制。通过对产品进行抽样检验，可以估计产品的合格率。随着抽样数量的增加，对产品质量的评估会越来越准确。

总结：

大数定律是概率论中的核心概念之一，它揭示了随机现象在大量重复试验下的统计规律性。弱大数定律和强大数定律从不同角度描述了样本均值向总体均值的收敛行为。大数定律不仅具有重要的理论意义，而且在实际应用中也发挥着关键作用，为统计推断、风险管理、数值计算等领域提供了理论基础和方法支持。

9.2 中心极限定理 (Central Limit Theorem) (离散情况讨论)

中心极限定理 (Central Limit Theorem, CLT) 是概率论中最重要和最 фундаментальных 定理之一。它指出，在一定条件下，大量独立同分布的随机变量之和（或均值）的分布趋近于正态分布 (Normal Distribution)。即使原始随机变量的分布不是正态分布，只要满足一定的条件，它们的和的分布也会近似于正态分布。中心极限定理在统计推断中具有极其重要的地位，是许多统计方法的基础。本节主要讨论离散随机变量的中心极限定理。

9.2.1 中心极限定理 (Central Limit Theorem, CLT) 的基本形式

设 $X_1, X_2, X_3, \ldots$ 是独立同分布的随机变量序列，每个随机变量的期望为 $E[X_i] = \mu$，方差为 $Var(X_i) = \sigma^2$，其中 $0 < \sigma^2 < \infty$。定义样本和 $S_n = \sum_{i=1}^{n} X_i$ 和样本均值 $\bar{X}_n = \frac{1}{n} S_n$。

中心极限定理指出，当 $n \to \infty$ 时，标准化后的样本和 $Z_n = \frac{S_n - E[S_n]}{\sqrt{Var(S_n)}} = \frac{S_n - n\mu}{\sqrt{n\sigma^2}} = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}}$ 的分布趋近于标准正态分布 $N(0, 1)$。

更精确地表达，对于任意实数 $z$，有：
\[ \lim_{n \to \infty} P(Z_n \le z) = \Phi(z) \]
其中 $\Phi(z) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{z} e^{-t^2/2} dt$ 是标准正态分布的累积分布函数 (Cumulative Distribution Function, CDF)。

理解中心极限定理的关键点：

① 正态近似 (Normal Approximation)：中心极限定理的核心在于，无论原始随机变量 $X_i$ 服从什么分布（只要满足独立同分布和方差有限的条件），当 $n$ 足够大时，它们的和 $S_n$ 或均值 $\bar{X}_n$ 的分布都近似于正态分布。

② 标准化 (Standardization)：为了使不同分布的随机变量之和能够统一趋近于同一个正态分布，需要对样本和 $S_n$ 进行标准化处理，即减去均值 $E[S_n]$ 并除以标准差 $\sqrt{Var(S_n)}$。标准化后的随机变量 $Z_n$ 具有均值为 0，方差为 1 的特性。

③ 样本容量 $n$ 的要求：中心极限定理是当 $n \to \infty$ 时的极限结果。在实际应用中，需要样本容量 $n$ 足够大，才能保证正态近似的精度。一般来说，当 $n \ge 30$ 时，中心极限定理的近似效果通常就比较好。但对于某些分布（如指数分布、泊松分布），可能需要更大的 $n$ 值才能达到较好的近似效果。而对于接近正态分布的原始分布，较小的 $n$ 值也能得到较好的近似。

9.2.2 离散情况的中心极限定理 (CLT for Discrete Random Variables)

中心极限定理同样适用于离散随机变量。当 $X_1, X_2, \ldots, X_n$ 是独立同分布的离散随机变量时，它们的和 $S_n = \sum_{i=1}^{n} X_i$ 的分布在 $n$ 足够大时，也近似于正态分布。

例子：二项分布的中心极限定理近似

考虑二项分布 $Bin(n, p)$。二项分布可以看作是 $n$ 次独立的伯努利试验 (Bernoulli trial) 的成功次数之和。设 $X_i$ 表示第 $i$ 次伯努利试验的结果，$X_i \sim Bernoulli(p)$，即 $P(X_i = 1) = p$，$P(X_i = 0) = 1-p$。则 $S_n = \sum_{i=1}^{n} X_i \sim Bin(n, p)$。

每个伯努利随机变量的期望和方差分别为：
\[ E[X_i] = p, \quad Var(X_i) = p(1-p) \]
因此，二项分布 $Bin(n, p)$ 的期望和方差为：
\[ E[S_n] = np, \quad Var(S_n) = np(1-p) \]

根据中心极限定理，当 $n$ 足够大时，二项分布 $Bin(n, p)$ 可以用正态分布近似。标准化后的随机变量为：
\[ Z_n = \frac{S_n - np}{\sqrt{np(1-p)}} \]
当 $n \to \infty$ 时，$Z_n$ 的分布趋近于标准正态分布 $N(0, 1)$。

使用正态分布近似二项分布的条件：

一般来说，当 $np \ge 5$ 且 $n(1-p) \ge 5$ 时，正态近似效果较好。更保守的条件是 $n$ 足够大，例如 $n \ge 30$，且 $p$ 不太接近 0 或 1。

连续性修正 (Continuity Correction)

由于二项分布是离散分布，而正态分布是连续分布，在用正态分布近似二项分布时，为了提高近似精度，通常需要进行连续性修正。

例如，要用正态分布近似计算 $P(S_n \le k)$，其中 $S_n \sim Bin(n, p)$，应该使用 $P(S_n \le k) \approx P(Y \le k + 0.5)$，其中 $Y \sim N(np, np(1-p))$。同样，计算 $P(S_n \ge k)$ 时，使用 $P(S_n \ge k) \approx P(Y \ge k - 0.5)$。计算 $P(k_1 \le S_n \le k_2)$ 时，使用 $P(k_1 \le S_n \le k_2) \approx P(k_1 - 0.5 \le Y \le k_2 + 0.5)$。

例子：计算二项分布概率的近似值

假设抛掷一枚均匀硬币 100 次，求正面朝上次数在 45 到 55 次之间的概率。设 $S_{100} \sim Bin(100, 0.5)$。使用正态近似，期望 $\mu = np = 100 \times 0.5 = 50$，方差 $\sigma^2 = np(1-p) = 100 \times 0.5 \times 0.5 = 25$，标准差 $\sigma = 5$。

使用连续性修正，计算 $P(45 \le S_{100} \le 55)$ 近似为：
\[ P(45 - 0.5 \le Y \le 55 + 0.5) = P(44.5 \le Y \le 55.5) \]
其中 $Y \sim N(50, 25)$。标准化后：
\[ P\left(\frac{44.5 - 50}{5} \le Z \le \frac{55.5 - 50}{5}\right) = P(-1.1 \le Z \le 1.1) = \Phi(1.1) - \Phi(-1.1) \]
查标准正态分布表或使用计算器，$\Phi(1.1) \approx 0.8643$，$\Phi(-1.1) \approx 0.1357$。
\[ P(45 \le S_{100} \le 55) \approx 0.8643 - 0.1357 = 0.7286 \]

实际的二项分布概率值约为 0.7287，可见正态近似效果良好。

9.2.3 中心极限定理的应用 (Applications of Central Limit Theorem)

中心极限定理在统计学和概率论中有着广泛的应用。

① 统计推断 (Statistical Inference)：中心极限定理是构建置信区间 (Confidence Interval) 和假设检验 (Hypothesis Testing) 的理论基础。例如，在估计总体均值时，可以使用样本均值 $\bar{X}_n$ 作为估计量，并利用中心极限定理构建总体均值的置信区间。

② 抽样分布近似 (Approximation of Sampling Distributions)：当样本容量较大时，许多统计量的抽样分布可以近似为正态分布，这使得我们可以使用正态分布进行统计推断。例如，样本均值的抽样分布、样本比例的抽样分布等在样本容量较大时都近似于正态分布。

③ 误差分析 (Error Analysis)：在测量和实验中，许多误差可以看作是大量微小独立随机误差的叠加。根据中心极限定理，总误差的分布趋近于正态分布，这解释了为什么正态分布在误差分析中如此常见。

④ 模拟与计算 (Simulation and Computation)：在蒙特卡洛模拟中，中心极限定理可以用来评估模拟结果的精度。此外，在某些复杂的计算问题中，可以使用中心极限定理进行近似计算。

总结：

中心极限定理是概率论中最重要的定理之一，它揭示了大量独立同分布随机变量之和的分布趋近于正态分布的普遍规律。对于离散随机变量，中心极限定理同样适用，例如二项分布可以用正态分布近似。中心极限定理在统计推断、抽样分布近似、误差分析等领域有着广泛的应用，是统计学和概率论的重要理论工具。

9.3 泊松逼近二项分布 (Poisson Approximation to Binomial Distribution)

泊松逼近二项分布 (Poisson Approximation to Binomial Distribution) 是一种用泊松分布 (Poisson Distribution) 近似二项分布 (Binomial Distribution) 的方法。当二项分布的参数 $n$ 很大，而 $p$ 很小时，泊松分布可以很好地近似二项分布。这种近似在实际应用中非常有用，尤其是在处理稀有事件 (rare events) 的概率计算时。

9.3.1 泊松逼近的条件 (Conditions for Poisson Approximation)

泊松逼近二项分布的有效条件是：

① $n$ 很大 (Large $n$)：试验次数 $n$ 足够大。一般来说，$n \ge 20$ 或 $n \ge 50$ 是常用的经验规则。

② $p$ 很小 (Small $p$)：每次试验成功的概率 $p$ 很小。一般来说，$p \le 0.1$ 或 $p \le 0.05$ 是常用的经验规则。

③ $\lambda = np$ 适中 (Moderate $\lambda = np$)：乘积 $\lambda = np$ 的值适中，通常在 1 到 10 之间。如果 $\lambda$ 太大，泊松分布本身也趋近于正态分布，此时可以直接使用正态近似。

当这些条件满足时，二项分布 $Bin(n, p)$ 可以用参数为 $\lambda = np$ 的泊松分布 $Poisson(\lambda)$ 近似。

9.3.2 泊松逼近的推导 (Derivation of Poisson Approximation)

考虑二项分布的概率质量函数 (Probability Mass Function, PMF)：
\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n \]
其中 $X \sim Bin(n, p)$。当 $n \to \infty$ 且 $p \to 0$，但 $\lambda = np$ 保持不变时，我们来考察 $P(X = k)$ 的极限。

将二项系数展开：
\[ \binom{n}{k} = \frac{n!}{k!(n-k)!} = \frac{n(n-1)\cdots(n-k+1)}{k!} \]
当 $n$ 很大，$k$ 相对较小时，有 $n(n-1)\cdots(n-k+1) \approx n^k$。因此，
\[ \binom{n}{k} \approx \frac{n^k}{k!} \]
又因为 $p = \frac{\lambda}{n}$，所以 $p^k = \left(\frac{\lambda}{n}\right)^k = \frac{\lambda^k}{n^k}$。
同时，$(1-p)^{n-k} = (1-p)^n (1-p)^{-k}$。当 $p \to 0$ 时，$(1-p)^{-k} \approx 1$。而 $(1-p)^n = \left(1-\frac{\lambda}{n}\right)^n$。根据极限 $\lim_{n \to \infty} \left(1 + \frac{x}{n}\right)^n = e^x$，当 $n \to \infty$ 时，$\left(1-\frac{\lambda}{n}\right)^n \to e^{-\lambda}$。

综合以上近似，得到：
\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} \approx \frac{n^k}{k!} \cdot \frac{\lambda^k}{n^k} \cdot e^{-\lambda} = \frac{e^{-\lambda} \lambda^k}{k!} \]
这正是参数为 $\lambda$ 的泊松分布的概率质量函数。

因此，当 $n$ 很大，$p$ 很小时，二项分布 $Bin(n, p)$ 可以用泊松分布 $Poisson(\lambda = np)$ 近似。

9.3.3 泊松逼近的应用 (Applications of Poisson Approximation)

泊松逼近在很多实际问题中非常有用，尤其是在处理稀有事件的概率计算时。

① 稀有事件的概率计算 (Probability of Rare Events)：当事件发生的概率很小，但试验次数很多时，可以使用泊松分布来近似计算事件发生的次数。例如，在一定时间内，某地区发生地震的次数、某城市发生交通事故的次数、某工厂产品出现缺陷的次数等，都可以用泊松分布来近似描述。

② 排队论 (Queuing Theory)：在排队论中，顾客到达服务系统的次数通常可以用泊松分布来描述。例如，在单位时间内到达银行柜台的顾客数、到达电话呼叫中心的呼叫数等。

③ 风险管理 (Risk Management)：在风险管理中，泊松分布可以用来模拟在一定时间内发生的风险事件次数，例如保险索赔次数、信用违约次数等。

④ 生物学和医学 (Biology and Medicine)：在生物学和医学研究中，泊松分布可以用来描述在一定区域内或一定时间内发生的生物事件次数，例如单位面积内植物的分布、单位时间内细胞突变的次数等。

例子：计算泊松近似的概率

假设某城市在一年内发生严重交通事故的概率为 0.01。求在未来 100 年内，该城市发生至少 3 次严重交通事故的概率。

设 $X$ 为未来 100 年内发生严重交通事故的次数。可以近似认为 $X \sim Bin(n=100, p=0.01)$。由于 $n=100$ 很大，$p=0.01$ 很小，可以使用泊松近似。参数 $\lambda = np = 100 \times 0.01 = 1$。因此，$X \approx Poisson(1)$。

我们需要计算 $P(X \ge 3)$。使用泊松分布的概率质量函数：
\[ P(X = k) = \frac{e^{-1} 1^k}{k!} = \frac{e^{-1}}{k!} \]
\[ P(X \ge 3) = 1 - P(X < 3) = 1 - [P(X = 0) + P(X = 1) + P(X = 2)] \]
\[ P(X = 0) = \frac{e^{-1}}{0!} = e^{-1} \approx 0.3679 \]
\[ P(X = 1) = \frac{e^{-1}}{1!} = e^{-1} \approx 0.3679 \]
\[ P(X = 2) = \frac{e^{-1}}{2!} = \frac{e^{-1}}{2} \approx 0.1839 \]
\[ P(X \ge 3) = 1 - (0.3679 + 0.3679 + 0.1839) = 1 - 0.9197 = 0.0803 \]

因此，未来 100 年内，该城市发生至少 3 次严重交通事故的概率约为 0.0803。

误差分析：

泊松逼近的精度取决于 $n$ 和 $p$ 的取值。当 $n$ 越大，$p$ 越小时，近似效果越好。一般来说，当 $n \ge 20$ 且 $p \le 0.05$ 时，泊松逼近的误差较小。可以通过比较泊松近似值和精确的二项分布值来评估近似误差。

总结：

泊松逼近二项分布是一种重要的近似方法，它在 $n$ 很大，$p$ 很小时，可以用泊松分布有效地近似二项分布。泊松逼近在稀有事件概率计算、排队论、风险管理等领域有广泛的应用。理解泊松逼近的条件和推导过程，能够帮助我们更好地应用概率论解决实际问题。

9.4 其他近似方法 (Other Approximation Methods)

除了正态近似和泊松近似之外，还有一些其他的近似方法在离散概率中也很有用。这些方法可以用于近似计算概率分布、期望和方差等。

9.4.1 正态近似泊松分布 (Normal Approximation to Poisson Distribution)

当泊松分布的参数 $\lambda$ 较大时，泊松分布本身也可以用正态分布来近似。一般来说，当 $\lambda \ge 10$ 或 $\lambda \ge 20$ 时，正态近似效果较好。

如果 $X \sim Poisson(\lambda)$，当 $\lambda$ 较大时，$X$ 的分布近似于正态分布 $N(\lambda, \lambda)$。标准化后的随机变量 $Z = \frac{X - \lambda}{\sqrt{\lambda}}$ 近似服从标准正态分布 $N(0, 1)$。

使用正态近似泊松分布的条件：

当 $\lambda$ 足够大，例如 $\lambda \ge 10$ 或 $\lambda \ge 20$ 时，正态近似效果较好。同样，为了提高近似精度，可以使用连续性修正。

例如，计算 $P(X \le k)$ 时，使用 $P(X \le k) \approx P(Y \le k + 0.5)$，其中 $Y \sim N(\lambda, \lambda)$。

例子：正态近似泊松分布

假设某呼叫中心平均每小时接到 25 个电话，求在一小时内接到电话数超过 30 个的概率。设 $X$ 为一小时内接到的电话数，$X \sim Poisson(25)$。由于 $\lambda = 25$ 较大，可以使用正态近似。

使用正态分布 $Y \sim N(25, 25)$ 近似 $X$。我们需要计算 $P(X > 30) = 1 - P(X \le 30)$。使用连续性修正：
\[ P(X \le 30) \approx P(Y \le 30 + 0.5) = P(Y \le 30.5) \]
标准化后：
\[ P\left(Z \le \frac{30.5 - 25}{\sqrt{25}}\right) = P\left(Z \le \frac{5.5}{5}\right) = P(Z \le 1.1) = \Phi(1.1) \approx 0.8643 \]
因此，$P(X > 30) = 1 - P(X \le 30) \approx 1 - 0.8643 = 0.1357$。

9.4.2 其他分布的近似 (Approximations for Other Distributions)

除了二项分布和泊松分布，还有一些其他的离散分布在特定条件下可以使用近似方法。

① 超几何分布的近似 (Approximation of Hypergeometric Distribution)：当超几何分布中的总体容量 $N$ 很大，而抽样容量 $n$ 相对较小时，超几何分布可以近似为二项分布。如果 $N$ 很大，且成功元素的数量 $K$ 与 $N$ 的比例 $p = K/N$ 保持不变，则超几何分布 $Hypergeometric(N, K, n)$ 近似于二项分布 $Bin(n, p = K/N)$。进一步，如果 $p$ 也较小，还可以用泊松分布近似。

② 负二项分布的近似 (Approximation of Negative Binomial Distribution)：负二项分布在某些条件下也可以用正态分布或泊松分布近似，但条件相对复杂，通常需要根据具体参数值来判断。

9.4.3 斯特林公式 (Stirling's Approximation)

斯特林公式 (Stirling's Approximation) 是一种用于近似阶乘函数 $n!$ 的公式，当 $n$ 很大时非常有用。斯特林公式为：
\[ n! \approx \sqrt{2\pi n} \left(\frac{n}{e}\right)^n \]
斯特林公式在概率论和统计学中常用于近似计算组合数 $\binom{n}{k}$ 和其他涉及阶乘的表达式。例如，在分析二项分布和泊松分布的尾部概率时，斯特林公式可以简化计算。

应用：近似计算二项系数

使用斯特林公式可以近似计算二项系数 $\binom{n}{k} = \frac{n!}{k!(n-k)!}$。当 $n, k, n-k$ 都很大时，斯特林公式可以提供较好的近似。

9.4.4 数值计算方法 (Numerical Methods)

在实际应用中，当近似方法精度不足或条件不满足时，可以使用数值计算方法来精确计算概率分布和相关统计量。例如，可以使用计算机程序直接计算二项分布、泊松分布、超几何分布等的概率质量函数和累积分布函数。现代计算软件（如 R, Python, MATLAB 等）都提供了丰富的概率分布函数库，可以方便地进行数值计算。

总结：

除了中心极限定理提供的正态近似和泊松逼近二项分布之外，还有其他一些近似方法可以用于离散概率分布。正态近似泊松分布在 $\lambda$ 较大时有效，超几何分布在总体容量很大时可以近似为二项分布，斯特林公式可以近似阶乘函数。在实际应用中，需要根据具体问题和参数条件选择合适的近似方法，或者使用数值计算方法来获得更精确的结果。理解各种近似方法的适用条件和局限性，能够帮助我们更有效地解决实际问题。

9.5 本章小结与习题 (Chapter Summary and Exercises)

本章小结

本章主要介绍了概率论中的极限定理与近似方法，重点讨论了大数定律和中心极限定理，以及泊松逼近二项分布和正态近似泊松分布等重要近似方法。

⚝ 大数定律 (Law of Large Numbers)：包括弱大数定律和强大数定律，阐述了样本均值依概率收敛和几乎必然收敛于总体均值的规律，是统计推断的理论基础。
⚝ 中心极限定理 (Central Limit Theorem)：指出大量独立同分布随机变量之和的分布趋近于正态分布，是统计学中最核心的定理之一，为正态近似提供了理论依据。
⚝ 泊松逼近二项分布 (Poisson Approximation to Binomial Distribution)：当 $n$ 很大，$p$ 很小时，二项分布可以用泊松分布近似，适用于稀有事件的概率计算。
⚝ 正态近似泊松分布 (Normal Approximation to Poisson Distribution)：当泊松分布的参数 $\lambda$ 较大时，泊松分布可以用正态分布近似。
⚝ 其他近似方法 (Other Approximation Methods)：包括超几何分布的二项近似，斯特林公式对阶乘的近似，以及数值计算方法。

这些极限定理和近似方法在概率论和统计学的理论研究和实际应用中都具有重要的意义。掌握这些方法能够帮助我们更好地理解随机现象的统计规律性，解决实际问题，进行统计推断和概率计算。

习题

大数定律应用：某城市有 100 万人口，假设每个人每年患感冒的概率为 0.2，且每个人是否患感冒相互独立。
① 使用弱大数定律解释，为什么可以预测该城市每年大约有 20 万人患感冒。
② 如果抽取 1000 人作为样本，计算样本中患感冒比例与总体患感冒概率 0.2 的偏差超过 0.05 的概率上限（可以使用切比雪夫不等式）。
中心极限定理应用：投掷一个均匀骰子 100 次，设 $X_i$ 为第 $i$ 次投掷的点数，$S_{100} = \sum_{i=1}^{100} X_i$ 为总点数。
① 求 $E[S_{100}]$ 和 $Var(S_{100})$。
② 使用中心极限定理近似计算 $P(S_{100} > 360)$。
泊松逼近二项分布：某工厂生产的灯泡，每 1000 个灯泡中有 2 个次品。现随机抽取 500 个灯泡。
① 使用二项分布计算抽到 0 个次品的精确概率。
② 使用泊松分布近似计算抽到 0 个次品的概率，并比较近似结果与精确结果。
③ 使用泊松分布近似计算抽到至少 3 个次品的概率。
正态近似泊松分布：某网站平均每分钟收到 50 次访问请求。
① 使用泊松分布计算每分钟收到访问请求超过 60 次的精确概率。
② 使用正态分布近似计算每分钟收到访问请求超过 60 次的概率，并使用连续性修正。
斯特林公式应用：使用斯特林公式近似计算 $20!$ 的值，并与计算器计算的精确值进行比较，计算相对误差。
综合应用：某保险公司销售一种意外险，每份保险的年赔付概率为 0.001，每份保险的赔付金额为 10 万元。该公司售出 1 万份保险。
① 使用泊松分布近似计算该公司一年内赔付总额超过 150 万元的概率。
② 如果该公司准备了 200 万元的赔付准备金，使用正态近似估计赔付准备金不足的概率。

参考答案 (部分习题)

① $E[S_{100}] = 350$，$Var(S_{100}) = \frac{3500}{12} \approx 291.67$。
② $P(S_{100} > 360) \approx 1 - \Phi\left(\frac{360 - 350}{\sqrt{291.67}}\right) \approx 1 - \Phi(0.585) \approx 0.279$。
② 泊松近似 $\lambda = np = 500 \times \frac{2}{1000} = 1$。$P(X=0) \approx \frac{e^{-1} 1^0}{0!} = e^{-1} \approx 0.3679$。精确值 $P(X=0) = \binom{500}{0} (0.002)^0 (0.998)^{500} \approx 0.3673$。近似结果接近精确结果。
③ $P(X \ge 3) = 1 - [P(X=0) + P(X=1) + P(X=2)] \approx 1 - (e^{-1} + e^{-1} + \frac{e^{-1}}{2}) \approx 0.0803$。

<END_OF_CHAPTER/>

10. chapter 10：离散概率的应用 (Applications of Discrete Probability)

10.1 计算机科学中的应用 (Applications in Computer Science)

计算机科学与离散概率之间存在着深刻且广泛的联系。从算法设计与分析到数据结构优化，再到网络协议和信息安全，离散概率都扮演着至关重要的角色。本节将探讨离散概率在计算机科学中的几个核心应用领域。

10.1.1 随机算法 (Randomized Algorithms)

随机算法 (Randomized Algorithms) 是一类在算法执行过程中引入随机性的算法。与传统的确定性算法不同，随机算法的某些步骤依赖于随机数生成器产生的随机数。这种随机性赋予了随机算法一些独特的优势：

① 简化算法设计：对于某些问题，设计高效的确定性算法可能非常困难，但引入随机性后，算法的设计会变得更加简洁和直观。例如，快速排序 (Quicksort) 算法的随机化版本，通过随机选择 pivot 元素，可以有效地避免最坏情况的发生，从而在平均情况下达到 $O(n \log n)$ 的时间复杂度。

② 提高平均性能：即使在最坏情况下，随机算法的性能也往往可以得到概率保证。例如，在通信网络中，随机退避算法 (Randomized Backoff Algorithm) 用于解决信道冲突问题，它通过让节点随机等待一段时间后重试，有效地降低了冲突的概率，提高了网络的吞吐量。

③ 解决确定性算法难以解决的问题：有些问题，例如分布式共识问题 (Distributed Consensus Problem) 和某些密码学协议，在确定性环境下是无法有效解决的，但通过引入随机性，可以找到概率性的解决方案。

常见的随机算法类型包括：

⚝ 拉斯维加斯算法 (Las Vegas Algorithms)：这类算法总是给出正确的答案，但其运行时间是随机的。例如，随机化快速排序算法就是一个拉斯维加斯算法，它总是能正确地排序，但其运行时间取决于 pivot 元素的选择。

⚝ 蒙特卡洛算法 (Monte Carlo Algorithms)：这类算法的运行时间是确定的，但其结果可能是错误的，且错误概率可以控制。例如，判断一个大数是否为素数的 Miller-Rabin 素性测试算法就是一个蒙特卡洛算法，它以一定的概率判断一个数是素数，但存在误判的可能性。

⚝ 舍伍德算法 (Sherwood Algorithms)：这类算法总是给出正确的答案，并且旨在减少或消除最坏情况的发生，从而提高平均性能。随机化快速排序也可以被视为一种舍伍德算法。

案例分析：随机化快速排序 (Randomized Quicksort)

快速排序是一种常用的排序算法，其核心思想是分治法 (Divide and Conquer)。在确定性快速排序中，通常选择数组的第一个或最后一个元素作为 pivot。然而，如果输入数组已经部分有序或完全有序，选择固定的 pivot 会导致算法退化到 $O(n^2)$ 的时间复杂度。

随机化快速排序通过随机选择 pivot 元素来避免这种情况。具体步骤如下：

从待排序数组中随机选择一个元素作为 pivot。
将数组划分为两个子数组：小于 pivot 的元素和大于 pivot 的元素。
递归地对两个子数组进行排序。

由于 pivot 是随机选择的，因此在平均情况下，pivot 更有可能接近数组的中位数，从而使得划分更加均匀，算法的时间复杂度接近 $O(n \log n)$。

离散概率在随机算法分析中的作用：

分析随机算法的性能，例如期望运行时间、错误概率等，通常需要用到离散概率的知识。例如，分析随机化快速排序的期望运行时间，需要计算比较次数的期望值，这涉及到对随机事件的概率分析。分析蒙特卡洛算法的错误概率，需要计算算法给出错误答案的概率上限。

10.1.2 数据结构与算法分析 (Data Structures and Algorithm Analysis)

离散概率在数据结构和算法分析中扮演着重要的角色，尤其是在分析算法的平均情况性能和设计概率数据结构时。

① 平均情况分析 (Average-Case Analysis)：

与最坏情况分析 (Worst-Case Analysis) 不同，平均情况分析关注算法在典型输入下的性能。为了进行平均情况分析，我们需要对输入数据进行概率建模，假设输入数据服从某种概率分布。然后，利用离散概率的工具，例如期望值、方差等，来分析算法在这些随机输入下的平均性能。

例如，分析哈希表 (Hash Table) 的平均查找时间，通常假设哈希函数能够将键均匀地分布到哈希表的各个槽位中。在这种均匀分布的假设下，可以计算出哈希表的平均查找时间接近 $O(1)$。

② 概率数据结构 (Probabilistic Data Structures)：

概率数据结构是一类利用随机性来优化数据结构性能的数据结构。与传统数据结构相比，概率数据结构通常在空间效率、查询效率或更新效率方面具有优势，但可能会以一定的概率返回错误的结果或牺牲一定的精度。

常见的概率数据结构包括：

⚝ 布隆过滤器 (Bloom Filter)：布隆过滤器是一种空间效率极高的概率数据结构，用于判断一个元素是否在一个集合中。它可能会产生误判 (将不在集合中的元素误判为在集合中)，但不会漏判 (将集合中的元素误判为不在集合中)。布隆过滤器广泛应用于网络缓存、数据库查询优化、垃圾邮件过滤等领域。

⚝ 跳跃表 (Skip List)：跳跃表是一种基于概率的有序数据结构，它通过引入多层索引来加速查找操作。跳跃表的插入、删除和查找操作的平均时间复杂度为 $O(\log n)$，与平衡树 (Balanced Tree) 相当，但实现起来更加简单。

⚝ Count-Min Sketch 和 Count-Median Sketch：这两种数据结构用于估计数据流中元素的频率。它们使用哈希函数和计数器来近似统计元素的出现次数，具有空间效率高、更新速度快的优点，但结果是近似的。

案例分析：布隆过滤器 (Bloom Filter)

布隆过滤器是一种用于集合成员查询的概率数据结构。它由一个 bit 数组和多个哈希函数组成。

布隆过滤器的构造过程：

初始化一个长度为 $m$ 的 bit 数组，所有位都置为 0。
选择 $k$ 个独立的哈希函数 $h_1, h_2, ..., h_k$，这些哈希函数的值域都为 $\{0, 1, ..., m-1\}$。
对于要加入集合的每个元素 $x$，计算 $h_1(x), h_2(x), ..., h_k(x)$ 这 $k$ 个哈希值，并将 bit 数组中对应的位置置为 1。

布隆过滤器的查询过程：

对于要查询的元素 $y$，计算 $h_1(y), h_2(y), ..., h_k(y)$ 这 $k$ 个哈希值。
检查 bit 数组中对应的位置是否都为 1。如果都为 1，则认为元素 $y$ 可能在集合中；如果至少有一个位置为 0，则元素 $y$ 一定不在集合中。

误判概率分析：

布隆过滤器可能会产生误判，即把不在集合中的元素误判为在集合中。误判的概率取决于 bit 数组的大小 $m$、哈希函数的个数 $k$ 以及集合中元素的个数 $n$。通过合理的参数选择，可以将误判概率控制在可接受的范围内。

离散概率在分析布隆过滤器的误判概率、选择最优参数等方面发挥着关键作用。例如，可以使用概率论的方法推导出误判概率的公式，并根据实际应用的需求选择合适的 $m$ 和 $k$ 值。

10.2 排队论简介 (Introduction to Queuing Theory)

排队论 (Queuing Theory)，又称随机服务系统理论，是研究系统因随机因素干扰而产生拥塞或等待现象的数学理论和方法。它利用概率论和随机过程的知识，分析和优化各种排队系统的性能。排队论在计算机科学中有着广泛的应用，例如网络流量控制、操作系统调度、性能评估等。

排队系统的基本组成部分：

一个基本的排队系统通常由以下三个部分组成：

① 顾客 (Customers)：需要接受服务的实体，例如网络中的数据包、操作系统中的进程、银行的顾客等。在排队论中，顾客的到达通常被建模为随机过程。

② 服务机构 (Servers)：提供服务的实体，例如网络服务器、CPU、银行柜台等。服务机构的数量可以是单个或多个。服务时间通常也被建模为随机变量。

③ 队列 (Queue)：当顾客到达时，如果所有服务机构都处于忙碌状态，顾客就需要排队等待。队列可以是有限长度或无限长度。队列的规则可以是先到先服务 (FIFO)、后到先服务 (LIFO)、优先级队列等。

排队模型 (Queuing Models)：

排队论使用数学模型来描述和分析排队系统。常用的排队模型使用 Kendall 记号表示，例如 M/M/1 模型、M/M/c 模型、M/G/1 模型等。Kendall 记号由三个部分组成：

⚝ 到达过程 (Arrival Process)：描述顾客到达系统的规律。常用的到达过程包括：
▮▮▮▮⚝ M (Markovian)：泊松过程 (Poisson Process)，表示顾客到达是相互独立的，且到达间隔时间服从指数分布 (Exponential Distribution)。
▮▮▮▮⚝ D (Deterministic)：确定性到达，表示顾客以固定的时间间隔到达。
▮▮▮▮⚝ G (General)：一般到达过程，表示顾客到达间隔时间服从任意概率分布。

⚝ 服务过程 (Service Process)：描述服务机构提供服务的规律。常用的服务过程包括：
▮▮▮▮⚝ M (Markovian)：服务时间服从指数分布。
▮▮▮▮⚝ D (Deterministic)：服务时间是固定的。
▮▮▮▮⚝ G (General)：服务时间服从任意概率分布。

⚝ 服务机构数量 (Number of Servers)：表示系统中服务机构的数量。

例如，M/M/1 模型表示顾客到达服从泊松过程，服务时间服从指数分布，且系统中只有一个服务机构的排队系统。M/M/c 模型表示有 c 个服务机构。

排队系统的性能指标 (Performance Metrics)：

排队论的主要目的是分析排队系统的性能，常用的性能指标包括：

⚝ 平均队长 (Average Queue Length, $L_q$)：队列中平均顾客数量。
⚝ 平均等待时间 (Average Waiting Time in Queue, $W_q$)：顾客在队列中平均等待的时间。
⚝ 平均逗留时间 (Average Time in System, $W$)：顾客在系统中（包括等待和服务）平均花费的时间。
⚝ 平均系统长 (Average Number of Customers in System, $L$)：系统中（包括队列和服务）平均顾客数量。
⚝ 服务机构利用率 (Server Utilization, $\rho$)：服务机构处于忙碌状态的时间比例。

离散概率在排队论中的应用：

排队论的核心是利用离散概率和随机过程的理论来建立排队模型，并分析模型的性能指标。例如，对于 M/M/1 模型，可以使用马尔可夫链 (Markov Chain) 来描述系统的状态转移，然后利用平稳分布 (Stationary Distribution) 的概念来计算系统的性能指标。

案例分析：M/M/1 排队模型

M/M/1 模型是最基本的排队模型，它假设顾客到达服从泊松过程，到达率 (arrival rate) 为 $\lambda$，服务时间服从指数分布，服务率 (service rate) 为 $\mu$，且系统中只有一个服务机构。

状态转移图：

M/M/1 模型的状态可以用系统中顾客的数量来表示，状态空间为 $\{0, 1, 2, ...\}$。状态转移图如下：

\[ \begin{tikzpicture}[->,>=stealth',shorten >=1pt,auto,node distance=2cm, semithick] \node[state] (0) {$0$}; \node[state] (1) [right of=0] {$1$}; \node[state] (2) [right of=1] {$2$}; \node[state] (3) [right of=2] {$3$}; \node[state] (n) [right of=3] {$n$}; \node[state] (np1) [right of=n] {$n+1$}; \node[state] (dots) [right of=np1] {$\cdots$}; \path (0) edge [bend left] node {$\lambda$} (1) (1) edge [bend left] node {$\lambda$} (2) (2) edge [bend left] node {$\lambda$} (3) (3) edge [bend left] node {$\lambda$} (n) (n) edge [bend left] node {$\lambda$} (np1) (np1) edge [bend left] node {$\lambda$} (dots) (1) edge [bend left] node {$\mu$} (0) (2) edge [bend left] node {$\mu$} (1) (3) edge [bend left] node {$\mu$} (2) (n) edge [bend left] node {$\mu$} (3) (np1) edge [bend left] node {$\mu$} (n) (dots) edge [bend left] node {$\mu$} (np1); \end{tikzpicture} \]

平稳分布：

设 $\pi_n$ 表示系统处于状态 $n$ 的概率，即系统中恰好有 $n$ 个顾客的概率。在平稳状态下，流入状态 $n$ 的速率等于流出状态 $n$ 的速率，可以得到平衡方程组：

\[ \begin{cases} \lambda \pi_0 = \mu \pi_1 \\ (\lambda + \mu) \pi_n = \lambda \pi_{n-1} + \mu \pi_{n+1}, \quad n \ge 1 \end{cases} \]

解上述方程组，并利用归一化条件 $\sum_{n=0}^{\infty} \pi_n = 1$，可以得到平稳分布：

\[ \pi_n = (1-\rho) \rho^n, \quad n = 0, 1, 2, ... \]

其中 $\rho = \frac{\lambda}{\mu}$ 为服务机构利用率。为了保证系统稳定，需要 $\rho < 1$，即到达率小于服务率。

性能指标：

利用平稳分布，可以计算 M/M/1 模型的性能指标：

⚝ 平均队长：$L_q = \sum_{n=1}^{\infty} (n-1) \pi_n = \frac{\rho^2}{1-\rho} = \frac{\lambda^2}{\mu(\mu-\lambda)}$
⚝ 平均等待时间：$W_q = \frac{L_q}{\lambda} = \frac{\rho}{\mu-\lambda} = \frac{\lambda}{\mu(\mu-\lambda)}$
⚝ 平均逗留时间：$W = W_q + \frac{1}{\mu} = \frac{1}{\mu-\lambda}$
⚝ 平均系统长：$L = \lambda W = \frac{\lambda}{\mu-\lambda} = \frac{\rho}{1-\rho}$

排队论为分析和优化各种排队系统提供了理论基础和方法，在计算机科学、通信工程、交通运输、生产管理等领域都有着广泛的应用。

10.3 可靠性分析 (Reliability Analysis)

可靠性分析 (Reliability Analysis) 是研究系统或产品在给定条件下和给定时间内，完成规定功能的概率。在计算机科学中，可靠性分析对于设计和评估硬件系统、软件系统以及网络系统的可靠性至关重要。离散概率是可靠性分析的重要数学工具。

基本概念：

⚝ 可靠度 (Reliability, $R(t)$)：系统在时间 $t$ 内正常运行的概率。
⚝ 失效概率 (Failure Probability, $F(t)$)：系统在时间 $t$ 内失效的概率，$F(t) = 1 - R(t)$。
⚝ 失效时间 (Time to Failure, $T$)：系统从开始运行到失效的时间，是一个随机变量。
⚝ 失效分布 (Failure Distribution)：失效时间 $T$ 的概率分布，可以用累积分布函数 $F(t) = P(T \le t)$ 或概率密度函数 $f(t) = \frac{dF(t)}{dt}$ 来描述。
⚝ 失效率 (Failure Rate, $\lambda(t)$)：在时刻 $t$ 仍然正常运行的系统，在单位时间内失效的条件概率。

常用的失效分布：

在可靠性分析中，常用的失效分布包括：

⚝ 指数分布 (Exponential Distribution)：常用于描述电子元件的随机失效，其失效率为常数。
⚝ 韦布尔分布 (Weibull Distribution)：一种非常灵活的分布，可以描述不同类型的失效模式，例如早期失效、随机失效和耗损失效。
⚝ 正态分布 (Normal Distribution) 和 对数正态分布 (Lognormal Distribution)：常用于描述机械部件的失效。

系统可靠性模型：

复杂的系统通常由多个组件组成。为了分析系统的可靠性，需要建立系统可靠性模型，描述系统组件之间的连接方式以及组件失效对系统功能的影响。

常见的系统可靠性模型包括：

① 串联系统 (Series System)：系统中所有组件必须都正常工作，系统才能正常工作。只要有一个组件失效，系统就失效。串联系统的可靠度为各组件可靠度的乘积：

\[ R_{series}(t) = \prod_{i=1}^{n} R_i(t) \]

② 并联系统 (Parallel System)：系统中只要有一个组件正常工作，系统就能正常工作。只有当所有组件都失效时，系统才失效。并联系统的可靠度为：

\[ R_{parallel}(t) = 1 - \prod_{i=1}^{n} (1 - R_i(t)) \]

③ k-out-of-n 系统 (k-out-of-n System)：在 $n$ 个组件中，至少有 $k$ 个组件正常工作，系统才能正常工作。例如，2-out-of-3 系统表示 3 个组件中至少有 2 个正常工作系统才能正常工作。

④ 复杂系统 (Complex System)：由串联、并联和更复杂的连接方式组成的系统，例如桥式系统 (Bridge System)。复杂系统的可靠性分析通常需要使用更高级的技术，例如 可靠性框图 (Reliability Block Diagram, RBD) 和 故障树分析 (Fault Tree Analysis, FTA)。

故障树分析 (Fault Tree Analysis, FTA)：

故障树分析是一种自顶向下的演绎分析方法，用于分析系统中可能导致顶层事件 (通常是系统失效) 发生的各种原因。故障树使用逻辑门 (例如 AND 门、OR 门) 将顶层事件与底层事件 (例如组件失效) 连接起来，形成一个树状结构。

离散概率在可靠性分析中的应用：

离散概率在可靠性分析中主要用于：

⚝ 计算系统可靠度：根据组件的可靠度和系统结构，利用串联、并联等公式计算系统可靠度。对于复杂系统，可以使用蒙特卡洛模拟 (Monte Carlo Simulation) 等方法进行可靠性评估。
⚝ 分析系统失效模式：利用故障树分析等方法，找出系统中导致失效的关键路径和薄弱环节，为提高系统可靠性提供指导。
⚝ 优化系统设计：通过可靠性分配 (Reliability Allocation) 和冗余设计 (Redundancy Design) 等方法，在成本约束下最大化系统可靠性。

案例分析：冗余设计 (Redundancy Design)

冗余设计是提高系统可靠性的常用方法。通过增加额外的组件或模块，即使部分组件失效，系统仍然可以正常工作。常见的冗余方式包括：

⚝ 热备份 (Hot Standby)：备份组件与主组件同时工作，当主组件失效时，备份组件立即接替工作。
⚝ 冷备份 (Cold Standby)：备份组件平时处于关闭状态，只有当主组件失效时才启动备份组件。
⚝ N 模冗余 (N-Modular Redundancy, NMR)：使用 $N$ 个相同的组件并行工作，通过投票机制 (例如多数表决) 决定系统的输出。

例如，考虑一个使用双重冗余的计算机系统，主处理器和备份处理器并联工作。假设主处理器和备份处理器的可靠度均为 $R_p(t)$。则系统的可靠度为：

\[ R_{system}(t) = 1 - (1 - R_p(t))^2 = 2R_p(t) - R_p(t)^2 \]

冗余设计可以显著提高系统的可靠性，但也会增加系统的成本和复杂性。在实际应用中，需要在可靠性和成本之间进行权衡。离散概率可以帮助分析不同冗余方案的可靠性提升效果，从而选择最优的冗余策略。

10.4 生物信息学应用 (Applications in Bioinformatics)

生物信息学 (Bioinformatics) 是一门交叉学科，它结合了生物学、计算机科学、数学和统计学等领域的知识，利用计算机技术和数学方法来分析和处理生物数据，例如基因组序列、蛋白质结构、基因表达数据等。离散概率在生物信息学中有着广泛的应用，尤其是在序列分析、系统发育分析和基因表达分析等领域。

序列分析 (Sequence Analysis)：

序列分析是生物信息学中最基本也是最重要的任务之一。DNA 序列、RNA 序列和蛋白质序列是生物信息学研究的核心数据。离散概率在序列分析中主要用于：

⚝ 序列比对 (Sequence Alignment)：比较两条或多条生物序列的相似性，找出序列之间的同源关系。例如，Needleman-Wunsch 算法和 Smith-Waterman 算法是常用的序列比对算法，它们使用动态规划 (Dynamic Programming) 和打分矩阵 (Scoring Matrix) 来寻找最优的比对结果。概率模型，例如隐马尔可夫模型 (Hidden Markov Model, HMM)，也被广泛应用于序列比对和基因组注释 (Genome Annotation)。
⚝ 模式发现 (Motif Finding)：在生物序列中寻找具有生物学意义的模式或基序 (Motif)，例如 DNA 序列中的转录因子结合位点 (Transcription Factor Binding Site) 和蛋白质序列中的功能域 (Functional Domain)。位置权重矩阵 (Position Weight Matrix, PWM) 和 Gibbs 采样 (Gibbs Sampling) 等方法常用于模式发现。这些方法通常基于概率模型来评估模式的显著性。
⚝ 基因组组装 (Genome Assembly)：将 DNA 测序产生的短片段 (reads) 拼接成完整的基因组序列。基因组组装是一个复杂的计算问题，需要使用概率图模型 (Probabilistic Graphical Model) 和 De Bruijn 图 (De Bruijn Graph) 等方法来解决。

系统发育分析 (Phylogenetic Analysis)：

系统发育分析，又称进化树构建 (Phylogenetic Tree Construction)，是研究生物物种或基因的进化关系，构建进化树 (Phylogenetic Tree) 的过程。离散概率在系统发育分析中主要用于：

⚝ 距离矩阵方法 (Distance Matrix Methods)：基于序列之间的距离 (例如 Hamming 距离、编辑距离) 构建进化树。常用的距离矩阵方法包括 UPGMA 和邻接法 (Neighbor-Joining)。这些方法通常假设序列的进化过程可以用概率模型来描述。
⚝ 最大简约法 (Maximum Parsimony)：寻找能够解释观测到的序列差异的最简约的进化树。最大简约法假设进化过程中发生的变异事件 (例如碱基替换) 的次数最少。
⚝ 最大似然法 (Maximum Likelihood)：基于概率模型 (例如 JC69 模型、K80 模型) 评估不同进化树的似然值，选择似然值最大的进化树作为最优的进化树。最大似然法是系统发育分析中最常用的方法之一，它充分利用了概率论的理论。
⚝ 贝叶斯方法 (Bayesian Methods)：利用贝叶斯统计 (Bayesian Statistics) 的方法，结合先验知识和观测数据，推断进化树的后验概率分布。贝叶斯方法可以提供更全面的进化树不确定性评估。

基因表达分析 (Gene Expression Analysis)：

基因表达分析是研究基因在不同条件下 (例如不同组织、不同疾病状态) 的表达水平差异。离散概率在基因表达分析中主要用于：

⚝ 差异基因表达分析 (Differential Gene Expression Analysis)：比较不同组别 (例如病例组和对照组) 基因表达水平的差异，找出差异表达基因 (Differentially Expressed Genes, DEGs)。常用的方法包括 t 检验 (t-test)、方差分析 (ANOVA) 和基于负二项分布 (Negative Binomial Distribution) 的模型 (例如 DESeq2、edgeR)。这些方法都基于统计假设检验 (Statistical Hypothesis Testing) 的框架，利用概率论来评估差异表达的显著性。
⚝ 基因富集分析 (Gene Set Enrichment Analysis, GSEA)：分析一组基因 (例如差异表达基因) 是否在预定义的基因集合 (例如 GO terms、KEGG pathways) 中富集。基因富集分析可以帮助理解基因表达变化背后的生物学功能和通路。常用的方法包括超几何分布检验 (Hypergeometric Test) 和 Kolmogorov-Smirnov 检验 (Kolmogorov-Smirnov Test)。
⚝ 单细胞基因表达分析 (Single-Cell Gene Expression Analysis)：分析单个细胞的基因表达谱，研究细胞异质性和细胞类型。单细胞基因表达数据通常具有高维度、稀疏性和噪声的特点，需要使用概率模型和降维方法 (例如主成分分析 (Principal Component Analysis, PCA)、t-SNE、UMAP) 进行分析。

案例分析：隐马尔可夫模型 (Hidden Markov Model, HMM) 在基因组注释中的应用

隐马尔可夫模型 (Hidden Markov Model, HMM) 是一种用于建模序列数据的概率图模型。在基因组注释中，HMM 可以用于识别基因组序列中的基因区域、外显子 (Exon)、内含子 (Intron)、启动子 (Promoter) 等基因组元件。

HMM 的基本思想：

HMM 假设观测序列 (例如 DNA 序列) 是由一个隐藏的状态序列 (例如基因区域类型) 生成的。观测序列中的每个观测值 (例如 DNA 碱基) 的概率分布取决于当前隐藏状态。状态之间也存在转移概率，描述了状态之间的转换规律。

HMM 在基因组注释中的应用步骤：

定义状态：将基因组元件类型定义为 HMM 的隐藏状态，例如外显子、内含子、基因间区等。
定义观测：将 DNA 序列碱基 (A, T, C, G) 定义为观测值。
估计参数：利用已知的基因组注释数据，估计 HMM 的状态转移概率和发射概率 (emission probability)。状态转移概率描述了基因组元件类型之间的转换规律，发射概率描述了每种基因组元件类型生成不同碱基的概率分布。
解码：对于新的基因组序列，使用 Viterbi 算法 (Viterbi Algorithm) 等解码算法，找到最有可能生成该序列的隐藏状态序列，从而实现基因组注释。

HMM 在基因组注释中取得了巨大的成功，成为基因组注释的标准方法之一。离散概率是 HMM 的理论基础，为 HMM 的建模、参数估计和解码提供了数学工具。

10.5 其他领域应用 (Applications in Other Fields)

除了计算机科学和生物信息学，离散概率在许多其他领域也有着广泛的应用：

① 金融工程 (Financial Engineering)：

⚝ 风险管理 (Risk Management)：使用概率模型评估金融风险，例如市场风险、信用风险和操作风险。
⚝ 期权定价 (Option Pricing)：利用概率论和随机过程理论，例如二项式期权定价模型 (Binomial Option Pricing Model) 和 Black-Scholes 模型，对金融衍生品进行定价。
⚝ 投资组合优化 (Portfolio Optimization)：使用概率统计方法，构建最优的投资组合，最大化收益并控制风险。

② 运筹学 (Operations Research)：

⚝ 库存管理 (Inventory Management)：使用概率模型预测需求，优化库存水平，降低库存成本。
⚝ 调度优化 (Scheduling Optimization)：利用概率算法和排队论，优化生产调度、任务调度和资源分配。
⚝ 仿真建模 (Simulation Modeling)：使用离散事件仿真 (Discrete Event Simulation) 等方法，模拟复杂系统的运行过程，评估系统性能。

③ 社会科学 (Social Sciences)：

⚝ 社会网络分析 (Social Network Analysis)：使用图论和概率模型分析社会网络的结构和性质，例如社区发现、影响力传播和信息扩散。
⚝ 民意调查 (Public Opinion Poll)：利用抽样理论和统计推断，进行民意调查和选举预测。
⚝ 博弈论 (Game Theory)：使用概率论分析博弈均衡，研究策略选择和决策制定。

④ 通信工程 (Communication Engineering)：

⚝ 信道编码 (Channel Coding)：利用纠错码 (Error-Correcting Codes) 提高通信系统的可靠性，例如汉明码 (Hamming Code)、循环冗余校验码 (Cyclic Redundancy Check, CRC) 和 LDPC 码 (Low-Density Parity-Check Code)。
⚝ 网络协议 (Network Protocols)：设计和分析网络协议，例如 TCP/IP 协议、路由协议和无线通信协议。
⚝ 无线通信 (Wireless Communication)：使用概率模型分析无线信道特性，设计高效的无线通信系统。

⑤ 医学 (Medicine)：

⚝ 流行病学 (Epidemiology)：使用概率模型研究疾病的传播规律，预测疫情发展趋势，制定防控策略。
⚝ 临床试验 (Clinical Trial)：利用统计假设检验和临床试验设计，评估药物和疗法的疗效和安全性。
⚝ 医学图像处理 (Medical Image Processing)：使用概率模型进行医学图像分割、配准和分析。

离散概率作为一种强大的数学工具，在各个领域都发挥着重要的作用。随着数据科学和人工智能的快速发展，离散概率的应用前景将更加广阔。

10.6 本章小结与习题 (Chapter Summary and Exercises)

本章小结：

本章深入探讨了离散概率在多个领域的广泛应用，重点关注了计算机科学、排队论、可靠性分析、生物信息学以及其他领域的应用。我们详细介绍了随机算法、概率数据结构、排队模型、系统可靠性模型、生物信息学中的序列分析和系统发育分析等关键概念，并通过案例分析加深了理解。

核心要点回顾：

⚝ 随机算法 利用随机性简化算法设计，提高平均性能，解决确定性算法难以解决的问题。
⚝ 概率数据结构 通过引入随机性优化数据结构性能，例如布隆过滤器、跳跃表等。
⚝ 排队论 利用概率论分析和优化排队系统，例如 M/M/1 模型。
⚝ 可靠性分析 使用离散概率评估系统可靠性，例如串联系统、并联系统和故障树分析。
⚝ 生物信息学应用 包括序列分析、系统发育分析和基因表达分析，例如 HMM 在基因组注释中的应用。
⚝ 其他领域应用 涵盖金融工程、运筹学、社会科学、通信工程和医学等。

习题：

随机算法：
a) 解释拉斯维加斯算法和蒙特卡洛算法的区别，并分别举例说明。
b) 设计一个随机算法，用于在数组中找到第 k 小的元素，并分析其期望运行时间。
概率数据结构：
a) 详细解释布隆过滤器的工作原理，并分析其误判概率。
b) 比较跳跃表和平衡树的优缺点，并说明跳跃表在哪些场景下更适用。
排队论：
a) 分析 M/M/c 排队模型，推导其性能指标（平均队长、平均等待时间等）。
b) 假设一个呼叫中心，顾客到达服从泊松过程，平均每小时到达 20 个顾客，每个客服代表平均每小时可以处理 5 个顾客的呼叫。为了保证顾客的平均等待时间不超过 5 分钟，至少需要多少个客服代表？（提示：可以使用 M/M/c 模型）
可靠性分析：
a) 计算一个由 5 个组件组成的串联系统的可靠度，假设每个组件的可靠度均为 0.9。
b) 设计一个 2-out-of-3 冗余系统，并计算其可靠度，假设每个组件的可靠度均为 0.8。
生物信息学应用：
a) 解释序列比对在生物信息学中的意义，并简述 Needleman-Wunsch 算法的基本思想。
b) 简述最大似然法在系统发育分析中的应用，并解释概率模型在其中的作用。
综合应用：
a) 设计一个基于布隆过滤器的网页缓存系统，并分析其性能和空间效率。
b) 假设一个网络服务器，请求到达服从泊松过程，平均每秒到达 100 个请求，服务器的处理能力服从指数分布，平均每秒可以处理 120 个请求。使用 M/M/1 模型分析服务器的性能，例如平均响应时间、请求排队概率等。

通过完成这些习题，读者可以巩固本章所学的知识，并进一步理解离散概率在实际应用中的重要性。

11. chapter 11：马尔可夫链初步 (Introduction to Markov Chains)

11.1 马尔可夫链的基本概念 (Basic Concepts of Markov Chains)

马尔可夫链 (Markov Chain) 是概率论和随机过程 (Stochastic Process) 中一个非常重要的概念，它描述了系统在不同状态之间转移的随机过程。马尔可夫链以俄国数学家安德烈·马尔可夫 (Andrey Markov) 的名字命名，用于模拟那些未来状态的概率分布仅依赖于当前状态，而与过去状态无关的随机系统。这种“无记忆性”是马尔可夫链的核心特征，使其在各个领域都有广泛的应用，例如物理学、生物学、计算机科学、经济学和社会科学等。

11.1.1 马尔可夫性质 (Markov Property)

马尔可夫性质 (Markov Property)，也称为无记忆性 (Memoryless Property)，是定义马尔可夫链的关键特性。它指的是系统在未来某个时刻的状态概率分布，只取决于当前时刻的状态，而与系统过去的历史状态无关。换句话说，为了预测系统的未来行为，我们只需要知道系统的当前状态，而不需要追溯到系统是如何到达当前状态的。

更 формально (formally) 地说，对于一个随机过程 $ \{X_n\}_{n \ge 0} $，如果对于任意的 $ n \ge 0 $ 和任意的状态 $ i_0, i_1, \ldots, i_n, j $，满足以下条件：
\[ P(X_{n+1} = j \mid X_n = i_n, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = j \mid X_n = i_n) \]
则称该随机过程具有马尔可夫性质。其中，$ X_n $ 表示系统在时刻 $ n $ 的状态，$ P(A \mid B) $ 表示在事件 $ B $ 发生的条件下事件 $ A $ 发生的条件概率 (Conditional Probability)。

直观理解：
想象一个醉汉在街上行走，他下一步往哪个方向走，只取决于他当前所处的位置，而与他之前走过的路径无关。这就是马尔可夫性质的一个形象的比喻。

例子 11.1.1：天气预报的简化模型
假设我们用一个简化的模型来描述每天的天气，天气状态只有两种：晴天 (Sunny) 和雨天 (Rainy)。我们假设今天的天气只取决于昨天的天气，而与更久远的天气历史无关。

如果昨天是晴天，今天有 80% 的概率是晴天，20% 的概率是雨天。
如果昨天是雨天，今天有 60% 的概率是雨天，40% 的概率是晴天。

设 $ X_n $ 表示第 $ n $ 天的天气状态，$ X_n = 0 $ 表示晴天，$ X_n = 1 $ 表示雨天。那么，根据上述假设，我们可以得到：
\[ P(X_{n+1} = 0 \mid X_n = 0) = 0.8, \quad P(X_{n+1} = 1 \mid X_n = 0) = 0.2 \]
\[ P(X_{n+1} = 1 \mid X_n = 1) = 0.6, \quad P(X_{n+1} = 0 \mid X_n = 1) = 0.4 \]
这个天气模型就满足马尔可夫性质，因为未来某天的天气状态只取决于前一天的天气状态。

非马尔可夫性质的例子
考虑一个银行账户的余额。假设每天账户余额的变化取决于过去一段时间内的交易记录，例如，如果过去一周内有大额支出，那么今天的余额变化可能会受到影响。在这种情况下，仅仅知道昨天的账户余额不足以预测今天的余额变化，因为还需要考虑更早之前的交易历史。因此，银行账户余额的变化过程通常不满足马尔可夫性质。

11.1.2 状态空间与转移概率 (State Space and Transition Probabilities)

要完整定义一个马尔可夫链，除了马尔可夫性质之外，还需要明确状态空间 (State Space) 和 转移概率 (Transition Probabilities)。

状态空间 (State Space)：
状态空间 $ S $ 是马尔可夫链可能取的所有状态的集合。状态可以是有限的、可数无限的或不可数无限的。在离散概率 (Discrete Probability) 的范畴内，我们主要关注状态空间是有限或可数无限的情况。

在天气预报的例子中，状态空间 $ S = \{ \text{晴天}, \text{雨天} \} $ 或者用数字表示 $ S = \{0, 1\} $。

转移概率 (Transition Probabilities)：
转移概率描述了系统从一个状态转移到另一个状态的概率。对于一个马尔可夫链 $ \{X_n\}_{n \ge 0} $，从状态 $ i $ 在一步内转移到状态 $ j $ 的转移概率定义为：
\[ p_{ij} = P(X_{n+1} = j \mid X_n = i) \]
由于马尔可夫性质，这个转移概率 $ p_{ij} $ 与时间 $ n $ 无关，即在任何时刻，从状态 $ i $ 转移到状态 $ j $ 的概率都是 $ p_{ij} $。这种与时间无关的马尔可夫链称为齐次马尔可夫链 (Homogeneous Markov Chain)。在本书中，我们主要讨论齐次马尔可夫链。

转移概率的性质：
① 非负性 (Non-negativity)：对于任意状态 $ i, j \in S $，转移概率 $ p_{ij} \ge 0 $，因为概率值不可能为负数。
② 归一性 (Normalization)：从任何状态 $ i $ 出发，转移到所有可能状态的概率之和必须为 1。即对于任意状态 $ i \in S $，有：
\[ \sum_{j \in S} p_{ij} = 1 \]
这个性质保证了从状态 $ i $ 出发，下一步一定会转移到状态空间 $ S $ 中的某个状态。

例子 11.1.2：天气预报模型的转移概率
在天气预报的例子中，状态空间 $ S = \{0, 1\} $ (0 代表晴天，1 代表雨天)。根据之前的描述，我们可以写出转移概率：
\[ p_{00} = P(X_{n+1} = 0 \mid X_n = 0) = 0.8 \]
\[ p_{01} = P(X_{n+1} = 1 \mid X_n = 0) = 0.2 \]
\[ p_{10} = P(X_{n+1} = 0 \mid X_n = 1) = 0.4 \]
\[ p_{11} = P(X_{n+1} = 1 \mid X_n = 1) = 0.6 \]
验证归一性：
对于状态 0 (晴天)：$ p_{00} + p_{01} = 0.8 + 0.2 = 1 $
对于状态 1 (雨天)：$ p_{10} + p_{11} = 0.4 + 0.6 = 1 $
两个状态的转移概率都满足归一性。

11.2 转移概率矩阵 (Transition Probability Matrix)

对于有限状态空间的马尔可夫链，我们可以用矩阵来表示转移概率，这就是转移概率矩阵 (Transition Probability Matrix)，通常用 $ P $ 表示。如果状态空间 $ S = \{1, 2, \ldots, m\} $ 是有限的，那么转移概率矩阵 $ P $ 是一个 $ m \times m $ 的矩阵，其中第 $ i $ 行第 $ j $ 列的元素 $ P_{ij} = p_{ij} $ 表示从状态 $ i $ 转移到状态 $ j $ 的转移概率。

\[ P = \begin{pmatrix} p_{11} & p_{12} & \cdots & p_{1m} \\ p_{21} & p_{22} & \cdots & p_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ p_{m1} & p_{m2} & \cdots & p_{mm} \end{pmatrix} \]

转移概率矩阵的性质：
① 非负性 (Non-negativity)：矩阵中所有元素 $ p_{ij} \ge 0 $。
② 行和为 1 (Row Stochastic)：每一行的元素之和为 1，即 $ \sum_{j=1}^{m} p_{ij} = 1 $ 对于所有 $ i = 1, 2, \ldots, m $。

例子 11.2.1：天气预报模型的转移概率矩阵
对于天气预报模型，状态空间 $ S = \{0, 1\} $，转移概率为：
$ p_{00} = 0.8, p_{01} = 0.2, p_{10} = 0.4, p_{11} = 0.6 $。
因此，转移概率矩阵为：
\[ P = \begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix} \]
验证行和为 1：
第一行：$ 0.8 + 0.2 = 1 $
第二行：$ 0.4 + 0.6 = 1 $

$ n $步转移概率 (n-step Transition Probabilities)
我们不仅关心一步转移概率，也可能关心经过 $ n $ 步后，系统从状态 $ i $ 转移到状态 $ j $ 的概率，称为 $ n $ 步转移概率，记为 $ p_{ij}^{(n)} = P(X_{n+k} = j \mid X_k = i) $。对于齐次马尔可夫链，$ n $ 步转移概率与起始时间 $ k $ 无关。

如何计算 $ n $ 步转移概率？
利用马尔可夫性质和全概率公式 (Law of Total Probability)，我们可以推导出 Chapman-Kolmogorov 方程 (Chapman-Kolmogorov Equations)，它是计算 $ n $ 步转移概率的基础。对于任意的 $ n \ge 1 $ 和任意状态 $ i, j, k $，有：
\[ p_{ij}^{(n+1)} = \sum_{k \in S} p_{ik}^{(n)} p_{kj} \]
这个方程表示从状态 $ i $ 经过 $ n+1 $ 步转移到状态 $ j $ 的概率，等于先从状态 $ i $ 经过 $ n $ 步转移到中间状态 $ k $，再从状态 $ k $ 经过 1 步转移到状态 $ j $，对所有可能的中间状态 $ k $ 求和。

用矩阵形式表示，如果 $ P^{(n)} $ 是 $ n $ 步转移概率矩阵，其中 $ (i, j) $ 元素是 $ p_{ij}^{(n)} $，那么 Chapman-Kolmogorov 方程可以写成矩阵乘法的形式：
\[ P^{(n+1)} = P^{(n)} P \]
其中 $ P = P^{(1)} $ 是一步转移概率矩阵。递推下去，我们可以得到：
\[ P^{(n)} = P^n \]
即 $ n $ 步转移概率矩阵等于一步转移概率矩阵的 $ n $ 次幂。

例子 11.2.2：计算天气预报模型两步转移概率
对于天气预报模型，一步转移概率矩阵为 $ P = \begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix} $。
计算两步转移概率矩阵 $ P^{(2)} = P^2 $：
\[ P^{(2)} = P \times P = \begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix} \begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix} = \begin{pmatrix} 0.8 \times 0.8 + 0.2 \times 0.4 & 0.8 \times 0.2 + 0.2 \times 0.6 \\ 0.4 \times 0.8 + 0.6 \times 0.4 & 0.4 \times 0.2 + 0.6 \times 0.6 \end{pmatrix} = \begin{pmatrix} 0.64 + 0.08 & 0.16 + 0.12 \\ 0.32 + 0.24 & 0.08 + 0.36 \end{pmatrix} = \begin{pmatrix} 0.72 & 0.28 \\ 0.56 & 0.44 \end{pmatrix} \]
例如，$ p_{00}^{(2)} = 0.72 $ 表示如果今天 (第 $ n $ 天) 是晴天，那么后天 (第 $ n+2 $ 天) 也是晴天的概率是 0.72。

11.3 平稳分布 (Stationary Distributions)

平稳分布 (Stationary Distribution)，也称为不变分布 (Invariant Distribution)，是马尔可夫链的一个重要概念，它描述了马尔可夫链经过足够长时间运行后，状态概率分布趋于稳定的状态。

设 $ \pi = (\pi_1, \pi_2, \ldots, \pi_m) $ 是一个行向量，其中 $ \pi_j $ 表示系统处于状态 $ j $ 的概率。$ \pi $ 是一个概率分布，即 $ \pi_j \ge 0 $ 且 $ \sum_{j=1}^{m} \pi_j = 1 $。如果一个概率分布 $ \pi $ 满足以下条件：
\[ \pi P = \pi \]
即
\[ \sum_{i=1}^{m} \pi_i p_{ij} = \pi_j, \quad \text{对于所有状态 } j \in S \]
则称 $ \pi $ 为马尔可夫链的平稳分布。

直观理解：
如果初始状态分布是 $ \pi $，那么经过一步转移后，状态分布仍然是 $ \pi $。也就是说，如果系统一开始就按照平稳分布来分布，那么之后任何时刻的状态分布都保持不变。

如何求解平稳分布？
求解平稳分布 $ \pi $ 就是求解线性方程组 $ \pi P = \pi $ 和归一化条件 $ \sum_{j=1}^{m} \pi_j = 1 $。
方程组 $ \pi P = \pi $ 可以改写为 $ \pi P - \pi = 0 $ 或 $ \pi (P - I) = 0 $，其中 $ I $ 是单位矩阵。将 $ \pi $ 视为行向量，我们需要求解向量 $ \pi $ 使得它左乘矩阵 $ (P - I) $ 得到零向量。同时，还需要满足 $ \sum_{j=1}^{m} \pi_j = 1 $。

例子 11.3.1：求解天气预报模型的平稳分布
对于天气预报模型，转移概率矩阵为 $ P = \begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix} $。设平稳分布为 $ \pi = (\pi_0, \pi_1) $。我们需要求解：
\[ (\pi_0, \pi_1) \begin{pmatrix} 0.8 & 0.2 \\ 0.4 & 0.6 \end{pmatrix} = (\pi_0, \pi_1) \]
展开得到方程组：
\[ 0.8\pi_0 + 0.4\pi_1 = \pi_0 \]
\[ 0.2\pi_0 + 0.6\pi_1 = \pi_1 \]
化简得到：
\[ -0.2\pi_0 + 0.4\pi_1 = 0 \]
\[ 0.2\pi_0 - 0.4\pi_1 = 0 \]
这两个方程实际上是等价的，都简化为 $ \pi_0 = 2\pi_1 $。
再加上归一化条件 $ \pi_0 + \pi_1 = 1 $。
将 $ \pi_0 = 2\pi_1 $ 代入归一化条件，得到 $ 2\pi_1 + \pi_1 = 1 $，即 $ 3\pi_1 = 1 $，解得 $ \pi_1 = \frac{1}{3} $。
进而 $ \pi_0 = 2\pi_1 = \frac{2}{3} $。
所以，平稳分布为 $ \pi = (\frac{2}{3}, \frac{1}{3}) $。
这意味着，在长期运行下，大约有 $ \frac{2}{3} $ 的时间是晴天，$ \frac{1}{3} $ 的时间是雨天。

平稳分布的存在性和唯一性
并非所有的马尔可夫链都存在平稳分布，即使存在，也可能不唯一。但是，对于不可约 (Irreducible) 且正常返 (Positive Recurrent) 的马尔可夫链，平稳分布存在且唯一。在实际应用中，很多马尔可夫链都满足这些条件，因此平稳分布的概念非常有用。

11.4 马尔可夫链的应用 (Applications of Markov Chains)

马尔可夫链由于其简洁性和广泛适用性，在众多领域都有重要的应用。以下列举一些典型的应用场景：

① 计算机科学 (Computer Science)：
⚝ 随机算法 (Randomized Algorithms)：马尔可夫链蒙特卡洛方法 (Markov Chain Monte Carlo, MCMC) 是一种重要的随机模拟方法，用于从复杂的概率分布中采样，广泛应用于统计推断、机器学习等领域。例如，Metropolis-Hastings 算法和 Gibbs 采样都是基于马尔可夫链的 MCMC 方法。
⚝ 网页排名 (PageRank)：Google 的 PageRank 算法是基于马尔可夫链的，用于评估网页的重要性。它模拟了一个随机冲浪者在网页之间随机跳转的行为，网页的 PageRank 值就是随机冲浪者访问该网页的平稳概率。
⚝ 数据结构与算法分析 (Data Structures and Algorithm Analysis)：马尔可夫链可以用于分析某些算法的性能，例如缓存算法、网络协议等。

② 排队论 (Queuing Theory)：
排队论研究服务系统中顾客排队等待的现象。马尔可夫链可以用来建模和分析各种排队系统，例如电话呼叫中心、银行窗口、交通拥堵等。通过分析排队系统的稳态分布，可以评估系统的性能指标，如平均等待时间、平均队列长度等。

③ 可靠性分析 (Reliability Analysis)：
马尔可夫链可以用于分析系统的可靠性，特别是对于具有多种状态 (正常运行、故障、维修等) 的复杂系统。通过建立系统的状态转移模型，可以计算系统的可靠度、平均故障间隔时间 (Mean Time Between Failures, MTBF) 等指标。

④ 生物信息学 (Bioinformatics)：
⚝ 基因序列分析 (Gene Sequence Analysis)：马尔可夫模型可以用于分析 DNA 或蛋白质序列的统计特征，例如识别基因、预测蛋白质结构等。
⚝ 流行病模型 (Epidemic Models)：马尔可夫链可以用于建模传染病的传播过程，例如 SIR 模型 (Susceptible-Infected-Recovered) 可以用马尔可夫链来描述人群在易感态、感染态和康复态之间的转移。

⑤ 金融工程 (Financial Engineering)：
⚝ 股票价格模型 (Stock Price Models)：虽然股票价格的精确模型比较复杂，但在某些简化模型中，可以使用马尔可夫链来描述股票价格的离散状态转移。
⚝ 信用风险评估 (Credit Risk Assessment)：马尔可夫链可以用于建模信用评级的转移过程，从而评估债券或贷款的信用风险。

⑥ 物理学 (Physics) 和 化学 (Chemistry)：
⚝ 统计物理 (Statistical Physics)：马尔可夫链在统计物理中用于描述粒子系统的随机运动，例如布朗运动 (Brownian Motion)、伊辛模型 (Ising Model) 等。
⚝ 化学反应动力学 (Chemical Reaction Kinetics)：马尔可夫链可以用于建模化学反应中分子状态的转移过程。

⑦ 社会科学 (Social Sciences)：
⚝ 人口迁移模型 (Population Migration Models)：马尔可夫链可以用于建模人口在不同地区之间的迁移过程。
⚝ 语言模型 (Language Models)：在自然语言处理 (Natural Language Processing, NLP) 中，马尔可夫模型 (如 N-gram 模型) 可以用于预测文本中下一个词的概率。

这些应用仅仅是马尔可夫链应用的冰山一角，随着研究的深入和应用领域的拓展，马尔可夫链在未来将会在更多领域发挥重要作用。

11.5 本章小结与习题 (Chapter Summary and Exercises)

本章小结
本章我们初步介绍了离散时间马尔可夫链 (Discrete-Time Markov Chain) 的基本概念。核心内容包括：
① 马尔可夫性质 (Markov Property)：未来状态的概率分布仅依赖于当前状态，与过去状态无关。
② 状态空间 (State Space) 和 转移概率 (Transition Probabilities)：定义马尔可夫链的两个基本要素。
③ 转移概率矩阵 (Transition Probability Matrix)：用矩阵形式表示状态之间的转移概率，方便进行计算和分析。
④ $ n $ 步转移概率 (n-step Transition Probabilities) 和 Chapman-Kolmogorov 方程 (Chapman-Kolmogorov Equations)：计算多步转移概率的方法。
⑤ 平稳分布 (Stationary Distribution)：描述马尔可夫链长期运行后状态概率分布的稳定状态。
⑥ 马尔可夫链的应用 (Applications of Markov Chains)：简要介绍了马尔可夫链在计算机科学、排队论、可靠性分析、生物信息学等领域的广泛应用。

理解马尔可夫链的关键在于掌握其无记忆性，以及如何用状态空间、转移概率和转移概率矩阵来描述和分析马尔可夫链。平稳分布是马尔可夫链理论中的一个重要概念，它揭示了系统在长期运行下的统计特性。

习题

天气模型扩展：考虑一个更复杂的天气模型，状态空间为 $ S = \{\text{晴天}, \text{多云}, \text{雨天}\} $。假设转移概率如下：
⚝ 从晴天到晴天的概率为 0.7，到多云的概率为 0.2，到雨天的概率为 0.1。
⚝ 从多云到晴天的概率为 0.3，到多云的概率为 0.5，到雨天的概率为 0.2。
⚝ 从雨天到晴天的概率为 0.2，到多云的概率为 0.4，到雨天的概率为 0.4。
(a) 写出该天气模型的转移概率矩阵。
(b) 如果今天是晴天，求后天是晴天的概率。
(c) 求该马尔可夫链的平稳分布。
随机游走：在一个线性的格点上进行随机游走，格点编号为 $ \ldots, -2, -1, 0, 1, 2, \ldots $。从任意格点 $ i $ 出发，下一步有概率 $ p $ 向右移动到 $ i+1 $，有概率 $ q $ 向左移动到 $ i-1 $，其中 $ p+q = 1 $，$ p, q > 0 $。
(a) 验证这是一个马尔可夫链，并写出其状态空间和转移概率。
(b) 如果 $ p = q = 0.5 $，考虑从状态 0 出发，经过 2 步后回到状态 0 的概率。
(c) 对于一般的 $ p $ 和 $ q $，这个马尔可夫链是否存在平稳分布？为什么？
机器状态模型：一台机器有三种状态：正常运行 (状态 1)、轻微故障 (状态 2)、严重故障 (状态 3)。状态转移概率如下：
⚝ 从状态 1 到状态 1 的概率为 0.8，到状态 2 的概率为 0.2，到状态 3 的概率为 0。
⚝ 从状态 2 到状态 1 的概率为 0.5，到状态 2 的概率为 0.3，到状态 3 的概率为 0.2。
⚝ 从状态 3 到状态 1 的概率为 0，到状态 2 的概率为 0，到状态 3 的概率为 1 (状态 3 是吸收态)。
(a) 写出该机器状态模型的转移概率矩阵。
(b) 如果机器初始状态为正常运行 (状态 1)，求经过 2 步后机器处于各状态的概率分布。
(c) 状态 3 是吸收态意味着什么？分析机器最终停留在状态 3 的概率。
PageRank 简化模型：考虑一个简化的网页链接结构，有 3 个网页 A, B, C。
⚝ 网页 A 链接到网页 B 和 C。
⚝ 网页 B 链接到网页 C。
⚝ 网页 C 链接到网页 A。
假设随机冲浪者从当前网页等概率地跳转到其链接的网页。
(a) 构建该网页链接结构的转移概率矩阵。
(b) 计算每个网页的 PageRank 值 (平稳分布)。
思考题：马尔可夫性质在实际应用中是一个很强的假设。请思考在哪些实际场景中，马尔可夫性质可能不完全成立，但马尔可夫链模型仍然可以作为一种有用的近似？并举例说明。

1	n=0: 1
2	n=1: 1 1
3	n=2: 1 2 1
4	n=3: 1 3 3 1
5	n=4: 1 4 6 4 1
6	n=5: 1 5 10 10 5 1
7	...

022 《离散概率：原理、方法与应用 (Discrete Probability: Principles, Methods, and Applications)》

书籍大纲

1. chapter 1： 概率论基础 (Foundations of Probability)

1.1 引言：概率的思想 (Introduction: The Idea of Probability)

1.2 样本空间与事件 (Sample Space and Events)

1.2.1 样本空间 (Sample Space)

1.2.2 事件 (Events)

1.2.3 事件的运算 (Operations on Events)

1.3 概率的公理化定义 (Axiomatic Definition of Probability)

1.3.1 概率公理 (Probability Axioms)

1.3.2 基本概率性质 (Basic Probability Properties)

1.4 集合论回顾 (Review of Set Theory)

1.5 本章小结与习题 (Chapter Summary and Exercises)

2. chapter 2： 计数方法 (Counting Techniques)

2.1 基本计数原理 (Basic Counting Principles)

2.1.1 加法原理 (Addition Principle)

2.1.2 乘法原理 (Multiplication Principle)

2.2 排列与组合 (Permutations and Combinations)

2.2.1 排列 (Permutations)

2.2.2 组合 (Combinations)

2.3 二项式系数 (Binomial Coefficients)

2.4 容斥原理 (Inclusion-Exclusion Principle)

2.5 本章小结与习题 (Chapter Summary and Exercises)

3. chapter 3： 条件概率与事件的独立性 (Conditional Probability and Independence of Events)

3.1 条件概率 (Conditional Probability)

3.2 全概率公式与贝叶斯定理 (Law of Total Probability and Bayes' Theorem)

3.2.1 全概率公式 (Law of Total Probability)

3.2.2 贝叶斯定理 (Bayes' Theorem)

3.3 事件的独立性 (Independence of Events)

3.4 本章小结与习题 (Chapter Summary and Exercises)

4. chapter 4： 离散随机变量与概率分布 (Discrete Random Variables and Probability Distributions)

4.1 随机变量的概念 (Concept of Random Variables)

4.1.1 随机变量的定义 (Definition of Random Variables)

4.1.2 离散随机变量 (Discrete Random Variables)

4.2 概率质量函数 (Probability Mass Function, PMF)

4.3 累积分布函数 (Cumulative Distribution Function, CDF)

4.4 期望 (Expectation)

4.4.1 离散随机变量的期望 (Expectation of Discrete Random Variables)

4.4.2 期望的性质 (Properties of Expectation)

4.5 方差与标准差 (Variance and Standard Deviation)

4.6 本章小结与习题 (Chapter Summary and Exercises)

5. chapter 5： 几种重要的离散分布 (Important Discrete Distributions - Part 1)

5.1 伯努利分布 (Bernoulli Distribution)

5.2 二项分布 (Binomial Distribution)

5.2.1 二项分布的推导 (Derivation of Binomial Distribution)

5.2.2 二项分布的性质与应用 (Properties and Applications of Binomial Distribution)

5.3 几何分布 (Geometric Distribution)

5.4 负二项分布 (Negative Binomial Distribution)

5.5 本章小结与习题 (Chapter Summary and Exercises)

6. chapter 6： 几种重要的离散分布 (Important Discrete Distributions - Part 2)

6.1 泊松分布 (Poisson Distribution)

6.1.1 泊松分布的推导与意义 (Derivation and Significance of Poisson Distribution)

6.1.2 泊松分布的应用 (Applications of Poisson Distribution)

6.2 超几何分布 (Hypergeometric Distribution)

6.3 离散均匀分布 (Discrete Uniform Distribution)

6.4 分布之间的关系 (Relationships Between Distributions)

6.5 本章小结与习题 (Chapter Summary and Exercises)

7. chapter 7： 多维离散分布 (Multivariate Discrete Distributions)

7.1 联合概率分布 (Joint Probability Distributions)

7.2 边缘概率分布 (Marginal Probability Distributions)

7.3 条件概率分布 (Conditional Probability Distributions)

7.4 随机变量的独立性 (Independence of Random Variables)

7.5 协方差与相关系数 (Covariance and Correlation Coefficient)

7.6 本章小结与习题 (Chapter Summary and Exercises)

8. chapter 8： 生成函数 (Generating Functions)

8.1 概率生成函数 (Probability Generating Functions, PGF)

8.1.1 概率生成函数的定义与性质 (Definition and Properties of PGF)

8.1.2 利用 PGF 求期望与方差 (Using PGF to Find Expectation and Variance)

8.2 矩生成函数 (Moment Generating Functions, MGF)

8.3 卷积与生成函数 (Convolution and Generating Functions)

8.4 本章小结与习题 (Chapter Summary and Exercises)

9. chapter 9： 极限定理与近似 (Limit Theorems and Approximations)

9.1 大数定律 (Law of Large Numbers)

9.1.1 弱大数定律 (Weak Law of Large Numbers, WLLN)

9.1.2 强大数定律 (Strong Law of Large Numbers, SLLN)

9.1.3 大数定律的应用 (Applications of Law of Large Numbers)

9.2 中心极限定理 (Central Limit Theorem) (离散情况讨论)

9.2.1 中心极限定理 (Central Limit Theorem, CLT) 的基本形式

9.2.2 离散情况的中心极限定理 (CLT for Discrete Random Variables)

9.2.3 中心极限定理的应用 (Applications of Central Limit Theorem)

1. chapter 1：概率论基础 (Foundations of Probability)

2. chapter 2：计数方法 (Counting Techniques)

3. chapter 3：条件概率与事件的独立性 (Conditional Probability and Independence of Events)

4. chapter 4：离散随机变量与概率分布 (Discrete Random Variables and Probability Distributions)

5. chapter 5：几种重要的离散分布 (Important Discrete Distributions - Part 1)

6. chapter 6：几种重要的离散分布 (Important Discrete Distributions - Part 2)

7. chapter 7：多维离散分布 (Multivariate Discrete Distributions)

8. chapter 8：生成函数 (Generating Functions)

9. chapter 9：极限定理与近似 (Limit Theorems and Approximations)

10. chapter 10：离散概率的应用 (Applications of Discrete Probability)

11. chapter 11：马尔可夫链初步 (Introduction to Markov Chains)