003 《信息论的基石：概率论与随机过程深度解析》

作者 Lou Xiao, gemini 创建时间 "2025-04-18 21:43:19" 更新时间 "2025-04-18 21:43:19"

🌟🌟🌟本文案由Gemini 2.5 Flash Preview 04-17创作，用来辅助学习知识。🌟🌟🌟

书籍大纲

1. chapter 1：引言：信息论与数学基础 (Introduction: Information Theory and Mathematical Foundations)

欢迎来到信息论的世界！🌍 这是一门深刻改变了我们理解通信、数据存储、甚至科学哲学的基础学科。它为我们提供了一个量化“信息”的框架，并揭示了在存在噪声和不确定性的情况下，可靠通信的根本限制。然而，要真正掌握信息论的精髓，深厚的数学基础是必不可少的，尤其是概率论和随机过程。本章将带您初步了解信息论的起源、核心问题，并阐明为何概率论和随机过程是学习信息论不可或缺的工具。

1.1 信息论的起源与核心问题 (Origin and Core Problems of Information Theory)

信息论的诞生通常被追溯到1948年，克劳德·香农 (Claude Shannon) 发表的划时代论文《通信的数学理论》 (A Mathematical Theory of Communication)。在这篇论文中，香农首次提出了一个统一的框架来分析通信系统，并引入了“信息量” (Information Content) 和“熵” (Entropy) 的概念，为信息赋予了精确的数学定义。

在香农之前，通信工程师们主要依靠直觉和经验来设计系统。香农的工作则提供了一套严谨的数学工具，使得我们可以量化信息、分析信道的容量、并设计最优的编码和解码方案。

信息论的核心问题可以概括为以下几个方面：

① 信息的量化 (Quantification of Information)：如何衡量一个事件或一个消息所包含的信息量？一个不太可能发生的事件发生时，我们通常认为它提供了更多的信息。香农的熵概念正是基于这种直觉，用概率来量化不确定性，进而量化信息。
② 数据压缩 (Data Compression)：如何在不损失（或允许一定损失）信息的前提下，用最少的符号表示信息源产生的数据？这涉及到信息源的统计特性，信息论提供了信息源的熵作为数据压缩的理论极限。
③ 可靠通信 (Reliable Communication)：如何在存在噪声或干扰的通信信道 (Communication Channel) 中，以尽可能高的速率传输信息，同时保证接收端能够以极低的错误率恢复原始信息？信息论中的信道容量 (Channel Capacity) 概念给出了在给定信道条件下，无差错传输的最高理论速率。
④ 信息源建模 (Information Source Modeling)：如何用数学模型来描述信息源产生数据的过程？这通常涉及到随机过程，因为信息源产生的数据序列往往具有随机性和统计规律。
⑤ 信道建模 (Channel Modeling)：如何用数学模型来描述信息在传输过程中受到的影响（如噪声、衰减、干扰）？这也常常需要随机过程来刻画信道的随机特性。

这些核心问题构成了信息论研究的主要内容，并广泛应用于通信工程、数据存储、机器学习、统计物理学、生物学等众多领域。

1.2 为什么概率论和随机过程是信息论的基石？ (Why Probability Theory and Stochastic Processes are the Cornerstone of Information Theory?)

信息论处理的核心对象是“信息”，而信息往往与“不确定性” (Uncertainty) 紧密相关。例如，当我们接收到一个消息时，如果这个消息是完全可以预测的，那么它几乎不包含任何新的信息。只有当消息具有一定的随机性或不可预测性时，它才携带信息。

概率论 (Probability Theory) 正是研究随机现象数量规律的数学分支。它为我们提供了描述和量化不确定性的工具。在信息论中，我们使用概率来：

① 描述信息源产生某个符号或序列的可能性。
② 量化事件发生的不确定性（通过概率分布 (Probability Distribution)）。
③ 定义信息量和熵，这些概念直接依赖于事件的概率。
④ 分析通信系统中错误发生的可能性。
⑤ 计算信道容量，这涉及到对信道输入输出之间概率关系的分析。

例如，一个离散无记忆信源 (Discrete Memoryless Source) 产生符号的概率分布 $P (x)$ 是计算其熵 $H (X)$ 的基础： $H (X) = - \sum_{x \in X} P (x) \log_{b} P (x)$ 其中 $X$ 是符号集， $b$ 是对数的底（通常取2，单位为比特 (bit)）。这个公式直接来源于概率论。

而随机过程 (Stochastic Processes) 则是概率论的扩展，用于描述随时间或空间变化的随机现象。在信息论中，随机过程是建模信息源和通信信道的强大工具：

① 信息源模型 (Information Source Models)：许多信息源产生的数据序列并非完全独立的，而是存在某种时间上的依赖性。例如，语音信号、图像像素序列、文本序列等都具有统计相关性。随机过程，如马尔可夫链 (Markov Chain)，可以用来描述这种依赖性，从而更准确地计算信息源的熵率 (Entropy Rate) 和设计更高效的压缩算法。
② 通信信道模型 (Communication Channel Models)：通信信道中的噪声和干扰通常是随机的，并且可能随时间变化。例如，无线信道中的衰落 (Fading) 就是一个典型的随机过程。通过随机过程来建模信道，我们可以分析信道的统计特性，如转移概率 (Transition Probability)，进而计算信道容量并设计鲁棒的调制和编码方案。

例如，一个离散无记忆信道 (Discrete Memoryless Channel) 可以用一组条件概率 $P (y | x)$ 来描述，即输入 $x$ 时输出 $y$ 的概率。而一个随时间变化的信道，如一个加性高斯白噪声 (Additive White Gaussian Noise, AWGN) 信道，其输出 $Y (t)$ 与输入 $X (t)$ 的关系可以表示为 $Y (t) = X (t) + Z (t)$ ，其中 $Z (t)$ 是一个高斯随机过程 (Gaussian Stochastic Process) 代表噪声。分析这类信道需要随机过程的理论。

因此，没有扎实的概率论和随机过程基础，就无法深入理解信息量、熵、互信息 (Mutual Information)、信道容量等信息论的核心概念，也无法掌握信息论在实际系统中的应用。概率论提供了静态随机现象的分析工具，而随机过程则提供了动态随机现象的分析工具，两者共同构成了信息论的数学基石。

1.3 本书结构与学习指南 (Book Structure and Learning Guide)

本书旨在为读者提供信息论所需的全面且深入的概率论与随机过程基础知识。本书的结构安排如下：

① 第一部分：概率论基础 (Chapters 2-7)
▮▮▮▮⚝ Chapter 2: 概率论基础概念，包括样本空间、事件、概率的公理化定义、条件概率和贝叶斯定理。
▮▮▮▮⚝ Chapter 3: 随机变量及其分布，介绍离散和连续随机变量，概率质量函数、概率密度函数、累积分布函数以及常见的概率分布。
▮▮▮▮⚝ Chapter 4: 随机变量的数字特征，包括期望、方差、矩等，用于量化随机变量的集中趋势和离散程度。
▮▮▮▮⚝ Chapter 5: 多维随机变量，讨论联合分布、边缘分布、条件分布、随机变量的独立性、协方差和相关系数。
▮▮▮▮⚝ Chapter 6: 随机变量的函数及其分布，介绍如何求解随机变量函数的分布和数字特征。
▮▮▮▮⚝ Chapter 7: 极限定理，重点讲解大数定律和中心极限定理，它们在信息论中具有重要的理论和应用价值。

② 第二部分：随机过程基础 (Chapters 8-10)
▮▮▮▮⚝ Chapter 8: 随机过程的定义与描述，引入随机过程的基本概念和分类。
▮▮▮▮⚝ Chapter 9: 重要随机过程模型，详细介绍伯努利过程、泊松过程、马尔可夫链和高斯过程等在信息论中常用的模型。
▮▮▮▮⚝ Chapter 10: 随机过程的性质分析，讨论平稳性、遍历性、相关函数和功率谱密度等重要概念。

③ 第三部分：初步应用与总结 (Chapters 11-12)
▮▮▮▮⚝ Chapter 11: 概率与随机过程在信息论中的初步应用，将前面学到的数学工具应用于信息量、熵、互信息、信息源模型和信道模型等信息论基本概念的理解。
▮▮▮▮⚝ Chapter 12: 总结与展望，回顾全书知识体系，并为读者提供进一步学习信息论的建议。

学习指南：

① 循序渐进：本书内容安排由浅入深，建议按照章节顺序进行学习。概率论是随机过程的基础，请务必先打牢概率论的基础。
② 理解概念：数学概念是抽象的，请务必花时间理解每个定义、定理和公式的物理意义或直观解释。不要仅仅停留在记忆层面。
③ 动手实践：数学的学习离不开练习。请尝试解决书中的例题和习题（如果提供）。自己动手计算和推导是加深理解的最好方法。
④ 联系信息论：在学习概率论和随机过程的每个概念时，尝试思考它可能在信息论的哪个方面发挥作用。Chapter 11 将帮助您建立这种联系，但在之前的章节中主动思考会更有益。
⑤ 查阅资料：本书力求全面，但数学知识浩瀚。如果在学习过程中遇到困难，不要犹豫查阅其他概率论、随机过程或信息论的教材和在线资源。
⑥ 反复回顾：数学知识体系性强，后面的章节会用到前面的知识。定期回顾之前学过的概念和方法，有助于巩固记忆和融会贯通。

无论您是信息论的初学者，还是希望巩固数学基础的进阶学习者，亦或是寻求深入理解的专家，本书都希望能为您提供清晰、系统、深入的学习体验。让我们一起踏上这段探索信息奥秘的旅程吧！🚀

<END_OF_CHAPTER/>

好的，同学们，欢迎来到我们信息论基础课程的第二章：概率论基础。在上一章中，我们初步了解了信息论的魅力以及它与概率论和随机过程的紧密联系。现在，我们将深入学习信息论的基石——概率论。请大家集中注意力，准备好探索这个充满不确定性但又极具规律性的世界。🌍

2. chapter 2：概率论基础 (Fundamentals of Probability Theory)

概率论是研究随机现象 (random phenomena) 数量规律的数学分支。在信息论中，信息本身往往是随机的，通信过程也充满了不确定性（例如信道噪声）。因此，扎实的概率论基础是理解和掌握信息论的关键。本章将带大家回顾和深入学习概率论的核心概念和基本工具。

2.1 样本空间、事件与概率 (Sample Space, Events, and Probability)

我们首先从最基本的概念开始。

① 随机试验 (Random Experiment)：
一个随机试验是指满足以下三个条件的试验：
▮▮▮▮ⓐ 在相同条件下可以重复进行。
▮▮▮▮ⓑ 每次试验的结果不止一个，并且事先知道所有可能的结果。
▮▮▮▮ⓒ 进行一次试验之前不能确定哪个结果会出现。

⚝ 例子：
▮▮▮▮⚝ 抛一枚均匀硬币。
▮▮▮▮⚝ 掷一个标准的六面骰子。
▮▮▮▮⚝ 记录某城市一天内的最高气温。

② 样本空间 (Sample Space)：
随机试验所有可能结果组成的集合称为样本空间，通常用 $Ω$ 表示。样本空间中的每一个基本结果称为样本点 (sample point) 或基本事件 (elementary event)。

⚝ 例子：
▮▮▮▮⚝ 抛一枚均匀硬币的样本空间： $Ω = {正面, 反面}$ 或 ${H, T}$ 。
▮▮▮▮⚝ 掷一个标准的六面骰子的样本空间： $Ω = {1, 2, 3, 4, 5, 6}$ 。
▮▮▮▮⚝ 记录某城市一天内的最高气温（假设在 -20°C 到 40°C 之间）： $Ω = {t \in R ∣ - 20 \leq t \leq 40}$ 。这是一个连续样本空间。

③ 事件 (Event)：
样本空间 $Ω$ 的任意一个子集称为事件。事件通常用大写字母 $A, B, C, \dots$ 表示。事件发生 (event occurs) 是指试验结果是该子集中的一个样本点。样本空间 $Ω$ 称为必然事件 (certain event)，空集 $\emptyset$ 称为不可能事件 (impossible event)。

⚝ 事件的运算：
事件作为集合，可以进行集合运算：
▮▮▮▮⚝ 并集 (Union)： $A \cup B$ 表示事件 A 或事件 B 发生。
▮▮▮▮⚝ 交集 (Intersection)： $A \cap B$ 或 $A B$ 表示事件 A 和事件 B 都发生。
▮▮▮▮⚝ 补集 (Complement)： $A^{c}$ 或 $\bar{A}$ 表示事件 A 不发生。
▮▮▮▮⚝ 差集 (Difference)： $A ∖ B$ 表示事件 A 发生但事件 B 不发生。
▮▮▮▮⚝ 互斥事件 (Mutually Exclusive Events)：如果 $A \cap B = \emptyset$ ，则称事件 A 和事件 B 互斥，表示它们不能同时发生。

④ 概率 (Probability)：
概率是用来度量事件发生的可能性大小的数值。对于某些简单的随机试验，我们可以使用古典概率 (classical probability) 的定义。

⚝ 古典概率：
如果一个随机试验满足：
▮▮▮▮⚝ 样本空间只包含有限个样本点。
▮▮▮▮⚝ 每个样本点发生的可能性相等（等可能事件）。
则事件 $A$ 的概率定义为： $P (A) = \frac{事件 A 包含的样本点数}{样本空间包含的总样本点数} = \frac{| A |}{| Ω |}$ ⚝ 例子：
▮▮▮▮⚝ 掷一个标准的六面骰子，出现偶数点的概率。样本空间 $Ω = {1, 2, 3, 4, 5, 6}$ ， $| Ω | = 6$ 。事件 A = "出现偶数点" $= {2, 4, 6}$ ， $| A | = 3$ 。所以 $P (A) = 3 / 6 = 1 / 2$ 。

⚝ 古典概率的局限性：
古典概率定义要求样本空间有限且样本点等可能。对于样本空间无限或样本点不等可能的情况，古典概率就不适用了。例如，记录某城市一天内的最高气温，或者抛一枚不均匀的硬币。这引出了概率的更一般定义——公理化定义。

2.2 概率的公理化定义 (Axiomatic Definition of Probability)

为了克服古典概率的局限性，数学家柯尔莫哥洛夫 (Kolmogorov) 在1933年提出了概率的公理化定义。这一定义是现代概率论的基础。

① 概率空间 (Probability Space)：
一个概率空间由一个三元组 $(Ω, F, P)$ 构成，其中：
▮▮▮▮ⓐ $Ω$ 是样本空间 (Sample Space)，即所有可能结果的集合。
▮▮▮▮ⓑ $F$ 是一个事件域 (Event Space) 或 $σ$ -代数 ( $σ$ -algebra)，它是 $Ω$ 的一个子集族，满足以下条件：
▮▮▮▮▮▮▮▮❸ $Ω \in F$ 。
▮▮▮▮▮▮▮▮❹ 如果 $A \in F$ ，则其补集 $A^{c} \in F$ 。
▮▮▮▮▮▮▮▮❺ 如果 $A_{1}, A_{2}, \dots$ 是 $F$ 中可数个事件，则它们的并集 $⋃_{i = 1}^{\infty} A_{i} \in F$ 。
（注： $σ$ -代数保证了我们可以对事件进行各种集合运算，并且结果仍然是事件。）
▮▮▮▮ⓒ $P$ 是定义在 $F$ 上的一个概率测度 (Probability Measure)，它是一个函数 $P : F \to [0, 1]$ ，满足以下三条公理 (Axioms)：

② 概率的公理 (Axioms of Probability)：
▮▮▮▮ⓑ 非负性 (Non-negativity)：对于任意事件 $A \in F$ ，有 $P (A) \geq 0$ 。
▮▮▮▮ⓒ 规范性 (Normalization)：样本空间的概率为 1，即 $P (Ω) = 1$ 。
▮▮▮▮ⓓ 可列可加性 (Countable Additivity)：对于 $F$ 中任意一列互斥事件 $A_{1}, A_{2}, \dots$ (即当 $i \neq j$ 时， $A_{i} \cap A_{j} = \emptyset$ )，有 $P (⋃_{i = 1}^{\infty} A_{i}) = \sum_{i = 1}^{\infty} P (A_{i})$ ③ 由公理导出的重要性质：
从这三条公理，我们可以推导出概率的许多重要性质：
⚝ $P (\emptyset) = 0$ (不可能事件的概率为 0)。
⚝ 对于任意事件 $A$ ， $P (A^{c}) = 1 - P (A)$ 。
⚝ 如果 $A \subseteq B$ ，则 $P (A) \leq P (B)$ 。
⚝ 对于任意两个事件 $A$ 和 $B$ ， $P (A \cup B) = P (A) + P (B) - P (A \cap B)$ 。
⚝ 对于任意有限个互斥事件 $A_{1}, A_{2}, \dots, A_{n}$ ， $P (⋃_{i = 1}^{n} A_{i}) = \sum_{i = 1}^{n} P (A_{i})$ 。

⚝ 例子：
▮▮▮▮⚝ 抛一枚不均匀的硬币。样本空间 $Ω = {H, T}$ 。事件域 $F = {\emptyset, {H}, {T}, {H, T}}$ 。假设硬币出现正面的概率是 $p$ ，则出现反面的概率是 $1 - p$ 。概率测度 $P$ 定义为 $P ({H}) = p$ ， $P ({T}) = 1 - p$ ， $P (\emptyset) = 0$ ， $P ({H, T}) = 1$ 。这满足概率的公理。

公理化定义为概率论提供了一个严谨的数学框架，使得我们可以处理更复杂的随机现象，包括连续样本空间和非等可能事件。

2.3 条件概率与事件的独立性 (Conditional Probability and Independence of Events)

在很多情况下，我们想知道在某个事件已经发生的条件下，另一个事件发生的概率。这就引出了条件概率的概念。

① 条件概率 (Conditional Probability)：
设 $A$ 和 $B$ 是样本空间 $Ω$ 中的两个事件，且 $P (B) > 0$ 。在事件 $B$ 发生的条件下，事件 $A$ 发生的条件概率定义为： $P (A | B) = \frac{P (A \cap B)}{P (B)}$ 这个公式可以理解为：当我们知道事件 $B$ 已经发生时，样本空间缩小为 $B$ ，而 $A$ 发生的可能性就取决于 $A$ 和 $B$ 的交集 $A \cap B$ 在 $B$ 中所占的“比例”。

⚝ 例子：
▮▮▮▮⚝ 掷一个标准的六面骰子。事件 A = "出现偶数点" $= {2, 4, 6}$ 。事件 B = "出现大于 3 的点" $= {4, 5, 6}$ 。我们想知道在出现大于 3 的点的条件下，出现偶数点的概率，即 $P (A | B)$ 。
样本空间 $Ω = {1, 2, 3, 4, 5, 6}$ 。 $P (A) = 3 / 6 = 1 / 2$ 。 $P (B) = 3 / 6 = 1 / 2$ 。 $A \cap B = {4, 6}$ 。 $P (A \cap B) = 2 / 6 = 1 / 3$ 。
根据条件概率公式： $P (A | B) = \frac{P (A \cap B)}{P (B)} = \frac{1 / 3}{1 / 2} = \frac{2}{3}$ 这与直观理解一致：在 {4, 5, 6} 中，偶数点是 {4, 6}，占 2/3。

② 乘法公式 (Multiplication Rule)：
由条件概率的定义，我们可以得到乘法公式： $P (A \cap B) = P (A | B) P (B)$ 如果 $P (A) > 0$ ，也有 $P (A \cap B) = P (B | A) P (A)$ 。
对于多个事件的交集，可以推广为： $P (A_{1} \cap A_{2} \cap \dots \cap A_{n}) = P (A_{1}) P (A_{2} | A_{1}) P (A_{3} | A_{1} \cap A_{2}) \dots P (A_{n} | A_{1} \cap \dots \cap A_{n - 1})$ 前提是所有条件概率的分母都不为零。

③ 事件的独立性 (Independence of Events)：
如果事件 $A$ 的发生与事件 $B$ 的发生互不影响，则称事件 $A$ 和 $B$ 相互独立 (independent)。
数学上，如果 $P (B) > 0$ ，事件 $A$ 和 $B$ 独立等价于 $P (A | B) = P (A)$ 。
将条件概率的定义代入，得到独立性的常用判断条件： $P (A \cap B) = P (A) P (B)$ 这个公式对称，即使 $P (A) = 0$ 或 $P (B) = 0$ 也成立，因此通常用它作为独立性的定义。

⚝ 注意：互斥 (mutually exclusive) 和独立 (independent) 是两个完全不同的概念！
▮▮▮▮⚝ 互斥是指两个事件不能同时发生，即 $A \cap B = \emptyset$ ，如果 $P (A) > 0$ 且 $P (B) > 0$ ，则 $P (A \cap B) = 0 \neq P (A) P (B)$ ，所以互斥事件（非零概率）一定不独立。
▮▮▮▮⚝ 独立是指一个事件的发生不影响另一个事件发生的概率。

④ 多个事件的独立性：
⚝ 两两独立 (Pairwise Independent)：对于集合 ${A_{i}}_{i \in I}$ 中的任意两个不同的事件 $A_{i}$ 和 $A_{j}$ ，都有 $P (A_{i} \cap A_{j}) = P (A_{i}) P (A_{j})$ 。
⚝ 相互独立 (Mutually Independent)：对于集合 ${A_{i}}_{i \in I}$ 的任意有限子集 ${A_{i_{1}}, A_{i_{2}}, \dots, A_{i_{k}}}$ ，都有 $P (A_{i_{1}} \cap A_{i_{2}} \cap \dots \cap A_{i_{k}}) = P (A_{i_{1}}) P (A_{i_{2}}) \dots P (A_{i_{k}})$ 。
相互独立的要求比两两独立更强。在概率论和信息论中，我们通常讨论的是相互独立。

⚝ 例子：
▮▮▮▮⚝ 连续抛两次均匀硬币。样本空间 $Ω = {H H, H T, T H, T T}$ ，每个样本点概率为 1/4。
事件 A = "第一次出现正面" $= {H H, H T}$ ， $P (A) = 2 / 4 = 1 / 2$ 。
事件 B = "第二次出现正面" $= {H H, T H}$ ， $P (B) = 2 / 4 = 1 / 2$ 。 $A \cap B = {H H}$ ， $P (A \cap B) = 1 / 4$ 。
因为 $P (A \cap B) = 1 / 4 = P (A) P (B) = (1 / 2) (1 / 2)$ ，所以事件 A 和事件 B 相互独立。这符合我们的直观理解：第一次抛硬币的结果不影响第二次。

2.4 全概率公式与贝叶斯定理 (Law of Total Probability and Bayes' Theorem)

全概率公式和贝叶斯定理是概率论中非常重要的两个工具，它们在信息论、统计学、机器学习等领域有广泛应用。

① 完备事件组 (Complete System of Events)：
设 $B_{1}, B_{2}, \dots, B_{n}$ 是样本空间 $Ω$ 的一个划分 (partition)，即它们满足：
▮▮▮▮ⓐ $B_{i}$ 互斥，即当 $i \neq j$ 时， $B_{i} \cap B_{j} = \emptyset$ 。
▮▮▮▮ⓑ $B_{i}$ 的并集构成样本空间，即 $⋃_{i = 1}^{n} B_{i} = Ω$ 。
▮▮▮▮ⓒ $P (B_{i}) > 0$ 对于所有 $i = 1, \dots, n$ 。
则称 ${B_{1}, B_{2}, \dots, B_{n}}$ 是一个完备事件组。

② 全概率公式 (Law of Total Probability)：
设 ${B_{1}, B_{2}, \dots, B_{n}}$ 是一个完备事件组， $A$ 是任意一个事件。则事件 $A$ 的概率可以表示为： $P (A) = \sum_{i = 1}^{n} P (A | B_{i}) P (B_{i})$ 这个公式的意义在于，如果一个事件 $A$ 的发生与否取决于它可能在哪种“状态” $B_{i}$ 下发生，我们可以通过计算在每种状态 $B_{i}$ 下 $A$ 发生的概率 $P (A | B_{i})$ 乘以该状态本身的概率 $P (B_{i})$ ，然后将所有情况加起来，得到 $A$ 的总概率。

⚝ 推导：
因为 ${B_{1}, B_{2}, \dots, B_{n}}$ 是 $Ω$ 的一个划分，所以事件 $A$ 可以表示为 $A = A \cap Ω = A \cap (⋃_{i = 1}^{n} B_{i}) = ⋃_{i = 1}^{n} (A \cap B_{i})$ 。
由于 $B_{i}$ 互斥，所以 $A \cap B_{i}$ 也互斥。根据概率的可列可加性（或有限可加性）： $P (A) = P (⋃_{i = 1}^{n} (A \cap B_{i})) = \sum_{i = 1}^{n} P (A \cap B_{i})$ 再根据乘法公式 $P (A \cap B_{i}) = P (A | B_{i}) P (B_{i})$ ，代入即可得到全概率公式： $P (A) = \sum_{i = 1}^{n} P (A | B_{i}) P (B_{i})$ ⚝ 例子：
▮▮▮▮⚝ 假设有两个箱子。箱子 1 (B1) 里有 3 个红球和 2 个蓝球，箱子 2 (B2) 里有 2 个红球和 4 个蓝球。随机选择一个箱子（选择每个箱子的概率都是 1/2），然后从选定的箱子里随机摸出一个球。问摸出红球 (A) 的概率是多少？ $B_{1}$ = "选择箱子 1"， $P (B_{1}) = 1 / 2$ 。 $B_{2}$ = "选择箱子 2"， $P (B_{2}) = 1 / 2$ 。 ${B_{1}, B_{2}}$ 构成一个完备事件组。 $A$ = "摸出红球"。
在箱子 1 的条件下摸出红球的概率： $P (A | B_{1}) = 3 / (3 + 2) = 3 / 5$ 。
在箱子 2 的条件下摸出红球的概率： $P (A | B_{2}) = 2 / (2 + 4) = 2 / 6 = 1 / 3$ 。
根据全概率公式： $P (A) = P (A | B_{1}) P (B_{1}) + P (A | B_{2}) P (B_{2}) = (3 / 5) (1 / 2) + (1 / 3) (1 / 2) = 3 / 10 + 1 / 6 = 9 / 30 + 5 / 30 = 14 / 30 = 7 / 15$ ③ 贝叶斯定理 (Bayes' Theorem)：
贝叶斯定理描述了在已知事件 $A$ 发生的情况下，推断导致 $A$ 发生的各种原因 $B_{i}$ 的概率。它将先验概率 (prior probability) $P (B_{i})$ 更新为后验概率 (posterior probability) $P (B_{i} | A)$ 。
设 ${B_{1}, B_{2}, \dots, B_{n}}$ 是一个完备事件组， $A$ 是任意一个事件且 $P (A) > 0$ 。则对于任意 $k \in {1, \dots, n}$ ，有： $P (B_{k} | A) = \frac{P (A | B_{k}) P (B_{k})}{P (A)}$ 将全概率公式代入分母，得到更常用的形式： $P (B_{k} | A) = \frac{P (A | B_{k}) P (B_{k})}{\sum_{i = 1}^{n} P (A | B_{i}) P (B_{i})}$ ⚝ 意义：
贝叶斯定理是概率推理的核心。
▮▮▮▮⚝ $P (B_{k})$ 是在观察到事件 $A$ 之前的 $B_{k}$ 的概率，称为先验概率。
▮▮▮▮⚝ $P (A | B_{k})$ 是在 $B_{k}$ 发生的条件下 $A$ 发生的概率，称为似然度 (likelihood)。
▮▮▮▮⚝ $P (B_{k} | A)$ 是在观察到事件 $A$ 之后 $B_{k}$ 的概率，称为后验概率。
贝叶斯定理告诉我们如何利用新的证据 $A$ 来更新我们对各种原因 $B_{k}$ 的信念。

⚝ 例子：
▮▮▮▮⚝ 延续上面的箱子摸球例子。假设我们已经摸出了一个红球 (事件 A)。问这个红球是从箱子 1 (事件 B1) 摸出的概率是多少？即求 $P (B_{1} | A)$ 。
我们已知： $P (B_{1}) = 1 / 2$ $P (B_{2}) = 1 / 2$ $P (A | B_{1}) = 3 / 5$ $P (A | B_{2}) = 1 / 3$ $P (A) = 7 / 15$ (由全概率公式计算得出)
根据贝叶斯定理： $P (B_{1} | A) = \frac{P (A | B_{1}) P (B_{1})}{P (A)} = \frac{(3 / 5) (1 / 2)}{7 / 15} = \frac{3 / 10}{7 / 15} = \frac{3}{10} \times \frac{15}{7} = \frac{45}{70} = \frac{9}{14}$ 同样，我们可以计算红球是从箱子 2 摸出的概率 $P (B_{2} | A)$ ： $P (B_{2} | A) = \frac{P (A | B_{2}) P (B_{2})}{P (A)} = \frac{(1 / 3) (1 / 2)}{7 / 15} = \frac{1 / 6}{7 / 15} = \frac{1}{6} \times \frac{15}{7} = \frac{15}{42} = \frac{5}{14}$ 注意 $P (B_{1} | A) + P (B_{2} | A) = 9 / 14 + 5 / 14 = 14 / 14 = 1$ ，这符合概率的性质。
在摸出红球之前，我们认为从箱子 1 或箱子 2 摸球的可能性各是 1/2。在摸出红球之后，我们更新了信念，认为这个红球更有可能是从箱子 1 摸出的（因为箱子 1 里红球比例更高），概率提高到了 9/14。这就是贝叶斯定理进行概率更新的体现。

本章我们回顾了概率论最基础的概念：样本空间、事件、概率的公理化定义、条件概率、事件的独立性、全概率公式和贝叶斯定理。这些是理解后续章节，特别是随机变量和随机过程的基础。请大家务必熟练掌握这些内容，它们将是我们在信息论世界中前行的重要工具。下一章，我们将学习随机变量及其分布。🚀

<END_OF_CHAPTER/>

3. chapter 3：随机变量及其分布 (Random Variables and Their Distributions)

欢迎来到本书的第三章！在前面两章中，我们回顾了信息论的起源及其与概率论的紧密联系，并系统地学习了概率论的基础知识，包括样本空间、事件、概率的公理化定义、条件概率以及重要的全概率公式和贝叶斯定理。这些基础概念为我们理解随机现象提供了数学框架。

然而，在实际应用中，我们往往更关心随机实验的结果所对应的数值，而不是样本空间中的原始事件本身。例如，抛硬币的结果是“正面”或“反面”，但我们可能更关心正面出现的次数；测量一个电子元件的寿命，结果是一个时间值；通信系统中接收到的信号，是一个随时间变化的电压或电流值。将这些非数值型的或复杂的实验结果转化为数值，可以极大地简化问题的分析和处理。

这就引出了本章的核心概念：随机变量（Random Variable）。随机变量是连接样本空间与实数域的桥梁，它将随机实验的每一个可能结果映射为一个确定的数值。通过引入随机变量，我们可以利用实数分析和微积分的强大工具来研究随机现象的规律。

本章将深入探讨随机变量的定义、类型，以及描述随机变量取值概率规律的各种分布函数和密度函数。我们还将详细介绍几种在理论和实践中都极为常见的概率分布，它们构成了许多复杂随机模型的基础。掌握随机变量及其分布是深入学习信息论、随机过程以及其他许多应用领域（如统计学、机器学习、信号处理等）的关键。

让我们一起踏上这段探索随机变量奥秘的旅程吧！🚀

3.1 随机变量的定义与类型 (Definition and Types of Random Variables)

在概率论中，随机变量（Random Variable）是一个核心概念。它并不是一个“变量”在代数意义上的理解，而是一个函数。

① 定义 (Definition)：
随机变量 $X$ 是定义在样本空间（Sample Space） $Ω$ 上的一个实值函数，它将 $Ω$ 中的每一个样本点（Sample Point） $ω \in Ω$ 映射到一个实数 $X (ω)$ 。
用数学符号表示： $X : Ω \to R$ 。
为了使这个函数具有概率意义，随机变量还需要满足一个可测性条件：对于任意实数 $x$ ，事件 ${ω \in Ω ∣ X (ω) \leq x}$ 必须是样本空间 $Ω$ 的一个事件（即属于 $Ω$ 的 $σ$ -代数（ $σ$ -algebra））。这个条件确保我们可以计算随机变量取值小于或等于 $x$ 的概率 $P (X \leq x)$ 。

② 直观理解 (Intuitive Understanding)：
想象一个随机实验。随机变量就是我们对这个实验结果进行“量化”的方式。例如：
⚝ 抛两次硬币，样本空间 $Ω = {H H, H T, T H, T T}$ 。我们可以定义随机变量 $X$ 为正面（H）出现的次数。
▮▮▮▮⚝ $X (H H) = 2$ ▮▮▮▮⚝ $X (H T) = 1$ ▮▮▮▮⚝ $X (T H) = 1$ ▮▮▮▮⚝ $X (T T) = 0$ ⚝ 测量一个灯泡的寿命（小时）。样本空间 $Ω$ 是所有可能的非负实数。我们可以定义随机变量 $Y$ 为灯泡的寿命。
▮▮▮▮⚝ $Y (某个灯泡) = 该灯泡的实际寿命$ ③ 随机变量的类型 (Types of Random Variables)：
根据随机变量可能取值的集合的特性，随机变量通常分为两类：

▮▮▮▮ⓐ 离散随机变量 (Discrete Random Variable)：
▮▮▮▮⚝ 如果随机变量 $X$ 所有可能取值的集合是有限的或可数无限的，则称 $X$ 为离散随机变量。
▮▮▮▮⚝ 例子：抛硬币正面朝上的次数（0, 1, 2, ...）、一天内到达商店的顾客数量（0, 1, 2, ...）、掷骰子的点数（1, 2, 3, 4, 5, 6）。
▮▮▮▮⚝ 离散随机变量的取值通常是整数。

▮▮▮▮ⓑ 连续随机变量 (Continuous Random Variable)：
▮▮▮▮⚝ 如果随机变量 $X$ 所有可能取值的集合是实数轴上的一个区间（或若干个区间的并集），并且对于该集合中的任意一点 $x$ ， $P (X = x) = 0$ ，则称 $X$ 为连续随机变量。
▮▮▮▮⚝ 例子：一个人的身高、一个物体的重量、电流强度、随机选择一个时间点。
▮▮▮▮⚝ 连续随机变量的取值是不可数无限的。

除了这两类主要的随机变量，还有混合随机变量（Mixed Random Variable），其分布包含离散部分和连续部分，但本书主要关注离散和连续随机变量。

理解随机变量的定义和类型是后续学习的基础。它允许我们将抽象的随机事件转化为具体的数值，从而可以使用数学工具进行分析。

3.2 离散随机变量及其概率质量函数 (Discrete Random Variables and Probability Mass Function (PMF))

对于离散随机变量（Discrete Random Variable），由于其取值是离散的，我们可以直接讨论它取每一个可能值的概率。描述这种概率分布的函数称为概率质量函数。

① 概率质量函数 (Probability Mass Function (PMF))：
设 $X$ 是一个离散随机变量，其所有可能取值为 ${x_{1}, x_{2}, x_{3}, \dots}$ 。随机变量 $X$ 的概率质量函数 $p (x)$ 或 $P (X = x)$ 定义为： $p (x) = P (X = x)$ 对于任意实数 $x$ ， $p (x)$ 表示随机变量 $X$ 取值等于 $x$ 的概率。如果 $x$ 不是 $X$ 的可能取值，则 $p (x) = 0$ 。

② PMF 的性质 (Properties of PMF)：
一个有效的概率质量函数 $p (x)$ 必须满足以下两个条件：
▮▮▮▮ⓐ 对于 $X$ 的每一个可能取值 $x_{i}$ ，其概率必须是非负的：
▮▮▮▮▮▮▮▮❷ $p (x_{i}) \geq 0$ ▮▮▮▮ⓒ 所有可能取值的概率之和必须等于 1：
▮▮▮▮▮▮▮▮❹ $\sum_{i} p (x_{i}) = 1$ 这里的求和是针对 $X$ 的所有可能取值进行的。

③ 例子 (Example)：
考虑抛掷一个均匀的六面骰子一次，随机变量 $X$ 表示出现的点数。
样本空间 $Ω = {1, 2, 3, 4, 5, 6}$ 。
随机变量 $X$ 的可能取值为 ${1, 2, 3, 4, 5, 6}$ 。
由于骰子是均匀的，每个点数出现的概率相等，都为 $1 / 6$ 。
随机变量 $X$ 的概率质量函数为： $p (x) = {\begin{cases} 1 / 6, & if x \in {1, 2, 3, 4, 5, 6} \\ 0, & otherwise \end{cases}$ 我们可以验证其性质：
⚝ $p (x) = 1 / 6 \geq 0$ 对于所有可能取值。
⚝ $\sum_{x \in {1, \dots, 6}} p (x) = p (1) + p (2) + p (3) + p (4) + p (5) + p (6) = 1 / 6 + 1 / 6 + 1 / 6 + 1 / 6 + 1 / 6 + 1 / 6 = 6 / 6 = 1$ 。
性质满足，这是一个有效的 PMF。

④ PMF 的图示 (Graphical Representation of PMF)：
PMF 通常可以用柱状图（Bar Chart）来表示，横轴表示随机变量的取值，纵轴表示对应取值的概率。

⑤ PMF 与概率计算 (PMF and Probability Calculation)：
利用 PMF，我们可以计算随机变量 $X$ 取值在某个集合 $A$ 中的概率： $P (X \in A) = \sum_{x_{i} \in A} p (x_{i})$ 例如，掷骰子时，点数大于 4 的概率为： $P (X > 4) = P (X = 5) + P (X = 6) = p (5) + p (6) = 1 / 6 + 1 / 6 = 2 / 6 = 1 / 3$ 。

在信息论中，离散随机变量常用于建模离散信息源（Discrete Information Source），例如字母表中的符号、数字信号的取值等。PMF 直接给出了每个符号出现的概率，这是计算信息量和熵的基础。

3.3 连续随机变量及其概率密度函数 (Continuous Random Variables and Probability Density Function (PDF))

对于连续随机变量（Continuous Random Variable），其可能取值是实数轴上的一个区间。与离散随机变量不同，连续随机变量取 任何一个特定值 的概率都为零，即对于任意 $x$ ， $P (X = x) = 0$ 。这是因为在一个连续区间上，任何一个点的“长度”都是零。因此，我们不能使用概率质量函数来描述其概率分布。

取而代之的是概率密度函数。概率密度函数本身不是概率，它描述了概率在实数轴上的“密度”。

① 概率密度函数 (Probability Density Function (PDF))：
设 $X$ 是一个连续随机变量。存在一个非负的可积函数 $f (x)$ ，称为 $X$ 的概率密度函数，使得对于任意实数区间 $[a, b]$ ( $a \leq b$ )，随机变量 $X$ 取值在区间 $[a, b]$ 内的概率为 $f (x)$ 在该区间上的积分： $P (a \leq X \leq b) = \int_{a}^{b} f (x) d x$ 如果 $X$ 的取值范围是整个实数轴 $(- \infty, \infty)$ ，则对于任意 $a \leq b$ ， $P (a \leq X \leq b) = \int_{a}^{b} f (x) d x$ ② PDF 的性质 (Properties of PDF)：
一个有效的概率密度函数 $f (x)$ 必须满足以下两个条件：
▮▮▮▮ⓐ 对于任意实数 $x$ ，函数值必须是非负的：
▮▮▮▮▮▮▮▮❷ $f (x) \geq 0$ ▮▮▮▮ⓒ 在随机变量所有可能取值范围上的积分必须等于 1：
▮▮▮▮▮▮▮▮❹ $\int_{- \infty}^{\infty} f (x) d x = 1$ 这里的积分范围覆盖了 $X$ 的所有可能取值。如果 $X$ 的取值仅限于某个区间 $[c, d]$ ，则在该区间外的 $f (x)$ 为 0，积分范围可以相应调整为 $\int_{c}^{d} f (x) d x = 1$ 。

③ PDF 的直观理解 (Intuitive Understanding of PDF)：
PDF $f (x)$ 在某一点 $x$ 的值越高，意味着随机变量 $X$ 在 $x$ 附近取值的可能性越大（密度越高）。注意， $f (x)$ 的值可以大于 1，因为它不是概率。概率是 PDF 在一个区间上的积分（面积）。

④ 例子 (Example)：
考虑一个在区间 $[0, 1]$ 上均匀分布的连续随机变量 $X$ 。例如，随机选择 $[0, 1]$ 区间内的一个实数。
其概率密度函数为： $f (x) = {\begin{cases} 1, & if 0 \leq x \leq 1 \\ 0, & otherwise \end{cases}$ 我们可以验证其性质：
⚝ $f (x) \geq 0$ 对于所有 $x$ 。
⚝ $\int_{- \infty}^{\infty} f (x) d x = \int_{0}^{1} 1 d x = [x]_{0}^{1} = 1 - 0 = 1$ 。
性质满足，这是一个有效的 PDF。

⑤ 利用 PDF 计算概率 (Calculating Probabilities using PDF)：
要计算 $X$ 取值在 $[a, b]$ 区间内的概率，只需计算 $f (x)$ 在 $[a, b]$ 上的定积分。
例如，对于上述均匀分布，计算 $P (0.2 \leq X \leq 0.7)$ ： $P (0.2 \leq X \leq 0.7) = \int_{0.2}^{0.7} 1 d x = [x]_{0.2}^{0.7} = 0.7 - 0.2 = 0.5$ 。

⑥ PDF 与概率质量函数的关系 (Relationship between PDF and PMF)：
虽然 PDF 和 PMF 用于描述不同类型的随机变量，但它们都扮演着描述概率分布的核心角色。PMF 直接给出点概率，而 PDF 给出概率密度，需要通过积分计算区间概率。

在信息论中，连续随机变量常用于建模连续信息源（Continuous Information Source）或噪声（Noise），例如模拟信号、信道中的高斯白噪声（Gaussian White Noise）。PDF 是计算连续随机变量的微分熵（Differential Entropy）等概念的基础。

3.4 累积分布函数 (Cumulative Distribution Function (CDF))

累积分布函数（Cumulative Distribution Function (CDF)）是一个非常重要的函数，它可以统一描述离散随机变量和连续随机变量的概率分布。

① 定义 (Definition)：
随机变量 $X$ 的累积分布函数 $F (x)$ 定义为随机变量 $X$ 取值小于或等于任意实数 $x$ 的概率： $F (x) = P (X \leq x)$ 对于离散随机变量，CDF 是其 PMF 的累积和： $F (x) = \sum_{x_{i} \leq x} p (x_{i})$ 对于连续随机变量，CDF 是其 PDF 的积分： $F (x) = \int_{- \infty}^{x} f (t) d t$ ② CDF 的性质 (Properties of CDF)：
无论随机变量是离散的还是连续的，其 CDF $F (x)$ 都具有以下性质：
▮▮▮▮ⓐ $F (x)$ 是一个单调不减函数（Monotonically Non-decreasing Function）：
▮▮▮▮▮▮▮▮❷ 如果 $x_{1} \leq x_{2}$ ，则 $F (x_{1}) \leq F (x_{2})$ 。
▮▮▮▮ⓒ $F (x)$ 的值域在 0 到 1 之间：
▮▮▮▮▮▮▮▮❹ $0 \leq F (x) \leq 1$ ▮▮▮▮ⓔ $F (x)$ 在负无穷处的极限为 0：
▮▮▮▮▮▮▮▮❻ $lim_{x \to - \infty} F (x) = 0$ ▮▮▮▮ⓖ $F (x)$ 在正无穷处的极限为 1：
▮▮▮▮▮▮▮▮❽ $lim_{x \to \infty} F (x) = 1$ ▮▮▮▮ⓘ $F (x)$ 是右连续的（Right-continuous）：
▮▮▮▮▮▮▮▮❿ $lim_{h \to 0^{+}} F (x + h) = F (x)$ ③ 利用 CDF 计算概率 (Calculating Probabilities using CDF)：
CDF 可以方便地计算各种概率：
⚝ $P (X \leq x) = F (x)$ (根据定义)
⚝ $P (X > x) = 1 - P (X \leq x) = 1 - F (x)$ ⚝ $P (a < X \leq b) = P (X \leq b) - P (X \leq a) = F (b) - F (a)$ ⚝ 对于连续随机变量， $P (X = x) = 0$ ，所以 $P (a \leq X \leq b) = P (a < X \leq b) = P (a \leq X < b) = P (a < X < b) = F (b) - F (a)$ 。
⚝ 对于离散随机变量， $P (X = x) = F (x) - lim_{h \to 0^{+}} F (x - h)$ 。CDF 在离散随机变量的可能取值点处会发生跳跃，跳跃的高度就是该点对应的概率质量 $p (x)$ 。

④ CDF 与 PDF/PMF 的关系 (Relationship between CDF and PDF/PMF)：
⚝ 对于连续随机变量，如果 $F (x)$ 可导，那么其导数就是 PDF： $f (x) = \frac{d}{d x} F (x)$ ⚝ 对于离散随机变量，CDF 是阶梯函数，其跳跃点对应于随机变量的可能取值，跳跃幅度对应于该取值的 PMF 值。

⑤ 例子 (Example)：
⚝ 离散 CDF：掷骰子点数 $X$ 。PMF $p (x) = 1 / 6$ for $x \in {1, \dots, 6}$ 。 $F (x) = P (X \leq x) = \sum_{x_{i} \leq x} p (x_{i})$ $F (0.5) = P (X \leq 0.5) = 0$ $F (1) = P (X \leq 1) = p (1) = 1 / 6$ $F (1.5) = P (X \leq 1.5) = p (1) = 1 / 6$ $F (2) = P (X \leq 2) = p (1) + p (2) = 1 / 6 + 1 / 6 = 2 / 6$ ... $F (6) = P (X \leq 6) = \sum_{i = 1}^{6} p (i) = 1$ $F (7) = P (X \leq 7) = 1$ CDF 是一个阶梯函数，在 1, 2, ..., 6 处有跳跃。

⚝ 连续 CDF：区间 $[0, 1]$ 上的均匀分布 $X$ 。PDF $f (x) = 1$ for $0 \leq x \leq 1$ ，else 0。 $F (x) = \int_{- \infty}^{x} f (t) d t$ 如果 $x < 0$ ， $F (x) = \int_{- \infty}^{x} 0 d t = 0$ 。
如果 $0 \leq x \leq 1$ ， $F (x) = \int_{- \infty}^{0} 0 d t + \int_{0}^{x} 1 d t = 0 + [t]_{0}^{x} = x$ 。
如果 $x > 1$ ， $F (x) = \int_{- \infty}^{0} 0 d t + \int_{0}^{1} 1 d t + \int_{1}^{x} 0 d t = 0 + 1 + 0 = 1$ 。
所以， $F (x) = {\begin{cases} 0, & if x < 0 \\ x, & if 0 \leq x \leq 1 \\ 1, & if x > 1 \end{cases}$ 这是一个连续函数，并且在 $[0, 1]$ 区间内可导，其导数 $F^{'} (x) = 1$ ，这正是 PDF $f (x)$ 。

CDF 提供了一种统一的方式来描述任何类型的随机变量的概率分布，是理论分析和实际计算中非常方便的工具。

3.5 常见概率分布 (Common Probability Distributions)

在概率论和统计学中，有一些概率分布由于其在各种实际问题中频繁出现而显得尤为重要。理解这些常见分布的性质、适用场景以及它们之间的关系，对于建立随机模型和进行数据分析至关重要。本节将介绍几种最基本的离散和连续概率分布。

3.5.1 伯努利分布与二项分布 (Bernoulli Distribution and Binomial Distribution)

① 伯努利分布 (Bernoulli Distribution)：
⚝ 定义 (Definition)：伯努利分布是描述单次伯努利试验（Bernoulli Trial）结果的离散概率分布。伯努利试验是一个只有两个可能结果的随机实验，通常称为“成功”和“失败”。
⚝ 随机变量 (Random Variable)：设随机变量 $X$ 表示伯努利试验的结果，通常将“成功”记为 1，“失败”记为 0。
⚝ 参数 (Parameter)：伯努利分布由一个参数 $p$ 决定，表示单次试验成功的概率，其中 $0 \leq p \leq 1$ 。失败的概率为 $1 - p$ 。
⚝ 概率质量函数 (PMF)： $p (x) = P (X = x) = {\begin{cases} p, & if x = 1 \\ 1 - p, & if x = 0 \\ 0, & otherwise \end{cases}$ 也可以紧凑地写为 $p (x) = p^{x} (1 - p)^{1 - x}$ for $x \in {0, 1}$ 。
⚝ 记法 (Notation)：如果随机变量 $X$ 服从参数为 $p$ 的伯努利分布，记为 $X \sim Bernoulli (p)$ 或 $X \sim B (1, p)$ 。
⚝ 应用 (Applications)：最简单的随机事件模型，如抛一次硬币（正面/反面）、产品是否合格（合格/不合格）、邮件是否是垃圾邮件（是/否）。

② 二项分布 (Binomial Distribution)：
⚝ 定义 (Definition)：二项分布是描述在 $n$ 次独立的重复伯努利试验中，成功次数的离散概率分布。每次伯努利试验的成功概率相同，都为 $p$ 。
⚝ 随机变量 (Random Variable)：设随机变量 $X$ 表示 $n$ 次独立伯努利试验中成功的总次数。
⚝ 参数 (Parameters)：二项分布由两个参数决定：试验次数 $n$ （一个正整数）和单次试验成功概率 $p$ （ $0 \leq p \leq 1$ ）。
⚝ 概率质量函数 (PMF)：在 $n$ 次试验中恰好成功 $k$ 次的概率为： $p (k) = P (X = k) = (\binom{n}{k}) p^{k} (1 - p)^{n - k}, for k \in {0, 1, 2, \dots, n}$ 其中 $(\binom{n}{k}) = \frac{n!}{k! (n - k)!}$ 是二项系数（Binomial Coefficient），表示从 $n$ 个不同的事物中选择 $k$ 个的不同组合数。
⚝ 记法 (Notation)：如果随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布，记为 $X \sim Binomial (n, p)$ 或 $X \sim B (n, p)$ 。
⚝ 与伯努利分布的关系 (Relationship with Bernoulli Distribution)：一次伯努利试验是 $n = 1$ 的二项分布，即 $Bernoulli (p) = Binomial (1, p)$ 。此外， $n$ 个独立的服从 $Bernoulli (p)$ 分布的随机变量之和服从 $Binomial (n, p)$ 分布。
⚝ 应用 (Applications)：重复进行具有两种结果的实验，并计算成功次数，如重复抛硬币 $n$ 次正面朝上的次数、生产 $n$ 个产品中的合格品数量、进行 $n$ 次通信传输中成功接收的次数。

3.5.2 泊松分布 (Poisson Distribution)

① 定义 (Definition)：泊松分布（Poisson Distribution）是一种描述在固定时间间隔或空间区域内，某个稀有事件发生次数的离散概率分布。它通常作为二项分布在 $n$ 很大且 $p$ 很小（即 $n p$ 为一个常数）时的极限近似。
② 随机变量 (Random Variable)：设随机变量 $X$ 表示在给定区间内事件发生的次数。
③ 参数 (Parameter)：泊松分布由一个参数 $λ$ 决定，表示在给定区间内事件发生的平均次数（或称为发生率）， $λ > 0$ 。
④ 概率质量函数 (PMF)：在给定区间内事件恰好发生 $k$ 次的概率为： $p (k) = P (X = k) = \frac{λ^{k} e^{- λ}}{k!}, for k \in {0, 1, 2, \dots}$ 其中 $e$ 是自然对数的底（约等于 2.71828）。
⑤ 记法 (Notation)：如果随机变量 $X$ 服从参数为 $λ$ 的泊松分布，记为 $X \sim Poisson (λ)$ 或 $X \sim P (λ)$ 。
⑥ 泊松分布的来源 (Origin of Poisson Distribution)：当二项分布 $B (n, p)$ 中的 $n \to \infty$ 且 $p \to 0$ ，同时保持 $n p = λ$ 为常数时，二项分布的极限就是泊松分布 $P (λ)$ 。这解释了为什么泊松分布适用于描述稀有事件的发生次数。
⑦ 应用 (Applications)：在单位时间或单位空间内发生的事件次数，如一分钟内呼叫服务中心的电话次数、一页书上的印刷错误数量、单位时间内到达网站的访问请求数量、放射性物质在单位时间内衰变的原子数。在通信系统中，泊松过程（Poisson Process，基于泊松分布的随机过程）常用于建模突发噪声或到达的信号脉冲。

3.5.3 均匀分布 (Uniform Distribution)

① 离散均匀分布 (Discrete Uniform Distribution)：
⚝ 定义 (Definition)：描述在有限个等可能结果中随机选取一个结果的离散概率分布。
⚝ 随机变量 (Random Variable)：设随机变量 $X$ 的可能取值为 ${x_{1}, x_{2}, \dots, x_{n}}$ ，且每个取值出现的概率相等。
⚝ 参数 (Parameters)：可能取值的集合 ${x_{1}, \dots, x_{n}}$ 。
⚝ 概率质量函数 (PMF)： $p (x_{i}) = P (X = x_{i}) = \frac{1}{n}, for i \in {1, 2, \dots, n}$ ⚝ 应用 (Applications)：掷一个均匀的骰子、从一副洗好的扑克牌中随机抽一张、在有限集合中进行无偏抽样。

② 连续均匀分布 (Continuous Uniform Distribution)：
⚝ 定义 (Definition)：描述在实数轴上的一个有限区间 $[a, b]$ 内，随机变量取值具有相同概率密度的连续概率分布。
⚝ 随机变量 (Random Variable)：设随机变量 $X$ 的取值范围是区间 $[a, b]$ 。
⚝ 参数 (Parameters)：区间的两个端点 $a$ 和 $b$ ，其中 $a < b$ 。
⚝ 概率密度函数 (PDF)： $f (x) = {\begin{cases} \frac{1}{b - a}, & if a \leq x \leq b \\ 0, & otherwise \end{cases}$ ⚝ 记法 (Notation)：如果随机变量 $X$ 服从在区间 $[a, b]$ 上的均匀分布，记为 $X \sim U (a, b)$ 。
⚝ 应用 (Applications)：在指定范围内随机生成一个数、信号量化误差的分布（假设原始信号在量化步长内均匀分布）、随机选择一个时间点。在信息论中，均匀分布常作为最大熵分布的例子（在给定有限区间约束下）。

3.5.4 指数分布 (Exponential Distribution)

① 定义 (Definition)：指数分布（Exponential Distribution）是一种描述独立随机事件发生时间间隔的连续概率分布，特别是用于建模泊松过程中事件之间的时间间隔。它具有无记忆性（Memoryless Property）。
② 随机变量 (Random Variable)：设随机变量 $X$ 表示某个事件第一次发生所需的时间或等待时间。
③ 参数 (Parameter)：指数分布由一个速率参数 $λ$ 决定， $λ > 0$ 。 $λ$ 表示单位时间内事件平均发生的次数（与泊松分布的参数意义相同）。
④ 概率密度函数 (PDF)： $f (x) = {\begin{cases} λ e^{- λ x}, & if x \geq 0 \\ 0, & if x < 0 \end{cases}$ ⑤ 累积分布函数 (CDF)： $F (x) = P (X \leq x) = {\begin{cases} 1 - e^{- λ x}, & if x \geq 0 \\ 0, & if x < 0 \end{cases}$ ⑥ 记法 (Notation)：如果随机变量 $X$ 服从参数为 $λ$ 的指数分布，记为 $X \sim Exp (λ)$ 。
⑦ 无记忆性 (Memoryless Property)：指数分布最重要的性质是无记忆性。这意味着事件在未来某个时间段内发生的概率与它已经等待了多久无关。用数学表示就是：对于任意 $s, t \geq 0$ ， $P (X > s + t ∣ X > s) = P (X > t)$ 。这在可靠性理论（Reliability Theory）中非常重要，例如一个元件的剩余寿命不取决于它已经工作了多久。
⑧ 应用 (Applications)：电子元件的寿命、顾客到达服务窗口的时间间隔、电话呼叫之间的时间间隔、放射性原子衰变的时间。在通信系统中，常用于建模服务时间或排队等待时间。

3.5.5 正态分布 (高斯分布) (Normal Distribution (Gaussian Distribution))

① 定义 (Definition)：正态分布（Normal Distribution），也称为高斯分布（Gaussian Distribution），是最重要的一种连续概率分布。它在自然界和许多科学领域中广泛出现，并且在统计推断中扮演核心角色（由于中心极限定理）。
② 随机变量 (Random Variable)：设随机变量 $X$ 服从正态分布。
③ 参数 (Parameters)：正态分布由两个参数决定：均值（Mean） $μ$ 和方差（Variance） $σ^{2}$ ，其中 $μ \in R$ 且 $σ^{2} > 0$ 。标准差（Standard Deviation）为 $σ = \sqrt{σ^{2}}$ 。
④ 概率密度函数 (PDF)： $f (x) = \frac{1}{\sqrt{2 π} σ} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}, for x \in (- \infty, \infty)$ PDF 的图像是一个对称的钟形曲线（Bell Curve），峰值位于均值 $μ$ 处，曲线的展宽程度由标准差 $σ$ 决定。
⑤ 记法 (Notation)：如果随机变量 $X$ 服从参数为 $μ$ 和 $σ^{2}$ 的正态分布，记为 $X \sim N (μ, σ^{2})$ 。
⑥ 标准正态分布 (Standard Normal Distribution)：当 $μ = 0$ 且 $σ^{2} = 1$ 时，正态分布称为标准正态分布。其 PDF 通常记为 $ϕ (z)$ ，CDF 记为 $Φ (z)$ 。 $ϕ (z) = \frac{1}{\sqrt{2 π}} e^{- \frac{z^{2}}{2}}$ 任何服从 $N (μ, σ^{2})$ 分布的随机变量 $X$ 都可以通过标准化（Standardization）转化为服从标准正态分布的随机变量 $Z$ ，即 $Z = \frac{X - μ}{σ}$ 。
⑦ 累积分布函数 (CDF)：正态分布的 CDF 没有简单的解析表达式，通常需要通过数值计算或查表获得。 $F (x) = P (X \leq x) = \int_{- \infty}^{x} \frac{1}{\sqrt{2 π} σ} e^{- \frac{(t - μ)^{2}}{2 σ^{2}}} d t$ 对于标准正态分布，CDF 为 $Φ (z) = \int_{- \infty}^{z} ϕ (t) d t$ 。
⑧ 中心极限定理 (Central Limit Theorem)：这是正态分布如此重要的主要原因之一。中心极限定理指出，大量独立同分布（Independent and Identically Distributed (IID)）的随机变量之和（或平均值）的分布趋近于正态分布，无论原始随机变量的分布是什么（只要其均值和方差存在）。这使得正态分布在统计推断中具有普适性。
⑨ 应用 (Applications)：测量误差、自然界中许多生物特征（如身高、体重）、考试分数、金融资产收益率、噪声信号（如热噪声）。在信息论和通信系统中，高斯噪声（Gaussian Noise）模型非常常见，信道容量的计算（香农-哈特利定理）就依赖于高斯噪声模型。

掌握这些常见概率分布是理解更复杂的概率模型和随机过程的基础。它们不仅是理论概念，更是描述和分析现实世界中随机现象的强大工具。在后续章节中，我们将看到这些分布如何在信息论的框架下发挥作用。

<END_OF_CHAPTER/>

4. chapter 4：随机变量的数字特征 (Numerical Characteristics of Random Variables)

欢迎来到本书的第四章！📚 在前几章中，我们学习了随机变量及其分布，了解了如何用概率质量函数（PMF）和概率密度函数（PDF）来描述随机变量取值的可能性。然而，仅仅知道分布函数有时是不够的。为了更简洁、更直观地理解随机变量的特性，我们需要一些能够概括其核心信息的数字指标。这些指标通常被称为随机变量的数字特征（Numerical Characteristics），它们能够帮助我们描述随机变量的“平均”取值、取值的“离散”程度，以及分布的“形状”等。

本章将深入探讨几个最重要的随机变量数字特征：期望（Expectation）、方差（Variance）和标准差（Standard Deviation）、矩（Moments）和中心矩（Central Moments），以及分位数（Quantiles）和中位数（Median）。这些概念不仅是概率论和随机过程的基石，更是信息论中衡量信息量、不确定性以及信号特征的关键工具。掌握这些数字特征，将为我们后续学习信息熵、互信息以及随机信号分析打下坚实的基础。

让我们一起探索这些重要的概念吧！🚀

4.1 期望 (Expectation)

期望（Expectation），也称为均值（Mean），是随机变量最重要的数字特征之一。它代表了随机变量所有可能取值按照其概率加权平均的结果，直观上反映了随机变量的“平均”水平或中心位置。

① 离散随机变量的期望 (Expectation of Discrete Random Variables)

对于一个离散随机变量 $X$ ，其可能取值为 $x_{1}, x_{2}, \dots, x_{n}, \dots$ ，对应的概率质量函数（PMF）为 $P (X = x_{i}) = p_{i}$ 。如果级数 $\sum_{i} | x_{i} | p_{i}$ 收敛，则 $X$ 的期望存在，记为 $E [X]$ 或 $μ$ ，定义为： $E [X] = \sum_{i} x_{i} P (X = x_{i}) = \sum_{i} x_{i} p_{i}$ 这个定义可以理解为，如果我们进行大量独立的重复试验，将观察到的 $X$ 的取值记录下来并计算平均值，那么当试验次数趋于无穷时，这个平均值将趋近于 $E [X]$ 。

② 连续随机变量的期望 (Expectation of Continuous Random Variables)

对于一个连续随机变量 $X$ ，其概率密度函数（PDF）为 $f (x)$ 。如果积分 $\int_{- \infty}^{\infty} | x | f (x) d x$ 收敛，则 $X$ 的期望存在，记为 $E [X]$ 或 $μ$ ，定义为： $E [X] = \int_{- \infty}^{\infty} x f (x) d x$ 这里的积分可以看作是离散情况求和的连续推广。

③ 期望的性质 (Properties of Expectation)

期望具有许多重要的性质，这些性质在理论推导和实际应用中非常有用：
⚝ 线性性质 (Linearity)：对于任意常数 $a, b$ 和随机变量 $X, Y$ ，有 $E [a X + b] = a E [X] + b$ $E [X + Y] = E [X] + E [Y]$ 这个性质非常强大，它表明期望运算是线性的，无论 $X$ 和 $Y$ 是否相互独立。
⚝ 常数的期望 (Expectation of a Constant)：对于任意常数 $c$ ，有 $E [c] = c$ 。
⚝ 非负随机变量的期望 (Expectation of a Non-negative Random Variable)：如果 $X \geq 0$ 几乎处处成立（即 $P (X < 0) = 0$ ），则 $E [X] \geq 0$ 。
⚝ 单调性 (Monotonicity)：如果 $X \leq Y$ 几乎处处成立，则 $E [X] \leq E [Y]$ 。
⚝ 独立随机变量乘积的期望 (Expectation of Product of Independent Random Variables)：如果 $X$ 和 $Y$ 是相互独立的随机变量，则 $E [X Y] = E [X] E [Y]$ 。需要注意的是，这个性质不适用于非独立的情况。

④ 随机变量函数的期望 (Expectation of a Function of a Random Variable)

如果 $Y = g (X)$ 是随机变量 $X$ 的一个函数，那么 $Y$ 也是一个随机变量。我们可以直接计算 $Y$ 的期望 $E [Y]$ 。
⚝ 对于离散随机变量 $X$ ，可能取值为 $x_{i}$ ，PMF 为 $p_{i}$ ，则 $Y$ 的期望为： $E [g (X)] = \sum_{i} g (x_{i}) P (X = x_{i}) = \sum_{i} g (x_{i}) p_{i}$ ⚝ 对于连续随机变量 $X$ ，PDF 为 $f (x)$ ，则 $Y$ 的期望为： $E [g (X)] = \int_{- \infty}^{\infty} g (x) f (x) d x$ 这个公式被称为期望的莱布尼茨公式（Leibniz formula for expectation）或简称期望公式。它允许我们直接通过 $X$ 的分布来计算 $g (X)$ 的期望，而无需先求出 $Y = g (X)$ 的分布。

⑤ 例子 (Examples)

▮▮▮▮ⓐ 掷骰子 (Rolling a Die)：设 $X$ 是掷一个均匀六面骰子的点数，则 $X$ 的可能取值为 $1, 2, 3, 4, 5, 6$ ，每个取值的概率都是 $1 / 6$ 。 $E [X] = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = \frac{1 + 2 + 3 + 4 + 5 + 6}{6} = \frac{21}{6} = 3.5$ 掷一次骰子的平均点数是 3.5。
▮▮▮▮ⓑ 指数分布 (Exponential Distribution)：设 $X$ 服从参数为 $λ > 0$ 的指数分布，其 PDF 为 $f (x) = λ e^{- λ x}$ 对于 $x \geq 0$ ， $f (x) = 0$ 对于 $x < 0$ 。 $E [X] = \int_{- \infty}^{\infty} x f (x) d x = \int_{0}^{\infty} x λ e^{- λ x} d x$ 利用分部积分法，令 $u = x, d v = λ e^{- λ x} d x$ ，则 $d u = d x, v = - e^{- λ x}$ 。 $E [X] = [- x e^{- λ x}]_{0}^{\infty} - \int_{0}^{\infty} (- e^{- λ x}) d x = (0 - 0) + \int_{0}^{\infty} e^{- λ x} d x = [- \frac{1}{λ} e^{- λ x}]_{0}^{\infty} = 0 - (- \frac{1}{λ}) = \frac{1}{λ}$ 指数分布的期望是 $1 / λ$ 。这在可靠性分析（如设备寿命）和排队论中非常常见。

期望是描述随机变量集中趋势的中心度量。然而，它并不能完全描述随机变量的特性，例如，两个具有相同期望的随机变量，其取值的离散程度可能完全不同。这就引出了下一个重要的数字特征：方差。

4.2 方差与标准差 (Variance and Standard Deviation)

方差（Variance）是衡量随机变量取值在其期望周围离散程度的一个重要指标。它反映了随机变量与其均值之间的平均平方偏差。方差越大，表示随机变量的取值越分散；方差越小，表示取值越集中在均值附近。

① 方差的定义 (Definition of Variance)

随机变量 $X$ 的方差，记为 $V a r (X)$ 或 $σ^{2}$ ，定义为 $X$ 与其期望 $E [X]$ 之差的平方的期望： $V a r (X) = E [(X - E [X])^{2}]$ 如果 $E [X]$ 存在，且 $E [(X - E [X])^{2}]$ 存在，则方差存在。

② 方差的计算公式 (Formulas for Calculating Variance)

根据期望的性质，方差可以通过以下更方便的公式计算： $V a r (X) = E [X^{2} - 2 X E [X] + (E [X])^{2}]$ 利用期望的线性性质： $V a r (X) = E [X^{2}] - E [2 X E [X]] + E [(E [X])^{2}]$ 由于 $E [X]$ 是一个常数， $E [2 X E [X]] = 2 E [X] E [X] = 2 (E [X])^{2}$ ，且 $E [(E [X])^{2}] = (E [X])^{2}$ 。 $V a r (X) = E [X^{2}] - 2 (E [X])^{2} + (E [X])^{2} = E [X^{2}] - (E [X])^{2}$ 这个公式，即 $V a r (X) = E [X^{2}] - (E [X])^{2}$ ，是计算方差最常用的公式。它表明方差等于随机变量平方的期望减去期望的平方。

⚝ 对于离散随机变量 $X$ ，可能取值为 $x_{i}$ ，PMF 为 $p_{i}$ ，期望为 $μ = E [X]$ ： $V a r (X) = \sum_{i} (x_{i} - μ)^{2} p_{i} = \sum_{i} x_{i}^{2} p_{i} - μ^{2} = E [X^{2}] - (E [X])^{2}$ ⚝ 对于连续随机变量 $X$ ，PDF 为 $f (x)$ ，期望为 $μ = E [X]$ ： $V a r (X) = \int_{- \infty}^{\infty} (x - μ)^{2} f (x) d x = \int_{- \infty}^{\infty} x^{2} f (x) d x - μ^{2} = E [X^{2}] - (E [X])^{2}$ ③ 方差的性质 (Properties of Variance)

⚝ 非负性 (Non-negativity)： $V a r (X) \geq 0$ 。方差为零当且仅当 $X$ 是一个常数（即 $P (X = c) = 1$ 对于某个常数 $c$ ）。
⚝ 常数的方差 (Variance of a Constant)：对于任意常数 $c$ ， $V a r (c) = 0$ 。
⚝ 线性变换的方差 (Variance of a Linear Transformation)：对于任意常数 $a, b$ 和随机变量 $X$ ，有 $V a r (a X + b) = a^{2} V a r (X)$ 注意，加一个常数 $b$ 不改变方差，因为加常数只平移了分布，不改变其离散程度。乘以一个常数 $a$ 会使离散程度扩大 $| a |$ 倍，方差扩大 $a^{2}$ 倍。
⚝ 独立随机变量和的方差 (Variance of Sum of Independent Random Variables)：如果 $X$ 和 $Y$ 是相互独立的随机变量，则 $V a r (X + Y) = V a r (X) + V a r (Y)$ 这个性质不适用于非独立的情况。对于非独立随机变量，需要考虑协方差（Covariance），我们将在后面讨论。

④ 标准差 (Standard Deviation)

标准差（Standard Deviation），记为 $S t d (X)$ 或 $σ$ ，定义为方差的非负平方根： $S t d (X) = \sqrt{V a r (X)} = σ$ 标准差与随机变量本身具有相同的量纲（单位），这使得它在解释离散程度时比方差更直观。例如，如果随机变量的单位是米，那么期望的单位是米，标准差的单位也是米，而方差的单位是平方米。标准差提供了一个“典型”的偏差大小。

⑤ 例子 (Examples)

▮▮▮▮ⓐ 掷骰子 (Rolling a Die)：继续掷骰子的例子。我们已经知道 $E [X] = 3.5$ 。现在计算 $E [X^{2}]$ ： $E [X^{2}] = 1^{2} \cdot \frac{1}{6} + 2^{2} \cdot \frac{1}{6} + 3^{2} \cdot \frac{1}{6} + 4^{2} \cdot \frac{1}{6} + 5^{2} \cdot \frac{1}{6} + 6^{2} \cdot \frac{1}{6} = \frac{1 + 4 + 9 + 16 + 25 + 36}{6} = \frac{91}{6}$ 方差为： $V a r (X) = E [X^{2}] - (E [X])^{2} = \frac{91}{6} - (3.5)^{2} = \frac{91}{6} - (\frac{7}{2})^{2} = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12}$ 标准差为： $S t d (X) = \sqrt{\frac{35}{12}} \approx \sqrt{2.9167} \approx 1.708$ 这告诉我们，掷骰子的点数平均在 3.5 附近波动，典型的波动幅度约为 1.7。
▮▮▮▮ⓑ 指数分布 (Exponential Distribution)：继续指数分布的例子。我们已经知道 $E [X] = 1 / λ$ 。现在计算 $E [X^{2}]$ ： $E [X^{2}] = \int_{0}^{\infty} x^{2} λ e^{- λ x} d x$ 利用分部积分法两次，可以得到 $E [X^{2}] = 2 / λ^{2}$ 。
方差为： $V a r (X) = E [X^{2}] - (E [X])^{2} = \frac{2}{λ^{2}} - (\frac{1}{λ})^{2} = \frac{2}{λ^{2}} - \frac{1}{λ^{2}} = \frac{1}{λ^{2}}$ 标准差为： $S t d (X) = \sqrt{\frac{1}{λ^{2}}} = \frac{1}{λ}$ 有趣的是，指数分布的期望和标准差相等。

期望和方差（或标准差）是描述随机变量分布最常用的两个数字特征。期望描述了分布的中心位置，而方差描述了分布的展宽程度。

4.3 矩与中心矩 (Moments and Central Moments)

矩（Moments）是更一般化的数字特征，期望和方差都可以看作是矩的特例。通过考察随机变量的更高阶矩，我们可以获得关于其分布形状的更多信息，例如偏度（Skewness）和峰度（Kurtosis）。

① 原点矩 (Moments about the Origin)

随机变量 $X$ 的 $k$ 阶原点矩（ $k$ -th moment about the origin），记为 $E [X^{k}]$ ，定义为 $X^{k}$ 的期望： $E [X^{k}]$ 如果 $E [| X |^{k}]$ 存在，则 $k$ 阶原点矩存在。
⚝ $k = 1$ 时，1 阶原点矩 $E [X^{1}] = E [X]$ ，即期望。
⚝ $k = 2$ 时，2 阶原点矩 $E [X^{2}]$ ，用于计算方差 $V a r (X) = E [X^{2}] - (E [X])^{2}$ 。

② 中心矩 (Central Moments)

随机变量 $X$ 的 $k$ 阶中心矩（ $k$ -th central moment），记为 $E [(X - E [X])^{k}]$ ，定义为 $X$ 与其期望之差的 $k$ 次方的期望： $E [(X - E [X])^{k}]$ 如果 $E [| X - E [X] |^{k}]$ 存在，则 $k$ 阶中心矩存在。
⚝ $k = 1$ 时，1 阶中心矩 $E [X - E [X]] = E [X] - E [E [X]] = E [X] - E [X] = 0$ 。1 阶中心矩总是 0。
⚝ $k = 2$ 时，2 阶中心矩 $E [(X - E [X])^{2}]$ ，即方差 $V a r (X)$ 。
⚝ $k = 3$ 时，3 阶中心矩 $E [(X - E [X])^{3}]$ 用于衡量分布的偏度（Skewness）。
⚝ $k = 4$ 时，4 阶中心矩 $E [(X - E [X])^{4}]$ 用于衡量分布的峰度（Kurtosis）。

③ 偏度 (Skewness)

偏度是衡量概率分布不对称性的指标。
⚝ 定义：偏度通常定义为 3 阶中心矩除以标准差的立方： $S k e w n e s s (X) = \frac{E [(X - E [X])^{3}]}{(S t d (X))^{3}}$ ⚝ 解释：
▮▮▮▮ⓐ 如果偏度大于 0，分布有一个长尾拖向右侧（正偏）。
▮▮▮▮ⓑ 如果偏度小于 0，分布有一个长尾拖向左侧（负偏）。
▮▮▮▮ⓒ 如果偏度等于 0，分布是完全对称的（例如正态分布）。

④ 峰度 (Kurtosis)

峰度是衡量概率分布尾部厚度（或“尖峭”程度）的指标。
⚝ 定义：峰度通常定义为 4 阶中心矩除以方差的平方： $K u r t o s i s (X) = \frac{E [(X - E [X])^{4}]}{(V a r (X))^{2}}$ 有时也使用超额峰度（Excess Kurtosis），定义为 $K u r t o s i s (X) - 3$ 。这是因为正态分布的峰度恰好是 3。
⚝ 解释：
▮▮▮▮ⓐ 如果超额峰度大于 0，分布的尾部比正态分布更厚（峰值更尖）。
▮▮▮▮ⓑ 如果超额峰度小于 0，分布的尾部比正态分布更薄（峰值更平）。
▮▮▮▮ⓒ 如果超额峰度等于 0，分布的峰度与正态分布相同。

⑤ 矩与中心矩的关系 (Relationship between Moments and Central Moments)

中心矩可以通过原点矩来表示。例如：
⚝ 2 阶中心矩（方差）： $E [(X - μ)^{2}] = E [X^{2}] - μ^{2} = E [X^{2}] - (E [X])^{2}$ ⚝ 3 阶中心矩： $E [(X - μ)^{3}] = E [X^{3} - 3 X^{2} μ + 3 X μ^{2} - μ^{3}] = E [X^{3}] - 3 μ E [X^{2}] + 3 μ^{2} E [X] - μ^{3} = E [X^{3}] - 3 E [X] E [X^{2}] + 3 (E [X])^{2} E [X] - (E [X])^{3} = E [X^{3}] - 3 E [X] E [X^{2}] + 2 (E [X])^{3}$ 更高阶的中心矩也可以类似地用原点矩表示。

矩和中心矩提供了描述随机变量分布形状的丰富信息。在信息论中，特别是在信号处理和通信领域，高阶矩有时用于分析信号的非高斯性或特定的统计特性。

4.4 分位数与中位数 (Quantiles and Median)

除了基于期望和方差的数字特征外，分位数（Quantiles）和中位数（Median）提供了另一种描述随机变量分布位置和分散程度的方式，它们对异常值（Outliers）不那么敏感，因此在某些情况下比均值和标准差更具鲁棒性（Robustness）。

① 分位数 (Quantiles)

对于一个随机变量 $X$ 及其累积分布函数（CDF） $F (x)$ ，其 $p$ 分位数（ $p$ -th quantile），记为 $x_{p}$ ，是满足 $P (X \leq x_{p}) \geq p$ 且 $P (X \geq x_{p}) \geq 1 - p$ 的最小数值。或者更精确地说， $x_{p}$ 是满足 $F (x_{p}^{-}) \leq p \leq F (x_{p})$ 的任何数值，其中 $F (x^{-}) = lim_{y \to x^{-}} F (y)$ 。
直观上， $p$ 分位数是将概率分布分成两部分的一个点，使得大约有 $p$ 的概率落在该点或其左侧，大约有 $1 - p$ 的概率落在该点或其右侧。

⚝ 常见的分位数：
▮▮▮▮ⓐ 四分位数 (Quartiles)：将分布分成四等份的三个点。
▮▮▮▮▮▮▮▮❷ 第一四分位数（First Quartile, Q1）：即 0.25 分位数， $x_{0.25}$ 。
▮▮▮▮▮▮▮▮❸ 第二四分位数（Second Quartile, Q2）：即 0.50 分位数， $x_{0.50}$ ，这就是中位数。
▮▮▮▮▮▮▮▮❹ 第三四分位数（Third Quartile, Q3）：即 0.75 分位数， $x_{0.75}$ 。
▮▮▮▮ⓔ 百分位数 (Percentiles)：将分布分成一百等份的九十九个点。 $p$ 分位数也称为第 $100 p$ 百分位数。

② 中位数 (Median)

中位数（Median）是随机变量的 0.5 分位数（或 50 百分位数）。它是一个数值 $m$ ，使得 $P (X \leq m) \geq 0.5$ 且 $P (X \geq m) \geq 0.5$ 。
对于连续随机变量，中位数 $m$ 是满足 $F (m) = 0.5$ 的解。
对于离散随机变量，中位数可能不是唯一的，通常取满足条件的某个值。

⚝ 中位数的特点：
▮▮▮▮ⓐ 中位数是分布的中心位置的另一个度量，与期望不同，它不受极端值的影响。例如，在一组收入数据中，少数高收入人群会显著提高平均收入（期望），但对中位数影响较小。
▮▮▮▮ⓑ 对于对称分布（如正态分布），期望、中位数和众数（Mode，概率密度或概率质量最大的点）是相等的。对于偏态分布，它们通常是不同的。

③ 分位数的应用 (Applications of Quantiles)

⚝ 描述分散程度 (Describing Dispersion)：四分位数间距（Interquartile Range, IQR）定义为 $I Q R = Q 3 - Q 1 = x_{0.75} - x_{0.25}$ 。IQR 包含了分布中间 50% 的数据，是衡量分散程度的一个鲁棒性指标。
⚝ 异常值检测 (Outlier Detection)：基于四分位数的方法常用于识别异常值，例如，小于 $Q 1 - 1.5 \cdot I Q R$ 或大于 $Q 3 + 1.5 \cdot I Q R$ 的数据点可能被视为异常值。
⚝ 风险管理 (Risk Management)：在金融领域，分位数被用于计算风险价值（Value at Risk, VaR），即在一定置信水平下，投资组合可能遭受的最大损失。VaR 本质上是收益分布的某个低分位数。

分位数和中位数提供了对随机变量分布的另一种视角，特别是在处理非对称分布或存在异常值的数据时，它们是非常有用的补充工具。

至此，我们已经学习了描述随机变量核心特性的几个重要数字特征：期望、方差、标准差、矩、中心矩、分位数和中位数。这些工具帮助我们从不同的角度理解随机变量的“平均”行为、离散程度以及分布的形状。在后续章节中，我们将看到这些概念如何在信息论中发挥关键作用，例如在定义信息熵、互信息以及分析随机信号的统计特性时。

希望本章的讲解清晰明了，为您打下了坚实的数字特征基础。下一章我们将进入多维随机变量的世界！🌍

<END_OF_CHAPTER/>

好的，同学们，欢迎来到我们信息论基础课程的第五章。在前面的章节中，我们已经深入学习了单个随机变量的概率分布和数字特征。然而，在现实世界和信息系统中，我们很少只面对一个孤立的随机量。更多时候，我们需要同时考虑多个随机量，它们之间可能相互关联，也可能相互独立。例如，在通信系统中，发送的信号和接收到的信号是两个随机变量；在机器学习中，特征向量通常包含多个随机变量；在金融领域，不同资产的价格是相互关联的随机变量。

理解多个随机变量的联合行为及其相互关系，是构建更复杂概率模型的基础，也是深入理解信息论中信源、信道以及信息度量（如互信息）的关键。因此，本章我们将把视野从单个随机变量扩展到多维随机变量，学习如何描述它们的联合特性、边缘特性、条件特性以及它们之间的关联性。

5. chapter 5：多维随机变量 (Multiple Random Variables)

5.1 联合分布函数与边缘分布函数 (Joint Distribution Function and Marginal Distribution Function)

当我们考虑两个或多个随机变量时，我们需要一种方法来描述它们同时取值的概率行为。这就是**联合分布（Joint Distribution）**的概念。

考虑两个随机变量 $X$ 和 $Y$ 。它们的**联合累积分布函数（Joint Cumulative Distribution Function, Joint CDF）**定义为： $F (x, y) = P (X \leq x, Y \leq y) 对于任意实数 x, y$ 这个函数给出了随机变量 $X$ 的取值不大于 $x$ 且随机变量 $Y$ 的取值不大于 $y$ 的概率。

对于 $n$ 个随机变量 $X_{1}, X_{2}, \dots, X_{n}$ ，它们的联合累积分布函数定义为： $F (x_{1}, x_{2}, \dots, x_{n}) = P (X_{1} \leq x_{1}, X_{2} \leq x_{2}, \dots, X_{n} \leq x_{n})$ 联合累积分布函数 $F (x, y)$ 具有以下基本性质：
① 单调不减性：对于任意 $x_{1} \leq x_{2}$ 和 $y_{1} \leq y_{2}$ ，有 $F (x_{1}, y_{1}) \leq F (x_{2}, y_{2})$ 。
② 有界性：
▮▮▮▮ⓒ $0 \leq F (x, y) \leq 1$ ▮▮▮▮ⓓ $lim_{x \to \infty, y \to \infty} F (x, y) = F (\infty, \infty) = 1$ ▮▮▮▮ⓔ $lim_{x \to - \infty 或 y \to - \infty} F (x, y) = 0$ ⑥ 右连续性： $F (x, y)$ 关于每个变量都是右连续的，即 $lim_{h \to 0^{+}} F (x + h, y) = F (x, y)$ 和 $lim_{k \to 0^{+}} F (x, y + k) = F (x, y)$ 。
⑦ 非负性：对于任意 $x_{1} \leq x_{2}$ 和 $y_{1} \leq y_{2}$ ，有 $P (x_{1} < X \leq x_{2}, y_{1} < Y \leq y_{2}) = F (x_{2}, y_{2}) - F (x_{1}, y_{2}) - F (x_{2}, y_{1}) + F (x_{1}, y_{1}) \geq 0$ 。

从联合分布函数，我们可以得到单个随机变量的分布函数，这被称为边缘分布函数（Marginal Distribution Function）。对于两个随机变量 $X$ 和 $Y$ ， $X$ 的边缘分布函数 $F_{X} (x)$ 定义为： $F_{X} (x) = P (X \leq x) = P (X \leq x, Y < \infty) = lim_{y \to \infty} F (x, y)$ 类似地， $Y$ 的边缘分布函数 $F_{Y} (y)$ 定义为： $F_{Y} (y) = P (Y \leq y) = P (X < \infty, Y \leq y) = lim_{x \to \infty} F (x, y)$ 边缘分布函数描述了多维随机变量中某个特定随机变量的单独概率行为，忽略了其他随机变量的影响。

5.2 联合概率质量函数与联合概率密度函数 (Joint Probability Mass Function and Joint Probability Density Function)

根据随机变量的类型，联合分布可以由联合概率质量函数或联合概率密度函数来描述。

① 离散随机变量（Discrete Random Variables）：
对于两个离散随机变量 $X$ 和 $Y$ ，它们的**联合概率质量函数（Joint Probability Mass Function, Joint PMF）**定义为： $P (x_{i}, y_{j}) = P (X = x_{i}, Y = y_{j})$ 其中 $(x_{i}, y_{j})$ 是 $(X, Y)$ 可能取到的所有值对。

联合 PMF 具有以下性质：
⚝ $P (x_{i}, y_{j}) \geq 0$ 对于所有 $i, j$ 。
⚝ $\sum_{i} \sum_{j} P (x_{i}, y_{j}) = 1$ 。

从联合 PMF，我们可以得到边缘 PMF： $P_{X} (x_{i}) = P (X = x_{i}) = \sum_{j} P (x_{i}, y_{j})$ $P_{Y} (y_{j}) = P (Y = y_{j}) = \sum_{i} P (x_{i}, y_{j})$ 边缘 PMF 描述了单个离散随机变量的概率分布。

例子 🎲：同时掷两个公平的六面骰子，设 $X$ 为第一个骰子的点数， $Y$ 为第二个骰子的点数。
样本空间 $Ω = {(i, j) : i, j \in {1, 2, 3, 4, 5, 6}}$ ，共有 36 种等可能结果。
联合 PMF 为 $P (i, j) = P (X = i, Y = j) = \frac{1}{36}$ 对于所有 $i, j \in {1, \dots, 6}$ 。
边缘 PMF 为 $P_{X} (i) = \sum_{j = 1}^{6} P (i, j) = \sum_{j = 1}^{6} \frac{1}{36} = 6 \times \frac{1}{36} = \frac{1}{6}$ 对于 $i \in {1, \dots, 6}$ 。这与单个骰子的概率分布一致。

② 连续随机变量（Continuous Random Variables）：
对于两个连续随机变量 $X$ 和 $Y$ ，如果存在一个非负的可积函数 $f (x, y)$ ，使得对于任意区域 $A \subseteq R^{2}$ ，有 $P ((X, Y) \in A) = \iint_{A} f (x, y) d x d y$ 则称 $f (x, y)$ 为 $X$ 和 $Y$ 的联合概率密度函数（Joint Probability Density Function, Joint PDF）。

联合 PDF 具有以下性质：
⚝ $f (x, y) \geq 0$ 对于所有 $x, y$ 。
⚝ $\iint_{- \infty}^{\infty} f (x, y) d x d y = 1$ 。

联合 CDF 可以通过联合 PDF 积分得到： $F (x, y) = \int_{- \infty}^{x} \int_{- \infty}^{y} f (u, v) d v d u$ 如果联合 CDF $F (x, y)$ 是可微的，那么联合 PDF 可以通过求偏导得到： $f (x, y) = \frac{\partial^{2} F (x, y)}{\partial x \partial y}$ 从联合 PDF，我们可以得到边缘 PDF： $f_{X} (x) = \int_{- \infty}^{\infty} f (x, y) d y$ $f_{Y} (y) = \int_{- \infty}^{\infty} f (x, y) d x$ 边缘 PDF 描述了单个连续随机变量的概率分布。

例子 🎯：假设 $(X, Y)$ 在单位正方形 $[0, 1] \times [0, 1]$ 上服从均匀分布。
联合 PDF 为：

        1.双击鼠标左键复制此行；2.单击复制所有代码。
    
        f(x, y) = 1,  if 0 <= x <= 1 and 0 <= y <= 1
f(x, y) = 0,  otherwise

我们可以验证 $\int_{0}^{1} \int_{0}^{1} 1 d x d y = 1$ 。
边缘 PDF 为：
对于 $0 \leq x \leq 1$ ， $f_{X} (x) = \int_{- \infty}^{\infty} f (x, y) d y = \int_{0}^{1} 1 d y = [y]_{0}^{1} = 1$ 。
对于 $x < 0$ 或 $x > 1$ ， $f_{X} (x) = \int_{- \infty}^{\infty} 0 d y = 0$ 。
所以 $f_{X} (x)$ 是在 $[0, 1]$ 上的均匀分布的 PDF。类似地， $f_{Y} (y)$ 也是在 $[0, 1]$ 上的均匀分布的 PDF。

5.3 条件分布 (Conditional Distributions)

在信息论中，我们经常需要知道在已知某个随机变量取特定值的情况下，另一个随机变量的概率分布。这就是**条件分布（Conditional Distribution）**的概念。

① 离散随机变量：
对于两个离散随机变量 $X$ 和 $Y$ ，在已知 $X = x_{i}$ 的条件下， $Y$ 的**条件概率质量函数（Conditional Probability Mass Function, Conditional PMF）**定义为： $P (y_{j} | x_{i}) = P (Y = y_{j} | X = x_{i}) = \frac{P (X = x_{i}, Y = y_{j})}{P (X = x_{i})} = \frac{P (x_{i}, y_{j})}{P_{X} (x_{i})}$ 前提是 $P_{X} (x_{i}) > 0$ 。
类似地，在已知 $Y = y_{j}$ 的条件下， $X$ 的条件 PMF 定义为： $P (x_{i} | y_{j}) = P (X = x_{i} | Y = y_{j}) = \frac{P (x_{i}, y_{j})}{P_{Y} (y_{j})}$ 前提是 $P_{Y} (y_{j}) > 0$ 。

条件 PMF $P (y_{j} | x_{i})$ 对于固定的 $x_{i}$ 来说，是关于 $y_{j}$ 的一个有效的概率分布，即 $\sum_{j} P (y_{j} | x_{i}) = 1$ 。

② 连续随机变量：
对于两个连续随机变量 $X$ 和 $Y$ ，在已知 $X = x$ 的条件下， $Y$ 的**条件概率密度函数（Conditional Probability Density Function, Conditional PDF）**定义为： $f (y | x) = \frac{f (x, y)}{f_{X} (x)}$ 前提是 $f_{X} (x) > 0$ 。
类似地，在已知 $Y = y$ 的条件下， $X$ 的条件 PDF 定义为： $f (x | y) = \frac{f (x, y)}{f_{Y} (y)}$ 前提是 $f_{Y} (y) > 0$ 。

条件 PDF $f (y | x)$ 对于固定的 $x$ 来说，是关于 $y$ 的一个有效的概率密度函数，即 $\int_{- \infty}^{\infty} f (y | x) d y = 1$ 。

条件分布是理解随机变量之间依赖关系的核心。在信息论中，信道模型通常用输入随机变量的条件分布来描述输出随机变量的分布。

基于条件分布，我们可以定义条件期望（Conditional Expectation）。
对于离散随机变量，在已知 $X = x_{i}$ 的条件下， $Y$ 的条件期望为： $E [Y | X = x_{i}] = \sum_{j} y_{j} P (y_{j} | x_{i})$ 对于连续随机变量，在已知 $X = x$ 的条件下， $Y$ 的条件期望为： $E [Y | X = x] = \int_{- \infty}^{\infty} y f (y | x) d y$ 条件期望本身是一个关于 $X$ 的函数，记为 $E [Y | X]$ 。条件期望具有重要的性质，例如全期望定律（Law of Total Expectation）： $E [Y] = E [E [Y | X]]$ 。

5.4 随机变量的独立性 (Independence of Random Variables)

随机变量的独立性是一个非常重要的概念，它表示一个随机变量的取值不会影响另一个随机变量的概率分布。

两个随机变量 $X$ 和 $Y$ 是**独立（Independent）**的，当且仅当对于任意实数 $x$ 和 $y$ ，它们的联合累积分布函数等于其边缘累积分布函数的乘积： $F (x, y) = F_{X} (x) F_{Y} (y)$ 对于离散随机变量，独立性等价于对于所有可能的取值 $x_{i}, y_{j}$ ，联合 PMF 等于边缘 PMF 的乘积： $P (x_{i}, y_{j}) = P_{X} (x_{i}) P_{Y} (y_{j})$ 对于连续随机变量，如果联合 PDF 存在，独立性等价于对于所有 $x, y$ ，联合 PDF 等于边缘 PDF 的乘积： $f (x, y) = f_{X} (x) f_{Y} (y)$ 独立性的一个重要推论是，如果 $X$ 和 $Y$ 独立，那么在已知 $X = x$ 的条件下， $Y$ 的条件分布就等于 $Y$ 的边缘分布：
对于离散情况： $P (y_{j} | x_{i}) = \frac{P (x_{i}, y_{j})}{P_{X} (x_{i})} = \frac{P_{X} (x_{i}) P_{Y} (y_{j})}{P_{X} (x_{i})} = P_{Y} (y_{j})$ (当 $P_{X} (x_{i}) > 0$ )。
对于连续情况： $f (y | x) = \frac{f (x, y)}{f_{X} (x)} = \frac{f_{X} (x) f_{Y} (y)}{f_{X} (x)} = f_{Y} (y)$ (当 $f_{X} (x) > 0$ )。
这意味着知道 $X$ 的值并不会改变我们对 $Y$ 的概率预测。

推广到 $n$ 个随机变量 $X_{1}, X_{2}, \dots, X_{n}$ ，它们是相互独立（Mutually Independent）的，当且仅当它们的联合 CDF 等于它们各自边缘 CDF 的乘积： $F (x_{1}, x_{2}, \dots, x_{n}) = F_{X_{1}} (x_{1}) F_{X_{2}} (x_{2}) \dots F_{X_{n}} (x_{n})$ 如果它们是离散的，则 $P (x_{1}, \dots, x_{n}) = P_{X_{1}} (x_{1}) \dots P_{X_{n}} (x_{n})$ 。
如果它们是连续的且联合 PDF 存在，则 $f (x_{1}, \dots, x_{n}) = f_{X_{1}} (x_{1}) \dots f_{X_{n}} (x_{n})$ 。

独立随机变量在概率论和信息论中非常常见，例如独立同分布（Independent and Identically Distributed, I.I.D.）的随机变量序列，这是许多重要定理（如大数定律和中心极限定理）的基础，也是许多信息源模型（如无记忆信源）的数学描述。

5.5 协方差与相关系数 (Covariance and Correlation Coefficient)

虽然独立性描述了随机变量之间完全没有概率关联的情况，但在许多实际问题中，随机变量之间存在某种程度的依赖关系。协方差（Covariance）和相关系数（Correlation Coefficient）是衡量两个随机变量之间线性关系强度和方向的常用指标。

对于两个随机变量 $X$ 和 $Y$ ，它们的协方差定义为： $Cov (X, Y) = E [(X - E [X]) (Y - E [Y])]$ 前提是 $E [X]$ , $E [Y]$ 和 $E [X Y]$ 都存在。
协方差的计算公式可以展开为： $Cov (X, Y) = E [X Y - X E [Y] - Y E [X] + E [X] E [Y]] = E [X Y] - E [X] E [Y] - E [Y] E [X] + E [X] E [Y] = E [X Y] - E [X] E [Y]$ 这个公式在计算中非常有用。

协方差的性质：
⚝ $Cov (X, Y) = Cov (Y, X)$ ⚝ $Cov (X, X) = E [X^{2}] - (E [X])^{2} = Var (X)$ ⚝ $Cov (a X + b, c Y + d) = a c Cov (X, Y)$ 对于常数 $a, b, c, d$ 。
⚝ 如果 $X$ 和 $Y$ 独立，则 $E [X Y] = E [X] E [Y]$ ，从而 $Cov (X, Y) = 0$ 。

协方差的符号表示了线性关系的方向：
⚝ 如果 $Cov (X, Y) > 0$ ，倾向于当 $X$ 增大时 $Y$ 也增大（正相关）。
⚝ 如果 $Cov (X, Y) < 0$ ，倾向于当 $X$ 增大时 $Y$ 减小（负相关）。
⚝ 如果 $Cov (X, Y) = 0$ ，称 $X$ 和 $Y$ 不相关（Uncorrelated）。

然而，协方差的数值大小受到随机变量自身尺度的影响，不便于直接比较不同变量对之间的线性关联强度。为了克服这一缺点，我们引入相关系数（Correlation Coefficient），也称为皮尔逊相关系数（Pearson Correlation Coefficient）。 $X$ 和 $Y$ 的相关系数定义为： $ρ_{X Y} = \frac{Cov (X, Y)}{\sqrt{Var (X)} \sqrt{Var (Y)}} = \frac{Cov (X, Y)}{σ_{X} σ_{Y}}$ 前提是 $σ_{X} > 0$ 且 $σ_{Y} > 0$ 。

相关系数具有以下重要性质：
⚝ $- 1 \leq ρ_{X Y} \leq 1$ 。
⚝ $| ρ_{X Y} | = 1$ 当且仅当 $X$ 和 $Y$ 之间存在严格的线性关系，即 $Y = a X + b$ 对于某个常数 $a \neq 0$ 和 $b$ 。如果 $a > 0$ ，则 $ρ_{X Y} = 1$ ；如果 $a < 0$ ，则 $ρ_{X Y} = - 1$ 。
⚝ $ρ_{X Y} = 0$ 当且仅当 $X$ 和 $Y$ 不相关。

相关系数的数值大小表示了线性关系的强度：
⚝ $| ρ_{X Y} |$ 越接近 1，线性关系越强。
⚝ $| ρ_{X Y} |$ 越接近 0，线性关系越弱。

重要提示 💡：
① 独立性蕴含不相关性（ $Cov (X, Y) = 0$ 或 $ρ_{X Y} = 0$ 。证明：如果 $X, Y$ 独立，则 $E [X Y] = E [X] E [Y]$ ，所以 $Cov (X, Y) = E [X Y] - E [X] E [Y] = 0$ 。）。
② 不相关性不一定蕴含独立性。存在不相关的随机变量，它们之间存在非线性的依赖关系。例如，设 $X$ 在 ${- 1, 0, 1}$ 上等概率取值， $Y = X^{2}$ 。则 $Y$ 的取值为 ${0, 1}$ 。 $E [X] = (- 1) \cdot \frac{1}{3} + 0 \cdot \frac{1}{3} + 1 \cdot \frac{1}{3} = 0$ 。 $E [Y] = E [X^{2}] = (- 1)^{2} \cdot \frac{1}{3} + 0^{2} \cdot \frac{1}{3} + 1^{2} \cdot \frac{1}{3} = \frac{1}{3} + 0 + \frac{1}{3} = \frac{2}{3}$ 。 $E [X Y] = E [X \cdot X^{2}] = E [X^{3}] = (- 1)^{3} \cdot \frac{1}{3} + 0^{3} \cdot \frac{1}{3} + 1^{3} \cdot \frac{1}{3} = - \frac{1}{3} + 0 + \frac{1}{3} = 0$ 。 $Cov (X, Y) = E [X Y] - E [X] E [Y] = 0 - 0 \cdot \frac{2}{3} = 0$ 。
所以 $X$ 和 $Y$ 不相关。但 $X$ 和 $Y$ 显然不独立，因为知道 $X$ 的值可以完全确定 $Y$ 的值（例如，如果 $X = 0$ ，则 $Y = 0$ ，而 $P (Y = 0) = P (X = 0) = 1 / 3 \neq 1$ ，所以 $P (Y = 0 | X = 0) = 1 \neq P (Y = 0)$ 。）。
③ 对于**联合正态分布（Jointly Normal Distribution）**的随机变量，独立性与不相关性是等价的。这是正态分布的一个特殊且重要的性质。

协方差和相关系数是描述多维随机变量之间线性关联的重要工具，在信号处理、统计推断和机器学习等领域有广泛应用。在信息论中，它们虽然不是直接的信息度量，但与互信息等概念紧密相关，尤其是在处理高斯信道等模型时。

本章我们学习了如何描述和分析多个随机变量的联合行为。从联合分布函数出发，我们了解了边缘分布和条件分布的概念，区分了离散和连续情况下的联合 PMF/PDF。独立性作为一种特殊的无关联状态被详细讨论，而协方差和相关系数则提供了衡量线性关联的工具。这些概念是理解更复杂概率模型和信息论核心概念（如熵、互信息、信道容量）的基础。在后续章节中，我们将看到这些工具如何在信息论中发挥作用。🚀

<END_OF_CHAPTER/>

6. chapter 6：随机变量的函数及其分布 (Functions of Random Variables and Their Distributions)

亲爱的同学们，欢迎来到本书的第六章。在前面的章节中，我们深入探讨了单个随机变量以及多个随机变量的定义、分布及其数字特征。然而，在实际应用中，我们常常遇到的情况是，我们关心的量并非直接的随机变量本身，而是这些随机变量的某个函数。例如，如果我们知道一个电子元件的寿命是一个随机变量 $X$ ，那么在某个时间点 $t$ 之前失效的概率，或者在一段时间 $[t_{1}, t_{2}]$ 内失效的概率，都与 $X$ 的分布有关。再比如，如果我们知道两个独立电阻的阻值分别是随机变量 $R_{1}$ 和 $R_{2}$ ，那么它们串联或并联后的总阻值 $R_{t o t a l}$ 就是 $R_{1}$ 和 $R_{2}$ 的函数，我们可能需要知道 $R_{t o t a l}$ 的分布。

本章的核心任务就是学习如何确定一个或多个随机变量的函数的分布，以及如何计算这些函数的期望和方差等数字特征。这不仅是概率论理论的重要组成部分，也是将概率论应用于信息论、统计学、工程学等领域不可或缺的工具。我们将从单个随机变量的函数开始，逐步扩展到多个随机变量的函数，并重点讨论期望的线性性质和乘积性质，这些性质在处理复杂随机问题时具有极其重要的作用。

6.1 单个随机变量的函数 (Functions of a Single Random Variable)

假设 $X$ 是一个随机变量，其分布已知（离散型有概率质量函数 $P_{X} (x)$ ，连续型有概率密度函数 $f_{X} (x)$ 或累积分布函数 $F_{X} (x)$ ）。现在考虑一个新的随机变量 $Y$ ，它是 $X$ 的一个函数，记作 $Y = g (X)$ ，其中 $g$ 是一个确定的函数。由于 $X$ 的取值是随机的， $Y$ 的取值也自然是随机的，因此 $Y$ 也是一个随机变量。我们的目标是根据 $X$ 的分布和函数 $g$ ，求出 $Y$ 的分布。

确定 $Y$ 的分布通常有两种基本方法：一是直接法，通过分析 $g (X)$ 的取值与 $X$ 取值的关系来确定 $Y$ 的概率；二是分布函数法，先求出 $Y$ 的累积分布函数 $F_{Y} (y)$ ，然后根据 $F_{Y} (y)$ 确定 $Y$ 的概率质量函数或概率密度函数。

① 离散随机变量的函数

如果 $X$ 是一个离散随机变量，其取值集合为 ${x_{1}, x_{2}, \dots}$ ，对应的概率质量函数为 $P_{X} (x_{i}) = P (X = x_{i})$ 。那么 $Y = g (X)$ 也是一个离散随机变量，其取值集合为 ${y_{j} = g (x_{i}) ∣ x_{i} is a possible value of X}$ 。注意，不同的 $x_{i}$ 可能映射到同一个 $y_{j}$ 。

要找到 $Y$ 的概率质量函数 $P_{Y} (y)$ ，我们需要找出所有使得 $g (x_{i}) = y$ 的 $x_{i}$ ，然后将这些 $x_{i}$ 对应的概率相加。 $P_{Y} (y) = P (Y = y) = P (g (X) = y) = \sum_{x_{i} : g (x_{i}) = y} P (X = x_{i})$ 例 6.1.1 假设 $X$ 是一个离散随机变量，其概率质量函数如下： $P (X = - 1) = 0.2$ , $P (X = 0) = 0.3$ , $P (X = 1) = 0.5$ 。
考虑随机变量 $Y = X^{2}$ 。求 $Y$ 的概率质量函数。

解： $Y$ 的可能取值是 $g (X) = X^{2}$ 的可能取值。
当 $X = - 1$ 时， $Y = (- 1)^{2} = 1$ 。
当 $X = 0$ 时， $Y = 0^{2} = 0$ 。
当 $X = 1$ 时， $Y = 1^{2} = 1$ 。
所以 $Y$ 的可能取值集合是 ${0, 1}$ 。

现在计算 $Y$ 取这些值的概率： $P (Y = 0) = P (X^{2} = 0) = P (X = 0) = 0.3$ 。 $P (Y = 1) = P (X^{2} = 1) = P (X = - 1 or X = 1) = P (X = - 1) + P (X = 1) = 0.2 + 0.5 = 0.7$ 。
因此， $Y$ 的概率质量函数为： $P_{Y} (0) = 0.3$ , $P_{Y} (1) = 0.7$ 。
我们可以验证概率之和为 $0.3 + 0.7 = 1$ 。

② 连续随机变量的函数

如果 $X$ 是一个连续随机变量，其概率密度函数为 $f_{X} (x)$ ，累积分布函数为 $F_{X} (x)$ 。要找到 $Y = g (X)$ 的分布，通常使用分布函数法。首先求 $Y$ 的累积分布函数 $F_{Y} (y)$ ： $F_{Y} (y) = P (Y \leq y) = P (g (X) \leq y)$ 然后，我们需要解不等式 $g (x) \leq y$ 得到 $x$ 的取值范围。假设解得 $x$ 的取值范围为集合 $A_{y} = {x ∣ g (x) \leq y}$ 。那么： $F_{Y} (y) = P (X \in A_{y}) = \int_{A_{y}} f_{X} (x) d x$ 求出 $F_{Y} (y)$ 后，通过对 $y$ 求导即可得到 $Y$ 的概率密度函数 $f_{Y} (y)$ ： $f_{Y} (y) = \frac{d}{d y} F_{Y} (y)$ 例 6.1.2 假设 $X$ 是一个服从标准正态分布（Standard Normal Distribution）的连续随机变量，即 $X \sim N (0, 1)$ ，其概率密度函数为 $f_{X} (x) = \frac{1}{\sqrt{2 π}} e^{- x^{2} / 2}$ ， $- \infty < x < \infty$ 。考虑随机变量 $Y = X^{2}$ 。求 $Y$ 的概率密度函数。

解：
首先求 $Y$ 的累积分布函数 $F_{Y} (y)$ 。由于 $Y = X^{2} \geq 0$ ，所以当 $y < 0$ 时， $F_{Y} (y) = P (Y \leq y) = 0$ 。
当 $y \geq 0$ 时： $F_{Y} (y) = P (Y \leq y) = P (X^{2} \leq y)$ 不等式 $X^{2} \leq y$ 等价于 $- \sqrt{y} \leq X \leq \sqrt{y}$ 。 $F_{Y} (y) = P (- \sqrt{y} \leq X \leq \sqrt{y}) = \int_{- \sqrt{y}}^{\sqrt{y}} f_{X} (x) d x = \int_{- \sqrt{y}}^{\sqrt{y}} \frac{1}{\sqrt{2 π}} e^{- x^{2} / 2} d x$ 接下来求 $Y$ 的概率密度函数 $f_{Y} (y)$ by differentiating $F_{Y} (y)$ with respect to $y$ . For $y > 0$ , we use the Leibniz integral rule: $f_{Y} (y) = \frac{d}{d y} F_{Y} (y) = \frac{d}{d y} \int_{- \sqrt{y}}^{\sqrt{y}} \frac{1}{\sqrt{2 π}} e^{- x^{2} / 2} d x$ $f_{Y} (y) = \frac{1}{\sqrt{2 π}} e^{- (\sqrt{y})^{2} / 2} \cdot \frac{d}{d y} (\sqrt{y}) - \frac{1}{\sqrt{2 π}} e^{- (- \sqrt{y})^{2} / 2} \cdot \frac{d}{d y} (- \sqrt{y})$ $f_{Y} (y) = \frac{1}{\sqrt{2 π}} e^{- y / 2} \cdot \frac{1}{2 \sqrt{y}} - \frac{1}{\sqrt{2 π}} e^{- y / 2} \cdot (- \frac{1}{2 \sqrt{y}})$ $f_{Y} (y) = \frac{1}{\sqrt{2 π}} e^{- y / 2} \cdot \frac{1}{2 \sqrt{y}} + \frac{1}{\sqrt{2 π}} e^{- y / 2} \cdot \frac{1}{2 \sqrt{y}}$ $f_{Y} (y) = \frac{1}{\sqrt{2 π}} e^{- y / 2} \cdot \frac{1}{\sqrt{y}} = \frac{1}{\sqrt{2 π y}} e^{- y / 2}, y > 0$ 当 $y \leq 0$ 时， $f_{Y} (y) = 0$ 。
所以， $Y = X^{2}$ 的概率密度函数为： $f_{Y} (y) = {\begin{cases} \frac{1}{\sqrt{2 π y}} e^{- y / 2}, & y > 0 \\ 0, & y \leq 0 \end{cases}$ 这个分布被称为自由度为 1 的卡方分布（Chi-squared Distribution with 1 degree of freedom），记作 $χ^{2} (1)$ 。

③ 单调函数 $g$

如果函数 $g$ 是严格单调的（严格递增或严格递减），那么求解不等式 $g (x) \leq y$ 会更简单，并且存在一个更直接的公式来计算 $f_{Y} (y)$ 。
假设 $g$ 是严格单调递增的，则 $g (x) \leq y$ 等价于 $x \leq g^{- 1} (y)$ ，其中 $g^{- 1}$ 是 $g$ 的反函数。 $F_{Y} (y) = P (g (X) \leq y) = P (X \leq g^{- 1} (y)) = F_{X} (g^{- 1} (y))$ 对 $y$ 求导： $f_{Y} (y) = \frac{d}{d y} F_{Y} (y) = \frac{d}{d y} F_{X} (g^{- 1} (y)) = f_{X} (g^{- 1} (y)) \cdot \frac{d}{d y} g^{- 1} (y)$ 假设 $g$ 是严格单调递减的，则 $g (x) \leq y$ 等价于 $x \geq g^{- 1} (y)$ 。 $F_{Y} (y) = P (g (X) \leq y) = P (X \geq g^{- 1} (y)) = 1 - P (X < g^{- 1} (y))$ 如果 $X$ 是连续的， $P (X < g^{- 1} (y)) = P (X \leq g^{- 1} (y)) = F_{X} (g^{- 1} (y))$ 。 $F_{Y} (y) = 1 - F_{X} (g^{- 1} (y))$ 对 $y$ 求导： $f_{Y} (y) = \frac{d}{d y} (1 - F_{X} (g^{- 1} (y))) = - f_{X} (g^{- 1} (y)) \cdot \frac{d}{d y} g^{- 1} (y)$ 注意到当 $g$ 严格单调递减时，其反函数 $g^{- 1}$ 也是严格单调递减的，所以 $\frac{d}{d y} g^{- 1} (y) < 0$ 。因此，我们可以将上述两种情况合并为一个公式： $f_{Y} (y) = f_{X} (g^{- 1} (y)) | \frac{d}{d y} g^{- 1} (y) |$ 这个公式被称为变量变换公式（Change of Variable Formula）。它要求 $g$ 是可微的且其反函数 $g^{- 1}$ 存在。

例 6.1.3 假设 $X$ 服从参数为 $λ$ 的指数分布（Exponential Distribution），其概率密度函数为 $f_{X} (x) = λ e^{- λ x}$ for $x > 0$ ， $0$ otherwise。考虑随机变量 $Y = e^{X}$ 。求 $Y$ 的概率密度函数。

解：
函数 $g (x) = e^{x}$ 在 $x > 0$ 时是严格单调递增的。 $Y = e^{X}$ 。由于 $X > 0$ ，所以 $Y > e^{0} = 1$ 。当 $y \leq 1$ 时， $f_{Y} (y) = 0$ 。
对于 $y > 1$ ，反函数为 $x = g^{- 1} (y) = \ln (y)$ 。
求导： $\frac{d}{d y} g^{- 1} (y) = \frac{d}{d y} \ln (y) = \frac{1}{y}$ 。
使用变量变换公式： $f_{Y} (y) = f_{X} (g^{- 1} (y)) | \frac{d}{d y} g^{- 1} (y) |$ 对于 $y > 1$ ， $g^{- 1} (y) = \ln (y) > \ln (1) = 0$ ，所以 $f_{X} (\ln (y)) = λ e^{- λ \ln (y)} = λ e^{\ln (y^{- λ})} = λ y^{- λ}$ 。 $f_{Y} (y) = (λ y^{- λ}) | \frac{1}{y} | = λ y^{- λ} \cdot \frac{1}{y} = λ y^{- (λ + 1)}, y > 1$ 所以， $Y = e^{X}$ 的概率密度函数为： $f_{Y} (y) = {\begin{cases} λ y^{- (λ + 1)}, & y > 1 \\ 0, & y \leq 1 \end{cases}$ ④ 非单调函数 $g$

如果函数 $g$ 不是单调的，那么不等式 $g (x) \leq y$ 的解集 $A_{y}$ 可能是一个或多个区间或点的集合。这时必须回到分布函数法，仔细确定 $A_{y}$ ，然后进行积分。

例 6.1.4 假设 $X$ 服从在区间 $(- 1, 1)$ 上的均匀分布（Uniform Distribution），其概率密度函数为 $f_{X} (x) = \frac{1}{2}$ for $- 1 < x < 1$ ， $0$ otherwise。考虑随机变量 $Y = X^{2}$ 。求 $Y$ 的概率密度函数。

解：
函数 $g (x) = x^{2}$ 在 $(- 1, 1)$ 上不是单调的。 $Y = X^{2}$ 。由于 $- 1 < X < 1$ ，所以 $0 \leq X^{2} < 1$ ，即 $0 \leq Y < 1$ 。当 $y < 0$ 或 $y \geq 1$ 时， $F_{Y} (y) = 0$ 或 $1$ ，对应的 $f_{Y} (y) = 0$ 。
对于 $0 \leq y < 1$ ，求 $F_{Y} (y)$ ： $F_{Y} (y) = P (Y \leq y) = P (X^{2} \leq y)$ 不等式 $X^{2} \leq y$ 等价于 $- \sqrt{y} \leq X \leq \sqrt{y}$ 。
由于 $X$ 的取值范围是 $(- 1, 1)$ ，我们需要考虑 $X$ 在 $(- \sqrt{y}, \sqrt{y})$ 和 $(- 1, 1)$ 的交集内的概率。对于 $0 \leq y < 1$ ， $\sqrt{y} < 1$ ，所以 $(- \sqrt{y}, \sqrt{y})$ 完全包含在 $(- 1, 1)$ 内。 $F_{Y} (y) = P (- \sqrt{y} \leq X \leq \sqrt{y}) = \int_{- \sqrt{y}}^{\sqrt{y}} f_{X} (x) d x = \int_{- \sqrt{y}}^{\sqrt{y}} \frac{1}{2} d x$ $F_{Y} (y) = \frac{1}{2} [x]_{- \sqrt{y}}^{\sqrt{y}} = \frac{1}{2} (\sqrt{y} - (- \sqrt{y})) = \frac{1}{2} (2 \sqrt{y}) = \sqrt{y}, 0 \leq y < 1$ 对 $y$ 求导得到 $f_{Y} (y)$ ： $f_{Y} (y) = \frac{d}{d y} \sqrt{y} = \frac{1}{2 \sqrt{y}}, 0 < y < 1$ 所以， $Y = X^{2}$ 的概率密度函数为： $f_{Y} (y) = {\begin{cases} \frac{1}{2 \sqrt{y}}, & 0 < y < 1 \\ 0, & otherwise \end{cases}$ 总结一下，求单个随机变量函数的分布，关键在于理解 $Y \leq y$ 这个事件对应于 $X$ 的哪些取值范围，然后利用 $X$ 的已知分布计算这个事件的概率。对于连续变量，分布函数法是最通用的方法。对于单调函数，变量变换公式可以简化计算。

6.2 多个随机变量的函数 (Functions of Multiple Random Variables)

现在我们将问题扩展到多个随机变量的情况。假设我们有 $n$ 个随机变量 $X_{1}, X_{2}, \dots, X_{n}$ ，它们的联合分布已知（离散型有联合概率质量函数 $P_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n})$ ，连续型有联合概率密度函数 $f_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n})$ ）。考虑一个新的随机变量 $Y$ ，它是这些随机变量的函数，记作 $Y = g (X_{1}, X_{2}, \dots, X_{n})$ 。我们的目标是求 $Y$ 的分布。

同样，可以使用分布函数法。首先求 $Y$ 的累积分布函数 $F_{Y} (y)$ ： $F_{Y} (y) = P (Y \leq y) = P (g (X_{1}, \dots, X_{n}) \leq y)$ 然后，我们需要在 $n$ 维空间中找出所有使得 $g (x_{1}, \dots, x_{n}) \leq y$ 的点 $(x_{1}, \dots, x_{n})$ 构成的区域 $A_{y}$ 。
如果 $X_{1}, \dots, X_{n}$ 是离散的，则： $F_{Y} (y) = \sum_{(x_{1}, \dots, x_{n}) \in A_{y}} P_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n})$ 如果 $X_{1}, \dots, X_{n}$ 是连续的，则： $F_{Y} (y) = \iint \dots \int_{A_{y}} f_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n}) d x_{1} d x_{2} \dots d x_{n}$ 求出 $F_{Y} (y)$ 后，对 $y$ 求导即可得到 $Y$ 的概率密度函数 $f_{Y} (y)$ 。

① 离散随机变量之和

一个常见的例子是求两个离散随机变量之和的分布。设 $X$ 和 $Y$ 是两个离散随机变量，其联合概率质量函数为 $P_{X, Y} (x, y)$ 。令 $Z = X + Y$ 。 $Z$ 的可能取值是所有可能的 $x + y$ 的值。 $Z$ 的概率质量函数 $P_{Z} (z)$ 为： $P_{Z} (z) = P (X + Y = z) = \sum_{(x, y) : x + y = z} P_{X, Y} (x, y)$ 如果 $X$ 和 $Y$ 是独立的，则 $P_{X, Y} (x, y) = P_{X} (x) P_{Y} (y)$ 。 $P_{Z} (z) = \sum_{x} P (X = x, Y = z - x)$ 如果 $X$ 和 $Y$ 独立： $P_{Z} (z) = \sum_{x} P_{X} (x) P_{Y} (z - x)$ 这个求和形式被称为离散卷积（Discrete Convolution）。

例 6.2.1 假设 $X$ 和 $Y$ 是两个独立的离散随机变量。 $X$ 服从参数为 $λ_{1}$ 的泊松分布（Poisson Distribution），即 $P_{X} (k) = \frac{λ_{1}^{k} e^{- λ_{1}}}{k!}$ ， $k = 0, 1, 2, \dots$ 。 $Y$ 服从参数为 $λ_{2}$ 的泊松分布，即 $P_{Y} (k) = \frac{λ_{2}^{k} e^{- λ_{2}}}{k!}$ ， $k = 0, 1, 2, \dots$ 。令 $Z = X + Y$ 。求 $Z$ 的概率质量函数。

解： $Z$ 的可能取值是 $0, 1, 2, \dots$ 。对于任意非负整数 $z$ ， $P_{Z} (z) = P (X + Y = z) = \sum_{k = 0}^{z} P (X = k, Y = z - k)$ 由于 $X$ 和 $Y$ 独立： $P_{Z} (z) = \sum_{k = 0}^{z} P_{X} (k) P_{Y} (z - k) = \sum_{k = 0}^{z} \frac{λ_{1}^{k} e^{- λ_{1}}}{k!} \frac{λ_{2}^{z - k} e^{- λ_{2}}}{(z - k)!}$ $P_{Z} (z) = e^{- (λ_{1} + λ_{2})} \sum_{k = 0}^{z} \frac{λ_{1}^{k} λ_{2}^{z - k}}{k! (z - k)!}$ 我们将 $\frac{1}{z!}$ 提出来，并乘以 $z!$ ： $P_{Z} (z) = \frac{e^{- (λ_{1} + λ_{2})}}{z!} \sum_{k = 0}^{z} \frac{z!}{k! (z - k)!} λ_{1}^{k} λ_{2}^{z - k}$ 注意到求和项是二项式定理（Binomial Theorem）的展开式 $(a + b)^{n} = \sum_{k = 0}^{n} (\binom{n}{k}) a^{k} b^{n - k}$ ，其中 $(\binom{z}{k}) = \frac{z!}{k! (z - k)!}$ 。 $P_{Z} (z) = \frac{e^{- (λ_{1} + λ_{2})}}{z!} \sum_{k = 0}^{z} (\binom{z}{k}) λ_{1}^{k} λ_{2}^{z - k} = \frac{e^{- (λ_{1} + λ_{2})}}{z!} (λ_{1} + λ_{2})^{z}$ 所以， $Z = X + Y$ 服从参数为 $λ_{1} + λ_{2}$ 的泊松分布。这个性质在信息论中分析计数过程时非常有用。

② 连续随机变量之和

设 $X$ 和 $Y$ 是两个连续随机变量，其联合概率密度函数为 $f_{X, Y} (x, y)$ 。令 $Z = X + Y$ 。
首先求 $Z$ 的累积分布函数 $F_{Z} (z)$ ： $F_{Z} (z) = P (Z \leq z) = P (X + Y \leq z)$ 不等式 $X + Y \leq z$ 对应于 $x y$ 平面上直线 $x + y = z$ 下方的区域。 $F_{Z} (z) = \iint_{x + y \leq z} f_{X, Y} (x, y) d x d y$ 为了计算这个积分，我们可以固定 $x$ 并对 $y$ 从 $- \infty$ 积分到 $z - x$ ，或者固定 $y$ 并对 $x$ 从 $- \infty$ 积分到 $z - y$ 。 $F_{Z} (z) = \int_{- \infty}^{\infty} (\int_{- \infty}^{z - x} f_{X, Y} (x, y) d y) d x$ 对 $z$ 求导得到 $f_{Z} (z)$ 。使用 Leibniz integral rule： $f_{Z} (z) = \frac{d}{d z} \int_{- \infty}^{\infty} (\int_{- \infty}^{z - x} f_{X, Y} (x, y) d y) d x$ $f_{Z} (z) = \int_{- \infty}^{\infty} \frac{\partial}{\partial z} (\int_{- \infty}^{z - x} f_{X, Y} (x, y) d y) d x$ 令 $u = y$ ，则内层积分是关于 $y$ 的积分，上限是 $z - x$ 。根据微积分基本定理， $\frac{d}{d t} \int_{a}^{t} h (y) d y = h (t)$ 。这里 $t = z - x$ ， $h (y) = f_{X, Y} (x, y)$ 。注意 $x$ 在外层积分中被视为常数。 $\frac{\partial}{\partial z} \int_{- \infty}^{z - x} f_{X, Y} (x, y) d y = f_{X, Y} (x, z - x) \cdot \frac{\partial}{\partial z} (z - x) = f_{X, Y} (x, z - x) \cdot 1$ 所以： $f_{Z} (z) = \int_{- \infty}^{\infty} f_{X, Y} (x, z - x) d x$ 如果 $X$ 和 $Y$ 是独立的，则 $f_{X, Y} (x, y) = f_{X} (x) f_{Y} (y)$ 。 $f_{Z} (z) = \int_{- \infty}^{\infty} f_{X} (x) f_{Y} (z - x) d x$ 这个积分形式被称为连续卷积（Continuous Convolution），记作 $f_{X} * f_{Y} (z)$ 。

例 6.2.2 假设 $X$ 和 $Y$ 是两个独立的连续随机变量，都服从在区间 $(0, 1)$ 上的均匀分布，即 $f_{X} (x) = 1$ for $0 < x < 1$ ， $0$ otherwise； $f_{Y} (y) = 1$ for $0 < y < 1$ ， $0$ otherwise。令 $Z = X + Y$ 。求 $Z$ 的概率密度函数。

解： $Z = X + Y$ 。由于 $0 < X < 1$ 且 $0 < Y < 1$ ，所以 $0 < Z < 2$ 。当 $z \leq 0$ 或 $z \geq 2$ 时， $f_{Z} (z) = 0$ 。
对于 $0 < z < 2$ ，使用卷积公式： $f_{Z} (z) = \int_{- \infty}^{\infty} f_{X} (x) f_{Y} (z - x) d x$ $f_{X} (x)$ 只有在 $0 < x < 1$ 时非零。 $f_{Y} (z - x)$ 只有在 $0 < z - x < 1$ 时非零，即 $z - 1 < x < z$ 。
所以积分的有效区间是 $(0, 1)$ 和 $(z - 1, z)$ 的交集。

▮▮▮▮ⓐ Case 1: $0 < z \leq 1$ . The intersection is $(0, z)$ . $f_{Z} (z) = \int_{0}^{z} 1 \cdot 1 d x = [x]_{0}^{z} = z$ ▮▮▮▮ⓑ Case 2: $1 < z < 2$ . The intersection is $(z - 1, 1)$ . $f_{Z} (z) = \int_{z - 1}^{1} 1 \cdot 1 d x = [x]_{z - 1}^{1} = 1 - (z - 1) = 2 - z$ 所以， $Z = X + Y$ 的概率密度函数为： $f_{Z} (z) = {\begin{cases} z, & 0 < z \leq 1 \\ 2 - z, & 1 < z < 2 \\ 0, & otherwise \end{cases}$ 这是一个三角形分布（Triangular Distribution）。

③ 多个随机变量的变换

更一般地，如果我们有 $n$ 个连续随机变量 $X_{1}, \dots, X_{n}$ 具有联合概率密度函数 $f_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n})$ ，并且定义了 $n$ 个新的随机变量 $Y_{1}, \dots, Y_{n}$ 作为 $X_{1}, \dots, X_{n}$ 的函数： $Y_{1} = g_{1} (X_{1}, \dots, X_{n})$ $Y_{2} = g_{2} (X_{1}, \dots, X_{n})$ $\dots$ $Y_{n} = g_{n} (X_{1}, \dots, X_{n})$ 如果这个变换是可逆的，即存在反函数 $x_{i} = h_{i} (y_{1}, \dots, y_{n})$ for $i = 1, \dots, n$ ，并且这些反函数具有连续的偏导数，且雅可比行列式（Jacobian Determinant）不为零： $J = det {(\frac{\partial x_{i}}{\partial y_{j}})}_{i, j = 1}^{n} = | \begin{matrix} \frac{\partial x_{1}}{\partial y_{1}} & \frac{\partial x_{1}}{\partial y_{2}} & \dots & \frac{\partial x_{1}}{\partial y_{n}} \\ \frac{\partial x_{2}}{\partial y_{1}} & \frac{\partial x_{2}}{\partial y_{2}} & \dots & \frac{\partial x_{2}}{\partial y_{n}} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \frac{\partial x_{n}}{\partial y_{1}} & \frac{\partial x_{n}}{\partial y_{2}} & \dots & \frac{\partial x_{n}}{\partial y_{n}} \end{matrix} |$ 那么 $Y_{1}, \dots, Y_{n}$ 的联合概率密度函数为： $f_{Y_{1}, \dots, Y_{n}} (y_{1}, \dots, y_{n}) = f_{X_{1}, \dots, X_{n}} (h_{1} (y_{1}, \dots, y_{n}), \dots, h_{n} (y_{1}, \dots, y_{n})) | J |$ 这个公式是多维变量变换公式。如果只需要求其中某个 $Y_{i}$ 的分布，可以先求出联合分布 $f_{Y_{1}, \dots, Y_{n}}$ ，然后通过对其他变量积分来求边缘分布（Marginal Distribution）。

例 6.2.3 假设 $X_{1}$ 和 $X_{2}$ 是两个独立的标准正态分布随机变量，即 $X_{1}, X_{2} \sim N (0, 1)$ 。它们的联合概率密度函数为 $f_{X_{1}, X_{2}} (x_{1}, x_{2}) = f_{X_{1}} (x_{1}) f_{X_{2}} (x_{2}) = \frac{1}{\sqrt{2 π}} e^{- x_{1}^{2} / 2} \cdot \frac{1}{\sqrt{2 π}} e^{- x_{2}^{2} / 2} = \frac{1}{2 π} e^{- (x_{1}^{2} + x_{2}^{2}) / 2}$ 。
考虑变换： $Y_{1} = \sqrt{X_{1}^{2} + X_{2}^{2}}$ (到原点的距离，瑞利分布 Rayleigh Distribution 相关) $Y_{2} = \arctan (X_{2} / X_{1})$ (角度，均匀分布 Uniform Distribution 相关)
求 $Y_{1}$ 和 $Y_{2}$ 的联合概率密度函数。

解：
这个变换是从笛卡尔坐标 $(X_{1}, X_{2})$ 到极坐标 $(Y_{1}, Y_{2})$ 的变换，其中 $Y_{1} = R$ 是半径， $Y_{2} = Θ$ 是角度。
反函数为： $x_{1} = h_{1} (y_{1}, y_{2}) = y_{1} \cos (y_{2})$ $x_{2} = h_{2} (y_{1}, y_{2}) = y_{1} \sin (y_{2})$ 其中 $y_{1} \geq 0$ 且 $0 \leq y_{2} < 2 π$ (或者 $(- π, π]$ 等)。
计算雅可比行列式： $J = | \begin{matrix} \frac{\partial x_{1}}{\partial y_{1}} & \frac{\partial x_{1}}{\partial y_{2}} \\ \frac{\partial x_{2}}{\partial y_{1}} & \frac{\partial x_{2}}{\partial y_{2}} \end{matrix} | = | \begin{matrix} \cos (y_{2}) & - y_{1} \sin (y_{2}) \\ \sin (y_{2}) & y_{1} \cos (y_{2}) \end{matrix} |$ $J = \cos (y_{2}) (y_{1} \cos (y_{2})) - (- y_{1} \sin (y_{2})) \sin (y_{2}) = y_{1} \cos^{2} (y_{2}) + y_{1} \sin^{2} (y_{2}) = y_{1} (\cos^{2} (y_{2}) + \sin^{2} (y_{2})) = y_{1}$ 所以 $| J | = | y_{1} |$ 。由于 $y_{1} \geq 0$ ， $| J | = y_{1}$ 。
将反函数代入 $f_{X_{1}, X_{2}} (x_{1}, x_{2})$ ： $x_{1}^{2} + x_{2}^{2} = (y_{1} \cos (y_{2}))^{2} + (y_{1} \sin (y_{2}))^{2} = y_{1}^{2} (\cos^{2} (y_{2}) + \sin^{2} (y_{2})) = y_{1}^{2}$ . $f_{X_{1}, X_{2}} (h_{1} (y_{1}, y_{2}), h_{2} (y_{1}, y_{2})) = \frac{1}{2 π} e^{- (y_{1}^{2}) / 2}$ 所以 $Y_{1}$ 和 $Y_{2}$ 的联合概率密度函数为： $f_{Y_{1}, Y_{2}} (y_{1}, y_{2}) = \frac{1}{2 π} e^{- y_{1}^{2} / 2} \cdot y_{1}, y_{1} \geq 0, 0 \leq y_{2} < 2 π$ 对于其他区域， $f_{Y_{1}, Y_{2}} (y_{1}, y_{2}) = 0$ 。
注意到联合密度函数可以分解为关于 $y_{1}$ 的部分和关于 $y_{2}$ 的部分： $f_{Y_{1}, Y_{2}} (y_{1}, y_{2}) = (y_{1} e^{- y_{1}^{2} / 2}) (\frac{1}{2 π})$ 这表明 $Y_{1}$ 和 $Y_{2}$ 是相互独立的随机变量。 $Y_{1}$ 的边缘概率密度函数为： $f_{Y_{1}} (y_{1}) = \int_{0}^{2 π} f_{Y_{1}, Y_{2}} (y_{1}, y_{2}) d y_{2} = \int_{0}^{2 π} y_{1} e^{- y_{1}^{2} / 2} \frac{1}{2 π} d y_{2} = \frac{y_{1} e^{- y_{1}^{2} / 2}}{2 π} [y_{2}]_{0}^{2 π} = \frac{y_{1} e^{- y_{1}^{2} / 2}}{2 π} (2 π) = y_{1} e^{- y_{1}^{2} / 2}, y_{1} \geq 0$ 这是瑞利分布（Rayleigh Distribution）的概率密度函数。 $Y_{2}$ 的边缘概率密度函数为： $f_{Y_{2}} (y_{2}) = \int_{0}^{\infty} f_{Y_{1}, Y_{2}} (y_{1}, y_{2}) d y_{1} = \int_{0}^{\infty} y_{1} e^{- y_{1}^{2} / 2} \frac{1}{2 π} d y_{1}$ 令 $u = y_{1}^{2} / 2$ ，则 $d u = y_{1} d y_{1}$ 。当 $y_{1} = 0$ 时 $u = 0$ ，当 $y_{1} \to \infty$ 时 $u \to \infty$ 。 $f_{Y_{2}} (y_{2}) = \frac{1}{2 π} \int_{0}^{\infty} e^{- u} d u = \frac{1}{2 π} [- e^{- u}]_{0}^{\infty} = \frac{1}{2 π} (0 - (- 1)) = \frac{1}{2 π}, 0 \leq y_{2} < 2 π$ 这是在区间 $[0, 2 π)$ 上的均匀分布（Uniform Distribution）。

这个例子非常经典，它表明两个独立的标准正态随机变量的极坐标表示中的半径和角度是独立的，并且半径服从瑞利分布，角度服从均匀分布。

6.3 期望的线性性质与乘积性质 (Linearity and Product Property of Expectation)

在处理随机变量的函数时，计算其期望（Expectation）是一个非常重要的任务。我们已经知道，对于单个随机变量 $X$ 的函数 $g (X)$ ，其期望定义为：
如果 $X$ 是离散的，取值 ${x_{i}}$ ，概率质量函数 $P_{X} (x_{i})$ ，则 $E [g (X)] = \sum_{i} g (x_{i}) P_{X} (x_{i})$ 。
如果 $X$ 是连续的，概率密度函数 $f_{X} (x)$ ，则 $E [g (X)] = \int_{- \infty}^{\infty} g (x) f_{X} (x) d x$ 。
对于多个随机变量 $X_{1}, \dots, X_{n}$ 的函数 $g (X_{1}, \dots, X_{n})$ ，其期望定义为：
如果 $X_{1}, \dots, X_{n}$ 是离散的，联合概率质量函数 $P_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n})$ ，则 $E [g (X_{1}, \dots, X_{n})] = \sum_{x_{1}, \dots, x_{n}} g (x_{1}, \dots, x_{n}) P_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n})$ 。
如果 $X_{1}, \dots, X_{n}$ 是连续的，联合概率密度函数 $f_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n})$ ，则 $E [g (X_{1}, \dots, X_{n})] = \int_{- \infty}^{\infty} \dots \int_{- \infty}^{\infty} g (x_{1}, \dots, x_{n}) f_{X_{1}, \dots, X_{n}} (x_{1}, \dots, x_{n}) d x_{1} \dots d x_{n}$ 。

计算函数分布可能很复杂，但计算函数的期望有时却非常简单，这得益于期望的一些重要性质。

① 期望的线性性质 (Linearity of Expectation)

对于任意随机变量 $X_{1}, X_{2}, \dots, X_{n}$ (无论它们是否独立) 和任意常数 $a_{1}, a_{2}, \dots, a_{n}, b$ ，有： $E [a_{1} X_{1} + a_{2} X_{2} + \dots + a_{n} X_{n} + b] = a_{1} E [X_{1}] + a_{2} E [X_{2}] + \dots + a_{n} E [X_{n}] + b$ 特别地，对于两个随机变量 $X$ 和 $Y$ 以及常数 $a, b, c$ ，有： $E [a X + b Y + c] = a E [X] + b E [Y] + c$ 这个性质是期望最强大和最常用的性质之一。它的证明可以直接从期望的定义和积分/求和的线性性质得出。

证明 (连续情况)：
设 $X$ 和 $Y$ 是连续随机变量，联合概率密度函数为 $f_{X, Y} (x, y)$ 。 $E [a X + b Y + c] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} (a x + b y + c) f_{X, Y} (x, y) d x d y$ 利用积分的线性性质： $E [a X + b Y + c] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} a x f_{X, Y} (x, y) d x d y + \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} b y f_{X, Y} (x, y) d x d y + \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} c f_{X, Y} (x, y) d x d y$ $E [a X + b Y + c] = a \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} x f_{X, Y} (x, y) d x d y + b \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} y f_{X, Y} (x, y) d x d y + c \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x d y$ 回忆边缘概率密度函数的定义： $f_{X} (x) = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d y$ 和 $f_{Y} (y) = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x$ 。
以及期望的定义： $E [X] = \int_{- \infty}^{\infty} x f_{X} (x) d x$ 和 $E [Y] = \int_{- \infty}^{\infty} y f_{Y} (y) d y$ 。
同时， $\int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x d y = 1$ 。 $\int_{- \infty}^{\infty} \int_{- \infty}^{\infty} x f_{X, Y} (x, y) d y d x = \int_{- \infty}^{\infty} x (\int_{- \infty}^{\infty} f_{X, Y} (x, y) d y) d x = \int_{- \infty}^{\infty} x f_{X} (x) d x = E [X]$ $\int_{- \infty}^{\infty} \int_{- \infty}^{\infty} y f_{X, Y} (x, y) d x d y = \int_{- \infty}^{\infty} y (\int_{- \infty}^{\infty} f_{X, Y} (x, y) d x) d y = \int_{- \infty}^{\infty} y f_{Y} (y) d y = E [Y]$ 所以， $E [a X + b Y + c] = a E [X] + b E [Y] + c \cdot 1 = a E [X] + b E [Y] + c$ 离散情况的证明类似，将积分替换为求和即可。

线性性质的强大之处在于它不依赖于随机变量之间的关系（独立性或其他）。这使得我们可以轻松计算复杂随机变量的期望，只要它能表示为其他随机变量的线性组合。

例 6.3.1 假设我们掷一个均匀的六面骰子 $n$ 次。令 $X_{i}$ 表示第 $i$ 次掷骰子的结果， $i = 1, \dots, n$ 。 $X_{i}$ 是独立同分布（Independent and Identically Distributed, I.I.D.）的随机变量， $P (X_{i} = k) = 1 / 6$ for $k = 1, 2, 3, 4, 5, 6$ 。每次掷骰子的期望是 $E [X_{i}] = \sum_{k = 1}^{6} k \cdot \frac{1}{6} = \frac{1}{6} (1 + 2 + 3 + 4 + 5 + 6) = \frac{21}{6} = 3.5$ 。
令 $S_{n} = X_{1} + X_{2} + \dots + X_{n}$ 表示 $n$ 次掷骰子的总点数。求 $E [S_{n}]$ 。

解：
利用期望的线性性质： $E [S_{n}] = E [X_{1} + X_{2} + \dots + X_{n}] = E [X_{1}] + E [X_{2}] + \dots + E [X_{n}]$ 由于 $X_{i}$ 是同分布的， $E [X_{i}]$ 都相等，等于 3.5。 $E [S_{n}] = 3.5 + 3.5 + \dots + 3.5 (n times) = n \cdot 3.5$ 即使 $X_{i}$ 不是独立的（例如，如果掷骰子的结果之间存在某种关联），这个结论仍然成立。

② 期望的乘积性质 (Product Property of Expectation)

对于两个随机变量 $X$ 和 $Y$ ，一般情况下 $E [X Y] \neq E [X] E [Y]$ 。
然而，如果 $X$ 和 $Y$ 是相互独立的（Independent），那么： $E [X Y] = E [X] E [Y]$ 证明 (连续情况，独立)：
如果 $X$ 和 $Y$ 独立，则它们的联合概率密度函数等于边缘概率密度函数的乘积： $f_{X, Y} (x, y) = f_{X} (x) f_{Y} (y)$ 。 $E [X Y] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} x y f_{X, Y} (x, y) d x d y$ $E [X Y] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} x y f_{X} (x) f_{Y} (y) d x d y$ 我们可以将积分分解为两个独立的积分： $E [X Y] = \int_{- \infty}^{\infty} x f_{X} (x) d x \cdot \int_{- \infty}^{\infty} y f_{Y} (y) d y$ 根据期望的定义： $E [X Y] = E [X] E [Y]$ 离散情况的证明类似，将积分替换为求和，并将联合概率质量函数分解为边缘概率质量函数的乘积。

重要提示：期望的乘积等于期望的乘积是独立性的一个必要条件，但不是充分条件。也就是说，如果 $X$ 和 $Y$ 独立，则 $E [X Y] = E [X] E [Y]$ 成立。但如果 $E [X Y] = E [X] E [Y]$ 成立， $X$ 和 $Y$ 不一定独立。我们称满足 $E [X Y] = E [X] E [Y]$ 的两个随机变量为不相关（Uncorrelated）。独立一定不相关，但不相关不一定独立（除非在某些特殊情况下，如联合正态分布）。

③ 方差的性质

利用期望的线性性质和乘积性质，我们可以推导出方差（Variance）的一些重要性质。回忆方差的定义： $V a r (X) = E [(X - E [X])^{2}] = E [X^{2}] - (E [X])^{2}$ 。

▮▮▮▮ⓐ 常数的方差：对于常数 $c$ ， $V a r (c) = E [(c - E [c])^{2}] = E [(c - c)^{2}] = E [0] = 0$ 。
▮▮▮▮ⓑ 乘以常数：对于常数 $a$ ， $V a r (a X) = E [(a X - E [a X])^{2}] = E [(a X - a E [X])^{2}] = E [a^{2} (X - E [X])^{2}] = a^{2} E [(X - E [X])^{2}] = a^{2} V a r (X)$ 。
▮▮▮▮ⓒ 加上常数：对于常数 $b$ ， $V a r (X + b) = E [((X + b) - E [X + b])^{2}] = E [(X + b - (E [X] + b))^{2}] = E [(X - E [X])^{2}] = V a r (X)$ 。
▮▮▮▮ⓓ 和的方差：对于两个随机变量 $X$ 和 $Y$ ， $V a r (X + Y) = E [((X + Y) - E [X + Y])^{2}] = E [((X - E [X]) + (Y - E [Y]))^{2}]$ $V a r (X + Y) = E [(X - E [X])^{2} + (Y - E [Y])^{2} + 2 (X - E [X]) (Y - E [Y])]$ 利用期望的线性性质： $V a r (X + Y) = E [(X - E [X])^{2}] + E [(Y - E [Y])^{2}] + 2 E [(X - E [X]) (Y - E [Y])]$ 前两项分别是 $V a r (X)$ 和 $V a r (Y)$ 。最后一项 $E [(X - E [X]) (Y - E [Y])]$ 定义为 $X$ 和 $Y$ 的协方差（Covariance），记作 $C o v (X, Y)$ 。
所以， $V a r (X + Y) = V a r (X) + V a r (Y) + 2 C o v (X, Y)$ 。
协方差 $C o v (X, Y) = E [X Y] - E [X] E [Y]$ 。
如果 $X$ 和 $Y$ 不相关，即 $C o v (X, Y) = 0$ ，那么 $V a r (X + Y) = V a r (X) + V a r (Y)$ 。
如果 $X$ 和 $Y$ 独立，则它们不相关，所以 $V a r (X + Y) = V a r (X) + V a r (Y)$ 。
这个性质可以推广到多个不相关随机变量之和的方差：如果 $X_{1}, \dots, X_{n}$ 相互不相关，则 $V a r (\sum_{i = 1}^{n} X_{i}) = \sum_{i = 1}^{n} V a r (X_{i})$ 。

例 6.3.2 回到掷骰子的例子。 $X_{i}$ 是独立同分布的， $E [X_{i}] = 3.5$ 。
计算 $V a r (X_{i})$ ： $E [X_{i}^{2}] = \sum_{k = 1}^{6} k^{2} \cdot \frac{1}{6} = \frac{1}{6} (1^{2} + 2^{2} + 3^{2} + 4^{2} + 5^{2} + 6^{2}) = \frac{1}{6} (1 + 4 + 9 + 16 + 25 + 36) = \frac{91}{6}$ 。 $V a r (X_{i}) = E [X_{i}^{2}] - (E [X_{i}])^{2} = \frac{91}{6} - (3.5)^{2} = \frac{91}{6} - (\frac{7}{2})^{2} = \frac{91}{6} - \frac{49}{4} = \frac{182 - 147}{12} = \frac{35}{12}$ 。
令 $S_{n} = X_{1} + X_{2} + \dots + X_{n}$ 。由于 $X_{i}$ 是独立的，它们也相互不相关。 $V a r (S_{n}) = V a r (X_{1} + \dots + X_{n}) = V a r (X_{1}) + \dots + V a r (X_{n})$ 由于 $X_{i}$ 是同分布的， $V a r (X_{i})$ 都相等，等于 $35 / 12$ 。 $V a r (S_{n}) = \frac{35}{12} + \frac{35}{12} + \dots + \frac{35}{12} (n times) = n \cdot \frac{35}{12}$ 本章我们学习了如何处理随机变量的函数，包括确定其分布以及计算其期望和方差。特别是期望的线性性质，它是概率论中一个非常基础且强大的工具，在信息论和许多其他领域都有广泛的应用。理解这些概念和技巧，对于后续学习随机过程以及信息论中的熵、互信息等概念至关重要。

<END_OF_CHAPTER/>

7. chapter 7：极限定理 (Limit Theorems)

极限定理是概率论中最为深刻和重要的理论之一，它们揭示了大量随机现象的统计规律性。特别是大数定律和中心极限定理，它们不仅是理论研究的基石，也是统计学、信息论、信号处理、机器学习等众多应用领域的强大工具。本章将深入探讨这两个核心极限定理，理解它们背后的数学原理及其广泛的应用价值。

7.1 大数定律 (Law of Large Numbers)

大数定律描述了当独立重复试验的次数足够多时，事件发生的频率趋近于其理论概率，或者说，随机变量的样本均值趋近于其期望值。这是概率论联系实际应用的基础，也是统计推断的理论依据。

① 直观理解：
⚝ 抛硬币：随着抛掷次数的增加，正面朝上的频率会越来越接近 0.5。
⚝ 测量误差：多次独立测量同一个物理量，测量结果的平均值会越来越接近真实值。

② 大数定律的数学表述：
大数定律有不同的形式，其中最常见的是弱大数定律和强大数定律。它们的主要区别在于收敛的方式不同。

▮▮▮▮ⓐ 弱大数定律 (Weak Law of Large Numbers)
设 $X_{1}, X_{2}, \dots, X_{n}$ 是独立同分布 (Independent and Identically Distributed, IID) 的随机变量序列，且具有有限的期望 $E [X_{i}] = μ$ 。记样本均值 (Sample Mean) 为 ${\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i}$ 。弱大数定律表明，对于任意小的正数 $ϵ > 0$ ，当 $n \to \infty$ 时，样本均值 ${\bar{X}}_{n}$ 与期望 $μ$ 之差的绝对值大于 $ϵ$ 的概率趋近于零。 $lim_{n \to \infty} P (| {\bar{X}}_{n} - μ | > ϵ) = 0$ 这被称为依概率收敛 (Convergence in Probability)，记作 ${\bar{X}}_{n} \overset{P}{\to} μ$ 。

▮▮▮▮ⓑ 强大数定律 (Strong Law of Large Numbers)
设 $X_{1}, X_{2}, \dots, X_{n}$ 是独立同分布的随机变量序列，且具有有限的期望 $E [X_{i}] = μ$ 。强大数定律表明，样本均值 ${\bar{X}}_{n}$ 几乎必然 (Almost Surely) 收敛于期望 $μ$ 。 $P (lim_{n \to \infty} {\bar{X}}_{n} = μ) = 1$ 这被称为几乎必然收敛 (Almost Sure Convergence)，记作 ${\bar{X}}_{n} \overset{a . s .}{\to} μ$ 。

③ 弱大数定律与强大数定律的区别：
⚝ 弱大数定律保证了对于足够大的 $n$ ， ${\bar{X}}_{n}$ 落在 $μ$ 的 $ϵ$ 邻域之外的概率很小。它关注的是概率的极限。
⚝ 强大数定律则保证了样本均值序列 ${{\bar{X}}_{n}}_{n = 1}^{\infty}$ 本身几乎总是收敛到 $μ$ 。它关注的是随机变量序列的收敛性。
⚝ 几乎必然收敛比依概率收敛是更强的收敛模式。如果一个序列几乎必然收敛，那么它也依概率收敛。反之则不然。

④ 大数定律的应用：
⚝ 频率解释概率：大数定律为频率解释概率提供了理论基础。
⚝ 蒙特卡洛方法 (Monte Carlo Method)：利用大数定律通过大量随机抽样来估计期望值或积分。
⚝ 统计估计：样本均值是总体期望的无偏估计，大数定律保证了当样本量足够大时，样本均值会接近总体期望。
⚝ 保险精算：保险公司通过分析大量投保人的风险数据，利用大数定律预测未来的赔付总额，从而确定保费。

⑤ 证明思路 (简述)：
⚝ 弱大数定律的证明通常可以利用切比雪夫不等式 (Chebyshev's Inequality)，前提是随机变量具有有限的方差。对于独立同分布的情况， $Var ({\bar{X}}_{n}) = \frac{Var (X_{1})}{n}$ ，随着 $n$ 增大，方差趋于零，结合切比雪夫不等式即可证明。
⚝ 强大数定律的证明更为复杂，通常需要更强的数学工具，如鞅论 (Martingale Theory) 或 Kolmogorov 的强大数定律。

7.2 中心极限定理 (Central Limit Theorem)

中心极限定理是概率论中另一个极其重要的结果。它指出，大量独立随机变量的标准化和 (或平均值) 的分布，在适当条件下，会趋近于标准正态分布 (Standard Normal Distribution)，而与原始随机变量的分布无关。

① 直观理解：
⚝ 测量误差的累积：许多小的、独立的误差源叠加在一起，总误差的分布往往近似正态分布。
⚝ 统计抽样：从任何分布的总体中抽取足够大的样本，样本均值的分布会近似正态分布。

② 中心极限定理的数学表述：
设 $X_{1}, X_{2}, \dots, X_{n}$ 是独立同分布的随机变量序列，且具有有限的期望 $E [X_{i}] = μ$ 和有限的非零方差 $Var (X_{i}) = σ^{2}$ 。记 $S_{n} = \sum_{i = 1}^{n} X_{i}$ 为前 $n$ 个随机变量的和。中心极限定理表明，标准化和 $Z_{n} = \frac{S_{n} - E [S_{n}]}{\sqrt{Var (S_{n})}} = \frac{\sum_{i = 1}^{n} X_{i} - n μ}{\sqrt{n σ^{2}}} = \frac{{\bar{X}}_{n} - μ}{σ / \sqrt{n}}$ 的分布函数 $F_{Z_{n}} (z)$ 随着 $n \to \infty$ 趋近于标准正态分布的分布函数 $Φ (z)$ 。 $lim_{n \to \infty} F_{Z_{n}} (z) = lim_{n \to \infty} P (\frac{\sum_{i = 1}^{n} X_{i} - n μ}{σ \sqrt{n}} \leq z) = Φ (z) = \int_{- \infty}^{z} \frac{1}{\sqrt{2 π}} e^{- t^{2} / 2} d t$ 这被称为依分布收敛 (Convergence in Distribution)，记作 $Z_{n} \overset{D}{\to} N (0, 1)$ 。

③ 中心极限定理的条件：
⚝ 独立性：随机变量必须是独立的。
⚝ 同分布：随机变量必须是同分布的。
⚝ 有限的期望和方差：这是定理成立的必要条件。

④ 中心极限定理的应用：
⚝ 统计推断：在大样本情况下，可以利用正态分布对样本均值、比例等进行区间估计和假设检验，即使总体分布未知。
⚝ 近似计算：当 $n$ 足够大时，可以用正态分布近似计算二项分布 (Binomial Distribution) 或泊松分布 (Poisson Distribution) 的概率。例如，当 $n$ 很大， $p$ 不太接近 0 或 1 时，二项分布 $B (n, p)$ 可以近似为正态分布 $N (n p, n p (1 - p))$ 。当 $λ$ 很大时，泊松分布 $P (λ)$ 可以近似为正态分布 $N (λ, λ)$ 。
⚝ 信号处理：噪声通常被建模为独立随机变量的叠加，中心极限定理解释了为什么许多类型的噪声呈现高斯分布 (Gaussian Distribution)。
⚝ 物理学：热力学中的许多宏观性质是大量微观粒子随机运动的叠加效应，其分布往往服从正态分布。

⑤ 证明思路 (简述)：
中心极限定理的证明通常使用特征函数 (Characteristic Function) 的方法。设 $X_{i}$ 的特征函数为 $ϕ_{X} (t)$ 。标准化随机变量 $Y_{i} = (X_{i} - μ) / σ$ 的特征函数为 $ϕ_{Y} (t) = e^{- i μ t / σ} ϕ_{X} (t / σ)$ 。标准化和 $Z_{n} = \frac{1}{\sqrt{n}} \sum_{i = 1}^{n} Y_{i}$ 的特征函数为 $(ϕ_{Y} (t / \sqrt{n}))^{n}$ 。通过对 $ϕ_{Y} (t / \sqrt{n})$ 在 $t = 0$ 处进行泰勒展开 (Taylor Expansion)，并取极限 $n \to \infty$ ，可以证明 $(ϕ_{Y} (t / \sqrt{n}))^{n} \to e^{- t^{2} / 2}$ ，而 $e^{- t^{2} / 2}$ 正是标准正态分布的特征函数。根据 Levy-Cramer 定理，特征函数的收敛等价于分布函数的收敛。

⑥ 推广：
中心极限定理有许多推广形式，例如 Lyapunov 条件或 Lindeberg 条件下的中心极限定理，它们允许随机变量不是同分布的，但要求它们对总方差的贡献是均匀小的。此外，还有针对依赖随机变量序列的中心极限定理。

极限定理是概率论的基石，它们揭示了随机性的集体行为所展现出的确定性或近似确定性规律。大数定律保证了样本统计量对总体参数的估计是可靠的，而中心极限定理则为基于大样本的统计推断提供了强大的工具，使得正态分布在统计学中占据了核心地位。

<END_OF_CHAPTER/>

8. chapter 8：随机过程基础 (Fundamentals of Stochastic Processes)

欢迎来到本书的第八章！在前几章中，我们系统地学习了概率论的基础知识，包括随机事件、随机变量及其分布、数字特征以及多维随机变量。这些概念构成了理解不确定性的基石。然而，在许多实际应用中，我们感兴趣的不仅仅是某个特定时刻的随机现象，而是随机现象随时间（或其他参数）演变的过程。例如，股票价格的波动、无线信道中的噪声、排队系统中顾客的数量变化，这些都是随时间变化的随机现象。为了描述和分析这类现象，我们需要引入一个新的数学工具——随机过程（Stochastic Process）。

本章将作为连接概率论与信息论中更高级概念（如信息源建模、信道建模）的桥梁。我们将从随机过程的基本定义出发，探讨其不同的描述方式和分类，并重点介绍有限维分布这一核心概念，它为我们提供了刻画随机过程统计特性的强大手段。掌握随机过程的基础知识，对于深入理解信息论中的熵率（Entropy Rate）、信道容量（Channel Capacity）等概念至关重要。

8.1 随机过程的定义与描述 (Definition and Description of Stochastic Processes)

在概率论中，随机变量（Random Variable）是定义在样本空间（Sample Space）上的一个函数，它将样本空间的每一个结果映射为一个实数。随机变量描述的是某个特定时刻或特定条件下随机现象的数值结果。

而随机过程（Stochastic Process）可以看作是一族（Family）随机变量的集合，这些随机变量按照某个参数（通常是时间）进行索引。更正式地说，一个随机过程 ${X (t), t \in T}$ 是指一个集合，其中的每个元素 $X (t)$ 都是一个随机变量，而 $T$ 是一个索引集（Index Set），通常表示时间。 ${X (t), t \in T}$ 这里的 $t$ 可以是离散的（例如 $t \in {0, 1, 2, \dots}$ ），也可以是连续的（例如 $t \in [0, \infty)$ ）。对于每一个固定的 $t \in T$ ， $X (t)$ 是一个随机变量，它有自己的概率分布。

随机过程的样本空间 $Ω$ 与单个随机变量的样本空间类似，但对于随机过程而言，样本空间中的每一个基本结果 $ω \in Ω$ 对应于随机过程的一个完整的实现（Realization）或样本函数（Sample Function）或轨道（Path）。也就是说，对于固定的 $ω$ ，函数 $x (t, ω) = X (t) (ω)$ 是一个关于 $t$ 的确定性函数，这就是随机过程的一个样本路径。

定义 (Definition):
一个随机过程 ${X (t), t \in T}$ 是定义在概率空间 $(Ω, F, P)$ 上的一个函数 $X : T \times Ω \to R$ ，使得对于每一个固定的 $t \in T$ ， $X (t, \cdot)$ 是一个随机变量。

我们可以从不同的角度来描述或理解一个随机过程：

① 集合观点 (Set Viewpoint): 随机过程是随机变量的集合 ${X (t) ∣ t \in T}$ 。每个 $X (t)$ 是一个随机变量，描述了在时刻 $t$ 的随机状态。
② 样本路径观点 (Sample Path Viewpoint): 随机过程是样本函数的集合 ${x (t, ω) ∣ ω \in Ω}$ 。每个 $x (t, ω)$ 是一个关于 $t$ 的确定性函数，描述了随机过程的一种可能的演变轨迹。
③ 统计观点 (Statistical Viewpoint): 随机过程的统计特性由其在不同时刻的随机变量的联合分布（Joint Distribution）来描述。这是信息论和许多工程应用中最常用的观点，也是本章后续部分和本书后续章节关注的重点。

例子 (Examples):

⚝ 股票价格 (Stock Price): 设 $S (t)$ 表示某只股票在时刻 $t$ 的价格。那么 ${S (t), t \geq 0}$ 可以看作一个随机过程。每个样本路径对应于该股票价格随时间变化的一条具体曲线。
⚝ 环境噪声 (Environmental Noise): 在通信系统中，接收到的信号常常叠加有随机噪声。设 $N (t)$ 表示时刻 $t$ 的噪声电压。那么 ${N (t), t \in R}$ 是一个随机过程。
⚝ 排队长度 (Queue Length): 在一个服务系统中，设 $Q_{n}$ 表示第 $n$ 个顾客到达时队列中的人数。那么 ${Q_{n}, n = 1, 2, \dots}$ 是一个离散时间随机过程。

理解随机过程的关键在于认识到它既有随机性（在样本空间 $Ω$ 上），又有确定性（对于固定的 $ω$ ，样本路径是确定的函数）。我们的目标通常是分析其统计特性，即不同时刻随机变量之间的概率关系。

8.2 随机过程的分类 (Classification of Stochastic Processes)

随机过程可以根据其索引集 $T$ 和状态空间（State Space） $S$ 进行分类。状态空间是指随机过程取值的所有可能集合。对于 $X (t)$ ，其状态空间就是 $X (t)$ 所有可能取值的集合。

① 根据索引集 $T$ 分类:
▮▮▮▮ⓑ 离散时间随机过程 (Discrete-Time Stochastic Process): 索引集 $T$ 是一个可数集合，通常是整数集合或其子集，如 $T = {0, 1, 2, \dots}$ 或 $T = {\dots, - 1, 0, 1, \dots}$ 。我们通常用 $X_{n}$ 来表示离散时间随机过程，其中 $n \in T$ 。
▮▮▮▮▮▮▮▮❸ 例子 (Example): 抛硬币序列（正面记为1，反面记为0），每天的最高气温序列，每年的人口数量。
▮▮▮▮ⓓ 连续时间随机过程 (Continuous-Time Stochastic Process): 索引集 $T$ 是一个不可数集合，通常是实数轴上的一个区间，如 $T = [0, \infty)$ 或 $T = (- \infty, \infty)$ 。我们通常用 $X (t)$ 来表示连续时间随机过程，其中 $t \in T$ 。
▮▮▮▮▮▮▮▮❺ 例子 (Example): 股票价格，环境噪声电压，液体中微粒的布朗运动轨迹。

② 根据状态空间 $S$ 分类:
▮▮▮▮ⓑ 离散状态随机过程 (Discrete-State Stochastic Process): 状态空间 $S$ 是一个可数集合，通常是整数集合或其子集。
▮▮▮▮▮▮▮▮❸ 例子 (Example): 排队长度（人数是整数），抛硬币序列（状态是{0, 1}），马尔可夫链（状态通常是有限或可数的）。
▮▮▮▮ⓓ 连续状态随机过程 (Continuous-State Stochastic Process): 状态空间 $S$ 是一个不可数集合，通常是实数集合 $R$ 或其子集。
▮▮▮▮▮▮▮▮❺ 例子 (Example): 股票价格（价格可以是任意正实数），噪声电压，布朗运动的位置。

结合索引集和状态空间的分类，我们可以得到四种基本的随机过程类型：

⚝ 离散时间离散状态随机过程 (Discrete-Time Discrete-State Stochastic Process)
⚝ 离散时间连续状态随机过程 (Discrete-Time Continuous-State Stochastic Process)
⚝ 连续时间离散状态随机过程 (Continuous-Time Discrete-State Stochastic Process)
⚝ 连续时间连续状态随机过程 (Continuous-Time Continuous-State Stochastic Process)

在信息论中，我们经常会遇到离散时间离散状态的随机过程，它们可以用来建模离散信息源（如文本序列、数字信号）。连续时间连续状态的随机过程则常用于建模模拟信号或通信信道中的噪声。

除了基于索引集和状态空间的分类，随机过程还可以根据其内部的依赖关系或特性进行分类，例如：

⚝ 独立同分布过程 (Independent and Identically Distributed (IID) Process): 过程中的随机变量 $X (t)$ 对于不同的 $t$ 是相互独立且具有相同分布的。这是最简单的随机过程模型，常用于描述无记忆（Memoryless）的信息源。
⚝ 马尔可夫过程 (Markov Process): 过程的未来状态只依赖于当前状态，而与过去状态无关。这是信息论中重要的信息源和信道模型。我们将在后续章节详细讨论马尔可夫链（离散时间马尔可夫过程）。
⚝ 平稳过程 (Stationary Process): 过程的统计特性不随时间平移而改变。这对于分析和处理随机信号非常重要。
⚝ 高斯过程 (Gaussian Process): 过程中任意有限个随机变量的联合分布都是多维正态分布（Multivariate Normal Distribution）。高斯过程在建模连续信号和噪声方面有广泛应用。

这些更具体的随机过程模型将在后续章节中详细介绍。本章的重点是建立理解所有随机过程所需的基础概念。

8.3 有限维分布 (Finite-Dimensional Distributions)

我们已经知道，一个随机过程 ${X (t), t \in T}$ 是一族随机变量。要完整地描述一个随机过程的统计特性，理论上需要知道所有这些随机变量的联合分布。然而，由于索引集 $T$ 可能包含无限多个点，直接描述所有随机变量的联合分布是不现实的。

幸运的是，根据 Kolmogorov 扩展定理（Kolmogorov Extension Theorem），一个随机过程的统计特性可以由其所有有限维联合分布（Finite-Dimensional Joint Distributions）唯一确定（在满足一定一致性条件的情况下）。

定义 (Definition):
对于随机过程 ${X (t), t \in T}$ ，选取任意有限个索引值 $t_{1}, t_{2}, \dots, t_{n} \in T$ ，则随机变量组 $(X (t_{1}), X (t_{2}), \dots, X (t_{n}))$ 的联合分布称为该随机过程的一个 $n$ 维有限维分布。

具体来说，对于任意正整数 $n$ 和任意 $t_{1}, t_{2}, \dots, t_{n} \in T$ ，以及任意实数 $x_{1}, x_{2}, \dots, x_{n}$ ， $n$ 维有限维分布由以下联合累积分布函数（Joint Cumulative Distribution Function）给出： $F_{X (t_{1}), \dots, X (t_{n})} (x_{1}, \dots, x_{n}) = P (X (t_{1}) \leq x_{1}, \dots, X (t_{n}) \leq x_{n})$ 如果随机过程是离散状态的，我们可以用联合概率质量函数（Joint Probability Mass Function (PMF)）来描述： $p_{X (t_{1}), \dots, X (t_{n})} (x_{1}, \dots, x_{n}) = P (X (t_{1}) = x_{1}, \dots, X (t_{n}) = x_{n})$ 如果随机过程是连续状态的且存在概率密度函数，我们可以用联合概率密度函数（Joint Probability Density Function (PDF)）来描述： $f_{X (t_{1}), \dots, X (t_{n})} (x_{1}, \dots, x_{n})$ 一致性条件 (Consistency Conditions):
为了使这些有限维分布能够描述同一个随机过程，它们必须满足两个一致性条件：

① 对称性 (Symmetry): 对于任意 $t_{1}, \dots, t_{n}$ 和任意排列 $σ$ of ${1, \dots, n}$ ，有 $F_{X (t_{1}), \dots, X (t_{n})} (x_{1}, \dots, x_{n}) = F_{X (t_{σ (1)}), \dots, X (t_{σ (n)})} (x_{σ (1)}, \dots, x_{σ (n)})$ 这意味着改变时间点的顺序只会相应地改变变量的顺序，而不会改变联合分布本身。

② 相容性 (Compatibility) 或边缘化 (Marginalization): 对于任意 $t_{1}, \dots, t_{n}$ 和 $n > m$ ，通过对 $x_{m + 1}, \dots, x_{n}$ 取极限（对于CDF）或求和/积分（对于PMF/PDF），可以得到较低维的分布： $F_{X (t_{1}), \dots, X (t_{m})} (x_{1}, \dots, x_{m}) = lim_{x_{m + 1} \to \infty, \dots, x_{n} \to \infty} F_{X (t_{1}), \dots, X (t_{n})} (x_{1}, \dots, x_{n})$ 这意味着高维的联合分布必须能够通过边缘化得到低维的联合分布。

Kolmogorov 扩展定理表明，如果给定一族满足这些一致性条件的有限维分布，那么存在一个概率空间和一个随机过程，其有限维分布恰好是给定的这一族分布。这一定理的意义在于，我们无需直接处理无限维的概率分布，而只需要研究其所有有限维联合分布，就可以完全刻画随机过程的统计行为。

在实际应用中，描述一个随机过程通常就是给出其所有（或关键的）有限维分布的形式。例如，对于高斯过程，其任意有限维分布都是多维正态分布，而多维正态分布完全由其均值向量（Mean Vector）和协方差矩阵（Covariance Matrix）决定。因此，描述一个高斯过程就等价于给出其均值函数 $E [X (t)]$ 和协方差函数 $C o v (X (t_{i}), X (t_{j}))$ 。

理解有限维分布的概念是分析随机过程统计特性的基础。后续章节中讨论的随机过程的平稳性、遍历性等性质，以及信息论中的熵率、互信息等概念，都与随机过程的有限维分布紧密相关。例如，严平稳过程（Strictly Stationary Process）的定义就是其任意有限维分布在时间平移下保持不变。

本章我们初步认识了随机过程这一重要的数学工具，理解了其定义、不同的描述方式以及基于索引集和状态空间的基本分类。最重要的是，我们学习了有限维分布的概念及其在刻画随机过程统计特性中的核心地位。在下一章中，我们将深入探讨一些重要的随机过程模型，如泊松过程、马尔可夫链和高斯过程，并分析它们的具体性质。

<END_OF_CHAPTER/>

9. chapter 9：重要随机过程模型 (Important Stochastic Process Models)

在前面的章节中，我们学习了概率论的基础知识以及随机过程的基本概念和分类。随机过程是描述随时间（或其他参数）变化的随机现象的数学模型。在信息论以及许多其他领域，如通信、金融、物理、生物等，一些特定的随机过程模型扮演着极其重要的角色。本章将深入探讨几个最基本且应用广泛的重要随机过程模型：伯努利过程与随机游走、泊松过程、马尔可夫链以及高斯过程。理解这些模型是进一步学习信息论中随机信号处理、信源建模、信道建模等内容的基础。

9.1 伯努利过程与随机游走 (Bernoulli Process and Random Walk)

伯努利过程 (Bernoulli Process) 是最简单的离散时间随机过程之一，它由一系列独立的、同分布的伯努利试验 (Bernoulli Trial) 组成。每个伯努利试验只有两个可能的结果，通常称为“成功”和“失败”，成功的概率为 $p$ ，失败的概率为 $1 - p$ 。

形式上，一个伯努利过程可以表示为一个随机变量序列 $X_{1}, X_{2}, \dots, X_{n}, \dots$ ，其中每个 $X_{i}$ 都是一个伯努利随机变量，即 $P (X_{i} = 1) = p$ (成功) 且 $P (X_{i} = 0) = 1 - p$ (失败)，并且对于任意 $i \neq j$ ， $X_{i}$ 和 $X_{j}$ 是相互独立的。

伯努利过程的应用非常广泛，例如：
⚝ 抛硬币序列（正面为成功，反面为失败）。
⚝ 产品质量检测（合格为成功，不合格为失败）。
⚝ 数字通信中传输的二进制比特序列（接收正确为成功，接收错误为失败）。

随机游走 (Random Walk) 是一种重要的随机过程，它描述了一个在数学空间中随机移动的点的轨迹。最简单的随机游走与伯努利过程密切相关，称为一维简单随机游走 (One-Dimensional Simple Random Walk)。

考虑一个质点从数轴上的原点（位置0）出发，在离散的时间步长 $t = 1, 2, \dots$ 上移动。在每个时间步，质点以概率 $p$ 向右移动一个单位长度（+1），以概率 $1 - p$ 向左移动一个单位长度（-1）。

设 $Y_{i}$ 是第 $i$ 步的位移，则 $Y_{i}$ 是一个随机变量， $P (Y_{i} = 1) = p$ 且 $P (Y_{i} = - 1) = 1 - p$ 。如果我们将向右移动看作伯努利试验的“成功”（结果为1），向左移动看作“失败”（结果为0），那么 $Y_{i}$ 可以通过伯努利随机变量 $X_{i}$ 来表示： $Y_{i} = 2 X_{i} - 1$ 。当 $X_{i} = 1$ 时， $Y_{i} = 1$ ，当 $X_{i} = 0$ 时， $Y_{i} = - 1$ 。

质点在时间 $n$ 的位置 $S_{n}$ 是前 $n$ 步位移的总和： $S_{n} = Y_{1} + Y_{2} + \dots + Y_{n}$ 其中 $S_{0} = 0$ 。这个序列 ${S_{n}}_{n = 0}^{\infty}$ 就是一个一维随机游走过程。

如果 $p = 1 / 2$ ，则称为简单对称随机游走 (Simple Symmetric Random Walk)。在这种情况下，向左和向右移动的概率相等。

随机游走在许多领域都有应用，例如：
⚝ 物理学中的布朗运动 (Brownian Motion) 的离散模型。
⚝ 金融学中股票价格的波动模型。
⚝ 计算机科学中的算法分析。
⚝ 统计学中的假设检验。

随机游走的许多性质，如回到原点的概率、首次到达某个位置的时间等，都可以通过概率论的方法进行分析。

9.2 泊松过程 (Poisson Process)

泊松过程 (Poisson Process) 是一种重要的计数过程 (Counting Process)，它描述了在给定时间间隔内某个特定事件发生的次数。它通常用于建模稀有事件在连续时间中随机发生的现象。

一个计数过程 ${N (t), t \geq 0}$ 是一个随机过程，其中 $N (t)$ 表示在时间间隔 $[0, t]$ 内事件发生的总次数。对于泊松过程，它满足以下性质：

① $N (0) = 0$ 。
② 过程具有独立增量 (Independent Increments)：对于任意 $0 \leq t_{1} < t_{2} \leq t_{3} < t_{4}$ ，增量 $N (t_{4}) - N (t_{3})$ 和 $N (t_{2}) - N (t_{1})$ 是相互独立的随机变量。这意味着在不相交的时间间隔内事件发生的次数是相互独立的。
③ 过程具有平稳增量 (Stationary Increments)：对于任意 $t > 0$ 和 $h > 0$ ，增量 $N (t + h) - N (t)$ 的分布只依赖于时间间隔的长度 $h$ ，而与 $t$ 无关。
④ 在任意一个充分小的时间间隔 $Δ t$ 内，发生一次事件的概率近似与 $Δ t$ 成正比，发生多次事件的概率是 $Δ t$ 的高阶无穷小。具体来说，存在一个速率参数 $λ > 0$ ，使得：
▮▮▮▮ⓔ $P (N (t + Δ t) - N (t) = 1) = λ Δ t + o (Δ t)$ ▮▮▮▮ⓕ $P (N (t + Δ t) - N (t) \geq 2) = o (Δ t)$ ▮▮▮▮ⓖ $P (N (t + Δ t) - N (t) = 0) = 1 - λ Δ t + o (Δ t)$ 满足这些性质的计数过程称为强度为 $λ$ 的泊松过程。

泊松过程最重要的性质是，在任意时间间隔 $(t, t + h]$ 内事件发生的次数 $N (t + h) - N (t)$ 服从参数为 $λ h$ 的泊松分布 (Poisson Distribution)。即： $P (N (t + h) - N (t) = k) = \frac{e^{- λ h} (λ h)^{k}}{k!}, k = 0, 1, 2, \dots$ 其中 $λ$ 是泊松过程的速率 (Rate) 或强度 (Intensity)。

泊松过程的应用包括：
⚝ 电话呼叫中心在单位时间内接到的电话次数。
⚝ 放射性物质在单位时间内衰变的原子数。
⚝ 网站服务器在单位时间内收到的请求数。
⚝ 交通事故在单位时间内发生的次数。

泊松过程的另一个重要性质是事件发生的时间间隔。设 $T_{1}$ 是第一次事件发生的时间， $T_{2}$ 是第二次事件发生的时间，以此类推。则 $T_{1}, T_{2} - T_{1}, T_{3} - T_{2}, \dots$ 是相互独立的随机变量，且都服从参数为 $λ$ 的指数分布 (Exponential Distribution)。

9.3 马尔可夫链 (Markov Chains)

马尔可夫链 (Markov Chains) 是一类具有“无记忆性”或“马尔可夫性”的随机过程。马尔可夫性 (Markov Property) 指的是，给定现在状态，未来状态的条件概率分布与过去状态无关。简单来说，未来只取决于现在，与过去的历史路径无关。

9.3.1 离散时间马尔可夫链 (Discrete-Time Markov Chains (DTMC))

一个离散时间马尔可夫链 ${X_{n}, n = 0, 1, 2, \dots}$ 是一个随机过程，其状态空间 (State Space) $S$ 是一个可数集合（有限或无限可数），时间参数 $n$ 是离散的。它满足马尔可夫性：
对于任意 $n \geq 0$ 以及任意状态 $i_{0}, i_{1}, \dots, i_{n}, i_{n + 1} \in S$ ，如果 $P (X_{0} = i_{0}, X_{1} = i_{1}, \dots, X_{n} = i_{n}) > 0$ ，则 $P (X_{n + 1} = i_{n + 1} | X_{n} = i_{n}, X_{n - 1} = i_{n - 1}, \dots, X_{0} = i_{0}) = P (X_{n + 1} = i_{n + 1} | X_{n} = i_{n})$ 这个性质表明，过程在时刻 $n + 1$ 处于状态 $i_{n + 1}$ 的概率只取决于它在时刻 $n$ 处于状态 $i_{n}$ ，而与它在时刻 $0, 1, \dots, n - 1$ 的状态无关。

如果转移概率 $P (X_{n + 1} = j | X_{n} = i)$ 不依赖于时间 $n$ ，即对于所有 $n$ ， $P (X_{n + 1} = j | X_{n} = i) = P (X_{1} = j | X_{0} = i)$ ，则称该马尔可夫链是时齐的 (Time-Homogeneous) 或齐次的。本书主要讨论时齐马尔可夫链。

转移概率通常用 $p_{i j}$ 表示，即从状态 $i$ 转移到状态 $j$ 的一步转移概率 (One-step Transition Probability)： $p_{i j} = P (X_{n + 1} = j | X_{n} = i)$ 对于一个具有 $N$ 个状态（ $S = {1, 2, \dots, N}$ ）的有限状态马尔可夫链，这些一步转移概率可以构成一个 $N \times N$ 的转移概率矩阵 (Transition Probability Matrix) $P$ ，其中矩阵的第 $i$ 行第 $j$ 列的元素是 $p_{i j}$ 。 $P = (\begin{matrix} p_{11} & p_{12} & \dots & p_{1 N} \\ p_{21} & p_{22} & \dots & p_{2 N} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ p_{N 1} & p_{N 2} & \dots & p_{N N} \end{matrix})$ 转移概率矩阵的每一行的元素之和必须等于 1，即 $\sum_{j = 1}^{N} p_{i j} = 1$ 对于所有 $i \in S$ 。这样的矩阵称为随机矩阵 (Stochastic Matrix)。

马尔可夫链的初始状态分布 (Initial State Distribution) 是一个概率向量 $π^{(0)} = (π_{1}^{(0)}, π_{2}^{(0)}, \dots, π_{N}^{(0)})$ ，其中 $π_{i}^{(0)} = P (X_{0} = i)$ ，且 $\sum_{i = 1}^{N} π_{i}^{(0)} = 1$ 。

利用转移概率矩阵，我们可以计算 $n$ 步转移概率 (n-step Transition Probability) $p_{i j}^{(n)} = P (X_{m + n} = j | X_{m} = i)$ 。根据马尔可夫性和时齐性， $p_{i j}^{(n)}$ 是转移概率矩阵 $P$ 的 $n$ 次幂 $P^{n}$ 的第 $i$ 行第 $j$ 列的元素。这就是著名的 Chapman-Kolmogorov 方程。

马尔可夫链的应用非常广泛，例如：
⚝ 网页排名算法 (PageRank)。
⚝ 自然语言处理中的隐马尔可夫模型 (Hidden Markov Models (HMM))。
⚝ 物理学中的统计力学。
⚝ 生物学中的基因序列分析。
⚝ 通信系统中的信道建模。

9.3.2 转移概率与状态分类 (Transition Probabilities and State Classification)

理解马尔可夫链的行为需要对状态进行分类。状态之间的可达性 (Reachability) 是分类的基础。
⚝ 状态 $j$ 从状态 $i$ 可达 (reachable)，记作 $i \to j$ ，如果存在 $n \geq 0$ 使得 $p_{i j}^{(n)} > 0$ 。注意， $i \to i$ 总是成立的（取 $n = 0$ ， $P^{0} = I$ ， $p_{i i}^{(0)} = 1$ ）。
⚝ 状态 $i$ 和状态 $j$ 相互可达 (communicate)，记作 $i \leftrightarrow j$ ，如果 $i \to j$ 且 $j \to i$ 。

相互可达关系是一个等价关系，它将状态空间 $S$ 划分为互不相交的等价类，称为通信类 (Communicating Classes)。
⚝ 如果一个通信类 $C$ 满足从类内的任何状态出发都无法转移到类外的任何状态，即对于任意 $i \in C$ 和 $j \notin C$ ， $p_{i j} = 0$ ，则称该类是闭的 (Closed Class)。
⚝ 如果一个马尔可夫链只有一个通信类，则称该链是不可约的 (Irreducible)。

根据状态的长期行为，可以将状态分为：
⚝ 常返状态 (Recurrent State)：如果从状态 $i$ 出发，最终一定会回到状态 $i$ ，则称状态 $i$ 是常返的。
⚝ 瞬时状态 (Transient State)：如果从状态 $i$ 出发，以正概率不再回到状态 $i$ ，则称状态 $i$ 是瞬时的。

在一个有限状态的马尔可夫链中，如果一个状态是常返的，那么从该状态出发，以概率 1 最终会回到该状态。如果一个状态是瞬时的，那么从该状态出发，最终停留在该状态的次数是有限的。在一个有限不可约马尔可夫链中，所有状态都是常返的。

状态的周期性 (Periodicity) 也是一个重要概念。
⚝ 状态 $i$ 的周期 (period) $d (i)$ 定义为从状态 $i$ 出发回到状态 $i$ 所需步数的集合 ${n \geq 1 : p_{i i}^{(n)} > 0}$ 的最大公约数 (greatest common divisor)。
⚝ 如果 $d (i) = 1$ ，则称状态 $i$ 是非周期的 (Aperiodic)。
⚝ 如果一个不可约马尔可夫链中存在一个非周期状态，则所有状态都是非周期的。这样的链称为非周期不可约马尔可夫链。

对于信息论中的许多应用，如信源建模，我们通常关注不可约且非周期的马尔可夫链。

9.3.3 平稳分布 (Stationary Distribution)

对于一个时齐马尔可夫链，我们常常关心其长期行为，特别是当 $n \to \infty$ 时，状态分布是否会趋于一个稳定的分布。如果存在一个概率分布 $π = (π_{1}, π_{2}, \dots, π_{N})$ 使得 $π P = π$ ，即 $\sum_{i = 1}^{N} π_{i} p_{i j} = π_{j}$ 对于所有 $j \in S$ ，并且 $\sum_{j = 1}^{N} π_{j} = 1$ ，则称 $π$ 是该马尔可夫链的平稳分布 (Stationary Distribution) 或不变分布 (Invariant Distribution)。

平稳分布 $π$ 的含义是，如果马尔可夫链的初始状态分布就是 $π$ ，即 $P (X_{0} = i) = π_{i}$ 对于所有 $i$ ，那么在任何时刻 $n > 0$ ，状态分布仍然是 $π$ ，即 $P (X_{n} = i) = π_{i}$ 对于所有 $i$ 和 $n$ 。

对于一个有限状态的不可约非周期马尔可夫链，存在唯一的平稳分布 $π$ ，并且对于任意初始分布，链在时刻 $n$ 的状态分布 $π^{(n)}$ 会随着 $n \to \infty$ 收敛到 $π$ ，即 $lim_{n \to \infty} p_{i j}^{(n)} = π_{j}$ 对于所有 $i, j \in S$ 。这意味着链的长期行为与初始状态无关。

求解平稳分布 $π$ 需要解线性方程组 $π P = π$ 和归一化条件 $\sum_{j = 1}^{N} π_{j} = 1$ 。方程组 $π P = π$ 可以写成 $π (P - I) = 0$ ，其中 $I$ 是单位矩阵。这是一个齐次线性方程组，结合归一化条件，可以唯一确定 $π$ 。

平稳分布在信息论中用于描述马尔可夫信源的长期统计特性，例如计算马尔可夫信源的熵率 (Entropy Rate)。

9.4 高斯过程 (Gaussian Process)

高斯过程 (Gaussian Process) 是一种重要的随机过程，它在机器学习、信号处理、统计建模等领域有广泛应用。一个随机过程 ${X (t), t \in T}$ 被称为高斯过程，如果对于任意有限的索引集合 ${t_{1}, t_{2}, \dots, t_{n}} \subseteq T$ ，随机向量 $(X (t_{1}), X (t_{2}), \dots, X (t_{n}))$ 服从一个多元正态分布 (Multivariate Normal Distribution)。

高斯过程完全由其均值函数 (Mean Function) $m (t)$ 和协方差函数 (Covariance Function) $k (s, t)$ 决定：
⚝ 均值函数： $m (t) = E [X (t)]$ ⚝ 协方差函数： $k (s, t) = C o v (X (s), X (t)) = E [(X (s) - m (s)) (X (t) - m (t))]$ 对于任意有限集合 ${t_{1}, \dots, t_{n}}$ ，随机向量 $X = (X (t_{1}), \dots, X (t_{n}))^{T}$ 服从均值为 $μ = (m (t_{1}), \dots, m (t_{n}))^{T}$ 且协方差矩阵为 $Σ$ 的多元正态分布，其中 $Σ_{i j} = k (t_{i}, t_{j})$ 。

高斯过程的性质：
⚝ 高斯过程的任意线性变换仍然是高斯过程。
⚝ 如果高斯过程是平稳的，其协方差函数 $k (s, t)$ 只依赖于时间差 $| s - t |$ ，即 $k (s, t) = C (| s - t |)$ 。
⚝ 如果高斯过程是宽平稳的 (Wide-Sense Stationary (WSS)) 且均值为常数，那么它也是严平稳的 (Strictly Stationary)。

高斯过程在信息论中常用于建模连续时间随机信号，例如通信信道中的高斯白噪声 (Gaussian White Noise)。高斯信道 (Gaussian Channel) 是信息论中一个重要的信道模型，其噪声被建模为高斯过程。

高斯过程在机器学习中被用作一种强大的非参数模型，用于回归和分类问题。它提供了一种对函数进行概率建模的方法。

总结来说，本章介绍的伯努利过程、随机游走、泊松过程、马尔可夫链和高斯过程是随机过程理论中最基本和最重要的模型。它们各自描述了不同类型的随机现象，并在信息论及相关领域有着广泛的应用。掌握这些模型的定义、性质和分析方法，是理解信息传输、存储和处理中随机性影响的关键。

<END_OF_CHAPTER/>

10. chapter 10：随机过程的性质分析 (Analysis of Stochastic Process Properties)

欢迎来到本书的第十章！在前几章中，我们已经系统地学习了概率论的基础知识、随机变量及其分布、多维随机变量以及重要的极限定理。这些构成了理解随机过程的坚实基础。在第八章和第九章，我们初步介绍了随机过程的定义、分类以及一些重要的模型，如伯努利过程、泊松过程和马尔可夫链。

本章将深入探讨随机过程的一些核心性质，特别是平稳性（Stationarity）、遍历性（Ergodicity）以及描述随机过程时间相关性的相关函数（Correlation Functions）和其在频域的对应——功率谱密度（Power Spectral Density, PSD）。这些性质对于分析和应用随机过程至关重要，尤其是在信息论、信号处理、通信系统和控制理论等领域。理解这些性质，能帮助我们更好地建模和分析随时间变化的随机现象，并从中提取有用的信息。

我们将从平稳性开始，区分严平稳和宽平稳过程，理解它们在数学定义上的差异以及实际应用中的侧重。接着，我们将探讨遍历性，这是一个允许我们从单个随机过程的实现（样本函数）来估计其统计平均值的重要性质。最后，我们将详细介绍相关函数和功率谱密度，它们是描述随机过程内部结构和频率成分的强大工具。

准备好了吗？让我们一起深入随机过程的精彩世界，探索其内在的统计规律！ 🚀

10.1 平稳性 (Stationarity)

在许多实际应用中，我们遇到的随机现象其统计特性似乎不随时间的推移而改变。例如，一个稳定运行的通信信道中的噪声，或者一个成熟市场中股票价格的微小波动（在短期内）。描述这类随机过程的核心概念就是平稳性。

平稳性意味着随机过程的统计特性在时间上是“不变的”或“均匀的”。这种不变性可以有不同的强度，从而引出不同类型的平稳性定义。理解平稳性对于分析随机过程的行为、预测其未来状态以及设计处理随机信号的系统至关重要。

10.1.1 严平稳过程 (Strictly Stationary Process)

严平稳过程（Strictly Stationary Process, SSP），也称为强平稳过程，是对随机过程统计特性在时间上不变的最严格的定义。

一个随机过程 ${X (t), t \in T}$ 被称为严平稳的，如果对于任意的整数 $n \geq 1$ ，任意的时刻 $t_{1}, t_{2}, \dots, t_{n} \in T$ ，以及任意的时间平移量 $τ$ 使得 $t_{1} + τ, t_{2} + τ, \dots, t_{n} + τ \in T$ ，随机向量 $(X (t_{1}), X (t_{2}), \dots, X (t_{n}))$ 的联合分布与随机向量 $(X (t_{1} + τ), X (t_{2} + τ), \dots, X (t_{n} + τ))$ 的联合分布相同。

用数学符号表示，就是对于任意 $n \geq 1$ ，任意 $t_{1}, \dots, t_{n} \in T$ ，任意 $τ$ 使得 $t_{i} + τ \in T$ 对所有 $i$ 成立，有： $F_{X (t_{1}), \dots, X (t_{n})} (x_{1}, \dots, x_{n}) = F_{X (t_{1} + τ), \dots, X (t_{n} + τ)} (x_{1}, \dots, x_{n})$ 其中 $F$ 表示联合累积分布函数（Joint Cumulative Distribution Function, Joint CDF）。

这意味着严平稳过程的任何有限维联合分布都不随时间的平移而改变。这是一个非常强的条件。

① 严平稳过程的性质：
▮▮▮▮ⓑ 均值（Mean）是常数：如果 $X (t)$ 是严平稳的，那么其均值 $E [X (t)]$ 存在且不依赖于时间 $t$ 。 $E [X (t)] = μ$ ▮▮▮▮ⓑ 自相关函数（Autocorrelation Function）只依赖于时间差：如果 $X (t)$ 是严平稳的，那么其自相关函数 $R_{X} (t_{1}, t_{2}) = E [X (t_{1}) X (t_{2})]$ 存在且只依赖于时间差 $τ = t_{2} - t_{1}$ 。 $R_{X} (t_{1}, t_{2}) = E [X (t_{1}) X (t_{1} + (t_{2} - t_{1}))] = R_{X} (0, t_{2} - t_{1})$ 通常记为 $R_{X} (τ)$ 。

严平稳是一个理想化的概念，在实际中很难严格满足。然而，许多实际过程在一定条件下可以近似为严平稳过程，这为分析带来了极大的便利。

10.1.2 宽平稳过程 (Wide-Sense Stationary (WSS) Process)

宽平稳过程（Wide-Sense Stationary Process, WSS），也称为弱平稳过程或协方差平稳过程，是对随机过程平稳性的一种较弱的定义。它只要求随机过程的一阶矩和二阶矩在时间上保持不变。

一个随机过程 ${X (t), t \in T}$ 被称为宽平稳的，如果满足以下两个条件：
① 均值存在且为常数：对于所有 $t \in T$ ，均值 $E [X (t)]$ 存在且不依赖于时间 $t$ 。 $E [X (t)] = μ$ ② 自相关函数存在且只依赖于时间差：对于所有 $t_{1}, t_{2} \in T$ ，自相关函数 $R_{X} (t_{1}, t_{2}) = E [X (t_{1}) X (t_{2})]$ 存在且只依赖于时间差 $τ = t_{2} - t_{1}$ 。 $R_{X} (t_{1}, t_{2}) = R_{X} (t_{2} - t_{1})$ 通常记为 $R_{X} (τ)$ ，其中 $τ = t_{2} - t_{1}$ 。

注意，这里的自相关函数定义是 $E [X (t_{1}) X (t_{2})]$ 。有时也会使用协方差函数（Covariance Function）来定义宽平稳性。协方差函数 $C_{X} (t_{1}, t_{2}) = E [(X (t_{1}) - μ) (X (t_{2}) - μ)]$ 。如果一个过程是宽平稳的，其协方差函数也只依赖于时间差 $τ = t_{2} - t_{1}$ ，即 $C_{X} (t_{1}, t_{2}) = C_{X} (t_{2} - t_{1})$ 。由于 $C_{X} (t_{1}, t_{2}) = R_{X} (t_{1}, t_{2}) - E [X (t_{1})] E [X (t_{2})]$ ，对于宽平稳过程， $C_{X} (τ) = R_{X} (τ) - μ^{2}$ 。因此，要求 $R_{X} (t_{1}, t_{2})$ 只依赖于时间差等价于要求 $C_{X} (t_{1}, t_{2})$ 只依赖于时间差（假设均值是常数）。

宽平稳性比严平稳性更容易满足，并且在许多实际应用中已经足够。例如，高斯过程（Gaussian Process）有一个非常重要的性质：如果一个高斯过程是宽平稳的，那么它也是严平稳的。但对于非高斯过程，严平稳通常比宽平稳要求更高。

⚝ 严平稳与宽平稳的关系：
▮▮⚝ 如果一个随机过程是严平稳的，并且其一阶矩和二阶矩存在，那么它一定是宽平稳的。
▮▮⚝ 反之不成立，宽平稳过程不一定是严平稳的（除非是高斯过程等特殊情况）。

理解这两种平稳性的区别非常重要。严平稳关注的是所有统计特性（由联合分布决定）的不变性，而宽平稳只关注均值和自相关函数（一阶和二阶矩）的不变性。在许多工程应用中，我们主要处理的是宽平稳过程，因为其分析相对简单，且许多重要的线性系统分析工具（如傅里叶分析）可以直接应用于宽平稳过程。

10.2 遍历性 (Ergodicity)

在研究随机过程时，我们通常感兴趣的是其统计平均值，例如均值、方差、自相关函数等。这些统计平均值是基于随机过程的整体概率分布来定义的（即集成平均，Ensemble Average）。然而，在实际应用中，我们往往只能观测到随机过程的一个或有限个实现（样本函数，Sample Function），而不是所有可能的实现。例如，我们只能记录某一天或某一段时间内的股票价格变化，或者某一次通信过程中接收到的信号。

遍历性（Ergodicity）是连接时间平均（Time Average）和集成平均（Ensemble Average）的一个重要概念。如果一个随机过程是遍历的，那么它的时间平均在某种意义下会收敛到其集成平均。这意味着我们可以通过分析单个（足够长）的样本函数来估计随机过程的统计特性，而无需知道其完整的概率分布。这在实际应用中具有巨大的价值，因为获取多个独立的样本函数往往是困难或不可能的。

严格定义遍历性需要用到极限定理和收敛概念（如均方收敛、概率收敛等），并且可以针对不同的统计量（如均值、自相关函数）来定义不同的遍历性。

① 均值遍历性 (Ergodicity in the Mean)：
一个宽平稳随机过程 ${X (t), t \in T}$ 被称为均值遍历的，如果其时间平均依概率或均方收敛于其集成平均（常数均值 $μ$ ）。
对于连续时间过程： $lim_{T \to \infty} \frac{1}{2 T} \int_{- T}^{T} X (t) d t = E [X (t)] = μ$ （收敛方式可以是依概率或均方）
对于离散时间过程： $lim_{N \to \infty} \frac{1}{2 N + 1} \sum_{n = - N}^{N} X [n] = E [X [n]] = μ$ （收敛方式可以是依概率或均方）

② 自相关函数遍历性 (Ergodicity in the Autocorrelation Function)：
一个宽平稳随机过程 ${X (t), t \in T}$ 被称为自相关函数遍历的，如果其时间自相关函数依概率或均方收敛于其集成自相关函数 $R_{X} (τ)$ 。
对于连续时间过程： $lim_{T \to \infty} \frac{1}{2 T} \int_{- T}^{T} X (t) X (t + τ) d t = E [X (t) X (t + τ)] = R_{X} (τ)$ （收敛方式可以是依概率或均方）
对于离散时间过程： $lim_{N \to \infty} \frac{1}{2 N + 1} \sum_{n = - N}^{N} X [n] X [n + k] = E [X [n] X [n + k]] = R_{X} [k]$ （收敛方式可以是依概率或均方）

⚝ 遍历性的重要性：
▮▮⚝ 允许我们从单个样本函数估计统计特性。
▮▮⚝ 是许多信号处理和系统分析方法的基础。
▮▮⚝ 通常，遍历性比平稳性更难证明，但对于许多实际应用中的平稳过程，遍历性是一个合理的假设。

⚝ 遍历性与平稳性的关系：
▮▮⚝ 遍历性通常要求过程是平稳的。一个非平稳过程的时间平均通常不会收敛到一个常数，更不会收敛到其随时间变化的集成平均。
▮▮⚝ 平稳性是遍历性的必要条件，但不是充分条件。存在平稳过程但不遍历的例子（例如，一个随机选择一个常数值并保持不变的过程，它是严平稳的，但时间平均就是那个常数值，而集成平均是所有可能常数值的平均，两者不一定相等）。
▮▮⚝ 对于满足某些额外条件（如自相关函数在无穷远处趋于零）的宽平稳过程，可以证明其均值和自相关函数是遍历的。

在信息论和通信系统中，我们经常假设信源（Information Source）和信道（Channel）是平稳且遍历的，这样我们就可以通过观测实际的信号序列来估计其统计模型和参数。

10.3 相关函数与功率谱密度 (Correlation Functions and Power Spectral Density (PSD))

相关函数和功率谱密度是描述随机过程二阶统计特性最重要的工具。它们揭示了随机过程在不同时间点上的取值之间的统计依赖关系，以及随机过程的能量或功率在不同频率上的分布。

10.3.1 相关函数 (Correlation Functions)

相关函数衡量的是随机过程在不同时间点上的取值之间的相关程度。对于一个随机过程 ${X (t), t \in T}$ ，我们主要关注两种相关函数：自相关函数和互相关函数。

① 自相关函数 (Autocorrelation Function, ACF)：
自相关函数描述的是随机过程自身在不同时间点上的取值之间的相关性。对于一个实值随机过程 $X (t)$ ，其自相关函数定义为： $R_{X} (t_{1}, t_{2}) = E [X (t_{1}) X (t_{2})]$ 如果过程是宽平稳的，自相关函数只依赖于时间差 $τ = t_{2} - t_{1}$ ，记为 $R_{X} (τ)$ ： $R_{X} (τ) = E [X (t) X (t + τ)]$ 其中 $τ$ 称为滞后（Lag）。

⚝ 宽平稳过程自相关函数 $R_{X} (τ)$ 的性质：
▮▮⚝ $R_{X} (0) = E [X^{2} (t)]$ ，表示过程的平均功率（对于零均值过程，是方差）。
▮▮⚝ $R_{X} (τ) = R_{X} (- τ)$ ，自相关函数是滞后 $τ$ 的偶函数。
▮▮⚝ $| R_{X} (τ) | \leq R_{X} (0)$ ，自相关函数的最大值在 $τ = 0$ 处取得。
▮▮⚝ $R_{X} (τ)$ 是非负定函数（Non-negative Definite Function）。这意味着对于任意 $n \geq 1$ ，任意时刻 $t_{1}, \dots, t_{n}$ 和任意复数 $c_{1}, \dots, c_{n}$ ，有 $\sum_{i = 1}^{n} \sum_{j = 1}^{n} c_{i} c_{j}^{*} R_{X} (t_{i} - t_{j}) \geq 0$ 。

② 互相关函数 (Cross-correlation Function, CCF)：
互相关函数描述的是两个不同的随机过程 ${X (t), t \in T}$ 和 ${Y (t), t \in T}$ 在不同时间点上的取值之间的相关性。对于实值随机过程 $X (t)$ 和 $Y (t)$ ，其互相关函数定义为： $R_{X Y} (t_{1}, t_{2}) = E [X (t_{1}) Y (t_{2})]$ 如果 $X (t)$ 和 $Y (t)$ 都是联合宽平稳的（Jointly Wide-Sense Stationary），即它们各自是宽平稳的，并且它们的互相关函数只依赖于时间差 $τ = t_{2} - t_{1}$ ，记为 $R_{X Y} (τ)$ ： $R_{X Y} (τ) = E [X (t) Y (t + τ)]$ ⚝ 联合宽平稳过程互相关函数 $R_{X Y} (τ)$ 的性质：
▮▮⚝ $R_{X Y} (τ) = R_{Y X} (- τ)$ 。
▮▮⚝ $| R_{X Y} (τ) |^{2} \leq R_{X} (0) R_{Y} (0)$ ，这是柯西-施瓦茨不等式（Cauchy-Schwarz Inequality）的应用。

相关函数提供了随机过程在时域上的统计结构信息。例如，如果 $R_{X} (τ)$ 在 $τ$ 较大时迅速衰减到零，说明过程在相隔较远的时间点上的取值几乎不相关；如果 $R_{X} (τ)$ 呈现周期性，说明过程可能包含周期性成分。

10.3.2 功率谱密度 (Power Spectral Density (PSD))

功率谱密度（Power Spectral Density, PSD）描述了随机过程的平均功率在不同频率上的分布。它是随机过程在频域上的重要特征。对于宽平稳过程，功率谱密度与自相关函数之间存在着重要的关系，由维纳-辛钦定理（Wiener-Khinchin Theorem）给出。

① 维纳-辛钦定理 (Wiener-Khinchin Theorem)：
对于一个宽平稳随机过程 $X (t)$ ，其功率谱密度 $S_{X} (f)$ 是其自相关函数 $R_{X} (τ)$ 的傅里叶变换（Fourier Transform）。
对于连续时间过程： $S_{X} (f) = F {R_{X} (τ)} = \int_{- \infty}^{\infty} R_{X} (τ) e^{- j 2 π f τ} d τ$ 反之，自相关函数是功率谱密度的逆傅里叶变换： $R_{X} (τ) = F^{- 1} {S_{X} (f)} = \int_{- \infty}^{\infty} S_{X} (f) e^{j 2 π f τ} d f$ 对于离散时间过程 $X [n]$ ，其功率谱密度 $S_{X} (f)$ 是其自相关函数 $R_{X} [k]$ 的离散时间傅里叶变换（Discrete-Time Fourier Transform, DTFT）： $S_{X} (f) = \sum_{k = - \infty}^{\infty} R_{X} [k] e^{- j 2 π f k}$ 其中 $f$ 是归一化频率，范围通常在 $[- 0.5, 0.5]$ 或 $[0, 1]$ 。

⚝ 功率谱密度 $S_{X} (f)$ 的性质：
▮▮⚝ $S_{X} (f)$ 是实数且非负，即 $S_{X} (f) \geq 0$ 。这反映了功率是实数且非负的物理意义。
▮▮⚝ 对于实值随机过程， $S_{X} (f) = S_{X} (- f)$ ，功率谱密度是频率 $f$ 的偶函数。
▮▮⚝ $\int_{- \infty}^{\infty} S_{X} (f) d f = R_{X} (0) = E [X^{2} (t)]$ ，功率谱密度在所有频率上的积分等于过程的平均功率。

功率谱密度在频域上刻画了随机过程的特性。例如，如果 $S_{X} (f)$ 在某个频率范围有较大的值，说明过程在该频率范围包含较多的功率成分。白噪声（White Noise）是一个重要的概念，其功率谱密度在所有频率上是常数，这意味着其功率均匀分布在所有频率上，且其自相关函数是一个冲激函数（Impulse Function），表示在不同时间点的取值完全不相关。

在信息论和通信系统中，功率谱密度是分析信号和噪声特性的重要工具。例如，信道容量的计算（如香农-哈特利定理，Shannon-Hartley Theorem）就依赖于信号和噪声的功率谱密度。

总结本章，我们深入探讨了随机过程的三个核心性质：平稳性、遍历性以及由相关函数和功率谱密度描述的二阶统计特性。这些概念是理解和分析随机过程的基础，也是将概率论和随机过程应用于信息论及其他工程领域不可或缺的工具。在后续章节中，我们将看到这些概念如何在信息量、熵、信道容量等信息论核心概念中发挥作用。

<END_OF_CHAPTER/>

好的，同学们，欢迎来到本书的第11章。在前面的章节中，我们系统地学习了概率论和随机过程的基础知识。现在，是时候将这些强大的数学工具应用到信息论的核心概念中了。本章将作为一座桥梁，连接我们之前学习的数学理论与信息论的基本原理，初步探讨概率分布、随机变量和随机过程如何在信息量、熵、互信息以及信息源和信道建模中发挥关键作用。

11. chapter 11：概率与随机过程在信息论中的初步应用 (Preliminary Applications of Probability and Stochastic Processes in Information Theory)

11.1 概率分布与信息量、熵 (Probability Distributions and Information Content, Entropy)

信息论的核心在于量化信息。我们如何衡量一个事件或一个随机变量所包含的信息量呢？直观上，一个不太可能发生的事件一旦发生，它带给我们的“惊讶”程度更高，也就是说，它包含的信息量更大。反之，一个必然发生的事件，它的发生不会给我们带来任何新的信息。这提示我们，信息量应该与事件发生的概率有关，并且是概率的减函数。

香农（Claude Shannon）在创立信息论时，正是基于这种直觉，定义了事件的信息量。

① 事件的信息量 (Information Content of an Event)

考虑一个离散随机变量 $X$ ，它取值为 $x$ 的概率是 $P (X = x)$ 。我们将事件 ${X = x}$ 的信息量（也称为自信息量 (self-information)）定义为： $I (x) = - \log_{b} P (x)$ 这里， $b$ 是对数的底数，它决定了信息量的单位。
▮▮▮▮ⓐ 如果 $b = 2$ ，信息量的单位是比特 (bits)。这是信息论中最常用的单位。
▮▮▮▮ⓑ 如果 $b = e$ ，信息量的单位是纳特 (nats)。
▮▮▮▮ⓒ 如果 $b = 10$ ，信息量的单位是哈特莱 (Hartleys) 或迪特 (dits)。

为什么选择对数函数呢？
⚝ 可加性：如果我们有两个独立的事件 $A$ 和 $B$ ，它们同时发生的信息量应该是它们各自信息量之和。即 $I (A and B) = I (A) + I (B)$ 。由于 $P (A and B) = P (A) P (B)$ 对于独立事件成立，而对数函数满足 $\log (a b) = \log a + \log b$ ，所以 $- \log (P (A) P (B)) = - \log P (A) - \log P (B)$ ，这与信息量的可加性要求一致。
⚝ 概率越小，信息量越大：当 $P (x) \to 0$ ， $I (x) \to \infty$ 。当 $P (x) = 1$ ， $I (x) = - \log_{b} 1 = 0$ 。这符合我们的直觉。
⚝ 连续性：信息量函数是概率的连续函数。

② 随机变量的熵 (Entropy of a Random Variable)

自信息量衡量的是某个特定事件发生所带来的信息。而熵（Entropy）则衡量的是一个随机变量平均而言包含的信息量，或者说，描述一个随机变量的不确定性程度。它是随机变量所有可能取值的自信息量的期望 (Expectation)。

对于一个离散随机变量 $X$ ，其概率质量函数 (Probability Mass Function, PMF) 为 $P (x)$ ，其熵 $H (X)$ 定义为： $H (X) = E [I (X)] = \sum_{x} P (x) I (x) = - \sum_{x} P (x) \log_{b} P (x)$ 求和范围是 $X$ 所有可能的取值。如果 $P (x) \log_{b} P (x)$ 在 $P (x) = 0$ 时出现，我们定义 $0 \log_{b} 0 = 0$ ，这可以通过取极限 $lim_{p \to 0^{+}} p \log_{b} p = 0$ 来证明。

熵的性质：
⚝ 非负性： $H (X) \geq 0$ 。信息量和概率都在 $[0, 1]$ 范围内， $- \log_{b} P (x) \geq 0$ 当 $b > 1$ ，所以熵是非负的。
⚝ 确定性事件的熵为零：如果 $X$ 是一个确定性变量，即它只取一个值 $x_{0}$ 且 $P (x_{0}) = 1$ ，则 $H (X) = - 1 \log_{b} 1 = 0$ 。这符合确定性事件不含信息的直觉。
⚝ 均匀分布的熵最大：对于一个有 $N$ 个可能取值的离散随机变量，当其概率分布是均匀分布时，即 $P (x_{i}) = 1 / N$ 对于所有 $i$ 成立，其熵达到最大值 $\log_{b} N$ 。这反映了均匀分布具有最大的不确定性。

示例：抛硬币 🪙
考虑一个公平的硬币，正面 (H) 和反面 (T) 的概率都是 0.5。 $P (H) = 0.5$ , $P (T) = 0.5$ 。
使用比特作为单位 ( $b = 2$ )：
自信息量： $I (H) = - \log_{2} (0.5) = - \log_{2} (1 / 2) = - (- 1) = 1$ bit。 $I (T) = - \log_{2} (0.5) = 1$ bit。
熵： $H (X) = - P (H) \log_{2} P (H) - P (T) \log_{2} P (T) = - 0.5 \log_{2} 0.5 - 0.5 \log_{2} 0.5 = - 0.5 (- 1) - 0.5 (- 1) = 0.5 + 0.5 = 1$ bit。
一个公平的硬币每次抛掷提供 1 比特的信息。

考虑一个不公平的硬币，正面概率 0.9，反面概率 0.1。 $P (H) = 0.9$ , $P (T) = 0.1$ 。
自信息量： $I (H) = - \log_{2} (0.9) \approx 0.152$ bits。 $I (T) = - \log_{2} (0.1) \approx 3.322$ bits。
熵： $H (X) = - 0.9 \log_{2} 0.9 - 0.1 \log_{2} 0.1 \approx - 0.9 (- 0.152) - 0.1 (- 3.322) \approx 0.137 + 0.332 = 0.469$ bits。
不公平硬币的熵小于公平硬币的熵，因为它的结果更具确定性（更倾向于正面）。

对于连续随机变量 (Continuous Random Variable)，熵的定义需要用积分代替求和，称为微分熵 (Differential Entropy)。
对于概率密度函数 (Probability Density Function, PDF) 为 $f (x)$ 的连续随机变量 $X$ ，其微分熵 $h (X)$ 定义为： $h (X) = - \int_{- \infty}^{\infty} f (x) \log_{b} f (x) d x$ 需要注意的是，微分熵与离散熵有一些不同之处，例如微分熵可以是负值，并且它不直接表示信息量的绝对值，而更多地用于衡量概率分布的“散布”程度或不确定性的相对度量。

11.2 联合分布与互信息 (Joint Distributions and Mutual Information)

在信息论中，我们经常需要考虑多个随机变量之间的关系，以及它们共同包含的信息或一个变量对另一个变量提供的信息。这需要用到多维随机变量的联合分布 (Joint Distribution) 和条件分布 (Conditional Distribution)。

① 联合熵 (Joint Entropy)

对于两个离散随机变量 $X$ 和 $Y$ ，其联合概率质量函数 (Joint Probability Mass Function, Joint PMF) 为 $P (x, y)$ ，它们的联合熵 $H (X, Y)$ 定义为： $H (X, Y) = - \sum_{x} \sum_{y} P (x, y) \log_{b} P (x, y)$ 联合熵衡量的是描述 $X$ 和 $Y$ 联合结果所需的平均信息量。

② 条件熵 (Conditional Entropy)

条件熵 $H (Y | X)$ 衡量的是在已知随机变量 $X$ 的值后，随机变量 $Y$ 的剩余不确定性。它是给定 $X = x$ 时 $Y$ 的条件熵 $H (Y | X = x)$ 关于 $X$ 的所有可能取值的期望。 $H (Y | X = x) = - \sum_{y} P (y | x) \log_{b} P (y | x)$ 其中 $P (y | x) = P (x, y) / P (x)$ 是条件概率 (Conditional Probability)。
条件熵 $H (Y | X)$ 定义为： $H (Y | X) = \sum_{x} P (x) H (Y | X = x) = \sum_{x} P (x) (- \sum_{y} P (y | x) \log_{b} P (y | x))$ $H (Y | X) = - \sum_{x} \sum_{y} P (x, y) \log_{b} P (y | x)$ 类似地， $H (X | Y)$ 衡量的是在已知 $Y$ 的值后， $X$ 的剩余不确定性。

联合熵、边缘熵 (Marginal Entropy) 和条件熵之间存在重要的关系： $H (X, Y) = H (X) + H (Y | X) = H (Y) + H (X | Y)$ 这个公式被称为链式法则 (Chain Rule) for entropy。它表明描述 $X$ 和 $Y$ 的联合信息量等于描述 $X$ 的信息量加上在已知 $X$ 的情况下描述 $Y$ 的信息量。

③ 互信息 (Mutual Information)

互信息 $I (X; Y)$ 衡量的是随机变量 $X$ 和 $Y$ 之间共享的信息量，或者说，知道其中一个变量的值后，另一个变量的不确定性减少了多少。它是信息论中衡量两个随机变量之间统计依赖性的重要指标。

互信息可以通过熵来定义： $I (X; Y) = H (X) - H (X | Y)$ $I (X; Y) = H (Y) - H (Y | X)$ 这两个定义是等价的。从第一个定义看，互信息是 $X$ 的不确定性 $H (X)$ 减去在已知 $Y$ 后 $X$ 的剩余不确定性 $H (X | Y)$ ，这正是 $Y$ 提供给 $X$ 的信息量。

利用熵的链式法则，互信息也可以表示为： $I (X; Y) = H (X) + H (Y) - H (X, Y)$ 这个公式表明，互信息是 $X$ 和 $Y$ 各自的熵之和减去它们的联合熵。如果 $X$ 和 $Y$ 是独立的，那么 $P (x, y) = P (x) P (y)$ ， $H (X, Y) = H (X) + H (Y)$ ，此时 $I (X; Y) = H (X) + H (Y) - (H (X) + H (Y)) = 0$ 。独立的随机变量之间不共享信息，互信息为零。

互信息的性质：
⚝ 非负性： $I (X; Y) \geq 0$ 。互信息总是非负的，信息共享量不会是负的。
⚝ 对称性： $I (X; Y) = I (Y; X)$ 。 $X$ 提供给 $Y$ 的信息量等于 $Y$ 提供给 $X$ 的信息量。
⚝ 与独立性的关系： $I (X; Y) = 0$ 当且仅当 $X$ 和 $Y$ 相互独立。
⚝ 与熵的关系： $I (X; Y) \leq H (X)$ 且 $I (X; Y) \leq H (Y)$ 。共享的信息量不会超过各自包含的总信息量。

互信息在通信、机器学习、特征选择等领域有广泛应用。在通信中，它衡量了通过一个信道传输信息时，输入和输出之间的关联程度，是定义信道容量 (Channel Capacity) 的关键概念。

示例：一个简单的通信系统 📡
假设输入 $X$ 可以是 0 或 1，概率分别为 $P (X = 0)$ 和 $P (X = 1)$ 。信道是噪声的，输出 $Y$ 也可能是 0 或 1。
信道由条件概率 $P (Y | X)$ 描述，例如： $P (Y = 0 | X = 0) = 0.9$ , $P (Y = 1 | X = 0) = 0.1$ $P (Y = 1 | X = 1) = 0.8$ , $P (Y = 0 | X = 1) = 0.2$ 假设输入是等概率的： $P (X = 0) = 0.5$ , $P (X = 1) = 0.5$ 。
我们可以计算联合概率 $P (x, y) = P (y | x) P (x)$ ，边缘概率 $P (y) = \sum_{x} P (x, y)$ ，然后计算 $H (X)$ , $H (Y)$ , $H (X, Y)$ ，最终得到 $I (X; Y)$ 。 $P (0, 0) = P (0 | 0) P (0) = 0.9 \times 0.5 = 0.45$ $P (0, 1) = P (1 | 0) P (0) = 0.1 \times 0.5 = 0.05$ $P (1, 0) = P (0 | 1) P (1) = 0.2 \times 0.5 = 0.10$ $P (1, 1) = P (1 | 1) P (1) = 0.8 \times 0.5 = 0.40$ $P (Y = 0) = P (0, 0) + P (1, 0) = 0.45 + 0.10 = 0.55$ $P (Y = 1) = P (0, 1) + P (1, 1) = 0.05 + 0.40 = 0.45$ $H (X) = - 0.5 \log_{2} 0.5 - 0.5 \log_{2} 0.5 = 1$ bit。 $H (Y) = - 0.55 \log_{2} 0.55 - 0.45 \log_{2} 0.45 \approx - 0.55 (- 0.868) - 0.45 (- 1.151) \approx 0.477 + 0.518 = 0.995$ bits。 $H (X, Y) = - \sum_{x, y} P (x, y) \log_{2} P (x, y)$ $= - (0.45 \log_{2} 0.45 + 0.05 \log_{2} 0.05 + 0.10 \log_{2} 0.10 + 0.40 \log_{2} 0.40)$ $\approx - (0.45 (- 1.151) + 0.05 (- 4.322) + 0.10 (- 3.322) + 0.40 (- 1.322))$ $\approx - (- 0.518 - 0.216 - 0.332 - 0.529) \approx 1.595$ bits。 $I (X; Y) = H (X) + H (Y) - H (X, Y) \approx 1 + 0.995 - 1.595 = 0.4$ bits。
这意味着通过这个信道传输一个比特，平均而言，接收端获得了关于发送端约 0.4 比特的信息。

11.3 随机过程作为信息源模型 (Stochastic Processes as Information Source Models)

信息源（Information Source）是产生消息或数据的地方。这些消息通常是随时间变化的序列，具有一定的统计特性。随机过程 (Stochastic Process) 正是描述随时间演变的随机现象的数学工具，因此非常适合用来建模信息源。

① 信息源的分类

信息源可以根据其输出序列的特性进行分类：
⚝ 离散源 (Discrete Source)：输出符号来自一个有限或可数的字母表 (Alphabet)。例如，文本信息源（字母、单词）、数字序列。
⚝ 连续源 (Continuous Source)：输出值是连续的。例如，音频信号、图像像素值。
⚝ 无记忆源 (Memoryless Source)：每个输出符号的产生是独立的，与之前的符号无关。
⚝ 有记忆源 (Source with Memory)：输出符号的产生依赖于之前的符号。例如，自然语言中，下一个词的出现概率与前一个或前几个词有关。

② 无记忆离散源的熵率 (Entropy Rate of Memoryless Discrete Source)

对于一个无记忆离散源，其输出符号序列 $X_{1}, X_{2}, \dots, X_{n}, \dots$ 是独立同分布 (Independent and Identically Distributed, IID) 的随机变量序列。每个 $X_{i}$ 都服从相同的概率分布 $P (x)$ 。
在这种情况下，源的熵率（衡量源平均每符号产生的信息量）就是单个符号的熵： $H (X) = H (X) = - \sum_{x} P (x) \log_{b} P (x)$ 根据香农的信源编码定理 (Shannon's Source Coding Theorem)，对于无记忆源，其熵 $H (X)$ 是对该源进行无损压缩的理论极限，即平均每个符号至少需要 $H (X)$ 比特来表示。

③ 有记忆离散源的熵率 (Entropy Rate of Discrete Source with Memory)

对于有记忆源，输出符号之间存在依赖关系。例如，一个马尔可夫信源 (Markov Source)，其当前输出符号的概率分布仅依赖于前 $k$ 个符号（ $k$ 阶马尔可夫源）。
对于一个一般的离散随机过程 ${X_{n}}_{n = 1}^{\infty}$ ，其熵率定义为： $H (X) = lim_{n \to \infty} \frac{1}{n} H (X_{1}, X_{2}, \dots, X_{n})$ 如果极限存在的话。这个定义衡量了当序列长度趋于无穷时，平均每个符号的联合熵。

对于平稳随机过程 (Stationary Stochastic Process)，熵率可以表示为条件熵的极限： $H (X) = lim_{n \to \infty} H (X_{n} | X_{n - 1}, \dots, X_{1})$ 对于一阶马尔可夫链 (First-Order Markov Chain)，其熵率可以简化为： $H (X) = H (X_{n} | X_{n - 1}) = \sum_{x} P (x) H (X_{n} | X_{n - 1} = x) = - \sum_{x} \sum_{y} P (x, y) \log_{b} P (y | x)$ 其中 $P (x)$ 是平稳分布 (Stationary Distribution)， $P (y | x)$ 是转移概率 (Transition Probability)。

熵率是衡量有记忆源不确定性的基本量，也是其无损压缩的理论极限。一个有记忆源的熵率通常小于其单个符号的熵 $H (X_{n})$ ，因为历史信息减少了当前符号的不确定性。

示例：英文文本作为马尔可夫信源 📚
我们可以将英文文本建模为一个离散随机过程，字母表是26个英文字母加上空格等。如果假设每个字母的出现概率是独立的（零阶马尔可夫，即无记忆源），我们可以计算其熵。然而，字母的出现并非独立，例如 'q' 后面很可能跟着 'u'。考虑前一个字母对当前字母的影响（一阶马尔可夫），或者前几个字母的影响（高阶马尔可夫），可以更准确地建模文本源，并计算其熵率。计算结果表明，英文文本的熵率远低于假设字母独立时的熵，这解释了为什么文本可以被有效地压缩。

随机过程模型为我们分析和设计高效的信息编码方案提供了理论基础。

11.4 随机过程作为通信信道模型 (Stochastic Processes as Communication Channel Models)

通信信道（Communication Channel）是传输信息的媒介。在传输过程中，信息可能会受到噪声 (Noise)、干扰 (Interference) 或衰减 (Attenuation) 的影响，导致接收到的信号与发送的信号不同。概率论和随机过程是描述这些不确定性和失真的有力工具。

① 离散无记忆信道 (Discrete Memoryless Channel, DMC)

最简单的信道模型是离散无记忆信道。
⚝ 离散 (Discrete)：输入和输出符号都来自有限或可数的字母表。
⚝ 无记忆 (Memoryless)：当前输出符号的概率分布仅依赖于当前的输入符号，与之前的输入或输出符号无关。

一个 DMC 由其输入字母表 $X$ ，输出字母表 $Y$ ，以及一组条件概率 $P (y | x)$ 组成，其中 $x \in X, y \in Y$ 。这些条件概率被称为信道转移概率 (Channel Transition Probabilities)。

对于一个 DMC，如果输入随机变量是 $X$ ，输出随机变量是 $Y$ ，它们之间的关系由 $P (y | x)$ 描述。输入 $X$ 的概率分布 $P (x)$ 决定了联合分布 $P (x, y) = P (y | x) P (x)$ 和输出分布 $P (y) = \sum_{x} P (y | x) P (x)$ 。

② 信道容量 (Channel Capacity)

信道容量 $C$ 是信息论中衡量一个信道传输信息能力的上限。它定义为在所有可能的输入概率分布 $P (x)$ 下，输入 $X$ 和输出 $Y$ 之间的互信息 $I (X; Y)$ 的最大值： $C = max_{P (x)} I (X; Y) = max_{P (x)} (H (Y) - H (Y | X))$ 其中 $H (Y | X) = \sum_{x} P (x) H (Y | X = x) = - \sum_{x} \sum_{y} P (x) P (y | x) \log_{b} P (y | x)$ 是条件熵，它只依赖于信道的特性 $P (y | x)$ 和输入分布 $P (x)$ 。注意 $H (Y | X)$ 也被称为噪声熵 (Equivocation)。

信道容量的单位取决于对数的底数 $b$ ，通常使用比特每符号 (bits per symbol)。

香农的信道编码定理 (Shannon's Channel Coding Theorem) 指出，对于任何传输速率 $R < C$ ，都存在一种编码方案，使得在信道上传输信息时，错误概率可以任意小。反之，如果 $R > C$ ，则不可能实现任意低的错误概率。信道容量是可靠通信的速率上限。

示例：二元对称信道 (Binary Symmetric Channel, BSC) 🔗
BSC 是一种简单的 DMC 模型，输入和输出都是二元的（0或1）。它有一个参数 $p$ ，表示比特翻转的概率。 $P (Y = 1 | X = 0) = p$ $P (Y = 0 | X = 0) = 1 - p$ $P (Y = 0 | X = 1) = p$ $P (Y = 1 | X = 1) = 1 - p$ 其中 $0 \leq p \leq 0.5$ 。
对于 BSC，信道容量可以通过最大化 $I (X; Y)$ 得到。当输入是等概率分布时 $P (X = 0) = P (X = 1) = 0.5$ ，互信息达到最大。
此时 $P (Y = 0) = P (Y = 1) = 0.5$ ， $H (Y) = 1$ bit。 $H (Y | X = 0) = - (1 - p) \log_{2} (1 - p) - p \log_{2} p = h_{b} (p)$ (二元熵函数) $H (Y | X = 1) = - p \log_{2} p - (1 - p) \log_{2} (1 - p) = h_{b} (p)$ $H (Y | X) = P (X = 0) H (Y | X = 0) + P (X = 1) H (Y | X = 1) = 0.5 h_{b} (p) + 0.5 h_{b} (p) = h_{b} (p)$ 。
BSC 的信道容量为 $C = H (Y) - H (Y | X) = 1 - h_{b} (p)$ bits per symbol。
当 $p = 0$ (无噪声) 或 $p = 1$ (完全翻转，但可纠正) 时， $C = 1$ bit。当 $p = 0.5$ (完全随机噪声) 时， $C = 0$ bit。

③ 有记忆信道 (Channel with Memory)

实际的通信信道往往是有记忆的，例如无线信道中的衰落 (Fading) 效应可能持续一段时间，或者电缆中的码间串扰 (Intersymbol Interference, ISI) 使得当前输出依赖于之前的输入。这类信道可以用随机过程来建模。例如，一个信道的噪声可能是一个有色噪声过程 (Colored Noise Process)，或者信道的增益随时间变化是一个随机过程（如瑞利衰落 (Rayleigh Fading)）。

对于有记忆信道，信道容量的定义更加复杂，通常需要考虑输入和输出的整个序列，并定义为平均互信息的极限。随机过程的理论，特别是平稳过程和遍历过程的性质，对于分析这类信道的容量和设计相应的编码技术至关重要。

通过将信息源和通信信道建模为随机过程，信息论为我们提供了分析通信系统性能和设计最优编码解码方案的数学框架。概率论和随机过程的知识是理解这些模型和定理的基础。

本章我们初步探讨了概率分布、熵、互信息以及随机过程在信息论中的基本应用。这些概念是信息论大厦的基石。在后续更深入的信息论课程中，你们将看到这些工具如何被用来推导信源编码和信道编码的极限，以及如何设计具体的编码算法。

<END_OF_CHAPTER/>

12. chapter 12：总结与展望 (Summary and Outlook)

亲爱的同学们，我们已经一起走过了概率论与随机过程这片广袤而精彩的数学天地，为深入理解信息论这门深刻的学科奠定了坚实的基础。本章作为全书的终结，旨在帮助大家回顾所学的知识体系，并将这些基础与未来的学习方向联系起来，为大家的进一步探索提供指引。

12.1 知识体系回顾 (Review of the Knowledge System)

在本书中，我们从最基本的概念出发，逐步构建起概率论和随机过程的知识框架。回首这段学习旅程，我们主要涵盖了以下几个核心模块：

① 概率论基础 (Fundamentals of Probability Theory)：
▮▮▮▮ⓑ 我们从样本空间 (Sample Space)、事件 (Event) 和概率 (Probability) 的概念开始，理解了随机现象的数学描述。
▮▮▮▮ⓒ 学习了概率的公理化定义 (Axiomatic Definition of Probability)，这是现代概率论的基石。
▮▮▮▮ⓓ 深入探讨了条件概率 (Conditional Probability) 和事件的独立性 (Independence of Events)，以及全概率公式 (Law of Total Probability) 和贝叶斯定理 (Bayes' Theorem)，这些是分析复杂随机事件关系的重要工具。

② 随机变量及其分布 (Random Variables and Their Distributions)：
▮▮▮▮ⓑ 引入了随机变量 (Random Variable) 的概念，将随机试验的结果数值化。
▮▮▮▮ⓒ 区分了离散随机变量 (Discrete Random Variable) 和连续随机变量 (Continuous Random Variable)，并学习了它们的概率质量函数 (Probability Mass Function (PMF))、概率密度函数 (Probability Density Function (PDF)) 和累积分布函数 (Cumulative Distribution Function (CDF))。
▮▮▮▮ⓓ 掌握了多种常见的概率分布 (Common Probability Distributions)，如伯努利分布 (Bernoulli Distribution)、二项分布 (Binomial Distribution)、泊松分布 (Poisson Distribution)、均匀分布 (Uniform Distribution)、指数分布 (Exponential Distribution) 和正态分布 (Normal Distribution)，它们在实际问题中有着广泛的应用。

③ 随机变量的数字特征 (Numerical Characteristics of Random Variables)：
▮▮▮▮ⓑ 学习了期望 (Expectation)、方差 (Variance) 和标准差 (Standard Deviation) 等重要的数字特征，它们描述了随机变量的中心趋势和离散程度。
▮▮▮▮ⓒ 了解了矩 (Moments) 和中心矩 (Central Moments) 的概念，以及分位数 (Quantiles) 和中位数 (Median) 的意义。

④ 多维随机变量与随机变量的函数 (Multiple Random Variables and Functions of Random Variables)：
▮▮▮▮ⓑ 将概率论扩展到多维情况，学习了联合分布 (Joint Distribution)、边缘分布 (Marginal Distribution) 和条件分布 (Conditional Distributions)。
▮▮▮▮ⓒ 探讨了多维随机变量的独立性 (Independence of Random Variables)，以及协方差 (Covariance) 和相关系数 (Correlation Coefficient) 来衡量随机变量之间的线性关联程度。
▮▮▮▮ⓓ 学习了如何求解随机变量的函数的分布，以及期望的线性性质 (Linearity of Expectation) 等重要性质。

⑤ 极限定理 (Limit Theorems)：
▮▮▮▮ⓑ 学习了大数定律 (Law of Large Numbers)，它揭示了随机变量序列的平均行为趋于其期望值。
▮▮▮▮ⓒ 学习了中心极限定理 (Central Limit Theorem)，这是概率论中最深刻的定理之一，说明了大量独立同分布随机变量之和（或平均）的分布趋近于正态分布，这解释了正态分布在自然界中广泛存在的原因。

⑥ 随机过程基础与重要模型 (Fundamentals and Important Models of Stochastic Processes)：
▮▮▮▮ⓑ 引入了随机过程 (Stochastic Process) 的概念，它是随时间变化的随机现象的数学模型。
▮▮▮▮ⓒ 学习了随机过程的定义、描述方式（如有限维分布 (Finite-Dimensional Distributions)）和分类。
▮▮▮▮ⓓ 重点学习了几种重要的随机过程模型，包括伯努利过程 (Bernoulli Process)、随机游走 (Random Walk)、泊松过程 (Poisson Process) 和马尔可夫链 (Markov Chains)（特别是离散时间马尔可夫链 (Discrete-Time Markov Chains (DTMC)) 的转移概率 (Transition Probabilities)、状态分类 (State Classification) 和平稳分布 (Stationary Distribution)），以及高斯过程 (Gaussian Process)。

⑦ 随机过程的性质分析 (Analysis of Stochastic Process Properties)：
▮▮▮▮ⓑ 学习了随机过程的平稳性 (Stationarity)，包括严平稳过程 (Strictly Stationary Process) 和宽平稳过程 (Wide-Sense Stationary (WSS) Process)，这是分析随机过程的重要特性。
▮▮▮▮ⓒ 了解了遍历性 (Ergodicity) 的概念，它允许我们通过时间平均来估计系综平均。
▮▮▮▮ⓓ 学习了相关函数 (Correlation Functions) 和功率谱密度 (Power Spectral Density (PSD))，它们是描述随机过程时间结构和频率特性的重要工具。

⑧ 概率与随机过程在信息论中的初步应用 (Preliminary Applications in Information Theory)：
▮▮▮▮ⓑ 在最后一章，我们初步展示了概率分布如何引出信息量 (Information Content) 和熵 (Entropy) 的概念，这是衡量信息不确定性的核心度量。
▮▮▮▮ⓒ 学习了联合分布 (Joint Distribution) 如何用于定义互信息 (Mutual Information)，衡量两个随机变量之间的信息关联程度。
▮▮▮▮ⓓ 简要介绍了如何将随机过程作为信息源模型 (Information Source Models) 和通信信道模型 (Communication Channel Models)，为后续深入学习信息论的核心内容（如信源编码和信道编码）打下基础。

整个知识体系是一个层层递进、相互关联的有机整体。概率论提供了描述随机事件和随机变量的语言和工具，而随机过程则将这种随机性引入到时间维度上，描述动态的随机现象。这些数学工具是理解信息、量化信息、传输信息和处理信息的基础。

12.2 进一步学习的建议 (Suggestions for Further Study)

本书旨在为大家构建坚实的数学基础，但信息论本身是一个更加广阔和深入的领域。基于本书的学习，我为大家提供以下进一步学习的建议：

① 深入学习信息论核心内容：
▮▮▮▮ⓑ 熵、互信息与信源编码 (Entropy, Mutual Information, and Source Coding)：深入理解熵的性质、条件熵 (Conditional Entropy)、互信息，以及如何利用这些概念进行数据压缩，如霍夫曼编码 (Huffman Coding)、算术编码 (Arithmetic Coding) 和 Lempel-Ziv 编码 (Lempel-Ziv Coding)。
▮▮▮▮ⓒ 信道容量与信道编码 (Channel Capacity and Channel Coding)：学习香农的信道编码定理 (Shannon's Channel Coding Theorem)，理解信道容量 (Channel Capacity) 的概念，以及如何设计纠错码 (Error-Correcting Codes) 来可靠地传输信息，如线性分组码 (Linear Block Codes)、卷积码 (Convolutional Codes)、Turbo 码 (Turbo Codes) 和低密度奇偶校验码 (Low-Density Parity-Check (LDPC) Codes)。
▮▮▮▮ⓓ 率失真理论 (Rate Distortion Theory)：研究在允许一定失真 (Distortion) 的情况下，压缩信息所需的最低比特率 (Rate)。

② 探索相关领域：
▮▮▮▮ⓑ 统计信号处理 (Statistical Signal Processing)：将概率论和随机过程应用于信号的分析、滤波、估计和检测。
▮▮▮▮ⓒ 机器学习 (Machine Learning)：许多机器学习算法（如贝叶斯方法、隐马尔可夫模型 (Hidden Markov Models)、高斯过程回归 (Gaussian Process Regression)）都严重依赖于概率论和随机过程的知识。
▮▮▮▮ⓓ 通信工程 (Communications Engineering)：信息论是现代通信系统的理论基础，理解信道容量、调制 (Modulation)、解调 (Demodulation) 和编码技术都离不开这些数学工具。
▮▮▮▮ⓔ 数据压缩 (Data Compression)：无论是无损压缩 (Lossless Compression) 还是有损压缩 (Lossy Compression)，其理论基础都源于信息论。
▮▮▮▮ⓕ 密码学 (Cryptography)：信息论在密码学的安全性分析中扮演着重要角色。

③ 推荐学习资源：
▮▮▮▮ⓑ 经典教材 (Classic Textbooks)：
▮▮▮▮▮▮▮▮❸ "Elements of Information Theory" by Thomas M. Cover and Joy A. Thomas：信息论领域的经典之作，内容全面且深刻。
▮▮▮▮▮▮▮▮❹ 任何优秀的概率论和随机过程教材：巩固和深化基础知识。
▮▮▮▮ⓔ 在线课程 (Online Courses)：Coursera, edX, Udacity 等平台提供了许多高质量的信息论、概率论和随机过程课程。
▮▮▮▮ⓕ 学术论文与期刊 (Academic Papers and Journals)：关注 IEEE Transactions on Information Theory 等顶级期刊，了解最新的研究进展。
▮▮▮▮ⓖ 软件工具 (Software Tools)：学习使用 MATLAB, Python (with libraries like NumPy, SciPy, scikit-learn) 等工具进行概率统计计算和随机过程仿真。

④ 实践与应用 (Practice and Application)：
▮▮▮▮ⓑ 解决习题 (Solve Problems)：理论知识需要通过大量的练习来巩固和深化。
▮▮▮▮ⓒ 参与项目 (Engage in Projects)：尝试将所学知识应用于实际问题，如设计一个简单的信源编码器或信道编码器，分析实际数据中的随机性。
▮▮▮▮ⓓ 讨论与交流 (Discuss and Communicate)：与同学、老师或同行交流学习心得，参与学术讨论。

学习是一个持续不断的过程。概率论和随机过程不仅是信息论的基石，也是许多现代科学技术领域不可或缺的数学工具。希望本书能够激发大家对这些学科的兴趣，并为大家未来的学习和研究打下坚实的基础。祝愿大家在探索知识的道路上不断前进，取得更大的成就！🚀📚💡

<END_OF_CHAPTER/>

1	f(x, y) = 1, if 0 <= x <= 1 and 0 <= y <= 1
2	f(x, y) = 0, otherwise

003 《信息论的基石：概率论与随机过程深度解析》

书籍大纲

1. chapter 1： 引言：信息论与数学基础 (Introduction: Information Theory and Mathematical Foundations)

1.1 信息论的起源与核心问题 (Origin and Core Problems of Information Theory)

1.2 为什么概率论和随机过程是信息论的基石？ (Why Probability Theory and Stochastic Processes are the Cornerstone of Information Theory?)

1.3 本书结构与学习指南 (Book Structure and Learning Guide)

2. chapter 2： 概率论基础 (Fundamentals of Probability Theory)

2.1 样本空间、事件与概率 (Sample Space, Events, and Probability)

2.2 概率的公理化定义 (Axiomatic Definition of Probability)

2.3 条件概率与事件的独立性 (Conditional Probability and Independence of Events)

2.4 全概率公式与贝叶斯定理 (Law of Total Probability and Bayes' Theorem)

3. chapter 3： 随机变量及其分布 (Random Variables and Their Distributions)

3.1 随机变量的定义与类型 (Definition and Types of Random Variables)

3.2 离散随机变量及其概率质量函数 (Discrete Random Variables and Probability Mass Function (PMF))

3.3 连续随机变量及其概率密度函数 (Continuous Random Variables and Probability Density Function (PDF))

3.4 累积分布函数 (Cumulative Distribution Function (CDF))

3.5 常见概率分布 (Common Probability Distributions)

3.5.1 伯努利分布与二项分布 (Bernoulli Distribution and Binomial Distribution)

3.5.2 泊松分布 (Poisson Distribution)

3.5.3 均匀分布 (Uniform Distribution)

3.5.4 指数分布 (Exponential Distribution)

3.5.5 正态分布 (高斯分布) (Normal Distribution (Gaussian Distribution))

4. chapter 4： 随机变量的数字特征 (Numerical Characteristics of Random Variables)

4.1 期望 (Expectation)

4.2 方差与标准差 (Variance and Standard Deviation)

4.3 矩与中心矩 (Moments and Central Moments)

4.4 分位数与中位数 (Quantiles and Median)

5. chapter 5： 多维随机变量 (Multiple Random Variables)

5.1 联合分布函数与边缘分布函数 (Joint Distribution Function and Marginal Distribution Function)

5.2 联合概率质量函数与联合概率密度函数 (Joint Probability Mass Function and Joint Probability Density Function)

5.3 条件分布 (Conditional Distributions)

5.4 随机变量的独立性 (Independence of Random Variables)

5.5 协方差与相关系数 (Covariance and Correlation Coefficient)

6. chapter 6： 随机变量的函数及其分布 (Functions of Random Variables and Their Distributions)

6.1 单个随机变量的函数 (Functions of a Single Random Variable)

6.2 多个随机变量的函数 (Functions of Multiple Random Variables)

6.3 期望的线性性质与乘积性质 (Linearity and Product Property of Expectation)

7. chapter 7： 极限定理 (Limit Theorems)

7.1 大数定律 (Law of Large Numbers)

7.2 中心极限定理 (Central Limit Theorem)

8. chapter 8： 随机过程基础 (Fundamentals of Stochastic Processes)

8.1 随机过程的定义与描述 (Definition and Description of Stochastic Processes)

8.2 随机过程的分类 (Classification of Stochastic Processes)

8.3 有限维分布 (Finite-Dimensional Distributions)

9. chapter 9： 重要随机过程模型 (Important Stochastic Process Models)

9.1 伯努利过程与随机游走 (Bernoulli Process and Random Walk)

9.2 泊松过程 (Poisson Process)

9.3 马尔可夫链 (Markov Chains)

9.3.1 离散时间马尔可夫链 (Discrete-Time Markov Chains (DTMC))

9.3.2 转移概率与状态分类 (Transition Probabilities and State Classification)

9.3.3 平稳分布 (Stationary Distribution)

9.4 高斯过程 (Gaussian Process)

10. chapter 10： 随机过程的性质分析 (Analysis of Stochastic Process Properties)

10.1 平稳性 (Stationarity)

10.1.1 严平稳过程 (Strictly Stationary Process)

10.1.2 宽平稳过程 (Wide-Sense Stationary (WSS) Process)

10.2 遍历性 (Ergodicity)

10.3 相关函数与功率谱密度 (Correlation Functions and Power Spectral Density (PSD))

10.3.1 相关函数 (Correlation Functions)

10.3.2 功率谱密度 (Power Spectral Density (PSD))

11. chapter 11： 概率与随机过程在信息论中的初步应用 (Preliminary Applications of Probability and Stochastic Processes in Information Theory)

11.1 概率分布与信息量、熵 (Probability Distributions and Information Content, Entropy)

11.2 联合分布与互信息 (Joint Distributions and Mutual Information)

11.3 随机过程作为信息源模型 (Stochastic Processes as Information Source Models)

11.4 随机过程作为通信信道模型 (Stochastic Processes as Communication Channel Models)

12. chapter 12： 总结与展望 (Summary and Outlook)

12.1 知识体系回顾 (Review of the Knowledge System)

12.2 进一步学习的建议 (Suggestions for Further Study)

1. chapter 1：引言：信息论与数学基础 (Introduction: Information Theory and Mathematical Foundations)

2. chapter 2：概率论基础 (Fundamentals of Probability Theory)

3. chapter 3：随机变量及其分布 (Random Variables and Their Distributions)

4. chapter 4：随机变量的数字特征 (Numerical Characteristics of Random Variables)

5. chapter 5：多维随机变量 (Multiple Random Variables)

6. chapter 6：随机变量的函数及其分布 (Functions of Random Variables and Their Distributions)

7. chapter 7：极限定理 (Limit Theorems)

8. chapter 8：随机过程基础 (Fundamentals of Stochastic Processes)

9. chapter 9：重要随机过程模型 (Important Stochastic Process Models)

10. chapter 10：随机过程的性质分析 (Analysis of Stochastic Process Properties)

11. chapter 11：概率与随机过程在信息论中的初步应用 (Preliminary Applications of Probability and Stochastic Processes in Information Theory)

12. chapter 12：总结与展望 (Summary and Outlook)