文件浏览器

000 信息论 (Information Theory)知识框架 001 《信息论：历史背景与深远影响》 002 《信息论：基本概念与核心原理深度解析》 003 《信息论的基石：概率论与随机过程深度解析》 004 《信息论：信源编码基本原理深度解析》 005 《信息论：无损信源编码深度解析 (Information Theory: In-Depth Analysis of Lossless Source Coding)》 006 《信息论之有损信源编码：原理、理论与实践》 007 《信息论：信道模型理论、分析与应用全解》 008 《信息论核心：信道容量理论与应用》 009 《信道编码与纠错：从原理到实践的深度解析（Channel Coding and Error Correction: In-depth Analysis from Principles to Practice）》 010 《信息论：多用户信道深度解析 (Information Theory: In-depth Analysis of Multi-User Channels)》 011 《网络编码：信息论视角下的全面理论与深度应用解析 (Network Coding: Comprehensive Theory and In-depth Application Analysis from an Information Theory Perspective)》 012 《无线网络信息论：从基础到前沿》 013 《信息论：通信系统全面深度解析 (Information Theory: A Comprehensive and In-Depth Analysis of Communication Systems)》 014 《信息论：数据压缩与存储——原理、算法与应用深度解析》 015 《信息论与密码学：原理、应用与深度解析》 016 《信息论、统计推断与机器学习：从基础到前沿》 017 《信息论在生物信息学中的全面与深度解析》 018 《信息论与量子信息论：从经典基础到量子前沿》 019 《信息论的普适原理与跨领域应用》 020 《多终端信息论：原理、模型与前沿（Multi-Terminal Information Theory: Principles, Models, and Frontiers）》 021 《信息论与统计学：原理、方法与应用 (Information Theory and Statistics: Principles, Methods, and Applications)》 022 《信息论与计算复杂性：从基础到前沿》 023 《信息论的哲学意义：从比特到存在 (Philosophical Implications of Information Theory: From Bit to Being)》 024 《信息论的未来：趋势、挑战与前沿探索 (The Future of Information Theory: Trends, Challenges, and Frontier Exploration)》

007 《信息论：信道模型理论、分析与应用全解》

作者Lou Xiao, gemini创建时间2025-04-18 22:28:32更新时间2025-04-18 22:28:32

🌟🌟🌟本文案由Gemini 2.5 Flash Preview 04-17创作，用来辅助学习知识。🌟🌟🌟

书籍大纲

▮▮▮▮ 1. chapter 1：引言（Introduction）
▮▮▮▮▮▮▮ 1.1 信息论概览（Overview of Information Theory）
▮▮▮▮▮▮▮ 1.2 信道模型在信息论中的地位（Role of Channel Models in Information Theory）
▮▮▮▮▮▮▮ 1.3 本书结构与阅读建议（Book Structure and Reading Guide）
▮▮▮▮▮▮▮ 1.4 符号与约定（Notation and Conventions）
▮▮▮▮ 2. chapter 2：数学基础（Mathematical Preliminaries）
▮▮▮▮▮▮▮ 2.1 概率论回顾（Review of Probability Theory）
▮▮▮▮▮▮▮▮▮▮▮ 2.1.1 随机变量与概率分布（Random Variables and Probability Distributions）
▮▮▮▮▮▮▮▮▮▮▮ 2.1.2 联合概率、条件概率与独立性（Joint, Conditional Probability, and Independence）
▮▮▮▮▮▮▮▮▮▮▮ 2.1.3 期望、方差与协方差（Expectation, Variance, and Covariance）
▮▮▮▮▮▮▮ 2.2 随机过程基础（Basics of Stochastic Processes）
▮▮▮▮▮▮▮ 2.3 矩阵与线性代数基础（Basics of Matrices and Linear Algebra）
▮▮▮▮ 3. chapter 3：信息度量（Measures of Information）
▮▮▮▮▮▮▮ 3.1 熵（Entropy）
▮▮▮▮▮▮▮▮▮▮▮ 3.1.1 离散随机变量的熵（Entropy of Discrete Random Variables）
▮▮▮▮▮▮▮▮▮▮▮ 3.1.2 联合熵与条件熵（Joint Entropy and Conditional Entropy）
▮▮▮▮▮▮▮ 3.2 互信息（Mutual Information）
▮▮▮▮▮▮▮▮▮▮▮ 3.2.1 互信息的定义与性质（Definition and Properties of Mutual Information）
▮▮▮▮▮▮▮▮▮▮▮ 3.2.2 互信息与熵的关系（Relationship between Mutual Information and Entropy）
▮▮▮▮▮▮▮ 3.3 相对熵（Kullback-Leibler Divergence）
▮▮▮▮ 4. chapter 4：离散无记忆信道（Discrete Memoryless Channels, DMC）
▮▮▮▮▮▮▮ 4.1 DMC的定义与模型（Definition and Model of DMC）
▮▮▮▮▮▮▮ 4.2 信道矩阵与转移概率（Channel Matrix and Transition Probabilities）
▮▮▮▮▮▮▮ 4.3 典型DMC示例（Examples of Typical DMC）
▮▮▮▮▮▮▮▮▮▮▮ 4.3.1 二元对称信道（Binary Symmetric Channel, BSC）
▮▮▮▮▮▮▮▮▮▮▮ 4.3.2 二元擦除信道（Binary Erasure Channel, BEC）
▮▮▮▮▮▮▮▮▮▮▮ 4.3.3 Z信道（Z-Channel）
▮▮▮▮▮▮▮ 4.4 DMC的互信息计算（Calculating Mutual Information for DMC）
▮▮▮▮ 5. chapter 5： DMC的信道容量（Channel Capacity of DMC）
▮▮▮▮▮▮▮ 5.1 信道容量的定义（Definition of Channel Capacity）
▮▮▮▮▮▮▮ 5.2 DMC容量的计算方法（Methods for Calculating DMC Capacity）
▮▮▮▮▮▮▮ 5.3 典型DMC的容量（Capacity of Typical DMC）
▮▮▮▮▮▮▮ 5.4 信道容量的性质（Properties of Channel Capacity）
▮▮▮▮ 6. chapter 6：香农DMC信道编码定理（Shannon's Channel Coding Theorem for DMC）
▮▮▮▮▮▮▮ 6.1 可达性（Achievability）
▮▮▮▮▮▮▮ 6.2 逆定理（Converse）
▮▮▮▮▮▮▮ 6.3 定理的意义与局限性（Significance and Limitations of the Theorem）
▮▮▮▮ 7. chapter 7：连续信道（Continuous Channels）
▮▮▮▮▮▮▮ 7.1 连续随机变量的微分熵（Differential Entropy of Continuous Random Variables）
▮▮▮▮▮▮▮ 7.2 高斯信道（Gaussian Channels）
▮▮▮▮▮▮▮ 7.3 加性高斯白噪声（AWGN）信道（Additive White Gaussian Noise Channel）
▮▮▮▮▮▮▮ 7.4 香农-哈特利定理（Shannon-Hartley Theorem）
▮▮▮▮▮▮▮ 7.5 AWGN信道的容量（Capacity of AWGN Channel）
▮▮▮▮ 8. chapter 8：有记忆信道（Channels with Memory）
▮▮▮▮▮▮▮ 8.1 有记忆信道的概念与示例（Concept and Examples of Channels with Memory）
▮▮▮▮▮▮▮ 8.2 有记忆信道的建模（Modeling Channels with Memory）
▮▮▮▮▮▮▮ 8.3 有记忆信道的容量（Capacity of Channels with Memory）
▮▮▮▮▮▮▮ 8.4 典型有记忆信道模型（Typical Channel Models with Memory）
▮▮▮▮▮▮▮▮▮▮▮ 8.4.1 马尔可夫信道（Markov Channels）
▮▮▮▮▮▮▮▮▮▮▮ 8.4.2 吉尔伯特-埃利奥特模型（Gilbert-Elliott Model）
▮▮▮▮ 9. chapter 9：衰落信道（Fading Channels）
▮▮▮▮▮▮▮ 9.1 无线信道衰落现象（Fading Phenomena in Wireless Channels）
▮▮▮▮▮▮▮ 9.2 典型衰落模型（Typical Fading Models）
▮▮▮▮▮▮▮▮▮▮▮ 9.2.1 瑞利衰落（Rayleigh Fading）
▮▮▮▮▮▮▮▮▮▮▮ 9.2.2 莱斯衰落（Rician Fading）
▮▮▮▮▮▮▮▮▮▮▮ 9.2.3 Nakagami衰落（Nakagami Fading）
▮▮▮▮▮▮▮ 9.3 衰落信道的容量（Capacity of Fading Channels）
▮▮▮▮▮▮▮▮▮▮▮ 9.3.1 遍历容量（Ergodic Capacity）
▮▮▮▮▮▮▮▮▮▮▮ 9.3.2 中断容量（Outage Capacity）
▮▮▮▮ 10. chapter 10：多用户与高级信道模型（Multiuser and Advanced Channel Models）
▮▮▮▮▮▮▮ 10.1 多址信道（Multiple Access Channel, MAC）
▮▮▮▮▮▮▮ 10.2 广播信道（Broadcast Channel, BC）
▮▮▮▮▮▮▮ 10.3 多输入多输出（MIMO）信道（Multiple-Input Multiple-Output Channel）
▮▮▮▮▮▮▮ 10.4 有反馈信道（Channels with Feedback）
▮▮▮▮ 11. chapter 11：信道模型与编码理论的联系（Connection between Channel Models and Coding Theory）
▮▮▮▮▮▮▮ 11.1 信道编码的基本原理（Basic Principles of Channel Coding）
▮▮▮▮▮▮▮ 11.2 典型信道编码方法（Typical Channel Coding Methods）
▮▮▮▮▮▮▮▮▮▮▮ 11.2.1 分组码（Block Codes）
▮▮▮▮▮▮▮▮▮▮▮ 11.2.2 卷积码（Convolutional Codes）
▮▮▮▮▮▮▮ 11.3 现代编码技术与逼近容量（Modern Coding Techniques and Approaching Capacity）
▮▮▮▮▮▮▮▮▮▮▮ 11.3.1 LDPC码（LDPC Codes）
▮▮▮▮▮▮▮▮▮▮▮ 11.3.2 Turbo码（Turbo Codes）
▮▮▮▮ 12. chapter 12：总结与展望（Conclusion and Future Perspectives）
▮▮▮▮▮▮▮ 12.1 主要概念回顾（Review of Key Concepts）
▮▮▮▮▮▮▮ 12.2 信道模型研究的挑战与机遇（Challenges and Opportunities in Channel Model Research）
▮▮▮▮▮▮▮ 12.3 未来研究方向（Future Research Directions）
▮▮▮▮▮▮▮ 附录A：常用数学公式（Common Mathematical Formulas）
▮▮▮▮▮▮▮ 附录B：术语表（Glossary of Terms）
▮▮▮▮▮▮▮ 附录C：参考文献（References）

1. chapter 1：引言（Introduction）

欢迎来到信息论的世界！📚 在这个充满数字与连接的时代，信息以前所未有的速度流动着。然而，信息的传递并非总是一帆风顺，噪声、干扰、衰落等因素无时无刻不在挑战着通信的可靠性。信息论，这门由克劳德·香农（Claude Shannon）奠定的科学，正是为了理解和解决这些根本性问题而生。

本书将带您深入探索信息论的核心组成部分之一：信道模型（Channel Models）。信道是信息从发送端（transmitter）到接收端（receiver）所经过的媒介。理解信道的特性，并建立准确的数学模型，是设计高效、可靠通信系统的基石。无论您是初学者、有一定基础的学习者，还是希望深入研究的专家，本书都旨在为您提供一个系统、全面且深入的信道模型知识体系。

1.1 信息论概览（Overview of Information Theory）

信息论是一门研究信息量化、存储和通信的数学理论。它诞生于20世纪中期，由克劳德·香农（Claude Shannon）在其划时代的论文《通信的数学理论》（A Mathematical Theory of Communication）中奠定基础。香农的工作为我们理解通信系统的基本限制和潜力提供了强大的工具。

信息论的核心问题可以概括为：如何在存在噪声（noise）或干扰（interference）的情况下，以尽可能高的速率（rate）可靠地传输信息？为了回答这个问题，信息论引入了一系列关键概念：

① 信息量（Information Content）: 如何量化一个事件或一个消息所包含的信息？信息论使用概率来衡量不确定性，并定义了自信息（self-information）来量化单个事件的信息量。
② 熵（Entropy）: 如何量化一个随机变量或一个信息源的平均不确定性？熵是信息论中最基本的信息度量，它表示了描述一个随机变量所需的平均比特（bits）数。
③ 互信息（Mutual Information）: 如何量化两个随机变量之间的相互依赖程度，或者说，通过观察一个变量能获得关于另一个变量多少信息？互信息是衡量通信系统中输入和输出之间信息共享程度的关键指标。
④ 信道容量（Channel Capacity）: 在给定信道特性下，理论上能够实现无差错传输的最高信息速率是多少？信道容量是信息论中最核心的概念之一，它为通信系统的性能设定了上限。
⑤ 信道编码（Channel Coding）: 如何设计编码方案，使得在信道容量允许的速率下，能够实现任意低的错误概率？信道编码是实现可靠通信的关键技术。

信息论不仅仅局限于通信领域，它的思想和方法已经深刻影响了统计学（statistics）、机器学习（machine learning）、数据压缩（data compression）、密码学（cryptography）、物理学（physics）甚至生物学（biology）等众多学科。理解信息论的基本原理，特别是信道模型，对于理解现代信息技术的运作方式至关重要。

1.2 信道模型在信息论中的地位（Role of Channel Models in Information Theory）

在信息论的框架下，一个典型的通信系统可以抽象地表示为：

\[ \text{信息源} \rightarrow \text{编码器} \rightarrow \text{信道} \rightarrow \text{解码器} \rightarrow \text{信息宿} \]

其中，信道（channel）是连接发送端和接收端的物理或逻辑媒介。信息在通过信道时，可能会受到各种因素的影响，导致接收到的信号与发送的信号不同。这些影响可能包括：

⚝ 噪声（Noise）: 随机的、不可预测的干扰，如热噪声（thermal noise）。
⚝ 干扰（Interference）: 来自其他用户或系统的信号。
⚝ 衰落（Fading）: 信号强度随时间、空间或频率的变化而波动，尤其在无线通信中常见。
⚝ 失真（Distortion）: 信号波形发生改变，如多径效应（multipath effect）引起的符号间干扰（inter-symbol interference, ISI）。
⚝ 损耗（Attenuation）: 信号能量随传输距离增加而减弱。

信道模型（Channel Model）就是对这些影响进行数学描述的工具。一个准确的信道模型能够捕捉信道的关键特性，例如：

▮▮▮▮⚝ 输入符号（input symbols）与输出符号（output symbols）之间的概率关系。
▮▮▮▮⚝ 噪声的统计特性（statistical properties of noise）。
▮▮▮▮⚝ 信道对信号的线性或非线性变换。
▮▮▮▮⚝ 信道是否具有记忆性（memory）。

信道模型在信息论中扮演着核心角色，原因如下：

① 容量计算的基础（Basis for Capacity Calculation）: 信道容量的计算直接依赖于信道模型。不同的信道模型具有不同的容量公式，例如离散无记忆信道（Discrete Memoryless Channel, DMC）的容量与加性高斯白噪声（Additive White Gaussian Noise, AWGN）信道的容量计算方法截然不同。准确的信道模型是确定通信系统理论性能极限的前提。
② 编码方案设计的依据（Guideline for Coding Scheme Design）: 信道编码的目标是设计一种编码方式，使得在特定信道模型下，能够以接近信道容量的速率进行可靠通信。对信道特性的深入理解（通过信道模型）是设计高效纠错码（error correction codes）和检测方案的基础。例如，针对突发错误（burst errors）的信道（通常是有记忆信道），可能需要采用交织（interleaving）技术配合编码。
③ 系统性能评估与优化（System Performance Evaluation and Optimization）: 在实际通信系统的设计和仿真中，信道模型用于模拟真实的传输环境，从而评估不同调制（modulation）、编码和信号处理技术（signal processing techniques）的性能。基于信道模型，工程师可以优化系统参数，以达到最佳的性能。
④ 理论与实践的桥梁（Bridge between Theory and Practice）: 信道模型将抽象的通信理论与具体的物理传输媒介联系起来。它使得信息论的抽象概念（如熵、互信息）能够应用于分析和解决实际通信系统中的问题。

因此，对各种信道模型进行全面而深入的理解，是掌握信息论及其在通信工程中应用的关键。本书将聚焦于此，为您提供一个扎实的理论基础和丰富的模型示例。

1.3 本书结构与阅读建议（Book Structure and Reading Guide）

本书旨在系统地介绍信息论中的信道模型，从基础概念到高级主题，力求覆盖全面并深入解析。全书共分为12章及附录，结构安排如下：

① 第1-3章：基础铺垫。
▮▮▮▮ⓑ 第1章（引言）：介绍信息论概览、信道模型的重要性以及本书结构。
▮▮▮▮ⓒ 第2章（数学基础）：回顾概率论、随机过程和线性代数等必要的数学工具。
▮▮▮▮ⓓ 第3章（信息度量）：详细讲解熵、互信息和相对熵等信息论基本度量。
⑤ 第4-6章：离散无记忆信道（DMC）。
▮▮▮▮ⓕ 第4章：定义DMC，介绍信道矩阵和典型DMC模型（BSC, BEC, Z信道）。
▮▮▮▮ⓖ 第5章：讲解DMC信道容量的定义、计算方法和典型DMC的容量。
▮▮▮▮ⓗ 第6章：阐述香农DMC信道编码定理，包括可达性和逆定理。
⑨ 第7章：连续信道。
▮▮▮▮ⓙ 介绍连续随机变量的微分熵。
▮▮▮▮ⓚ 重点讲解高斯信道和AWGN信道。
▮▮▮▮ⓛ 阐述香农-哈特利定理及AWGN信道的容量。
⑬ 第8-9章：有记忆信道与衰落信道。
▮▮▮▮ⓝ 第8章：讨论有记忆信道的概念、建模和容量，介绍马尔可夫信道和Gilbert-Elliott模型。
▮▮▮▮ⓞ 第9章：介绍无线信道衰落现象，典型衰落模型（瑞利、莱斯、Nakagami），以及衰落信道的遍历容量和中断容量。
⑯ 第10章：多用户与高级信道模型。
▮▮▮▮ⓠ 介绍多址信道（MAC）、广播信道（BC）和MIMO信道。
▮▮▮▮ⓡ 讨论有反馈信道。
⑲ 第11章：信道模型与编码理论的联系。
▮▮▮▮ⓣ 回顾信道编码基本原理。
▮▮▮▮ⓤ 介绍典型编码方法（分组码、卷积码）。
▮▮▮▮ⓥ 讨论现代编码技术（LDPC码、Turbo码）如何逼近信道容量。
⑳ 第12章：总结与展望。
▮▮▮▮ⓧ 回顾主要概念。
▮▮▮▮ⓨ 讨论信道模型研究的挑战与机遇。
▮▮▮▮ⓩ 展望未来研究方向。
⑳ 附录：提供常用数学公式、术语表和参考文献。

阅读建议：

⚝ 对于初学者（Beginners）：建议按照章节顺序系统阅读。重点关注第1-6章和第7章的基础部分，理解信息度量、DMC和AWGN信道的概念、容量计算以及香农定理的意义。遇到数学困难时，可以回顾第2章。
⚝ 对于中级学习者（Intermediate）：在掌握基础后，可以深入学习第7-10章的连续信道、有记忆信道、衰落信道以及多用户信道模型。这些章节将帮助您理解更复杂的实际通信环境。
⚝ 对于专家或研究人员（Experts）：本书可以作为系统回顾和深入理解特定信道模型的参考。您可以根据自己的研究方向，重点阅读相关的章节（如第8、9、10章）。第11章关于编码与信道模型的联系以及第12章的展望，可能会为您提供新的视角。

无论您的背景如何，建议在阅读过程中积极思考，尝试推导书中的公式，并结合实际通信系统去理解各种信道模型的物理意义。本书提供了丰富的示例和图示，希望能帮助您更好地掌握知识。祝您阅读愉快，收获满满！🎉

1.4 符号与约定（Notation and Conventions）

为了保证全书的清晰性和一致性，本书将采用以下符号和约定：

① 随机变量（Random Variables）: 通常用大写字母表示，如 \(X, Y, Z\)。
② 随机变量的取值（Values of Random Variables）: 通常用对应的小写字母表示，如 \(x, y, z\)。
③ 概率质量函数（Probability Mass Function, PMF）: 对于离散随机变量，用 \(p(x)\) 或 \(P(X=x)\) 表示 \(X\) 取值为 \(x\) 的概率。联合PMF用 \(p(x, y)\) 表示，条件PMF用 \(p(y|x)\) 表示。
④ 概率密度函数（Probability Density Function, PDF）: 对于连续随机变量，用 \(f(x)\) 表示。联合PDF用 \(f(x, y)\) 表示，条件PDF用 \(f(y|x)\) 表示。
⑤ 集合（Sets）: 通常用花体字母或粗体大写字母表示，如 \(\mathcal{X}, \mathbf{X}\)。例如，离散随机变量 \(X\) 的取值空间（alphabet）记为 \(\mathcal{X}\)。
⑥ 向量（Vectors）: 通常用粗体小写字母表示，如 \(\mathbf{x}, \mathbf{y}\)。
⑦ 矩阵（Matrices）: 通常用粗体大写字母表示，如 \(\mathbf{A}, \mathbf{P}\)。
⑧ 期望（Expectation）: 用 \(E[\cdot]\) 表示。例如，随机变量 \(X\) 的期望为 \(E[X]\)。
⑨ 方差（Variance）: 用 \(Var(\cdot)\) 或 \(\sigma^2\) 表示。例如，随机变量 \(X\) 的方差为 \(Var(X)\)。
⑩ 协方差（Covariance）: 用 \(Cov(\cdot, \cdot)\) 表示。例如，随机变量 \(X\) 和 \(Y\) 的协方差为 \(Cov(X, Y)\)。
⑪ 熵（Entropy）: 离散随机变量 \(X\) 的熵记为 \(H(X)\)。联合熵记为 \(H(X, Y)\)，条件熵记为 \(H(Y|X)\)。
⑫ 互信息（Mutual Information）: 随机变量 \(X\) 和 \(Y\) 之间的互信息记为 \(I(X; Y)\)。条件互信息记为 \(I(X; Y|Z)\)。
⑬ 相对熵（Relative Entropy）/ Kullback-Leibler散度（Kullback-Leibler Divergence）: 两个概率分布 \(p(x)\) 和 \(q(x)\) 之间的相对熵记为 \(D(p||q)\)。
⑭ 信道容量（Channel Capacity）: 通常用 \(C\) 表示。
⑮ 对数（Logarithm）: 除非特别说明，本书中的对数 \(\log(\cdot)\) 均以2为底，单位为比特（bits）。自然对数用 \(\ln(\cdot)\) 表示。
⑯ 概率（Probability）: 用 \(P(\cdot)\) 表示事件的概率。
⑰ 指示函数（Indicator Function）: 用 \(I(\cdot)\) 表示，当括号内的条件为真时取1，否则取0。
⑱ 数学符号:
▮▮▮▮ⓢ 求和：\(\sum\)
▮▮▮▮ⓣ 积分：\(\int\)
▮▮▮▮ⓤ 属于：\(\in\)
▮▮▮▮ⓥ 对于所有：\(\forall\)
▮▮▮▮ⓦ 存在：\(\exists\)
▮▮▮▮ⓧ 定义为：\(\triangleq\) 或 \(:=\)
⑳ 章节引用: 引用本书其他章节或节时，使用“第X章”或“第X.Y节”的形式。
⑳ 术语（Terminology）: 重要的术语首次出现时，会以“中文（英文）”的形式给出。后续出现时，可能只使用中文或英文缩写。附录B提供了术语表供查阅。

请读者熟悉这些符号和约定，这将有助于您更顺畅地阅读本书内容。如果在阅读过程中遇到任何符号上的疑问，请随时查阅本节或附录B。

2. chapter 2：数学基础（Mathematical Preliminaries）

欢迎来到本书的第二章！在深入探讨信息论中的信道模型之前，我们需要建立坚实的数学基础。信息论，尤其是信道理论，大量依赖于概率论、随机过程以及线性代数等数学工具。本章旨在回顾和巩固这些必要的数学概念，确保所有读者，无论背景如何，都能顺利理解后续章节的内容。我们将从概率论的核心概念开始，逐步过渡到随机过程和线性代数的基础知识。请注意，本章并非对这些数学领域的全面论述，而是聚焦于信息论特别是信道模型所需的关键知识点。

2.1 概率论回顾（Review of Probability Theory）

概率论是信息论的基石。信息本身的不确定性以及信道中引入的噪声或干扰，都需要用概率的语言来描述和分析。

2.1.1 随机变量与概率分布（Random Variables and Probability Distributions）

在概率论中，我们研究的是随机现象。一个随机现象的结果通常是不可预测的。为了方便数学处理，我们将随机现象的可能结果映射到实数上，这就是随机变量（random variable, RV）的概念。

一个随机变量 \(X\) 是一个函数，它将样本空间（sample space）\(\Omega\) 中的每一个基本事件（elementary event）\(\omega\) 映射到一个实数 \(X(\omega)\)。

随机变量可以分为两类：

⚝ 离散随机变量（Discrete Random Variable）：其取值是有限个或可数无限个。
⚝ 连续随机变量（Continuous Random Variable）：其取值可以在一个或多个连续区间内。

描述随机变量取值概率的函数称为概率分布（probability distribution）。

对于离散随机变量 \(X\)，我们使用概率质量函数（probability mass function, PMF） \(P_X(x)\) 或 \(p_X(x)\) 来描述其概率分布。\(P_X(x)\) 表示随机变量 \(X\) 取特定值 \(x\) 的概率，即 \(P_X(x) = P(X=x)\)。PMF 必须满足：

① \(0 \le P_X(x) \le 1\) 对于所有可能的 \(x\) 值。
② \(\sum_{x} P_X(x) = 1\)，其中求和遍历 \(X\) 的所有可能取值。

例如，一个公平的硬币抛掷结果可以由一个离散随机变量 \(X\) 表示，其中 \(X=1\) 表示正面，\(X=0\) 表示反面。其PMF为 \(P_X(1) = 0.5\)，\(P_X(0) = 0.5\)。

对于连续随机变量 \(X\)，我们使用概率密度函数（probability density function, PDF） \(f_X(x)\) 来描述其概率分布。PDF 本身不是概率，但它描述了概率在实数轴上的分布“密度”。随机变量 \(X\) 取值在区间 \([a, b]\) 内的概率由 PDF 在该区间上的积分给出：

\[ P(a \le X \le b) = \int_a^b f_X(x) dx \]

PDF 必须满足：

① \(f_X(x) \ge 0\) 对于所有实数 \(x\)。
② \(\int_{-\infty}^{\infty} f_X(x) dx = 1\)。

常见的连续分布有均匀分布（uniform distribution）和高斯分布（Gaussian distribution）或正态分布（normal distribution）。高斯分布在信道模型中尤为重要，特别是加性高斯白噪声（AWGN）信道。其PDF形式为：

\[ f_X(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

其中 \(\mu\) 是均值（mean），\(\sigma^2\) 是方差（variance）。

累积分布函数（cumulative distribution function, CDF） \(F_X(x)\) 对于离散和连续随机变量都适用，定义为 \(F_X(x) = P(X \le x)\)。它表示随机变量 \(X\) 取值小于或等于 \(x\) 的概率。

2.1.2 联合概率、条件概率与独立性（Joint, Conditional Probability, and Independence）

在信息传输过程中，我们通常会遇到多个随机变量，例如发送的符号和接收到的符号。理解这些随机变量之间的关系至关重要。

对于两个随机变量 \(X\) 和 \(Y\)，它们的联合概率分布（joint probability distribution）描述了它们同时取特定值或落在特定区域的概率。

⚝ 对于离散随机变量，使用联合概率质量函数（joint PMF） \(P_{XY}(x, y) = P(X=x, Y=y)\)。
⚝ 对于连续随机变量，使用联合概率密度函数（joint PDF） \(f_{XY}(x, y)\)。

从联合分布可以得到边缘分布（marginal distribution）。例如，对于离散变量：

\[ P_X(x) = \sum_y P_{XY}(x, y) \]
\[ P_Y(y) = \sum_x P_{XY}(x, y) \]

对于连续变量：

\[ f_X(x) = \int_{-\infty}^{\infty} f_{XY}(x, y) dy \]
\[ f_Y(y) = \int_{-\infty}^{\infty} f_{XY}(x, y) dx \]

条件概率（conditional probability）描述了在已知一个随机变量取值的情况下，另一个随机变量取特定值的概率。例如，在已知 \(Y=y\) 的条件下，\(X=x\) 的概率表示为 \(P(X=x | Y=y)\)。

条件概率的定义为：

\[ P(X=x | Y=y) = \frac{P(X=x, Y=y)}{P(Y=y)} \]

前提是 \(P(Y=y) > 0\)。对于连续变量，使用条件概率密度函数（conditional PDF） \(f_{X|Y}(x|y)\)：

\[ f_{X|Y}(x|y) = \frac{f_{XY}(x, y)}{f_Y(y)} \]

前提是 \(f_Y(y) > 0\)。

条件概率引出了著名的贝叶斯定理（Bayes' Theorem）：

\[ P(X=x | Y=y) = \frac{P(Y=y | X=x) P(X=x)}{P(Y=y)} \]

或使用联合概率表示：

\[ P(X=x | Y=y) = \frac{P(Y=y | X=x) P(X=x)}{\sum_x P(Y=y | X=x) P(X=x)} \]

贝叶斯定理在通信系统的检测和估计中非常有用，例如在接收端根据接收到的信号（\(Y\)）来推断发送的信号（\(X\)）。

两个随机变量 \(X\) 和 \(Y\) 是相互独立（independent）的，如果知道其中一个变量的取值不会影响另一个变量的概率分布。数学上，独立性等价于：

⚝ 对于离散变量：\(P_{XY}(x, y) = P_X(x) P_Y(y)\) 对于所有可能的 \(x, y\)。
⚝ 对于连续变量：\(f_{XY}(x, y) = f_X(x) f_Y(y)\) 对于所有实数 \(x, y\)。

独立性也等价于条件分布等于边缘分布，例如 \(P(X=x | Y=y) = P_X(x)\) 或 \(f_{X|Y}(x|y) = f_X(x)\)。

在信道模型中，输入和输出通常不是独立的，因为信道的作用就是将输入映射到输出（尽管可能引入误差）。然而，信道引入的噪声或干扰常常被建模为独立于输入信号的随机变量。

2.1.3 期望、方差与协方差（Expectation, Variance, and Covariance）

期望（expectation）或均值（mean）是随机变量的平均值，记为 \(E[X]\) 或 \(\mu_X\)。它表示随机变量取值的中心位置。

⚝ 对于离散随机变量：\(E[X] = \sum_x x P_X(x)\)。
⚝ 对于连续随机变量：\(E[X] = \int_{-\infty}^{\infty} x f_X(x) dx\)。

期望具有线性性质：\(E[aX + bY] = aE[X] + bE[Y]\)，其中 \(a, b\) 是常数。

方差（variance）衡量了随机变量取值在其期望附近的离散程度，记为 \(Var(X)\) 或 \(\sigma_X^2\)。

\[ Var(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2 \]

方差的平方根称为标准差（standard deviation），记为 \(\sigma_X\)。标准差与随机变量具有相同的单位。

方差不具有线性性质，但对于独立随机变量 \(X\) 和 \(Y\)，\(Var(aX + bY) = a^2 Var(X) + b^2 Var(Y)\)。

协方差（covariance）衡量了两个随机变量 \(X\) 和 \(Y\) 之间的线性关联程度，记为 \(Cov(X, Y)\) 或 \(\sigma_{XY}\)。

\[ Cov(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y] \]

⚝ 如果 \(Cov(X, Y) > 0\)，表示 \(X\) 和 \(Y\) 倾向于同方向变化。
⚝ 如果 \(Cov(X, Y) < 0\)，表示 \(X\) 和 \(Y\) 倾向于反方向变化。
⚝ 如果 \(Cov(X, Y) = 0\)，表示 \(X\) 和 \(Y\) 是不相关（uncorrelated）的。

需要注意的是，独立性蕴含不相关性，但不相关性不一定蕴含独立性（除非对于某些特定的分布，如联合高斯分布）。

相关系数（correlation coefficient）是协方差的归一化版本，定义为 \(\rho_{XY} = \frac{Cov(X, Y)}{\sigma_X \sigma_Y}\)。相关系数的取值范围在 \([-1, 1]\) 之间，\(\rho_{XY} = 0\) 表示不相关，\(|\rho_{XY}| = 1\) 表示完全线性相关。

在信道模型中，期望可以用来表示信号的平均功率（对于零均值信号），方差可以用来表示噪声的功率。协方差则可以用来描述不同时刻或不同天线接收到的信号之间的关联性。

2.2 随机过程基础（Basics of Stochastic Processes）

信道通常是随时间变化的，或者传输的信号是一个序列。这需要我们引入随机过程（stochastic process）的概念。

一个随机过程是一系列按某种规则或时间顺序排列的随机变量的集合。我们可以将其记为 \(\{X_t, t \in T\}\)，其中 \(T\) 是一个索引集合（index set），通常表示时间。对于每个 \(t \in T\)，\(X_t\) 是一个随机变量。

⚝ 如果 \(T\) 是离散集合（如整数集），则随机过程是离散时间随机过程（discrete-time stochastic process），例如 \(X_1, X_2, X_3, \dots\)。
⚝ 如果 \(T\) 是连续区间（如实数集），则随机过程是连续时间随机过程（continuous-time stochastic process），例如 \(X(t), t \in [0, \infty)\)。

随机变量 \(X_t\) 的取值集合称为状态空间（state space）。状态空间可以是离散的（如二进制信号）或连续的（如模拟信号）。

信道模型常常被描述为一个随机过程。例如，一个有记忆信道（channel with memory）的输出不仅取决于当前的输入，还取决于过去的输入或输出，这可以用随机过程来建模。噪声也可以被建模为随机过程，如加性白噪声（white noise）。

理解随机过程的关键在于理解随机变量序列之间的统计依赖关系。例如，一个马尔可夫过程（Markov process）是一种特殊的随机过程，其未来状态的概率分布仅取决于当前状态，而与过去状态无关。这在建模某些类型的有记忆信道时非常有用。

另一个重要的概念是平稳性（stationarity）。一个随机过程是平稳的，如果其统计特性（如均值、方差、自相关函数等）不随时间变化。严格平稳要求所有有限维分布都不随时间平移而改变，而宽平稳（wide-sense stationarity, WSS）则要求均值是常数且自相关函数仅依赖于时间差。许多信道模型，尤其是在分析信道容量时，常常假设噪声是平稳的。

遍历性（ergodicity）是另一个相关概念，它允许我们通过对单个随机过程样本路径进行时间平均来估计其统计特性。这在实际系统中进行测量和分析时非常重要。

在后续章节中，我们将看到如何使用随机过程来描述信道的时变特性和记忆特性。

2.3 矩阵与线性代数基础（Basics of Matrices and Linear Algebra）

线性代数在信息论和通信系统中扮演着重要角色，尤其是在处理多维信号和多输入多输出（MIMO）系统时。

一个矩阵（matrix）是一个由数字排列成的矩形阵列。一个 \(m \times n\) 矩阵有 \(m\) 行和 \(n\) 列。

\[ \mathbf{A} = \begin{pmatrix} a_{11} & a_{12} & \dots & a_{1n} \\ a_{21} & a_{22} & \dots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \dots & a_{mn} \end{pmatrix} \]

向量（vector）可以看作是只有一行（行向量）或只有一列（列向量）的矩阵。在信息论中，信号常常被表示为向量。

矩阵的基本运算包括：

⚝ 加法（Addition）：同型矩阵相加，对应元素相加。
⚝ 标量乘法（Scalar Multiplication）：矩阵的每个元素乘以一个标量。
⚝ 矩阵乘法（Matrix Multiplication）：一个 \(m \times n\) 矩阵 \(\mathbf{A}\) 与一个 \(n \times p\) 矩阵 \(\mathbf{B}\) 相乘得到一个 \(m \times p\) 矩阵 \(\mathbf{C}\)，其中 \(c_{ij} = \sum_{k=1}^n a_{ik} b_{kj}\)。矩阵乘法通常不满足交换律。

转置（Transpose）：矩阵 \(\mathbf{A}\) 的转置 \(\mathbf{A}^T\) 是通过交换 \(\mathbf{A}\) 的行和列得到的。如果 \(\mathbf{A}\) 是 \(m \times n\) 矩阵，则 \(\mathbf{A}^T\) 是 \(n \times m\) 矩阵。

逆矩阵（Inverse Matrix）：对于一个方阵 \(\mathbf{A}\)（行数等于列数），如果存在一个同型的矩阵 \(\mathbf{A}^{-1}\)，使得 \(\mathbf{A}\mathbf{A}^{-1} = \mathbf{A}^{-1}\mathbf{A} = \mathbf{I}\)，其中 \(\mathbf{I}\) 是单位矩阵（identity matrix），则 \(\mathbf{A}^{-1}\) 称为 \(\mathbf{A}\) 的逆矩阵。只有非奇异矩阵（non-singular matrix）或可逆矩阵（invertible matrix）才有逆矩阵。

行列式（Determinant）：一个方阵的行列式是一个标量值，记为 \(det(\mathbf{A})\) 或 \(|\mathbf{A}|\)。行列式为零的方阵是奇异矩阵，不可逆。

特征值（Eigenvalues）和特征向量（Eigenvectors）：对于一个方阵 \(\mathbf{A}\)，如果存在非零向量 \(\mathbf{v}\) 和标量 \(\lambda\)，使得 \(\mathbf{A}\mathbf{v} = \lambda\mathbf{v}\)，则 \(\lambda\) 是 \(\mathbf{A}\) 的特征值，\(\mathbf{v}\) 是对应于 \(\lambda\) 的特征向量。特征值和特征向量在分析线性变换的特性以及矩阵的对角化等方面非常重要，在MIMO信道容量分析中会用到。

在离散无记忆信道（DMC）中，信道的输入和输出之间的关系可以用一个信道矩阵（channel matrix）来描述，其元素是转移概率（transition probabilities），这正是线性代数在信道模型中的一个直接应用。在连续信道和多天线系统中，信号的传输和接收过程常常被建模为线性方程组，需要利用线性代数的知识进行分析和处理。

本章回顾的数学基础是理解后续信道模型章节的关键。如果某些概念不熟悉，建议查阅相关的数学教材或资料进行深入学习。掌握这些工具将极大地帮助我们理解信息如何在信道中传输以及如何量化和克服信道带来的限制。💪

3. chapter 3：信息度量（Measures of Information）

欢迎来到信息论的核心领域！在前面的章节中，我们对信息论及其在信道模型中的作用有了初步了解。现在，是时候深入探讨信息论中最基本、也是最重要的概念之一：如何量化信息。信息度量是理解通信系统性能极限、设计高效编码方案以及分析数据压缩和传输的基础。本章将系统地介绍信息论中用于度量信息量的几个关键概念，包括熵、联合熵、条件熵、互信息和相对熵。掌握这些概念，将为我们后续深入学习信道容量和编码理论打下坚实的基础。

3.1 熵（Entropy）

熵是信息论中用于度量随机变量不确定性的核心概念。直观上，一个随机变量的熵越高，其可能的结果就越多，或者说其结果的概率分布越均匀，因此我们在观察到其结果之前所面临的不确定性就越大。反之，如果一个随机变量的结果是确定性的（即某个结果的概率为1），那么它的熵就为零，因为我们对其结果没有任何不确定性。

3.1.1 离散随机变量的熵（Entropy of Discrete Random Variables）

对于一个取有限个值的离散随机变量（Discrete Random Variable） \(X\)，其取值集合为 \(\mathcal{X} = \{x_1, x_2, \dots, x_n\}\)，对应的概率质量函数（Probability Mass Function, PMF）为 \(p(x) = P(X=x)\)，其中 \(x \in \mathcal{X}\)。离散随机变量 \(X\) 的熵 \(H(X)\) 定义为：

\[ H(X) = -\sum_{x \in \mathcal{X}} p(x) \log_b p(x) \]

其中，\(b\) 是对数的底数，通常取2，此时熵的单位是比特（bits）。如果取 \(b=e\)，单位是奈特（nats）。在信息论中，我们通常使用以2为底的对数。当 \(p(x) = 0\) 时，约定 \(p(x) \log_b p(x) = 0\)，这是因为 \(\lim_{p \to 0^+} p \log p = 0\)。

熵具有以下重要性质：
① 非负性：\(H(X) \ge 0\)。熵永远是非负的。
② 确定性事件的熵为零：如果 \(X\) 是一个确定性变量（即对于某个 \(x_i\)，\(p(x_i)=1\)，而对于所有 \(j \ne i\)，\(p(x_j)=0\)），则 \(H(X) = 0\)。
③ 均匀分布的熵最大：对于一个有 \(n\) 个可能取值的随机变量，当其概率分布为均匀分布时，即 \(p(x_i) = 1/n\) 对于所有 \(i\)，其熵达到最大值，为 \(H(X) = \log_b n\)。
④ 熵的单位：当 \(b=2\) 时，单位是比特（bits）；当 \(b=e\) 时，单位是奈特（nats）；当 \(b=10\) 时，单位是迪特（dits）或哈特莱（Hartleys）。

示例 3.1.1 考虑一个抛硬币的实验。
⚝ 如果硬币是公平的，正面（H）和反面（T）出现的概率都是 0.5。随机变量 \(X\) 表示抛硬币的结果，\(\mathcal{X} = \{H, T\}\)，\(p(H)=0.5, p(T)=0.5\)。
\[ H(X) = -0.5 \log_2(0.5) - 0.5 \log_2(0.5) = -0.5(-1) - 0.5(-1) = 0.5 + 0.5 = 1 \text{ bit} \]
这表示一个公平的硬币抛掷结果提供了1比特的信息，或者说其不确定性是1比特。
⚝ 如果硬币是不公平的，正面概率为 0.9，反面概率为 0.1。\(p(H)=0.9, p(T)=0.1\)。
\[ H(X) = -0.9 \log_2(0.9) - 0.1 \log_2(0.1) \approx -0.9(-0.152) - 0.1(-3.322) \approx 0.137 + 0.332 = 0.469 \text{ bits} \]
不公平硬币的不确定性小于公平硬币，其熵也更低。

3.1.2 联合熵与条件熵（Joint Entropy and Conditional Entropy）

考虑两个离散随机变量 \(X\) 和 \(Y\)，它们的联合概率质量函数（Joint Probability Mass Function, JPMF）为 \(p(x,y) = P(X=x, Y=y)\)，其中 \(x \in \mathcal{X}, y \in \mathcal{Y}\)。

联合熵（Joint Entropy） \(H(X,Y)\) 度量了随机变量对 \((X,Y)\) 的不确定性，定义为：
\[ H(X,Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log_b p(x,y) \]

条件熵（Conditional Entropy） \(H(Y|X)\) 度量了在已知随机变量 \(X\) 的值后，随机变量 \(Y\) 的剩余不确定性。它定义为在给定 \(X=x\) 的条件下 \(Y\) 的熵的期望值：
\[ H(Y|X) = \sum_{x \in \mathcal{X}} p(x) H(Y|X=x) \]
其中 \(H(Y|X=x) = -\sum_{y \in \mathcal{Y}} p(y|x) \log_b p(y|x)\)，\(p(y|x) = P(Y=y|X=x)\) 是条件概率质量函数（Conditional Probability Mass Function, CPMF）。
因此，条件熵的展开式为：
\[ H(Y|X) = -\sum_{x \in \mathcal{X}} p(x) \sum_{y \in \mathcal{Y}} p(y|x) \log_b p(y|x) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log_b p(y|x) \]

联合熵、熵和条件熵之间存在一个重要的关系，称为链式法则（Chain Rule）：
\[ H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) \]
这个法则可以推广到多个随机变量：
\[ H(X_1, X_2, \dots, X_n) = \sum_{i=1}^n H(X_i | X_1, \dots, X_{i-1}) \]
其中 \(H(X_1 | X_1, \dots, X_0) = H(X_1)\)。

条件熵具有以下性质：
① \(H(Y|X) \ge 0\)。
② \(H(Y|X) \le H(Y)\)。已知 \(X\) 的信息不会增加 \(Y\) 的不确定性，通常会减少或保持不变。等号成立当且仅当 \(X\) 和 \(Y\) 相互独立。
③ 如果 \(Y\) 是 \(X\) 的函数，即 \(Y=f(X)\)，则 \(H(Y|X) = 0\)。因为已知 \(X\) 的值，\(Y\) 的值就确定了，没有不确定性。

示例 3.1.2 考虑一个信道，输入 \(X \in \{0, 1\}\)，输出 \(Y \in \{0, 1\}\)。信道有噪声，当输入为0时，输出0的概率为0.9，输出1的概率为0.1；当输入为1时，输出0的概率为0.2，输出1的概率为0.8。假设输入 \(X\) 的概率分布为 \(P(X=0)=0.6, P(X=1)=0.4\)。
首先计算联合概率：
\(p(0,0) = P(Y=0|X=0)P(X=0) = 0.9 \times 0.6 = 0.54\)
\(p(0,1) = P(Y=1|X=0)P(X=0) = 0.1 \times 0.6 = 0.06\)
\(p(1,0) = P(Y=0|X=1)P(X=1) = 0.2 \times 0.4 = 0.08\)
\(p(1,1) = P(Y=1|X=1)P(X=1) = 0.8 \times 0.4 = 0.32\)
联合熵 \(H(X,Y)\)：
\[ H(X,Y) = - (0.54 \log_2 0.54 + 0.06 \log_2 0.06 + 0.08 \log_2 0.08 + 0.32 \log_2 0.32) \]
\[ \approx - (-0.486 - 0.234 - 0.288 - 0.529) \approx 1.537 \text{ bits} \]
输入熵 \(H(X)\)：
\[ H(X) = - (0.6 \log_2 0.6 + 0.4 \log_2 0.4) \approx - (-0.442 - 0.531) \approx 0.973 \text{ bits} \]
条件熵 \(H(Y|X)\)：
\[ H(Y|X) = - \sum_{x,y} p(x,y) \log_2 p(y|x) \]
\[ = -(0.54 \log_2 0.9 + 0.06 \log_2 0.1 + 0.08 \log_2 0.2 + 0.32 \log_2 0.8) \]
\[ \approx - (0.54(-0.152) + 0.06(-3.322) + 0.08(-2.322) + 0.32(-0.322)) \]
\[ \approx - (-0.082 + -0.199 + -0.186 + -0.103) \approx 0.57 \text{ bits} \]
验证链式法则：\(H(X) + H(Y|X) \approx 0.973 + 0.57 = 1.543\) bits，与 \(H(X,Y)\) 的计算结果 \(1.537\) bits 接近（由于四舍五入）。

3.2 互信息（Mutual Information）

互信息是信息论中用于度量两个随机变量之间相互依赖程度或共享信息量的概念。它量化了通过观察一个随机变量所能获得的关于另一个随机变量的信息量。在通信系统中，互信息度量了通过接收到的信号（随机变量 \(Y\)）所能获得的关于发送信号（随机变量 \(X\)）的信息量。

3.2.1 互信息的定义与性质（Definition and Properties of Mutual Information）

两个离散随机变量 \(X\) 和 \(Y\) 之间的互信息 \(I(X;Y)\) 定义为 \(X\) 和 \(Y\) 的联合概率分布 \(p(x,y)\) 与它们各自的边缘概率分布 \(p(x)p(y)\) 的乘积之间的相对熵（稍后会介绍相对熵）。更常用的定义是基于熵和条件熵：

\[ I(X;Y) = H(X) - H(X|Y) \]
或者
\[ I(X;Y) = H(Y) - H(Y|X) \]
这两个定义是等价的。第一个定义表示，互信息是 \(X\) 的不确定性（熵 \(H(X)\)）减去在已知 \(Y\) 的值后 \(X\) 的剩余不确定性（条件熵 \(H(X|Y)\)）。这正是通过观察 \(Y\) 减少的关于 \(X\) 的不确定性，也就是 \(Y\) 提供的关于 \(X\) 的信息量。

互信息也可以用联合熵和边缘熵表示：
\[ I(X;Y) = H(X) + H(Y) - H(X,Y) \]
这个定义表明，互信息是 \(X\) 和 \(Y\) 各自的不确定性之和，减去它们共同的不确定性。

互信息具有以下重要性质：
① 非负性：\(I(X;Y) \ge 0\)。互信息永远是非负的。只有当 \(X\) 和 \(Y\) 完全独立时，互信息才为零。
② 对称性：\(I(X;Y) = I(Y;X)\)。通过 \(Y\) 了解 \(X\) 的信息量等于通过 \(X\) 了解 \(Y\) 的信息量。
③ 与独立性的关系：\(I(X;Y) = 0\) 当且仅当 \(X\) 和 \(Y\) 相互独立。
④ 数据处理不等式（Data Processing Inequality）：如果 \(X \to Y \to Z\) 构成一个马尔可夫链（Markov Chain）（即在给定 \(Y\) 的条件下，\(X\) 和 \(Z\) 条件独立），则 \(I(X;Y) \ge I(X;Z)\)。这意味着通过对数据进行任何（确定性或随机性）处理，信息量不会增加。处理后的变量 \(Z\) 所包含的关于原始变量 \(X\) 的信息不会超过中间变量 \(Y\) 所包含的信息。

3.2.2 互信息与熵的关系（Relationship between Mutual Information and Entropy）

互信息与熵、联合熵、条件熵之间的关系可以用一个维恩图（Venn Diagram）来形象地表示（尽管信息量不是集合，这只是一个类比）：
⚝ \(H(X)\) 表示 \(X\) 的不确定性。
⚝ \(H(Y)\) 表示 \(Y\) 的不确定性。
⚝ \(H(X,Y)\) 表示 \((X,Y)\) 的总不确定性。
⚝ \(H(X|Y)\) 表示已知 \(Y\) 后 \(X\) 的剩余不确定性。
⚝ \(H(Y|X)\) 表示已知 \(X\) 后 \(Y\) 的剩余不确定性。
⚝ \(I(X;Y)\) 表示 \(X\) 和 \(Y\) 共享的不确定性，即互信息。

这些关系是信息论中进行各种推导和计算的基础。互信息 \(I(X;Y)\) 在信道模型中具有特别重要的意义，它代表了通过信道传输后，接收端 \(Y\) 关于发送端 \(X\) 能够获得的最大信息量。在下一章讨论信道容量时，我们将看到信道容量正是互信息的最大值。

示例 3.2.1 沿用示例 3.1.2 的信道模型。我们已经计算出 \(H(X) \approx 0.973\) bits 和 \(H(Y|X) \approx 0.57\) bits。
使用定义 \(I(X;Y) = H(X) - H(Y|X)\)：
\[ I(X;Y) \approx 0.973 - 0.57 = 0.403 \text{ bits} \]
我们也可以计算 \(H(Y)\) 和 \(H(X|Y)\) 来验证。
首先计算 \(Y\) 的边缘概率：
\(p(Y=0) = p(0,0) + p(1,0) = 0.54 + 0.08 = 0.62\)
\(p(Y=1) = p(0,1) + p(1,1) = 0.06 + 0.32 = 0.38\)
\(H(Y) = - (0.62 \log_2 0.62 + 0.38 \log_2 0.38) \approx - (-0.399 - 0.504) \approx 0.903 \text{ bits}\)
计算 \(H(X|Y)\)：
\[ H(X|Y) = -\sum_{x,y} p(x,y) \log_2 p(x|y) \]
需要先计算条件概率 \(p(x|y)\)：
\(p(0|0) = p(0,0)/p(Y=0) = 0.54 / 0.62 \approx 0.871\)
\(p(1|0) = p(1,0)/p(Y=0) = 0.08 / 0.62 \approx 0.129\)
\(p(0|1) = p(0,1)/p(Y=1) = 0.06 / 0.38 \approx 0.158\)
\(p(1|1) = p(1,1)/p(Y=1) = 0.32 / 0.38 \approx 0.842\)
\[ H(X|Y) = -(0.54 \log_2 0.871 + 0.06 \log_2 0.158 + 0.08 \log_2 0.129 + 0.32 \log_2 0.842) \]
\[ \approx -(0.54(-0.196) + 0.06(-2.66) + 0.08(-2.95) + 0.32(-0.246)) \]
\[ \approx -(-0.106 + -0.160 + -0.236 + -0.079) \approx 0.581 \text{ bits} \]
使用定义 \(I(X;Y) = H(Y) - H(X|Y)\)：
\[ I(X;Y) \approx 0.903 - 0.581 = 0.322 \text{ bits} \]
使用定义 \(I(X;Y) = H(X) + H(Y) - H(X,Y)\)：
\[ I(X;Y) \approx 0.973 + 0.903 - 1.537 = 0.339 \text{ bits} \]
注意：由于中间计算的四舍五入，结果略有差异。精确计算会得到相同的结果。这个互信息值 \(I(X;Y) \approx 0.4\) bits 表示通过这个有噪声的信道传输一个比特的信息，平均而言，接收端能够获得约 0.4 比特关于原始发送比特的信息。

3.3 相对熵（Kullback-Leibler Divergence）

相对熵，也称为Kullback-Leibler散度（Kullback-Leibler Divergence, KLD）或信息散度（Information Divergence），是度量两个概率分布 \(p(x)\) 和 \(q(x)\) 之间差异的非对称度量。它衡量了当我们使用概率分布 \(q(x)\) 来近似真实的概率分布 \(p(x)\) 时所带来的“信息损失”或“惊讶程度”的期望值。

对于定义在同一集合 \(\mathcal{X}\) 上的两个离散概率分布 \(p(x)\) 和 \(q(x)\)，从 \(p\) 到 \(q\) 的相对熵 \(D(p||q)\) 定义为：

\[ D(p||q) = \sum_{x \in \mathcal{X}} p(x) \log_b \frac{p(x)}{q(x)} \]

同样，当 \(p(x) \log_b \frac{p(x)}{q(x)}\) 中的 \(p(x)=0\) 时，该项为0。当 \(p(x)>0\) 但 \(q(x)=0\) 时，\(\log_b \frac{p(x)}{q(x)}\) 趋于无穷大，此时相对熵为无穷大，这表示用一个完全不包含真实分布可能结果的分布去近似真实分布会带来无限大的信息损失。

相对熵具有以下重要性质：
① 非负性：\(D(p||q) \ge 0\)。这是由Jensen不等式（Jensen's Inequality）推导出的，称为Gibbs不等式（Gibbs' Inequality）。
② 当且仅当 \(p(x) = q(x)\) 对于所有 \(x\) 时，\(D(p||q) = 0\)。
③ 非对称性：一般来说，\(D(p||q) \ne D(q||p)\)。因此，相对熵不是一个真正的距离度量（Distance Metric），因为它不满足三角不等式，也不是对称的。

相对熵与互信息之间有密切关系。实际上，互信息 \(I(X;Y)\) 可以看作是随机变量对 \((X,Y)\) 的联合分布 \(p(x,y)\) 与其边缘分布乘积 \(p(x)p(y)\) 之间的相对熵：
\[ I(X;Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log_b \frac{p(x,y)}{p(x)p(y)} = D(p(x,y) || p(x)p(y)) \]
这个关系进一步强调了互信息是度量 \(X\) 和 \(Y\) 之间依赖程度的方式，即联合分布与独立分布乘积之间的差异。如果 \(X\) 和 \(Y\) 独立，则 \(p(x,y) = p(x)p(y)\)，此时相对熵为0，互信息也为0。

相对熵在统计推断、机器学习（如最大似然估计、变分推断）以及信息论的其他领域都有广泛应用。它提供了一种量化概率分布之间差异的强大工具。

示例 3.3.1 考虑一个六面骰子。
⚝ 真实分布 \(p\): 公平骰子，\(p(i) = 1/6\) 对于 \(i=1, \dots, 6\)。
⚝ 近似分布 \(q\): 假设我们错误地认为这是一个四面骰子，且是公平的，\(q(i) = 1/4\) 对于 \(i=1, \dots, 4\)，\(q(i) = 0\) 对于 \(i=5, 6\)。
计算 \(D(p||q)\)：
\[ D(p||q) = \sum_{i=1}^6 p(i) \log_2 \frac{p(i)}{q(i)} \]
对于 \(i=1, \dots, 4\)，\(p(i)=1/6, q(i)=1/4\)，\(\log_2 \frac{1/6}{1/4} = \log_2 \frac{4}{6} = \log_2 \frac{2}{3} \approx -0.585\)。
对于 \(i=5, 6\)，\(p(i)=1/6, q(i)=0\)。由于 \(p(i)>0\) 但 \(q(i)=0\)，\(D(p||q) = \infty\)。
这意味着用一个认为不可能出现5或6的分布去近似一个真实可能出现5或6的分布，会带来无限大的信息损失。

⚝ 真实分布 \(p\): 公平骰子，\(p(i) = 1/6\) 对于 \(i=1, \dots, 6\)。
⚝ 近似分布 \(q\): 假设我们认为这是一个有偏的六面骰子，\(q(1)=0.5, q(2)=\dots=q(6)=0.1\)。
计算 \(D(p||q)\)：
\[ D(p||q) = \sum_{i=1}^6 p(i) \log_2 \frac{p(i)}{q(i)} = \frac{1}{6} \log_2 \frac{1/6}{0.5} + \sum_{i=2}^6 \frac{1}{6} \log_2 \frac{1/6}{0.1} \]
\[ = \frac{1}{6} \log_2 \frac{1}{3} + 5 \times \frac{1}{6} \log_2 \frac{10}{6} = \frac{1}{6} (-\log_2 3) + \frac{5}{6} \log_2 \frac{5}{3} \]
\[ \approx \frac{1}{6}(-1.585) + \frac{5}{6}(0.737) \approx -0.264 + 0.614 = 0.35 \text{ bits} \]
这表示用分布 \(q\) 来近似分布 \(p\) 会带来约 0.35 比特的信息损失。

本章我们学习了信息论中用于量化信息和不确定性的基本工具：熵、联合熵、条件熵、互信息和相对熵。这些概念不仅是理论基石，也是分析和设计通信系统、数据压缩算法和机器学习模型的关键。在后续章节中，我们将看到互信息如何直接引出信道容量的概念，以及这些信息度量如何在不同类型的信道模型中应用。

附录C：参考文献（References）中将列出本领域经典的教材和研究论文，供读者深入学习。

4. chapter 4：离散无记忆信道（Discrete Memoryless Channels, DMC）

欢迎来到本书关于信道模型的第一个实质性章节。在前几章中，我们回顾了信息论的基础概念和必要的数学工具。现在，我们将聚焦于信息论中最基本、也是最重要的信道模型之一：离散无记忆信道（Discrete Memoryless Channel, DMC）。理解DMC是掌握更复杂信道模型以及信道编码理论的关键。本章将深入探讨DMC的定义、数学模型、典型示例及其互信息的计算方法。

4.1 DMC的定义与模型（Definition and Model of DMC）

信道（Channel）是信息论中描述信息从发送端传输到接收端的物理或抽象媒介。在传输过程中，信息可能会受到噪声（Noise）或干扰（Interference）的影响，导致接收到的信息与发送的信息不同。信道模型（Channel Model）就是用来描述这种传输过程及其不确定性的数学工具。

离散信道（Discrete Channel）是指其输入和输出符号集（Alphabet）都是有限集合的信道。例如，传输二进制数据（0和1）的信道就是一个离散信道。

无记忆信道（Memoryless Channel）是指信道在某一时刻的输出仅依赖于该时刻的输入，而与之前或之后的输入或输出无关。换句话说，信道对每个传输符号的处理是独立的，没有“记忆”效应。

将这两个概念结合起来，我们得到了离散无记忆信道（Discrete Memoryless Channel, DMC）。

定义 4.1.1 一个离散无记忆信道（DMC）由一个三元组 \( (\mathcal{X}, p(y|x), \mathcal{Y}) \) 定义，其中：
① \( \mathcal{X} \) 是有限的输入字母表（Input Alphabet），包含所有可能的输入符号 \( x \)。
② \( \mathcal{Y} \) 是有限的输出字母表（Output Alphabet），包含所有可能的输出符号 \( y \)。
③ \( p(y|x) \) 是信道转移概率（Channel Transition Probability），表示当输入符号为 \( x \in \mathcal{X} \) 时，输出符号为 \( y \in \mathcal{Y} \) 的条件概率（Conditional Probability）。对于所有的 \( x \in \mathcal{X} \) 和 \( y \in \mathcal{Y} \)，\( p(y|x) \ge 0 \)，并且对于每一个 \( x \in \mathcal{X} \)，有 \( \sum_{y \in \mathcal{Y}} p(y|x) = 1 \)。

无记忆性（Memoryless Property）意味着，如果输入序列是 \( x_1, x_2, \dots, x_n \) 并且对应的输出序列是 \( y_1, y_2, \dots, y_n \)，那么给定输入序列，输出序列的联合概率（Joint Probability）可以写成各个时刻条件概率的乘积：
\[ p(y_1, y_2, \dots, y_n | x_1, x_2, \dots, x_n) = \prod_{i=1}^n p(y_i | x_i) \]
这是DMC模型的核心特征，极大地简化了对信道行为的分析。

一个DMC可以用一个图来表示，其中节点代表输入和输出符号，边代表可能的转移，边上的权重就是对应的转移概率 \( p(y|x) \)。

例如，一个输入字母表为 \( \mathcal{X} = \{0, 1\} \)，输出字母表为 \( \mathcal{Y} = \{0, 1\} \) 的DMC，其转移概率可能包括 \( p(0|0), p(1|0), p(0|1), p(1|1) \)。

理解DMC的关键在于掌握其转移概率 \( p(y|x) \)。这些概率完全刻画了信道的统计特性。

4.2 信道矩阵与转移概率（Channel Matrix and Transition Probabilities）

对于一个DMC \( (\mathcal{X}, p(y|x), \mathcal{Y}) \)，其中 \( |\mathcal{X}| = m \) 且 \( |\mathcal{Y}| = n \)，我们可以将所有的转移概率 \( p(y|x) \) 组织成一个 \( n \times m \) 的矩阵，称为信道矩阵（Channel Matrix），通常记为 \( P \)。

定义 4.2.1 信道矩阵 \( P \) 是一个 \( n \times m \) 的矩阵，其元素 \( P_{ji} \) 定义为：
\[ P_{ji} = p(y_j | x_i) \]
其中 \( x_i \in \mathcal{X} = \{x_1, x_2, \dots, x_m\} \) 是第 \( i \) 个输入符号，\( y_j \in \mathcal{Y} = \{y_1, y_2, \dots, y_n\} \) 是第 \( j \) 个输出符号。

按照这个定义，信道矩阵 \( P \) 的结构如下：
\[ P = \begin{pmatrix} p(y_1|x_1) & p(y_1|x_2) & \dots & p(y_1|x_m) \\ p(y_2|x_1) & p(y_2|x_2) & \dots & p(y_2|x_m) \\ \vdots & \vdots & \ddots & \vdots \\ p(y_n|x_1) & p(y_n|x_2) & \dots & p(y_n|x_m) \end{pmatrix} \]
矩阵的每一列对应一个输入符号 \( x_i \)，每一行对应一个输出符号 \( y_j \)。

根据转移概率的性质，信道矩阵的每一列的元素之和必须为 1：
\[ \sum_{j=1}^n P_{ji} = \sum_{j=1}^n p(y_j | x_i) = 1 \quad \text{for all } i=1, \dots, m \]
这是一个重要的性质，反映了对于任何一个输入的符号，输出总会是 \( \mathcal{Y} \) 中的某个符号。

给定输入符号的概率分布（Input Probability Distribution） \( p(x) = \{p(x_1), p(x_2), \dots, p(x_m)\} \)，其中 \( p(x_i) = P(X=x_i) \)，我们可以计算出输出符号的概率分布（Output Probability Distribution） \( p(y) = \{p(y_1), p(y_2), \dots, p(y_n)\} \)，其中 \( p(y_j) = P(Y=y_j) \)。根据全概率公式（Law of Total Probability）：
\[ p(y_j) = \sum_{i=1}^m p(y_j | x_i) p(x_i) \]
使用矩阵表示，如果我们将输入概率分布 \( p(x) \) 表示为一个列向量 \( \mathbf{p}_X = [p(x_1), p(x_2), \dots, p(x_m)]^T \)，将输出概率分布 \( p(y) \) 表示为一个列向量 \( \mathbf{p}_Y = [p(y_1), p(y_2), \dots, p(y_n)]^T \)，那么它们之间的关系可以通过信道矩阵 \( P \) 的转置 \( P^T \) 来表示：
\[ \mathbf{p}_Y = P \mathbf{p}_X \]
这里，我们定义信道矩阵 \( P \) 的元素 \( P_{ji} = p(y_j|x_i) \)，其中 \( j \) 是行索引（对应输出 \( y_j \)），\( i \) 是列索引（对应输入 \( x_i \)）。

示例 4.2.2 考虑一个输入 \( \mathcal{X} = \{0, 1\} \)，输出 \( \mathcal{Y} = \{0, 1\} \) 的DMC。其转移概率为 \( p(0|0)=0.9, p(1|0)=0.1, p(0|1)=0.2, p(1|1)=0.8 \)。
输入符号 \( x_1=0, x_2=1 \)，输出符号 \( y_1=0, y_2=1 \)。
信道矩阵为：
\[ P = \begin{pmatrix} p(y_1|x_1) & p(y_1|x_2) \\ p(y_2|x_1) & p(y_2|x_2) \end{pmatrix} = \begin{pmatrix} p(0|0) & p(0|1) \\ p(1|0) & p(1|1) \end{pmatrix} = \begin{pmatrix} 0.9 & 0.2 \\ 0.1 & 0.8 \end{pmatrix} \]
检查列和：\( 0.9+0.1=1 \) 和 \( 0.2+0.8=1 \)，符合要求。
如果输入分布是 \( p(x_1)=p(0)=0.6, p(x_2)=p(1)=0.4 \)，则输入概率向量 \( \mathbf{p}_X = \begin{pmatrix} 0.6 \\ 0.4 \end{pmatrix} \)。
输出概率向量 \( \mathbf{p}_Y \) 为：
\[ \mathbf{p}_Y = P \mathbf{p}_X = \begin{pmatrix} 0.9 & 0.2 \\ 0.1 & 0.8 \end{pmatrix} \begin{pmatrix} 0.6 \\ 0.4 \end{pmatrix} = \begin{pmatrix} 0.9 \times 0.6 + 0.2 \times 0.4 \\ 0.1 \times 0.6 + 0.8 \times 0.4 \end{pmatrix} = \begin{pmatrix} 0.54 + 0.08 \\ 0.06 + 0.32 \end{pmatrix} = \begin{pmatrix} 0.62 \\ 0.38 \end{pmatrix} \]
所以输出分布是 \( p(y_1)=p(0)=0.62, p(y_2)=p(1)=0.38 \)。

信道矩阵是描述DMC行为的简洁而强大的工具。

4.3 典型DMC示例（Examples of Typical DMC）

为了更好地理解DMC，我们来看几个在信息论和通信领域中非常典型的DMC模型。这些模型虽然简单，但能捕捉到实际信道中的一些基本特性，并且常被用作分析更复杂问题的基础。

4.3.1 二元对称信道（Binary Symmetric Channel, BSC）

二元对称信道（BSC）是最简单也是最常用的DMC模型之一。它模拟了数字通信中最常见的错误类型：比特翻转（Bit Flip）。

定义 4.3.1.1 二元对称信道（BSC）是一个输入字母表 \( \mathcal{X} = \{0, 1\} \)，输出字母表 \( \mathcal{Y} = \{0, 1\} \) 的DMC。其转移概率由一个参数 \( p \) 决定，称为交叉概率（Crossover Probability），表示一个比特在传输过程中发生翻转的概率。
转移概率如下：
\[ p(0|0) = 1-p \\ p(1|0) = p \\ p(1|1) = 1-p \\ p(0|1) = p \]
其中 \( 0 \le p \le 1/2 \)。通常我们只考虑 \( p \le 1/2 \) 的情况，因为如果 \( p > 1/2 \)，我们可以简单地将接收到的比特翻转，从而得到一个等效的、错误概率为 \( 1-p < 1/2 \) 的信道。

BSC的信道矩阵为：
\[ P_{BSC} = \begin{pmatrix} 1-p & p \\ p & 1-p \end{pmatrix} \]
这里，行对应输入 \( \{0, 1\} \)，列对应输出 \( \{0, 1\} \)。

BSC的特点是“对称性”：输入0错误地变成1的概率与输入1错误地变成0的概率相等，都等于 \( p \)。正确传输的概率是 \( 1-p \)。

图示 4.3.1.2 BSC的图示：

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            graph LR
                        
                                X0(X=0) -->|1-p| Y0(Y=0)
                        
                                X0 -->|p| Y1(Y=1)
                        
                                X1(X=1) -->|p| Y0
                        
                                X1 -->|1-p| Y1

BSC模型广泛应用于数字通信系统的初步分析。

4.3.2 二元擦除信道（Binary Erasure Channel, BEC）

二元擦除信道（BEC）是另一个重要的二元DMC模型。与BSC不同，BEC不会翻转比特，而是以一定的概率将传输的比特“擦除”（Erase），接收端知道该比特发生了错误，但不知道它原本是0还是1。

定义 4.3.2.1 二元擦除信道（BEC）是一个输入字母表 \( \mathcal{X} = \{0, 1\} \)，输出字母表 \( \mathcal{Y} = \{0, 1, e\} \) 的DMC，其中 \( e \) 表示擦除符号。其转移概率由一个参数 \( \epsilon \) 决定，称为擦除概率（Erasure Probability）。
转移概率如下：
\[ p(0|0) = 1-\epsilon \\ p(e|0) = \epsilon \\ p(1|0) = 0 \\ p(1|1) = 1-\epsilon \\ p(e|1) = \epsilon \\ p(0|1) = 0 \]
其中 \( 0 \le \epsilon \le 1 \)。

BEC的信道矩阵为：
\[ P_{BEC} = \begin{pmatrix} 1-\epsilon & 0 \\ 0 & 1-\epsilon \\ \epsilon & \epsilon \end{pmatrix} \]
这里，行对应输出 \( \{0, 1, e\} \)，列对应输入 \( \{0, 1\} \)。

BEC的特点是错误是可检测的（Detected Error），接收端知道哪些符号被擦除了。这与BSC的错误是不可检测的（Undetected Error）形成对比。BEC模型常用于分析分组丢失（Packet Loss）或数据包损坏（Packet Corruption）等场景。

图示 4.3.2.2 BEC的图示：

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            graph LR
                        
                                X0(X=0) -->|1-epsilon| Y0(Y=0)
                        
                                X0 -->|epsilon| Ye(Y=e)
                        
                                X1(X=1) -->|1-epsilon| Y1(Y=1)
                        
                                X1 -->|epsilon| Ye

4.3.3 Z信道（Z-Channel）

Z信道是另一种二元DMC，其特点是错误具有不对称性（Asymmetric Error）。它得名于其转移概率图看起来像字母“Z”。

定义 4.3.3.1 Z信道是一个输入字母表 \( \mathcal{X} = \{0, 1\} \)，输出字母表 \( \mathcal{Y} = \{0, 1\} \) 的DMC。其转移概率由一个参数 \( p \) 决定。
转移概率如下：
\[ p(0|0) = 1 \\ p(1|0) = 0 \\ p(1|1) = 1-p \\ p(0|1) = p \]
其中 \( 0 \le p \le 1 \)。

Z信道的信道矩阵为：
\[ P_{Z} = \begin{pmatrix} 1 & p \\ 0 & 1-p \end{pmatrix} \]
这里，行对应输出 \( \{0, 1\} \)，列对应输入 \( \{0, 1\} \)。

Z信道的特点是输入0总是被正确传输为0，而输入1可能以概率 \( p \) 错误地变成0，以概率 \( 1-p \) 正确地传输为1。这种不对称性在某些实际系统中存在，例如在某些存储介质中，写入1比写入0更容易出错。

图示 4.3.3.2 Z信道的图示：

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            graph LR
                        
                                X0(X=0) -->|1| Y0(Y=0)
                        
                                X0 -->|0| Y1(Y=1)
                        
                                X1(X=1) -->|p| Y0
                        
                                X1 -->|1-p| Y1

这些典型DMC模型为我们分析和理解信道的行为提供了基础框架。

4.4 DMC的互信息计算（Calculating Mutual Information for DMC）

互信息（Mutual Information） \( I(X;Y) \) 是衡量随机变量 \( X \) 和 \( Y \) 之间相互依赖程度的量。在信息论中，对于一个信道，\( I(X;Y) \) 衡量了通过信道传输一个符号所能获得的信息量，即输出 \( Y \) 关于输入 \( X \) 提供了多少信息。对于DMC \( (\mathcal{X}, p(y|x), \mathcal{Y}) \)，互信息 \( I(X;Y) \) 取决于输入符号的概率分布 \( p(x) \) 和信道的转移概率 \( p(y|x) \)。

回顾互信息的定义：
\[ I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) \]
其中 \( H(\cdot) \) 是熵（Entropy），\( H(\cdot|\cdot) \) 是条件熵（Conditional Entropy）。

对于DMC，计算 \( I(X;Y) \) 最常用的公式是基于 \( H(Y) - H(Y|X) \)。

① 计算输出熵 \( H(Y) \)：
首先需要计算输出符号的概率分布 \( p(y) \)。对于每一个 \( y_j \in \mathcal{Y} \)，其概率为：
\[ p(y_j) = \sum_{x_i \in \mathcal{X}} p(y_j | x_i) p(x_i) \]
其中 \( p(x_i) \) 是输入符号 \( x_i \) 的概率，由输入分布 \( p(x) \) 给出。
然后，输出熵 \( H(Y) \) 计算为：
\[ H(Y) = - \sum_{y_j \in \mathcal{Y}} p(y_j) \log_2 p(y_j) \]
单位通常是比特（bits）。

② 计算条件熵 \( H(Y|X) \)：
条件熵 \( H(Y|X) \) 表示给定输入 \( X \) 后输出 \( Y \) 的不确定性，它衡量了信道引入的噪声量。
\[ H(Y|X) = \sum_{x_i \in \mathcal{X}} p(x_i) H(Y|X=x_i) \]
其中 \( H(Y|X=x_i) \) 是给定输入为 \( x_i \) 时输出的熵，计算为：
\[ H(Y|X=x_i) = - \sum_{y_j \in \mathcal{Y}} p(y_j | x_i) \log_2 p(y_j | x_i) \]
所以，条件熵 \( H(Y|X) \) 的完整计算公式为：
\[ H(Y|X) = - \sum_{x_i \in \mathcal{X}} p(x_i) \sum_{y_j \in \mathcal{Y}} p(y_j | x_i) \log_2 p(y_j | x_i) \]
注意，\( H(Y|X) \) 仅依赖于输入分布 \( p(x) \) 和信道转移概率 \( p(y|x) \)。

③ 计算互信息 \( I(X;Y) \)：
将 \( H(Y) \) 和 \( H(Y|X) \) 的结果代入公式 \( I(X;Y) = H(Y) - H(Y|X) \) 即可得到互信息的值。
\[ I(X;Y) = \sum_{y \in \mathcal{Y}} p(y) \log_2 \frac{1}{p(y)} - \sum_{x \in \mathcal{X}} p(x) \sum_{y \in \mathcal{Y}} p(y|x) \log_2 \frac{1}{p(y|x)} \]
也可以使用另一个常用的等价公式：
\[ I(X;Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \]
其中 \( p(x,y) = p(y|x) p(x) \) 是输入和输出的联合概率（Joint Probability）。

示例 4.4.1 计算BSC的互信息。
考虑一个BSC，交叉概率为 \( p \)。输入字母表 \( \mathcal{X} = \{0, 1\} \)，输出字母表 \( \mathcal{Y} = \{0, 1\} \)。
假设输入分布是均匀的（Uniform Distribution）：\( p(0) = 1/2, p(1) = 1/2 \)。
① 计算输出概率 \( p(y) \)：
\( p(0) = p(0|0)p(0) + p(0|1)p(1) = (1-p)(1/2) + p(1/2) = 1/2 - p/2 + p/2 = 1/2 \)
\( p(1) = p(1|0)p(0) + p(1|1)p(1) = p(1/2) + (1-p)(1/2) = p/2 + 1/2 - p/2 = 1/2 \)
所以输出分布也是均匀的：\( p(0)=1/2, p(1)=1/2 \)。
输出熵 \( H(Y) = - (1/2) \log_2(1/2) - (1/2) \log_2(1/2) = - (1/2)(-1) - (1/2)(-1) = 1 \) 比特。

③ 计算互信息 \( I(X;Y) \)：
\( I(X;Y) = H(Y) - H(Y|X) = 1 - h(p) \).

这个结果 \( I(X;Y) = 1 - h(p) \) 表示对于均匀输入的BSC，每传输一个比特，我们最多可以获得 \( 1-h(p) \) 比特的信息。当 \( p=0 \) 时（无噪声），\( h(0)=0 \)，\( I(X;Y)=1 \) 比特，表示无损传输。当 \( p=1/2 \) 时（完全随机翻转），\( h(1/2)=1 \)，\( I(X;Y)=0 \) 比特，表示无法获得任何信息。这与直觉相符。

互信息 \( I(X;Y) \) 的值取决于输入分布 \( p(x) \)。对于一个给定的信道 \( p(y|x) \)，我们可以通过选择不同的输入分布 \( p(x) \) 来改变 \( I(X;Y) \) 的值。互信息的最大值，称为信道容量（Channel Capacity），是信道最重要的参数之一，我们将在下一章详细讨论。

理解DMC的定义、模型、典型示例以及互信息的计算是信息论中信道分析的基础。这些概念将贯穿后续章节对更复杂信道模型的讨论。

5. chapter 5： DMC的信道容量（Channel Capacity of DMC）

欢迎回到信息论的课堂！在前面的章节中，我们深入探讨了信息的基本度量——熵（Entropy）和互信息（Mutual Information），以及离散无记忆信道（Discrete Memoryless Channel, DMC）的模型。现在，是时候引入信息论中最核心、最激动人心的概念之一：信道容量（Channel Capacity）。信道容量是香农（Shannon）理论的基石，它回答了一个根本性的问题：在给定信道条件下，我们能够以多高的速率可靠地传输信息？理解信道容量，特别是DMC的信道容量，是掌握信息论精髓的关键一步。

5.1 信道容量的定义（Definition of Channel Capacity）

信道容量（Channel Capacity）是描述一个通信信道传输信息能力的上限。它由克劳德·香农（Claude Shannon）在他的开创性论文《通信的数学理论》（A Mathematical Theory of Communication）中首次提出。简单来说，信道容量定义了在不引入错误的情况下，通过该信道传输信息的最大速率。

对于一个离散无记忆信道（DMC），其特性完全由输入字母表 \(\mathcal{X}\)、输出字母表 \(\mathcal{Y}\) 以及转移概率矩阵 \(P(y|x)\) 决定。我们知道，互信息 \(I(X;Y)\) 度量了输入随机变量 \(X\) 和输出随机变量 \(Y\) 之间的相互依赖程度，或者说，通过信道传输后，输出 \(Y\) 中包含了多少关于输入 \(X\) 的信息。互信息的大小取决于信道的转移概率 \(P(y|x)\) 以及输入符号的概率分布 \(P(x)\)。

信道容量 \(C\) 被定义为在所有可能的输入概率分布 \(P(x)\) 下，输入 \(X\) 和输出 \(Y\) 之间的互信息 \(I(X;Y)\) 的最大值。数学上，这可以表示为：

\[ C = \max_{P(x)} I(X;Y) \]

其中，\(I(X;Y)\) 的计算公式为：

\[ I(X;Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x,y) \log_2 \frac{P(x,y)}{P(x)P(y)} \]

或者等价地：

\[ I(X;Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x)P(y|x) \log_2 \frac{P(y|x)}{P(y)} \]

这里的 \(P(y) = \sum_{x \in \mathcal{X}} P(x)P(y|x)\) 是输出符号的边缘概率分布。

信道容量的单位通常是比特每信道使用（bits per channel use）。它代表了每次通过信道传输一个符号时，理论上最多可以传输的比特数。

香农的信道编码定理（Channel Coding Theorem）指出：

① 如果信息传输速率 \(R\) 小于信道容量 \(C\)，即 \(R < C\)，那么存在一种编码方案，使得通过该信道传输信息时，接收端可以以任意小的错误概率进行解码。
② 如果信息传输速率 \(R\) 大于信道容量 \(C\)，即 \(R > C\)，那么不存在任何编码方案，能够使得错误概率趋近于零。换句话说，以高于信道容量的速率传输信息是不可靠的。

这个定理的意义极其深远。它为通信系统的设计设定了一个理论极限，告诉我们无论编码和调制技术多么先进，都无法突破信道容量所设定的界限。同时，它也指明了方向：通过设计有效的编码方案，我们可以使通信速率逼近信道容量。

5.2 DMC容量的计算方法（Methods for Calculating DMC Capacity）

计算DMC的信道容量 \(C = \max_{P(x)} I(X;Y)\) 本质上是一个优化问题：我们需要找到一个输入概率分布 \(P(x)\)（即 \(p(x_i)\) 对于所有 \(x_i \in \mathcal{X}\)），使得互信息 \(I(X;Y)\) 达到最大值。这是一个在概率分布空间上的优化，满足条件 \(\sum_{x \in \mathcal{X}} P(x) = 1\) 且 \(P(x) \ge 0\) 对于所有 \(x\)。

互信息 \(I(X;Y)\) 可以写成 \(H(Y) - H(Y|X)\)。对于给定的DMC，条件熵 \(H(Y|X)\) 是固定的，因为它只取决于信道的转移概率 \(P(y|x)\) 和输入分布 \(P(x)\)：

\[ H(Y|X) = \sum_{x \in \mathcal{X}} P(x) H(Y|X=x) = \sum_{x \in \mathcal{X}} P(x) \left( -\sum_{y \in \mathcal{Y}} P(y|x) \log_2 P(y|x) \right) \]

因此，最大化 \(I(X;Y)\) 等价于最大化 \(H(Y) - H(Y|X)\)。由于 \(H(Y|X)\) 的计算中包含了 \(P(x)\)，所以这并不是简单地最大化 \(H(Y)\)。

最大化 \(I(X;Y)\) 关于 \(P(x)\) 的过程通常涉及凸优化技术。互信息 \(I(X;Y)\) 是输入概率分布 \(P(x)\) 的一个上凸函数（concave function）。这意味着存在唯一的最大值。我们可以使用拉格朗日乘子法（Lagrange Multipliers）或者迭代算法（如 Blahut-Arimoto 算法）来求解这个优化问题。

对于简单的DMC，有时可以通过观察或对称性来找到最优的输入分布。例如，对于具有某种对称性的信道，均匀输入分布（即所有输入符号出现的概率相等）往往能最大化互信息。

Blahut-Arimoto 算法

Blahut-Arimoto 算法是一种迭代算法，用于计算DMC的信道容量和达到容量的最优输入分布。该算法基于以下迭代公式：

初始化 \(p_0(x)\) 为任意一个合法的输入概率分布（例如均匀分布）。
对于 \(k = 0, 1, 2, \dots\)，迭代计算：
① 计算输出概率分布 \(q_k(y) = \sum_{x} p_k(x) P(y|x)\)。
② 计算辅助变量 \(r_k(x) = \sum_{y} P(y|x) \log_2 \frac{P(y|x)}{q_k(y)}\)。
③ 更新输入概率分布 \(p_{k+1}(x) = \frac{p_k(x) 2^{r_k(x)}}{\sum_{x'} p_k(x') 2^{r_k(x')}}\)。

在每次迭代中，互信息 \(I(p_k)\) 是单调非减的，并且收敛到信道容量 \(C\)。最优输入分布 \(P^*(x)\) 是迭代过程收敛时的 \(p_k(x)\)。

\[ C = \lim_{k \to \infty} I(p_k) \]

这个算法在实践中非常有用，尤其对于没有明显对称性的信道。

5.3 典型DMC的容量（Capacity of Typical DMC）

让我们计算一些典型DMC的信道容量，这些信道模型在实际中非常常见。

5.3.1 二元对称信道（Binary Symmetric Channel, BSC）

二元对称信道（BSC）是最简单的DMC之一。输入和输出字母表都是 \(\{0, 1\}\)。信道特性由交叉概率（crossover probability）\(p\) 决定，即输入为0时输出为1的概率，以及输入为1时输出为0的概率，这两个概率相等。

转移概率矩阵为：
\[ P = \begin{pmatrix} P(y=0|x=0) & P(y=1|x=0) \\ P(y=0|x=1) & P(y=1|x=1) \end{pmatrix} = \begin{pmatrix} 1-p & p \\ p & 1-p \end{pmatrix} \]

为了计算BSC的容量，我们需要找到最大化 \(I(X;Y)\) 的输入分布 \(P(x) = \{P(x=0), P(x=1)\}\)。由于BSC的对称性，直观上均匀输入分布 \(P(x=0) = P(x=1) = 1/2\) 应该能最大化互信息。我们可以证明这是正确的。

当 \(P(x=0) = P(x=1) = 1/2\) 时：
输出概率分布 \(P(y)\) 为：
\(P(y=0) = P(x=0)P(y=0|x=0) + P(x=1)P(y=0|x=1) = \frac{1}{2}(1-p) + \frac{1}{2}p = \frac{1}{2}\)
\(P(y=1) = P(x=0)P(y=1|x=0) + P(x=1)P(y=1|x=1) = \frac{1}{2}p + \frac{1}{2}(1-p) = \frac{1}{2}\)
输出分布也是均匀的。

此时的互信息 \(I(X;Y) = H(Y) - H(Y|X)\)。
\(H(Y)\) 是二元均匀分布的熵：\(H(Y) = -(\frac{1}{2}\log_2 \frac{1}{2} + \frac{1}{2}\log_2 \frac{1}{2}) = 1\) 比特。
\(H(Y|X)\) 是给定输入 \(X\) 时输出 \(Y\) 的不确定性。
\(H(Y|X=0) = -( (1-p)\log_2(1-p) + p\log_2 p ) = H_b(p)\)
\(H(Y|X=1) = -( p\log_2 p + (1-p)\log_2(1-p) ) = H_b(p)\)
其中 \(H_b(p)\) 是二元熵函数 \(H_b(p) = -p\log_2 p - (1-p)\log_2(1-p)\)。
\(H(Y|X) = P(x=0)H(Y|X=0) + P(x=1)H(Y|X=1) = \frac{1}{2}H_b(p) + \frac{1}{2}H_b(p) = H_b(p)\)。

因此，当输入为均匀分布时，\(I(X;Y) = 1 - H_b(p)\)。
可以证明，对于BSC，均匀输入分布确实最大化了互信息。
所以，BSC的信道容量为：

\[ C_{BSC} = 1 - H_b(p) = 1 + p\log_2 p + (1-p)\log_2(1-p) \]

容量的取值范围：
⚝ 当 \(p=0\) 时（无噪声信道），\(C_{BSC} = 1 - H_b(0) = 1 - 0 = 1\) 比特。这意味着每个比特都可以无误传输。
⚝ 当 \(p=1/2\) 时（完全噪声信道，输出与输入完全无关），\(C_{BSC} = 1 - H_b(1/2) = 1 - 1 = 0\) 比特。这意味着无法传输任何信息。
⚝ 当 \(p=1\) 时（反相信道），\(C_{BSC} = 1 - H_b(1) = 1 - 0 = 1\) 比特。虽然输出是输入的反相，但这是确定性的，接收端知道这种反相关系，可以完全恢复输入。

BSC容量曲线是一个关于 \(p\) 的对称函数，在 \(p=0\) 和 \(p=1\) 时达到最大值1，在 \(p=1/2\) 时达到最小值0。

5.3.2 二元擦除信道（Binary Erasure Channel, BEC）

二元擦除信道（BEC）的输入字母表是 \(\{0, 1\}\)，但输出字母表是 \(\{0, 1, e\}\)，其中 \(e\) 表示擦除（erasure）。输入为0时，以概率 \(1-\epsilon\) 输出0，以概率 \(\epsilon\) 输出 \(e\)。输入为1时，以概率 \(1-\epsilon\) 输出1，以概率 \(\epsilon\) 输出 \(e\)。\(\epsilon\) 是擦除概率。

转移概率矩阵为：
\[ P = \begin{pmatrix} P(y=0|x=0) & P(y=e|x=0) & P(y=1|x=0) \\ P(y=0|x=1) & P(y=e|x=1) & P(y=1|x=1) \end{pmatrix} = \begin{pmatrix} 1-\epsilon & \epsilon & 0 \\ 0 & \epsilon & 1-\epsilon \end{pmatrix} \]

对于BEC，同样可以证明均匀输入分布 \(P(x=0) = P(x=1) = 1/2\) 是最优的。
当 \(P(x=0) = P(x=1) = 1/2\) 时：
输出概率分布 \(P(y)\) 为：
\(P(y=0) = P(x=0)P(y=0|x=0) + P(x=1)P(y=0|x=1) = \frac{1}{2}(1-\epsilon) + \frac{1}{2}(0) = \frac{1-\epsilon}{2}\)
\(P(y=e) = P(x=0)P(y=e|x=0) + P(x=1)P(y=e|x=1) = \frac{1}{2}\epsilon + \frac{1}{2}\epsilon = \epsilon\)
\(P(y=1) = P(x=0)P(y=1|x=0) + P(x=1)P(y=1|x=1) = \frac{1}{2}(0) + \frac{1}{2}(1-\epsilon) = \frac{1-\epsilon}{2}\)

互信息 \(I(X;Y) = H(X) - H(X|Y)\)。对于均匀输入 \(H(X) = 1\) 比特。
\(H(X|Y) = \sum_{y \in \mathcal{Y}} P(y) H(X|Y=y)\)。
\(H(X|Y=0)\)：如果输出是0，那么输入一定是0。\(P(X=0|Y=0) = \frac{P(Y=0|X=0)P(X=0)}{P(Y=0)} = \frac{(1-\epsilon)(1/2)}{(1-\epsilon)/2} = 1\)。所以 \(H(X|Y=0) = 0\)。
\(H(X|Y=1)\)：如果输出是1，那么输入一定是1。\(P(X=1|Y=1) = \frac{P(Y=1|X=1)P(X=1)}{P(Y=1)} = \frac{(1-\epsilon)(1/2)}{(1-\epsilon)/2} = 1\)。所以 \(H(X|Y=1) = 0\)。
\(H(X|Y=e)\)：如果输出是 \(e\)，输入可能是0或1。\(P(X=0|Y=e) = \frac{P(Y=e|X=0)P(X=0)}{P(Y=e)} = \frac{\epsilon(1/2)}{\epsilon} = 1/2\)。\(P(X=1|Y=e) = \frac{P(Y=e|X=1)P(X=1)}{P(Y=e)} = \frac{\epsilon(1/2)}{\epsilon} = 1/2\)。所以 \(H(X|Y=e) = H_b(1/2) = 1\) 比特。

\(H(X|Y) = P(y=0)H(X|Y=0) + P(y=e)H(X|Y=e) + P(y=1)H(X|Y=1)\)
\(H(X|Y) = \frac{1-\epsilon}{2} \cdot 0 + \epsilon \cdot 1 + \frac{1-\epsilon}{2} \cdot 0 = \epsilon\) 比特。

因此，BEC的信道容量为：

\[ C_{BEC} = H(X) - H(X|Y) = 1 - \epsilon \]

容量的取值范围：
⚝ 当 \(\epsilon=0\) 时（无擦除信道），\(C_{BEC} = 1 - 0 = 1\) 比特。
⚝ 当 \(\epsilon=1\) 时（所有符号都被擦除），\(C_{BEC} = 1 - 1 = 0\) 比特。

BEC的容量只取决于擦除概率 \(\epsilon\)，与BSC不同，它不涉及对错误比特的混淆，只是信息的丢失。

5.3.3 Z信道（Z-Channel）

Z信道也是一种二元信道，输入字母表 \(\{0, 1\}\)，输出字母表 \(\{0, 1\}\)。其特点是输入0总是正确传输为0，而输入1可能错误地传输为0，但输入0不会错误地传输为1。

转移概率矩阵为：
\[ P = \begin{pmatrix} P(y=0|x=0) & P(y=1|x=0) \\ P(y=0|x=1) & P(y=1|x=1) \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ \epsilon & 1-\epsilon \end{pmatrix} \]
其中 \(\epsilon\) 是输入1错误地变为0的概率。

对于Z信道，均匀输入分布 \(P(x=0)=P(x=1)=1/2\) 不是最优的。直观上，输入0是无误传输的，而输入1可能出错。为了最大化信息传输，我们可能倾向于更多地使用可靠的输入符号0。

设输入分布为 \(P(x=0) = p_0\)， \(P(x=1) = p_1 = 1-p_0\)。
输出概率分布 \(P(y)\) 为：
\(P(y=0) = P(x=0)P(y=0|x=0) + P(x=1)P(y=0|x=1) = p_0 \cdot 1 + p_1 \cdot \epsilon = p_0 + \epsilon p_1\)
\(P(y=1) = P(x=0)P(y=1|x=0) + P(x=1)P(y=1|x=1) = p_0 \cdot 0 + p_1 \cdot (1-\epsilon) = p_1(1-\epsilon)\)

互信息 \(I(X;Y) = H(Y) - H(Y|X)\)。
\(H(Y) = -P(y=0)\log_2 P(y=0) - P(y=1)\log_2 P(y=1)\)
\(H(Y|X) = P(x=0)H(Y|X=0) + P(x=1)H(Y|X=1)\)
\(H(Y|X=0) = -(1\log_2 1 + 0\log_2 0) = 0\)
\(H(Y|X=1) = -(\epsilon\log_2 \epsilon + (1-\epsilon)\log_2 (1-\epsilon)) = H_b(\epsilon)\)
\(H(Y|X) = p_0 \cdot 0 + p_1 \cdot H_b(\epsilon) = p_1 H_b(\epsilon)\)

所以 \(I(X;Y) = H(Y) - p_1 H_b(\epsilon)\)。我们需要最大化这个表达式关于 \(p_0\)（或 \(p_1\)）。
将 \(p_1 = 1-p_0\) 代入：
\(P(y=0) = p_0 + \epsilon (1-p_0) = p_0(1-\epsilon) + \epsilon\)
\(P(y=1) = (1-p_0)(1-\epsilon)\)
\(I(X;Y) = - (p_0(1-\epsilon) + \epsilon)\log_2(p_0(1-\epsilon) + \epsilon) - (1-p_0)(1-\epsilon)\log_2((1-p_0)(1-\epsilon)) - (1-p_0)H_b(\epsilon)\)

这是一个关于 \(p_0\) 的函数，可以通过求导并令导数等于零来找到最大值。经过计算（过程比较繁琐，这里省略），最优的 \(p_0\) 满足：
\[ \log_2 \frac{p_0(1-\epsilon)+\epsilon}{(1-p_0)(1-\epsilon)} = \log_2 \frac{1-\epsilon}{\epsilon} \]
解出 \(p_0\)。

Z信道的容量为：
\[ C_{Z} = \log_2(1 + (1-\epsilon)) - (1-\epsilon)\log_2(1-\epsilon) - \epsilon\log_2\epsilon \]
或者更简洁的形式：
\[ C_{Z} = \log_2(1 + (1-\epsilon)) - H_b(\epsilon) + \epsilon\log_2\epsilon \]
这看起来不像一个简单的表达式。实际上，Z信道的容量计算需要找到最优的输入分布 \(p_0\)。最优的 \(p_0\) 使得 \(I(X;Y)\) 最大。

一个更直观的计算方法是利用 \(I(X;Y) = H(X) - H(X|Y)\)。
\(H(X) = H_b(p_0)\)。
\(H(X|Y) = P(y=0)H(X|Y=0) + P(y=1)H(X|Y=1)\)。
\(P(X=0|Y=1) = \frac{P(Y=1|X=0)P(X=0)}{P(Y=1)} = \frac{0 \cdot p_0}{(1-p_0)(1-\epsilon)} = 0\)。所以 \(H(X|Y=1) = 0\)。
\(P(X=0|Y=0) = \frac{P(Y=0|X=0)P(X=0)}{P(Y=0)} = \frac{1 \cdot p_0}{p_0 + \epsilon(1-p_0)}\)。
\(P(X=1|Y=0) = \frac{P(Y=0|X=1)P(X=1)}{P(Y=0)} = \frac{\epsilon \cdot (1-p_0)}{p_0 + \epsilon(1-p_0)}\)。
\(H(X|Y=0) = - \frac{p_0}{p_0 + \epsilon(1-p_0)}\log_2 \frac{p_0}{p_0 + \epsilon(1-p_0)} - \frac{\epsilon(1-p_0)}{p_0 + \epsilon(1-p_0)}\log_2 \frac{\epsilon(1-p_0)}{p_0 + \epsilon(1-p_0)}\)。
\(H(X|Y) = (p_0 + \epsilon(1-p_0)) H(X|Y=0)\)。

最大化 \(H_b(p_0) - (p_0 + \epsilon(1-p_0)) H(X|Y=0)\) 关于 \(p_0\)。
最优的 \(p_0\) 满足 \(P(X=0|Y=0) = \frac{1}{1 + (\frac{1-\epsilon}{\epsilon})^{\frac{1}{1-\epsilon}}}\) (这个公式可能有点复杂，实际计算中常用数值方法或查表)。

Z信道的容量 \(C_Z\) 随着 \(\epsilon\) 从0增加到1而单调递减。
⚝ 当 \(\epsilon=0\) 时（无噪声），\(C_Z = 1\) 比特。
⚝ 当 \(\epsilon=1\) 时（输入1总是变为0），输入1无法区分，只能传输输入0的信息，但输出0可能来自输入0或1，所以也无法完全区分。此时容量为0。

5.4 信道容量的性质（Properties of Channel Capacity）

信道容量 \(C\) 作为一个重要的信道参数，具有许多重要的性质：

① 非负性（Non-negativity）：信道容量总是非负的，\(C \ge 0\)。这是因为互信息总是非负的，而容量是互信息的最大值。
② 有限性（Finiteness）：对于具有有限输入和输出字母表的DMC，信道容量是有限的。
③ 凹函数（Concave Function）：互信息 \(I(X;Y)\) 是输入概率分布 \(P(x)\) 的一个上凸函数（concave function）。这保证了最大值的存在，并且可以使用凸优化技术求解。
④ 与信道矩阵的关系（Relationship with Channel Matrix）：信道容量完全由信道的转移概率矩阵 \(P(y|x)\) 决定。不同的信道矩阵对应不同的容量。
⑤ 数据处理不等式（Data Processing Inequality）：如果我们将信道输出 \(Y\) 通过另一个信道（或任何数据处理过程）得到 \(Z\)，形成一个马尔可夫链 \(X \to Y \to Z\)，那么 \(I(X;Z) \le I(X;Y)\)。这意味着任何对信道输出的后处理都不能增加关于输入的信息。信道容量是原始信道 \(X \to Y\) 的固有属性，不会因为后续处理而增加。
⑥ 可加性（Additivity）：对于两个独立的DMC，它们的串联或并联组合的容量具有可加性（在某些条件下）。例如，如果我们将两个独立的DMC \(C_1\) 和 \(C_2\) 并行使用，总容量是 \(C_1 + C_2\)。

理解这些性质有助于我们更深入地理解信道容量的含义及其在通信系统中的作用。信道容量不仅是一个理论极限，也是衡量信道质量的重要指标。在实际系统中，我们总是努力设计编码和调制方案，以期达到或逼近这个理论上限。

本章我们深入探讨了DMC的信道容量，从定义、计算方法到典型示例。下一章，我们将学习香农的信道编码定理，它将信道容量与可靠通信的可能性紧密联系起来，揭示了在容量以下速率进行可靠通信的可能性。

6. chapter 6：香农DMC信道编码定理（Shannon's Channel Coding Theorem for DMC）

欢迎来到本书关于信息论中信道模型的核心章节之一！📚 在前面的章节中，我们学习了如何度量信息（熵、互信息）以及离散无记忆信道（Discrete Memoryless Channel, DMC）的基本概念和信道容量（Channel Capacity）。现在，我们将探讨信息论中最具里程碑意义的成果之一：香农信道编码定理（Shannon's Channel Coding Theorem）。这个定理回答了一个根本性的问题：在给定信道条件下，我们能够以多高的速率可靠地传输信息？它为通信系统的设计设定了理论极限，并指明了逼近这个极限的可能性。

本章将深入解析香农DMC信道编码定理的两个主要部分：可达性（Achievability）和逆定理（Converse）。可达性部分证明了存在一种编码方案，可以在低于信道容量的任意速率下实现任意低的错误概率；逆定理部分则证明了高于信道容量的速率下，不可能实现任意低的错误概率。最后，我们将讨论这个定理的深远意义及其在实际应用中的局限性。

6.1 可达性（Achievability）

可达性部分是香农信道编码定理中“积极”的一面，它证明了在信道容量以下传输是可能的。具体来说，对于任何一个离散无记忆信道（DMC），其信道容量为 \(C\)，对于任意小的正数 \(\epsilon > 0\) 和任意小的错误概率 \(\delta > 0\)，存在一个足够大的码字长度 \(n\) 和一个速率（Rate）为 \(R < C\) 的编码方案，使得传输的平均错误概率（Average Probability of Error）小于 \(\delta\)。

这个证明通常采用随机编码（Random Coding）的方法。随机编码的思想是，我们不构造具体的“好”码，而是证明随机选择的大多数码都是“好”的。

考虑一个具有输入字母表（Input Alphabet）\(\mathcal{X}\) 和输出字母表（Output Alphabet）\(\mathcal{Y}\) 的DMC，其转移概率（Transition Probability）为 \(p(y|x)\)。信道容量 \(C\) 定义为互信息 \(I(X;Y)\) 关于输入分布 \(p(x)\) 的最大值：
\[ C = \max_{p(x)} I(X;Y) = \max_{p(x)} \sum_{x \in \mathcal{X}, y \in \mathcal{Y}} p(x) p(y|x) \log_2 \frac{p(y|x)}{p(y)} \]
其中 \(p(y) = \sum_{x \in \mathcal{X}} p(x) p(y|x)\)。

可达性证明的关键步骤通常包括：

① 码本生成（Codebook Generation）：
▮▮▮▮⚝ 随机独立地从输入字母表 \(\mathcal{X}\) 中选择 \(2^{nR}\) 个长度为 \(n\) 的序列作为码字（Codewords）。每个码字 \(\mathbf{x}_i = (x_{i1}, x_{i2}, \dots, x_{in})\) 的每个元素 \(x_{ij}\) 都根据某个输入概率分布 \(p(x)\) 独立同分布（Independent and Identically Distributed, i.i.d.）地生成。通常选择使 \(I(X;Y)\) 达到容量 \(C\) 的那个 \(p(x)\)。
▮▮▮▮⚝ 将这 \(M = 2^{nR}\) 个码字构成一个码本（Codebook）\(\mathcal{C} = \{\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_M\}\)。

② 编码（Encoding）：
▮▮▮▮⚝ 假设要传输 \(M\) 个消息（Messages），编号从 \(1\) 到 \(M\)。
▮▮▮▮⚝ 如果要发送消息 \(i\)，则发送对应的码字 \(\mathbf{x}_i\)。

③ 信道传输（Channel Transmission）：
▮▮▮▮⚝ 码字 \(\mathbf{x}_i\) 通过DMC传输，接收端收到长度为 \(n\) 的序列 \(\mathbf{y} = (y_1, y_2, \dots, y_n)\)。由于信道是无记忆的，接收到 \(\mathbf{y}\) 的概率为 \(p(\mathbf{y}|\mathbf{x}_i) = \prod_{j=1}^n p(y_j|x_{ij})\)。

④ 译码（Decoding）：
▮▮▮▮⚝ 接收端使用最大似然译码（Maximum Likelihood Decoding, ML Decoding）或联合典型性译码（Joint Typicality Decoding）。联合典型性译码是香农证明中常用的方法，它基于渐近等分性（Asymptotic Equipartition Property, AEP）。
▮▮▮▮⚝ 联合典型性译码规则：接收到 \(\mathbf{y}\) 后，译码器寻找码本中唯一的码字 \(\mathbf{x}_i\) 使得 \(\mathbf{x}_i\) 和 \(\mathbf{y}\) 是联合典型的（Jointly Typical）。如果找到这样的唯一码字，则译码为消息 \(i\)。如果没有找到或找到多个，则宣布译码错误。

⑤ 错误概率分析（Error Probability Analysis）：
▮▮▮▮⚝ 错误发生的情况：
▮▮▮▮▮▮▮▮❶ 发送的码字 \(\mathbf{x}_i\) 与接收到的 \(\mathbf{y}\) 不联合典型。
▮▮▮▮▮▮▮▮❷ 发送的码字 \(\mathbf{x}_i\) 与接收到的 \(\mathbf{y}\) 联合典型，但码本中另一个码字 \(\mathbf{x}_j\) (\(j \neq i\)) 也与 \(\mathbf{y}\) 联合典型。
▮▮▮▮⚝ 通过分析随机选择的码本的平均错误概率，可以证明当 \(n\) 足够大且速率 \(R < C\) 时，平均错误概率可以任意小。这是因为对于随机选择的码字，一个错误的码字 \(\mathbf{x}_j\) 与接收到的 \(\mathbf{y}\) 联合典型的概率非常小，特别是当 \(R < I(X;Y)\) 时。

数学上，联合典型集（Jointly Typical Set）\(A_\epsilon^{(n)}\) 定义为满足以下条件的序列对 \((\mathbf{x}, \mathbf{y})\)：
\[ -\frac{1}{n} \log p(\mathbf{x}) \approx H(X) \]
\[ -\frac{1}{n} \log p(\mathbf{y}) \approx H(Y) \]
\[ -\frac{1}{n} \log p(\mathbf{x}, \mathbf{y}) \approx H(X,Y) \]
其中 \(p(\mathbf{x}) = \prod p(x_i)\)，\(p(\mathbf{y}) = \prod p(y_i)\)，\(p(\mathbf{x}, \mathbf{y}) = \prod p(x_i, y_i)\)。更精确的定义涉及 \(\epsilon\)。

对于随机编码，发送码字 \(\mathbf{x}_1\) 时，错误概率主要由另一个码字 \(\mathbf{x}_j\) (\(j \neq 1\)) 与接收到的 \(\mathbf{y}\) 联合典型的概率决定。这个概率大约是 \(2^{-n I(X;Y)}\)。由于码本中有 \(2^{nR}\) 个码字，总的错误概率大致与 \(2^{nR} \cdot 2^{-n I(X;Y)} = 2^{-n(I(X;Y)-R)}\) 成正比。当 \(R < I(X;Y)\) 时，指数 \(I(X;Y)-R\) 是正的，随着 \(n\) 增大，错误概率呈指数下降。通过选择使 \(I(X;Y)\) 达到容量 \(C\) 的输入分布，我们可以证明当 \(R < C\) 时，存在码本使得错误概率任意小。

这个证明是存在性的（Existential），它证明了“好”码的存在，但没有提供构造这种码的具体方法。寻找能够逼近香农极限的实际编码方案是编码理论（Coding Theory）的核心任务之一。

6.2 逆定理（Converse）

逆定理部分是香农信道编码定理中“消极”的一面，它设定了可靠通信的速率上限。具体来说，对于任何一个离散无记忆信道（DMC），其信道容量为 \(C\)，如果传输速率 \(R > C\)，那么无论采用何种编码和译码方案，传输的平均错误概率都不能任意小，而是会趋近于一个大于零的常数（通常是1）。换句话说，高于信道容量的速率下，可靠通信是不可能的。

逆定理的证明通常依赖于信息度量的基本性质，特别是互信息和Fano不等式（Fano's Inequality）。

Fano不等式给出了错误概率与条件熵（Conditional Entropy）之间的关系。假设我们发送消息 \(W\)，通过信道后接收到 \(Y\)，然后译码得到 \(\hat{W}\)。如果译码错误，即 \(\hat{W} \neq W\)，则错误概率为 \(P_e = P(\hat{W} \neq W)\)。Fano不等式表明：
\[ H(W|\hat{W}) \le H(P_e) + P_e \log(|\mathcal{W}|-1) \]
其中 \(H(W|\hat{W})\) 是给定译码结果 \(\hat{W}\) 时原始消息 \(W\) 的不确定性，\(H(P_e)\) 是二元熵函数 \(h_b(P_e) = -P_e \log_2 P_e - (1-P_e) \log_2 (1-P_e)\)，\(|\mathcal{W}|\) 是消息集合的大小。对于 \(M\) 个等概率的消息，\(|\mathcal{W}| = M = 2^{nR}\)，则 \(\log(|\mathcal{W}|-1) \approx nR\)。

证明思路如下：

① 信息处理不等式（Data Processing Inequality）：
▮▮▮▮⚝ 消息 \(W\) 经过编码器生成码字 \(\mathbf{X}\)，通过信道得到接收序列 \(\mathbf{Y}\)，再经过译码器得到译码结果 \(\hat{W}\)。这个过程形成一个马尔可夫链（Markov Chain）：\(W \to \mathbf{X} \to \mathbf{Y} \to \hat{W}\)。
▮▮▮▮⚝ 根据信息处理不等式，信息在处理过程中不会增加，即 \(I(W;\hat{W}) \le I(\mathbf{X};\mathbf{Y})\)。

② 互信息与速率的关系：
▮▮▮▮⚝ 对于 \(M\) 个等概率消息，我们希望译码结果 \(\hat{W}\) 能够很好地恢复原始消息 \(W\)，这意味着 \(I(W;\hat{W})\) 应该接近 \(H(W) = \log M = nR\)。
▮▮▮▮⚝ 另一方面，\(I(\mathbf{X};\mathbf{Y}) = H(\mathbf{Y}) - H(\mathbf{Y}|\mathbf{X})\)。由于信道是无记忆的，\(H(\mathbf{Y}|\mathbf{X}) = \sum_{i=1}^n H(Y_i|X_i)\)。对于任意输入序列 \(\mathbf{x}\)，\(H(\mathbf{Y}|\mathbf{x}) = \sum_{i=1}^n H(Y_i|x_i)\)。
▮▮▮▮⚝ 对于DMC，\(H(Y_i|X_i) \le H(Y|X)\) 对于任何输入分布都成立，其中 \(H(Y|X)\) 是单符号条件熵。因此，\(H(\mathbf{Y}|\mathbf{X}) = \sum_{i=1}^n H(Y_i|X_i) \le n \max_{p(x)} H(Y|X) = n (H(Y) - C)\) (这里需要更严谨的推导，通常是 \(H(\mathbf{Y}|\mathbf{X}) = \sum_{i=1}^n H(Y_i|X_i) \ge n H(Y|X)\) for i.i.d. X, and \(I(\mathbf{X};\mathbf{Y}) \le n C\)).
▮▮▮▮⚝ 更直接地，对于长度为 \(n\) 的序列，互信息 \(I(\mathbf{X};\mathbf{Y}) \le n C\)。这是因为 \(I(\mathbf{X};\mathbf{Y}) = H(\mathbf{Y}) - H(\mathbf{Y}|\mathbf{X}) = H(\mathbf{Y}) - \sum_{i=1}^n H(Y_i|X_i)\). \(H(\mathbf{Y}) \le \sum H(Y_i)\). \(I(\mathbf{X};\mathbf{Y}) = \sum_{i=1}^n I(X_i; Y_i | X^{i-1}, Y^{i-1})\). For DMC, \(I(X_i; Y_i | X^{i-1}, Y^{i-1}) = I(X_i; Y_i)\). So \(I(\mathbf{X};\mathbf{Y}) = \sum_{i=1}^n I(X_i; Y_i)\). Since \(I(X_i; Y_i) \le C\) for any input distribution on \(X_i\), we have \(I(\mathbf{X};\mathbf{Y}) \le nC\).

③ 结合Fano不等式：
▮▮▮▮⚝ 我们有 \(nR = H(W) = I(W;\hat{W}) + H(W|\hat{W})\)。
▮▮▮▮⚝ 根据信息处理不等式，\(I(W;\hat{W}) \le I(\mathbf{X};\mathbf{Y})\)。
▮▮▮▮⚝ 对于DMC，\(I(\mathbf{X};\mathbf{Y}) \le nC\).
▮▮▮▮⚝ 因此，\(nR \le nC + H(W|\hat{W})\)。
▮▮▮▮⚝ 结合Fano不等式 \(H(W|\hat{W}) \le H(P_e) + P_e \log(M-1)\)，我们得到：
\[ nR \le nC + H(P_e) + P_e \log(M-1) \]
\[ R \le C + \frac{H(P_e)}{n} + P_e \frac{\log(M-1)}{n} \]
当 \(n \to \infty\)，如果 \(P_e \to 0\)，则 \(H(P_e) \to 0\)，且 \(P_e \frac{\log(M-1)}{n} \approx P_e R \to 0\).
然而，更精确的分析表明，如果 \(R > C\)，则 \(P_e\) 不能趋于零。
从 \(nR - nC \le H(W|\hat{W})\) 出发，如果 \(R > C\)，则 \(H(W|\hat{W})\) 必须以至少 \(n(R-C)\) 的速率增长。根据Fano不等式，要使 \(H(W|\hat{W})\) 保持有界（从而使 \(P_e\) 趋于零），需要 \(P_e \log(M-1)\) 趋于零，这要求 \(P_e\) 趋于零。但如果 \(R > C\)，\(H(W|\hat{W})\) 的增长速度使得 \(P_e\) 无法趋于零。

更正式的证明表明，对于任何速率 \(R > C\)，存在一个下界 \(\delta > 0\)，使得对于任意大的 \(n\)，平均错误概率 \(P_e^{(n)}\) 满足 \(P_e^{(n)} \ge \delta\)。这意味着错误概率无法任意小。

逆定理告诉我们，信道容量 \(C\) 是可靠通信的严格上限。试图以高于容量的速率传输信息，必然会导致不可忽略的错误率。

6.3 定理的意义与局限性（Significance and Limitations of the Theorem）

香农信道编码定理是信息论的基石，其意义极其深远，但也存在一些局限性。

定理的意义（Significance）：

① 确定了信道容量的根本性地位：定理证明了信道容量 \(C\) 是在给定信道上实现可靠通信的最高可能速率。它为通信系统的性能设定了理论上的极限，就像热力学第二定律为能量转换设定了极限一样。🚀
② 指明了通过编码实现可靠通信的可能性：可达性部分证明了，只要传输速率低于信道容量，就存在一种编码方案（尽管是随机的）能够使错误概率任意小。这为通信工程师提供了信心和方向：通过设计有效的编码和译码方案，我们可以逼近这个理论极限。
③ 分离了信源编码和信道编码：香农的理论表明，在许多情况下，可以独立地进行信源压缩（去除冗余）和信道编码（增加抗噪声能力），而不会损失最优性。这极大地简化了通信系统的设计。
④ 提供了衡量通信系统效率的基准：实际通信系统的性能（例如，在特定错误率下的传输速率）可以与香道容量进行比较，以评估其效率和改进空间。

定理的局限性（Limitations）：

① 存在性而非构造性（Existential vs. Constructive）：可达性证明采用随机编码，证明了“好”码的存在，但没有提供如何构造这些码的具体算法。实际应用中需要设计具有可行编码和译码算法的码，这通常比随机码更难达到理论极限。
② 渐近性结果（Asymptotic Result）：定理是在码字长度 \(n \to \infty\) 的极限情况下成立的。对于有限长度的码字，错误概率与速率之间的关系更为复杂，且通常无法达到容量。实际系统中，码字长度是有限的，需要在性能和延迟/复杂度之间进行权衡。
③ 假设条件（Assumptions）：定理是针对离散无记忆信道（DMC）推导的。对于有记忆信道（Channels with Memory）、连续信道（Continuous Channels）或多用户信道（Multiuser Channels），虽然也有类似的容量定理，但模型和分析方法更为复杂。
④ 译码复杂度（Decoding Complexity）：随机编码证明中使用的联合典型性译码或最大似然译码，其复杂度通常随码字长度 \(n\) 和码本大小 \(M=2^{nR}\) 指数增长，对于实际应用是不可行的。寻找具有多项式复杂度译码算法的码是编码理论研究的另一个重要方向。

尽管存在这些局限性，香农信道编码定理仍然是现代通信理论和实践的基石。它为我们理解通信系统的基本限制提供了深刻的洞察，并激励了无数研究者去设计和实现能够逼近香农极限的高效编码技术，如LDPC码（LDPC Codes）和Turbo码（Turbo Codes），这些将在后续章节中介绍。✨

好的，作为一名经验丰富的讲师，我将按照您提供的书籍大纲和格式要求，为您撰写《信息论：信道模型全面且深度解析》一书的第七章：连续信道（Continuous Channels）。

7. chapter 7：连续信道（Continuous Channels）

在信息论的早期发展中，香农（Shannon）首先关注的是离散信道（Discrete Channels），即输入和输出符号集都是有限的信道。然而，在实际通信系统中，信号往往是连续的，例如模拟音频信号或射频信号。处理这类信号需要引入连续信道的概念。本章将从离散信道扩展到连续信道，介绍连续随机变量的信息度量——微分熵（Differential Entropy），重点探讨重要的连续信道模型——高斯信道（Gaussian Channels），特别是加性高斯白噪声（AWGN）信道，并深入解析其信道容量，即著名的香农-哈特利定理（Shannon-Hartley Theorem）。理解连续信道及其容量对于分析和设计实际通信系统至关重要。

7.1 连续随机变量的微分熵（Differential Entropy of Continuous Random Variables）

在离散信息论中，熵（Entropy）是衡量离散随机变量不确定性的基本度量。对于连续随机变量，我们引入微分熵（Differential Entropy）的概念。虽然名称相似，但微分熵与离散熵在性质上有所不同，它不能直接解释为不确定性的绝对度量，而更多地用于衡量概率分布的“弥散”程度或作为相对不确定性的度量。

7.1.1 离散随机变量的熵（Entropy of Discrete Random Variables）

回顾一下，对于一个取值于有限集合 \(\mathcal{X}\) 的离散随机变量 \(X\)，其概率质量函数（Probability Mass Function, PMF）为 \(p(x) = P(X=x)\)，其熵定义为：
\[ H(X) = -\sum_{x \in \mathcal{X}} p(x) \log_2 p(x) \]
单位通常是比特（bits）。

7.1.2 联合熵与条件熵（Joint Entropy and Conditional Entropy）

对于两个离散随机变量 \(X\) 和 \(Y\)，其联合熵（Joint Entropy）定义为：
\[ H(X, Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log_2 p(x, y) \]
其中 \(p(x, y)\) 是联合概率质量函数。

条件熵（Conditional Entropy）\(H(Y|X)\) 定义为在已知 \(X\) 的条件下 \(Y\) 的不确定性的平均值：
\[ H(Y|X) = \sum_{x \in \mathcal{X}} p(x) H(Y|X=x) = -\sum_{x \in \mathcal{X}} p(x) \sum_{y \in \mathcal{Y}} p(y|x) \log_2 p(y|x) \]
联合熵、条件熵与边缘熵（Marginal Entropy）之间存在重要的链式法则（Chain Rule）：
\[ H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) \]

7.1.3 连续随机变量的微分熵（Differential Entropy of Continuous Random Variables）

对于一个具有概率密度函数（Probability Density Function, PDF）\(f(x)\) 的连续随机变量 \(X\)，其微分熵（Differential Entropy）定义为：
\[ h(X) = -\int_{-\infty}^{\infty} f(x) \log_2 f(x) dx \]
如果使用自然对数 \(\ln\)，单位是奈特（nats）；使用 \(\log_2\)，单位是比特（bits）。本书统一使用 \(\log_2\)。

⚝ 微分熵的性质：
▮▮▮▮⚝ 微分熵可以为负值。例如，对于一个在很小区间 \([0, \epsilon]\) 上均匀分布的随机变量，当 \(\epsilon \to 0\) 时，其概率密度 \(f(x) = 1/\epsilon\) 趋于无穷大，\(\log_2(1/\epsilon)\) 趋于无穷大，积分结果趋于负无穷。这与离散熵总是非负的性质不同。
▮▮▮▮⚝ 微分熵不是不确定性的绝对度量，而是与坐标系的选取有关。如果对随机变量进行线性变换 \(Y = aX + b\)，则 \(h(Y) = h(X) + \log_2 |a|\)。
▮▮▮▮⚝ 对于给定的方差 \(\sigma^2\)，高斯分布（Gaussian Distribution）的随机变量具有最大的微分熵。这是信息论中一个非常重要的结论。具体来说，如果 \(X \sim \mathcal{N}(\mu, \sigma^2)\)，则其微分熵为：
\[ h(X) = \frac{1}{2} \log_2(2\pi e \sigma^2) \]

⚝ 联合微分熵与条件微分熵：
▮▮▮▮⚝ 对于两个连续随机变量 \(X\) 和 \(Y\)，其联合概率密度函数为 \(f(x, y)\)，联合微分熵定义为：
\[ h(X, Y) = -\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \log_2 f(x, y) dx dy \]
▮▮▮▮⚝ 条件微分熵 \(h(Y|X)\) 定义为：
\[ h(Y|X) = -\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \log_2 f(y|x) dx dy \]
其中 \(f(y|x)\) 是条件概率密度函数。
▮▮▮▮⚝ 类似的，链式法则对于微分熵也成立：
\[ h(X, Y) = h(X) + h(Y|X) = h(Y) + h(X|Y) \]

⚝ 互信息（Mutual Information）的连续形式：
▮▮▮▮⚝ 互信息衡量两个随机变量之间的相互依赖程度。对于连续随机变量 \(X\) 和 \(Y\)，其互信息定义为：
\[ I(X;Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \log_2 \frac{f(x, y)}{f(x) f(y)} dx dy \]
▮▮▮▮⚝ 互信息也可以用微分熵表示：
\[ I(X;Y) = h(X) - h(X|Y) = h(Y) - h(Y|X) \]
\[ I(X;Y) = h(X) + h(Y) - h(X, Y) \]
互信息是非负的，\(I(X;Y) \ge 0\)，且 \(I(X;Y) = 0\) 当且仅当 \(X\) 和 \(Y\) 相互独立。互信息是连续信道容量定义的基础。

7.2 高斯信道（Gaussian Channels）

实际通信系统中，噪声是不可避免的。根据中心极限定理（Central Limit Theorem），大量独立随机噪声源的叠加趋近于高斯分布。因此，高斯噪声（Gaussian Noise）是通信信道中一种非常普遍且重要的噪声模型。高斯信道是指输出信号是输入信号加上高斯噪声的信道。

一个基本的连续时间高斯信道模型可以表示为：
\[ Y(t) = X(t) + Z(t) \]
其中：
⚝ \(X(t)\) 是输入信号（Input Signal）。
⚝ \(Y(t)\) 是输出信号（Output Signal）。
⚝ \(Z(t)\) 是加性噪声（Additive Noise），且 \(Z(t)\) 是一个高斯随机过程（Gaussian Stochastic Process）。

在分析高斯信道时，通常会考虑对输入信号的功率（Power）或能量（Energy）进行约束。例如，平均功率约束（Average Power Constraint）：
\[ E[X(t)^2] \le P \]
其中 \(P\) 是允许的最大平均发送功率。

高斯信道是连续信道中最重要的一类，因为：
① 高斯噪声在物理上普遍存在。
② 在给定功率约束下，高斯输入信号能最大化互信息，从而达到信道容量。
③ 高斯信道的容量具有简洁的数学表达式，即香农-哈特利定理。

7.3 加性高斯白噪声（AWGN）信道（Additive White Gaussian Noise Channel）

加性高斯白噪声（AWGN）信道是高斯信道中最典型和最基础的模型。它假设噪声是加性的、高斯分布的，并且是“白”的。

⚝ 加性（Additive）： 噪声直接叠加到信号上，即 \(Y(t) = X(t) + Z(t)\)。
⚝ 高斯（Gaussian）： 噪声 \(Z(t)\) 是一个高斯随机过程，即在任意时刻 \(t\)，\(Z(t)\) 是一个服从高斯分布的随机变量；在任意多个时刻 \(t_1, t_2, \dots, t_n\)，\((Z(t_1), Z(t_2), \dots, Z(t_n))\) 服从联合高斯分布。
⚝ 白（White）： 噪声的功率谱密度（Power Spectral Density, PSD）在所有频率上是均匀的常数。这意味着噪声在时间上是完全不相关的（自相关函数是狄拉克 delta 函数）。对于一个实值白噪声过程 \(Z(t)\)，其双边功率谱密度通常表示为 \(N_0/2\)，其中 \(N_0\) 是一个常数。

在实际分析中，我们通常考虑带限（Band-limited）的AWGN信道。如果信号和噪声都限制在带宽为 \(B\) 的频率范围内（例如从 \(-B/2\) 到 \(B/2\) 或从 \(0\) 到 \(B\)），根据奈奎斯特采样定理（Nyquist Sampling Theorem），一个带宽为 \(B\) 的连续时间信号可以在每秒 \(2B\) 个采样点上完全恢复。因此，一个持续时间为 \(T\) 的带限信号可以由 \(2BT\) 个样本表示。

考虑一个带宽为 \(B\) 的AWGN信道，输入信号的平均功率约束为 \(P\)。噪声 \(Z(t)\) 的双边功率谱密度为 \(N_0/2\)。在带宽 \(B\) 内，噪声的总功率（Noise Power）为 \(N = N_0 B\)。信噪比（Signal-to-Noise Ratio, SNR）定义为信号功率与噪声功率之比，即 \(SNR = S/N = P/(N_0 B)\)。

AWGN信道模型是许多实际通信信道（如卫星通信、深空通信在理想情况下的模型）的良好近似，也是分析更复杂信道（如衰落信道）的基础。

7.4 香农-哈特利定理（Shannon-Hartley Theorem）

香农-哈特利定理给出了带限AWGN信道的信道容量（Channel Capacity）。它是信息论中最著名和最重要的结果之一。

定理内容：对于一个带宽为 \(B\) Hz 的加性高斯白噪声（AWGN）信道，如果输入信号的平均功率为 \(S\)，噪声的功率谱密度为 \(N_0/2\)，则信道的容量 \(C\) 为：
\[ C = B \log_2\left(1 + \frac{S}{N_0 B}\right) \]
或者，用信噪比 \(SNR = S/(N_0 B)\) 表示：
\[ C = B \log_2(1 + SNR) \]
单位是比特每秒（bits/s）。

⚝ 定理的意义：
① 香农-哈特利定理给出了在给定带宽和信噪比下，AWGN信道理论上能够实现的最大可靠传输速率。
② “可靠传输”意味着可以通过适当的编码和解码方案，使得错误概率任意小地接近于零。
③ 这个容量值是一个理论上限，任何实际的通信系统都无法超越它。
④ 定理揭示了带宽 \(B\) 和信噪比 \(SNR\) 对信道容量的影响：
▮▮▮▮⚝ 容量随带宽 \(B\) 的增加而线性增加（在对数项外部）。
▮▮▮▮⚝ 容量随信噪比 \(SNR\) 的增加而对数增加。
⑤ 定理表明，即使在有噪声的情况下，只要传输速率低于信道容量，原则上就可以实现无差错通信。

⚝ 定理的局限性：
① 这是一个理论极限，实际系统中达到这个容量需要无限长的码字和无限复杂的编码/解码器。
② 定理假设噪声是理想的白高斯噪声，实际信道中的噪声可能具有其他特性（如脉冲噪声、窄带干扰等）。
③ 定理假设信道是线性的且时不变的，实际信道可能存在非线性或时变特性（如衰落）。
④ 定理没有告诉我们如何设计达到容量的编码方案，这属于信道编码理论的研究范畴。

尽管存在这些局限性，香农-哈特利定理仍然是通信系统设计和性能评估的基石。它为通信工程师设定了目标，并提供了衡量系统性能的基准。

7.5 AWGN信道的容量（Capacity of AWGN Channel）

香农-哈特利定理的推导是基于互信息最大化的原理。信道容量定义为输入和输出之间的互信息的最大值，最大化是关于输入信号的概率分布进行的，同时要满足输入功率约束。

对于AWGN信道 \(Y = X + Z\)，其中 \(Z \sim \mathcal{N}(0, N_0 B)\) 且与 \(X\) 独立，输入信号 \(X\) 满足平均功率约束 \(E[X^2] \le S\)。信道容量 \(C\) 定义为：
\[ C = \max_{f(x): E[X^2] \le S} I(X;Y) \]
根据互信息的微分熵表示：
\[ I(X;Y) = h(Y) - h(Y|X) \]
由于 \(Y = X + Z\) 且 \(X\) 和 \(Z\) 独立，条件微分熵 \(h(Y|X)\) 等于噪声的微分熵 \(h(Z)\)。因为 \(Z\) 是零均值高斯随机变量，其方差为 \(N_0 B\)，所以：
\[ h(Z) = \frac{1}{2} \log_2(2\pi e N_0 B) \]
因此，互信息变为：
\[ I(X;Y) = h(Y) - \frac{1}{2} \log_2(2\pi e N_0 B) \]
要最大化 \(I(X;Y)\)，只需要最大化 \(h(Y)\)。\(Y = X + Z\)。\(X\) 的方差为 \(E[X^2] \le S\)，\(Z\) 的方差为 \(N_0 B\)。由于 \(X\) 和 \(Z\) 独立，\(Y\) 的方差为 \(E[Y^2] = E[(X+Z)^2] = E[X^2] + E[Z^2] \le S + N_0 B\)。
我们知道，在给定方差的情况下，高斯分布具有最大的微分熵。为了最大化 \(h(Y)\)，需要使 \(Y\) 服从高斯分布，并且使其方差最大化，即 \(E[Y^2] = S + N_0 B\)。
如果输入 \(X\) 服从均值为 0、方差为 \(S\) 的高斯分布（即 \(X \sim \mathcal{N}(0, S)\)），那么 \(Y = X + Z\) 作为两个独立高斯变量的和，也将服从高斯分布，其均值为 0，方差为 \(S + N_0 B\)。此时，\(Y \sim \mathcal{N}(0, S + N_0 B)\)。
此时 \(Y\) 的微分熵达到最大值：
\[ h(Y) = \frac{1}{2} \log_2(2\pi e (S + N_0 B)) \]
将 \(h(Y)\) 和 \(h(Z)\) 代入互信息公式：
\[ I(X;Y) = \frac{1}{2} \log_2(2\pi e (S + N_0 B)) - \frac{1}{2} \log_2(2\pi e N_0 B) \]
\[ I(X;Y) = \frac{1}{2} \log_2\left(\frac{2\pi e (S + N_0 B)}{2\pi e N_0 B}\right) \]
\[ I(X;Y) = \frac{1}{2} \log_2\left(1 + \frac{S}{N_0 B}\right) \]
这个互信息是在假设输入 \(X\) 是高斯分布时计算得到的。由于高斯输入最大化了互信息，因此这个值就是信道容量。对于带宽为 \(B\) 的信道，容量是单位带宽容量乘以带宽，或者更准确地说，上述推导是针对一个二维实值高斯信道（对应于一个复值基带信号或一个实值带通信号的两个正交分量），其容量为 \(\frac{1}{2} \log_2(1 + S/N)\) 比特/二维样本。对于带宽为 \(B\) 的信道，每秒可以传输 \(2B\) 个二维样本，因此总容量为 \(C = 2B \times \frac{1}{2} \log_2(1 + S/N) = B \log_2(1 + S/N)\) 比特/秒。这里的 \(S\) 是信号功率，\(N = N_0 B\) 是带宽 \(B\) 内的噪声功率。

所以，AWGN信道的容量为：
\[ C = B \log_2\left(1 + \frac{S}{N}\right) \]
其中 \(S\) 是信号功率，\(N\) 是带宽 \(B\) 内的噪声功率。

⚝ 功率-带宽互换：
香农-哈特利定理揭示了功率和带宽之间的权衡关系。
\[ C = B \log_2\left(1 + \frac{S}{N_0 B}\right) \]
⚝ 当 \(SNR \to \infty\) 时（高信噪比），\(C \approx B \log_2(SNR)\)。容量随带宽线性增长，随信噪比对数增长。
⚝ 当 \(B \to \infty\) 时（无限带宽），令 \(x = S/(N_0 B)\)，则 \(B = S/(N_0 x)\)。当 \(B \to \infty\)，\(x \to 0\)。
\[ C = \frac{S}{N_0 x} \log_2(1+x) \]
利用 \(\lim_{x \to 0} \frac{\log_2(1+x)}{x} = \frac{1}{\ln 2}\)，得到：
\[ \lim_{B \to \infty} C = \frac{S}{N_0 \ln 2} \]
这意味着即使有无限的带宽，信道容量也不是无限的，而是存在一个上限，这个上限仅取决于信号功率 \(S\) 和噪声功率谱密度 \(N_0\)。这个极限值被称为“频谱效率极限”（Spectral Efficiency Limit）或“能量效率极限”（Energy Efficiency Limit）。

香农-哈特利定理及其推导过程是理解连续信道容量的核心，它为无线通信、光纤通信等领域的系统设计提供了根本性的理论指导。

8. chapter 8：有记忆信道（Channels with Memory）

亲爱的同学们，欢迎来到信息论的第八章。在前几章中，我们深入探讨了离散无记忆信道（Discrete Memoryless Channels, DMC）以及连续无记忆信道，特别是加性高斯白噪声（AWGN）信道。这些模型为我们理解信息传输的基本限制奠定了坚实的基础。然而，在现实世界的通信系统中，信道往往并非“无记忆”的。信号在传输过程中会受到各种复杂因素的影响，这些影响可能持续一段时间，使得当前时刻的信道特性或输出不仅与当前输入有关，还与过去的输入、输出或信道状态有关。这就是我们今天要探讨的——有记忆信道（Channels with Memory）。

理解有记忆信道对于设计高效、鲁棒的通信系统至关重要，尤其是在无线通信、存储系统以及其他存在时变或依赖历史行为的传输介质中。本章将引导大家认识有记忆信道的概念，学习如何对其进行建模，探讨其容量特性，并介绍几种典型的有记忆信道模型。

8.1 有记忆信道的概念与示例（Concept and Examples of Channels with Memory）

我们首先回顾一下无记忆信道（Memoryless Channel）的定义。对于一个无记忆信道，其输出序列 \(Y_1, Y_2, \dots, Y_n\) 中任意一个输出 \(Y_i\) 的概率分布只依赖于当前时刻的输入 \(X_i\)，而与之前的输入 \(X_1, \dots, X_{i-1}\) 或输出 \(Y_1, \dots, Y_{i-1}\) 无关。数学上，对于离散信道，这意味着条件概率满足：
\[ P(Y_i | X_1, \dots, X_n, Y_1, \dots, Y_{i-1}) = P(Y_i | X_i) \]
对于连续信道，则是条件概率密度函数满足类似的性质。

然而，在许多实际场景中，这种无记忆性假设并不成立。有记忆信道（Channel with Memory）是指信道的输出在时间上存在依赖性，即当前时刻的输出不仅取决于当前输入，还可能受到过去输入、输出或信道内部状态的影响。这种“记忆”效应可能源于多种物理机制：

⚝ 码间串扰（Intersymbol Interference, ISI）： 在高速数据传输中，由于信道的带宽限制或多径效应，前一个符号的尾巴可能会拖到当前符号的时间间隔内，对当前符号的接收造成干扰。这使得当前输出 \(Y_i\) 依赖于当前的输入 \(X_i\) 以及过去的输入 \(X_{i-1}, X_{i-2}, \dots\)。
⚝ 突发错误（Burst Errors）： 在某些信道中，错误倾向于成簇出现，而不是随机独立地发生。例如，无线信道中的一次深度衰落可能导致连续多个符号出错。如果当前符号出错，那么下一个符号出错的概率可能会显著增加。这使得当前输出 \(Y_i\) 的错误状态依赖于过去的输出 \(Y_{i-1}, Y_{i-2}, \dots\) 的错误状态。
⚝ 信道状态的时变性（Time-Varying Channel State）： 信道的传输特性（如衰减、噪声水平）可能随时间变化，并且这种变化通常是相关的，即当前时刻的信道状态与前一时刻的状态相关。例如，无线信道中的衰落过程通常是相关的，而不是在每个符号间隔内独立变化的。当前输出 \(Y_i\) 依赖于当前输入 \(X_i\) 和当前信道状态 \(S_i\)，而 \(S_i\) 又依赖于 \(S_{i-1}\)。

举几个具体的例子：

① 电话线上的突发噪声： 当电话线上出现瞬时干扰（如开关动作）时，可能会导致一段时间内的数据传输出现连续的错误，而不是单个孤立的错误。
② 无线通信中的慢衰落： 当移动设备穿过一个障碍物（如建筑物）的阴影区域时，信号强度可能会在一段时间内持续降低，导致信噪比（SNR）下降，从而增加连续多个符号的错误概率。
③ 磁存储介质上的划痕： 磁带或硬盘上的一个物理划痕可能导致读取头在经过该区域时，连续读取的数据位都发生错误。

这些例子都说明了信道输出之间的依赖性，即信道具有“记忆”。处理有记忆信道需要更复杂的分析工具和编码技术。

8.2 有记忆信道的建模（Modeling Channels with Memory）

对有记忆信道进行建模是分析和设计通信系统的基础。与无记忆信道使用转移概率 \(P(y|x)\) 或转移概率密度 \(p(y|x)\) 即可完全描述不同，有记忆信道的建模需要考虑时间上的依赖性。

一种常见的建模方法是使用条件概率来描述输出序列 \(Y_1, Y_2, \dots, Y_n\) 与输入序列 \(X_1, X_2, \dots, X_n\) 之间的关系。对于一个离散有记忆信道，其输入输出关系可以用联合条件概率 \(P(Y_1, \dots, Y_n | X_1, \dots, X_n)\) 来描述。由于记忆效应的存在，这个联合概率通常不能简单地分解为单个符号转移概率的乘积，即：
\[ P(Y_1, \dots, Y_n | X_1, \dots, X_n) \neq \prod_{i=1}^n P(Y_i | X_i) \]
相反，\(P(Y_i | X_1, \dots, X_n, Y_1, \dots, Y_{i-1})\) 可能依赖于 \(X_i\) 之外的其他输入或输出。

更精细的建模方法通常引入信道状态（Channel State）的概念。假设信道在任意时刻 \(i\) 处于某个状态 \(S_i\)，这个状态 \(S_i\) 包含了影响当前传输的所有必要历史信息。那么，当前时刻的输出 \(Y_i\) 只依赖于当前输入 \(X_i\) 和当前信道状态 \(S_i\)，并且当前信道状态 \(S_i\) 的演变只依赖于过去的信道状态、输入和输出。

\[ P(Y_i | X_1, \dots, X_n, Y_1, \dots, Y_{i-1}, S_1, \dots, S_{i-1}) = P(Y_i | X_i, S_i) \]
\[ P(S_i | X_1, \dots, X_{i-1}, Y_1, \dots, Y_{i-1}, S_1, \dots, S_{i-1}) = P(S_i | X_{i-1}, Y_{i-1}, S_{i-1}) \text{ (一个简单的例子)} \]

如果信道状态的演变本身具有某种结构，例如形成一个马尔可夫链，那么这种模型就称为马尔可夫信道（Markov Channel）。我们将在8.4节详细讨论这种模型。

建模有记忆信道的挑战在于如何确定合适的信道状态以及状态转移规律。这通常需要对信道的物理特性进行深入分析，或者通过对实际信道进行测量和统计分析来建立模型。一个好的信道模型应该既能捕捉信道的关键特性，又不过于复杂以便于分析和计算。

8.3 有记忆信道的容量（Channel Capacity of Channels with Memory）

信道容量（Channel Capacity）是信息论中最核心的概念之一，它代表了在给定信道上可靠传输信息的最大速率。对于无记忆信道，我们知道容量 \(C\) 定义为互信息 \(I(X;Y)\) 关于输入分布 \(P(X)\) 的最大值：
\[ C = \max_{P(X)} I(X;Y) \]
其中 \(I(X;Y) = H(Y) - H(Y|X)\)。

对于有记忆信道，容量的定义需要进行扩展。我们考虑传输一个长度为 \(n\) 的序列 \(X^n = (X_1, \dots, X_n)\)，接收到输出序列 \(Y^n = (Y_1, \dots, Y_n)\)。序列的互信息为 \(I(X^n; Y^n)\)。信道容量定义为单位时间内（或单位符号）可可靠传输的最大信息量。对于一个离散有记忆信道，其容量 \(C\) 定义为：
\[ C = \lim_{n \to \infty} \frac{1}{n} \max_{P(X^n)} I(X^n; Y^n) \]
其中最大化是对所有可能的输入序列联合分布 \(P(X^n)\) 进行的。

计算有记忆信道的容量通常比计算无记忆信道的容量困难得多。主要原因在于：

⚝ 输入分布的优化： 需要优化的不再是单个符号的输入分布 \(P(X)\)，而是整个输入序列的联合分布 \(P(X^n)\)。这涉及到考虑输入符号之间的相关性，以最好地利用信道的记忆特性。
⚝ 互信息的计算： \(I(X^n; Y^n)\) 的计算涉及到高维随机变量的联合概率分布，这通常非常复杂。
⚝ 极限的存在与计算： 需要证明极限 \(\lim_{n \to \infty} \frac{1}{n} I(X^n; Y^n)\) 存在，并找到最大化该极限的输入序列分布。

然而，对于某些特殊类型的有记忆信道，容量的计算可以简化。例如，对于平稳且遍历（Stationary and Ergodic）的有记忆信道，根据信息论的渐近等分性（Asymptotic Equipartition Property, AEP）的推广，容量可以表示为：
\[ C = \lim_{n \to \infty} I(X_n; Y_n | X^{n-1}, Y^{n-1}) \]
其中最大化是对平稳且遍历的输入随机过程进行的。直观上，这表示在已知所有过去输入输出的情况下，当前输入和输出之间的条件互信息的极限。

对于具有有限状态的马尔可夫信道，如果信道状态序列是遍历的，并且输入序列是独立的同分布（i.i.d.）的，那么容量的计算可以转化为一个涉及信道状态的优化问题。但即使在这种情况下，找到最优的输入分布仍然是一个挑战。

一个重要的结论是，对于任何信道，无论是否有记忆，其容量总是可以通过使用足够长的码字来实现。香农信道编码定理（Shannon's Channel Coding Theorem）对于有记忆信道同样成立，只是容量的计算方式和实现容量所需的编码技术会更加复杂。

8.4 典型有记忆信道模型（Typical Channel Models with Memory）

为了更好地理解有记忆信道，我们来看几种典型的模型。

8.4.1 马尔可夫信道（Markov Channels）

马尔可夫信道是一种重要的有记忆信道模型，它假设信道的特性（例如，转移概率）随时间变化，并且这种变化遵循一个马尔可夫过程（Markov Process）。

一个离散的马尔可夫信道可以描述如下：
⚝ 信道有一个有限的状态集合 \(\mathcal{S} = \{s_1, s_2, \dots, s_M\}\)。
⚝ 在每个时间步 \(i\)，信道处于某个状态 \(S_i \in \mathcal{S}\)。
⚝ 信道状态的演变遵循一个马尔可夫链，即 \(P(S_i | S_{i-1}, S_{i-2}, \dots) = P(S_i | S_{i-1})\)。状态转移由一个转移概率矩阵描述。
⚝ 在给定当前输入 \(X_i\) 和当前信道状态 \(S_i\) 的情况下，输出 \(Y_i\) 的条件概率是确定的，并且与过去的输入、输出或状态无关，即 \(P(Y_i | X_1, \dots, X_i, Y_1, \dots, Y_{i-1}, S_1, \dots, S_i) = P(Y_i | X_i, S_i)\)。

因此，马尔可夫信道的输入输出关系可以表示为 \(P(y_i | x_i, s_i)\)，而状态序列 \(S_1, S_2, \dots\) 是一个马尔可夫链。整个信道的输入输出序列的联合概率可以写成：
\[ P(y^n, s^n | x^n) = P(s_1) P(y_1 | x_1, s_1) \prod_{i=2}^n P(s_i | s_{i-1}) P(y_i | x_i, s_i) \]
其中 \(x^n = (x_1, \dots, x_n)\)，\(y^n = (y_1, \dots, y_n)\)，\(s^n = (s_1, \dots, s_n)\)。

马尔可夫信道能够很好地建模许多实际信道中的时变特性和突发错误。例如，一个无线信道可能在“好”状态（高信噪比，低误码率）和“坏”状态（低信噪比，高误码率）之间切换，而状态的切换过程可以用一个马尔可夫链来描述。

8.4.2 吉尔伯特-埃利奥特模型（Gilbert-Elliott Model）

吉尔伯特-埃利奥特模型（Gilbert-Elliott Model）是马尔可夫信道的一个经典且广泛应用的例子，专门用于建模突发错误。它是一个两状态的马尔可夫信道：

⚝ 状态 G (Good State)： 信道处于良好状态，误码率（Bit Error Rate, BER）很低，记为 \(p_G\)。通常 \(p_G \approx 0\)。
⚝ 状态 B (Bad State)： 信道处于不良状态（突发状态），误码率很高，记为 \(p_B\)。通常 \(p_B \gg p_G\)。

信道状态的转移遵循一个两状态的马尔可夫链，其转移概率如下：
⚝ 从状态 G 转移到状态 B 的概率为 \(p\)。
⚝ 从状态 B 转移到状态 G 的概率为 \(r\)。
⚝ 保持在状态 G 的概率为 \(1-p\)。
⚝ 保持在状态 B 的概率为 \(1-r\)。

状态转移矩阵为：
\[ \begin{pmatrix} 1-p & p \\ r & 1-r \end{pmatrix} \]
其中第一行/列对应状态 G，第二行/列对应状态 B。

在每个时间步 \(i\)，如果信道处于状态 \(S_i\)，并且输入为 \(X_i\)，则输出 \(Y_i\) 的产生遵循一个无记忆信道，其误码率由 \(S_i\) 决定。例如，如果输入是二进制的，信道是二元对称信道（BSC），那么在状态 G 时，转移概率为 \(P(Y_i \neq X_i | S_i=G) = p_G\)，在状态 B 时，转移概率为 \(P(Y_i \neq X_i | S_i=B) = p_B\)。

吉尔伯特-埃利奥特模型通过引入状态的马尔可夫转移，成功地捕捉了错误在时间上的相关性，即突发错误现象。如果 \(p\) 很小而 \(r\) 也很小，那么信道倾向于长时间停留在某个状态，从而产生突发错误。

这个模型虽然简单，但对于理解和分析突发错误信道以及设计相应的纠错码（如交织技术）具有重要的理论和实践意义。

总结一下，有记忆信道是信息论中更贴近实际的信道模型。理解其概念、建模方法以及容量特性，对于我们应对现实世界通信系统中的挑战至关重要。马尔可夫信道，特别是吉尔伯特-埃利奥特模型，为我们提供了一种分析和处理突发错误信道的有效框架。

下一章我们将继续探讨另一种重要的有记忆信道——衰落信道，它在无线通信中扮演着核心角色。

9. chapter 9：衰落信道（Fading Channels）

欢迎来到本书关于信道模型的第九章。在前几章中，我们深入探讨了离散无记忆信道（DMC）和连续信道，特别是加性高斯白噪声（AWGN）信道。这些模型为理解信息传输的基本限制奠定了坚实的基础。然而，在实际的无线通信环境中，信号在传播过程中会受到各种复杂因素的影响，导致信号强度随时间、空间或频率发生变化，这种现象被称为衰落（Fading）。本章将聚焦于衰落信道，这是无线通信系统设计和分析中至关重要的一类信道模型。我们将探讨衰落现象的物理本质、典型的衰落统计模型以及衰落对信道容量的影响。

9.1 无线信道衰落现象（Fading Phenomena in Wireless Channels）

无线信号从发射端传播到接收端通常不是沿着一条单一的直线路径，而是通过多条路径到达接收端。这种现象称为多径传播（Multipath Propagation）。多径是由信号在建筑物、山丘、车辆等障碍物上的反射、绕射和散射引起的。

当这些多径信号在接收端叠加时，由于它们经过的路径长度不同，到达接收端时会存在不同的相位差。这些具有不同相位和幅度的信号的叠加，可能导致合成信号的幅度增强（相长干涉）或减弱（相消干涉）。随着发射端、接收端或周围环境的移动，这些多径信号的相对路径长度和相位差会随时间变化，从而导致接收信号的幅度发生剧烈波动，这就是衰落。

衰落可以根据其特性进行分类：

① 根据信号带宽与信道相干带宽（Coherence Bandwidth）的关系：
▮▮▮▮ⓑ 平坦衰落（Flat Fading）：如果信号的带宽远小于信道的相干带宽，则信道对信号的所有频率分量具有相同的增益和相位延迟。此时，衰落只影响信号的整体幅度。
▮▮▮▮ⓒ 频率选择性衰落（Frequency-Selective Fading）：如果信号的带宽大于信道的相干带宽，则信道对信号的不同频率分量具有不同的增益和相位延迟。这会导致信号波形失真，表现为符号间干扰（Inter-Symbol Interference, ISI）。

② 根据信号持续时间与信道相干时间（Coherence Time）的关系：
▮▮▮▮ⓑ 快衰落（Fast Fading）：如果信号的符号周期大于信道的相干时间，则在一个符号周期内信道状态会发生显著变化。
▮▮▮▮ⓒ 慢衰落（Slow Fading）：如果信号的符号周期远小于信道的相干时间，则在一个符号周期内信道状态可以认为是恒定的。

③ 根据是否存在直射径（Line-of-Sight, LoS）：
▮▮▮▮ⓑ 瑞利衰落（Rayleigh Fading）：通常发生在没有直射径的环境中，接收信号是大量没有主导分量的多径信号的叠加。
▮▮▮▮ⓒ 莱斯衰落（Rician Fading）：通常发生在存在一个强的直射径和多个较弱的多径分量的环境中。

除了多径传播引起的衰落外，多普勒效应（Doppler Effect）也会影响衰落特性。当发射端和接收端之间存在相对运动时，接收信号的频率会发生偏移。不同多径分量由于到达角不同，会产生不同的多普勒频移。这些具有不同多普勒频移的分量叠加，导致接收信号的频谱展宽，称为多普勒展宽（Doppler Spread）。多普勒展宽与信道的相干时间密切相关，多普勒展宽越大，相干时间越短，衰落变化越快。

理解这些衰落现象对于设计鲁棒（Robust）的无线通信系统至关重要，因为衰落会显著降低接收信号的信噪比（Signal-to-Noise Ratio, SNR），从而影响通信的可靠性和速率。

9.2 典型衰落模型（Typical Fading Models）

为了在理论上分析和设计无线通信系统，我们需要用数学模型来描述衰落信道的统计特性。典型的衰落模型通常将接收信号的幅度或功率视为一个随机变量，并用特定的概率分布来描述其统计行为。

9.2.1 瑞利衰落（Rayleigh Fading）

瑞利衰落模型适用于没有直射径（Non-Line-of-Sight, NLoS）的无线传播环境。在这种情况下，接收信号是由大量独立的、同等强度的、随机相位的多径分量叠加而成。根据中心极限定理（Central Limit Theorem），如果每个多径分量的实部和虚部是独立的同分布随机变量，那么它们的和（即接收信号的复包络）的实部和虚部将近似服从零均值高斯分布。

设接收信号的复包络为 \(R = X + jY\)，其中 \(X\) 和 \(Y\) 是独立的零均值高斯随机变量，方差均为 \(\sigma^2\)。则接收信号的幅度（包络） \(A = |R| = \sqrt{X^2 + Y^2}\) 服从瑞利分布（Rayleigh Distribution）。其概率密度函数（Probability Density Function, PDF）为：
\[ f_A(a) = \frac{a}{\sigma^2} e^{-\frac{a^2}{2\sigma^2}}, \quad a \ge 0 \]
其中 \(\sigma^2\) 是每个高斯分量的方差，与接收信号的平均功率有关。通常，我们更关心接收信号的功率 \(P = A^2\)，它服从指数分布（Exponential Distribution）。其PDF为：
\[ f_P(p) = \frac{1}{\bar{P}} e^{-\frac{p}{\bar{P}}}, \quad p \ge 0 \]
其中 \(\bar{P} = E[P] = 2\sigma^2\) 是接收信号的平均功率。

瑞利衰落是一种严重的衰落类型，因为信号幅度有相当大的概率接近于零，导致深度衰落（Deep Fade），严重影响通信质量。

9.2.2 莱斯衰落（Rician Fading）

莱斯衰落模型适用于存在一个强的直射径（LoS）和多个较弱的多径分量的无线传播环境。在这种情况下，接收信号是直射径分量与多径散射分量的叠加。直射径分量是一个确定的（非随机的）信号，而多径散射分量则像瑞利衰落一样，可以建模为零均值高斯随机过程。

设接收信号的复包络为 \(R = (X + c_1) + j(Y + c_2)\)，其中 \(X\) 和 \(Y\) 是独立的零均值高斯随机变量，方差均为 \(\sigma^2\)，而 \(c_1\) 和 \(c_2\) 是直射径分量的实部和虚部。则接收信号的幅度 \(A = |R|\) 服从莱斯分布（Rician Distribution）。其PDF为：
\[ f_A(a) = \frac{a}{\sigma^2} e^{-\frac{a^2 + s^2}{2\sigma^2}} I_0\left(\frac{as}{\sigma^2}\right), \quad a \ge 0 \]
其中 \(s = \sqrt{c_1^2 + c_2^2}\) 是直射径分量的幅度，\(I_0(\cdot)\) 是第一类零阶修正贝塞尔函数（Modified Bessel Function of the First Kind of Order Zero）。

莱斯衰落通常用莱斯K因子（Rician K-factor）来描述直射径分量功率与多径散射分量总功率之比：
\[ K = \frac{s^2}{2\sigma^2} \]
K因子越大，直射径分量越强相对于多径分量，衰落的影响越小。当 \(K \to \infty\) 时，莱斯衰落趋近于无衰落的AWGN信道；当 \(K = 0\) 时（即 \(s=0\)，没有直射径），莱斯衰落退化为瑞利衰落。

9.2.3 Nakagami衰落（Nakagami Fading）

Nakagami衰落模型，特别是Nakagami-m衰落，是一种更通用的衰落模型，可以通过调整参数来拟合多种不同的衰落环境，包括瑞利衰落和莱斯衰落。Nakagami-m分布的PDF为：
\[ f_A(a) = \frac{2m^m a^{2m-1}}{\Gamma(m) \bar{P}^m} e^{-\frac{m a^2}{\bar{P}}}, \quad a \ge 0 \]
其中 \(a\) 是信号幅度，\(\bar{P} = E[A^2]\) 是平均功率，\(\Gamma(\cdot)\) 是伽马函数（Gamma Function），\(m\) 是Nakagami衰落参数，\(m \ge 0.5\)。

Nakagami参数 \(m\) 描述了衰落的严重程度：
① 当 \(m=1\) 时，Nakagami衰落退化为瑞利衰落。
② 当 \(m > 1\) 时，衰落比瑞利衰落轻微，可以用来近似莱斯衰落（通过特定的K和m的对应关系）。
③ 当 \(m \to \infty\) 时，衰落消失，信道变为无衰落信道。
④ 当 \(0.5 \le m < 1\) 时，衰落比瑞利衰落更严重，可以用来描述一些特殊环境下的衰落。

Nakagami模型因其灵活性和较好的拟合能力而在实际应用中得到广泛使用。

9.3 衰落信道的容量（Channel Capacity of Fading Channels）

衰落信道的容量分析比无衰落信道复杂得多，因为信道状态是随机变化的。信道容量的定义取决于发射端是否知道当前的信道状态信息（Channel State Information, CSI）以及信道变化的快慢。

9.3.1 遍历容量（Ergodic Capacity）

遍历容量是指在信道状态随时间变化足够慢，使得可以在许多不同的信道状态上进行编码和解码的情况下，信道容量的平均值。或者，如果信道是遍历的（Ergodic），并且编码长度足够长，那么通过一个长码字可以平均掉信道的随机性。在这种情况下，信道容量定义为互信息关于信道状态的期望值。

假设信道增益（或功率增益）为 \(h\)，接收信号功率为 \(P_r = |h|^2 P_t\)，其中 \(P_t\) 是发射功率。接收端的瞬时信噪比（Instantaneous SNR）为 \(\gamma = \frac{|h|^2 P_t}{N_0}\)，其中 \(N_0\) 是噪声功率谱密度。对于AWGN信道，容量是 \(C = B \log_2(1 + \text{SNR})\)，其中 \(B\) 是带宽。在衰落信道中，瞬时容量是关于瞬时信噪比 \(\gamma\) 的函数，即 \(C(\gamma) = B \log_2(1 + \gamma)\)。

遍历容量 \(C_{ergodic}\) 定义为瞬时容量关于 \(\gamma\) 的概率密度函数 \(f_\gamma(\gamma)\) 的期望值：
\[ C_{ergodic} = E[C(\gamma)] = \int_0^\infty B \log_2(1 + \gamma) f_\gamma(\gamma) d\gamma \]
其中 \(f_\gamma(\gamma)\) 是瞬时信噪比 \(\gamma\) 的PDF，它取决于衰落模型的类型（瑞利、莱斯等）和发射功率 \(P_t\)。

遍历容量代表了在理论上通过无限长编码可以达到的平均最大传输速率。它假设发射端不知道瞬时信道状态，只能根据信道的统计特性进行编码（例如，以恒定功率发射）。如果发射端知道瞬时信道状态（Tx CSI），并且可以根据信道状态调整发射功率（功率分配），则可以获得更高的遍历容量，这通常通过注水算法（Water-filling Algorithm）来实现。

9.3.2 中断容量（Outage Capacity）

在某些应用中，信道状态变化可能很快，或者编码长度有限，无法实现遍历容量。此时，我们更关心在给定传输速率下，通信失败（中断）的概率。中断容量定义为在允许一定概率 \(\epsilon\) 的中断（即瞬时容量低于目标速率 \(R\)）的情况下，可以达到的最大传输速率 \(R\)。

中断概率（Outage Probability） \(P_{out}(R)\) 定义为瞬时容量 \(C(\gamma)\) 小于目标速率 \(R\) 的概率：
\[ P_{out}(R) = P(C(\gamma) < R) = P(B \log_2(1 + \gamma) < R) = P\left(\gamma < 2^{R/B} - 1\right) \]
给定一个允许的最大中断概率 \(\epsilon\)，中断容量 \(C_{out}(\epsilon)\) 是满足 \(P_{out}(C_{out}(\epsilon)) = \epsilon\) 的最大速率。换句话说，中断容量是使得中断概率等于 \(\epsilon\) 的那个速率值。
\[ C_{out}(\epsilon) = \sup \{R \mid P_{out}(R) \le \epsilon\} \]
中断容量的概念在对可靠性有严格要求的系统中非常重要，例如语音通信或实时数据传输。它反映了在不进行无限长编码的情况下，信道在大部分时间里能够支持的传输速率。

衰落信道的容量分析是无线通信理论中的一个核心问题，它为设计高效的调制、编码和资源分配方案提供了理论指导。通过利用分集（Diversity）、自适应传输（Adaptive Transmission）和多天线技术（MIMO），可以在一定程度上对抗衰落的影响，提高通信系统的性能和容量。

10. chapter 10：多用户与高级信道模型（Multiuser and Advanced Channel Models）

欢迎来到本书的第十章！在前几章中，我们深入探讨了单用户信道模型，包括离散无记忆信道（DMC）、连续信道（如AWGN信道）以及有记忆信道和衰落信道。这些模型为理解信息如何在单个发送者和单个接收者之间传输奠定了基础。然而，在现实世界的通信系统中，情况往往更为复杂。多个用户可能同时尝试访问同一个信道，或者一个发送者需要将信息发送给多个接收者，又或者系统利用多个天线来提高性能。此外，接收者有时可以将信息反馈给发送者，从而影响发送者的行为。

本章将把我们的视野扩展到这些更复杂的场景，介绍多用户信道模型和一些高级信道模型。我们将学习多址信道（Multiple Access Channel, MAC）和广播信道（Broadcast Channel, BC），它们是多用户通信中最基本的模型。接着，我们将探讨多输入多输出（Multiple-Input Multiple-Output, MIMO）信道，这是现代无线通信的关键技术。最后，我们将简要讨论有反馈信道（Channels with Feedback），看看反馈如何影响信道容量。

理解这些高级信道模型对于掌握现代通信系统的理论基础至关重要。它们不仅是理论研究的热点，也是实际系统设计（如蜂窝网络、Wi-Fi、卫星通信等）中不可或缺的组成部分。

10.1 多址信道（Multiple Access Channel, MAC）

多址信道（Multiple Access Channel, MAC）是描述多个发送者（用户）同时向一个共同接收者发送信息的信道模型。想象一下，在同一个房间里，多个人同时对一个人说话，这个人需要理解每个人说的话。这就是一个典型的MAC场景。在通信系统中，例如蜂窝基站接收来自多个用户的上行信号，或者Wi-Fi接入点接收来自多个设备的信号，都可以建模为MAC。

10.1.1 MAC的定义与模型（Definition and Model of MAC）

一个具有 \(K\) 个发送者和一个接收者的离散无记忆多址信道（Discrete Memoryless Multiple Access Channel, DM-MAC）可以用输入字母表集合 \(\mathcal{X}_1, \mathcal{X}_2, \dots, \mathcal{X}_K\)，输出字母表 \(\mathcal{Y}\)，以及一组转移概率（Transition Probabilities） \(p(y | x_1, x_2, \dots, x_K)\) 来描述。这里，\(x_i \in \mathcal{X}_i\) 是第 \(i\) 个发送者的输入符号，\(y \in \mathcal{Y}\) 是接收者的输出符号。信道是无记忆的，意味着当前输出只依赖于当前输入，与过去的输入或输出无关。

数学上，DM-MAC由 \(( \mathcal{X}_1 \times \dots \times \mathcal{X}_K, p(y | x_1, \dots, x_K), \mathcal{Y} )\) 定义。在每个时间步长 \(t\)，第 \(i\) 个发送者选择一个符号 \(X_i(t) \in \mathcal{X}_i\)，所有发送者的输入组合是 \((X_1(t), \dots, X_K(t))\)，接收者观察到的输出是 \(Y(t) \in \mathcal{Y}\)，其概率由 \(p(y(t) | x_1(t), \dots, x_K(t))\) 给出。由于无记忆性，对于长度为 \(n\) 的序列输入 \(\mathbf{x}_i = (x_i(1), \dots, x_i(n))\) 和输出 \(\mathbf{y} = (y(1), \dots, y(n))\)，联合概率为：
\[ p(\mathbf{y} | \mathbf{x}_1, \dots, \mathbf{x}_K) = \prod_{t=1}^n p(y(t) | x_1(t), \dots, x_K(t)) \]

与单用户信道不同，MAC的输入是向量 \((X_1, \dots, X_K)\)，输出是 \(Y\)。发送者之间通常是独立的，即第 \(i\) 个发送者的输入 \(X_i\) 的选择独立于第 \(j\) 个发送者 \(X_j\) 的选择（对于 \(i \neq j\)）。

10.1.2 MAC的容量区域（Capacity Region of MAC）

对于单用户信道，我们讨论的是信道容量（Channel Capacity），它是一个单一的数值，表示可靠传输的最大速率。然而，对于MAC，有多个发送者，每个发送者都希望以自己的速率传输信息。因此，我们不能简单地用一个数值来描述信道的容量，而是需要一个容量区域（Capacity Region），它是一个速率向量的集合 \((R_1, R_2, \dots, R_K)\)，其中 \(R_i\) 是第 \(i\) 个发送者可以可靠传输的速率。如果一个速率向量 \((R_1, \dots, R_K)\) 属于容量区域，则意味着存在一种编码方案，使得所有发送者可以同时以各自的速率传输信息，并且接收者可以以任意小的错误概率解码出所有发送者的信息。

对于DM-MAC，其容量区域 \(\mathcal{C}\) 是所有满足以下条件的非负速率向量 \((R_1, \dots, R_K)\) 的集合：
对于任意非空子集 \(S \subseteq \{1, 2, \dots, K\}\)，有
\[ \sum_{i \in S} R_i \le I(X_S; Y | X_{S^c}) \]
其中 \(X_S = \{X_i\}_{i \in S}\)，\(X_{S^c} = \{X_j\}_{j \notin S}\)，互信息（Mutual Information） \(I(X_S; Y | X_{S^c})\) 是在给定 \(X_{S^c}\) 的条件下，\(X_S\) 和 \(Y\) 之间的互信息。这个互信息是在输入随机变量 \(X_1, \dots, X_K\) 遵循某个联合概率分布 \(p(x_1, \dots, x_K)\) 时计算的。MAC的容量区域是所有可能的输入分布 \(p(x_1, \dots, x_K)\) 下，满足上述不等式的速率向量集合的闭包（Closure）。特别地，如果发送者是独立的，即 \(p(x_1, \dots, x_K) = \prod_{i=1}^K p(x_i)\)，则容量区域是所有满足以下条件的非负速率向量 \((R_1, \dots, R_K)\) 的集合：
对于任意非空子集 \(S \subseteq \{1, 2, \dots, K\}\)，有
\[ \sum_{i \in S} R_i \le I(X_S; Y | X_{S^c}) \]
其中互信息是在 \(X_1, \dots, X_K\) 相互独立时计算的，并对所有可能的独立输入分布 \(p(x_1) \dots p(x_K)\) 取上确界。

最常见的MAC模型是加性噪声MAC（Additive Noise MAC），其中接收到的信号是所有发送信号之和加上噪声。对于两个用户的离散加性噪声MAC，输出 \(Y = X_1 + X_2 + Z\)，其中 \(Z\) 是噪声。

容量区域的边界通常由一组线性不等式定义，形成一个凸多边形。每个不等式对应于一个用户子集，表示该子集用户总速率的上限。最简单的例子是两个用户的MAC，其容量区域由以下不等式定义（假设输入独立）：
\[ R_1 \ge 0, R_2 \ge 0 \]
\[ R_1 \le I(X_1; Y | X_2) \]
\[ R_2 \le I(X_2; Y | X_1) \]
\[ R_1 + R_2 \le I(X_1, X_2; Y) \]
其中互信息是在 \(X_1, X_2\) 独立时计算的，并对所有 \(p(x_1)p(x_2)\) 取上确界。

MAC的容量区域定理（Capacity Region Theorem）是由Ahlswede在1971年证明的，它表明通过联合典型集（Jointly Typical Set）编码和解码，可以达到容量区域内的任何速率对。

10.1.3 典型MAC示例（Examples of Typical MAC）

⚝ 无冲突MAC（Conflict-Free MAC）: 如果信道允许接收者完美地区分来自不同用户的输入，例如通过时分多址（TDMA）、频分多址（FDMA）或码分多址（CDMA）等技术，使得不同用户的信号在接收端是正交的，那么MAC可以分解为多个并行的单用户信道。此时，容量区域是一个矩形，即 \(R_i \le C_i\)，其中 \(C_i\) 是第 \(i\) 个用户独占信道时的容量。总容量是各个用户容量之和 \(\sum C_i\)。

⚝ 加性噪声MAC（Additive Noise MAC）: 考虑一个具有加性噪声的 \(K\) 用户MAC，输出为 \(Y = \sum_{i=1}^K X_i + Z\)，其中 \(Z\) 是噪声。如果输入 \(X_i\) 相互独立且与噪声 \(Z\) 独立，并且噪声是高斯白噪声，那么这是一个高斯MAC（Gaussian MAC）。其容量区域的边界由 \(\sum_{i \in S} R_i \le \frac{1}{2} \log_2 \left( 1 + \frac{\sum_{i \in S} P_i}{N_0} \right)\) 定义，其中 \(P_i\) 是第 \(i\) 个用户的平均功率，\(N_0\) 是噪声功率谱密度。总速率的上限是 \(R_{sum} \le \frac{1}{2} \log_2 \left( 1 + \frac{\sum_{i=1}^K P_i}{N_0} \right)\)。注意，总容量与单个用户以总功率 \(\sum P_i\) 发送时的容量相同，这体现了高斯MAC的一个重要性质：叠加原理（Superposition Principle）在容量计算中的应用。

理解MAC的关键在于认识到用户信号在信道中是叠加的，接收者需要区分这些叠加的信号。容量区域描述了在不引起不可接受的干扰水平下，各个用户可以同时传输的最大速率组合。

10.2 广播信道（Broadcast Channel, BC）

广播信道（Broadcast Channel, BC）是描述一个发送者同时向多个接收者发送信息的信道模型。这与MAC正好相反。典型的BC场景包括无线电广播、电视广播、蜂窝基站向下行链路用户发送信号，或者Wi-Fi接入点向多个连接的设备发送数据。

10.2.1 BC的定义与模型（Definition and Model of BC）

一个具有一个发送者和 \(K\) 个接收者的离散无记忆广播信道（Discrete Memoryless Broadcast Channel, DM-BC）由输入字母表 \(\mathcal{X}\)，输出字母表集合 \(\mathcal{Y}_1, \mathcal{Y}_2, \dots, \mathcal{Y}_K\)，以及一组转移概率 \(p(y_1, y_2, \dots, y_K | x)\) 来描述。这里，\(x \in \mathcal{X}\) 是发送者的输入符号，\(y_i \in \mathcal{Y}_i\) 是第 \(i\) 个接收者的输出符号。信道是无记忆的。

数学上，DM-BC由 \(( \mathcal{X}, p(y_1, \dots, y_K | x), \mathcal{Y}_1 \times \dots \times \mathcal{Y}_K )\) 定义。在每个时间步长 \(t\)，发送者选择一个符号 \(X(t) \in \mathcal{X}\)，所有接收者观察到的输出是 \((Y_1(t), \dots, Y_K(t))\)，其联合概率由 \(p(y_1(t), \dots, y_K(t) | x(t))\) 给出。由于无记忆性，对于长度为 \(n\) 的序列输入 \(\mathbf{x} = (x(1), \dots, x(n))\) 和输出 \(\mathbf{y}_i = (y_i(1), \dots, y_i(n))\)，联合概率为：
\[ p(\mathbf{y}_1, \dots, \mathbf{y}_K | \mathbf{x}) = \prod_{t=1}^n p(y_1(t), \dots, y_K(t) | x(t)) \]
通常假设不同接收者的噪声是独立的，即 \(p(y_1, \dots, y_K | x) = \prod_{i=1}^K p(y_i | x)\)。

10.2.2 BC的容量区域（Capacity Region of BC）

与MAC类似，BC的容量也是一个容量区域 \(\mathcal{C}\)，它是一个速率向量的集合 \((R_1, R_2, \dots, R_K)\)，其中 \(R_i\) 是发送者可以可靠地发送给第 \(i\) 个接收者的速率。可靠性意味着第 \(i\) 个接收者可以以任意小的错误概率解码出发送给它的信息。

BC的容量区域的刻画比MAC复杂得多，至今对于一般的BC模型，其容量区域的精确表达式仍然未知。然而，对于一些特殊的BC模型，容量区域是已知的。

⚝ 退化BC（Degraded Broadcast Channel）: 如果接收者之间存在退化关系，例如接收者1的信道比接收者2的信道“好”，使得接收者2的输出 \(Y_2\) 可以通过接收者1的输出 \(Y_1\) 和一些额外的噪声产生（即 \(X \to Y_1 \to Y_2\) 构成一个马尔可夫链），那么称这是一个退化BC。对于离散退化BC，其容量区域是所有满足以下条件的非负速率对 \((R_1, R_2)\) 的集合（假设接收者1是“更好”的接收者）：
\[ R_2 \le I(U; Y_2) \]
\[ R_1 \le I(X; Y_1 | U) \]
其中 \(U\) 是一个辅助随机变量，与 \(X\) 共同决定 \(Y_1\) 和 \(Y_2\)，且满足 \(U \to X \to (Y_1, Y_2)\) 构成马尔可夫链。容量区域是对所有可能的输入分布 \(p(u, x)\) 取上确界得到的。这个容量区域可以通过叠加编码（Superposition Coding）来实现。发送者将发送给“较差”用户的消息编码到信号的“公共”部分，而将发送给“较好”用户的消息编码到信号的“私有”部分。较好的用户可以解码公共部分和私有部分，而较差的用户只能解码公共部分。

⚝ 独立输出BC（Broadcast Channel with Independent Components）: 如果不同接收者的输出是独立的，即 \(p(y_1, \dots, y_K | x) = \prod_{i=1}^K p(y_i | x)\)，那么这是一个独立输出BC。虽然输出是独立的，但输入是共享的，这使得容量区域的计算仍然复杂。

对于一般的BC，容量区域的边界通常不是简单的线性不等式。Marton在1979年给出了一个可达区域（Achievable Region），但其是否是容量区域的精确表达式仍然是一个开放问题。

10.2.3 典型BC示例（Examples of Typical BC）

⚝ 高斯BC（Gaussian Broadcast Channel）: 考虑一个具有加性高斯噪声的BC，发送信号 \(X\)，第 \(i\) 个接收者的输出为 \(Y_i = X + Z_i\)，其中 \(Z_i\) 是独立的高斯噪声。如果噪声方差不同，例如 \(\sigma_1^2 < \sigma_2^2\)，则接收者1的信道比接收者2的信道“好”，这是一个退化高斯BC。其容量区域可以通过叠加编码实现，容量区域边界由：
\[ R_2 \le \frac{1}{2} \log_2 \left( 1 + \frac{\alpha P}{\sigma_2^2} \right) \]
\[ R_1 \le \frac{1}{2} \log_2 \left( 1 + \frac{(1-\alpha) P}{\sigma_1^2 + \alpha P} \right) \]
定义，其中 \(P\) 是发送功率，\(0 \le \alpha \le 1\) 是功率分配因子。通过改变 \(\alpha\)，可以得到容量区域的边界。

BC的挑战在于发送者需要设计一种编码方案，使得同一个发送信号能够被具有不同信道特性的多个接收者可靠地解码。叠加编码是解决这个问题的一种有效方法。

10.3 多输入多输出（MIMO）信道（Multiple-Input Multiple-Output Channel）

多输入多输出（Multiple-Input Multiple-Output, MIMO）技术是指在无线通信系统中，发送端和接收端都使用多个天线。这是现代无线通信（如4G、5G、Wi-Fi 4/5/6等）中提高数据速率和可靠性的关键技术。

10.3.1 MIMO信道的概念与模型（Concept and Model of MIMO Channel）

传统的无线通信系统通常使用单输入单输出（Single-Input Single-Output, SISO）信道，即发送端和接收端各使用一个天线。MIMO系统通过利用空间维度来增加信道容量和/或提高传输的鲁棒性。

考虑一个具有 \(N_t\) 个发送天线和 \(N_r\) 个接收天线的MIMO系统。在某个时刻，发送端发送一个 \(N_t \times 1\) 的向量 \(\mathbf{x}\)，接收端接收到一个 \(N_r \times 1\) 的向量 \(\mathbf{y}\)。信道可以用一个 \(N_r \times N_t\) 的矩阵 \(\mathbf{H}\) 来描述，称为信道矩阵（Channel Matrix）。接收到的信号可以建模为：
\[ \mathbf{y} = \mathbf{H}\mathbf{x} + \mathbf{z} \]
其中 \(\mathbf{z}\) 是一个 \(N_r \times 1\) 的噪声向量。这是一个线性模型。信道矩阵 \(\mathbf{H}\) 的元素 \(h_{ij}\) 表示从第 \(j\) 个发送天线到第 \(i\) 个接收天线之间的信道增益。这些增益通常是复数，反映了信号的幅度和相位变化，并且可能随时间、频率和空间位置变化（即衰落）。

如果信道是平坦衰落（Flat Fading），则 \(\mathbf{H}\) 在一个符号周期内是常数。如果信道是频率选择性衰落（Frequency Selective Fading），则信道模型更复杂，通常在频域进行处理，或者使用多载波技术（如OFDM），将频率选择性信道分解为多个平坦衰落子信道。

噪声向量 \(\mathbf{z}\) 通常建模为加性高斯白噪声（AWGN），即 \(\mathbf{z} \sim \mathcal{CN}(\mathbf{0}, \sigma^2 \mathbf{I})\)，其中 \(\mathcal{CN}\) 表示复高斯分布，\(\mathbf{0}\) 是零向量，\(\mathbf{I}\) 是单位矩阵，\(\sigma^2\) 是每个接收天线上的噪声方差。

10.3.2 MIMO的优势（Advantages of MIMO）

MIMO技术的主要优势在于：

① 空间复用（Spatial Multiplexing）: 通过在不同的发送天线上发送不同的数据流，可以在同一时间、同一频率上并行传输多路数据。这显著提高了数据速率。理论上，在理想信道条件下，MIMO系统的容量可以随着天线数量的最小值 \(\min(N_t, N_r)\) 线性增长。

② 分集增益（Diversity Gain）: 通过在多个天线上发送相同的数据（可能经过编码），可以降低衰落的影响，提高传输的可靠性。如果一个传输路径经历深度衰落，其他路径可能仍然较强，从而提高了信号被成功接收的概率。分集增益可以降低误码率（Bit Error Rate, BER）。

③ 波束赋形（Beamforming）: 通过调整发送天线上信号的相位和幅度，可以将信号能量集中到期望的方向，从而提高信号强度并减少对其他用户的干扰。

10.3.3 MIMO信道的容量（Capacity of MIMO Channel）

MIMO信道的容量取决于信道状态信息（Channel State Information, CSI）在发送端和接收端的可用性。

⚝ 接收端已知CSI，发送端未知CSI: 这是最常见的情况。接收端知道信道矩阵 \(\mathbf{H}\)，但发送端不知道。在这种情况下，发送端通常假设信道是随机的，并以平均功率约束 \(E[||\mathbf{x}||^2] \le P\) 发送信号。MIMO AWGN信道的瞬时容量（Instantaneous Capacity）为：
\[ C(\mathbf{H}) = \log_2 \det \left( \mathbf{I}_{N_r} + \frac{1}{\sigma^2} \mathbf{H} \mathbf{H}^H \right) \quad \text{bits per channel use} \]
其中 \(\mathbf{H}^H\) 是 \(\mathbf{H}\) 的共轭转置，\(\det(\cdot)\) 是行列式，\(\mathbf{I}_{N_r}\) 是 \(N_r \times N_r\) 单位矩阵。由于发送端不知道 \(\mathbf{H}\)，它不能根据瞬时信道状态来调整发送策略。此时，我们通常关心遍历容量（Ergodic Capacity），即对所有可能的信道实现 \(\mathbf{H}\) 取平均：
\[ C = E_{\mathbf{H}} \left[ \log_2 \det \left( \mathbf{I}_{N_r} + \frac{1}{\sigma^2} \mathbf{H} \mathbf{H}^H \right) \right] \]
在许多衰落模型下（如瑞利衰落），当 \(N_t, N_r\) 较大时，遍历容量近似与 \(\min(N_t, N_r)\) 呈线性关系，这验证了空间复用的潜力。

⚝ 发送端和接收端均已知CSI: 如果发送端也知道信道矩阵 \(\mathbf{H}\)，则发送端可以根据信道状态进行优化，例如通过奇异值分解（Singular Value Decomposition, SVD）将MIMO信道分解为多个并行的SISO子信道，并在这些子信道上进行注水（Water-filling）功率分配。此时的瞬时容量为：
\[ C(\mathbf{H}) = \sum_{i=1}^{\min(N_t, N_r)} \log_2 \left( 1 + \frac{\lambda_i P_i}{\sigma^2} \right) \]
其中 \(\lambda_i\) 是 \(\mathbf{H}\mathbf{H}^H\) 的第 \(i\) 个非零特征值（或 \(\mathbf{H}^H\mathbf{H}\) 的特征值），\(P_i\) 是分配给第 \(i\) 个子信道的功率，满足 \(\sum P_i \le P\)，且 \(P_i\) 是通过注水算法得到的。遍历容量是 \(E_{\mathbf{H}}[C(\mathbf{H})]\)。发送端已知CSI可以显著提高容量，尤其是在低信噪比（SNR）区域。

MIMO技术是现代通信系统实现高速率传输的核心。通过增加天线数量，MIMO系统有效地增加了信道的维度，从而提供了更大的容量潜力。

10.4 有反馈信道（Channels with Feedback）

在前几章和本章讨论的信道模型中，我们通常假设信息是单向传输的，即从发送端到接收端。然而，在许多实际系统中，接收端可以将一些信息（例如，接收到的信号、解码结果、信道状态信息等）反馈给发送端。这种从接收端到发送端的链路称为反馈信道（Feedback Channel）。

10.4.1 有反馈信道的概念（Concept of Channels with Feedback）

有反馈信道是指发送者的编码策略可以依赖于接收者通过反馈信道发送回来的信息。反馈信息可以是关于：

⚝ 接收到的信号（Received Signal Feedback）: 接收者将它接收到的原始信号或其量化版本反馈给发送者。
⚝ 解码结果（Decoded Message Feedback）: 接收者将它解码出的消息反馈给发送者。这通常用于自动重传请求（ARQ）系统，接收者通过发送确认（ACK）或否定确认（NACK）来告知发送者是否成功解码。
⚝ 信道状态信息（Channel State Information, CSI Feedback）: 接收者估计信道特性（如衰落系数、噪声水平等），并将这些信息反馈给发送者。这在无线通信中非常重要，发送者可以利用CSI进行自适应编码、功率分配或波束赋形。

10.4.2 反馈对信道容量的影响（Impact of Feedback on Channel Capacity）

反馈是否能增加信道容量取决于信道的类型。

① 离散无记忆信道（DMC）: 对于离散无记忆信道，香农在1956年证明了反馈并不能增加信道容量。换句话说，DMC的容量与没有反馈时相同。虽然反馈不能提高容量，但它可以简化编码和解码的设计。例如，使用反馈可以实现更简单的编码方案，或者允许发送者根据接收者的解码状态进行速率自适应。

② 加性高斯白噪声（AWGN）信道: 类似地，对于AWGN信道，反馈也不能增加信道容量。香农-哈特利定理给出的容量是在没有反馈的情况下达到的最大速率，反馈不会改变这个上限。

③ 有记忆信道或信道状态随时间变化的信道: 对于有记忆信道（如本章第8章讨论的马尔可夫信道）或信道状态随时间变化的信道（如衰落信道），反馈通常可以增加信道容量。这是因为发送者可以利用反馈信息来适应信道的瞬时状态，从而更有效地利用信道资源。例如，在衰落信道中，如果发送端知道当前的信道增益，它可以在信道条件好时发送更多信息（提高速率或功率），在信道条件差时发送较少信息（降低速率或功率），或者进行功率控制，从而提高平均可达速率（遍历容量）。

10.4.3 反馈信道模型（Feedback Channel Models）

反馈信道本身也可以是一个信道模型，它可能是有噪声的、有延迟的或容量有限的。理想的反馈信道通常假设是无噪声、无延迟且容量无限的。在实际系统中，反馈信道通常是容量有限且有延迟的，这会影响反馈信息的有效性。

例如，在无线通信系统中，用户设备（UE）测量下行链路信道质量，并将压缩的CSI通过上行链路反馈给基站。上行链路本身就是一个有噪声的信道，且反馈过程存在延迟。

10.4.4 反馈的应用（Applications of Feedback）

⚝ 自适应编码与调制（Adaptive Coding and Modulation, ACM）: 发送者根据接收者反馈的CSI调整编码速率、调制方式和发送功率，以最大化吞吐量并保持一定的误码率。
⚝ 混合自动重传请求（Hybrid Automatic Repeat reQuest, HARQ）: 结合了前向纠错（FEC）和ARQ。接收者尝试解码，如果失败，则通过反馈信道请求重传。发送者可以根据反馈信息发送额外的冗余信息或重新发送数据包。
⚝ 波束赋形（Beamforming）: 在MIMO系统中，发送端可以利用反馈的CSI来计算最优的波束赋形向量，将信号能量导向接收端方向。
⚝ 多用户调度（Multiuser Scheduling）: 在多用户系统中，基站可以根据不同用户的CSI反馈，选择信道条件最好的用户进行传输，从而提高系统整体吞吐量。

反馈是提高通信系统性能的强大工具，尤其是在信道特性随时间变化的场景中。虽然它不改变DMC或AWGN的容量上限，但它在实际系统中通过实现更灵活和高效的资源分配及错误控制，发挥着至关重要的作用。

本章我们探索了多用户和高级信道模型，包括MAC、BC、MIMO和有反馈信道。这些模型是理解现代通信系统复杂性的基础。在下一章，我们将探讨信道模型与编码理论之间的紧密联系，看看如何设计编码方案来逼近这些信道的容量极限。

11. chapter 11：信道模型与编码理论的联系（Connection between Channel Models and Coding Theory）

欢迎回到我们的信息论课程！📚 在前面的章节中，我们深入探讨了信息的基本度量、各种信道模型（从离散无记忆信道到连续信道、有记忆信道乃至衰落信道和多用户信道），以及最重要的概念——信道容量（Channel Capacity）。我们知道，信道容量代表了在给定信道上可以实现无差错传输的理论最大速率。然而，香农的信道编码定理（Shannon's Channel Coding Theorem）虽然告诉我们存在这样的编码方案，但并没有具体说明如何构造这些方案。

本章将是连接信道模型理论与实际通信系统设计的关键桥梁。我们将探讨信道编码（Channel Coding）的基本原理，了解它是如何利用冗余信息来对抗信道引入的噪声和干扰，从而实现可靠通信的。我们将回顾一些经典的信道编码方法，并重点介绍那些能够逼近香农极限（Shannon Limit）的现代编码技术。理解信道模型是设计和选择合适信道编码方案的基础，而信道编码则是将理论容量转化为实际系统性能的关键技术。

11.1 信道编码的基本原理（Basic Principles of Channel Coding）

想象一下，你在一个嘈杂的环境中与朋友交流。为了确保对方听清你的话，你可能会重复关键信息，或者用不同的方式表达同一个意思。这就是一种朴素的“编码”思想——通过增加冗余来提高通信的可靠性。

在数字通信系统中，信道编码（Channel Coding），也称为前向纠错（Forward Error Correction, FEC），正是基于这种思想。其核心目标是在发送端对原始信息序列进行处理，加入受控的冗余信息，生成一个更长的编码序列。这个编码序列通过有噪声的信道传输后，在接收端，解码器利用这些冗余信息来检测甚至纠正传输过程中发生的错误，从而恢复原始信息。

信道编码的基本原理可以概括为：

① 增加冗余（Adding Redundancy）：原始信息序列（例如，由 \(k\) 个信息比特组成）通过编码器（Encoder）映射成一个更长的编码序列（例如，由 \(n\) 个编码比特组成，其中 \(n > k\)）。增加的 \(n-k\) 个比特就是冗余比特（Redundant Bits），它们与信息比特之间存在特定的数学关系。这种映射关系定义了码字（Codeword）。
② 对抗噪声（Combating Noise）：信道模型描述了信号在传输过程中受到的影响，如噪声、衰落、干扰等，这些影响可能导致发送的码字发生错误，接收到的序列与发送的码字不同。信道编码通过在码字中引入结构，使得即使部分比特发生错误，接收端仍然可以通过解码算法识别出最可能的原始码字。
③ 提高可靠性（Improving Reliability）：通过有效的编码和解码，可以在一定的信噪比（Signal-to-Noise Ratio, SNR）下显著降低误码率（Bit Error Rate, BER）或误字率（Word Error Rate）。
④ 逼近容量（Approaching Capacity）：香农的信道编码定理指出，对于任何速率 \(R < C\)（信道容量），存在一种编码方案，使得误码率可以任意小。信道编码理论和实践的目标就是设计出能够以接近信道容量的速率进行可靠通信的编码方案。

信道编码的过程通常可以表示为：

信息源（Information Source） -> 编码器（Encoder） -> 调制器（Modulator） -> 信道（Channel） -> 解调器（Demodulator） -> 解码器（Decoder） -> 信息宿（Information Sink）

信道编码器位于信息源和调制器之间，而信道解码器位于解调器和信息宿之间。编码器将信息比特映射为码字，解码器则根据接收到的可能受损的序列，结合信道模型的信息（例如，信道转移概率），推断出最可能的发送码字，并从中恢复信息比特。

信道编码的性能通常用误码率（BER）或误字率（WER）随信噪比（SNR）的变化曲线来衡量。一个好的编码方案能够在较低的SNR下实现较低的误码率。

11.2 典型信道编码方法（Typical Channel Coding Methods）

信道编码技术种类繁多，根据其结构和特性可以分为不同的类别。这里我们介绍两种经典的编码方法：分组码和卷积码。

11.2.1 分组码（Block Codes）

分组码是最直观的信道编码方式之一。它将信息序列分割成固定长度的块（称为信息块），每个信息块包含 \(k\) 个信息比特。然后，编码器独立地将每个 \(k\) 比特的信息块映射成一个固定长度的 \(n\) 比特码字，其中 \(n > k\)。这个 \(n\) 比特的码字被称为码字块。编码率（Code Rate）定义为 \(R = k/n\)，它表示每个编码比特携带的信息量。

⚝ 基本概念：
▮▮▮▮⚝ 信息块（Information Block）：长度为 \(k\) 比特的原始信息单元。
▮▮▮▮⚝ 码字（Codeword）：长度为 \(n\) 比特的编码序列，由一个信息块生成。
▮▮▮▮⚝ 码本（Codebook）：所有可能的 \(2^k\) 个信息块对应的 \(2^k\) 个码字的集合。
▮▮▮▮⚝ 编码率（Code Rate）：\(R = k/n\)，表示编码效率。

⚝ 线性分组码（Linear Block Codes）：
线性分组码是一类重要的分组码，其码字集合构成一个向量空间。这意味着任意两个码字的线性组合（在二进制域上是模2加法）仍然是码字。线性分组码的编码过程可以通过矩阵乘法实现。

▮▮▮▮⚝ 生成矩阵（Generator Matrix, \(G\)）：一个 \(k \times n\) 的矩阵，信息块 \(\mathbf{u}\) (1x\(k\) 行向量) 通过 \(\mathbf{c} = \mathbf{u}G\) 生成码字 \(\mathbf{c}\) (1x\(n\) 行向量)。
▮▮▮▮⚝ 校验矩阵（Parity Check Matrix, \(H\)）：一个 \((n-k) \times n\) 的矩阵，对于任意码字 \(\mathbf{c}\)，满足 \(\mathbf{c}H^T = \mathbf{0}\)。接收端可以通过计算接收向量 \(\mathbf{r}\) 的伴随式（Syndrome） \(\mathbf{s} = \mathbf{r}H^T\) 来检测错误。如果 \(\mathbf{s} \neq \mathbf{0}\)，则表明发生了错误。

⚝ 典型分组码示例：
▮▮▮▮⚝ 重复码（Repetition Code）：最简单的分组码，将每个信息比特重复 \(n\) 次。例如，(3,1) 重复码将比特 0 编码为 000，比特 1 编码为 111。\(k=1, n=3\)。
▮▮▮▮⚝ 奇偶校验码（Parity Check Code）：在 \(k\) 个信息比特后附加一个校验比特，使得码字中 1 的个数为偶数（或奇数）。例如，(7,6) 奇偶校验码。可以检测奇数个错误。
▮▮▮▮⚝ 汉明码（Hamming Codes）：一类能够纠正单个错误的线性分组码。例如，(7,4) 汉明码。
▮▮▮▮⚝ BCH码（Bose-Chaudhuri-Hocquenghem Codes） 和 RS码（Reed-Solomon Codes）：强大的纠错码，能够纠正多个随机错误（BCH码）或突发错误（RS码，特别适用于擦除信道）。

分组码的优点是结构简单，易于理解和实现。然而，对于复杂的信道和高要求的可靠性，简单的分组码可能效率不高，且其纠错能力有限。

11.2.2 卷积码（Convolutional Codes）

与分组码不同，卷积码（Convolutional Codes）不将信息序列分成独立的块进行编码，而是通过一个带有记忆的线性有限状态系统（通常由移位寄存器实现）对信息序列进行连续处理。编码器的输出不仅取决于当前输入的信息比特，还取决于之前若干个输入的信息比特。这就像对信息序列进行“卷积”操作，因此得名。

⚝ 基本概念：
▮▮▮▮⚝ 约束长度（Constraint Length, \(K\)）：决定了当前输出比特受多少个输入比特影响（包括当前比特）。通常指影响输出的移位寄存器的级数。
▮▮▮▮⚝ 生成多项式（Generator Polynomials）：描述了输入比特如何通过移位寄存器和模2加法器组合生成输出编码比特。一个 \((n, k, K)\) 卷积码表示输入 \(k\) 比特产生 \(n\) 比特输出，约束长度为 \(K\)。通常我们考虑 \(k=1\) 的情况，即 \((n, 1, K)\) 码。
▮▮▮▮⚝ 状态（State）：由移位寄存器中的内容决定，反映了编码器的“记忆”。一个约束长度为 \(K\) 的 \(k=1\) 卷积码有 \(2^{K-1}\) 个状态。
▮▮▮▮⚝ 网格图（Trellis Diagram）：一种可视化表示卷积码编码和解码过程的工具，显示了编码器随时间的状态转移和对应的输入/输出比特。

⚝ 编码过程：
信息比特序列连续输入到由移位寄存器和模2加法器组成的编码器中。在每个时间步长，根据当前输入比特和移位寄存器中的状态，产生 \(n\) 个输出编码比特。

⚝ 解码过程：
卷积码的解码通常使用维特比算法（Viterbi Algorithm）。维特比算法是一种基于动态规划的最大似然（Maximum Likelihood, ML）解码算法，它在网格图上寻找与接收序列“距离”最小的路径，从而确定最可能的发送码字序列。对于二进制对称信道（BSC），距离通常是汉明距离（Hamming Distance）。对于AWGN信道，通常使用欧氏距离（Euclidean Distance）或计算对数似然比（Log-Likelihood Ratios, LLRs）。

卷积码相比于同等编码率和复杂度的分组码，通常能提供更好的纠错性能，尤其是在随机错误信道中。维特比算法虽然是ML解码，但其计算复杂度随约束长度呈指数增长，限制了其在长约束长度码上的应用。

11.3 现代编码技术与逼近容量（Modern Coding Techniques and Approaching Capacity）

尽管经典的卷积码和分组码在通信系统中得到了广泛应用，但它们离香农极限仍有一定差距。特别是在需要极高可靠性或工作在低信噪比条件下的场景，需要性能更强的编码技术。20世纪90年代以来，随着计算能力的提升和新理论的发展，出现了一系列能够逼近香农容量的现代编码技术，其中最著名的是Turbo码和LDPC码。

这些现代编码技术通常具有以下特点：

⚝ 长码字（Long Codewords）：为了逼近香农容量，通常需要使用非常长的码字。
⚝ 迭代解码（Iterative Decoding）：解码过程不是一步完成，而是通过多次迭代，在编码的不同组成部分之间交换“软信息”（Soft Information，表示对每个比特是0还是1的概率或置信度），逐步提高解码的可靠性。
⚝ 伪随机结构（Pseudo-random Structure）：编码器的结构（特别是连接方式）往往具有一定的随机性，这有助于在长码字下获得良好的性能。

11.3.1 LDPC码（LDPC Codes）

LDPC码（Low-Density Parity-Check Codes，低密度奇偶校验码）是由Robert Gallager在1960年代初提出的，但由于当时计算能力的限制而未受到重视。直到1990年代末，随着迭代解码算法（如置信传播 Belief Propagation）的发展，LDPC码的优越性能才被重新发现。

⚝ 基本概念：
LDPC码是一类线性分组码，其特点是校验矩阵 \(H\) 是一个非常稀疏（即矩阵中绝大多数元素是0）的矩阵。一个 \((n, k)\) LDPC码由一个 \((n-k) \times n\) 的稀疏校验矩阵 \(H\) 定义。码字 \(\mathbf{c}\) 必须满足 \(\mathbf{c}H^T = \mathbf{0}\)。

⚝ 图表示（Graphical Representation）：
LDPC码可以用二分图（Bipartite Graph）来表示，称为Tanner图（Tanner Graph）。图中有两类节点：变量节点（Variable Nodes），对应于码字的每个比特；校验节点（Check Nodes），对应于校验矩阵的每一行（即每一个校验方程）。变量节点和校验节点之间的连线表示该比特参与了该校验方程。由于 \(H\) 矩阵是稀疏的，Tanner图也是稀疏的。

⚝ 迭代解码（Iterative Decoding）：
LDPC码通常采用基于图的迭代解码算法，最常见的是置信传播（Belief Propagation, BP）算法，也称为和积算法（Sum-Product Algorithm）。解码器在Tanner图上沿着边迭代地传递软信息（通常是LLRs）。变量节点向其连接的校验节点发送关于对应比特是0还是1的置信度信息，校验节点根据接收到的信息更新并向连接的变量节点发送满足校验方程所需的置信度信息。这个过程反复迭代，直到码字满足所有校验方程（解码成功）或达到最大迭代次数。

⚝ 性能：
LDPC码具有非常优异的性能，在许多信道模型下，其性能曲线可以非常接近香农极限，尤其是在长码字的情况下。它们在各种通信标准中得到了广泛应用，如DVB-S2（卫星电视）、Wi-Fi (802.11n/ac/ax)、4G/5G移动通信等。

11.3.2 Turbo码（Turbo Codes）

Turbo码是由Claude Berrou等人在1993年提出的，因其迭代解码过程类似于涡轮增压引擎（Turbo Engine）而得名。Turbo码的出现是信道编码领域的一个重大突破，首次证明了在实际系统中逼近香农极限是可能的。

⚝ 基本结构（Structure）：
典型的Turbo码由两个（或更多）并行级联的递归系统卷积码（Recursive Systematic Convolutional, RSC）编码器组成，中间通过一个交织器（Interleaver）连接。
▮▮▮▮⚝ RSC编码器：与普通卷积码不同，RSC编码器是系统的（Systematic），即信息比特直接作为输出的一部分；同时是递归的（Recursive），其内部状态的更新依赖于输入和之前的状态，且反馈回路使得其冲激响应是无限长的。
▮▮▮▮⚝ 交织器（Interleaver）：一个伪随机的置换器，将第一个RSC编码器的信息比特序列打乱顺序，然后输入给第二个RSC编码器。这个交织器是Turbo码性能的关键。

⚝ 迭代解码（Iterative Decoding）：
Turbo码的解码器由两个相应的软输入/软输出（Soft-Input/Soft-Output, SISO）解码器并行组成，它们之间通过解交织器（Deinterleaver）和交织器连接，并交换外部信息（Extrinsic Information）。
▮▮▮▮⚝ 每个SISO解码器接收来自信道的软信息以及来自另一个解码器的外部信息，并输出关于每个信息比特的更新的软信息。
▮▮▮▮⚝ 外部信息是解码器根据输入信息和自身编码结构推断出的、不包含输入信息的关于该比特的额外信息。
▮▮▮▮⚝ 两个解码器通过迭代地交换外部信息，相互“帮助”对方进行更准确的解码，直到收敛或达到最大迭代次数。

⚝ 性能：
Turbo码在低信噪比区域具有非常陡峭的“悬崖效应”（Cliff Effect），即在达到某个阈值信噪比后，误码率会急剧下降，非常接近香农极限。它们在3G和4G移动通信标准中扮演了重要角色。

LDPC码和Turbo码是现代通信系统中最常用的两种信道编码技术。虽然它们结构和解码算法不同，但都依赖于迭代处理和长码字来逼近信道容量。选择哪种编码技术取决于具体的应用场景、信道特性、所需的性能以及实现的复杂度。

本章我们简要回顾了信道编码的基本原理，并介绍了分组码、卷积码、LDPC码和Turbo码等典型编码方法。理解这些编码技术如何利用冗余和迭代处理来克服信道损伤，是理解现代通信系统可靠性设计的关键。信道模型为我们设定了理论极限（容量），而信道编码则是我们努力逼近这个极限的工具。

12. chapter 12：总结与展望（Conclusion and Future Perspectives）

欢迎来到本书的最后一章。在过去的章节中，我们系统地探讨了信息论中至关重要的信道模型（Channel Models）。从最基础的离散无记忆信道（Discrete Memoryless Channels, DMC），到复杂的连续信道（Continuous Channels）、有记忆信道（Channels with Memory）、衰落信道（Fading Channels），再到多用户（Multiuser）和高级信道模型（Advanced Channel Models），我们深入分析了它们的数学描述、性质以及最重要的——信道容量（Channel Capacity）。本章将对全书的主要内容进行回顾，总结信道模型研究的现状，并展望未来的发展方向。

12.1 主要概念回顾（Review of Key Concepts）

信息论（Information Theory）的核心在于量化信息、研究信息传输的极限以及如何设计有效的通信系统来逼近这些极限。信道（Channel）作为信息传输的媒介，是信息论研究中不可或缺的一部分。理解和建模信道是分析通信系统性能、设计编码方案以及确定理论传输速率上限的基础。

① 信息度量（Measures of Information）：我们首先学习了如何量化信息，引入了熵（Entropy）来衡量随机变量的不确定性，联合熵（Joint Entropy）和条件熵（Conditional Entropy）描述了多个变量之间的不确定性关系。
② 互信息（Mutual Information）：互信息衡量了两个随机变量之间的相互依赖程度，特别是在信道背景下，它量化了通过信道传输后，输出随机变量关于输入随机变量提供的信息量。这是评估信道传输效率的关键指标。
③ 信道容量（Channel Capacity）：这是信息论中最核心的概念之一，由香农（Shannon）定义。信道容量是信道在单位时间内能够可靠传输的最大信息速率。它是一个理论上限，与信道的物理特性和输入信号的统计特性有关。
④ 离散无记忆信道（DMC）：这是最简单的信道模型，假设信道的输入和输出符号都是离散的，且当前时刻的输出仅依赖于当前时刻的输入，与过去或未来的输入输出无关。我们学习了如何用信道矩阵（Channel Matrix）和转移概率（Transition Probabilities）来描述DMC，并计算其容量。
⑤ 连续信道（Continuous Channels）：对于输入输出为连续值的信道，我们引入了微分熵（Differential Entropy）的概念，并重点研究了加性高斯白噪声（Additive White Gaussian Noise, AWGN）信道。香农-哈特利定理（Shannon-Hartley Theorem）给出了AWGN信道的容量，揭示了带宽（Bandwidth）和信噪比（Signal-to-Noise Ratio, SNR）对容量的影响。
⑥ 有记忆信道（Channels with Memory）：现实世界的信道往往具有记忆性，即当前时刻的输出可能依赖于过去的输入或输出。我们探讨了马尔可夫信道（Markov Channels）和吉尔伯特-埃利奥特模型（Gilbert-Elliott Model）等典型有记忆信道模型及其容量分析。
⑦ 衰落信道（Fading Channels）：无线通信中普遍存在衰落现象，导致接收信号强度随时间或位置变化。我们研究了瑞利衰落（Rayleigh Fading）、莱斯衰落（Rician Fading）等典型衰落模型，并讨论了遍历容量（Ergodic Capacity）和中断容量（Outage Capacity）等概念。
⑧ 多用户与高级信道模型：现代通信系统通常涉及多个用户或复杂的信道结构。我们简要介绍了多址信道（Multiple Access Channel, MAC）、广播信道（Broadcast Channel, BC）以及多输入多输出（Multiple-Input Multiple-Output, MIMO）信道等模型，这些模型是研究多用户通信和空间复用技术的基础。
⑨ 信道模型与编码理论：信道模型为信道编码（Channel Coding）的设计提供了理论指导。信道编码的目的是在给定信道条件下，通过在发送端加入冗余信息，使得接收端能够纠正或检测传输错误，从而实现可靠通信，逼近信道容量。我们回顾了分组码（Block Codes）、卷积码（Convolutional Codes）等经典编码方法，并提及了LDPC码（LDPC Codes）和Turbo码（Turbo Codes）等现代逼近容量的编码技术。

总而言之，信道模型是连接信息论理论与实际通信系统设计的桥梁。准确的信道建模是分析系统性能、优化资源分配和设计高效编码调制方案的前提。

12.2 信道模型研究的挑战与机遇（Challenges and Opportunities in Channel Model Research）

尽管信道模型研究已经取得了丰硕的成果，但随着通信技术的飞速发展和应用场景的日益复杂，仍然面临诸多挑战：

⚝ 复杂电磁环境（Complex Electromagnetic Environments）：未来的通信系统需要在更加复杂和动态的环境中运行，例如城市高楼林立的峡谷、高速移动的交通工具、工业物联网（Industrial IoT）中的密集部署等。这些环境下的信道特性更加复杂，传统的简单模型可能不再适用。
⚝ 新频段的信道特性（Channel Characteristics of New Frequency Bands）：毫米波（mmWave）、太赫兹（THz）甚至光通信（Optical Communication）等新频段的利用带来了新的信道传播特性，如更高的路径损耗、对障碍物更敏感、更丰富的空间维度等。需要发展新的模型来准确描述这些特性。
⚝ 大规模MIMO与超大规模MIMO（Massive MIMO and Ultra-Massive MIMO）：天线数量的急剧增加使得信道维度极高，传统的信道建模和估计方法面临计算复杂度和模型精度的挑战。需要研究低复杂度、高精度的信道模型和估计技术。
⚝ 动态与非平稳信道（Dynamic and Non-Stationary Channels）：许多实际信道是随时间变化的，甚至是快速变化的非平稳信道。如何建立能够捕捉这种动态特性的模型，并在此基础上进行通信设计，是一个持续的挑战。
⚝ 跨域融合场景（Cross-Domain Fusion Scenarios）：通信正与感知（Sensing）、计算（Computing）、控制（Control）等深度融合（例如，集成感知与通信，ISAC）。这要求信道模型不仅要描述信息传输，还要反映信号在环境中的传播如何影响感知和定位等功能。
⚝ 数据驱动与机器学习（Data-Driven and Machine Learning）：传统的信道模型通常基于物理传播机理或统计特性。随着大数据和计算能力的提升，如何利用机器学习（Machine Learning, ML）方法从海量测量数据中学习和构建信道模型，成为新的研究方向。

与此同时，这些挑战也带来了前所未有的机遇：

⚝ 更精确和自适应的模型（More Accurate and Adaptive Models）：通过深入研究物理机理和结合数据驱动方法，可以开发出更精确、更能适应环境变化的信道模型。
⚝ 模型与系统设计的深度融合（Deep Integration of Models and System Design）：将信道模型更紧密地集成到通信系统的设计、优化和管理中，例如基于模型的波束赋形（Beamforming）、资源分配（Resource Allocation）和编码调制（Coding and Modulation）。
⚝ 利用AI/ML提升建模效率和精度（Leveraging AI/ML for Improved Modeling Efficiency and Accuracy）：机器学习技术可以用于信道预测（Channel Prediction）、信道状态信息（Channel State Information, CSI）压缩与恢复、甚至直接学习信道输入输出映射，极大地提升建模的效率和精度。
⚝ 支撑新型通信范式（Supporting New Communication Paradigms）：新的信道模型将为集成感知与通信（ISAC）、语义通信（Semantic Communication）、物理层安全（Physical Layer Security）等新型通信范式提供理论基础和技术支撑。
⚝ 推动标准化和产业发展（Driving Standardization and Industrial Development）：准确的信道模型是通信系统性能评估和标准制定的基础，新的模型研究将直接推动未来通信技术的标准化和产业化进程。

12.3 未来研究方向（Future Research Directions）

基于当前的挑战和机遇，未来信道模型研究可能集中在以下几个方向：

① 基于机器学习的信道建模与预测（Machine Learning-Based Channel Modeling and Prediction）：
▮▮▮▮ⓑ 利用深度学习（Deep Learning）等技术，直接从大规模信道测量数据中学习复杂的信道分布和动态特性。
▮▮▮▮ⓒ 研究基于ML的信道状态信息（CSI）压缩、恢复和预测算法，以降低反馈开销并应对信道时变性。
▮▮▮▮ⓓ 探索如何将物理先验知识（Physical Prior Knowledge）与数据驱动方法相结合，构建更具解释性和泛化能力的混合模型。

② 集成感知与通信（ISAC）的信道模型（Channel Models for Integrated Sensing and Communication）：
▮▮▮▮ⓑ 研究信号在环境中传播如何同时携带通信信息和感知目标信息。
▮▮▮▮ⓒ 建立能够描述通信链路和感知链路之间相互作用的统一信道模型。
▮▮▮▮ⓓ 分析ISAC场景下信道容量与感知性能之间的权衡关系。

③ 量子信道（Quantum Channels）：
▮▮▮▮ⓑ 随着量子计算和量子通信的发展，研究量子信息在量子信道中传输的特性和容量。
▮▮▮▮ⓒ 探索量子纠缠（Quantum Entanglement）等量子资源对信道容量的影响。

④ 超可靠低延迟通信（URLLC）的信道模型（Channel Models for Ultra-Reliable Low-Latency Communication）：
▮▮▮▮ⓑ URLLC对可靠性和延迟有极高的要求，需要研究在极端条件下（如深度衰落、强干扰）的信道特性。
▮▮▮▮ⓒ 关注短包通信（Short-Packet Communication）下的信道行为和有限块长（Finite Blocklength）容量。

⑤ 语义通信的信道模型（Channel Models for Semantic Communication）：
▮▮▮▮ⓑ 语义通信关注传输信息的“意义”而非比特流。需要研究如何建模信道对信息语义的传输和影响。
▮▮▮▮ⓒ 探索如何在信道模型中融入源（Source）和目的（Destination）的知识背景和任务需求。

⑥ 物理层安全信道模型（Channel Models for Physical Layer Security）：
▮▮▮▮ⓑ 研究窃听信道（Eavesdropper Channel）和合法信道（Legitimate Channel）之间的关系。
▮▮▮▮ⓒ 建立能够分析和利用信道特性来实现安全传输的模型，例如基于信道差异的密钥生成和安全编码。

⑦ 新频段（mmWave, THz）和新场景（如空天地海一体化）的精确信道模型（Accurate Channel Models for New Frequency Bands and Scenarios）：
▮▮▮▮ⓑ 结合电磁场理论、射线追踪（Ray Tracing）和实测数据，建立更精确的毫米波、太赫兹等频段的传播模型。
▮▮▮▮ⓒ 研究卫星通信、无人机通信、水下通信等特殊场景下的信道特性和建模方法。

⑧ 信道模型的实验验证与标准化（Experimental Validation and Standardization of Channel Models）：
▮▮▮▮ⓑ 加强大规模信道测量活动，获取真实世界的信道数据。
▮▮▮▮ⓒ 利用测量数据对理论模型进行验证和修正。
▮▮▮▮ⓓ 推动新的信道模型在国际标准组织（如3GPP, IEEE）中的采纳。

信道模型的研究是一个充满活力和挑战的领域。它不仅是信息论理论的基石，也是推动未来通信技术发展的关键驱动力。希望本书能够激发您对信道模型的兴趣，并为您进一步深入研究或应用于实践打下坚实的基础。

感谢您阅读本书！祝您在信息论和通信领域的学习与研究旅程中取得成功！ 🚀

1	graph LR
2	X0(X=0) -->\|1-p\| Y0(Y=0)
3	X0 -->\|p\| Y1(Y=1)
4	X1(X=1) -->\|p\| Y0
5	X1 -->\|1-p\| Y1

1	graph LR
2	X0(X=0) -->\|1-epsilon\| Y0(Y=0)
3	X0 -->\|epsilon\| Ye(Y=e)
4	X1(X=1) -->\|1-epsilon\| Y1(Y=1)
5	X1 -->\|epsilon\| Ye

1	graph LR
2	X0(X=0) -->\|1\| Y0(Y=0)
3	X0 -->\|0\| Y1(Y=1)
4	X1(X=1) -->\|p\| Y0
5	X1 -->\|1-p\| Y1