文件浏览器

000 信息论 (Information Theory)知识框架 001 《信息论：历史背景与深远影响》 002 《信息论：基本概念与核心原理深度解析》 003 《信息论的基石：概率论与随机过程深度解析》 004 《信息论：信源编码基本原理深度解析》 005 《信息论：无损信源编码深度解析 (Information Theory: In-Depth Analysis of Lossless Source Coding)》 006 《信息论之有损信源编码：原理、理论与实践》 007 《信息论：信道模型理论、分析与应用全解》 008 《信息论核心：信道容量理论与应用》 009 《信道编码与纠错：从原理到实践的深度解析（Channel Coding and Error Correction: In-depth Analysis from Principles to Practice）》 010 《信息论：多用户信道深度解析 (Information Theory: In-depth Analysis of Multi-User Channels)》 011 《网络编码：信息论视角下的全面理论与深度应用解析 (Network Coding: Comprehensive Theory and In-depth Application Analysis from an Information Theory Perspective)》 012 《无线网络信息论：从基础到前沿》 013 《信息论：通信系统全面深度解析 (Information Theory: A Comprehensive and In-Depth Analysis of Communication Systems)》 014 《信息论：数据压缩与存储——原理、算法与应用深度解析》 015 《信息论与密码学：原理、应用与深度解析》 016 《信息论、统计推断与机器学习：从基础到前沿》 017 《信息论在生物信息学中的全面与深度解析》 018 《信息论与量子信息论：从经典基础到量子前沿》 019 《信息论的普适原理与跨领域应用》 020 《多终端信息论：原理、模型与前沿（Multi-Terminal Information Theory: Principles, Models, and Frontiers）》 021 《信息论与统计学：原理、方法与应用 (Information Theory and Statistics: Principles, Methods, and Applications)》 022 《信息论与计算复杂性：从基础到前沿》 023 《信息论的哲学意义：从比特到存在 (Philosophical Implications of Information Theory: From Bit to Being)》 024 《信息论的未来：趋势、挑战与前沿探索 (The Future of Information Theory: Trends, Challenges, and Frontier Exploration)》

008 《信息论核心：信道容量理论与应用》

作者Lou Xiao, gemini创建时间2025-04-18 22:37:56更新时间2025-04-18 22:37:56

🌟🌟🌟本文案由Gemini 2.5 Flash Preview 04-17创作，用来辅助学习知识。🌟🌟🌟

书籍大纲

▮▮▮▮ 1. chapter 1：信息论导论与信道容量概述
▮▮▮▮▮▮▮ 1.1 信息、通信与信息论（Information, Communication, and Information Theory）
▮▮▮▮▮▮▮ 1.2 信息论的起源与发展简史（Origin and Brief History of Information Theory）
▮▮▮▮▮▮▮ 1.3 通信系统的基本模型（Basic Model of Communication System）
▮▮▮▮▮▮▮ 1.4 信道容量的概念引入（Introduction to the Concept of Channel Capacity）
▮▮▮▮▮▮▮▮▮▮▮ 1.4.1 为什么需要信道容量？（Why Channel Capacity?）
▮▮▮▮▮▮▮▮▮▮▮ 1.4.2 信道容量的直观理解（Intuitive Understanding of Channel Capacity）
▮▮▮▮▮▮▮ 1.5 本书结构与阅读指南（Book Structure and Reading Guide）
▮▮▮▮ 2. chapter 2：信息度量：熵与互信息（Information Measures: Entropy and Mutual Information）
▮▮▮▮▮▮▮ 2.1 随机事件与随机变量（Random Events and Random Variables）
▮▮▮▮▮▮▮ 2.2 离散随机变量的熵（Entropy of Discrete Random Variables）
▮▮▮▮▮▮▮▮▮▮▮ 2.2.1 自信息（Self-Information）
▮▮▮▮▮▮▮▮▮▮▮ 2.2.2 熵的定义与性质（Definition and Properties of Entropy）
▮▮▮▮▮▮▮▮▮▮▮ 2.2.3 联合熵与条件熵（Joint Entropy and Conditional Entropy）
▮▮▮▮▮▮▮ 2.3 互信息（Mutual Information）
▮▮▮▮▮▮▮▮▮▮▮ 2.3.1 互信息的定义与意义（Definition and Meaning of Mutual Information）
▮▮▮▮▮▮▮▮▮▮▮ 2.3.2 互信息与熵的关系（Relationship between Mutual Information and Entropy）
▮▮▮▮▮▮▮▮▮▮▮ 2.3.3 互信息的性质（Properties of Mutual Information）
▮▮▮▮▮▮▮ 2.4 连续随机变量的微分熵与互信息（Differential Entropy and Mutual Information of Continuous Random Variables）
▮▮▮▮▮▮▮ 2.5 链式法则（Chain Rules）
▮▮▮▮ 3. chapter 3：信道模型（Channel Models）
▮▮▮▮▮▮▮ 3.1 离散无记忆信道（Discrete Memoryless Channel, DMC）
▮▮▮▮▮▮▮▮▮▮▮ 3.1.1 信道转移概率（Channel Transition Probabilities）
▮▮▮▮▮▮▮▮▮▮▮ 3.1.2 信道矩阵（Channel Matrix）
▮▮▮▮▮▮▮ 3.2 常见离散信道示例（Examples of Common Discrete Channels）
▮▮▮▮▮▮▮▮▮▮▮ 3.2.1 二进制对称信道（Binary Symmetric Channel, BSC）
▮▮▮▮▮▮▮▮▮▮▮ 3.2.2 二进制删除信道（Binary Erasure Channel, BEC）
▮▮▮▮▮▮▮▮▮▮▮ 3.2.3 Z信道（Z-Channel）
▮▮▮▮▮▮▮ 3.3 连续信道模型（Continuous Channel Models）
▮▮▮▮▮▮▮▮▮▮▮ 3.3.1 加性噪声信道（Additive Noise Channel）
▮▮▮▮▮▮▮▮▮▮▮ 3.3.2 加性高斯白噪声信道（Additive White Gaussian Noise Channel, AWGN）
▮▮▮▮ 4. chapter 4：信道容量的定义与计算（Definition and Calculation of Channel Capacity）
▮▮▮▮▮▮▮ 4.1 信道容量的正式定义（Formal Definition of Channel Capacity）
▮▮▮▮▮▮▮▮▮▮▮ 4.1.1 作为互信息最大值的信道容量（Channel Capacity as Maximum Mutual Information）
▮▮▮▮▮▮▮▮▮▮▮ 4.1.2 最大化互信息的输入分布（Input Distribution Maximizing Mutual Information）
▮▮▮▮▮▮▮ 4.2 离散无记忆信道的容量计算（Calculating Capacity of Discrete Memoryless Channels）
▮▮▮▮▮▮▮▮▮▮▮ 4.2.1 对称信道的容量（Capacity of Symmetric Channels）
▮▮▮▮▮▮▮▮▮▮▮ 4.2.2 BSC容量计算（BSC Capacity Calculation）
▮▮▮▮▮▮▮▮▮▮▮ 4.2.3 BEC容量计算（BEC Capacity Calculation）
▮▮▮▮▮▮▮▮▮▮▮ 4.2.4 一般DMC容量计算方法（Methods for Calculating General DMC Capacity）
▮▮▮▮▮▮▮ 4.3 连续信道的容量：AWGN信道（Capacity of Continuous Channels: AWGN Channel）
▮▮▮▮▮▮▮▮▮▮▮ 4.3.1 功率约束（Power Constraint）
▮▮▮▮▮▮▮▮▮▮▮ 4.3.2 香农-哈特利定理（Shannon-Hartley Theorem）
▮▮▮▮▮▮▮▮▮▮▮ 4.3.3 带宽、功率与容量的关系（Relationship between Bandwidth, Power, and Capacity）
▮▮▮▮ 5. chapter 5：香农信道编码定理（Shannon's Channel Coding Theorem）
▮▮▮▮▮▮▮ 5.1 可靠通信的概念（Concept of Reliable Communication）
▮▮▮▮▮▮▮ 5.2 编码与译码（Encoding and Decoding）
▮▮▮▮▮▮▮ 5.3 香农信道编码定理的陈述（Statement of Shannon's Channel Coding Theorem）
▮▮▮▮▮▮▮▮▮▮▮ 5.3.1 可达性（Achievability）
▮▮▮▮▮▮▮▮▮▮▮ 5.3.2 逆定理（Converse）
▮▮▮▮▮▮▮ 5.4 定理的意义与推论（Meaning and Implications of the Theorem）
▮▮▮▮▮▮▮▮▮▮▮ 5.4.1 信道容量是可靠传输的极限速率（Channel Capacity as the Limit Rate for Reliable Transmission）
▮▮▮▮▮▮▮▮▮▮▮ 5.4.2 错误概率与码长（Error Probability and Code Length）
▮▮▮▮▮▮▮ 5.5 可达性证明的直观思想（Intuitive Idea of Achievability Proof）
▮▮▮▮▮▮▮▮▮▮▮ 5.5.1 随机编码（Random Coding）
▮▮▮▮▮▮▮▮▮▮▮ 5.5.2 典型集（Typical Sets）
▮▮▮▮▮▮▮ 5.6 逆定理证明的直观思想（Intuitive Idea of Converse Proof）
▮▮▮▮▮▮▮▮▮▮▮ 5.6.1 Fano不等式（Fano's Inequality）
▮▮▮▮ 6. chapter 6：信道容量的性质与界限（Properties and Bounds of Channel Capacity）
▮▮▮▮▮▮▮ 6.1 信道容量的基本性质（Basic Properties of Channel Capacity）
▮▮▮▮▮▮▮ 6.2 信道容量的上下界（Upper and Lower Bounds on Channel Capacity）
▮▮▮▮▮▮▮ 6.3 数据处理不等式（Data Processing Inequality）及其在容量中的应用
▮▮▮▮ 7. chapter 7：高级信道模型与容量（Advanced Channel Models and Capacity）
▮▮▮▮▮▮▮ 7.1 具有记忆的信道（Channels with Memory）
▮▮▮▮▮▮▮ 7.2 衰落信道（Fading Channels）
▮▮▮▮▮▮▮ 7.3 多输入多输出（MIMO）信道容量
▮▮▮▮▮▮▮ 7.4 多用户信道（Multi-user Channels）
▮▮▮▮▮▮▮▮▮▮▮ 7.4.1 多址信道（Multiple Access Channel, MAC）
▮▮▮▮▮▮▮▮▮▮▮ 7.4.2 广播信道（Broadcast Channel, BC）
▮▮▮▮▮▮▮ 7.5 网络信息论简介（Introduction to Network Information Theory）
▮▮▮▮ 8. chapter 8：信道容量的实际意义与应用（Practical Significance and Applications of Channel Capacity）
▮▮▮▮▮▮▮ 8.1 信道容量与实际系统性能（Channel Capacity and Practical System Performance）
▮▮▮▮▮▮▮ 8.2 逼近信道容量的编码技术（Coding Techniques Approaching Channel Capacity）
▮▮▮▮▮▮▮▮▮▮▮ 8.2.1 LDPC码（LDPC Codes）
▮▮▮▮▮▮▮▮▮▮▮ 8.2.2 Turbo码（Turbo Codes）
▮▮▮▮▮▮▮ 8.3 信道容量在通信系统设计中的作用（Role of Channel Capacity in Communication System Design）
▮▮▮▮▮▮▮ 8.4 信道容量在其他领域的应用（Applications of Channel Capacity in Other Fields）
▮▮▮▮▮▮▮▮▮▮▮ 8.4.1 数据存储（Data Storage）
▮▮▮▮▮▮▮▮▮▮▮ 8.4.2 机器学习（Machine Learning）
▮▮▮▮▮▮▮▮▮▮▮ 8.4.3 统计推断（Statistical Inference）
▮▮▮▮ 9. chapter 9：总结与展望（Summary and Future Perspectives）
▮▮▮▮▮▮▮ 9.1 信道容量理论的核心思想回顾（Review of Core Ideas of Channel Capacity Theory）
▮▮▮▮▮▮▮ 9.2 当前研究热点与未解决问题（Current Research Hotspots and Open Problems）
▮▮▮▮▮▮▮ 9.3 未来发展方向（Future Development Directions）
▮▮▮▮ 10. chapter 10：附录与参考文献（Appendices and References）
▮▮▮▮▮▮▮ 10.1 常用数学工具回顾（Review of Common Mathematical Tools）
▮▮▮▮▮▮▮ 10.2 重要定理的详细证明（Detailed Proofs of Important Theorems）
▮▮▮▮▮▮▮ 10.3 习题与解答（Exercises and Solutions）
▮▮▮▮▮▮▮ 10.4 参考文献（References）
▮▮▮▮▮▮▮ 10.5 索引（Index）

1. chapter 1：信息论导论与信道容量概述

欢迎来到信息论的世界！📚 在这个章节中，我们将一起踏上探索信息奥秘的旅程，特别是聚焦于通信系统中一个至关重要的概念——信道容量（Channel Capacity）。我们将从最基本的概念出发，逐步深入，为您构建一个清晰的知识框架。

1.1 信息、通信与信息论（Information, Communication, and Information Theory）

我们生活在一个信息爆炸的时代，信息（Information）无处不在。但从科学的角度看，信息究竟是什么？简单来说，信息是能够消除不确定性的事物。当您得知一个事件发生时，如果这个事件原本发生的可能性很低（即不确定性高），那么您获得的信息量就越大。信息论（Information Theory）正是研究信息的度量、存储和传输的数学理论。

通信（Communication）则是信息从发送方传递到接收方的过程。无论是古老的烽火狼烟，还是现代的光纤通信和无线网络，其核心都是为了实现信息的有效传递。然而，在传递过程中，信息往往会受到各种干扰和失真，这就是噪声（Noise）的作用。

信息论为我们提供了一套强大的工具，用以分析通信系统的性能极限，指导我们如何设计更高效、更可靠的通信系统。它不仅仅局限于传统的通信领域，其思想和方法已经渗透到计算机科学、统计学、物理学、生物学等众多学科。

1.2 信息论的起源与发展简史（Origin and Brief History of Information Theory）

信息论的诞生，离不开一位伟大的科学家——克劳德·香农（Claude Shannon）。1948年，香农发表了划时代的论文《通信的数学理论》（A Mathematical Theory of Communication），标志着信息论作为一门独立的学科正式诞生。

在这篇论文中，香农首次提出了信息的量化方法（即熵的概念），建立了通信系统的数学模型，并引入了信道容量（Channel Capacity）这一核心概念，以及著名的信道编码定理（Channel Coding Theorem）。他的理论为通信工程师提供了衡量通信系统性能的理论极限，指明了努力的方向。

自香农之后，信息论得到了飞速发展。理查德·汉明（Richard Hamming）和彼得·伊莱亚斯（Peter Elias）等人在纠错码（Error-Correcting Codes）方面做出了重要贡献。阿隆·科尔莫戈罗夫（Andrey Kolmogorov）和雷蒙德·所罗门诺夫（Ray Solomonoff）等人发展了算法信息论（Algorithmic Information Theory）。信息论与统计学、概率论、计算机科学等领域的交叉融合，不断拓展着其应用范围。

如今，信息论已经成为现代通信、数据存储、数据压缩、机器学习等众多技术领域的理论基石。

1.3 通信系统的基本模型（Basic Model of Communication System）

为了更好地理解信道容量，我们首先回顾一个典型的通信系统模型。这个模型通常包括以下几个主要组成部分：

⚝ 信息源（Information Source）: 产生需要传输的信息，可以是文字、语音、图像等。
⚝ 发送器（Transmitter）: 将信息源产生的原始信息转换成适合在信道中传输的信号。这个过程可能包括源编码（Source Coding）以压缩信息，以及信道编码（Channel Coding）以增加冗余来对抗噪声，最后进行调制（Modulation）将数字信号转换为模拟信号或适合物理传输的形式。
⚝ 信道（Channel）: 信息传输的物理媒介，例如电缆、光纤、无线电波、甚至存储介质。信道是信息论研究的核心之一，因为它通常会引入噪声和失真，导致传输错误。
⚝ 接收器（Receiver）: 接收来自信道的信号，并将其转换回原始信息的形式。这个过程包括解调（Demodulation）、信道译码（Channel Decoding）和源译码（Source Decoding）。
⚝ 信息宿（Information Sink）/目的地（Destination）: 接收最终恢复的信息。

\[ \text{信息源} \rightarrow \text{发送器} \rightarrow \text{信道} \rightarrow \text{接收器} \rightarrow \text{信息宿} \]

在这个模型中，信道是连接发送器和接收器的桥梁，也是限制通信性能的关键环节。噪声和干扰会使得接收到的信号与发送的信号不同，从而导致信息丢失或错误。

1.4 信道容量的概念引入（Introduction to the Concept of Channel Capacity）

现在，我们正式引入本书的核心概念——信道容量（Channel Capacity）。

1.4.1 为什么需要信道容量？（Why Channel Capacity?）

在存在噪声的信道中传输信息时，我们面临一个基本问题：能否以任意高的速率进行可靠（即错误率任意低）的通信？直观上，噪声会干扰信号，传输速率越高，单位时间内传输的符号越多，每个符号停留的时间越短，越容易受到噪声的影响而发生错误。似乎存在一个速度的上限。

在香农之前，工程师们通常通过增加信号功率或降低传输速率来提高通信的可靠性。但他们不确定是否存在一个理论上的极限，也不知道这个极限是多少。

香农的信道编码定理回答了这个问题：对于任何一个信道，存在一个最大的传输速率，称为信道容量（Channel Capacity），只要信息传输速率低于这个容量，就可以通过适当的编码和译码方案实现错误率任意小的可靠通信；而如果传输速率高于信道容量，则不可能实现错误率任意小的可靠通信。

信道容量就像是信道的“带宽”或“吞吐量”的极限，但它衡量的不是物理上的频率范围，而是信息传输的速率极限，并且强调的是“可靠”传输。

1.4.2 信道容量的直观理解（Intuitive Understanding of Channel Capacity）

我们可以用几个简单的类比来直观理解信道容量：

① 水管的流量 💧：想象信道是一根水管，信息是流经的水流。水管的粗细（带宽）和水压（信号功率）决定了单位时间内能流过的最大水量。信道容量就像是这根水管在给定条件下能传输的最大“信息流量”。如果水管有漏水（噪声），要想可靠地将水送到目的地，就不能让水流得太快，否则漏掉的就太多了。信道容量考虑了“漏水”（噪声）的影响，是可靠传输的极限。

② 嘈杂环境中的对话 🗣️👂：在一个非常嘈杂的环境中（高噪声信道），您和朋友交流。为了确保对方听清楚您的话（可靠通信），您可能需要：
▮▮▮▮ⓑ 说得更大声（增加信号功率）。
▮▮▮▮ⓒ 说得慢一些，甚至重复关键信息（降低传输速率，增加冗余）。
▮▮▮▮ⓓ 使用更清晰、更不容易混淆的词语或手势（更好的编码）。
信道容量就是在这个嘈杂程度下，您能够进行清晰、不误解对话的最大语速。语速太快，对方就听不清了。

③ 通过有雾的窗户看东西 🌫️🖼️：信道就像一扇有雾的窗户，您试图通过它观察外面的景象（信息）。雾（噪声）会模糊景象。窗户的大小（带宽）和窗外的光线强度（信号功率）会影响您能看到多少细节。信道容量决定了您通过这扇窗户能够“可靠地”获取外部景象信息的最大速率。雾越浓（噪声越大），窗户越小（带宽越窄），光线越暗（功率越低），信道容量就越低。

这些类比帮助我们理解，信道容量是一个衡量信道传输信息能力的根本度量，它受到信道自身的物理特性（如带宽）以及环境因素（如噪声、干扰）的限制。更重要的是，香农定理告诉我们，这个极限是可以通过巧妙的编码技术来逼近的，而不必无限增加功率或带宽。

1.5 本书结构与阅读指南（Book Structure and Reading Guide）

本书旨在全面且深度解析信息论中的信道容量概念，从基础理论到高级模型及实际应用。本书结构如下：

⚝ 第1章 (本章)：信息论导论与信道容量概述，建立基本概念和框架。
⚝ 第2章：信息度量：熵与互信息，学习量化信息和衡量随机变量之间关联度的工具，这是理解信道容量的基础。
⚝ 第3章：信道模型，介绍不同类型的信道及其数学描述。
⚝ 第4章：信道容量的定义与计算，给出信道容量的严格定义，并学习计算常见信道的容量。
⚝ 第5章：香农信道编码定理，深入理解信道容量作为可靠传输极限的意义及其证明思想。
⚝ 第6章：信道容量的性质与界限，探讨容量的数学性质以及如何估计容量的范围。
⚝ 第7章：高级信道模型与容量，介绍更复杂的信道模型，如带记忆信道、衰落信道、MIMO信道和多用户信道。
⚝ 第8章：信道容量的实际意义与应用，讨论容量与实际系统性能的关系，以及逼近容量的编码技术和容量在其他领域的应用。
⚝ 第9章：总结与展望，回顾核心思想，探讨当前研究热点和未来方向。
⚝ 第10章：附录与参考文献，提供数学工具回顾、重要定理证明、习题与解答以及参考文献。

阅读指南：

⚝ 初学者（Beginners） 👶：建议按章节顺序阅读，重点理解概念和直观解释。可以先跳过复杂的数学证明（如第5章的详细证明，第10章的详细证明），专注于理解结论及其意义。第2、3、4、5章的核心概念是基础。
⚝ 中级读者（Intermediate） 🧑‍🎓：建议按章节顺序深入阅读，尝试理解主要定理的证明思路和容量计算方法。可以结合附录中的数学工具回顾。第4、5、6章是重点。
⚝ 专家（Experts） 👨‍🏫：本书可作为参考资料，可以根据兴趣选择性阅读高级章节（第7章）或深入研究定理证明（第5章、第10章）。第8、9章可能提供新的视角或启发。

无论您是初次接触信息论，还是希望深入理解信道容量的专业人士，希望本书都能为您提供有益的指导和深刻的洞察。让我们一起开始这段精彩的学习旅程吧！🚀

2. chapter 2：信息度量：熵与互信息（Information Measures: Entropy and Mutual Information）

欢迎来到本书的第二章！在上一章中，我们对信息论及其核心概念——信道容量——进行了初步的介绍。我们了解到，信息论为通信系统的设计和分析提供了一个坚实的理论基础，而信道容量则量化了在给定信道上可靠传输信息的最大速率。但是，要深入理解信道容量，我们首先需要回答一个更基本的问题：什么是信息？如何度量信息？

本章将聚焦于信息论中最基本也是最重要的信息度量工具：熵（Entropy）和互信息（Mutual Information）。熵度量了随机变量的不确定性或平均信息量，而互信息则度量了两个随机变量之间的相互依赖性或共享的信息量。这些概念不仅是理解信道容量的关键，也是信息论在数据压缩、统计推断、机器学习等众多领域应用的基础。

我们将从概率论的基础回顾开始，逐步引入自信息、熵、联合熵、条件熵，然后深入探讨互信息的定义、性质及其与熵的关系。最后，我们将简要介绍连续随机变量的信息度量，并讨论链式法则。

学完本章，您将掌握信息论中用于量化信息和不确定性的核心工具，为后续章节中对信道容量的深入学习打下坚实的基础。

2.1 随机事件与随机变量（Random Events and Random Variables）

信息论是建立在概率论基础之上的。在讨论信息度量之前，我们有必要简要回顾一下随机事件和随机变量的概念。

⚝ 随机事件（Random Event）: 在一个随机试验中，可能出现的结果称为基本事件。由基本事件组成的集合称为随机事件。例如，抛掷一枚均匀硬币，基本事件是“正面朝上”和“反面朝上”，它们各自构成一个随机事件。
⚝ 概率（Probability）: 衡量随机事件发生的可能性大小的数值。对于事件A，其概率记为\(P(A)\)。概率满足非负性、规范性（必然事件概率为1）和可列可加性。
⚝ 随机变量（Random Variable）: 将随机试验的结果映射为一个数值的函数。随机变量可以是离散的或连续的。
▮▮▮▮⚝ 离散随机变量（Discrete Random Variable）: 取值是有限个或可列无限个数值的随机变量。例如，抛掷骰子的点数（1, 2, 3, 4, 5, 6）。
▮▮▮▮⚝ 连续随机变量（Continuous Random Variable）: 取值可以在某一区间内任意取值的随机变量。例如，一个人的身高、测量到的电压值。

对于离散随机变量\(X\)，其概率分布由概率质量函数（Probability Mass Function, PMF）\(P(x)\)描述，其中\(P(x) = P(X=x)\)表示随机变量\(X\)取值为\(x\)的概率。所有可能取值的概率之和为1，即\(\sum_x P(x) = 1\)。

对于连续随机变量\(X\)，其概率分布由概率密度函数（Probability Density Function, PDF）\(p(x)\)描述。概率密度函数本身不是概率，但其在某一区间上的积分表示随机变量落入该区间的概率，即\(P(a \le X \le b) = \int_a^b p(x) dx\)。概率密度函数的积分在整个实数域上为1，即\(\int_{-\infty}^{\infty} p(x) dx = 1\)。

在信息论中，我们经常处理随机变量及其概率分布，因为信息通常与不确定性相关，而不确定性正是由随机性产生的。

2.2 离散随机变量的熵（Entropy of Discrete Random Variables）

熵是信息论中用于度量离散随机变量不确定性的核心概念。它量化了平均而言，需要多少比特（bit）来描述一个随机变量的取值。

2.2.1 自信息（Self-Information）

在我们接收到一个事件发生的消息时，我们获得的信息量应该与该事件发生的概率有关。直观上，一个不太可能发生的事件一旦发生，会带来更多的“惊喜”或信息量；而一个必然发生的事件发生时，则不带来任何信息。基于这种直觉，信息论引入了自信息（Self-Information）的概念来度量单个随机事件所包含的信息量。

对于一个概率为\(P(x)\)的事件\(X=x\)，其自信息定义为：
\[ I(x) = \log_b \left( \frac{1}{P(x)} \right) = -\log_b P(x) \]
其中，\(b\)是对数的底数。在信息论中，通常使用以2为底的对数（\(b=2\)），此时自信息的单位是比特（bit）。如果使用自然对数（\(b=e\)），单位是纳特（nat）；如果使用以10为底的对数（\(b=10\)），单位是迪特（dit）或哈特莱（Hartley）。本书主要使用比特作为单位，因此默认对数底为2。

自信息的性质：
⚝ 非负性：\(I(x) \ge 0\)，因为\(P(x) \le 1\)。
⚝ 概率越小，自信息越大：如果\(P(x_1) < P(x_2)\)，则\(I(x_1) > I(x_2)\)。
⚝ 必然事件的自信息为0：如果\(P(x) = 1\)，则\(I(x) = -\log_2(1) = 0\)。
⚝ 独立事件的联合自信息等于各自自信息之和：如果事件A和B相互独立，则\(P(A,B) = P(A)P(B)\)，\(I(A,B) = -\log_2 P(A,B) = -\log_2 (P(A)P(B)) = -\log_2 P(A) - \log_2 P(B) = I(A) + I(B)\)。这与我们对信息的直观理解一致：独立事件带来的信息是叠加的。

自信息度量的是单个事件的信息量。

2.2.2 熵的定义与性质（Definition and Properties of Entropy）

自信息度量了单个事件的信息量，而熵（Entropy）则度量了整个随机变量的平均不确定性或平均信息量。它是随机变量所有可能取值的自信息的数学期望（Expected Value）。

对于一个离散随机变量\(X\)，其取值集合为\(\mathcal{X}\)，概率质量函数为\(P(x)\)，其熵定义为：
\[ H(X) = E[I(X)] = \sum_{x \in \mathcal{X}} P(x) I(x) = \sum_{x \in \mathcal{X}} P(x) (-\log_2 P(x)) = -\sum_{x \in \mathcal{X}} P(x) \log_2 P(x) \]
约定当\(P(x)=0\)时，\(P(x)\log_2 P(x) = 0\)，因为\(\lim_{p \to 0^+} p \log_2 p = 0\)。

熵的单位通常是比特（bits）。

熵的直观意义：
⚝ 熵是描述一个随机变量所需的平均比特数。例如，如果一个随机变量有8个等概率的取值，每个取值的概率是1/8，那么熵是\(-\sum_{i=1}^8 \frac{1}{8} \log_2 \frac{1}{8} = -\sum_{i=1}^8 \frac{1}{8} (-3) = -8 \times \frac{1}{8} \times (-3) = 3\)比特。这与我们用3个比特来表示8种不同状态的直觉相符。
⚝ 熵度量了随机变量的“随机性”或“不确定性”。熵越大，随机变量的取值越分散，不确定性越高；熵越小，随机变量的取值越集中，不确定性越低。

熵的性质：
① 非负性：\(H(X) \ge 0\)。
② 确定性变量的熵为0：如果\(X\)是确定性的，即某个取值\(x_0\)的概率为1，其他取值概率为0，则\(H(X) = -1 \log_2 1 - \sum_{x \ne x_0} 0 \log_2 0 = 0\)。
③ 对于具有\(|\mathcal{X}|\)个可能取值的离散随机变量\(X\)，其熵的最大值为\(\log_2 |\mathcal{X}|\)，当且仅当\(X\)服从均匀分布时取到最大值。这表明均匀分布具有最大的不确定性。
④ 熵是概率分布的凹函数（Concave Function）。

示例：硬币抛掷
考虑抛掷一枚硬币，结果为正面（H）或反面（T）。
⚝ 如果是均匀硬币，\(P(H) = 0.5, P(T) = 0.5\)。
\[ H(X) = -0.5 \log_2 0.5 - 0.5 \log_2 0.5 = -0.5 (-1) - 0.5 (-1) = 0.5 + 0.5 = 1 \text{ bit} \]
这表示抛掷一次均匀硬币的结果包含1比特的信息。
⚝ 如果是非均匀硬币，例如\(P(H) = 0.9, P(T) = 0.1\)。
\[ H(X) = -0.9 \log_2 0.9 - 0.1 \log_2 0.1 \]
计算器计算：\(-\left(0.9 \times \log_2(0.9) + 0.1 \times \log_2(0.1)\right) \approx -\left(0.9 \times (-0.152) + 0.1 \times (-3.322)\right) \approx -(-0.137 - 0.332) \approx 0.469 \text{ bits}\)。
可以看到，非均匀硬币的熵小于均匀硬币的熵，因为其结果的不确定性较低（正面出现的可能性更大）。

2.2.3 联合熵与条件熵（Joint Entropy and Conditional Entropy）

除了单个随机变量的熵，我们还需要度量多个随机变量的联合不确定性以及在已知某些变量取值的情况下，其他变量的不确定性。

⚝ 联合熵（Joint Entropy）: 度量一对离散随机变量\((X, Y)\)的联合不确定性。其定义为：
\[ H(X, Y) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x, y) \log_2 P(x, y) \]
其中\(P(x, y) = P(X=x, Y=y)\)是联合概率质量函数。联合熵是联合随机变量\((X, Y)\)的熵。

⚝ 条件熵（Conditional Entropy）: 度量在已知随机变量\(X\)的取值后，随机变量\(Y\)的平均剩余不确定性。对于给定的\(X=x\)，\(Y\)的条件概率分布为\(P(y|x)\)，其熵为\(H(Y|X=x) = -\sum_{y \in \mathcal{Y}} P(y|x) \log_2 P(y|x)\)。条件熵\(H(Y|X)\)是\(H(Y|X=x)\)关于\(X\)的取值的数学期望：
\[ H(Y|X) = E[H(Y|X=x)] = \sum_{x \in \mathcal{X}} P(x) H(Y|X=x) = \sum_{x \in \mathcal{X}} P(x) \left( -\sum_{y \in \mathcal{Y}} P(y|x) \log_2 P(y|x) \right) \]
\[ H(Y|X) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x) P(y|x) \log_2 P(y|x) = -\sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x, y) \log_2 P(y|x) \]
同理，\(H(X|Y)\)度量在已知\(Y\)的取值后，\(X\)的平均剩余不确定性。

联合熵、条件熵与边缘熵（单个变量的熵）之间存在重要的关系：
\[ H(X, Y) = H(X) + H(Y|X) \]
\[ H(X, Y) = H(Y) + H(X|Y) \]
这个关系被称为熵的链式法则（Chain Rule for Entropy）。它表明，描述一对随机变量所需的总比特数等于描述其中一个变量所需的比特数加上在已知第一个变量后描述第二个变量所需的平均比特数。这符合直觉：了解\(X\)后，描述\((X, Y)\)只需要额外描述\(Y\)相对于\(X\)的不确定部分。

如果\(X\)和\(Y\)相互独立，则\(P(y|x) = P(y)\)，此时\(H(Y|X) = H(Y)\)，联合熵为\(H(X, Y) = H(X) + H(Y)\)。这再次印证了独立事件的信息是叠加的。

2.3 互信息（Mutual Information）

互信息（Mutual Information）是信息论中另一个核心概念，它度量了两个随机变量之间共享的信息量，或者说，知道其中一个变量的取值后，对另一个变量不确定性的平均减少量。互信息是理解信道容量的关键，因为它量化了输入随机变量通过信道后，输出随机变量所包含的关于输入变量的信息量。

2.3.1 互信息的定义与意义（Definition and Meaning of Mutual Information）

互信息\(I(X; Y)\)定义为随机变量\(X\)和\(Y\)的联合概率分布与它们边缘概率分布乘积之间的“距离”，使用 Kullback-Leibler 散度（KL散度）来衡量。KL散度度量了两个概率分布之间的差异。
\[ I(X; Y) = D_{KL}(P(x,y) || P(x)P(y)) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} P(x, y) \log_2 \frac{P(x, y)}{P(x)P(y)} \]
这个定义虽然数学上严谨，但其直观意义可以通过与熵的关系来理解。

互信息也可以定义为：
\[ I(X; Y) = H(X) - H(X|Y) \]
\[ I(X; Y) = H(Y) - H(Y|X) \]
从这个定义可以看出，\(I(X; Y)\)表示知道\(Y\)的取值后，\(X\)的不确定性（熵\(H(X)\)）平均减少了多少（减少到条件熵\(H(X|Y)\)）。同样，它也表示知道\(X\)的取值后，\(Y\)的不确定性平均减少了多少。因此，互信息量化了\(X\)和\(Y\)之间相互依赖的程度，即它们共享的信息量。

互信息的意义：
⚝ 衡量两个随机变量之间的统计依赖性。如果\(X\)和\(Y\)高度相关，则知道其中一个会大大减少另一个的不确定性，互信息就高。
⚝ 在通信系统中，如果\(X\)是发送的消息，\(Y\)是接收到的消息，互信息\(I(X;Y)\)就表示通过信道传输后，接收端获得的关于发送消息的平均信息量。信道容量正是互信息的最大值。

2.3.2 互信息与熵的关系（Relationship between Mutual Information and Entropy）

互信息与熵、联合熵、条件熵之间存在密切的关系，可以用一个信息论的“维恩图”（虽然不是严格的集合关系，但有助于理解）来表示：

\[ I(X; Y) = H(X) - H(X|Y) \]
\[ I(X; Y) = H(Y) - H(Y|X) \]
\[ I(X; Y) = H(X) + H(Y) - H(X, Y) \]
\[ H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y) \]

这些关系可以通过代数推导得出。例如，从定义\(I(X; Y) = \sum_{x, y} P(x, y) \log_2 \frac{P(x, y)}{P(x)P(y)}\)，我们可以展开：
\[ I(X; Y) = \sum_{x, y} P(x, y) (\log_2 P(x, y) - \log_2 P(x) - \log_2 P(y)) \]
\[ I(X; Y) = \sum_{x, y} P(x, y) \log_2 P(x, y) - \sum_{x, y} P(x, y) \log_2 P(x) - \sum_{x, y} P(x, y) \log_2 P(y) \]
第一项是\(-H(X, Y)\)。
第二项：\(\sum_{x, y} P(x, y) \log_2 P(x) = \sum_x \left( \sum_y P(x, y) \right) \log_2 P(x) = \sum_x P(x) \log_2 P(x) = -H(X)\)。
第三项：\(\sum_{x, y} P(x, y) \log_2 P(y) = \sum_y \left( \sum_x P(x, y) \right) \log_2 P(y) = \sum_y P(y) \log_2 P(y) = -H(Y)\)。
所以，\(I(X; Y) = -H(X, Y) - (-H(X)) - (-H(Y)) = H(X) + H(Y) - H(X, Y)\)。

再结合链式法则\(H(X, Y) = H(X) + H(Y|X)\)，代入上式得：
\(I(X; Y) = H(X) + H(Y) - (H(X) + H(Y|X)) = H(Y) - H(Y|X)\)。
同理可得\(I(X; Y) = H(X) - H(X|Y)\)。

这些关系式揭示了信息度量之间的内在联系。互信息可以看作是联合熵减去条件熵，或者边缘熵减去条件熵。

2.3.3 互信息的性质（Properties of Mutual Information）

互信息具有以下重要性质：
① 非负性：\(I(X; Y) \ge 0\)。互信息总是非负的，当且仅当\(X\)和\(Y\)相互独立时，\(I(X; Y) = 0\)。这是因为独立时\(P(x,y) = P(x)P(y)\)，\(\log_2 \frac{P(x,y)}{P(x)P(y)} = \log_2 1 = 0\)。非负性也从\(H(X|Y) \le H(X)\)和\(H(Y|X) \le H(Y)\)得出（信息处理不会增加不确定性）。
② 对称性：\(I(X; Y) = I(Y; X)\)。这从定义\(I(X; Y) = H(X) + H(Y) - H(X, Y)\)或KL散度定义中很容易看出。
③ \(I(X; X) = H(X)\)：一个随机变量与自身的互信息等于其自身的熵。这符合直觉，知道\(X\)的取值后，关于\(X\)的不确定性完全消除，信息增益等于\(X\)本身的不确定性。
④ 数据处理不等式（Data Processing Inequality）：如果\(X \to Y \to Z\)构成一个马尔可夫链（Markov Chain），即在给定\(Y\)的情况下，\(X\)和\(Z\)相互独立，那么\(I(X; Y) \ge I(X; Z)\)且\(I(Y; Z) \ge I(X; Z)\)。这意味着通过任何（确定性或随机性）函数处理数据都不会增加关于原始变量的信息量。在通信中，这表示接收到的信号\(Y\)经过任何处理得到\(Z\)，\(Z\)包含的关于发送信号\(X\)的信息不会超过\(Y\)包含的信息。

2.4 连续随机变量的微分熵与互信息（Differential Entropy and Mutual Information of Continuous Random Variables）

前面讨论的熵和互信息是针对离散随机变量的。对于连续随机变量，我们可以类似地定义信息度量，但需要将求和替换为积分，概率质量函数替换为概率密度函数。

⚝ 微分熵（Differential Entropy）: 对于概率密度函数为\(p(x)\)的连续随机变量\(X\)，其微分熵定义为：
\[ h(X) = -\int_{-\infty}^{\infty} p(x) \log_2 p(x) dx \]
微分熵与离散熵在形式上相似，但有一些重要的区别：
① 微分熵的单位是比特每单位（bits per unit）。
② 微分熵可以为负值。例如，对于一个在很小区间内均匀分布的随机变量，其概率密度函数值可能远大于1，导致\(\log_2 p(x)\)为正，积分结果为负。这与离散熵总是非负不同。微分熵不能直接解释为描述变量所需的比特数，它更多地是作为相对不确定性的度量。
③ 微分熵依赖于坐标系的选取。对随机变量进行平移或缩放会改变其微分熵。

尽管微分熵本身不像离散熵那样直观，但连续随机变量的互信息概念仍然非常有用，并且保留了许多与离散情况相似的性质。

⚝ 连续随机变量的互信息: 对于具有联合概率密度函数\(p(x,y)\)和边缘概率密度函数\(p(x), p(y)\)的连续随机变量\((X, Y)\)，其互信息定义为：
\[ I(X; Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} p(x, y) \log_2 \frac{p(x, y)}{p(x)p(y)} dx dy \]
连续互信息也可以用微分熵表示：
\[ I(X; Y) = h(X) - h(X|Y) \]
\[ I(X; Y) = h(Y) - h(Y|X) \]
其中，条件微分熵\(h(Y|X)\)定义为\(E[h(Y|X=x)] = \int p(x) h(Y|X=x) dx = -\int \int p(x,y) \log_2 p(y|x) dx dy\)。

连续互信息的重要性质：
① 非负性：\(I(X; Y) \ge 0\)。当且仅当\(X\)和\(Y\)相互独立时，\(I(X; Y) = 0\)。
② 对称性：\(I(X; Y) = I(Y; X)\)。
③ 数据处理不等式同样适用于连续随机变量。

在后续章节讨论连续信道（特别是AWGN信道）的容量时，我们将主要使用连续随机变量的互信息概念。

2.5 链式法则（Chain Rules）

链式法则（Chain Rules）是信息论中处理多个随机变量时非常重要的工具，它允许我们将多个变量的联合信息度量分解为单个变量或条件变量的信息度量的和。

我们已经在2.2.3节中看到了熵的链式法则：
对于随机变量序列\(X_1, X_2, \dots, X_n\)，其联合熵为：
\[ H(X_1, X_2, \dots, X_n) = H(X_1) + H(X_2|X_1) + H(X_3|X_1, X_2) + \dots + H(X_n|X_1, \dots, X_{n-1}) \]
\[ H(X_1, \dots, X_n) = \sum_{i=1}^n H(X_i | X_1, \dots, X_{i-1}) \]
其中，\(H(X_1|X_1, \dots, X_0)\)被定义为\(H(X_1)\)。这个法则可以推广到任意排列顺序的变量。

类似地，互信息也有链式法则。对于随机变量序列\(X_1, X_2, \dots, X_n\)和另一个随机变量\(Y\)，它们与\(Y\)的联合互信息可以分解为：
\[ I(X_1, X_2, \dots, X_n; Y) = I(X_1; Y) + I(X_2; Y|X_1) + I(X_3; Y|X_1, X_2) + \dots + I(X_n; Y|X_1, \dots, X_{n-1}) \]
\[ I(X_1, \dots, X_n; Y) = \sum_{i=1}^n I(X_i; Y | X_1, \dots, X_{i-1}) \]
其中，条件互信息（Conditional Mutual Information）\(I(X; Y|Z)\)定义为\(H(X|Z) - H(X|Y, Z)\)或\(H(Y|Z) - H(Y|X, Z)\)。它度量了在已知\(Z\)的条件下，\(X\)和\(Y\)之间的共享信息量。

链式法则在分析复杂系统时非常有用，例如在通信系统中分析多个输入或多个输出变量之间的信息关系，或者在序列数据处理中分析当前时刻的变量与过去时刻变量之间的信息依赖。

本章我们详细探讨了信息论中用于度量信息和不确定性的基本概念：自信息、熵、联合熵、条件熵和互信息，以及它们之间的关系和性质。这些概念是理解信道容量以及信息论其他高级主题的基石。在下一章中，我们将利用这些工具来建立和分析不同的信道模型。

3. chapter 3：信道模型（Channel Models）

欢迎来到本书的第三章！在前面的章节中，我们探讨了信息的基本度量——熵和互信息，并对信道容量有了初步的认识。现在，是时候深入了解信息传输的“舞台”——信道（Channel）了。信道是通信系统中连接信息发送端和接收端的物理或逻辑媒介，它不可避免地会引入噪声（Noise）或干扰（Interference），导致传输的信息发生失真。为了分析和量化信道的传输能力，我们需要建立合适的信道模型。本章将详细介绍几种重要的信道模型，包括离散信道和连续信道，为后续理解信道容量的计算和香农定理奠定基础。

3.1 离散无记忆信道（Discrete Memoryless Channel, DMC）

离散无记忆信道（Discrete Memoryless Channel, DMC）是信息论中最基本、也是最常用的信道模型之一。它描述的是输入和输出都取自有限离散集合，并且每次传输是相互独立的信道。

⚝ 离散（Discrete）: 指信道的输入符号集（Input Alphabet）和输出符号集（Output Alphabet）都是有限的离散集合。例如，二进制信道的输入和输出符号集都是 \(\{0, 1\}\)。
⚝ 无记忆（Memoryless）: 指信道在某一时刻的输出仅依赖于该时刻的输入，与之前或之后的输入输出符号无关。换句话说，信道对每个输入符号的处理是独立的。

一个DMC可以用其输入符号集 \(\mathcal{X}\)、输出符号集 \(\mathcal{Y}\) 以及一组信道转移概率（Channel Transition Probabilities）来完全描述。

3.1.1 信道转移概率（Channel Transition Probabilities）

信道转移概率是描述DMC特性的核心。它表示在给定输入符号 \(x \in \mathcal{X}\) 的条件下，输出符号为 \(y \in \mathcal{Y}\) 的条件概率（Conditional Probability）。我们通常用 \(p(y|x)\) 来表示这个概率。

对于任意一对输入符号 \(x\) 和输出符号 \(y\)，\(p(y|x)\) 满足以下条件：
① \(0 \le p(y|x) \le 1\)
② 对于每一个固定的输入 \(x\)，所有可能的输出 \(y\) 的条件概率之和为 1，即 \(\sum_{y \in \mathcal{Y}} p(y|x) = 1\)。

这些转移概率 \(p(y|x)\) 构成了信道的统计特性，它们是信道模型的关键组成部分。

3.1.2 信道矩阵（Channel Matrix）

当输入和输出符号集都是有限的时，我们可以将所有的信道转移概率 \(p(y|x)\) 排列成一个矩阵，称为信道矩阵（Channel Matrix）。

假设输入符号集 \(\mathcal{X} = \{x_1, x_2, \dots, x_m\}\) 包含 \(m\) 个符号，输出符号集 \(\mathcal{Y} = \{y_1, y_2, \dots, y_n\}\) 包含 \(n\) 个符号。则信道矩阵 \(\mathbf{P}\) 是一个 \(m \times n\) 的矩阵，其第 \(i\) 行第 \(j\) 列的元素为 \(p(y_j|x_i)\)。

\[ \mathbf{P} = \begin{pmatrix} p(y_1|x_1) & p(y_2|x_1) & \dots & p(y_n|x_1) \\ p(y_1|x_2) & p(y_2|x_2) & \dots & p(y_n|x_2) \\ \vdots & \vdots & \ddots & \vdots \\ p(y_1|x_m) & p(y_2|x_m) & \dots & p(y_n|x_m) \end{pmatrix} \]

信道矩阵的每一行对应一个输入符号，每一列对应一个输出符号。矩阵的每一行的元素之和必须等于 1，这反映了对于任何一个输入，总会产生某个输出。

通过信道矩阵，我们可以方便地计算输入分布 \(p(x)\) 与输出分布 \(p(y)\) 之间的关系。如果输入符号 \(x_i\) 的概率为 \(p(x_i)\)，则输出符号 \(y_j\) 的概率 \(p(y_j)\) 可以通过全概率公式计算：

\[ p(y_j) = \sum_{i=1}^m p(y_j|x_i) p(x_i) \]

这在矩阵形式下可以表示为：

\[ \mathbf{p}_Y = \mathbf{p}_X \mathbf{P} \]

其中 \(\mathbf{p}_X = (p(x_1), p(x_2), \dots, p(x_m))\) 是输入概率分布的行向量，\(\mathbf{p}_Y = (p(y_1), p(y_2), \dots, p(y_n))\) 是输出概率分布的行向量。

3.2 常见离散信道示例（Examples of Common Discrete Channels）

为了更好地理解DMC，我们来看几个常见的具体例子。这些信道模型虽然简单，但它们抓住了许多实际通信信道的关键特性，并且在信息论中具有重要的理论意义。

3.2.1 二进制对称信道（Binary Symmetric Channel, BSC）

二进制对称信道（Binary Symmetric Channel, BSC）是最简单也是最经典的DMC模型。

⚝ 输入符号集: \(\mathcal{X} = \{0, 1\}\)
⚝ 输出符号集: \(\mathcal{Y} = \{0, 1\}\)
⚝ 特性: 当输入为0时，输出为0的概率是 \(1-p\)，输出为1的概率是 \(p\)。当输入为1时，输出为1的概率是 \(1-p\)，输出为0的概率是 \(p\)。这里的 \(p\) 称为交叉概率（Crossover Probability）或错误概率（Error Probability），且 \(0 \le p \le 1/2\)。对称性体现在输入0和输入1发生错误的概率是相同的。

BSC的信道转移概率如下：
\(p(0|0) = 1-p\)
\(p(1|0) = p\)
\(p(1|1) = 1-p\)
\(p(0|1) = p\)

其信道矩阵为：
\[ \mathbf{P}_{BSC} = \begin{pmatrix} 1-p & p \\ p & 1-p \end{pmatrix} \]

BSC模型常用于描述数字通信中，由于噪声干扰导致二进制信号发生翻转的情况。

3.2.2 二进制删除信道（Binary Erasure Channel, BEC）

二进制删除信道（Binary Erasure Channel, BEC）是另一个重要的DMC模型。它描述的是输入符号可能被“删除”或“擦除”，接收端知道某个符号被传输了，但无法确定它是0还是1。

⚝ 输入符号集: \(\mathcal{X} = \{0, 1\}\） ⚝ **输出符号集**: \(\mathcal{Y} = \{0, 1, e\}\），其中 \(e\) 表示删除符号（Erasure Symbol）。
⚝ 特性: 当输入为0时，输出为0的概率是 \(1-\epsilon\)，输出为 \(e\) 的概率是 \(\epsilon\)。当输入为1时，输出为1的概率是 \(1-\epsilon\)，输出为 \(e\) 的概率是 \(\epsilon\)。这里的 \(\epsilon\) 称为删除概率（Erasure Probability），且 \(0 \le \epsilon \le 1\)。

其信道矩阵为：
\[ \mathbf{P}_{BEC} = \begin{pmatrix} 1-\epsilon & 0 & \epsilon \\ 0 & 1-\epsilon & \epsilon \end{pmatrix} \]

BEC模型常用于描述分组丢失或信号强度过弱无法解码的情况。与BSC不同，BEC的接收端知道何时发生了错误（收到了 \(e\)），而在BSC中，接收端收到错误的符号时并不知道它是错误的。

3.2.3 Z信道（Z-Channel）

Z信道（Z-Channel）是一种不对称的二进制信道。

⚝ 输入符号集: \(\mathcal{X} = \{0, 1\}\） ⚝ **输出符号集**: \(\mathcal{Y} = \{0, 1\}\） ⚝ **特性**: 当输入为0时，输出总是0。当输入为1时，输出为1的概率是 \(1-p\)，输出为0的概率是 \(p\)。这里的 \(p\) 是错误概率，且 \(0 \le p \le 1\)。不对称性体现在只有输入1才可能出错变成0，输入0不会出错变成1。

Z信道的信道转移概率如下：
\(p(0|0) = 1\)
\(p(1|0) = 0\)
\(p(1|1) = 1-p\)
\(p(0|1) = p\)

其信道矩阵为：
\[ \mathbf{P}_{Z} = \begin{pmatrix} 1 & 0 \\ p & 1-p \end{pmatrix} \]

Z信道可以用来模拟某些实际场景，例如在某些存储介质中，写入0总是成功的，而写入1有时会错误地变成0。

3.3 连续信道模型（Continuous Channel Models）

除了离散信道，信息论也研究输入和输出取自连续集合的信道，称为连续信道（Continuous Channels）。在实际通信系统中，信号通常是连续的模拟信号，噪声也是连续的。因此，连续信道模型对于分析实际通信系统的性能至关重要。

对于连续信道，我们不再使用信道转移概率 \(p(y|x)\)，而是使用条件概率密度函数（Conditional Probability Density Function, PDF）\(f(y|x)\) 来描述信道的特性。

3.3.1 加性噪声信道（Additive Noise Channel）

加性噪声信道（Additive Noise Channel）是一种常见的连续信道模型。它假设信道的输出是输入信号与一个独立的噪声信号的简单叠加。

数学上，如果输入信号为 \(X\)，输出信号为 \(Y\)，噪声信号为 \(Z\)，则加性噪声信道的模型可以表示为：

\[ Y = X + Z \]

其中，\(X\) 和 \(Z\) 是连续随机变量。噪声 \(Z\) 通常被假定独立于输入信号 \(X\)，并且其概率分布由其概率密度函数 \(f_Z(z)\) 描述。

在这种模型下，给定输入 \(X=x\)，输出 \(Y\) 的条件概率密度函数为：

\[ f(y|x) = f_Z(y-x) \]

这意味着输出 \(Y\) 的分布是以 \(x\) 为均值，噪声 \(Z\) 的分布为形状的。

加性噪声信道模型广泛应用于各种物理信道，如无线电通信、有线通信等，其中噪声主要来源于热噪声、干扰等。

3.3.2 加性高斯白噪声信道（Additive White Gaussian Noise Channel, AWGN）

加性高斯白噪声信道（Additive White Gaussian Noise Channel, AWGN）是连续信道中最重要、研究最深入的模型之一。它是一种特殊的加性噪声信道，其中噪声 \(Z\) 具有以下特性：

⚝ 加性（Additive）: 噪声直接叠加到信号上。
⚝ 白（White）: 噪声在所有频率上具有均匀的功率谱密度（Power Spectral Density）。这意味着噪声在时间上是无相关的（或至少是弱相关的），并且其功率均匀分布在整个频带上。
⚝ 高斯（Gaussian）: 噪声的概率分布服从高斯分布（Gaussian Distribution），也称为正态分布（Normal Distribution）。

假设噪声 \(Z\) 是零均值、方差为 \(\sigma^2\) 的高斯随机变量，其概率密度函数为：

\[ f_Z(z) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{z^2}{2\sigma^2}} \]

则AWGN信道的模型为 \(Y = X + Z\)，其中 \(Z \sim \mathcal{N}(0, \sigma^2)\) 且独立于 \(X\)。

给定输入 \(X=x\)，输出 \(Y\) 的条件概率密度函数为：

\[ f(y|x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(y-x)^2}{2\sigma^2}} \]

AWGN信道模型之所以重要，不仅因为它能较好地近似许多实际信道，更因为它在理论上具有良好的数学性质，使得信道容量的计算成为可能（即香农-哈特利定理，我们将在后续章节详细讨论）。在分析AWGN信道的容量时，通常还需要考虑对输入信号的功率约束（Power Constraint）。

本章我们介绍了离散无记忆信道（DMC）及其几种常见类型（BSC, BEC, Z信道），以及连续信道模型，特别是加性噪声信道和AWGN信道。理解这些信道模型是理解信道容量概念的基础，因为信道容量正是针对特定的信道模型来定义的。在下一章中，我们将正式给出信道容量的定义，并学习如何计算不同信道的容量。

4. chapter 4：信道容量的定义与计算（Definition and Calculation of Channel Capacity）

欢迎回到信息论的课堂！在前面的章节中，我们已经学习了信息的基本度量——熵（Entropy）和互信息（Mutual Information），以及不同类型的信道模型。现在，是时候将这些概念融会贯通，深入探讨信息论中最核心、最具里程碑意义的概念之一：信道容量（Channel Capacity）。

信道容量不仅仅是一个理论上的数值，它为我们理解通信系统的性能极限提供了一个根本性的基准。想象一下，你正在设计一个通信系统，无论是无线通信、光纤通信，还是数据存储系统，你总是希望知道，在给定信道的物理特性下，你最多能以多快的速率可靠地传输信息？信道容量正是回答这个问题的关键。

本章将正式定义信道容量，并详细讲解如何计算不同类型信道的容量，特别是离散无记忆信道（DMC）和连续的加性高斯白噪声（AWGN）信道。我们将看到，互信息在信道容量的定义中扮演着核心角色，而不同的信道特性则决定了容量的具体数值。

4.1 信道容量的正式定义（Formal Definition of Channel Capacity）

在直观上，信道容量代表了信道传输信息的“最大速率”。但如何用数学语言精确地定义这个“最大速率”呢？香农（Shannon）通过互信息给出了优雅而深刻的定义。

4.1.1 作为互信息最大值的信道容量（Channel Capacity as Maximum Mutual Information）

回顾互信息 \( I(X;Y) \)，它度量了随机变量 \( X \) 和 \( Y \) 之间的相互依赖程度，或者说，通过观察 \( Y \) 获得了关于 \( X \) 的多少信息。在通信系统中，\( X \) 通常代表信道的输入（发送的符号），\( Y \) 代表信道的输出（接收到的符号）。信道本身由其转移概率 \( p(y|x) \) 决定，描述了输入 \( x \) 经过信道后输出 \( y \) 的概率。

互信息 \( I(X;Y) \) 的计算依赖于输入随机变量 \( X \) 的概率分布 \( p(x) \) 以及信道的转移概率 \( p(y|x) \)。具体来说，
\[ I(X;Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \]
其中 \( p(x,y) = p(x) p(y|x) \)，而 \( p(y) = \sum_{x \in \mathcal{X}} p(x) p(y|x) \)。

对于一个给定的信道（即 \( p(y|x) \) 是固定的），互信息 \( I(X;Y) \) 的值会随着输入分布 \( p(x) \) 的不同而变化。不同的输入分布会“激活”信道的不同特性，从而影响输入和输出之间的关联程度。

信道容量（Channel Capacity），记为 \( C \)，被定义为在所有可能的输入概率分布 \( p(x) \) 下，互信息 \( I(X;Y) \) 的最大值。
\[ C = \max_{p(x)} I(X;Y) \]
这个定义对于离散无记忆信道（DMC）和满足一定条件的连续信道都适用。对于DMC，\( \mathcal{X} \) 和 \( \mathcal{Y} \) 是有限的离散集合；对于连续信道，\( X \) 和 \( Y \) 是连续随机变量，互信息需要用微分熵（Differential Entropy）来计算。

为什么是互信息的最大值？互信息 \( I(X;Y) \) 可以理解为信道平均每次传输所能传递的信息量（以比特为单位，如果对数底为2）。最大化互信息，就是在寻找最佳的输入信号使用方式，使得信道传输的信息量达到最大。这个最大值，就是信道的内在能力极限，即信道容量。

香农的信道编码定理（Shannon's Channel Coding Theorem，将在第五章详细讨论）证明了，信道容量 \( C \) 确实是可靠通信的理论极限速率。如果信息传输速率 \( R < C \)，那么存在一种编码和译码方案，使得传输的错误概率（Error Probability）可以任意小；而如果 \( R > C \)，则不可能实现任意低的错误概率，无论采用多么复杂的编码方案。

4.1.2 最大化互信息的输入分布（Input Distribution Maximizing Mutual Information）

信道容量的定义 \( C = \max_{p(x)} I(X;Y) \) 意味着我们需要找到那个特殊的输入概率分布 \( p^*(x) \) 使得 \( I(X;Y) \) 达到最大值 \( C \)。这个 \( p^*(x) \) 被称为容量达到分布（Capacity-Achieving Distribution）。

寻找这个最优输入分布通常不是一件容易的事情。对于一般的离散无记忆信道，这是一个凸优化问题（Convex Optimization Problem），因为互信息 \( I(X;Y) \) 是输入分布 \( p(x) \) 的一个上凸函数（Concave Function）。这意味着存在唯一的最优值，但找到它可能需要迭代算法。

然而，对于某些具有特殊结构的信道，例如对称信道（Symmetric Channel），容量达到分布可能是均匀分布（Uniform Distribution），这大大简化了容量的计算。我们将在下一节看到这样的例子。

对于连续信道，特别是AWGN信道，寻找容量达到分布需要考虑额外的约束，最常见的是功率约束（Power Constraint）。在这种约束下，容量达到分布是具有特定方差的高斯分布（Gaussian Distribution）。

理解信道容量的定义是信息论学习的关键一步。它将信道的物理特性（通过 \( p(y|x) \) 体现）与信息传输的极限速率（通过互信息最大值体现）紧密联系起来。

4.2 离散无记忆信道的容量计算（Calculating Capacity of Discrete Memoryless Channels）

离散无记忆信道（DMC）是最基本的信道模型之一。其特点是输入和输出都是离散符号，且每次传输相互独立，不受之前传输的影响（无记忆）。DMC由其输入字母表 \( \mathcal{X} \)、输出字母表 \( \mathcal{Y} \) 和一组转移概率 \( p(y|x) \) 定义，其中 \( x \in \mathcal{X}, y \in \mathcal{Y} \)。

计算DMC容量的关键在于找到使 \( I(X;Y) \) 最大的输入分布 \( p(x) \)。

\[ C = \max_{p(x)} I(X;Y) = \max_{p(x)} \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x) p(y|x) \log_2 \frac{p(y|x)}{\sum_{x' \in \mathcal{X}} p(x') p(y|x')} \]

这是一个优化问题，需要对所有可能的输入概率分布 \( p(x) \) 进行搜索。

4.2.1 对称信道的容量（Capacity of Symmetric Channels）

对于某些具有对称结构的DMC，容量的计算会变得相对简单。对称信道通常指信道的“错误模式”对于所有输入符号来说是“对称”的。

有两种主要的对称性：
① 输入对称（Input Symmetric）: 对于任意两个输入符号 \( x_1, x_2 \in \mathcal{X} \)，存在一个输出符号的置换（Permutation） \( \pi: \mathcal{Y} \to \mathcal{Y} \)，使得对于所有 \( y \in \mathcal{Y} \)，有 \( p(y|x_1) = p(\pi(y)|x_2) \)。简单来说，从不同输入符号出发的转移概率向量是同一个向量的置换。
② 输出对称（Output Symmetric）: 对于任意两个输出符号 \( y_1, y_2 \in \mathcal{Y} \)，存在一个输入符号的置换 \( \sigma: \mathcal{X} \to \mathcal{X} \)，使得对于所有 \( x \in \mathcal{X} \)，有 \( p(y_1|x) = p(y_2|\sigma(x)) \)。简单来说，到达不同输出符号的转移概率向量是同一个向量的置换。

如果一个信道既是输入对称又是输出对称，或者满足更强的条件（例如，对于任意两个输入 \( x_i, x_j \)，存在一个输出置换 \( \pi \) 使得 \( p(y|x_i) = p(\pi(y)|x_j) \) 对所有 \( y \) 成立，并且对于任意两个输出 \( y_k, y_l \)，存在一个输入置换 \( \sigma \) 使得 \( p(y_k|x) = p(y_l|\sigma(x)) \) 对所有 \( x \) 成立），则称其为强对称信道（Strongly Symmetric Channel）。

对于强对称信道，容量达到分布是输入符号上的均匀分布（Uniform Distribution）。此时，容量可以简化计算为：
\[ C = \log_2 |\mathcal{X}| - H(Y|X=x_0) \]
其中 \( |\mathcal{X}| \) 是输入字母表的大小，\( H(Y|X=x_0) \) 是给定任意一个输入符号 \( x_0 \) 时输出的熵。由于对称性，这个条件熵对于所有 \( x_0 \in \mathcal{X} \) 都是相同的。

这个公式的直观解释是：信道容量等于输入的最大可能熵（当输入均匀分布时）减去信道的噪声引入的不确定性（条件熵）。

4.2.2 BSC容量计算（BSC Capacity Calculation）

二进制对称信道（Binary Symmetric Channel, BSC）是一个典型的强对称信道。
⚝ 输入字母表 \( \mathcal{X} = \{0, 1\} \)
⚝ 输出字母表 \( \mathcal{Y} = \{0, 1\} \)
⚝ 转移概率：
▮▮▮▮⚝ \( p(0|0) = 1-p \)
▮▮▮▮⚝ \( p(1|0) = p \)
▮▮▮▮⚝ \( p(1|1) = 1-p \)
▮▮▮▮⚝ \( p(0|1) = p \)
其中 \( p \) 是交叉概率（Crossover Probability），即传输过程中发生错误的概率。

BSC是输入对称的，因为 \( p(y|0) \) 和 \( p(y|1) \) 向量是 \( (1-p, p) \) 和 \( (p, 1-p) \)，它们是相互置换的。它也是输出对称的。因此，BSC是强对称信道。

根据强对称信道的容量公式，容量达到分布是 \( p(0) = p(1) = 1/2 \)。
此时，输入熵 \( H(X) = H(1/2, 1/2) = -\frac{1}{2}\log_2\frac{1}{2} - \frac{1}{2}\log_2\frac{1}{2} = 1 \) 比特。
条件熵 \( H(Y|X) \) 可以通过计算 \( H(Y|X=0) \) 或 \( H(Y|X=1) \) 得到。
给定 \( X=0 \)，输出 \( Y \) 的分布是 \( p(Y=0|X=0) = 1-p \) 和 \( p(Y=1|X=0) = p \)。
所以 \( H(Y|X=0) = H_b(p) = -p\log_2 p - (1-p)\log_2 (1-p) \)，其中 \( H_b(\cdot) \) 是二元熵函数（Binary Entropy Function）。
由于对称性，\( H(Y|X=1) = H_b(p) \)。
因此，\( H(Y|X) = \sum_x p(x) H(Y|X=x) = \frac{1}{2} H_b(p) + \frac{1}{2} H_b(p) = H_b(p) \)。

BSC的容量为：
\[ C_{BSC} = \max_{p(x)} I(X;Y) = I(X;Y) \text{ 当 } p(x) = (1/2, 1/2) \text{ 时} \]
\[ C_{BSC} = H(X) - H(Y|X) = 1 - H_b(p) \]
容量的单位是比特/信道使用（bits/channel use）。

这个结果非常直观：一个BSC最多能传输1比特信息（当 \( p=0 \) 或 \( p=1 \) 时，信道无噪声或完全反转，但仍然可靠），减去由于错误概率 \( p \) 引入的不确定性 \( H_b(p) \)。
⚝ 当 \( p=0 \) 时（无噪声），\( H_b(0) = 0 \)，\( C_{BSC} = 1 \) 比特/信道使用。
⚝ 当 \( p=1/2 \) 时（完全随机），\( H_b(1/2) = 1 \)，\( C_{BSC} = 1 - 1 = 0 \) 比特/信道使用。此时输入和输出完全不相关，无法传输任何信息。
⚝ 当 \( p=1 \) 时（完全反转），\( H_b(1) = 0 \)，\( C_{BSC} = 1 - 0 = 1 \) 比特/信道使用。此时输出是输入的反，但这种反转是确定的，知道输出仍然可以确定输入。

4.2.3 BEC容量计算（BEC Capacity Calculation）

二进制删除信道（Binary Erasure Channel, BEC）是另一种重要的DMC模型。
⚝ 输入字母表 \( \mathcal{X} = \{0, 1\} \)
⚝ 输出字母表 \( \mathcal{Y} = \{0, 1, e\} \)，其中 \( e \) 表示删除（Erasure）。
⚝ 转移概率：
▮▮▮▮⚝ \( p(0|0) = 1-\epsilon \)
▮▮▮▮⚝ \( p(e|0) = \epsilon \)
▮▮▮▮⚝ \( p(1|0) = 0 \)
▮▮▮▮⚝ \( p(1|1) = 1-\epsilon \)
▮▮▮▮⚝ \( p(e|1) = \epsilon \)
▮▮▮▮⚝ \( p(0|1) = 0 \)
其中 \( \epsilon \) 是删除概率（Erasure Probability）。

BEC也是一个强对称信道。输入 \( 0 \) 要么正确传输为 \( 0 \)，要么被删除为 \( e \)。输入 \( 1 \) 要么正确传输为 \( 1 \)，要么被删除为 \( e \)。错误（即 \( 0 \) 变成 \( 1 \) 或 \( 1 \) 变成 \( 0 \)) 不会发生。

对于BEC，容量达到分布也是 \( p(0) = p(1) = 1/2 \)。
输入熵 \( H(X) = 1 \) 比特。
条件熵 \( H(Y|X) \)：
给定 \( X=0 \)，输出 \( Y \) 的分布是 \( p(Y=0|X=0) = 1-\epsilon \)， \( p(Y=e|X=0) = \epsilon \)， \( p(Y=1|X=0) = 0 \)。
\( H(Y|X=0) = -(1-\epsilon)\log_2(1-\epsilon) - \epsilon\log_2\epsilon \)。
给定 \( X=1 \)，输出 \( Y \) 的分布是 \( p(Y=1|X=1) = 1-\epsilon \)， \( p(Y=e|X=1) = \epsilon \)， \( p(Y=0|X=1) = 0 \)。
\( H(Y|X=1) = -(1-\epsilon)\log_2(1-\epsilon) - \epsilon\log_2\epsilon \)。
所以 \( H(Y|X) = \sum_x p(x) H(Y|X=x) = \frac{1}{2} H(Y|X=0) + \frac{1}{2} H(Y|X=1) = -(1-\epsilon)\log_2(1-\epsilon) - \epsilon\log_2\epsilon \)。

BEC的容量为：
\[ C_{BEC} = H(X) - H(Y|X) = 1 - (-(1-\epsilon)\log_2(1-\epsilon) - \epsilon\log_2\epsilon) \]
这个计算是正确的，但对于BEC，还有一种更直观的计算方法。
考虑互信息 \( I(X;Y) = H(Y) - H(Y|X) \)。
当 \( p(x) = (1/2, 1/2) \) 时，
\( p(Y=0) = p(Y=0|X=0)p(0) + p(Y=0|X=1)p(1) = (1-\epsilon)\frac{1}{2} + 0 \cdot \frac{1}{2} = \frac{1-\epsilon}{2} \)
\( p(Y=1) = p(Y=1|X=0)p(0) + p(Y=1|X=1)p(1) = 0 \cdot \frac{1}{2} + (1-\epsilon)\frac{1}{2} = \frac{1-\epsilon}{2} \)
\( p(Y=e) = p(Y=e|X=0)p(0) + p(Y=e|X=1)p(1) = \epsilon \cdot \frac{1}{2} + \epsilon \cdot \frac{1}{2} = \epsilon \)
所以输出分布是 \( (\frac{1-\epsilon}{2}, \frac{1-\epsilon}{2}, \epsilon) \)。
\( H(Y) = -\frac{1-\epsilon}{2}\log_2\frac{1-\epsilon}{2} - \frac{1-\epsilon}{2}\log_2\frac{1-\epsilon}{2} - \epsilon\log_2\epsilon \)
\( H(Y) = -(1-\epsilon)\log_2\frac{1-\epsilon}{2} - \epsilon\log_2\epsilon \)
\( H(Y) = -(1-\epsilon)(\log_2(1-\epsilon) - 1) - \epsilon\log_2\epsilon \)
\( H(Y) = -(1-\epsilon)\log_2(1-\epsilon) + (1-\epsilon) - \epsilon\log_2\epsilon \)

\( I(X;Y) = H(Y) - H(Y|X) \)
\( I(X;Y) = [-(1-\epsilon)\log_2(1-\epsilon) + (1-\epsilon) - \epsilon\log_2\epsilon] - [-(1-\epsilon)\log_2(1-\epsilon) - \epsilon\log_2\epsilon] \)
\( I(X;Y) = 1-\epsilon \)

所以，BEC的容量为：
\[ C_{BEC} = 1-\epsilon \]
这个结果也非常直观：每次传输有 \( \epsilon \) 的概率被删除，无法传递信息；有 \( 1-\epsilon \) 的概率被正确接收（非删除），可以传递1比特信息。平均每次传输能传递的信息量就是 \( 1-\epsilon \)。

4.2.4 一般DMC容量计算方法（Methods for Calculating General DMC Capacity）

对于既不是输入对称也不是输出对称的一般DMC，容量达到分布通常不是均匀分布，容量计算也更复杂。寻找 \( \max_{p(x)} I(X;Y) \) 需要使用数值方法或优化算法。

常用的方法包括：
① 迭代算法（Iterative Algorithms）: 例如 Blahut-Arimoto 算法。这个算法通过迭代更新输入分布 \( p(x) \) 来逼近容量达到分布和信道容量。它基于互信息和其对输入分布的偏导数性质。
② 凸优化工具箱（Convex Optimization Toolboxes）: 容量计算可以被建模为一个凸优化问题，然后使用标准的凸优化求解器来解决。

这些方法通常需要计算大量的对数和求和，对于大型字母表的信道，计算复杂度较高。但在理论上，容量总是可以通过最大化互信息找到。

4.3 连续信道的容量：AWGN信道（Capacity of Continuous Channels: AWGN Channel）

离散信道处理的是有限的符号集，而连续信道处理的是连续的信号，例如电压、电流或电磁波的幅度。在连续信道中，噪声通常是连续随机变量。最重要、研究最深入的连续信道模型是加性高斯白噪声信道（Additive White Gaussian Noise Channel, AWGN）。

4.3.1 功率约束（Power Constraint）

在连续信道中，输入信号通常受到能量或功率的限制。例如，一个无线发射机不能以无限大的功率发射信号。这种约束是计算连续信道容量时必须考虑的关键因素。

对于一个连续时间信号 \( x(t) \)，其平均功率（Average Power）定义为 \( P = \lim_{T \to \infty} \frac{1}{2T} \int_{-T}^{T} |x(t)|^2 dt \)。
对于一个离散时间信号序列 \( \{x_i\} \)，其平均功率定义为 \( P = \lim_{N \to \infty} \frac{1}{N} \sum_{i=1}^N |x_i|^2 \)。
在计算信道容量时，我们通常考虑平均功率约束，即要求输入信号的平均功率不超过某个最大允许值 \( P_{max} \)。

对于AWGN信道，输入 \( X \) 和输出 \( Y \) 是连续随机变量。信道模型通常表示为：
\[ Y = X + Z \]
其中 \( X \) 是输入信号，\( Z \) 是加性噪声，\( Y \) 是接收到的信号。
⚝ 加性（Additive）: 噪声直接加到信号上。
⚝ 白（White）: 噪声在所有频率上具有均匀的功率谱密度（Power Spectral Density, PSD）。这意味着噪声样本在时间上是不相关的。
⚝ 高斯（Gaussian）: 噪声的概率分布是高斯分布（正态分布）。

对于离散时间的AWGN信道，输入 \( X_i \)，输出 \( Y_i \)，噪声 \( Z_i \)，模型为 \( Y_i = X_i + Z_i \)。噪声序列 \( \{Z_i\} \) 是独立同分布（Independent and Identically Distributed, IID）的高斯随机变量，均值为0，方差为 \( \sigma^2 \)。
功率约束通常表示为 \( E[X^2] \le P \)，其中 \( P \) 是允许的最大平均输入功率。噪声的平均功率是 \( E[Z^2] = \sigma^2 \)。信号的平均功率通常用 \( S \) 表示，即 \( S = E[X^2] \)。信噪比（Signal-to-Noise Ratio, SNR）定义为 \( S/N \)，其中 \( N \) 是噪声功率，对于AWGN信道， \( N = \sigma^2 \)。

4.3.2 香农-哈特利定理（Shannon-Hartley Theorem）

香农-哈特利定理是信息论中关于连续信道容量最重要的结果，它给出了带限（Band-limited）AWGN信道的容量。

考虑一个带宽为 \( B \) 赫兹（Hz）的连续时间AWGN信道。根据奈奎斯特-香农采样定理（Nyquist-Shannon Sampling Theorem），一个带宽为 \( B \) 的信号可以由每秒 \( 2B \) 个独立的样本完全表示。因此，一个持续时间为 \( T \) 的信号可以看作由 \( 2BT \) 个独立的样本组成。

对于这样的带限AWGN信道，如果输入信号的平均功率受限于 \( P \)，噪声的功率谱密度为 \( N_0/2 \)（双边PSD），则噪声的总功率在带宽 \( B \) 内为 \( N = N_0 B \)。

香农-哈特利定理指出，该信道的容量 \( C \) 为：
\[ C = B \log_2 \left(1 + \frac{P}{N_0 B}\right) \text{ 比特/秒 (bits/second)} \]
或者用信噪比 \( SNR = P/(N_0 B) \) 表示：
\[ C = B \log_2 (1 + SNR) \text{ 比特/秒} \]
这就是著名的香农公式（Shannon's Formula）。

这个公式的推导基于以下事实：在功率约束下，使连续AWGN信道互信息 \( I(X;Y) \) 最大的输入信号 \( X \) 的概率分布是均值为0的高斯分布。此时，
\( I(X;Y) = h(Y) - h(Y|X) \)，其中 \( h(\cdot) \) 是微分熵。
由于 \( Y = X + Z \) 且 \( X \) 和 \( Z \) 独立，\( h(Y|X) = h(Z) \)。
对于高斯噪声 \( Z \sim \mathcal{N}(0, \sigma^2) \)，其微分熵为 \( h(Z) = \frac{1}{2}\log_2(2\pi e \sigma^2) \)。
当 \( X \) 是均值为0、方差为 \( P \) 的高斯分布时，\( Y = X + Z \) 也是高斯分布，均值为0，方差为 \( E[Y^2] = E[(X+Z)^2] = E[X^2] + E[Z^2] = P + \sigma^2 \)。
所以 \( h(Y) = \frac{1}{2}\log_2(2\pi e (P+\sigma^2)) \)。
此时，互信息 \( I(X;Y) = \frac{1}{2}\log_2(2\pi e (P+\sigma^2)) - \frac{1}{2}\log_2(2\pi e \sigma^2) = \frac{1}{2}\log_2\left(\frac{P+\sigma^2}{\sigma^2}\right) = \frac{1}{2}\log_2\left(1 + \frac{P}{\sigma^2}\right) \)。
这个结果是针对每对样本（或每两个实数维度）的容量。对于带宽为 \( B \) 的信道，每秒有 \( 2B \) 个实数维度，所以总容量是 \( 2B \times \frac{1}{2}\log_2\left(1 + \frac{P}{\sigma^2}\right) = B\log_2\left(1 + \frac{P}{\sigma^2}\right) \)。这里的 \( \sigma^2 \) 是噪声样本的方差，对应于带宽 \( B \) 内的总噪声功率 \( N = N_0 B \)。因此，\( \sigma^2 = N_0 B \)，容量公式变为 \( C = B \log_2\left(1 + \frac{P}{N_0 B}\right) \)。

香农-哈特利定理是通信领域的基石，它设定了在给定带宽和信噪比下，任何通信系统所能达到的最高传输速率。

4.3.3 带宽、功率与容量的关系（Relationship between Bandwidth, Power, and Capacity）

香农-哈特利定理 \( C = B \log_2 (1 + SNR) \) 清晰地揭示了信道容量与带宽 \( B \) 和信噪比 \( SNR \) 之间的关系：

⚝ 带宽 \( B \)：容量与带宽成正比。增加带宽可以线性地提高容量。这就像拓宽一条公路，可以允许更多的车辆通过。
⚝ 信噪比 \( SNR \)：容量与 \( \log_2(1+SNR) \) 成正比。增加信噪比可以提高容量，但收益是呈对数增长的。这意味着要大幅提高容量，需要信噪比呈指数级增长。这就像提高车辆的速度，但速度翻倍并不能让通过的车辆数量翻倍，因为还有其他限制。

这个公式也引出了几个重要的思考：
① 无限带宽的极限（Bandwidth-limited regime）: 当 \( B \to \infty \) 时，如果总噪声功率 \( N = N_0 B \) 也随之增加，容量会趋于一个有限值。具体来说，如果保持 \( P/N_0 \) 固定，当 \( B \to \infty \)， \( C \approx B \frac{P}{N_0 B \ln 2} = \frac{P}{N_0 \ln 2} \approx 1.44 \frac{P}{N_0} \)。这意味着即使有无限带宽，在功率受限的情况下，容量也是有限的。
② 低信噪比的极限（Power-limited regime）: 当 \( SNR \to 0 \) 时，\( \log_2(1+SNR) \approx \frac{SNR}{\ln 2} \)。此时 \( C \approx B \frac{SNR}{\ln 2} = B \frac{P}{N_0 B \ln 2} = \frac{P}{N_0 \ln 2} \)。这表明在低信噪比下，容量主要取决于功率谱密度 \( P/N_0 \)，与带宽的乘积近似线性关系。
③ “频谱效率”（Spectral Efficiency）: 定义为 \( C/B = \log_2(1+SNR) \) 比特/秒/赫兹（bits/s/Hz）。它衡量了单位带宽内可以传输的信息量。现代通信系统设计常常追求提高频谱效率。

香农-哈特利定理为通信工程师提供了宝贵的指导：在设计系统时，需要在带宽和功率之间进行权衡，以达到期望的传输速率。它也告诉我们，无论技术如何进步，在给定物理条件下，可靠传输速率存在一个不可逾越的上限。逼近这个上限是编码理论和调制技术（Modulation Techniques）研究的核心目标。

本章我们深入探讨了信道容量的定义及其在离散和连续信道中的计算方法。我们看到了互信息作为容量定义的核心，并通过BSC、BEC和AWGN信道的例子学习了具体的计算过程。理解信道容量是理解信息论和通信系统性能极限的关键。在下一章，我们将学习香农信道编码定理，它将信道容量与可靠通信的可能性联系起来。

5. chapter 5：香农信道编码定理（Shannon's Channel Coding Theorem）

欢迎来到本书的第五章！在前几章中，我们探讨了信息的基本度量——熵与互信息，以及不同类型的信道模型，并正式定义了信道容量（Channel Capacity）这一核心概念。信道容量代表了在给定信道上，理论上可以实现无差错传输的最高速率。然而，这仅仅是一个理论极限。本章将深入探讨信息论中最具里程碑意义的成果之一：香农信道编码定理（Shannon's Channel Coding Theorem）。这个定理不仅确立了信道容量的根本地位，更指明了通过适当的编码（Encoding）和译码（Decoding）方法，我们确实可以在低于信道容量的任何速率下实现任意低的错误概率，从而实现“可靠通信”（Reliable Communication）。

5.1 可靠通信的概念（Concept of Reliable Communication）

在现实世界的通信系统中，信息在传输过程中总是会受到噪声（Noise）或干扰（Interference）的影响。这些影响可能导致接收到的信号与发送的信号不同，从而引入错误（Error）。例如，在无线通信中，信号会受到衰落（Fading）、干扰和热噪声的影响；在存储系统中，介质的缺陷或外部干扰可能导致数据损坏。

可靠通信的目标就是在存在噪声的信道上，尽可能准确地将信息从发送端（Transmitter）传输到接收端（Receiver）。理想的可靠通信意味着接收端能够以极高的概率（趋近于1）正确恢复发送端的消息，即使信道是噪声的。

考虑一个简单的场景：你想通过一个有噪声的电话线向朋友传达一个二进制序列（Binary Sequence）。如果直接发送，噪声可能会翻转一些比特（Bit），导致朋友听到的序列与你发送的不同。为了实现可靠通信，我们需要一种方法来对抗噪声的影响。

可靠通信并非要求完全消除错误，而是在允许的错误概率（Error Probability）范围内进行传输。在许多应用中，我们希望错误概率可以任意小，甚至趋近于零。香农信道编码定理正是关于如何在噪声信道上实现这种“任意小错误概率”的理论极限。

5.2 编码与译码（Encoding and Decoding）

为了在噪声信道上实现可靠通信，我们不能简单地直接发送原始信息比特流。我们需要引入冗余（Redundancy），通过编码（Encoding）过程将原始信息（Message）转换为一个更长、具有特定结构的码字（Codeword），然后发送这个码字。在接收端，接收到的信号可能因为噪声而发生改变，形成一个接收字（Received Word）。译码（Decoding）的任务就是根据接收字，并利用码字的结构特性，尽可能准确地恢复出原始信息。

编码器（Encoder）是一个函数，它将一个长度为 \(k\) 的信息比特序列（共有 \(2^k\) 种可能的消息）映射到一个长度为 \(n\) 的码字序列。这里的 \(n > k\)。码字的集合称为码本（Codebook）。

\[ \text{Encoder}: \{0, 1\}^k \to \{0, 1\}^n \]

码率（Code Rate）定义为 \(R = k/n\) 比特/符号。它表示每个传输的符号（通常是码字中的一个比特或一个更复杂的信号单元）平均携带的信息比特数。

译码器（Decoder）是一个函数，它接收长度为 \(n\) 的接收字，并尝试确定发送端最有可能发送的原始信息。

\[ \text{Decoder}: \mathcal{Y}^n \to \{0, 1\}^k \text{ or an error indicator} \]
其中 \(\mathcal{Y}\) 是接收字母表（Received Alphabet）。

通过巧妙地设计编码器和译码器，即使信道引入了错误，接收端也有可能通过译码纠正这些错误或检测到错误，从而提高通信的可靠性。例如，重复码（Repetition Code）是最简单的编码方式，将每个信息比特重复多次发送。虽然效率低下，但它能提供一定的抗噪声能力。更复杂的编码技术，如汉明码（Hamming Code）、卷积码（Convolutional Code）和现代的LDPC码（LDPC Codes）、Turbo码（Turbo Codes），能够更有效地利用冗余来对抗噪声。

香农信道编码定理的核心在于，它告诉我们存在（但不具体构造）一种编码和译码方案，可以在低于信道容量的任何速率下实现可靠通信。

5.3 香农信道编码定理的陈述（Statement of Shannon's Channel Coding Theorem）

香农信道编码定理，也称为信道容量定理（Channel Capacity Theorem），是信息论的基石。它为在噪声信道上进行可靠通信设定了根本性的极限。对于一个离散无记忆信道（Discrete Memoryless Channel, DMC），其信道容量为 \(C\)。定理可以分为两个部分：可达性（Achievability）和逆定理（Converse）。

5.3.1 可达性（Achievability）

可达性部分表明，如果传输速率 \(R\) 小于信道容量 \(C\)，即 \(R < C\)，那么存在一种编码和译码方案，使得当码字长度 \(n\) 趋于无穷大时，错误概率（Probability of Error）可以任意小，趋近于零。

正式地，对于任意的 \(\epsilon > 0\) 和任意的速率 \(R < C\)，存在一个足够大的 \(n\)，以及一个码率大于或等于 \(R\) 的 \((n, k)\) 码（其中 \(k/n \ge R\)），使得使用最大似然译码（Maximum Likelihood Decoding）时，平均错误概率 \(P_e^{(n)}\) 满足 \(P_e^{(n)} < \epsilon\)。

这意味着，只要我们愿意使用足够长的码字（即引入足够的延迟和计算复杂度），并且传输速率不超过信道容量，理论上就可以实现几乎无差错的通信。

5.3.2 逆定理（Converse）

逆定理部分表明，如果传输速率 \(R\) 大于信道容量 \(C\)，即 \(R > C\)，那么无论采用何种编码和译码方案，错误概率都将不可避免地保持在一个大于零的下界，即使码字长度趋于无穷大。换句话说，不可能实现任意低的错误概率。

正式地，对于任意的 \((n, k)\) 码，如果其码率 \(R = k/n > C\)，那么对于任何译码规则，平均错误概率 \(P_e^{(n)}\) 满足 \(P_e^{(n)} \ge \delta\) 对于某个与 \(n\) 无关的常数 \(\delta > 0\)。

逆定理告诉我们，信道容量 \(C\) 是可靠通信的上限速率。试图以高于信道容量的速率传输信息，就像试图通过一个容量有限的管道输送超过其容量的水流一样，必然会导致信息的丢失或严重的错误。

综合可达性和逆定理，香农信道编码定理的核心结论是：信道容量 \(C\) 是在给定信道上实现可靠通信的最高可达速率。

\[ \text{Reliable Communication is Possible} \iff R \le C \]

这个定理的强大之处在于，它给出了一个明确的理论极限，而无需考虑具体的编码方案。它告诉我们“能做什么”和“不能做什么”。

5.4 定理的意义与推论（Meaning and Implications of the Theorem）

香农信道编码定理是信息论中最深刻的结论之一，其意义远不止于理论层面。

5.4.1 信道容量是可靠传输的极限速率（Channel Capacity as the Limit Rate for Reliable Transmission）

定理最直接的意义在于，它确立了信道容量 \(C\) 作为在噪声信道上实现可靠通信的根本速率极限。无论技术如何进步，编码和译码算法如何优化，都不可能在高于信道容量的速率下实现任意低的错误概率。这为通信系统的设计提供了一个明确的理论目标和性能基准。工程师们的目标就是设计出能够以接近信道容量的速率进行可靠传输的实际系统。

在香农之前，人们普遍认为，为了降低错误率，必须降低传输速率。香农定理颠覆了这一观念，它表明只要速率低于 \(C\)，就可以通过增加码长（即增加编码的复杂度）来对抗噪声，而不是简单地降低速率。

5.4.2 错误概率与码长（Error Probability and Code Length）

定理的可达性部分指出，当 \(R < C\) 时，错误概率可以随码长 \(n\) 的增加而指数级下降。这意味着，通过使用更长的码字（更复杂的编码），我们可以将错误概率压低到任意小的程度。

\[ P_e^{(n)} \approx e^{-n E(R)} \quad \text{for } R < C \]
其中 \(E(R)\) 是一个正的指数函数，称为差错指数（Error Exponent）。

这揭示了可靠性（低错误概率）与效率（高码率）以及复杂度（码长 \(n\)）之间的权衡关系。为了在接近容量的速率下实现极低的错误率，通常需要使用非常长的码字，这会带来更高的编码和译码计算复杂度，以及更大的传输延迟。

逆定理则表明，当 \(R > C\) 时，错误概率不会随 \(n\) 的增加而趋于零，而是会保持在一个大于零的常数之上。

这个定理为通信系统的设计指明了方向：在给定信道条件下，首先计算其信道容量，然后设计编码和译码方案，力求在实际可接受的复杂度下，以尽可能接近信道容量的速率实现所需的错误概率性能。

5.5 可达性证明的直观思想（Intuitive Idea of Achievability Proof）

香农信道编码定理的可达性证明是信息论中最具创造性的部分之一。虽然完整的证明涉及复杂的数学工具，如渐近等分性（Asymptotic Equipartition Property, AEP）和典型集（Typical Sets），但其核心思想是相对直观的。

5.5.1 随机编码（Random Coding）

香农证明可达性的方法是“随机编码”（Random Coding）。他没有构造一个具体的、最优的编码方案，而是证明了“随机选择的码本”平均而言是好的。

想象一下，我们不是精心设计码字，而是随机地生成 \(2^{nR}\) 个长度为 \(n\) 的码字，其中 \(R\) 是我们希望达到的码率。我们将这 \(2^{nR}\) 个随机生成的码字组成码本。对于要发送的 \(2^{nk}\) 个消息（其中 \(k/n = R\)），我们随机地将每个消息映射到码本中的一个码字。

在接收端，当收到一个接收字 \(y^n\) 时，译码器会检查码本中的每一个码字 \(x^n\)，并计算在发送 \(x^n\) 的情况下接收到 \(y^n\) 的概率 \(P(y^n | x^n)\)。如果存在一个码字 \(x^n\) 使得 \(P(y^n | x^n)\) 远大于其他任何码字对应的概率，译码器就判断发送的是与 \(x^n\) 对应的消息。这被称为最大似然译码（Maximum Likelihood Decoding）。

香农证明的关键在于，对于一个随机生成的码本，如果码率 \(R < C\)，那么对于大多数发送的码字，接收到的典型序列（Typical Sequence）与发送的码字之间存在一种“典型性”关系。

5.5.2 典型集（Typical Sets）

典型集是AEP概念的延伸。对于一个信息源，其产生的序列中，那些概率接近 \(2^{-nH}\) 的序列构成了典型集，其中 \(H\) 是源的熵。典型集的性质是，虽然典型序列的数量相对于所有可能的序列总数来说非常少（大约 \(2^{nH}\) 个），但它们出现的总概率却非常接近1。

在信道编码中，我们考虑联合典型集（Joint Typical Set）。对于发送序列 \(X^n\) 和接收序列 \(Y^n\)，如果它们是联合典型的，意味着它们出现的联合概率 \(P(x^n, y^n)\) 接近 \(2^{-n H(X,Y)}\)，条件概率 \(P(y^n | x^n)\) 接近 \(2^{-n H(Y|X)}\)，等等。

香农证明可达性的直观想法是：
① 随机生成 \(2^{nR}\) 个码字，并将它们发送到信道中。
② 对于一个发送的码字 \(x^n\)，接收端收到的序列 \(y^n\) 很可能与 \(x^n\) 是联合典型的。
③ 如果码率 \(R < C\)，那么码本中与接收到的 \(y^n\) 联合典型的码字（除了实际发送的那个）的数量平均而言非常少，大约只有 \(2^{n(I(X;Y) - R)}\) 个。
④ 如果 \(R < I(X;Y)\)，这个数量就会随着 \(n\) 的增加而指数级下降。通过选择合适的输入分布使得 \(I(X;Y)\) 接近 \(C\)，并选择 \(R < C\)，这个数量就会趋于零。
⑤ 因此，接收端收到 \(y^n\) 后，很可能只有一个码字与它联合典型，那就是发送的那个码字。基于联合典型性的译码（Joint Typicality Decoding）就能以很高的概率正确恢复消息。

这个随机编码和典型集的思想是革命性的，它证明了“存在”好的编码，而无需显式构造它们。这为后来的编码理论研究开辟了道路，人们开始寻找能够逼近随机编码性能的实际可行的编码方案。

5.6 逆定理证明的直观思想（Intuitive Idea of Converse Proof）

香农信道编码定理的逆定理证明相对更容易理解，它依赖于信息度量的基本性质，特别是互信息（Mutual Information）和Fano不等式（Fano's Inequality）。

逆定理要证明的是，如果码率 \(R > C\)，错误概率不可能趋于零。

考虑一个 \((n, k)\) 码，它有 \(M = 2^k = 2^{nR}\) 个码字。假设我们使用这个码在信道上发送消息，并使用某种译码规则。设 \(W\) 是发送的消息（一个随机变量，取值于 \(1, \dots, M\)），\(X^n\) 是对应的发送码字序列，\(Y^n\) 是接收到的序列，\(\hat{W}\) 是译码器输出的消息估计。我们希望错误概率 \(P(W \ne \hat{W})\) 趋于零。

5.6.1 Fano不等式（Fano's Inequality）

Fano不等式是信息论中的一个重要工具，它将估计误差的概率与条件熵（Conditional Entropy）联系起来。对于任何估计量 \(\hat{W}\) 对随机变量 \(W\) 的估计，Fano不等式给出：

\[ H(W | \hat{W}) \le H(P(W \ne \hat{W})) + P(W \ne \hat{W}) \log_2(|\mathcal{W}| - 1) \]
其中 \(H(e)\) 是二元熵函数，\(|\mathcal{W}|\) 是 \(W\) 可能取值的数量（即消息的数量 \(M\)）。

如果错误概率 \(P(W \ne \hat{W})\) 趋于零，那么 \(H(W | \hat{W})\) 也必须趋于零。因为如果我们可以以很高的概率正确估计 \(W\)，那么给定 \(\hat{W}\)，\(W\) 的不确定性（条件熵）就很小。

现在，我们考虑 \(H(W | Y^n)\)，即给定接收序列 \(Y^n\) 后，发送消息 \(W\) 的不确定性。由于译码器 \(\hat{W}\) 是 \(Y^n\) 的一个函数，即 \(\hat{W} = g(Y^n)\)，根据数据处理不等式（Data Processing Inequality），我们有 \(I(W; Y^n) \ge I(W; \hat{W})\)，或者等价地，\(H(W | Y^n) \le H(W | \hat{W})\)。

所以，如果错误概率趋于零，那么 \(H(W | Y^n)\) 也必须趋于零。

另一方面，我们知道 \(I(W; Y^n) = H(W) - H(W | Y^n)\)。对于一个均匀分布的消息源（这是最坏情况，因为均匀分布的熵最大），\(H(W) = \log_2 M = \log_2 2^{nR} = nR\)。

因此，如果错误概率趋于零，\(H(W | Y^n) \to 0\)，那么 \(I(W; Y^n) \to H(W) = nR\)。

现在考虑互信息 \(I(W; Y^n)\)。由于 \(W\) 唯一确定了发送序列 \(X^n\)，我们有 \(I(W; Y^n) = I(X^n; Y^n)\)。
对于一个离散无记忆信道（DMC），信道是无记忆的，这意味着每个符号的传输是独立的。因此，\(I(X^n; Y^n) \le \sum_{i=1}^n I(X_i; Y_i)\)。
根据互信息的定义，\(I(X_i; Y_i) \le \max_{P(x_i)} I(X_i; Y_i) = C\)，其中 \(C\) 是信道的容量。
所以，\(I(X^n; Y^n) \le \sum_{i=1}^n C = nC\)。

结合上面的推导：
如果错误概率趋于零，则 \(I(W; Y^n) \to nR\)。
同时，我们总是有 \(I(W; Y^n) \le nC\)。
因此，为了使错误概率趋于零，必须满足 \(nR \le nC\)，即 \(R \le C\)。

逆定理的直观思想是：互信息 \(I(X;Y)\) 度量了信道传输的信息量。对于一个长度为 \(n\) 的序列，信道最多能可靠传输 \(nC\) 比特的信息。如果我们要传输 \(nR\) 比特的消息，为了实现可靠传输（即 \(I(W; Y^n)\) 接近 \(nR\)），必须有 \(nR \le nC\)，也就是 \(R \le C\)。如果 \(R > C\)，信道无法传输足够的信息量来区分 \(2^{nR}\) 个消息，因此错误概率不可能趋于零。Fano不等式提供了将错误概率与信息量（条件熵）联系起来的数学工具。

总而言之，香农信道编码定理以优美的数学形式揭示了信道容量的根本意义：它是噪声信道上可靠通信的速率上限。这个定理为整个通信理论奠定了基石，并指引了后续编码技术的发展方向。

6. chapter 6：信道容量的性质与界限（Properties and Bounds of Channel Capacity）

欢迎回到信息论的课堂！🎓 在前面的章节中，我们深入探讨了信息的基本度量——熵（Entropy）和互信息（Mutual Information），并正式定义了信道容量（Channel Capacity）作为互信息的最大值。我们还学习了如何计算一些基本信道的容量，并初步了解了香农信道编码定理（Shannon's Channel Coding Theorem）的强大之处，它告诉我们信道容量是可靠通信的速率极限。

在本章中，我们将进一步剖析信道容量这一核心概念。我们将探讨信道容量所具有的一些重要性质，这些性质不仅有助于我们更深刻地理解容量的本质，也是进行理论分析和实际系统设计的基础。此外，我们还将学习如何在难以精确计算容量时，找到其有用的上界（Upper Bound）和下界（Lower Bound）。最后，我们将介绍一个非常重要且直观的不等式——数据处理不等式（Data Processing Inequality），并看看它在理解和分析信道容量时扮演的角色。

掌握这些性质和界限，将使我们对信道容量有更全面的认识，并为后续学习更复杂的信道模型和编码技术打下坚实的基础。

6.1 信道容量的基本性质（Basic Properties of Channel Capacity）

信道容量 \(C\) 是一个信道固有的属性，它仅取决于信道的转移概率（Channel Transition Probabilities） \(p(y|x)\)。作为互信息 \(I(X;Y)\) 在所有可能的输入概率分布 \(p(x)\) 上的最大值，信道容量具有以下几个重要的基本性质：

① 非负性（Non-negativity）：
信道容量总是非负的。
\[ C = \max_{p(x)} I(X;Y) \ge 0 \]
这是因为互信息 \(I(X;Y)\) 本身就是非负的。当输入 \(X\) 与输出 \(Y\) 完全独立时，\(I(X;Y) = 0\)，此时容量为0，意味着无法通过该信道可靠地传输任何信息。

② 依赖于信道转移概率（Dependence on Channel Transition Probabilities）：
信道容量完全由信道的转移概率 \(p(y|x)\) 决定。不同的信道，即使输入输出字母表（Input/Output Alphabet）相同，其容量也可能不同。这是信道容量作为信道“信息承载能力”度量的核心体现。

③ 独立于输入分布（Independence of Input Distribution）：
信道容量是一个最大值，它不依赖于任何特定的输入概率分布 \(p(x)\)。虽然计算容量需要找到使互信息最大的那个输入分布，但容量本身是这个最大值，与具体的 \(p(x)\) 无关。找到这个最优的 \(p(x)\) 是计算容量的关键步骤，但容量的定义是超脱于特定输入的。

④ 互信息关于输入分布的凹性（Concavity of Mutual Information with respect to Input Distribution）：
对于一个固定的信道 \(p(y|x)\)，互信息 \(I(X;Y)\) 是输入概率分布 \(p(x)\) 的一个凹函数（Concave Function）。
\[ I(X;Y) = H(Y) - H(Y|X) \]
其中，\(H(Y|X) = \sum_x p(x) H(Y|X=x)\) 是 \(p(x)\) 的线性函数（因此是凸函数），而 \(H(Y)\) 是 \(p(x)\) 的凹函数。凹函数的最大值是容易求解的（或者说，最大值存在且可以通过标准优化技术寻找）。这一性质保证了信道容量的定义是良定的，即最大值确实存在。

⑤ 互信息关于信道转移概率的凸性（Convexity of Mutual Information with respect to Channel Transition Probabilities）：
对于一个固定的输入分布 \(p(x)\)，互信息 \(I(X;Y)\) 是信道转移概率 \(p(y|x)\) 的一个凸函数（Convex Function）。这个性质在分析信道组合或设计信道时可能有用。

⑥ 连续性（Continuity）：
信道容量是信道转移概率 \(p(y|x)\) 的连续函数。这意味着信道的微小变化只会导致容量的微小变化。

⑦ 可加性（Additivity）：
对于并联的独立信道（Parallel Independent Channels），总容量等于各个信道的容量之和。如果信道1的输入为 \(X_1\)，输出为 \(Y_1\)，容量为 \(C_1\)，信道2的输入为 \(X_2\)，输出为 \(Y_2\)，容量为 \(C_2\)，且两个信道相互独立，那么将 \(X_1\) 和 \(X_2\) 作为联合输入 \((X_1, X_2)\)，将 \(Y_1\) 和 \(Y_2\) 作为联合输出 \((Y_1, Y_2)\) 形成的并联信道的容量为 \(C_1 + C_2\)。
\[ C((X_1, X_2) \to (Y_1, Y_2)) = C(X_1 \to Y_1) + C(X_2 \to Y_2) \]
这个性质非常重要，它表明通过将一个通信任务分解到多个独立的子信道上进行传输，可以简单地叠加每个子信道的容量来获得总的传输能力。

这些基本性质为我们理解和操作信道容量提供了理论基础。例如，凹性告诉我们为什么可以通过优化方法寻找最优输入分布；可加性则指导我们在设计复杂通信系统时如何利用并行结构。

6.2 信道容量的上下界（Upper and Lower Bounds on Channel Capacity）

精确计算信道容量 \(C = \max_{p(x)} I(X;Y)\) 需要找到使互信息最大的输入分布 \(p(x)\)。对于一些简单的信道（如二进制对称信道 BSC 或二进制删除信道 BEC），这个最优分布是均匀分布或其他易于确定的分布。然而，对于更复杂的信道，寻找最优 \(p(x)\) 可能非常困难，甚至没有解析解。在这种情况下，找到信道容量的有用上界和下界就显得尤为重要。

① 下界（Lower Bounds）：
任何一个特定的输入分布 \(p(x)\) 都能产生一个互信息值 \(I(X;Y)\)。根据信道容量的定义，这个值必然小于或等于信道容量。
\[ C \ge I(X;Y) \quad \text{for any } p(x) \]
因此，对于任何我们能够计算出互信息 \(I(X;Y)\) 的输入分布 \(p(x)\)，该 \(I(X;Y)\) 值就是信道容量的一个下界。为了获得一个紧（Tight）的下界，我们应该尝试选择那些我们认为可能接近最优的输入分布来计算互信息。例如，对于输入字母表大小为 \(|\mathcal{X}|\) 的离散信道，均匀分布 \(p(x) = 1/|\mathcal{X}|\) 通常是一个不错的起点，计算其对应的 \(I(X;Y)\) 可以得到一个下界。

② 上界（Upper Bounds）：
寻找信道容量的上界通常依赖于熵和互信息的一些基本性质。
⚝ 基于熵的界限：
我们知道 \(I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X)\)。
由于熵 \(H(X)\) 和 \(H(Y)\) 的最大值分别受限于输入和输出字母表的大小：
\[ H(X) \le \log |\mathcal{X}| \]
\[ H(Y) \le \log |\mathcal{Y}| \]
因此，信道容量 \(C\) 必然满足：
\[ C = \max_{p(x)} I(X;Y) \le \max_{p(x)} H(X) = \log |\mathcal{X}| \]
\[ C = \max_{p(x)} I(X;Y) \le \max_{p(x)} H(Y) \]
虽然 \(\max_{p(x)} H(Y)\) 不总是 \(\log |\mathcal{Y}|\) (除非信道是无损的)，但 \(H(Y) \le \log |\mathcal{Y}|\) 总是成立的。所以，一个简单的上界是：
\[ C \le \min(\log |\mathcal{X}|, \log |\mathcal{Y}|) \]
对于离散信道，这是一个基本的上界。

⚝ 基于条件熵的界限：
\(I(X;Y) = H(Y) - H(Y|X)\)。\(H(Y|X)\) 表示给定输入 \(X\) 后输出 \(Y\) 的不确定性，这正是信道噪声（Channel Noise）的体现。对于任何输入分布 \(p(x)\)，\(H(Y|X)\) 是一个确定的值（取决于 \(p(x)\) 和 \(p(y|x)\)）。然而，\(H(Y|X)\) 也可以表示为 \(\sum_x p(x) H(Y|X=x)\)。\(H(Y|X=x)\) 是在输入为特定 \(x\) 时输出的不确定性，它仅取决于 \(p(y|x)\) 对于固定的 \(x\)。
\[ H(Y|X=x) = -\sum_y p(y|x) \log p(y|x) \]
这个量通常被称为噪声熵（Noise Entropy）或 equivocation。
\[ C = \max_{p(x)} (H(Y) - H(Y|X)) \]
由于 \(H(Y|X) \ge 0\)，且 \(H(Y) \le \log |\mathcal{Y}|\)，我们已经得到了 \(C \le \log |\mathcal{Y}|\)。
更进一步，对于某些信道，\(H(Y|X)\) 可能有一个下界，或者可以通过其他方式进行估计，从而得到 \(H(Y)\) 的上界，进而约束 \(C\)。

⚝ Fano不等式（Fano's Inequality）：
Fano不等式将解码错误概率（Probability of Decoding Error）与条件熵 \(H(X|Y)\) 联系起来。对于任何解码器，如果输入是 \(X\)，输出是 \(Y\)，解码器根据 \(Y\) 产生对 \(X\) 的估计 \(\hat{X}\)，则错误概率 \(P_e = P(\hat{X} \ne X)\) 满足：
\[ H(X|Y) \le H(P_e) + P_e \log |\mathcal{X}| \]
其中 \(H(P_e) = -P_e \log P_e - (1-P_e) \log (1-P_e)\) 是二元熵函数（Binary Entropy Function）。
我们知道 \(I(X;Y) = H(X) - H(X|Y)\)。对于一个以速率 \(R\) 传输信息的编码方案，如果错误概率 \(P_e\) 趋近于零，那么根据香农信道编码定理的逆定理（Converse），速率 \(R\) 必须小于或等于容量 \(C\)。Fano不等式是证明逆定理的关键工具之一。它表明，如果传输速率 \(R\) 超过容量 \(C\)，那么 \(I(X;Y)\) 将小于 \(R\)，从而 \(H(X|Y)\) 会变得相对较大，根据Fano不等式，这将导致不可忽略的错误概率 \(P_e\)，即无法实现任意低的错误概率。因此，Fano不等式提供了一种从错误概率角度为容量设定上界或证明容量不可超越的方法。

⚝ 特定信道的界限：
对于连续信道，特别是 AWGN 信道，香农-哈特利定理（Shannon-Hartley Theorem）给出了精确的容量公式。但对于其他连续信道或更复杂的离散信道，可能需要利用特定的信道模型属性来推导容量的上下界。例如，利用信号功率约束（Signal Power Constraint）和噪声功率谱密度（Noise Power Spectral Density）等。

找到紧致的上下界对于评估信道性能和指导编码方案设计至关重要。一个好的下界告诉我们至少可以达到的可靠传输速率，而一个好的上界则告诉我们无论如何努力也无法超越的极限。

6.3 数据处理不等式（Data Processing Inequality）及其在容量中的应用

数据处理不等式（Data Processing Inequality, DPI）是信息论中一个非常基本且重要的原理，它简洁地表达了一个直观的概念：对数据进行任何（可逆或不可逆的）局部处理，都不会增加关于原始信息源的信息量。

① 数据处理不等式的陈述：
考虑三个随机变量 \(X\)，\(Y\)，和 \(Z\)，它们形成一个马尔可夫链（Markov Chain），记为 \(X \to Y \to Z\)。这意味着给定 \(Y\) 的值，\(X\) 和 \(Z\) 是条件独立的，即 \(p(z|y,x) = p(z|y)\) 或 \(p(x|y,z) = p(x|y)\)。在通信系统中，这通常表示信息从 \(X\) 传输，经过信道得到 \(Y\)，然后对 \(Y\) 进行某种处理（如滤波、量化、特征提取或解码）得到 \(Z\)。
数据处理不等式指出，在这种马尔可夫链结构下，关于 \(X\) 的信息量不会随着数据从 \(Y\) 传递到 \(Z\) 而增加。具体来说，互信息满足：
\[ I(X;Z) \le I(X;Y) \]
同时，关于 \(Z\) 的信息量也不会随着数据从 \(X\) 传递到 \(Y\) 而增加：
\[ I(X;Z) \le I(Y;Z) \]
通常我们更关注第一个不等式 \(I(X;Z) \le I(X;Y)\)，因为它直接反映了“处理 \(Y\) 得到 \(Z\) 不会增加关于 \(X\) 的信息”。

② 直观理解与证明思想：
直观上，从 \(Y\) 到 \(Z\) 的处理可以看作是通过另一个“信道” \(p(z|y)\) 进行传输。如果这个处理是无损且可逆的，那么 \(Z\) 包含了与 \(Y\) 完全相同的信息，此时等号成立。但如果处理是不可逆的（例如，量化、有损压缩或通过一个有噪声的后处理信道），那么一些信息可能会丢失，导致 \(Z\) 包含的关于 \(X\) 的信息少于 \(Y\) 所包含的。
证明可以利用互信息的链式法则（Chain Rule）和非负性。
\[ I(X;Y,Z) = I(X;Z) + I(X;Y|Z) \]
\[ I(X;Y,Z) = I(X;Y) + I(X;Z|Y) \]
由于 \(X \to Y \to Z\) 构成马尔可夫链，给定 \(Y\)，\(X\) 和 \(Z\) 条件独立，所以 \(I(X;Z|Y) = 0\)。
将 \(I(X;Z|Y) = 0\) 代入第二个等式，得到 \(I(X;Y,Z) = I(X;Y)\)。
再将 \(I(X;Y,Z) = I(X;Y)\) 代入第一个等式，得到 \(I(X;Y) = I(X;Z) + I(X;Y|Z)\)。
由于互信息是非负的，\(I(X;Y|Z) \ge 0\)，因此 \(I(X;Y) \ge I(X;Z)\)。证毕。

③ 数据处理不等式在容量中的应用：
DPI 在信道容量理论中有多个重要的应用：

⚝ 后处理不会增加容量：
考虑一个信道 \(X \to Y\) 具有容量 \(C(X \to Y)\)。如果在信道输出 \(Y\) 之后进行任何处理得到 \(Z\)，形成一个级联系统 \(X \to Y \to Z\)，其中 \(Y \to Z\) 是一个由处理方式决定的“后处理信道” \(p(z|y)\)。那么，对于任何输入分布 \(p(x)\)，我们有 \(I(X;Z) \le I(X;Y)\) 根据 DPI。
信道 \(X \to Z\) 的容量定义为 \(C(X \to Z) = \max_{p(x)} I(X;Z)\)。
\[ C(X \to Z) = \max_{p(x)} I(X;Z) \le \max_{p(x)} I(X;Y) = C(X \to Y) \]
这意味着，对信道输出进行任何后处理，都不能增加信道的容量。你无法通过对接收到的信号进行巧妙的计算或变换来获得比原始信道本身所能提供的更高的可靠传输速率。这强调了信道容量是信道本身的固有属性，不受接收端处理能力的影响（当然，接收端处理能力会影响你达到容量的难易程度，但不会改变容量的理论极限）。

⚝ 级联信道的容量：
考虑两个级联的信道 \(X \to Y \to Z\)，其中 \(X \to Y\) 是第一个信道，\(Y \to Z\) 是第二个信道。整个系统可以看作是一个从 \(X\) 到 \(Z\) 的复合信道。根据 DPI，对于任何输入分布 \(p(x)\)，\(I(X;Z) \le I(X;Y)\) 和 \(I(X;Z) \le I(Y;Z)\)。
因此，复合信道 \(X \to Z\) 的容量 \(C(X \to Z) = \max_{p(x)} I(X;Z)\) 满足：
\[ C(X \to Z) \le \max_{p(x)} I(X;Y) = C(X \to Y) \]
\[ C(X \to Z) \le \max_{p(x)} I(Y;Z) \]
注意，\(\max_{p(x)} I(Y;Z)\) 并不直接等于信道 \(Y \to Z\) 的容量 \(C(Y \to Z)\)，因为 \(C(Y \to Z)\) 是对 \(p(y)\) 求最大值，而这里是对 \(p(x)\) 求最大值，\(p(y)\) 是由 \(p(x)\) 和 \(p(y|x)\) 决定的。然而，我们可以说 \(C(X \to Z) \le C(Y \to Z)\) 如果 \(p(y)\) 可以自由选择以最大化 \(I(Y;Z)\)。更准确的说法是，级联信道的容量不会超过其中任何一个子信道的容量。

⚝ 在证明中的应用：
DPI 是证明香农信道编码定理逆定理（Converse）的重要工具之一，特别是结合 Fano 不等式。它帮助建立起错误概率与信息量之间的关系，从而证明超过容量的传输速率是不可靠的。

总而言之，数据处理不等式是一个强大的概念工具，它以信息论的语言形式化了“信息不会无中生有”的直觉。在信道容量的背景下，它明确告诉我们，一旦信息通过一个有噪声的信道传输，其包含的关于原始源的信息量就有了上限，后续的任何处理都无法突破这个上限。这对于理解通信系统的基本限制至关重要。

在本章中，我们探讨了信道容量的一些关键性质，学习了如何利用熵和互信息的基本属性来推导容量的上下界，并深入理解了数据处理不等式及其在容量理论中的核心作用。这些知识为我们后续学习更复杂的信道模型和逼近容量的编码技术奠定了坚实的基础。

7. chapter 7：高级信道模型与容量（Advanced Channel Models and Capacity）

欢迎回到信息论的课堂！在前几章中，我们深入探讨了信息的基本度量——熵与互信息，以及最基础的信道模型——离散无记忆信道（DMC）和加性高斯白噪声（AWGN）信道，并推导了它们的信道容量。这些基础模型为我们理解通信系统的极限性能奠定了坚实的基础。然而，现实世界的通信环境往往更为复杂，信道可能具有记忆性，信号可能经历衰落，通信系统可能采用多天线技术，或者涉及多个用户同时通信。本章将带领大家进入更高级的信道模型，并探讨如何在这些复杂场景下定义和计算信道容量，以及这些理论对实际通信系统的指导意义。

7.1 具有记忆的信道（Channels with Memory）

到目前为止，我们主要关注的是无记忆信道（Memoryless Channels）。对于一个无记忆信道，当前时刻的输出仅依赖于当前时刻的输入，与过去或未来的输入输出无关。用数学语言来说，对于输入序列 \(X_1, X_2, \dots, X_n\) 和输出序列 \(Y_1, Y_2, \dots, Y_n\)，无记忆信道的转移概率满足：
\[ p(y_1, \dots, y_n | x_1, \dots, x_n) = \prod_{i=1}^n p(y_i | x_i) \]
然而，许多实际信道并非如此。例如，无线信道中的多径效应可能导致信号在不同时刻的传播特性相关联；电缆信道中的码间干扰（Inter-symbol Interference, ISI）使得当前输出受到之前输入的影响。这类信道被称为具有记忆的信道（Channels with Memory）。

对于具有记忆的信道，当前输出 \(Y_i\) 可能依赖于当前的输入 \(X_i\) 以及过去的输入 \(X_{i-1}, X_{i-2}, \dots\) 和/或过去的输出 \(Y_{i-1}, Y_{i-2}, \dots\)。其转移概率通常表示为 \(p(y_i | x_i, x_{i-1}, \dots, y_{i-1}, y_{i-2}, \dots)\)。

那么，如何定义和计算具有记忆的信道的容量呢？香农（Shannon）最初的信道容量定义是基于无记忆信道的。对于具有记忆的信道，容量的定义需要进行推广。直观上，信道容量仍然是可靠传输的最高速率。

对于一个具有记忆的信道，其容量 \(C\) 定义为单位时间（或单位符号）内互信息的最大值，但这里的互信息是针对长序列而言的：
\[ C = \lim_{n \to \infty} \frac{1}{n} \max_{p(x_1, \dots, x_n)} I(X_1, \dots, X_n; Y_1, \dots, Y_n) \]
其中，最大化是针对输入序列的联合概率分布 \(p(x_1, \dots, x_n)\)。

计算具有记忆的信道的容量通常比无记忆信道复杂得多。一种常见的具有记忆的信道模型是有限状态信道（Finite-State Channel, FSC）。在这种模型中，信道的转移概率不仅依赖于当前输入，还依赖于信道内部的一个有限状态。状态的转移则依赖于当前输入和/或当前状态。

例如，一个简单的具有记忆的信道可以是带有码间干扰的信道，其输出 \(Y_i\) 是当前输入 \(X_i\) 和前一个输入 \(X_{i-1}\) 的函数加上噪声。
\[ Y_i = f(X_i, X_{i-1}) + Z_i \]
其中 \(Z_i\) 是噪声。

对于某些特殊的具有记忆的信道，例如具有有限记忆的信道（Finite Memory Channel），即当前输出只依赖于最近 \(m\) 个输入，其容量可以通过将信道“无记忆化”来计算。这通常涉及构建一个扩展信道（Extended Channel），将 \(m\) 个连续的输入/输出块视为新的“符号”，从而得到一个无记忆的块信道。然而，这种方法可能会导致输入字母表或输出字母表急剧膨胀。

更一般地，对于具有记忆的信道，计算容量往往需要利用随机过程和遍历理论的工具。一个重要的结果是，如果信道是遍历的（Ergodic），其容量可以表示为：
\[ C = \lim_{n \to \infty} \max_{p(x_n|x_{n-1}, \dots, x_1)} I(X_n; Y_n | X_{n-1}, \dots, X_1, Y_{n-1}, \dots, Y_1) \]
这个表达式仍然复杂。在实践中，计算具有记忆的信道的精确容量往往非常困难，甚至没有封闭形式的解。研究更多的是容量的界限（Bounds）以及如何设计编码方案来逼近这些界限。

理解具有记忆的信道的关键在于认识到过去的信息会影响当前的传输。这既带来了挑战（如码间干扰），也可能带来机遇（如利用信道状态信息）。

7.2 衰落信道（Fading Channels）

无线通信信号在传播过程中会受到多径效应、阴影效应等影响，导致接收信号的幅度、相位和时延发生随机变化，这种现象称为衰落（Fading）。衰落信道（Fading Channel）是无线通信中非常重要的信道模型。

衰落信道通常被建模为输入 \(X\) 经过一个随机变化的增益 \(H\) 和加性噪声 \(Z\) 后得到输出 \(Y\)。
\[ Y = H X + Z \]
其中 \(H\) 是一个随机变量或随机过程，代表衰落系数。\(Z\) 通常是加性高斯白噪声（AWGN）。

根据衰落系数 \(H\) 的变化速率相对于符号周期的快慢，衰落可以分为快衰落（Fast Fading）和慢衰落（Slow Fading）。根据多径时延扩展与符号周期的关系，可以分为平坦衰落（Flat Fading）和频率选择性衰落（Frequency-Selective Fading）。本节主要讨论平坦衰落信道，即衰落系数在信号带宽内是恒定的。

对于衰落信道，信道容量的定义依赖于我们对衰落系数 \(H\) 的了解程度以及 \(H\) 的变化特性。

① 遍历容量（Ergodic Capacity）
如果衰落系数 \(H\) 是一个遍历随机过程，并且发送端和接收端都知道 \(H\) 的瞬时值（称为信道状态信息，Channel State Information, CSI），那么我们可以定义遍历容量。遍历容量是指在长时间平均意义下，信道能够支持的最高可靠传输速率。它通过对所有可能的衰落状态求平均来计算：
\[ C_{ergodic} = \max_{p(x)} E_H [I(X; Y | H)] \]
其中 \(E_H[\cdot]\) 表示对衰落系数 \(H\) 的期望。如果发送端不知道 \(H\) 的瞬时值，但接收端知道，容量的计算会稍微不同，通常需要对输入分布进行优化，使其在平均意义下达到最大互信息。如果发送端和接收端都不知道 \(H\) 的瞬时值，容量会显著降低。

对于一个瑞利衰落（Rayleigh Fading）信道，假设发送端知道 \(H\) 且有功率约束 \(E[|X|^2] \le P\)，接收端也知道 \(H\)，遍历容量为：
\[ C_{ergodic} = E_H \left[ \max_{p(x|H)} I(X; Y | H) \right] = E_H \left[ \log_2 \left( 1 + \frac{|H|^2 P}{N_0} \right) \right] \]
其中 \(N_0\) 是噪声功率谱密度。注意，这里的最大化是在给定 \(H\) 的条件下进行的，并且最优的输入分布通常是条件高斯分布。

② 中断容量（Outage Capacity）
在慢衰落场景下，衰落系数 \(H\) 在一个较长的时间段内（例如一个数据包的持续时间）可以认为是恒定的。此时，如果瞬时信道容量 \(C(H) = \max_{p(x)} I(X; Y | H)\) 低于我们试图传输的速率 \(R\)，那么无论采用多好的编码，都无法实现可靠传输，此时就会发生中断（Outage）。中断容量的概念应运而生。

中断容量不是一个单一的速率值，而是一个速率-中断概率（Rate-Outage Probability）的函数。对于给定的中断概率 \(\epsilon\)，中断容量 \(C_\epsilon\) 定义为能够以不大于 \(\epsilon\) 的概率发生中断的最高速率。
\[ C_\epsilon = \sup \{ R : P(C(H) < R) \le \epsilon \} \]
换句话说，\(C_\epsilon\) 是瞬时容量 \(C(H)\) 的 \((1-\epsilon)\) 分位数。
\[ P(C(H) < C_\epsilon) = \epsilon \]
中断容量更符合慢衰落场景下对系统性能的描述，即我们允许一定概率的传输失败，以换取在大部分时间内的较高传输速率。

衰落信道的容量分析揭示了信道状态信息（CSI）的重要性。发送端拥有CSI可以根据信道质量调整发送功率和速率（称为自适应传输，Adaptive Transmission），从而显著提高遍历容量。接收端拥有CSI是相干解调和进行最优译码的基础。

7.3 多输入多输出（MIMO）信道容量

多输入多输出（Multiple-Input Multiple-Output, MIMO）技术是现代无线通信（如 Wi-Fi, 4G, 5G）中的一项关键技术。它利用发送端和接收端都配置多根天线来显著提高通信系统的性能，包括容量、可靠性和覆盖范围。

在一个 \(N_t\) 根发送天线和 \(N_r\) 根接收天线的 MIMO 系统中，输入信号是一个 \(N_t \times 1\) 的向量 \(\mathbf{x}\)，输出信号是一个 \(N_r \times 1\) 的向量 \(\mathbf{y}\)。信道可以建模为一个 \(N_r \times N_t\) 的矩阵 \(\mathbf{H}\)，其中元素 \(h_{ij}\) 表示从第 \(j\) 根发送天线到第 \(i\) 根接收天线之间的信道增益。系统模型可以表示为：
\[ \mathbf{y} = \mathbf{H} \mathbf{x} + \mathbf{z} \]
其中 \(\mathbf{z}\) 是一个 \(N_r \times 1\) 的加性噪声向量，通常假设其分量是独立的同分布复高斯随机变量，协方差矩阵为 \(E[\mathbf{z}\mathbf{z}^H] = N_0 \mathbf{I}_{N_r}\)（\(\mathbf{I}_{N_r}\) 是 \(N_r \times N_r\) 的单位矩阵）。发送信号 \(\mathbf{x}\) 受到平均功率约束，例如 \(E[||\mathbf{x}||^2] \le P\)。

MIMO 信道的容量取决于信道矩阵 \(\mathbf{H}\) 的特性以及发送端和接收端对 \(\mathbf{H}\) 的了解程度。

① 已知信道状态信息（CSI）的容量
如果发送端和接收端都完全知道信道矩阵 \(\mathbf{H}\) 的瞬时值，那么发送端可以根据 \(\mathbf{H}\) 来优化输入信号 \(\mathbf{x}\) 的协方差矩阵 \(E[\mathbf{x}\mathbf{x}^H]\)。此时，MIMO 信道可以被分解为多个并行的、独立的子信道（通过奇异值分解 SVD）。容量可以通过对这些子信道的容量求和得到，类似于并行的 AWGN 信道。
\[ C = \max_{E[\mathbf{x}\mathbf{x}^H] \le P} I(\mathbf{x}; \mathbf{y} | \mathbf{H}) \]
最优的输入 \(\mathbf{x}\) 是零均值复高斯向量，其协方差矩阵 \(\mathbf{R}_x = E[\mathbf{x}\mathbf{x}^H]\) 满足水填充（Water-filling）原理。容量的表达式为：
\[ C = \log_2 \det \left( \mathbf{I}_{N_r} + \frac{1}{N_0} \mathbf{H} \mathbf{R}_x \mathbf{H}^H \right) \]
在已知 \(\mathbf{H}\) 的情况下，最优的 \(\mathbf{R}_x\) 是 \(\mathbf{H}^H \mathbf{H}\) 的特征向量构成的矩阵乘以一个对角矩阵，对角线元素由水填充算法确定。

② 未知发送端 CSI，已知接收端 CSI 的容量
在许多实际系统中，接收端可以较容易地估计信道状态，但将 CSI 反馈给发送端可能存在时延或开销。在这种情况下，发送端不知道 \(\mathbf{H}\) 的瞬时值，只能根据 \(\mathbf{H}\) 的统计特性来设计输入信号。此时，容量定义为对所有可能的 \(\mathbf{H}\) 求平均互信息：
\[ C = \max_{E[\mathbf{x}\mathbf{x}^H] \le P} E_{\mathbf{H}} [I(\mathbf{x}; \mathbf{y} | \mathbf{H})] \]
注意，这里的最大化是在期望外部进行的，因为发送端选择 \(\mathbf{x}\) 的分布时不知道 \(\mathbf{H}\)。在这种情况下，最优的输入 \(\mathbf{x}\) 通常是协方差矩阵与单位矩阵成正比的零均值复高斯向量，即 \(\mathbf{R}_x = \frac{P}{N_t} \mathbf{I}_{N_t}\)。此时容量为：
\[ C = E_{\mathbf{H}} \left[ \log_2 \det \left( \mathbf{I}_{N_r} + \frac{P}{N_t N_0} \mathbf{H} \mathbf{H}^H \right) \right] \]
对于典型的瑞利衰落 MIMO 信道，当 \(N_t, N_r\) 很大时，这个容量近似与 \(\min(N_t, N_r)\) 成正比，这解释了 MIMO 技术能够显著提高容量的原因。多天线提供了多条并行的“空间流”（Spatial Streams），在丰富的散射环境下，这些空间流相对独立，从而增加了总的传输带宽。

MIMO 容量理论是现代无线通信系统设计的基石，它指导了空间复用（Spatial Multiplexing）、波束赋形（Beamforming）等关键技术的开发。

7.4 多用户信道（Multi-user Channels）

前面的章节主要讨论了单发送端-单接收端的信道。然而，在实际通信系统中，往往存在多个用户共享同一个通信媒介的情况。多用户信道（Multi-user Channels）研究的就是这类场景下的信息传输问题。最基本的两种多用户信道模型是多址信道和广播信道。

7.4.1 多址信道（Multiple Access Channel, MAC）

多址信道（MAC）模型描述了多个发送端（用户）同时向一个共同的接收端发送信息。例如，蜂窝系统中的上行链路（用户手机到基站）就是一个典型的 MAC。

一个具有 \(K\) 个用户的离散无记忆 MAC 可以表示为：有 \(K\) 个输入随机变量 \(X_1, \dots, X_K\)，对应 \(K\) 个用户，和一个输出随机变量 \(Y\)。信道的转移概率为 \(p(y | x_1, \dots, x_K)\)。假设信道是无记忆的，即 \(p(y_1, \dots, y_n | x_{1,1}, \dots, x_{K,n}) = \prod_{i=1}^n p(y_i | x_{1,i}, \dots, x_{K,i})\)。

MAC 的关键问题不是一个单一的容量值，而是容量区域（Capacity Region）。容量区域是一个速率向量集合 \((R_1, \dots, R_K)\)，其中 \(R_k\) 是用户 \(k\) 的传输速率。如果速率向量 \((R_1, \dots, R_K)\) 属于容量区域，则意味着存在一种编码方案，使得 \(K\) 个用户可以同时以速率 \(R_1, \dots, R_K\) 向接收端可靠地传输信息。

对于离散无记忆 MAC，其容量区域 \(\mathcal{C}_{MAC}\) 是所有满足以下条件的速率向量 \((R_1, \dots, R_K)\) 的集合的闭包：存在联合概率分布 \(p(x_1, \dots, x_K)\) 使得对于任意非空子集 \(S \subseteq \{1, \dots, K\}\)，有：
\[ \sum_{k \in S} R_k \le I(X_S; Y | X_{S^c}) \]
其中 \(X_S = \{X_k : k \in S\}\)，\(X_{S^c} = \{X_k : k \notin S\}\)。最大化是在所有可能的联合输入分布 \(p(x_1, \dots, x_K)\) 上进行的。特别地，当 \(S = \{1, \dots, K\}\) 时，有 \(\sum_{k=1}^K R_k \le I(X_1, \dots, X_K; Y)\)。当 \(S = \{k\}\) 时，有 \(R_k \le I(X_k; Y | X_{S^c})\)。

MAC 容量区域的形状通常是多面体。其边界由一系列“和速率”（Sum Rate）约束定义。例如，对于两个用户的 MAC，容量区域由满足以下条件的 \((R_1, R_2)\) 组成：
⚝ \(R_1 \ge 0, R_2 \ge 0\)
⚝ \(R_1 \le I(X_1; Y | X_2)\)
⚝ \(R_2 \le I(X_2; Y | X_1)\)
⚝ \(R_1 + R_2 \le I(X_1, X_2; Y)\)
这些互信息项的最大化是在所有可能的联合输入分布 \(p(x_1, x_2)\) 上进行的。如果用户输入是独立的，即 \(p(x_1, x_2) = p(x_1)p(x_2)\)，则最大化是在 \(p(x_1)\) 和 \(p(x_2)\) 上分别进行的。

MAC 容量区域的计算通常需要找到能够达到边界点的输入分布。一种重要的实现技术是非正交多址接入（Non-Orthogonal Multiple Access, NOMA），它允许用户在同一时频资源上发送信号，接收端利用串行干扰消除（Successive Interference Cancellation, SIC）来分离用户信号，从而达到容量区域的边界。

7.4.2 广播信道（Broadcast Channel, BC）

广播信道（BC）模型描述了一个发送端同时向多个接收端发送信息。例如，蜂窝系统中的下行链路（基站到用户手机）就是一个典型的 BC。

一个具有 \(K\) 个用户的离散无记忆 BC 可以表示为：有一个输入随机变量 \(X\)，对应发送端，和 \(K\) 个输出随机变量 \(Y_1, \dots, Y_K\)，对应 \(K\) 个用户。信道的转移概率为 \(p(y_1, \dots, y_K | x)\)。由于不同接收端之间的噪声通常是独立的，这个转移概率常常可以分解为 \(p(y_1, \dots, y_K | x) = \prod_{k=1}^K p(y_k | x)\)。

BC 的关键问题同样是容量区域 \(\mathcal{C}_{BC}\)。容量区域是一个速率向量集合 \((R_1, \dots, R_K)\)，其中 \(R_k\) 是发送端向用户 \(k\) 可靠传输信息的速率。

与 MAC 不同，BC 的容量区域通常更难刻画。对于一般的 BC，其容量区域至今仍是开放问题。然而，对于一些特殊类型的 BC，容量区域是已知的。

① 离散无记忆 BC 的容量区域
对于离散无记忆 BC，Marton 在 1979 年给出了一个可达区域（Achievable Region），对于某些信道，这个区域就是容量区域。这个区域的描述比较复杂，涉及辅助随机变量和互信息的组合。

② 退化广播信道（Degraded Broadcast Channel）
如果一个 BC 满足退化条件，即对于任意输入 \(x\)，输出 \(Y_1, \dots, Y_K\) 形成一个马尔可夫链 \(X \to Y_1 \to Y_2 \to \dots \to Y_K\)，那么这个 BC 称为退化 BC。在这种情况下，用户 \(k+1\) 的信道质量比用户 \(k\) 差。退化 BC 的容量区域是已知的，可以通过叠加编码（Superposition Coding）来实现。

对于两个用户的退化 BC \(X \to Y_1 \to Y_2\)，容量区域由满足以下条件的 \((R_1, R_2)\) 组成：存在一个输入分布 \(p(x)\) 和一个辅助随机变量 \(U\) 使得 \(U \to X \to Y_1 \to Y_2\) 形成马尔可夫链，且
⚝ \(R_1 \ge 0, R_2 \ge 0\)
⚝ \(R_1 \le I(X; Y_1 | U)\)
⚝ \(R_2 \le I(U; Y_2)\)
⚝ \(R_1 + R_2 \le I(X; Y_1)\)
最大化是在所有可能的 \(p(u, x)\) 上进行的。叠加编码的思想是，发送端将给用户 2 的信息编码成“基础层”（Base Layer），给用户 1 的信息编码成“增强层”（Enhancement Layer）。用户 1 解码基础层和增强层，而用户 2 只解码基础层，并将增强层视为噪声。

③ AWGN 广播信道
对于 AWGN BC，即 \(Y_k = X + Z_k\)，其中 \(Z_k\) 是用户 \(k\) 的加性高斯噪声，且 \(E[Z_k^2] = N_k\)。假设 \(N_1 < N_2 < \dots < N_K\)，则这是一个退化 BC。其容量区域可以通过叠加编码和功率分配来实现。

多用户信道容量理论是理解和设计多用户通信系统（如蜂窝网络、无线局域网）的基础。它揭示了用户之间如何共享信道资源才能达到最优的性能边界。

7.5 网络信息论简介（Introduction to Network Information Theory）

在现代通信中，信息往往不是简单地从一个发送端传到一个接收端，而是通过一个复杂的网络进行传输。网络信息论（Network Information Theory）是信息论的一个重要分支，它研究在具有多个发送端、多个接收端以及中间节点（如中继）的网络中，信息传输的极限速率和可靠性问题。

网络信息论将单用户信道和多用户信道的概念推广到更一般的网络拓扑结构。一些典型的网络信息论模型包括：

⚝ 中继信道（Relay Channel）：一个发送端通过一个或多个中继节点向一个接收端发送信息。中继节点可以协助传输，例如通过放大转发（Amplify-and-Forward）或解码转发（Decode-and-Forward）。中继信道的容量至今仍是开放问题，但已有一些重要的界限和可达区域。
⚝ 干扰信道（Interference Channel）：多个发送端同时向多个接收端发送信息，每个接收端主要接收来自其对应的发送端的信息，但也受到来自其他发送端的干扰。例如，两个相互靠近的 Wi-Fi 热点之间的通信就可能形成干扰信道。干扰信道的容量通常取决于干扰的强度以及发送端和接收端对干扰的了解程度。
⚝ 多播信道（Multicast Channel）：一个发送端同时向多个接收端发送相同的信息。
⚝ 协作通信（Cooperative Communication）：网络中的节点相互协作来提高传输性能，例如通过形成虚拟天线阵列。

网络信息论的核心挑战在于如何处理节点之间的相互依赖和干扰。与单用户信道不同，网络中的容量通常不是简单的互信息最大值，而是由多个速率约束组成的容量区域。计算网络容量区域通常非常困难，需要利用更复杂的编码技术，如网络编码（Network Coding）。

网络编码是网络信息论中的一个重要概念，它允许网络中的中间节点对接收到的信息进行编码操作（而不仅仅是路由或复制），从而提高网络的吞吐量和鲁棒性。

网络信息论是一个活跃的研究领域，它为理解和设计未来的复杂通信网络（如物联网、分布式计算网络）提供了理论框架和工具。虽然许多网络模型的精确容量仍然未知，但研究人员已经取得了许多重要的进展，为实际系统的设计提供了宝贵的指导。

本章我们探索了比基本模型更复杂的信道类型，包括具有记忆的信道、衰落信道、MIMO 信道以及多用户信道。我们看到了信道特性如何影响容量的定义和计算，以及多天线和多用户场景如何引入容量区域的概念。这些高级模型和理论是理解现代通信系统性能极限的关键。在下一章，我们将回顾信道容量理论的核心思想，并展望未来的研究方向。

8. chapter 8：信道容量的实际意义与应用（Practical Significance and Applications of Channel Capacity）

亲爱的同学们，欢迎来到本书的第八章。在前面的章节中，我们深入探讨了信息论的基础概念，特别是信道容量（Channel Capacity）的定义、计算以及香农信道编码定理（Shannon's Channel Coding Theorem）。我们了解到，信道容量是一个理论上的上限，它告诉我们在给定信道条件下，无差错传输信息的最大速率。然而，理论与实践之间往往存在差距。本章将聚焦于信道容量的实际意义，探讨它如何指导我们设计和评估实际通信系统，以及如何通过先进的编码技术逼近这一理论极限。此外，我们还将看到信息论和信道容量的概念如何超越传统的通信领域，在数据存储、机器学习和统计推断等领域发挥重要作用。

8.1 信道容量与实际系统性能（Channel Capacity and Practical System Performance）

信道容量 \(C\) 是一个非常强大的理论工具，它为通信系统的性能设定了一个终极目标。香农信道编码定理告诉我们，只要传输速率 \(R\) 小于信道容量 \(C\)，就存在一种编码方案，使得在码长（Code Length）趋于无穷时，错误概率（Error Probability）可以任意小。反之，如果传输速率 \(R\) 大于 \(C\)，则不可能实现任意低的错误概率。

然而，在实际系统中，我们面临许多限制：

⚝ 有限的码长（Finite Code Length）: 实际系统不可能使用无限长的码字。有限码长意味着即使速率低于容量，错误概率也不可能降至零，只能达到一个可接受的水平。
⚝ 编码与译码的复杂度（Encoding and Decoding Complexity）: 香农定理的可达性证明通常基于随机编码（Random Coding），这种编码的译码复杂度可能非常高，不切实际。我们需要寻找具有可行编码和译码算法的码。
⚝ 延迟约束（Latency Constraints）: 许多实时通信应用（如语音、视频）对传输延迟有严格要求。使用非常长的码字虽然有助于降低错误率，但会引入较大的编码和译码延迟。
⚝ 信道状态信息（Channel State Information, CSI）: 香农容量的计算通常假设发送方或接收方（或两者）对信道特性有完美的了解。在实际中，信道特性可能随时间变化，且无法完美估计。
⚝ 非理想硬件（Non-ideal Hardware）: 实际的发送器和接收器存在噪声、非线性等问题，这些都会影响系统性能。

因此，实际通信系统的性能（通常用可实现的传输速率或给定速率下的错误率衡量）总是低于信道容量。信道容量更像是一个“灯塔”，指引着我们优化的方向，并提供了一个衡量系统效率的基准。我们通常用“容量差距”（Capacity Gap）来描述实际系统性能与理论容量之间的差异。现代通信系统的设计目标之一就是通过各种技术（如先进的调制、编码、多天线技术等）来缩小这个容量差距。

8.2 逼近信道容量的编码技术（Coding Techniques Approaching Channel Capacity）

香农定理的伟大之处在于它指出了可靠通信的极限，但它并没有告诉我们如何构造能够达到这个极限的码。在香农定理提出后的几十年里，编码理论（Coding Theory）的主要任务就是寻找既能提供良好纠错性能、又具有可行编码和译码算法的码。直到20世纪90年代，才出现了两类被认为是“容量逼近”（Capacity-Approaching）的编码技术：Turbo码和LDPC码。

8.2.1 LDPC码（LDPC Codes）

LDPC码，全称低密度奇偶校验码（Low-Density Parity-Check Codes），由Robert Gallager在1960年代初提出，但由于当时计算能力的限制而未受到广泛关注。直到1990年代中期，随着计算机技术的发展，LDPC码的潜力才被重新发现和认识。

⚝ 结构（Structure）: LDPC码的定义基于一个非常稀疏（即包含很少的非零元素）的奇偶校验矩阵（Parity-Check Matrix）\(H\)。一个码字 \(c\) 是有效的，当且仅当 \(Hc^T = 0\)。矩阵的稀疏性是其低复杂度译码的关键。
⚝ 译码（Decoding）: LDPC码通常采用迭代译码算法，最常见的是置信传播（Belief Propagation）算法，也称为和积算法（Sum-Product Algorithm）。这种算法在码字的比特节点（Bit Nodes）和校验节点（Check Nodes）之间传递“信念”（Beliefs）或概率信息，通过多次迭代来逼近最大后验概率（Maximum A Posteriori, MAP）译码或最大似然（Maximum Likelihood, ML）译码。由于校验矩阵的稀疏性，每次迭代的计算量相对较小。
⚝ 性能（Performance）: LDPC码在许多信道模型下，特别是AWGN信道（Additive White Gaussian Noise Channel）下，表现出非常接近香农极限的性能。它们在长码字情况下尤其出色。
⚝ 应用（Applications）: LDPC码已被广泛应用于各种通信标准中，包括：
▮▮▮▮⚝ 数字视频广播（Digital Video Broadcasting, DVB）标准，如 DVB-S2、DVB-T2。
▮▮▮▮⚝ 无线局域网（Wireless Local Area Network, WLAN）标准，如 IEEE 802.11n/ac/ax (Wi-Fi 4/5/6)。
▮▮▮▮⚝ 蜂窝移动通信标准，如 4G (LTE-Advanced) 和 5G。
▮▮▮▮⚝ 存储系统，如硬盘驱动器和固态硬盘。

8.2.2 Turbo码（Turbo Codes）

Turbo码由Claude Berrou、Alain Glavieux和Punya Thitimajshima于1993年提出，其名称来源于其迭代译码过程中的“反馈”机制，类似于涡轮增压器（Turbocharger）。

⚝ 结构（Structure）: Turbo码通常由两个或多个并行级联（Parallel Concatenation）的递归系统卷积码（Recursive Systematic Convolutional, RSC）组成，它们通过一个交织器（Interleaver）连接。交织器打乱输入比特的顺序，使得两个分量码看到的数据序列不同，从而提供更好的纠错分散性。
⚝ 译码（Decoding）: Turbo码采用迭代“软输入软输出”（Soft-Input Soft-Output, SISO）译码算法。两个分量译码器之间通过交换“外部信息”（Extrinsic Information）进行迭代。一个译码器的输出（关于每个比特的可靠度信息）作为另一个译码器的输入，这个过程重复多次，直到收敛或达到最大迭代次数。这种迭代过程是Turbo码高性能的关键。
⚝ 性能（Performance）: Turbo码在AWGN信道下，特别是在低信噪比（Signal-to-Noise Ratio, SNR）区域，性能非常接近香农极限，并且在发现之初引起了巨大轰动。
⚝ 应用（Applications）: Turbo码在早期被广泛应用于：
▮▮▮▮⚝ 3G蜂窝移动通信标准（如 UMTS、CDMA2000）。
▮▮▮▮⚝ 卫星通信。
▮▮▮▮⚝ 深度空间通信（Deep Space Communications）。

LDPC码和Turbo码的出现极大地缩小了实际系统与香农极限之间的差距，标志着通信进入了“接近容量”的时代。虽然它们在结构和译码算法上有所不同，但都依赖于迭代处理和利用码的代数或图结构特性来实现高性能。目前，LDPC码在许多最新标准中更受欢迎，部分原因是其在并行实现和高吞吐量方面的优势。

8.3 信道容量在通信系统设计中的作用（Role of Channel Capacity in Communication System Design）

信道容量不仅仅是一个理论数字，它是通信系统设计的基石和指导原则。

① 性能基准（Performance Benchmark）: 信道容量为任何给定信道下的最佳可能性能设定了上限。工程师可以根据信道容量来评估现有系统的效率，并设定性能提升的目标。如果一个系统的性能已经非常接近容量，那么进一步提升的潜力可能有限，需要考虑改变信道本身（例如增加带宽、提高发射功率）。
② 速率限制（Rate Limitation）: 信道容量直接决定了在保证可靠传输的前提下，信息可以传输的最大速率。这对于规划通信链路的吞吐量至关重要。例如，在设计无线通信系统时，根据预期的信噪比和带宽，可以估算出理论上的最大数据速率。
③ 资源分配（Resource Allocation）: 在无线通信等资源受限的环境中，信道容量的概念有助于优化资源的分配，如功率分配（Power Allocation）、带宽分配（Bandwidth Allocation）和多用户调度（Multi-user Scheduling）。例如，在多用户MIMO系统中，容量分析可以指导如何分配发射功率给不同的天线或用户，以最大化总吞吐量。
④ 技术选择与权衡（Technology Selection and Trade-offs）: 信道容量公式（如香农-哈特利定理）揭示了带宽、信噪比和容量之间的关系。这帮助工程师理解不同系统参数之间的权衡。例如，在带宽受限但功率充足的情况下，可能需要采用更高阶的调制方案；而在功率受限但带宽充足的情况下，可能更倾向于使用扩展频谱技术或更低阶的调制配合强大的纠错码。
⑤ 编码与调制方案设计（Coding and Modulation Scheme Design）: 信道容量理论指导我们选择合适的编码和调制方案。例如，对于AWGN信道，为了逼近容量，需要使用强大的纠错码，并且调制方式应能有效地利用信道带宽和功率。
⑥ 系统容量规划（System Capacity Planning）: 在设计大型通信网络（如蜂窝网络）时，需要考虑整个网络的容量。虽然单个链路的容量是基础，但网络容量涉及更复杂的概念（如多用户信道容量），信道容量理论提供了分析和优化这些复杂系统的框架。

总之，信道容量为通信工程师提供了一个清晰的目标和一套强大的分析工具，帮助他们在各种约束下设计出性能最优的通信系统。

8.4 信道容量在其他领域的应用（Applications of Channel Capacity in Other Fields）

信息论，特别是信道容量的概念，其影响力远不止于通信领域。许多看似不相关的领域，通过将问题抽象为信息传输或处理的过程，可以利用信息论的工具和思想来获得深刻的洞察。

8.4.1 数据存储（Data Storage）

可以将数据存储过程视为一种特殊的通信过程。信息从“写入器”（发送端）通过“存储介质”（信道）传输到“读取器”（接收端）。存储介质并非完美无缺，存在各种“噪声”和“干扰”，导致读取的数据可能与写入的数据不同。

⚝ 存储容量（Storage Capacity）: 在信息论的框架下，存储介质的“容量”可以类比于信道容量，它代表了在给定存储技术和介质条件下，单位物理空间（如每平方英寸）能够可靠存储的最大信息量。
⚝ 噪声源（Noise Sources）: 存储系统中的“噪声”包括：
▮▮▮▮⚝ 介质缺陷（Media Defects）。
▮▮▮▮⚝ 物理干扰，如相邻存储单元之间的干扰（Inter-Symbol Interference, ISI）。
▮▮▮▮⚝ 读写过程中的随机错误。
▮▮▮▮⚝ 随着时间推移的数据衰减。
⚝ 纠错码（Error Correction Codes, ECC）: 为了确保数据的可靠存储和读取，存储系统广泛使用纠错码。这与通信系统中为了对抗信道噪声而使用信道编码是完全一致的原理。强大的ECC设计对于提高存储密度和可靠性至关重要，其设计也受益于信息论的指导。

通过将存储问题建模为带有噪声的信道，信息论为设计高效、可靠的存储系统提供了理论基础和分析工具。

8.4.2 机器学习（Machine Learning）

信息论的概念在机器学习（Machine Learning, ML）领域有广泛的应用，尽管信道容量本身的应用可能不是最直接的，但相关的概念和思想非常重要。

⚝ 信息度量（Information Measures）: 熵（Entropy）、条件熵（Conditional Entropy）和互信息（Mutual Information）是机器学习中常用的工具。
▮▮▮▮⚝ 在决策树（Decision Trees）等算法中，信息增益（Information Gain）（基于熵和条件熵）用于特征选择（Feature Selection），衡量一个特征能减少多少不确定性。
▮▮▮▮⚝ 互信息可以用来衡量两个变量之间的依赖程度，用于特征选择或理解模型内部的关联。
⚝ 信息瓶颈（Information Bottleneck）: 这是一个基于信息论的原理，旨在找到一个数据的压缩表示，使得这个表示尽可能多地保留关于目标变量的信息，同时尽可能少地保留关于原始输入的信息。这可以看作是一种特殊的“信息传输”问题，目标是最大化输入和表示之间的互信息，同时限制表示的“容量”或复杂性。
⚝ 模型复杂度与泛化能力（Model Complexity and Generalization）: 虽然不是直接的信道容量应用，但信息论的概念可以帮助理解模型的复杂度和其在未见数据上的泛化能力。例如，VC维（VC Dimension）等概念虽然不直接来自信息论，但其精神与衡量模型“容量”或表示能力有关。信息论中的描述长度（Description Length）或最小描述长度（Minimum Description Length, MDL）原则也与模型选择和避免过拟合（Overfitting）有关。
⚝ 学习过程作为信息传输（Learning Process as Information Transmission）: 可以将学习过程视为从数据中提取关于潜在模型或规律的信息，并将其“传输”到模型参数中。从这个角度看，数据提供了关于“真实世界”的信息，学习算法是“接收器”，模型是“存储”或“表示”这些信息的方式。

8.4.3 统计推断（Statistical Inference）

统计推断（Statistical Inference）是从观测数据中推断未知参数或模型的过程。信息论为统计推断提供了深刻的理论视角和工具。

⚝ 费雪信息（Fisher Information）: 费雪信息衡量了数据中包含的关于未知参数的信息量。它与估计量的方差下界（克拉默-拉奥下界，Cramér-Rao Bound）密切相关。从信息论的角度看，费雪信息可以与互信息联系起来，衡量观测数据与未知参数之间的信息量。
⚝ 数据压缩与充分统计量（Data Compression and Sufficient Statistics）: 充分统计量（Sufficient Statistics）是数据的函数，它包含了关于未知参数的所有相关信息，任何基于原始数据的推断都可以仅基于充分统计量进行，而不会损失信息。这与信息论中的数据压缩概念（如数据处理不等式）相呼应，即通过一个“无信息损失”的通道（充分统计量的计算）不会减少关于源（参数）的信息。
⚝ 假设检验（Hypothesis Testing）: 假设检验可以被框架为在两个或多个可能的“源”（不同的假设）之间进行判决。信息论中的概念，如相对熵（Relative Entropy）或Kullback-Leibler散度（KL Divergence），可以用来衡量不同概率分布之间的“距离”或差异，这在设计最优检验中非常有用。
⚝ 率失真理论（Rate-Distortion Theory）: 这是信息论的另一个分支，研究在允许一定失真（Distortion）的情况下，表示信息所需的最小比特率（Rate）。虽然不是直接的信道容量，但它与信息压缩和表示的效率有关，可以应用于统计数据的压缩表示，以便于推断。

总而言之，信道容量及其背后的信息论原理提供了一种通用的框架来理解和量化信息、不确定性以及信息传输或处理的极限。这使得信息论成为跨越多个学科的强大工具，为解决各种实际问题提供了理论指导和创新思路。

9. chapter 9：总结与展望（Summary and Future Perspectives）

亲爱的同学们，我们已经一起走过了信息论中最为核心、也最为迷人的概念之一——信道容量（Channel Capacity）的探索之旅。从信息的基本度量，到各种信道模型的分析，再到香农信道编码定理的深刻内涵，我们逐步揭示了可靠通信的极限。本章作为全书的总结，将回顾信道容量理论的核心思想，探讨当前的研究热点与未解决问题，并展望信息论未来的发展方向。希望通过本章的学习，大家能够对信道容量有一个更加全面和深入的理解，并激发对信息论未来探索的兴趣。

9.1 信道容量理论的核心思想回顾（Review of Core Ideas of Channel Capacity Theory）

信道容量理论是信息论的基石，由克劳德·香农（Claude Shannon）在1948年奠定。其核心思想在于回答一个根本性问题：在存在噪声和干扰的通信信道上，我们能够以多高的速率可靠地传输信息？

回顾我们之前章节的学习，信道容量理论的核心思想可以概括为以下几个关键点：

① 信息的可度量性（Measurability of Information）： 信息论首先为“信息”提供了一个严格的数学度量，即熵（Entropy）。熵衡量了随机变量的不确定性，或者说，消除这种不确定性所需的信息量。对于通信系统而言，信源的熵代表了信源产生信息的平均速率。

② 互信息（Mutual Information）作为信息传输的度量： 互信息 \(I(X; Y)\) 衡量了通过信道后，接收到的随机变量 \(Y\) 关于发送的随机变量 \(X\) 提供了多少信息。它量化了信道传输信息的有效性，即发送和接收信号之间的统计依赖程度。互信息可以看作是发送信号 \(X\) 的不确定性（熵 \(H(X)\)）经过信道传输后被接收信号 \(Y\) 消除的部分，即 \(I(X; Y) = H(X) - H(X|Y)\)。

③ 信道容量是互信息的最大值（Channel Capacity as Maximum Mutual Information）： 对于一个给定的信道，其传输信息的能力取决于输入信号的统计特性。信道容量 \(C\) 被定义为在所有可能的输入概率分布下，输入 \(X\) 和输出 \(Y\) 之间的互信息的最大值：
\[ C = \max_{p(x)} I(X; Y) \]
这个定义简洁而深刻，它抓住了信道的本质传输能力，独立于具体的编码和调制方案。找到最大化互信息的输入分布 \(p(x)\) 是计算信道容量的关键。

④ 香农信道编码定理（Shannon's Channel Coding Theorem）： 这是信道容量理论的巅峰之作。它包含两个部分：
▮▮▮▮ⓑ 可达性（Achievability）： 对于任何小于信道容量 \(C\) 的传输速率 \(R < C\)，存在一种编码和译码方案，使得当码长（Code Length）趋于无穷大时，错误概率（Error Probability）可以任意小。这意味着，只要传输速率不超过信道容量，理论上就可以实现可靠通信。
▮▮▮▮ⓒ 逆定理（Converse）： 对于任何大于信道容量 \(C\) 的传输速率 \(R > C\)，无论采用何种编码和译码方案，错误概率都将趋于一个非零的下界，无法实现可靠通信。这意味着信道容量是可靠传输的上限。

⑤ 信道容量是可靠传输的极限速率（Channel Capacity as the Limit Rate for Reliable Transmission）： 香农定理的意义在于，它确定了在给定信道上进行可靠通信的根本性速率限制。它告诉我们“能做什么”和“不能做什么”，为通信系统的设计提供了理论指导。任何实际通信系统，无论多么先进，其可靠传输速率都无法超过信道容量。

⑥ 编码的重要性（Importance of Coding）： 香农定理的可达性部分是通过随机编码（Random Coding）的思想来证明的，虽然随机编码本身不具有实际可操作性，但它揭示了通过足够长的码字（Codeword）来“平均化”噪声效应的可能性。这强调了信道编码（Channel Coding）在逼近信道容量、实现可靠通信中的核心作用。现代纠错码（Error Correction Codes），如LDPC码（LDPC Codes）和Turbo码（Turbo Codes），正是沿着这一思想发展起来的，它们能够在接近信道容量的速率下实现非常低的错误率。

通过对这些核心思想的回顾，我们再次体会到信道容量理论的强大和优雅。它不仅提供了理论极限，也指明了实现可靠通信的途径——通过有效的编码来对抗信道噪声。

9.2 当前研究热点与未解决问题（Current Research Hotspots and Open Problems）

尽管信道容量理论已经非常成熟，并在通信领域取得了巨大的成功，但信息论的研究并未止步。随着通信技术的发展和应用场景的拓展，新的信道模型和更复杂的通信场景不断涌现，带来了许多新的研究热点和未解决问题。

⚝ 复杂信道的容量分析（Capacity Analysis of Complex Channels）：
▮▮▮▮⚝ 具有记忆的信道（Channels with Memory）： 实际信道往往具有记忆性，即当前时刻的信道特性或噪声不仅与当前输入有关，还与过去的输入或噪声有关。计算具有记忆信道的容量通常比无记忆信道复杂得多，需要引入状态（State）的概念，如隐马尔可夫模型（Hidden Markov Model）。其容量通常由信道的状态信息决定，计算方法也更为复杂。
▮▮▮▮⚝ 衰落信道（Fading Channels）： 无线通信中的衰落信道特性随时间、频率或空间变化。衰落信道的容量分析需要考虑信道状态信息（Channel State Information, CSI）的可用性（发送端已知、接收端已知或均未知）。根据CSI的不同情况，容量的定义和计算方法也不同，例如瞬时容量、遍历容量（Ergodic Capacity）和中断容量（Outage Capacity）。
▮▮▮▮⚝ 多输入多输出（MIMO）信道容量： MIMO技术利用多天线来提高通信系统的性能。MIMO信道的容量与天线数量、信道矩阵特性以及CSI密切相关。虽然对于某些理想MIMO信道（如瑞利衰落信道）的遍历容量已有成熟结论，但对于更复杂的MIMO信道模型和实际部署中的容量分析仍是研究重点。

⚝ 网络信息论（Network Information Theory）： 香农最初的理论主要关注点对点（Point-to-Point）通信。然而，现代通信系统往往是复杂的网络结构，涉及多个发送端、多个接收端、中继节点等。网络信息论研究在这种多用户、多节点场景下的信息传输极限。
▮▮▮▮⚝ 多址信道（Multiple Access Channel, MAC）： 多个发送端向一个接收端发送信息。MAC的容量区域（Capacity Region）描述了所有可达的速率组合。
▮▮▮▮⚝ 广播信道（Broadcast Channel, BC）： 一个发送端向多个接收端发送信息。BC的容量区域分析通常比MAC更具挑战性，特别是对于一般BC。
▮▮▮▮⚝ 中继信道（Relay Channel）： 存在一个或多个中继节点协助发送端向接收端传输信息。中继信道的容量是一个著名的未解决问题，目前只有一些特殊情况下的容量已知。
▮▮▮▮⚝ 干扰信道（Interference Channel）： 多个发送端向多个接收端发送信息，且每个接收端都受到来自其他发送端的干扰。干扰信道的容量是网络信息论中最具挑战性的问题之一，即使对于只有两个发送端和两个接收端的简单情况，其容量也尚未完全解决。

⚝ 信息论与其他领域的交叉（Intersections with Other Fields）：
▮▮▮▮⚝ 机器学习（Machine Learning）： 信息论的概念，如熵、互信息、KL散度（KL Divergence），在机器学习中被广泛应用于特征选择、模型训练（如最大互信息准则）、数据压缩和生成模型等。信息瓶颈（Information Bottleneck）理论是信息论在机器学习中的一个重要应用。
▮▮▮▮⚝ 统计推断（Statistical Inference）： 信息论与统计学有着深刻的联系。费舍尔信息（Fisher Information）与互信息有关，克拉默-拉奥界（Cramér-Rao Bound）可以从信息论角度理解。信息论为统计估计和假设检验提供了新的视角和工具。
▮▮▮▮⚝ 量子信息论（Quantum Information Theory）： 将信息论原理扩展到量子力学领域，研究量子信息的度量、传输和处理。量子信道容量（Quantum Channel Capacity）是量子信息论的核心概念之一，研究如何在量子信道上可靠地传输量子信息或经典信息。
▮▮▮▮⚝ 生物学与神经科学（Biology and Neuroscience）： 信息论被用于分析基因序列、蛋白质结构中的信息，以及神经元网络中的信息编码和传输。

⚝ 逼近容量的实际编码技术（Practical Coding Techniques Approaching Capacity）： 虽然LDPC码和Turbo码等“容量逼近码”（Capacity-Approaching Codes）已经在实际系统中得到广泛应用，但设计更高效、更低复杂度、更接近理论极限的编码和译码算法仍然是活跃的研究领域。特别是在高吞吐量、低延迟要求的场景下，如何平衡性能与复杂度是一个持续的挑战。

⚝ 安全与隐私（Security and Privacy）： 信息论为通信安全提供了理论基础，如信息论安全（Information-Theoretic Security）。研究如何在存在窃听者的情况下，利用信道噪声或物理层特性来实现安全通信，以及如何在分布式系统中保护数据隐私，是当前信息论研究的重要方向。

这些研究热点和未解决问题表明，信息论是一个充满活力和不断发展的领域。信道容量作为核心概念，其理论和应用仍在不断深化和拓展。

9.3 未来发展方向（Future Development Directions）

展望未来，信息论，特别是信道容量理论，将在以下几个方向发挥越来越重要的作用：

① 与新兴通信技术的深度融合（Deep Integration with Emerging Communication Technologies）： 5G已经商用，6G的研发正在进行。未来的通信系统将更加复杂，涉及超高带宽、超低延迟、海量连接、天地海一体化等。信息论需要为这些新的通信范式提供理论支撑，例如，如何定义和计算非正交多址（NOMA）、智能反射面（Intelligent Reflecting Surface, IRS）辅助通信、太赫兹（Terahertz）通信等新技术的容量？如何设计适应这些新信道特性的编码方案？

② 复杂系统的信息理论分析（Information-Theoretic Analysis of Complex Systems）： 信息论的工具和思想将越来越多地应用于通信以外的复杂系统。例如，在物联网（Internet of Things, IoT）中，如何分析和优化分布式感知、数据收集和处理过程中的信息流和信息效率？在边缘计算（Edge Computing）和联邦学习（Federated Learning）中，如何权衡通信开销、计算资源和信息精度？

③ 信息论在人工智能中的核心作用（Core Role of Information Theory in Artificial Intelligence）： 随着人工智能（Artificial Intelligence, AI）的飞速发展，信息论在理解和改进AI算法中的作用日益凸显。例如，如何利用信息论原理来解释深度学习模型的泛化能力？如何设计基于信息论准则的鲁棒（Robust）和可解释（Explainable）AI模型？信息论与因果推断（Causal Inference）的结合也可能带来新的突破。

④ 新型信道模型与信息传输范式（New Channel Models and Information Transmission Paradigms）： 除了传统的电磁波信道，未来的通信可能涉及更多新型信道，如分子通信（Molecular Communication）、神经接口（Neural Interfaces）、甚至基于生物或化学信号的通信。研究这些新型信道的容量和传输特性，将是信息论新的前沿领域。

⑤ 信息论与资源优化的协同（Synergy of Information Theory and Resource Optimization）： 在未来的通信系统中，频谱、能量、计算资源等都将是宝贵的。信息论将与资源分配、调度、缓存等优化理论更紧密地结合，研究如何在有限的资源下最大化信息传输效率和系统性能。例如，如何在能量受限的传感器网络中实现高效的数据收集和传输？

⑥ 基础理论的持续探索（Continued Exploration of Fundamental Theory）： 尽管应用前景广阔，信息论的基础理论研究仍然至关重要。网络信息论中的许多基本问题，如一般干扰信道的容量、具有反馈（Feedback）和状态信息（State Information）的信道容量等，仍有待解决。对这些基本问题的深入理解，将为未来的技术发展提供坚实的理论基础。

总而言之，信道容量理论不仅是信息论的基石，也是现代通信系统的理论极限和设计指南。它所蕴含的深刻思想——用数学量化信息，并确定在噪声信道中可靠传输的极限——将继续指引我们在信息时代的前行。未来的信息论将更加交叉融合，解决更复杂的问题，并在更广泛的领域发挥其独特的价值。

希望本书能够帮助大家建立起对信道容量理论的扎实理解，并激发大家进一步探索信息论世界的兴趣。信息论的旅程充满挑战，但也充满发现的乐趣。

10. chapter 10：附录与参考文献（Appendices and References）

本章作为本书的附录部分，旨在为读者提供一些有用的补充材料，包括信息论学习中常用的数学工具回顾、书中部分重要定理的详细证明（或证明思路）、用于巩固知识的习题与解答，以及进一步学习所需的参考文献和索引。这些内容将帮助读者更好地理解和掌握信道容量相关的理论知识，并为深入研究提供指引。

10.1 常用数学工具回顾（Review of Common Mathematical Tools）

信息论，特别是信道容量理论，是建立在概率论、统计学和一些基本数学分析工具之上的。本节简要回顾一些在本书中频繁使用的数学概念和工具。

10.1.1 概率论基础（Probability Theory Basics）

⚝ 随机变量与概率分布（Random Variables and Probability Distributions）
▮▮▮▮⚝ 离散随机变量（Discrete Random Variables）：由概率质量函数（Probability Mass Function, PMF）\( p(x) = P(X=x) \) 描述。
▮▮▮▮⚝ 连续随机变量（Continuous Random Variables）：由概率密度函数（Probability Density Function, PDF）\( f(x) \) 描述。
▮▮▮▮⚝ 联合概率分布（Joint Probability Distribution）：\( p(x,y) = P(X=x, Y=y) \) 或 \( f(x,y) \)。
▮▮▮▮⚝ 边缘概率分布（Marginal Probability Distribution）：\( p(x) = \sum_y p(x,y) \) 或 \( f(x) = \int f(x,y) dy \)。
▮▮▮▮⚝ 条件概率分布（Conditional Probability Distribution）：\( p(y|x) = P(Y=y|X=x) = \frac{p(x,y)}{p(x)} \) 或 \( f(y|x) = \frac{f(x,y)}{f(x)} \)。

⚝ 期望与方差（Expectation and Variance）
▮▮▮▮⚝ 期望（Expectation）：离散情况下 \( E[X] = \sum_x x p(x) \)，连续情况下 \( E[X] = \int x f(x) dx \)。
▮▮▮▮⚝ 方差（Variance）：\( Var(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2 \)。

⚝ 独立性（Independence）
▮▮▮▮⚝ 随机变量 \( X \) 和 \( Y \) 独立当且仅当 \( p(x,y) = p(x)p(y) \) 或 \( f(x,y) = f(x)f(y) \) 对于所有 \( x, y \) 成立。等价地，\( p(y|x) = p(y) \) 或 \( f(y|x) = f(y) \)。

⚝ 贝叶斯定理（Bayes' Theorem）
▮▮▮▮⚝ \( P(A|B) = \frac{P(B|A)P(A)}{P(B)} \)。在随机变量中，\( p(x|y) = \frac{p(y|x)p(x)}{p(y)} \)。

10.1.2 对数与信息单位（Logarithms and Information Units）

⚝ 信息论中常用以2为底的对数（\( \log_2 \)），单位为比特（bits）。
⚝ 对数性质：
▮▮▮▮⚝ \( \log_b(xy) = \log_b x + \log_b y \)
▮▮▮▮⚝ \( \log_b(x/y) = \log_b x - \log_b y \)
▮▮▮▮⚝ \( \log_b(x^k) = k \log_b x \)
▮▮▮▮⚝ 换底公式：\( \log_b x = \frac{\log_c x}{\log_c b} \)。特别地，\( \ln x = \frac{\log_2 x}{\log_2 e} \)，其中 \( \log_2 e \approx 1.44 \)。

10.1.3 不等式（Inequalities）

⚝ Jensen不等式（Jensen's Inequality）
▮▮▮▮⚝ 若 \( f \) 是凸函数（Convex Function），则 \( E[f(X)] \ge f(E[X]) \)。
▮▮▮▮⚝ 若 \( f \) 是凹函数（Concave Function），则 \( E[f(X)] \le f(E[X]) \)。
▮▮▮▮⚝ 对数函数 \( \log x \) 是凹函数，因此 \( E[\log X] \le \log(E[X]) \)。这在证明熵和互信息的性质时非常有用。

⚝ Gibbs不等式（Gibbs' Inequality）
▮▮▮▮⚝ 对于两个概率分布 \( p(x) \) 和 \( q(x) \)，有 \( -\sum_x p(x) \log_2 q(x) \ge -\sum_x p(x) \log_2 p(x) \)，等价于 \( \sum_x p(x) \log_2 \frac{p(x)}{q(x)} \ge 0 \)。当且仅当 \( p(x) = q(x) \) 对所有 \( x \) 成立时等号成立。这个不等式是证明熵最大值和互信息非负性的基础。

10.1.4 优化（Optimization）

⚝ 在计算信道容量时，需要找到使互信息最大化的输入概率分布 \( p(x) \)。这通常是一个约束优化问题，可以使用拉格朗日乘子法（Lagrange Multipliers）来解决。
⚝ 约束条件通常是 \( \sum_x p(x) = 1 \) 和可能的功率约束等。

10.1.5 线性代数（Linear Algebra）

⚝ 信道转移概率（Channel Transition Probabilities）\( p(y|x) \) 可以用信道矩阵（Channel Matrix）表示，矩阵的行对应输入符号，列对应输出符号。这在分析离散信道时很方便。

10.2 重要定理的详细证明（Detailed Proofs of Important Theorems）

本节提供书中部分重要定理的详细证明过程。对于一些特别复杂的定理（如香农信道编码定理的完整证明），我们将提供证明的核心思想和关键步骤，并指引读者参考更专业的文献。

10.2.1 Gibbs不等式的证明（Proof of Gibbs' Inequality）

定理（Gibbs不等式）： 对于两个在同一集合 \( \mathcal{X} \) 上定义的概率分布 \( p(x) \) 和 \( q(x) \)，有
\[ \sum_{x \in \mathcal{X}} p(x) \log_2 \frac{p(x)}{q(x)} \ge 0 \]
等号当且仅当 \( p(x) = q(x) \) 对所有 \( x \in \mathcal{X} \) 成立时取得。

证明：
我们使用对数函数的凹性。考虑函数 \( f(t) = \ln t \)，它在 \( t > 0 \) 时是严格凹函数。
根据Jensen不等式，对于严格凹函数 \( f \) 和随机变量 \( X \)，有 \( E[f(X)] \le f(E[X]) \)，等号当且仅当 \( X \) 是常数时取得。
令 \( X \) 是一个随机变量，其取值集合为 \( \mathcal{X} \)，概率分布为 \( p(x) \)。
考虑 \( E[\ln \frac{q(X)}{p(X)}] = \sum_{x \in \mathcal{X}} p(x) \ln \frac{q(x)}{p(x)} \)。
根据Jensen不等式：
\[ \sum_{x \in \mathcal{X}} p(x) \ln \frac{q(x)}{p(x)} \le \ln \left( \sum_{x \in \mathcal{X}} p(x) \frac{q(x)}{p(x)} \right) \]
\[ \sum_{x \in \mathcal{X}} p(x) \ln \frac{q(x)}{p(x)} \le \ln \left( \sum_{x \in \mathcal{X}} q(x) \right) \]
由于 \( q(x) \) 是一个概率分布，\( \sum_{x \in \mathcal{X}} q(x) = 1 \)。
\[ \sum_{x \in \mathcal{X}} p(x) \ln \frac{q(x)}{p(x)} \le \ln(1) = 0 \]
所以，\( \sum_{x \in \mathcal{X}} p(x) \ln \frac{q(x)}{p(x)} \le 0 \)。
将对数底从 \( e \) 换成 \( 2 \)（乘以 \( \log_2 e > 0 \) 不改变不等号方向）：
\[ \sum_{x \in \mathcal{X}} p(x) \log_2 \frac{q(x)}{p(x)} \le 0 \]
即 \( \sum_{x \in \mathcal{X}} p(x) (\log_2 q(x) - \log_2 p(x)) \le 0 \)。
\( \sum_{x \in \mathcal{X}} p(x) \log_2 q(x) \le \sum_{x \in \mathcal{X}} p(x) \log_2 p(x) \)。
这等价于 \( -\sum_{x \in \mathcal{X}} p(x) \log_2 q(x) \ge -\sum_{x \in \mathcal{X}} p(x) \log_2 p(x) \)。
或者，将 \( \log_2 \frac{q(x)}{p(x)} \) 变为 \( -\log_2 \frac{p(x)}{q(x)} \)：
\( -\sum_{x \in \mathcal{X}} p(x) \log_2 \frac{p(x)}{q(x)} \le 0 \)，所以 \( \sum_{x \in \mathcal{X}} p(x) \log_2 \frac{p(x)}{q(x)} \ge 0 \)。

等号成立的条件：Jensen不等式中的等号当且仅当 \( \frac{q(X)}{p(X)} \) 是常数时取得。设这个常数为 \( c \)，即 \( \frac{q(x)}{p(x)} = c \) 对所有 \( x \) 成立。
则 \( q(x) = c p(x) \)。对所有 \( x \) 求和：\( \sum_x q(x) = c \sum_x p(x) \)。
由于 \( \sum_x q(x) = 1 \) 且 \( \sum_x p(x) = 1 \)，我们得到 \( 1 = c \cdot 1 \)，所以 \( c = 1 \)。
因此，等号当且仅当 \( q(x) = p(x) \) 对所有 \( x \in \mathcal{X} \) 成立时取得。
证毕。

10.2.2 互信息非负性的证明（Proof of Non-negativity of Mutual Information）

定理： 对于任意两个随机变量 \( X \) 和 \( Y \)，其互信息（Mutual Information）\( I(X;Y) \ge 0 \)。

证明：
根据互信息的定义：
\[ I(X;Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \]
我们可以将求和符号和 \( p(x,y) \) 移到对数内部：
\[ I(X;Y) = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \]
令 \( p'(x,y) = p(x,y) \) 和 \( q'(x,y) = p(x)p(y) \)。
注意到 \( \sum_{x,y} p'(x,y) = \sum_{x,y} p(x,y) = 1 \) 且 \( \sum_{x,y} q'(x,y) = \sum_x \sum_y p(x)p(y) = \sum_x p(x) \sum_y p(y) = 1 \cdot 1 = 1 \)。
所以 \( p'(x,y) \) 和 \( q'(x,y) \) 都可以看作是定义在联合空间 \( \mathcal{X} \times \mathcal{Y} \) 上的概率分布。
应用Gibbs不等式（将 \( x \) 替换为 \( (x,y) \)，将 \( p(x) \) 替换为 \( p'(x,y) \)，将 \( q(x) \) 替换为 \( q'(x,y) \)）：
\[ \sum_{x,y} p'(x,y) \log_2 \frac{p'(x,y)}{q'(x,y)} \ge 0 \]
\[ \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \ge 0 \]
因此，\( I(X;Y) \ge 0 \)。

等号成立的条件：根据Gibbs不等式，等号当且仅当 \( p'(x,y) = q'(x,y) \) 对所有 \( (x,y) \) 成立时取得。
即 \( p(x,y) = p(x)p(y) \) 对所有 \( x \in \mathcal{X}, y \in \mathcal{Y} \) 成立。
这正是随机变量 \( X \) 和 \( Y \) 相互独立的定义。
所以，互信息 \( I(X;Y) = 0 \) 当且仅当 \( X \) 和 \( Y \) 相互独立。
证毕。

10.2.3 互信息与熵的关系证明（Proof of Relationship between Mutual Information and Entropy）

定理： 互信息 \( I(X;Y) \) 可以表示为 \( I(X;Y) = H(X) - H(X|Y) = H(Y) - H(Y|X) \)。

证明：
根据定义：
\( I(X;Y) = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \)
\( H(X) = -\sum_x p(x) \log_2 p(x) \)
\( H(X|Y) = \sum_y p(y) H(X|Y=y) = \sum_y p(y) \left( -\sum_x p(x|y) \log_2 p(x|y) \right) = -\sum_y \sum_x p(y) p(x|y) \log_2 p(x|y) \)
利用条件概率的定义 \( p(x|y) = \frac{p(x,y)}{p(y)} \)，所以 \( p(y)p(x|y) = p(x,y) \)。
\( H(X|Y) = -\sum_{x,y} p(x,y) \log_2 p(x|y) \)

现在计算 \( H(X) - H(X|Y) \)：
\( H(X) - H(X|Y) = -\sum_x p(x) \log_2 p(x) - (-\sum_{x,y} p(x,y) \log_2 p(x|y)) \)
\( = -\sum_x p(x) \log_2 p(x) + \sum_{x,y} p(x,y) \log_2 p(x|y) \)
注意到 \( p(x) = \sum_y p(x,y) \)，所以 \( -\sum_x p(x) \log_2 p(x) = -\sum_x (\sum_y p(x,y)) \log_2 p(x) = -\sum_{x,y} p(x,y) \log_2 p(x) \)。
\( H(X) - H(X|Y) = -\sum_{x,y} p(x,y) \log_2 p(x) + \sum_{x,y} p(x,y) \log_2 p(x|y) \)
\( = \sum_{x,y} p(x,y) (\log_2 p(x|y) - \log_2 p(x)) \)
\( = \sum_{x,y} p(x,y) \log_2 \frac{p(x|y)}{p(x)} \)
利用 \( p(x|y) = \frac{p(x,y)}{p(y)} \)：
\( = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)/p(y)}{p(x)} \)
\( = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \)
这正是 \( I(X;Y) \) 的定义。
所以，\( I(X;Y) = H(X) - H(X|Y) \)。

同理，可以证明 \( I(X;Y) = H(Y) - H(Y|X) \)。
\( H(Y) - H(Y|X) = -\sum_y p(y) \log_2 p(y) - (-\sum_{x,y} p(x,y) \log_2 p(y|x)) \)
\( = -\sum_y (\sum_x p(x,y)) \log_2 p(y) + \sum_{x,y} p(x,y) \log_2 p(y|x) \)
\( = \sum_{x,y} p(x,y) (\log_2 p(y|x) - \log_2 p(y)) \)
\( = \sum_{x,y} p(x,y) \log_2 \frac{p(y|x)}{p(y)} \)
利用 \( p(y|x) = \frac{p(x,y)}{p(x)} \)：
\( = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)/p(x)}{p(y)} \)
\( = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \)
这同样是 \( I(X;Y) \) 的定义。
所以，\( I(X;Y) = H(Y) - H(Y|X) \)。
证毕。

10.2.4 香农信道编码定理证明思想（Ideas behind Shannon's Channel Coding Theorem Proof）

香农信道编码定理（Shannon's Channel Coding Theorem）包含可达性（Achievability）和逆定理（Converse）两部分。完整的证明非常技术化，通常依赖于渐进等分性（Asymptotic Equipartition Property, AEP）和典型集（Typical Sets）的概念。这里我们只概述其核心思想。

⚝ 可达性（Achievability）： 证明对于任何小于信道容量 \( C \) 的传输速率 \( R < C \)，存在一种编码和译码方案，使得当码长 \( n \) 足够大时，错误概率（Error Probability）可以任意小。
▮▮▮▮⚝ 核心思想：随机编码（Random Coding）
▮▮▮▮▮▮▮▮❶ 随机生成一个具有 \( 2^{nR} \) 个码字（Codewords）的码本（Codebook）。每个码字 \( \mathbf{x}_i = (x_{i1}, x_{i2}, \dots, x_{in}) \) 的每个符号 \( x_{ij} \) 都根据使互信息 \( I(X;Y) \) 达到信道容量 \( C \) 的输入分布 \( p(x) \) 独立同分布地随机选择。
▮▮▮▮▮▮▮▮❷ 对于发送的码字 \( \mathbf{x}_i \)，接收端收到序列 \( \mathbf{y} = (y_1, y_2, \dots, y_n) \)。
▮▮▮▮▮▮▮▮❸ 译码器使用联合典型性（Joint Typicality）原则。接收到的序列 \( \mathbf{y} \) 被译码为码字 \( \mathbf{x}_i \)，如果 \( (\mathbf{x}_i, \mathbf{y}) \) 是联合典型序列，并且 \( \mathbf{x}_i \) 是唯一一个与 \( \mathbf{y} \) 联合典型的码字。
▮▮▮▮▮▮▮▮❹ 利用AEP和联合典型集的性质，可以证明当 \( n \) 足够大时，如果传输速率 \( R < I(X;Y) \)，则发送的码字与接收到的序列是联合典型的概率趋近于1，而其他码字与接收到的序列联合典型的概率趋近于0。通过选择使 \( I(X;Y) \) 达到 \( C \) 的输入分布，可以证明当 \( R < C \) 时，平均错误概率可以趋近于零。

⚝ 逆定理（Converse）： 证明对于任何大于信道容量 \( C \) 的传输速率 \( R > C \)，不可能实现任意小的错误概率。换句话说，如果传输速率 \( R > C \)，则错误概率存在一个不能低于的下界，即使码长任意长。
▮▮▮▮⚝ 核心思想：Fano不等式（Fano's Inequality）
▮▮▮▮▮▮▮▮❶ Fano不等式给出了平均错误概率 \( P_e \) 与条件熵 \( H(X|Y) \) 之间的关系：\( H(X|Y) \le H(P_e) + P_e \log_2 |\mathcal{X}| \)，其中 \( H(P_e) \) 是二元熵函数，\( |\mathcal{X}| \) 是输入字母表的大小。这个不等式表明，如果错误概率 \( P_e \) 很小，那么条件熵 \( H(X|Y) \) 也必须很小，这意味着 \( Y \) 提供了关于 \( X \) 的很多信息。
▮▮▮▮▮▮▮▮❷ 考虑一个具有 \( M = 2^{nR} \) 个码字的码本。设 \( W \) 是发送的码字索引（均匀分布），\( \hat{W} \) 是接收端译码出的码字索引。平均错误概率为 \( P_e = P(W \ne \hat{W}) \)。
▮▮▮▮▮▮▮▮❸ 利用信息论的基本关系：
▮▮▮▮▮▮▮▮❹ \( nR = H(W) = I(W;\hat{W}) + H(W|\hat{W}) \)
▮▮▮▮▮▮▮▮❺ \( I(W;\hat{W}) \le I(\mathbf{X};\mathbf{Y}) \le nC \) (数据处理不等式和信道容量定义)
▮▮▮▮▮▮▮▮❻ \( H(W|\hat{W}) \le H(P_e) + P_e \log_2 M = H(P_e) + P_e nR \) (Fano不等式)
▮▮▮▮▮▮▮▮❼ 将这些不等式结合起来：
\( nR \le nC + H(P_e) + P_e nR \)
\( nR(1 - P_e) \le nC + H(P_e) \)
\( R(1 - P_e) \le C + \frac{H(P_e)}{n} \)
\( R \le \frac{C}{1-P_e} + \frac{H(P_e)}{n(1-P_e)} \)
▮▮▮▮▮▮▮▮❺ 如果我们希望 \( P_e \to 0 \) 当 \( n \to \infty \)，那么 \( H(P_e) \to 0 \)。不等式变为 \( R \le C \)。
▮▮▮▮▮▮▮▮❻ 因此，如果 \( R > C \)，则 \( P_e \) 不可能趋近于零，它必须保持在一个大于零的下界之上。

10.3 习题与解答（Exercises and Solutions）

本节提供一系列习题，涵盖本书各章的关键概念，特别是熵、互信息和信道容量的计算与理解。习题难度不一，适合不同水平的读者。部分习题提供详细解答。

习题：

（熵计算） 考虑一个离散随机变量 \( X \)，其概率分布为 \( p(x) \)：\( p(x_1)=0.5, p(x_2)=0.25, p(x_3)=0.125, p(x_4)=0.125 \)。计算 \( X \) 的熵 \( H(X) \)。
（联合熵与条件熵） 考虑两个随机变量 \( X \) 和 \( Y \)，其联合概率分布 \( p(x,y) \) 如下表所示：
| \( p(x,y) \) | \( y_1 \) | \( y_2 \) |
| :----------- | :-------- | :-------- |
| \( x_1 \) | 0.2 | 0.3 |
| \( x_2 \) | 0.4 | 0.1 |
计算 \( H(X) \)、\( H(Y) \)、\( H(X,Y) \)、\( H(X|Y) \) 和 \( H(Y|X) \)。
（互信息计算） 利用习题2中的联合概率分布，计算 \( I(X;Y) \)。验证 \( I(X;Y) = H(X) - H(X|Y) \) 和 \( I(X;Y) = H(Y) - H(Y|X) \)。
（BSC容量） 考虑一个二进制对称信道（Binary Symmetric Channel, BSC），交叉概率（Crossover Probability）为 \( p = 0.1 \)。计算该信道的容量 \( C \)。
（BEC容量） 考虑一个二进制删除信道（Binary Erasure Channel, BEC），删除概率（Erasure Probability）为 \( \epsilon = 0.2 \)。计算该信道的容量 \( C \)。
（AWGN容量） 考虑一个带宽（Bandwidth）为 \( B = 4 \) kHz 的加性高斯白噪声信道（AWGN），信号功率（Signal Power）为 \( S \)，噪声功率谱密度（Noise Power Spectral Density）为 \( N_0 \)。若信号噪声比（Signal-to-Noise Ratio, SNR）\( \frac{S}{N_0 B} = 31 \)，计算该信道的容量 \( C \)。
（容量与可靠性） 解释为什么信道容量是可靠通信的极限速率。如果传输速率超过信道容量，会发生什么？
（数据处理不等式） 证明对于 \( X \to Y \to Z \) 构成马尔可夫链（Markov Chain）的三个随机变量，有 \( I(X;Y) \ge I(X;Z) \)。解释这个不等式在信息传输中的意义。
（典型集概念） 简要解释渐进等分性（AEP）和典型集（Typical Set）的概念，以及它们在香农信道编码定理证明中的作用。
（实际应用） 举例说明信道容量理论在现代通信系统设计中的一个具体应用。

解答：

\( H(X) = -\sum_{i=1}^4 p(x_i) \log_2 p(x_i) \)
\( = -(0.5 \log_2 0.5 + 0.25 \log_2 0.25 + 0.125 \log_2 0.125 + 0.125 \log_2 0.125) \)
\( = -(0.5 \cdot (-1) + 0.25 \cdot (-2) + 0.125 \cdot (-3) + 0.125 \cdot (-3)) \)
\( = -(-0.5 - 0.5 - 0.375 - 0.375) = -(-1.75) = 1.75 \) 比特（bits）。
首先计算边缘概率分布：
\( p(x_1) = p(x_1, y_1) + p(x_1, y_2) = 0.2 + 0.3 = 0.5 \)
\( p(x_2) = p(x_2, y_1) + p(x_2, y_2) = 0.4 + 0.1 = 0.5 \)
\( p(y_1) = p(x_1, y_1) + p(x_2, y_1) = 0.2 + 0.4 = 0.6 \)
\( p(y_2) = p(x_1, y_2) + p(x_2, y_2) = 0.3 + 0.1 = 0.4 \)

\( H(X) = -(0.5 \log_2 0.5 + 0.5 \log_2 0.5) = -(-0.5 - 0.5) = 1 \) 比特。
\( H(Y) = -(0.6 \log_2 0.6 + 0.4 \log_2 0.4) \approx -(0.6 \cdot (-0.737) + 0.4 \cdot (-1.322)) \approx -(-0.442 - 0.529) = 0.971 \) 比特。

\( H(X,Y) = -\sum_{x,y} p(x,y) \log_2 p(x,y) \)
\( = -(0.2 \log_2 0.2 + 0.3 \log_2 0.3 + 0.4 \log_2 0.4 + 0.1 \log_2 0.1) \)
\( \approx -(0.2 \cdot (-2.32) + 0.3 \cdot (-1.74) + 0.4 \cdot (-1.32) + 0.1 \cdot (-3.32)) \)
\( \approx -(-0.464 - 0.522 - 0.528 - 0.332) = 1.846 \) 比特。

\( H(X|Y) = H(X,Y) - H(Y) \approx 1.846 - 0.971 = 0.875 \) 比特。
\( H(Y|X) = H(X,Y) - H(X) \approx 1.846 - 1 = 0.846 \) 比特。
\( I(X;Y) = \sum_{x,y} p(x,y) \log_2 \frac{p(x,y)}{p(x)p(y)} \)
\( p(x_1)p(y_1) = 0.5 \cdot 0.6 = 0.3 \)
\( p(x_1)p(y_2) = 0.5 \cdot 0.4 = 0.2 \)
\( p(x_2)p(y_1) = 0.5 \cdot 0.6 = 0.3 \)
\( p(x_2)p(y_2) = 0.5 \cdot 0.4 = 0.2 \)

\( I(X;Y) = 0.2 \log_2 \frac{0.2}{0.3} + 0.3 \log_2 \frac{0.3}{0.2} + 0.4 \log_2 \frac{0.4}{0.3} + 0.1 \log_2 \frac{0.1}{0.2} \)
\( \approx 0.2 \log_2(0.667) + 0.3 \log_2(1.5) + 0.4 \log_2(1.333) + 0.1 \log_2(0.5) \)
\( \approx 0.2 \cdot (-0.585) + 0.3 \cdot 0.585 + 0.4 \cdot 0.415 + 0.1 \cdot (-1) \)
\( \approx -0.117 + 0.176 + 0.166 - 0.1 = 0.125 \) 比特。

验证：
\( H(X) - H(X|Y) \approx 1 - 0.875 = 0.125 \) 比特。
\( H(Y) - H(Y|X) \approx 0.971 - 0.846 = 0.125 \) 比特。
结果一致。
BSC的容量为 \( C = 1 - H_b(p) \)，其中 \( H_b(p) = -p \log_2 p - (1-p) \log_2 (1-p) \) 是二元熵函数。
\( p = 0.1 \)，\( 1-p = 0.9 \)。
\( H_b(0.1) = -0.1 \log_2 0.1 - 0.9 \log_2 0.9 \)
\( \approx -0.1 \cdot (-3.32) - 0.9 \cdot (-0.152) \)
\( \approx 0.332 + 0.137 = 0.469 \) 比特。
\( C = 1 - H_b(0.1) \approx 1 - 0.469 = 0.531 \) 比特/信道使用。
BEC的容量为 \( C = 1 - \epsilon \)。
\( \epsilon = 0.2 \)。
\( C = 1 - 0.2 = 0.8 \) 比特/信道使用。
AWGN信道的容量由香农-哈特利定理给出：\( C = B \log_2 (1 + \frac{S}{N}) \)，其中 \( N = N_0 B \) 是总噪声功率。
信号噪声比 \( \frac{S}{N_0 B} = \frac{S}{N} = 31 \)。
\( B = 4 \) kHz。
\( C = 4 \log_2 (1 + 31) = 4 \log_2 (32) = 4 \cdot 5 = 20 \) kbps。
信道容量 \( C \) 定义了在给定信道条件下，通过适当的编码和译码，可以实现任意低错误概率的最高传输速率。香农信道编码定理的可达性部分证明了对于任何 \( R < C \)，存在这样的方案。逆定理证明了对于任何 \( R > C \)，错误概率不可能趋近于零，即无法实现可靠通信。因此，信道容量是可靠通信的极限速率。如果传输速率超过信道容量，无论使用多么复杂的编码方案，错误概率都将保持在一个不可忽略的水平，无法实现可靠传输。
证明：
由于 \( X \to Y \to Z \) 构成马尔可夫链，这意味着给定 \( Y \)，\( X \) 和 \( Z \) 是条件独立的，即 \( p(z|x,y) = p(z|y) \)。
我们需要证明 \( I(X;Y) \ge I(X;Z) \)。
根据互信息的链式法则：
\( I(X;Y,Z) = I(X;Z) + I(X;Y|Z) \)
\( I(X;Y,Z) = I(X;Y) + I(X;Z|Y) \)
所以，\( I(X;Z) + I(X;Y|Z) = I(X;Y) + I(X;Z|Y) \)。
我们需要证明 \( I(X;Z|Y) = 0 \)。
\( I(X;Z|Y) = \sum_y p(y) I(X;Z|Y=y) \)
\( I(X;Z|Y=y) = \sum_x \sum_z p(x,z|y) \log_2 \frac{p(x,z|y)}{p(x|y)p(z|y)} \)
由于给定 \( Y=y \)，\( X \) 和 \( Z \) 是条件独立的，所以 \( p(x,z|y) = p(x|y)p(z|y) \)。
因此，\( I(X;Z|Y=y) = \sum_x \sum_z p(x|y)p(z|y) \log_2 \frac{p(x|y)p(z|y)}{p(x|y)p(z|y)} = \sum_x \sum_z p(x|y)p(z|y) \log_2 1 = 0 \)。
所以 \( I(X;Z|Y) = \sum_y p(y) \cdot 0 = 0 \)。
代回等式：\( I(X;Z) + I(X;Y|Z) = I(X;Y) + 0 \)。
即 \( I(X;Y) = I(X;Z) + I(X;Y|Z) \)。
由于互信息是非负的，\( I(X;Y|Z) \ge 0 \)。
因此，\( I(X;Y) \ge I(X;Z) \)。
证毕。

意义： 数据处理不等式表明，通过一个信道（或任何数据处理过程，如译码器），信息量不会增加。如果 \( Y \) 是从 \( X \) 传输得到的，而 \( Z \) 是从 \( Y \) 传输得到的，那么 \( Y \) 包含的关于 \( X \) 的信息不会少于 \( Z \) 包含的关于 \( X \) 的信息。这符合直觉，任何对数据的处理（除非是无损可逆的）都可能丢失信息，但不会创造信息。在通信系统中，这意味着接收到的信号 \( Y \) 包含的关于发送消息 \( X \) 的信息量，不会少于经过译码器处理后的输出 \( Z \) 包含的信息量。
渐进等分性（AEP）： 对于一个独立同分布（i.i.d.）的随机序列 \( X_1, X_2, \dots, X_n \)，当 \( n \) 足够大时，序列的经验平均（如样本均值、样本熵）会以高概率接近其期望值（如真实均值、真实熵）。具体来说，对于一个离散i.i.d.序列，其联合概率 \( p(x_1, \dots, x_n) \) 会以高概率接近 \( 2^{-nH(X)} \)。
典型集（Typical Set）： 典型集 \( A_\epsilon^{(n)} \) 是所有长度为 \( n \) 的序列的集合，这些序列满足某些统计性质接近其期望值，例如序列的经验熵接近 \( H(X) \)。对于离散i.i.d.序列，典型集中的序列数量大约是 \( 2^{nH(X)} \)，并且典型集包含了绝大多数的概率质量。
在香农信道编码定理证明中的作用： AEP和典型集是香农定理证明的基石。可达性证明利用了联合典型集的概念。对于一个速率为 \( R \) 的码本，有 \( 2^{nR} \) 个码字。如果 \( R < C \)，通过信道后，发送的码字 \( \mathbf{x} \) 和接收到的序列 \( \mathbf{y} \) 以高概率落在联合典型集 \( A_\epsilon^{(n)} \) 中。而对于其他未发送的码字 \( \mathbf{x}' \)，\( (\mathbf{x}', \mathbf{y}) \) 落在联合典型集中的概率非常小。译码器正是利用这一特性，通过寻找与接收序列联合典型的唯一码字来实现可靠译码。逆定理的证明也间接依赖于AEP，通过Fano不等式将错误概率与条件熵联系起来，而条件熵的极限行为可以通过AEP来分析。
应用： 现代无线通信系统（如4G LTE, 5G）的设计广泛应用了信道容量理论。例如，在设计调制方案（Modulation Scheme）和编码方案（Coding Scheme）时，工程师会考虑当前信道的条件（如带宽、噪声水平、衰落情况）来估计信道容量。然后，他们会选择一种调制方式（如QPSK, 16QAM, 64QAM）和一种纠错码（如LDPC码、Turbo码），使得实际传输速率尽可能接近信道容量，同时保证可接受的错误率。自适应调制和编码（Adaptive Modulation and Coding, AMC）技术更是直接根据实时的信道质量（通常通过测量信噪比来估计容量）动态调整调制阶数和编码速率，以最大化吞吐量，使其始终接近当前信道的容量极限。

10.4 参考文献（References）

以下列出本书撰写过程中参考的以及推荐读者进一步深入学习的经典文献和教材：

⚝ [1] Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423; 27(4), 623-656. (信息论的奠基性论文)
⚝ [2] Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience. (信息论领域的标准教材，内容全面且深入)
⚝ [3] MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press. (另一本优秀的教材，特别是对编码理论和机器学习有深入探讨，可在线免费获取)
⚝ [4] Gallager, R. G. (1968). Information Theory and Reliable Communication. John Wiley & Sons. (经典教材，对信道编码有详细论述)
⚝ [5] Proakis, J. G. (2008). Digital Communications (5th ed.). McGraw-Hill. (通信原理经典教材，其中包含信道容量和编码的相关章节)
⚝ [6] Goldsmith, A. (2005). Wireless Communications. Cambridge University Press. (专注于无线通信，其中多章讨论了无线信道的容量，如衰落信道和MIMO信道)

10.5 索引（Index）

本索引列出了本书中出现的重要术语和概念，方便读者查阅。

⚝ AWGN信道（AWGN Channel）
⚝ BEC信道（Binary Erasure Channel, BEC）
⚝ BSC信道（Binary Symmetric Channel, BSC）
⚝ 编码（Encoding）
⚝ 典型集（Typical Set）
⚝ 传输速率（Transmission Rate）
⚝ 凹函数（Concave Function）
⚝ 凸函数（Convex Function）
⚝ 数据处理不等式（Data Processing Inequality）
⚝ 递推译码（Iterative Decoding）
⚝ 离散无记忆信道（Discrete Memoryless Channel, DMC）
⚝ 独立同分布（Independent and Identically Distributed, i.i.d.）
⚝ 概率密度函数（Probability Density Function, PDF）
⚝ 概率质量函数（Probability Mass Function, PMF）
⚝ 期望（Expectation）
⚝ 熵（Entropy）
⚝ 错误概率（Error Probability）
⚝ Fano不等式（Fano's Inequality）
⚝ 功率约束（Power Constraint）
⚝ 广播信道（Broadcast Channel, BC）
⚝ 互信息（Mutual Information）
⚝ 加性高斯白噪声（Additive White Gaussian Noise, AWGN）
⚝ 加性噪声信道（Additive Noise Channel）
⚝ 联合典型性（Joint Typicality）
⚝ 联合熵（Joint Entropy）
⚝ 渐进等分性（Asymptotic Equipartition Property, AEP）
⚝ 交叉概率（Crossover Probability）
⚝ 条件熵（Conditional Entropy）
⚝ 可达性（Achievability）
⚝ 可靠通信（Reliable Communication）
⚝ 拉格朗日乘子法（Lagrange Multipliers）
⚝ LDPC码（LDPC Codes）
⚝ 链式法则（Chain Rules）
⚝ 马尔可夫链（Markov Chain）
⚝ 码本（Codebook）
⚝ 码字（Codeword）
⚝ 码长（Code Length）
⚝ 边缘概率分布（Marginal Probability Distribution）
⚝ 蒙特卡洛方法（Monte Carlo Method）
⚝ 模糊度函数（Ambiguity Function）
⚝ 多输入多输出（Multiple-Input Multiple-Output, MIMO）
⚝ 多址信道（Multiple Access Channel, MAC）
⚝ 逆定理（Converse）
⚝ 判决区域（Decision Region）
⚝ 随机编码（Random Coding）
⚝ 随机变量（Random Variable）
⚝ 衰落信道（Fading Channel）
⚝ 香农-哈特利定理（Shannon-Hartley Theorem）
⚝ 香农信道编码定理（Shannon's Channel Coding Theorem）
⚝ 信道容量（Channel Capacity）
⚝ 信道矩阵（Channel Matrix）
⚝ 信道模型（Channel Model）
⚝ 信道转移概率（Channel Transition Probabilities）
⚝ 信噪比（Signal-to-Noise Ratio, SNR）
⚝ 信息（Information）
⚝ 信息论（Information Theory）
⚝ 译码（Decoding）
⚝ 优化（Optimization）
⚝ 噪声功率谱密度（Noise Power Spectral Density）
⚝ Z信道（Z-Channel）
⚝ 自信息（Self-Information）