文件浏览器

018 《数值分析：原理、方法与实践 (Numerical Analysis: Principles, Methods, and Practice)》

作者Lou Xiao, gemini创建时间2025-04-19 16:38:44更新时间2025-04-19 16:38:44

🌟🌟🌟本文案由Gemini 2.0 Flash Thinking Experimental 01-21创作，用来辅助学习知识。🌟🌟🌟

书籍大纲

▮▮▮▮ 1. chapter 1：绪论 (Introduction)
▮▮▮▮▮▮▮ 1.1 数值分析的研究对象与作用 (Objects and Roles of Numerical Analysis)
▮▮▮▮▮▮▮ 1.2 数值分析的基本概念 (Basic Concepts of Numerical Analysis)
▮▮▮▮▮▮▮ 1.3 误差来源与分类 (Sources and Classification of Errors)
▮▮▮▮▮▮▮ 1.4 有效数字与数值计算的稳定性 (Significant Digits and Stability of Numerical Computation)
▮▮▮▮▮▮▮▮▮▮▮ 1.4.1 绝对误差与相对误差 (Absolute Error and Relative Error)
▮▮▮▮▮▮▮▮▮▮▮ 1.4.2 误差的传播与积累 (Error Propagation and Accumulation)
▮▮▮▮▮▮▮▮▮▮▮ 1.4.3 数值稳定性与算法设计原则 (Numerical Stability and Algorithm Design Principles)
▮▮▮▮ 2. chapter 2：方程求根 (Root Finding)
▮▮▮▮▮▮▮ 2.1 二分法 (Bisection Method)
▮▮▮▮▮▮▮ 2.2 不动点迭代法 (Fixed-Point Iteration Method)
▮▮▮▮▮▮▮ 2.3 牛顿法 (Newton's Method)
▮▮▮▮▮▮▮ 2.4 弦截法 (Secant Method)
▮▮▮▮▮▮▮ 2.5 收敛速度与误差估计 (Convergence Rate and Error Estimation)
▮▮▮▮▮▮▮ 2.6 多项式求根 (Polynomial Root Finding)
▮▮▮▮▮▮▮▮▮▮▮ 2.6.1 伴随矩阵法 (Companion Matrix Method)
▮▮▮▮▮▮▮▮▮▮▮ 2.6.2 斯图姆定理 (Sturm's Theorem)
▮▮▮▮ 3. chapter 3：线性方程组的数值解法 (Numerical Methods for Linear Systems)
▮▮▮▮▮▮▮ 3.1 高斯消元法 (Gaussian Elimination)
▮▮▮▮▮▮▮ 3.2 LU分解 (LU Decomposition)
▮▮▮▮▮▮▮ 3.3 特殊矩阵的LU分解 (LU Decomposition for Special Matrices)
▮▮▮▮▮▮▮▮▮▮▮ 3.3.1 对称正定矩阵的乔列斯基分解 (Cholesky Decomposition for Symmetric Positive Definite Matrices)
▮▮▮▮▮▮▮▮▮▮▮ 3.3.2 三对角矩阵的追赶法 (Tridiagonal Matrix Algorithm, TDMA)
▮▮▮▮▮▮▮ 3.4 迭代法 (Iterative Methods)
▮▮▮▮▮▮▮▮▮▮▮ 3.4.1 雅可比迭代法 (Jacobi Iteration Method)
▮▮▮▮▮▮▮▮▮▮▮ 3.4.2 高斯-赛德尔迭代法 (Gauss-Seidel Iteration Method)
▮▮▮▮▮▮▮▮▮▮▮ 3.4.3 超松弛迭代法 (Successive Over-Relaxation, SOR)
▮▮▮▮▮▮▮ 3.5 收敛性分析与迭代法加速 (Convergence Analysis and Acceleration of Iterative Methods)
▮▮▮▮▮▮▮ 3.6 线性方程组的病态性与条件数 (Ill-Conditioning and Condition Number of Linear Systems)
▮▮▮▮ 4. chapter 4：插值与逼近 (Interpolation and Approximation)
▮▮▮▮▮▮▮ 4.1 拉格朗日插值 (Lagrange Interpolation)
▮▮▮▮▮▮▮ 4.2 牛顿插值 (Newton Interpolation)
▮▮▮▮▮▮▮ 4.3 埃尔米特插值 (Hermite Interpolation)
▮▮▮▮▮▮▮ 4.4 分段多项式插值与样条函数 (Piecewise Polynomial Interpolation and Spline Functions)
▮▮▮▮▮▮▮▮▮▮▮ 4.4.1 线性样条插值 (Linear Spline Interpolation)
▮▮▮▮▮▮▮▮▮▮▮ 4.4.2 三次样条插值 (Cubic Spline Interpolation)
▮▮▮▮▮▮▮ 4.5 曲线拟合的最小二乘法 (Least Squares Method for Curve Fitting)
▮▮▮▮▮▮▮ 4.6 正交多项式与最佳逼近 (Orthogonal Polynomials and Best Approximation)
▮▮▮▮▮▮▮▮▮▮▮ 4.6.1 切比雪夫多项式 (Chebyshev Polynomials)
▮▮▮▮▮▮▮▮▮▮▮ 4.6.2 勒让德多项式 (Legendre Polynomials)
▮▮▮▮ 5. chapter 5：数值积分与数值微分 (Numerical Integration and Numerical Differentiation)
▮▮▮▮▮▮▮ 5.1 数值积分的基本思想与方法 (Basic Ideas and Methods of Numerical Integration)
▮▮▮▮▮▮▮ 5.2 牛顿-科特斯公式 (Newton-Cotes Formulas)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.1 梯形公式 (Trapezoidal Rule)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.2 辛普森公式 (Simpson's Rule)
▮▮▮▮▮▮▮ 5.3 复合求积公式 (Composite Quadrature Rules)
▮▮▮▮▮▮▮ 5.4 龙贝格积分法 (Romberg Integration)
▮▮▮▮▮▮▮ 5.5 高斯求积公式 (Gaussian Quadrature)
▮▮▮▮▮▮▮ 5.6 数值微分 (Numerical Differentiation)
▮▮▮▮▮▮▮▮▮▮▮ 5.6.1 差商公式 (Difference Quotient Formulas)
▮▮▮▮▮▮▮▮▮▮▮ 5.6.2 提高精度的数值微分方法 (Methods to Improve Accuracy of Numerical Differentiation)
▮▮▮▮ 6. chapter 6：常微分方程数值解法 (Numerical Methods for Ordinary Differential Equations)
▮▮▮▮▮▮▮ 6.1 初值问题与边值问题 (Initial Value Problems and Boundary Value Problems)
▮▮▮▮▮▮▮ 6.2 欧拉方法 (Euler Methods)
▮▮▮▮▮▮▮▮▮▮▮ 6.2.1 前向欧拉方法 (Forward Euler Method)
▮▮▮▮▮▮▮▮▮▮▮ 6.2.2 后向欧拉方法 (Backward Euler Method)
▮▮▮▮▮▮▮ 6.3 龙格-库塔方法 (Runge-Kutta Methods)
▮▮▮▮▮▮▮▮▮▮▮ 6.3.1 二阶龙格-库塔方法 (Second-Order Runge-Kutta Methods)
▮▮▮▮▮▮▮▮▮▮▮ 6.3.2 四阶龙格-库塔方法 (Fourth-Order Runge-Kutta Methods)
▮▮▮▮▮▮▮ 6.4 线性多步法 (Linear Multistep Methods)
▮▮▮▮▮▮▮▮▮▮▮ 6.4.1 亚当斯-巴什福思方法 (Adams-Bashforth Methods)
▮▮▮▮▮▮▮▮▮▮▮ 6.4.2 亚当斯-莫尔顿方法 (Adams-Moulton Methods)
▮▮▮▮▮▮▮ 6.5 稳定性与收敛性 (Stability and Convergence)
▮▮▮▮▮▮▮ 6.6 刚性方程组 (Stiff Equations)
▮▮▮▮ 7. chapter 7：偏微分方程数值解法 (Numerical Methods for Partial Differential Equations)
▮▮▮▮▮▮▮ 7.1 偏微分方程的分类与定解问题 (Classification of Partial Differential Equations and Well-Posed Problems)
▮▮▮▮▮▮▮ 7.2 差分方法 (Finite Difference Methods)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.1 椭圆型方程的差分格式 (Finite Difference Schemes for Elliptic Equations)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.2 抛物型方程的差分格式 (Finite Difference Schemes for Parabolic Equations)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.3 双曲型方程的差分格式 (Finite Difference Schemes for Hyperbolic Equations)
▮▮▮▮▮▮▮ 7.3 有限元方法简介 (Introduction to Finite Element Methods)
▮▮▮▮▮▮▮▮▮▮▮ 7.3.1 变分原理 (Variational Principles)
▮▮▮▮▮▮▮▮▮▮▮ 7.3.2 有限元离散 (Finite Element Discretization)
▮▮▮▮ 8. chapter 8：特征值与特征向量的计算 (Computation of Eigenvalues and Eigenvectors)
▮▮▮▮▮▮▮ 8.1 幂法与反幂法 (Power Iteration and Inverse Power Iteration)
▮▮▮▮▮▮▮ 8.2 QR算法 (QR Algorithm)
▮▮▮▮▮▮▮ 8.3 雅可比方法 (Jacobi Method)
▮▮▮▮ 9. chapter 9：最优化方法 (Optimization Methods)
▮▮▮▮▮▮▮ 9.1 无约束最优化 (Unconstrained Optimization)
▮▮▮▮▮▮▮▮▮▮▮ 9.1.1 最速下降法 (Steepest Descent Method)
▮▮▮▮▮▮▮▮▮▮▮ 9.1.2 牛顿法 (Newton's Method)
▮▮▮▮▮▮▮▮▮▮▮ 9.1.3 共轭梯度法 (Conjugate Gradient Method)
▮▮▮▮▮▮▮ 9.2 约束最优化 (Constrained Optimization)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.1 拉格朗日乘子法 (Lagrange Multiplier Method)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.2 罚函数法 (Penalty Function Method)
▮▮▮▮ 10. chapter 10：数值分析的应用案例 (Application Cases of Numerical Analysis)
▮▮▮▮▮▮▮ 10.1 科学计算中的应用 (Applications in Scientific Computing)
▮▮▮▮▮▮▮ 10.2 工程技术中的应用 (Applications in Engineering Technology)
▮▮▮▮▮▮▮ 10.3 数据分析与机器学习中的应用 (Applications in Data Analysis and Machine Learning)
▮▮▮▮▮▮▮ 附录A：常用数学公式 (Common Mathematical Formulas)
▮▮▮▮▮▮▮ 附录B：MATLAB/Python 数值计算工具箱简介 (Introduction to MATLAB/Python Numerical Computation Toolboxes)

1. chapter 1：绪论 (Introduction)

1.1 数值分析的研究对象与作用 (Objects and Roles of Numerical Analysis)

数值分析 (Numerical Analysis)，作为数学科学的一个重要分支，是研究数值方法（numerical methods）的学科。它专注于为各种数学问题设计和分析有效的计算方法，这些问题通常来自于科学、工程、经济学以及其他众多领域。在现代科技高度发展的背景下，数值分析的重要性日益凸显，因为它为解决那些无法通过解析方法求解的复杂数学问题提供了强有力的工具。

① 研究对象 (Objects of Study)：数值分析的研究对象主要集中在连续数学问题（continuous mathematical problems）的离散化（discretization）及其数值求解（numerical solution）。这些问题包括但不限于：

▮▮▮▮ⓐ 方程求根 (Root Finding)：寻找方程 \(f(x) = 0\) 的根，例如代数方程、超越方程等。
▮▮▮▮ⓑ 线性方程组求解 (Solving Linear Systems)：求解形如 \(Ax = b\) 的线性方程组，其中 \(A\) 是矩阵，\(x\) 和 \(b\) 是向量。
▮▮▮▮ⓒ 插值与逼近 (Interpolation and Approximation)：用简单的函数（如多项式）逼近复杂的函数，或者根据离散的数据点构造函数。
▮▮▮▮ⓓ 数值积分与数值微分 (Numerical Integration and Numerical Differentiation)：计算定积分的近似值，以及导数的近似值。
▮▮▮▮ⓔ 常微分方程与偏微分方程数值解 (Numerical Solutions of Ordinary and Partial Differential Equations)：求解描述物理、工程等领域动态过程的微分方程。
▮▮▮▮ⓕ 特征值与特征向量计算 (Eigenvalue and Eigenvector Computation)：计算矩阵的特征值和特征向量，这在振动分析、量子力学等领域至关重要。
▮▮▮▮ⓖ 最优化方法 (Optimization Methods)：寻找函数的最优值（最大值或最小值），广泛应用于机器学习、运筹学等领域。

② 主要作用 (Main Roles)：数值分析在现代科学技术中扮演着至关重要的角色，其主要作用体现在以下几个方面：

⚝ 解决实际问题 (Solving Practical Problems)：许多实际问题可以用数学模型来描述，但这些数学模型往往非常复杂，难以找到解析解。数值分析提供了一系列有效的方法，可以获得这些问题的近似数值解，从而解决实际工程和科学计算问题。例如，在结构力学中，使用有限元方法（finite element method）可以分析复杂结构的受力情况；在流体力学中，使用计算流体力学（Computational Fluid Dynamics, CFD）方法可以模拟流体运动。
⚝ 科学计算的基石 (Foundation of Scientific Computing)：数值分析是科学计算的核心和基础。科学计算是指利用计算机解决科学和工程问题的过程，而数值分析提供了科学计算中各种算法的设计、分析和实现方法。高性能计算、大数据分析、人工智能等领域都离不开数值分析的支持。
⚝ 算法设计与优化 (Algorithm Design and Optimization)：数值分析不仅关注如何求解问题，更注重设计高效、稳定的算法。一个好的数值算法应该具有计算速度快、精度高、稳定性好等特点。数值分析的研究推动了计算方法和算法的不断创新和优化。
⚝ 软件开发的基础 (Basis for Software Development)：许多科学计算软件和工程软件，如MATLAB、Python的NumPy和SciPy库、有限元分析软件ANSYS、COMSOL等，其核心算法都源于数值分析的理论和方法。数值分析为这些软件的开发提供了理论基础和技术支撑。
⚝ 跨学科研究的桥梁 (Bridge for Interdisciplinary Research)：数值分析作为一种通用的数学工具，连接了数学与其他学科，促进了跨学科研究的发展。例如，在生物信息学、金融工程、气候模拟等领域，数值分析都发挥着重要的作用。

总之，数值分析是一门理论性与实践性并重的学科。它不仅为我们提供了解决复杂数学问题的有效手段，也推动了科学技术的进步和社会的发展。随着计算机技术的不断发展，数值分析的应用前景将更加广阔。

1.2 数值分析的基本概念 (Basic Concepts of Numerical Analysis)

在深入学习数值分析之前，理解一些基本概念至关重要。这些概念构成了数值分析的理论基础，并贯穿于各种数值方法的分析和应用之中。

① 数值计算方法 (Numerical Computation Methods)：数值分析的核心是研究数值计算方法，也常被称为数值算法（numerical algorithms）。数值计算方法是指用计算机求解数学问题的具体步骤和过程。与解析方法不同，数值方法通常通过一系列的数值运算（numerical operations），如加、减、乘、除等，逐步逼近问题的精确解。

⚝ 离散化 (Discretization)：将连续的数学问题转化为离散的数值问题是数值方法的第一步。例如，求解微分方程时，需要将连续的自变量离散化为一系列离散的点，并将微分算子用差分算子近似。
⚝ 迭代 (Iteration)：许多数值方法采用迭代的思想。从一个初始近似解出发，通过某种迭代公式，不断改进近似解，使其逐步逼近精确解。例如，牛顿迭代法（Newton's method）和各种迭代法求解线性方程组。
⚝ 逼近 (Approximation)：由于数值方法通常只能得到近似解，因此逼近是数值分析中一个核心概念。我们需要用简单的、易于计算的函数或数值来逼近复杂的、难以直接求解的函数或解。例如，用多项式插值逼近函数，用数值积分公式逼近定积分。

② 算法的收敛性与精度 (Convergence and Accuracy of Algorithms)：评价一个数值方法好坏的重要标准是其收敛性（convergence）和精度（accuracy）。

⚝ 收敛性 (Convergence)：收敛性是指当迭代次数或离散步长趋于极限时，数值解是否逼近精确解。一个好的数值方法必须是收敛的，即当计算条件不断改进时，数值解应该越来越接近精确解。
⚝ 精度 (Accuracy)：精度是指数值解与精确解的接近程度。精度通常用误差（error）来衡量。误差越小，精度越高。数值分析不仅要研究算法的收敛性，还要分析算法的精度，即误差的大小和阶数。

③ 算法的稳定性 (Stability of Algorithms)：稳定性（stability）是数值算法的另一个重要性质。在数值计算过程中，由于计算机的有限精度（finite precision）运算，以及初始数据可能存在误差，都会导致计算结果产生误差。一个稳定的算法应该能够控制误差的增长，使得计算结果不会因为误差的积累而变得完全不可靠。

⚝ 数值稳定性 (Numerical Stability)：指在计算过程中，小的扰动（如输入数据的误差、舍入误差等）不会导致计算结果产生巨大的偏差。
⚝ 条件数 (Condition Number)：用于衡量问题的病态程度（ill-conditioning）。条件数越大，问题越病态，即输入数据的微小变化可能导致输出结果的巨大变化。数值分析需要研究如何处理病态问题，以及如何设计条件数较小的算法。

④ 计算复杂性与计算效率 (Computational Complexity and Efficiency)：在实际应用中，除了算法的收敛性、精度和稳定性外，计算复杂性（computational complexity）和计算效率（computational efficiency）也是非常重要的考虑因素。

⚝ 计算复杂性 (Computational Complexity)：指算法执行所需的计算量，通常用时间复杂度（time complexity）和空间复杂度（space complexity）来衡量。时间复杂度描述算法执行时间随问题规模增长的速率，空间复杂度描述算法所需的存储空间随问题规模增长的速率。
⚝ 计算效率 (Computational Efficiency)：指在满足精度要求的前提下，算法的计算速度和资源消耗。数值分析需要设计计算效率高的算法，以在有限的计算资源下，尽可能快速地得到满足精度要求的数值解。

⑤ 误差分析 (Error Analysis)：误差是数值计算中不可避免的。误差分析（error analysis）是数值分析的重要组成部分，主要研究误差的来源、分类、传播和控制。理解误差的性质，可以帮助我们选择合适的数值方法，评估计算结果的可靠性，并改进算法以提高精度。

⚝ 误差来源 (Sources of Errors)：数值计算中的误差主要来源于模型误差、观测误差、截断误差和舍入误差。
⚝ 误差分类 (Classification of Errors)：误差可以分为绝对误差、相对误差、截断误差、舍入误差等。
⚝ 误差传播与积累 (Error Propagation and Accumulation)：研究误差在计算过程中如何传播和积累，是误差分析的关键内容。

理解和掌握这些基本概念，是学习数值分析的基础。在后续章节中，我们将围绕这些概念，深入探讨各种数值方法的原理、性质和应用。

1.3 误差来源与分类 (Sources and Classification of Errors)

在数值计算中，误差是不可避免的。理解误差的来源和分类，对于选择合适的数值方法、评估计算结果的可靠性以及改进算法至关重要。数值计算中的误差主要来源于以下几个方面：

① 模型误差 (Model Error)：模型误差是指由于数学模型本身与实际问题之间存在的差异而引入的误差。在建立数学模型时，为了简化问题，我们常常会忽略一些次要因素，或者对实际问题进行一定的理想化（idealization）假设。这种简化和理想化必然会导致模型与实际情况之间存在偏差，从而产生模型误差。

⚝ 例如，在物理建模中，我们可能会将空气阻力忽略不计，或者将地球视为一个完美的球体。这些简化假设虽然方便了数学处理，但也引入了模型误差。
⚝ 模型误差的大小取决于模型的精确程度。更精细的模型通常能更好地反映实际情况，但同时也可能更复杂，难以求解。

② 观测误差 (Observation Error) 或 数据误差 (Data Error)：观测误差或数据误差是指在实验观测或数据采集过程中产生的误差。数值计算的输入数据通常来自于实验测量、统计调查或者其他数据来源。由于测量工具的精度限制、人为操作的误差、环境因素的干扰等原因，观测数据不可避免地存在误差。

⚝ 例如，测量长度、温度、电压等物理量时，仪器的精度和读数误差都会导致观测误差。
⚝ 数据误差的大小取决于测量仪器的精度和测量方法。高质量的实验数据可以减小数据误差，但无法完全消除。

③ 截断误差 (Truncation Error) 或 方法误差 (Method Error)：截断误差或方法误差是指由于使用近似的数学公式或数值方法代替精确的数学运算而产生的误差。数值分析的核心思想是用有限的、离散的运算来逼近无限的、连续的运算。在这个过程中，必然会进行截断（truncation）或近似（approximation），从而产生截断误差。

⚝ 例如，用泰勒展开式的前几项来近似函数值，舍去了高阶项，由此产生的误差就是截断误差。
⚝ 数值积分中，用有限项求和公式（如梯形公式、辛普森公式）来近似定积分，产生的误差也是截断误差。
⚝ 迭代法求解方程时，迭代过程在有限步后终止，得到的近似解与精确解之间的误差也属于截断误差。

④ 舍入误差 (Round-off Error) 或 计算误差 (Computational Error)：舍入误差或计算误差是指由于计算机的有限字长（finite word length）而对数值进行舍入（rounding）处理所产生的误差。计算机在进行数值计算时，只能使用有限位数的二进制数来表示实数。当进行数值运算时，如果运算结果的位数超过了计算机的字长，就需要进行舍入处理，将超出字长的部分舍去，从而产生舍入误差。

⚝ 例如，在十进制系统中，用3.333近似表示 \(10/3\) 就产生了舍入误差。在计算机中，浮点数的表示和运算都会产生舍入误差。
⚝ 舍入误差的大小取决于计算机的字长和舍入方式（如四舍五入、截断等）。

根据误差的性质和来源，还可以对误差进行不同的分类：

① 绝对误差 (Absolute Error) 与 相对误差 (Relative Error)：这是描述误差大小的两种常用方式，将在 1.4.1 节详细介绍。

② 先验误差 (Prior Error) 与 后验误差 (Posterior Error)：

⚝ 先验误差是指在数值计算开始之前就可以估计出的误差界限。例如，在数值积分中，可以根据被积函数的性质和积分公式的阶数，预先估计出截断误差的上界。
⚝ 后验误差是指在数值计算完成后，根据计算结果来估计的误差。例如，在迭代法求解方程时，可以通过比较相邻两次迭代结果的差异来估计误差。

③ 局部误差 (Local Error) 与 全局误差 (Global Error)：

⚝ 局部误差是指在单步计算中产生的误差。例如，在求解常微分方程的数值方法中，每一步迭代都会产生局部截断误差。
⚝ 全局误差是指经过多步计算后，累积的总误差。全局误差是局部误差的积累和传播的结果。

了解误差的来源和分类，有助于我们在数值计算中采取相应的措施来减小误差的影响，提高计算精度和可靠性。例如，选择精度更高的数值方法可以减小截断误差，使用更高精度的计算机可以减小舍入误差，改进实验方法可以减小观测误差。在实际应用中，需要综合考虑各种误差来源，选择合适的数值方法和计算策略，以获得满足精度要求的数值解。

1.4 有效数字与数值计算的稳定性 (Significant Digits and Stability of Numerical Computation)

1.4.1 绝对误差与相对误差 (Absolute Error and Relative Error)

在数值计算中，我们通常得到的是近似值，而不是精确值。为了衡量近似值的精确程度，需要引入误差（error）的概念。绝对误差（absolute error）和相对误差（relative error）是描述误差大小的两种基本方式。

① 绝对误差 (Absolute Error)：设 \(x\) 为精确值，\(\tilde{x}\) 为 \(x\) 的一个近似值，则绝对误差 \(e(\tilde{x})\) 定义为近似值 \(\tilde{x}\) 与精确值 \(x\) 之差的绝对值，即
\[ e(\tilde{x}) = |\tilde{x} - x| \]
绝对误差 \(e(\tilde{x})\) 反映了近似值 \(\tilde{x}\) 与精确值 \(x\) 之间的偏差大小。绝对误差的单位与精确值和近似值的单位相同。

② 相对误差 (Relative Error)：相对误差 \(e_r(\tilde{x})\) 定义为绝对误差 \(e(\tilde{x})\) 与精确值 \(|x|\) 之比，即
\[ e_r(\tilde{x}) = \frac{e(\tilde{x})}{|x|} = \frac{|\tilde{x} - x|}{|x|} \]
通常，相对误差用百分比表示，即 \(e_r(\tilde{x}) \times 100\%\)。相对误差反映了误差在精确值中所占的比例，是一个无量纲（dimensionless）的量。当精确值 \(x\) 接近于零时，相对误差可能会变得很大，此时使用绝对误差可能更合适。

③ 误差限 (Error Bound) 或 误差界 (Error Limit)：在实际应用中，精确值 \(x\) 往往是未知的，因此绝对误差和相对误差也无法精确计算。但我们可以估计误差的上界，即误差限或误差界。如果存在一个正数 \(\epsilon\)，使得
\[ e(\tilde{x}) = |\tilde{x} - x| \le \epsilon \]
则称 \(\epsilon\) 为绝对误差限。类似地，如果存在一个正数 \(\epsilon_r\)，使得
\[ e_r(\tilde{x}) = \frac{|\tilde{x} - x|}{|x|} \le \epsilon_r \]
则称 \(\epsilon_r\) 为相对误差限。误差限通常用来估计数值计算结果的最大可能误差。

④ 有效数字 (Significant Digits)：有效数字是一种近似表示实数精度的方法。一般来说，如果近似值 \(\tilde{x}\) 的绝对误差限是某一位的半个单位，就说 \(\tilde{x}\) 精确到该位，从左边第一个非零数字起，到该位为止的所有数字称为 \(\tilde{x}\) 的有效数字。

更严格的定义是：若近似值 \(\tilde{x}\) 的相对误差限是 \(\frac{1}{2} \times 10^{-n}\)，则称 \(\tilde{x}\) 有 \(n\) 位有效数字。换句话说，如果近似值 \(\tilde{x}\) 可以表示为
\[ \tilde{x} = \pm (d_1.d_2d_3...d_n d_{n+1}...) \times 10^m \]
其中 \(d_1 \ne 0\)，\(d_i\) 为 0 到 9 的数字，且绝对误差 \(e(\tilde{x})\) 满足 \(e(\tilde{x}) \le \frac{1}{2} \times 10^{m-n+1}\)，则称 \(\tilde{x}\) 精确到 \(n\) 位有效数字，或称 \(\tilde{x}\) 有 \(n\) 位有效数字。

例如，若 \(\pi \approx 3.14159\)，其精确到小数点后 5 位，则称 3.14159 有 6 位有效数字。若 \(\pi \approx 3.14\)，其精确到小数点后 2 位，则称 3.14 有 3 位有效数字。

有效数字的概念可以帮助我们快速判断近似值的精度。有效数字位数越多，近似值的精度越高。在数值计算中，应根据问题的精度要求，选择合适的有效数字位数进行计算和结果表示。

1.4.2 误差的传播与积累 (Error Propagation and Accumulation)

在数值计算过程中，初始数据可能存在误差（如观测误差、舍入误差），计算过程中也会不断产生新的误差（如截断误差、舍入误差）。这些误差会随着计算的进行而传播（propagation）和积累（accumulation），最终影响计算结果的精度。理解误差的传播与积累规律，对于分析算法的稳定性、评估计算结果的可靠性至关重要。

① 误差的传播 (Error Propagation)：误差的传播是指在函数运算中，自变量的误差如何影响函数值的误差。设函数 \(f(x)\) 具有连续导数，\(x\) 为精确值，\(\tilde{x}\) 为 \(x\) 的近似值，则函数值 \(f(x)\) 的近似值可以表示为 \(f(\tilde{x})\)。利用泰勒展开，可以将 \(f(\tilde{x})\) 在 \(x\) 处展开：
\[ f(\tilde{x}) = f(x + (\tilde{x} - x)) \approx f(x) + f'(x)(\tilde{x} - x) \]
因此，函数值 \(f(\tilde{x})\) 的绝对误差近似为：
\[ e(f(\tilde{x})) = |f(\tilde{x}) - f(x)| \approx |f'(x)(\tilde{x} - x)| = |f'(x)| \cdot e(\tilde{x}) \]
相对误差近似为：
\[ e_r(f(\tilde{x})) = \frac{|f(\tilde{x}) - f(x)|}{|f(x)|} \approx \frac{|f'(x)| \cdot e(\tilde{x})}{|f(x)|} = \left| \frac{x f'(x)}{f(x)} \right| \cdot \frac{e(\tilde{x})}{|x|} = \left| \frac{x f'(x)}{f(x)} \right| \cdot e_r(\tilde{x}) \]
系数 \(C = \left| \frac{x f'(x)}{f(x)} \right|\) 称为误差放大因子（error amplification factor）或条件数（condition number）。当 \(|C| > 1\) 时，误差被放大；当 \(|C| < 1\) 时，误差被缩小；当 \(|C| \gg 1\) 时，误差被显著放大，表明函数 \(f(x)\) 在 \(x\) 附近是病态（ill-conditioned）的。

对于多元函数 \(f(x_1, x_2, ..., x_n)\)，误差传播公式可以推广为：
\[ e(f(\tilde{x}_1, \tilde{x}_2, ..., \tilde{x}_n)) \approx \sum_{i=1}^{n} \left| \frac{\partial f}{\partial x_i} \right| e(\tilde{x}_i) \]
\[ e_r(f(\tilde{x}_1, \tilde{x}_2, ..., \tilde{x}_n)) \approx \sum_{i=1}^{n} \left| \frac{x_i \frac{\partial f}{\partial x_i}}{f} \right| e_r(\tilde{x}_i) \]
这些公式表明，函数值的误差与自变量的误差以及函数的导数有关。导数越大，误差传播得越快。

② 误差的积累 (Error Accumulation)：误差的积累是指在多步计算过程中，每一步产生的误差会累积起来，影响最终的计算结果。例如，在求解常微分方程的数值方法中，每一步迭代都会产生局部截断误差和舍入误差，这些误差会随着迭代步数的增加而不断积累，导致全局误差增大。

⚝ 算术运算的误差积累：在加法、减法、乘法、除法等算术运算中，舍入误差会不断积累。例如，多个数相加时，每一步加法都可能产生舍入误差，最终的和的误差是每一步误差的积累。
⚝ 迭代过程的误差积累：在迭代法中，每一步迭代都会产生误差，这些误差会传递到下一步迭代中，并不断积累。如果迭代过程不稳定，误差可能会迅速增长，导致迭代结果发散或精度很差。

为了减小误差的传播与积累，需要采取以下措施：

⚝ 选择稳定的算法：稳定的算法能够有效地控制误差的传播与积累，使得计算结果不会因为误差的积累而变得不可靠。
⚝ 避免“大数减小数”：在数值计算中，应尽量避免两个相近的数相减，因为这会导致有效数字的严重损失，放大相对误差。
⚝ 先处理小因子，后处理大因子：在连乘运算中，先将绝对值小的因子相乘，后将绝对值大的因子相乘，可以减小舍入误差的积累。
⚝ 增加计算精度：使用更高精度的计算机或采用双精度、多精度计算，可以减小舍入误差。
⚝ 控制迭代步数：在迭代法中，选择合适的迭代终止条件，避免过多的迭代步数，可以减小误差的积累。

1.4.3 数值稳定性与算法设计原则 (Numerical Stability and Algorithm Design Principles)

数值稳定性（numerical stability）是衡量数值算法优劣的重要指标之一。一个数值算法如果具有数值稳定性，就意味着在计算过程中，小的扰动（如初始误差、舍入误差）不会导致计算结果产生巨大的偏差。反之，如果一个算法不稳定，小的扰动可能会被放大，导致计算结果完全不可靠。

① 数值稳定性的定义 (Definition of Numerical Stability)：数值稳定性的严格定义比较复杂，但在直观上，一个数值算法是稳定的，如果它满足以下条件：当初始数据或计算过程中出现小的扰动时，计算结果的扰动也是小的。更具体地说，如果算法的输出结果对输入数据的扰动是连续的，则称算法是稳定的。

② 数值不稳定性 (Numerical Instability)：数值不稳定性是指在计算过程中，小的扰动被放大，导致计算结果产生巨大偏差的现象。数值不稳定性通常与算法本身的设计有关，也可能与问题的性质（如病态问题）有关。

⚝ 绝对不稳定性 (Absolute Instability)：指误差在计算过程中呈指数增长，最终导致计算结果完全发散。例如，某些常微分方程数值解法在步长选择不当时可能出现绝对不稳定性。
⚝ 相对不稳定性 (Relative Instability)：指误差的增长速度虽然没有绝对不稳定性那么快，但仍然会导致计算结果的相对误差显著增大，精度降低。例如，在病态问题中，即使使用稳定的算法，也可能出现相对不稳定性。

③ 算法设计原则 (Algorithm Design Principles)：为了设计出稳定、高效、精确的数值算法，需要遵循以下一些基本原则：

⚝ 避免误差的放大 (Avoid Error Amplification)：在算法设计中，应尽量避免使用误差放大因子较大的运算，如“大数减小数”、“除以绝对值很小的数”等。应尽量采用误差放大因子较小的运算，如加法、乘法等。
⚝ 控制误差的积累 (Control Error Accumulation)：对于多步计算过程，应尽量选择误差积累速度较慢的算法。例如，在求解常微分方程时，隐式方法通常比显式方法具有更好的稳定性，误差积累速度较慢。
⚝ 选择合适的数值方法 (Choose Appropriate Numerical Methods)：针对不同的问题，应选择合适的数值方法。例如，对于病态问题，应选择条件数较小的算法；对于精度要求高的问题，应选择精度较高的算法。
⚝ 算法的收敛性与稳定性兼顾 (Balance Convergence and Stability)：一个好的数值算法不仅要保证收敛性，还要保证稳定性。收敛性保证当计算条件不断改进时，数值解逼近精确解；稳定性保证在有限精度计算下，计算结果的可靠性。在算法设计中，需要权衡收敛性和稳定性，选择合适的算法参数，如迭代步长、迭代次数等。
⚝ 简化计算步骤，提高计算效率 (Simplify Computational Steps and Improve Efficiency)：在满足精度和稳定性要求的前提下，应尽量简化计算步骤，减少计算量，提高计算效率。例如，在求解线性方程组时，LU分解法比高斯消元法在某些情况下更高效。
⚝ 进行误差分析与估计 (Perform Error Analysis and Estimation)：在数值计算过程中，应进行必要的误差分析与估计，评估计算结果的精度和可靠性。例如，可以利用误差传播公式估计误差的放大因子，或者通过后验误差估计方法评估实际计算误差。

总之，数值稳定性是数值算法设计和分析的核心问题之一。理解数值稳定性的概念，掌握算法设计原则，对于开发高质量的数值计算软件，解决实际科学和工程问题至关重要。在后续章节中，我们将结合具体的数值方法，深入探讨其稳定性、收敛性、精度和计算效率等性质。

2. chapter 2：方程求根 (Root Finding)

2.1 二分法 (Bisection Method)

二分法 (Bisection Method)，又称对分法或区间半Search法，是一种求解实数单变量函数 \( f(x) = 0 \) 的根的数值方法。它属于区间法 (Bracketed Method)，即在已知根的存在区间 \([a, b]\) 的前提下，通过不断将区间对半Search，缩小根所在的范围，从而逼近方程的根。二分法以其简单、稳健和对函数性质要求低等优点，成为数值分析中最基础且重要的求根方法之一。

基本思想

二分法的核心思想基于连续函数的介值定理 (Intermediate Value Theorem)。若连续函数 \( f(x) \) 在区间 \([a, b]\) 的端点异号，即 \( f(a) \cdot f(b) < 0 \)，则在区间 \((a, b)\) 内至少存在一个根。二分法正是利用这一性质，通过迭代Search过程逐步缩小区间，直至满足精度要求。

算法步骤

给定一个连续函数 \( f(x) \) 和一个包含根的初始区间 \([a_0, b_0]\)，二分法的迭代步骤如下：

① 初始化：设定初始区间 \([a_0, b_0]\) 和精度要求 \( \epsilon \)。计算 \( f(a_0) \) 和 \( f(b_0) \)，确保 \( f(a_0) \cdot f(b_0) < 0 \)。

② 迭代计算：对于第 \( k \) 次迭代 ( \( k = 0, 1, 2, \dots \) )，执行以下操作：
▮▮▮▮ⓑ 计算区间中点 \( c_k = \frac{a_k + b_k}{2} \)。
▮▮▮▮ⓒ 计算函数值 \( f(c_k) \)。
▮▮▮▮ⓓ 判断根所在区间：
▮▮▮▮▮▮▮▮❺ 若 \( f(c_k) = 0 \)，则 \( c_k \) 即为方程的根，迭代终止。
▮▮▮▮▮▮▮▮❻ 若 \( f(a_k) \cdot f(c_k) < 0 \)，则根在区间 \([a_k, c_k]\) 内，令 \( a_{k+1} = a_k \)，\( b_{k+1} = c_k \)。
▮▮▮▮▮▮▮▮❼ 若 \( f(c_k) \cdot f(b_k) < 0 \)，则根在区间 \([c_k, b_k]\) 内，令 \( a_{k+1} = c_k \)，\( b_{k+1} = b_k \).
▮▮▮▮ⓗ 检查收敛条件：若区间长度 \( |b_{k+1} - a_{k+1}| < \epsilon \) 或 \( |f(c_k)| < \epsilon \) (或其他预设的收敛准则) 满足，则停止迭代，\( c_k \) 或 \( c_{k+1} \) 可作为根的近似值。否则，返回步骤 ② 进行下一次迭代。

收敛性分析

二分法具有良好的收敛性。由于每次迭代都将区间长度减半，经过 \( k \) 次迭代后，区间长度变为 \( \frac{b_0 - a_0}{2^k} \)。因此，二分法是线性收敛的，其收敛速度较慢，但收敛性有保证。

误差估计

经过 \( k \) 次迭代后，根的近似值 \( c_k \) 与真实根 \( r \) 的误差 \( |c_k - r| \) 满足：
\[ |c_k - r| \le \frac{b_k - a_k}{2} = \frac{b_0 - a_0}{2^{k+1}} \]
这个公式可以用于预估达到一定精度所需的迭代次数，或在迭代过程中评估当前近似解的误差。

优缺点

⚝ 优点：
⚝ 算法简单，易于实现。
⚝ 收敛性有保证，只要初始区间包含根且函数连续，二分法就能收敛到根。
⚝ 对函数 \( f(x) \) 的性质要求低，只需连续性，不需要可导性。
⚝ 能够有效地隔离根，逐步缩小根所在的区间。

⚝ 缺点：
⚝ 收敛速度慢，为线性收敛。
⚝ 只能求实根，不能求复根。
⚝ 当根附近函数曲线平缓时，收敛速度更慢。
⚝ 无法求偶重根或切根，因为在这些情况下区间端点可能不会异号。
⚝ 需要预先确定包含根的初始区间。

应用场景

二分法常用于：

⚝ 为其他更快速的求根方法提供一个较好的初始近似值。
⚝ 求解对收敛速度要求不高，但对可靠性要求高的场合。
⚝ 作为教学示例，帮助理解数值求根的基本思想。

示例

求解方程 \( f(x) = x^3 - x - 1 = 0 \) 在区间 \([1, 2]\) 内的根，精度要求 \( \epsilon = 0.01 \)。

初始区间 \( [a_0, b_0] = [1, 2] \)，\( f(1) = -1 \)，\( f(2) = 5 \)，\( f(1) \cdot f(2) < 0 \)。

迭代次数 \( k \)	\( a_k \)	\( b_k \)	\( c_k = (a_k + b_k) / 2 \)	\( f(c_k) \)	区间长度 \( b_k - a_k \)
0	1.0	2.0	1.5	0.875	1.0
1	1.0	1.5	1.25	-0.296875	0.5
2	1.25	1.5	1.375	0.224609	0.25
3	1.25	1.375	1.3125	-0.051514	0.125
4	1.3125	1.375	1.34375	0.085917	0.0625
5	1.3125	1.34375	1.328125	0.016984	0.03125
6	1.3125	1.328125	1.3203125	-0.017399	0.015625
7	1.3203125	1.328125	1.32421875	-0.000212	0.0078125

由于第 7 次迭代区间长度 \( 0.0078125 < 0.01 \)，满足精度要求，可取 \( c_7 = 1.32421875 \) 作为方程的近似根。

2.2 不动点迭代法 (Fixed-Point Iteration Method)

不动点迭代法 (Fixed-Point Iteration Method) 是一种重要的迭代求根方法，它将求解方程 \( f(x) = 0 \) 转化为求解不动点问题 \( x = g(x) \)。通过构造合适的迭代函数 \( g(x) \)，并生成迭代序列 \( x_{k+1} = g(x_k) \)，期望该序列收敛到方程的根，即不动点。

不动点与不动点迭代

⚝ 不动点 (Fixed Point)：对于函数 \( g(x) \)，若存在一点 \( x^* \) 使得 \( x^* = g(x^*) \)，则称 \( x^* \) 为函数 \( g(x) \) 的不动点。
⚝ 不动点迭代 (Fixed-Point Iteration)：给定初始值 \( x_0 \)，构造迭代公式 \( x_{k+1} = g(x_k) \)，生成序列 \( \{x_k\}_{k=0}^{\infty} \)。若该序列收敛于 \( x^* \)，则 \( x^* \) 为 \( g(x) \) 的不动点，也可能是方程 \( f(x) = 0 \) 的根。

迭代函数的构造

将方程 \( f(x) = 0 \) 改写成 \( x = g(x) \) 的形式，迭代函数 \( g(x) \) 的构造不是唯一的。常见的构造方法有：

① 直接法：将方程 \( f(x) = 0 \) 变形为 \( x = x - f(x) \) 或 \( x = x + cf(x) \) ( \( c \) 为非零常数)，则可取 \( g(x) = x - f(x) \) 或 \( g(x) = x + cf(x) \)。更一般地，可以取 \( g(x) = x + h(x)f(x) \)，其中 \( h(x) \) 是适当选取的函数。

② 代数变形法：将方程 \( f(x) = 0 \) 通过代数运算变形为 \( x = g(x) \) 的形式。例如，对于方程 \( x^2 - x - 2 = 0 \)，可以变形为 \( x = \sqrt{x + 2} \) 或 \( x = 1 + \frac{2}{x} \) 等。

收敛性条件

不动点迭代法的收敛性是其应用的关键。压缩映射定理 (Banach Fixed-Point Theorem) 给出了不动点迭代法收敛的充分条件。

压缩映射定理：设 \( g(x) \) 在区间 \( [a, b] \) 上连续，且满足：
① 若 \( x \in [a, b] \)，则 \( g(x) \in [a, b] \) (保区间性)。
② 存在常数 \( 0 < L < 1 \)，使得对于任意 \( x, y \in [a, b] \)，有 \( |g(x) - g(y)| \le L|x - y| \) (压缩性)。

则在区间 \( [a, b] \) 上，\( g(x) \) 存在唯一不动点 \( x^* \)，且对于任意初始值 \( x_0 \in [a, b] \)，迭代序列 \( x_{k+1} = g(x_k) \) 收敛于 \( x^* \)。

收敛速度

不动点迭代法的收敛速度与迭代函数 \( g(x) \) 在不动点 \( x^* \) 处的导数 \( g'(x^*) \) 有关。

⚝ 若 \( |g'(x^*)| < 1 \)，则迭代法局部收敛。
⚝ 若 \( g'(x^*) = 0 \)，则迭代法至少是超线性收敛的。
⚝ 若 \( 0 < |g'(x^*)| < 1 \)，则迭代法是线性收敛的，其渐近收敛速度为 \( |g'(x^*)| \)。

误差估计

⚝ 先验误差估计：
\[ \|x_k - x^*\| \le \frac{L^k}{1 - L} \|x_1 - x_0\| \]
⚝ 后验误差估计：
\[ \|x_k - x^*\| \le \frac{L}{1 - L} \|x_k - x_{k-1}\| \]
后验误差估计在实际计算中更常用，因为它可以使用当前迭代步的信息来估计误差。

优缺点

⚝ 优点：
⚝ 算法原理简单，易于理解和实现。
⚝ 构造合适的迭代函数后，可能获得较快的收敛速度。

⚝ 缺点：
⚝ 迭代函数的构造不唯一，选择不当可能导致不收敛或收敛速度慢。
⚝ 收敛性依赖于迭代函数 \( g(x) \) 的性质，需要满足压缩映射条件。
⚝ 局部收敛性，初始值的选取对收敛性有影响。

应用场景

不动点迭代法广泛应用于：

⚝ 求解非线性方程组。
⚝ 求解积分方程和微分方程。
⚝ 某些优化问题的迭代求解。

示例

求解方程 \( f(x) = x^2 - 2x - 3 = 0 \) 的根。将其变形为 \( x = g(x) = \sqrt{2x + 3} \)。

取初始值 \( x_0 = 4 \)，迭代计算：

\( x_1 = \sqrt{2 \cdot 4 + 3} = \sqrt{11} \approx 3.3166 \)
\( x_2 = \sqrt{2 \cdot 3.3166 + 3} = \sqrt{9.6332} \approx 3.1037 \)
\( x_3 = \sqrt{2 \cdot 3.1037 + 3} = \sqrt{9.2074} \approx 3.0344 \)
\( \dots \)

可以验证，迭代序列逐渐收敛到根 \( x^* = 3 \)。

2.3 牛顿法 (Newton's Method)

牛顿法 (Newton's Method)，又称牛顿-拉夫逊方法 (Newton-Raphson Method)，是求解非线性方程 \( f(x) = 0 \) 的最有效和最常用的迭代方法之一。它具有局部快速收敛的特点，尤其在根的附近收敛速度非常快，通常为二次收敛。

基本思想

牛顿法的几何意义是利用切线逼近。在当前近似根 \( x_k \) 处，作函数 \( y = f(x) \) 的切线，切线与 \( x \) 轴的交点作为新的近似根 \( x_{k+1} \)。通过不断迭代，切线与曲线的交点逐步逼近方程的根。

迭代公式的推导

设 \( x_k \) 是方程 \( f(x) = 0 \) 的第 \( k \) 次近似根。将函数 \( f(x) \) 在 \( x_k \) 处进行泰勒展开 (Taylor Expansion)：
\[ f(x) \approx f(x_k) + f'(x_k)(x - x_k) \]
为了求方程 \( f(x) = 0 \) 的根，令 \( f(x) \approx 0 \)，得到线性方程：
\[ f(x_k) + f'(x_k)(x - x_k) = 0 \]
解此线性方程，得到牛顿法的迭代公式：
\[ x_{k+1} = x_k - \frac{f(x_k)}{f'(x_k)} \]
前提条件是 \( f'(x_k) \neq 0 \)。

算法步骤

① 初始化：选取初始近似根 \( x_0 \) 和精度要求 \( \epsilon \)。

② 迭代计算：对于第 \( k \) 次迭代 ( \( k = 0, 1, 2, \dots \) )，执行以下操作：
▮▮▮▮ⓑ 计算函数值 \( f(x_k) \) 和导数值 \( f'(x_k) \)。
▮▮▮▮ⓒ 若 \( |f'(x_k)| \) 非常小 (接近于零)，则停止迭代 (可能遇到奇异情况或导数接近于零)。
▮▮▮▮ⓓ 计算下一个近似根 \( x_{k+1} = x_k - \frac{f(x_k)}{f'(x_k)} \)。
▮▮▮▮ⓔ 检查收敛条件：若 \( |x_{k+1} - x_k| < \epsilon \) 或 \( |f(x_{k+1})| < \epsilon \) (或其他预设的收敛准则) 满足，则停止迭代，\( x_{k+1} \) 作为根的近似值。否则，返回步骤 ② 进行下一次迭代。

收敛性分析

牛顿法具有局部二次收敛性。若 \( f(x) \) 在根 \( x^* \) 附近二阶连续可导，\( f(x^*) = 0 \)，\( f'(x^*) \neq 0 \)，且初始值 \( x_0 \) 充分接近 \( x^* \)，则牛顿法产生的序列 \( \{x_k\} \) 二次收敛于 \( x^* \)。

二次收敛 (Quadratic Convergence)：若迭代法收敛，且存在常数 \( C > 0 \) 和 \( q = 2 \)，使得当 \( k \) 充分大时，有
\[ \|x_{k+1} - x^*\| \le C \|x_k - x^*\|^2 \]
则称该迭代法为二次收敛。二次收敛意味着误差平方阶地减小，收敛速度非常快。

收敛条件

牛顿法的收敛性依赖于初始值的选取。为了保证收敛，初始值 \( x_0 \) 需要足够接近根 \( x^* \)。更精确的收敛条件可以借助收敛区域分析或Kantorovich定理等理论进行判断。

优缺点

⚝ 优点：
⚝ 局部收敛速度快，为二次收敛。
⚝ 几何意义明确，易于理解。

⚝ 缺点：
⚝ 局部收敛性，初始值选取不当可能导致不收敛。
⚝ 需要计算函数 \( f(x) \) 的导数 \( f'(x) \)，有时求导困难。
⚝ 当 \( f'(x_k) \) 接近于零时，可能导致迭代失败或收敛速度减慢。
⚝ 对于重根，牛顿法仍然收敛，但收敛速度降为线性收敛。

改进的牛顿法

为了克服牛顿法的某些缺点，人们提出了许多改进的牛顿法，例如：

⚝ 阻尼牛顿法 (Damped Newton Method)：在迭代公式中引入步长因子 \( \lambda_k \in (0, 1] \)，
\[ x_{k+1} = x_k - \lambda_k \frac{f(x_k)}{f'(x_k)} \]
通过调整 \( \lambda_k \) 保证迭代的全局收敛性。
⚝ 牛顿下山法 (Newton Descent Method)：结合最优化思想，保证迭代过程函数值 \( |f(x_k)| \) 逐步下降。
⚝ 割线法 (Secant Method)：用差商 \( \frac{f(x_k) - f(x_{k-1})}{x_k - x_{k-1}} \) 近似导数 \( f'(x_k) \)，避免计算导数。

应用场景

牛顿法及其变体广泛应用于：

⚝ 求解各种非线性方程和方程组。
⚝ 最优化问题的求解 (如牛顿法在优化中的应用)。
⚝ 科学计算和工程技术领域的各种数值问题。

示例

求解方程 \( f(x) = x^3 - x - 1 = 0 \) 的根。导函数为 \( f'(x) = 3x^2 - 1 \)。牛顿迭代公式为：
\[ x_{k+1} = x_k - \frac{x_k^3 - x_k - 1}{3x_k^2 - 1} = \frac{2x_k^3 + 1}{3x_k^2 - 1} \]
取初始值 \( x_0 = 1.5 \)，迭代计算：

\( x_1 = \frac{2(1.5)^3 + 1}{3(1.5)^2 - 1} \approx 1.3478 \)
\( x_2 = \frac{2(1.3478)^3 + 1}{3(1.3478)^2 - 1} \approx 1.3252 \)
\( x_3 = \frac{2(1.3252)^3 + 1}{3(1.3252)^2 - 1} \approx 1.3247 \)
\( x_4 = \frac{2(1.3247)^3 + 1}{3(1.3247)^2 - 1} \approx 1.3247 \)

迭代很快收敛到根 \( x^* \approx 1.3247 \)。

2.4 弦截法 (Secant Method)

弦截法 (Secant Method) 是牛顿法的一种改进，它使用差商 (Difference Quotient) 近似代替牛顿法中的导数，从而避免了计算导数 \( f'(x) \)。弦截法在收敛速度和计算复杂度之间取得了较好的平衡，是一种实用的求根方法。

基本思想

弦截法的几何意义是用割线 (Secant Line) 代替切线。在牛顿法中，我们使用点 \( (x_k, f(x_k)) \) 处的切线与 \( x \) 轴的交点作为新的近似根。而在弦截法中，我们使用通过点 \( (x_{k-1}, f(x_{k-1})) \) 和 \( (x_k, f(x_k)) \) 的割线与 \( x \) 轴的交点作为新的近似根。

迭代公式的推导

在牛顿法中，迭代公式为 \( x_{k+1} = x_k - \frac{f(x_k)}{f'(x_k)} \)。弦截法用差商近似导数 \( f'(x_k) \)：
\[ f'(x_k) \approx \frac{f(x_k) - f(x_{k-1})}{x_k - x_{k-1}} \]
将此差商代入牛顿法迭代公式，得到弦截法的迭代公式：
\[ x_{k+1} = x_k - \frac{f(x_k)}{\frac{f(x_k) - f(x_{k-1})}{x_k - x_{k-1}}} = x_k - f(x_k) \frac{x_k - x_{k-1}}{f(x_k) - f(x_{k-1})} \]
整理后得到更常用的形式：
\[ x_{k+1} = \frac{x_{k-1}f(x_k) - x_k f(x_{k-1})}{f(x_k) - f(x_{k-1})} \]
弦截法是两点迭代法，需要两个初始近似值 \( x_0 \) 和 \( x_1 \)。

算法步骤

① 初始化：选取两个初始近似根 \( x_0 \) 和 \( x_1 \) (通常 \( x_0 \neq x_1 \)，且 \( f(x_0) \neq f(x_1) \))，以及精度要求 \( \epsilon \)。

② 迭代计算：对于第 \( k \) 次迭代 ( \( k = 1, 2, 3, \dots \) )，执行以下操作：
▮▮▮▮ⓑ 计算函数值 \( f(x_{k-1}) \) 和 \( f(x_k) \)。
▮▮▮▮ⓒ 若 \( |f(x_k) - f(x_{k-1})| \) 非常小 (接近于零)，则停止迭代 (可能遇到奇异情况或函数值接近)。
▮▮▮▮ⓓ 计算下一个近似根 \( x_{k+1} = x_k - f(x_k) \frac{x_k - x_{k-1}}{f(x_k) - f(x_{k-1})} \)。
▮▮▮▮ⓔ 检查收敛条件：若 \( |x_{k+1} - x_k| < \epsilon \) 或 \( |f(x_{k+1})| < \epsilon \) (或其他预设的收敛准则) 满足，则停止迭代，\( x_{k+1} \) 作为根的近似值。否则，返回步骤 ② 进行下一次迭代。

收敛性分析

弦截法具有超线性收敛性 (Superlinear Convergence)。若 \( f(x) \) 在根 \( x^* \) 附近二阶连续可导，\( f(x^*) = 0 \)，\( f'(x^*) \neq 0 \)，且初始值 \( x_0 \) 和 \( x_1 \) 充分接近 \( x^* \)，则弦截法产生的序列 \( \{x_k\} \) 超线性收敛于 \( x^* \)，其收敛阶约为黄金分割比 \( \phi = \frac{1 + \sqrt{5}}{2} \approx 1.618 \)。

超线性收敛 (Superlinear Convergence)：若迭代法收敛，且存在序列 \( \{\eta_k\} \) 收敛到 0，使得当 \( k \) 充分大时，有
\[ \|x_{k+1} - x^*\| \le \eta_k \|x_k - x^*\| \]
或更一般地，若存在常数 \( C > 0 \) 和 \( 1 < q < 2 \)，使得当 \( k \) 充分大时，有
\[ \|x_{k+1} - x^*\| \le C \|x_k - x^*\|^q \]
则称该迭代法为超线性收敛。弦截法的收敛阶 \( q \approx 1.618 \) 介于线性收敛 ( \( q = 1 \) ) 和二次收敛 ( \( q = 2 \) ) 之间。

收敛条件

弦截法的收敛性也依赖于初始值的选取，但相对于牛顿法，弦截法对初始值的要求有所放宽。初始值 \( x_0 \) 和 \( x_1 \) 需要足够接近根 \( x^* \) 以保证收敛。

优缺点

⚝ 优点：
⚝ 不需要计算导数 \( f'(x) \)，只需计算函数值 \( f(x) \)。
⚝ 收敛速度比二分法和不动点迭代法快，为超线性收敛。
⚝ 局部收敛性，但对初始值的要求比牛顿法宽松。

⚝ 缺点：
⚝ 收敛速度比牛顿法慢，为超线性收敛而非二次收敛。
⚝ 需要两个初始近似值 \( x_0 \) 和 \( x_1 \)。
⚝ 可能出现 \( f(x_k) - f(x_{k-1}) \) 接近于零的情况，导致数值不稳定。

应用场景

弦截法适用于：

⚝ 求解非线性方程，特别是当导数 \( f'(x) \) 难以计算或计算成本较高时。
⚝ 需要比线性收敛更快的收敛速度，但又不需要像牛顿法那样计算导数的场合。

示例

求解方程 \( f(x) = x^3 - x - 1 = 0 \) 的根。弦截法迭代公式为：
\[ x_{k+1} = x_k - (x_k^3 - x_k - 1) \frac{x_k - x_{k-1}}{(x_k^3 - x_k - 1) - (x_{k-1}^3 - x_{k-1} - 1)} \]
取初始值 \( x_0 = 1.5 \)，\( x_1 = 1.4 \)，迭代计算：

\( x_2 \approx 1.3299 \)
\( x_3 \approx 1.3245 \)
\( x_4 \approx 1.3247 \)
\( x_5 \approx 1.3247 \)

迭代也较快收敛到根 \( x^* \approx 1.3247 \)。

2.5 收敛速度与误差估计 (Convergence Rate and Error Estimation)

在数值方法中，收敛速度 (Convergence Rate) 和误差估计 (Error Estimation) 是评价算法性能的重要指标。对于迭代求根方法，了解其收敛速度可以预估计算效率，而误差估计则可以帮助判断近似解的精度。

收敛速度

收敛速度描述了迭代序列 \( \{x_k\} \) 逼近真解 \( x^* \) 的快慢程度。常见的收敛速度类型包括：

⚝ 线性收敛 (Linear Convergence)：若存在常数 \( 0 < C < 1 \)，使得当 \( k \) 充分大时，有
\[ \|x_{k+1} - x^*\| \le C \|x_k - x^*\| \]
或
\[ \lim_{k \to \infty} \frac{\|x_{k+1} - x^*\|}{\|x_k - x^*\|} = C < 1 \]
线性收敛的特点是误差每步迭代大约缩小相同的比例。例如，二分法和某些不动点迭代法是线性收敛的。

⚝ 超线性收敛 (Superlinear Convergence)：若存在序列 \( \{\eta_k\} \) 收敛到 0，使得当 \( k \) 充分大时，有
\[ \|x_{k+1} - x^*\| \le \eta_k \|x_k - x^*\| \]
或
\[ \lim_{k \to \infty} \frac{\|x_{k+1} - x^*\|}{\|x_k - x^*\|} = 0 \]
超线性收敛比线性收敛更快，误差缩小比例逐渐增大。例如，弦截法是超线性收敛的。

⚝ 二次收敛 (Quadratic Convergence)：若存在常数 \( C > 0 \)，使得当 \( k \) 充分大时，有
\[ \|x_{k+1} - x^*\| \le C \|x_k - x^*\|^2 \]
或
\[ \lim_{k \to \infty} \frac{\|x_{k+1} - x^*\|}{\|x_k - x^*\|^2} = C < \infty \]
二次收敛速度非常快，误差平方阶地减小。例如，牛顿法在单根附近是二次收敛的。

收敛阶 (Order of Convergence)：更一般地，若存在常数 \( C > 0 \) 和 \( q \ge 1 \)，使得当 \( k \) 充分大时，有
\[ \|x_{k+1} - x^*\| \le C \|x_k - x^*\|^q \]
则称该迭代法是 \( q \) 阶收敛的。\( q \) 越大，收敛速度越快。

误差估计

误差估计用于在迭代过程中或迭代结束后，评估近似解 \( x_k \) 的精度，即 \( x_k \) 与真解 \( x^* \) 之间的误差 \( \|x_k - x^*\| \)。误差估计方法可以分为：

⚝ 先验误差估计 (A Priori Error Estimate)：在迭代开始前，根据算法的性质和初始条件，预先估计达到一定精度所需的迭代次数或误差范围。例如，二分法的误差估计 \( |c_k - r| \le \frac{b_0 - a_0}{2^{k+1}} \) 就是先验误差估计。

⚝ 后验误差估计 (A Posteriori Error Estimate)：在迭代过程中或迭代结束后，利用已计算出的迭代值，估计当前近似解的误差。后验误差估计更实用，因为它能更直接地反映当前解的精度。常见的方法有：
⚝ 残差估计 (Residual Estimate)：用残差 \( \|f(x_k)\| \) 的大小来估计误差。若 \( \|f(x_k)\| \) 很小，则认为 \( x_k \) 是一个好的近似解。但残差小并不一定意味着误差 \( \|x_k - x^*\| \) 小，尤其当方程病态 (Ill-Conditioned) 时。
⚝ 迭代步长估计 (Step Length Estimate)：利用相邻两次迭代值的差 \( \|x_{k+1} - x_k\| \) 来估计误差。对于收敛较快的迭代法，\( \|x_{k+1} - x_k\| \) 可以作为误差的一个参考。例如，不动点迭代法的后验误差估计 \( \|x_k - x^*\| \le \frac{L}{1 - L} \|x_k - x_{k-1}\| \) 就是基于迭代步长的。
⚝ 渐近误差公式 (Asymptotic Error Formula)：利用迭代法的渐近收敛性质，推导出误差的近似公式。例如，对于线性收敛的不动点迭代法，有 \( x_{k+1} - x^* \approx g'(x^*)(x_k - x^*) \)。

收敛准则 (Stopping Criteria)

在实际计算中，需要设定合理的收敛准则来终止迭代过程。常用的收敛准则包括：

① 绝对误差准则：\( \|x_{k+1} - x_k\| < \epsilon \) 或 \( \|x_{k+1} - x_k\| / \|x_{k+1}\| < \epsilon \) (相对误差)。
② 残差准则：\( \|f(x_{k+1})\| < \epsilon \)。
③ 最大迭代次数限制：设定最大迭代次数 \( N_{max} \)，防止迭代过程无限循环。

其中 \( \epsilon \) 是预先给定的精度要求。在实际应用中，通常会综合使用多种收敛准则，以确保迭代过程的有效性和可靠性。

2.6 多项式求根 (Polynomial Root Finding)

多项式求根 (Polynomial Root Finding) 是数值分析中的一个经典问题，也是许多科学和工程计算的基础。对于一般多项式方程 \( P_n(x) = a_n x^n + a_{n-1} x^{n-1} + \dots + a_1 x + a_0 = 0 \) ( \( a_n \neq 0 \) )，当 \( n > 4 \) 时，不存在一般的代数解法 (阿贝尔-鲁菲尼定理 (Abel-Ruffini Theorem))，因此需要数值方法来求解。

多项式求根的特点

⚝ 多项式方程可能存在实根和复根，且根的个数为 \( n \) (计重数)。
⚝ 多项式求根问题可能对系数的微小扰动非常敏感，即病态性 (Ill-Conditioning)。
⚝ 需要考虑求实根、复根、以及根的重数等问题。

常用方法

多项式求根的数值方法有很多，常见的包括：

⚝ 直接法：将多项式求根问题转化为矩阵特征值问题，例如伴随矩阵法。
⚝ 迭代法：利用迭代方法，如牛顿法、弦截法等，求解多项式方程的根。
⚝ 特殊方法：针对多项式的特殊性质，设计专门的求根方法，例如斯图姆定理用于实根隔离。

2.6.1 伴随矩阵法 (Companion Matrix Method)

伴随矩阵法 (Companion Matrix Method) 是一种将多项式求根问题转化为矩阵特征值问题的方法。对于多项式 \( P_n(x) = a_n x^n + a_{n-1} x^{n-1} + \dots + a_1 x + a_0 \) ( \( a_n \neq 0 \) )，可以构造一个 \( n \times n \) 的矩阵，称为伴随矩阵 (Companion Matrix)，其特征值恰好是多项式 \( P_n(x) \) 的根。

伴随矩阵的构造

将多项式 \( P_n(x) \) 标准化，令首项系数为 1，即除以 \( a_n \)，得到：
\[ x^n + \frac{a_{n-1}}{a_n} x^{n-1} + \dots + \frac{a_1}{a_n} x + \frac{a_0}{a_n} = 0 \]
记 \( c_i = -\frac{a_{n-i}}{a_n} \) ( \( i = 1, 2, \dots, n \) )，则方程变为：
\[ x^n - c_1 x^{n-1} - c_2 x^{n-2} - \dots - c_{n-1} x - c_n = 0 \]
其伴随矩阵 \( C \) 定义为：
\[ C = \begin{pmatrix} c_1 & c_2 & \dots & c_{n-1} & c_n \\ 1 & 0 & \dots & 0 & 0 \\ 0 & 1 & \dots & 0 & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \dots & 1 & 0 \end{pmatrix} \]
这是一个 \( n \times n \) 的矩阵，第一行元素为 \( c_1, c_2, \dots, c_n \)，次对角线元素为 1，其余元素为 0。

特征值与多项式根的关系

伴随矩阵 \( C \) 的特征多项式 (Characteristic Polynomial) 恰好是 \( (-1)^n P_n(x) / a_n \)。因此，伴随矩阵 \( C \) 的特征值就是多项式 \( P_n(x) \) 的根。

求解步骤

① 构造多项式 \( P_n(x) \) 的伴随矩阵 \( C \)。
② 计算伴随矩阵 \( C \) 的所有特征值。
③ 伴随矩阵 \( C \) 的特征值即为多项式 \( P_n(x) \) 的根。

特征值求解方法

求解矩阵特征值可以使用成熟的数值算法，例如：

⚝ QR算法 (QR Algorithm)：一种高效、稳定的求解矩阵全部特征值的迭代方法。
⚝ 幂法 (Power Iteration) 和 反幂法 (Inverse Power Iteration)：用于求解矩阵的主特征值和指定特征值。

优缺点

⚝ 优点：
⚝ 将多项式求根问题转化为成熟的矩阵特征值问题，可以使用现有的高效算法。
⚝ 可以求出多项式的所有根，包括实根和复根。

⚝ 缺点：
⚝ 当多项式阶数 \( n \) 较大时，计算伴随矩阵的特征值计算量较大。
⚝ 伴随矩阵法可能对系数扰动敏感，尤其当多项式病态时。

应用场景

伴随矩阵法适用于：

⚝ 求解中低阶多项式方程的全部根。
⚝ 作为其他多项式求根方法的辅助手段。

2.6.2 斯图姆定理 (Sturm's Theorem)

斯图姆定理 (Sturm's Theorem) 是一个用于确定实系数多项式 \( P(x) \) 在给定实数区间 \( [a, b] \) 内实根个数的定理。它基于斯图姆序列 (Sturm Sequence) 的概念，能够有效地隔离多项式的实根。

斯图姆序列的构造

对于实系数多项式 \( P(x) \)，构造斯图姆序列 \( \{P_0(x), P_1(x), \dots, P_m(x)\} \) 如下：

① \( P_0(x) = P(x) \)
② \( P_1(x) = P'(x) \) ( \( P(x) \) 的导数)
③ \( P_{i-1}(x) = Q_i(x) P_i(x) - P_{i+1}(x) \)，\( i = 1, 2, \dots, m-1 \)，其中 \( P_{i+1}(x) \) 是 \( P_{i-1}(x) \) 除以 \( P_i(x) \) 所得余数取负号，\( Q_i(x) \) 是商。
④ 当 \( P_m(x) \) 为非零常数时，序列构造终止。

斯图姆序列的性质：

⚝ 序列中相邻两个多项式没有公共根。
⚝ 若 \( P_i(c) = 0 \) ( \( 1 \le i \le m-1 \) )，则 \( P_{i-1}(c) P_{i+1}(c) < 0 \)。
⚝ \( P_m(x) \) 与 \( P_{m-1}(x) \) 没有公共根。

斯图姆定理的内容

设 \( \{P_0(x), P_1(x), \dots, P_m(x)\} \) 是多项式 \( P(x) \) 的斯图姆序列。对于任意实数 \( c \)，记 \( V(c) \) 为斯图姆序列在 \( x = c \) 处变号数 (Sign Changes)，即序列 \( \{P_0(c), P_1(c), \dots, P_m(c)\} \) 中相邻项符号相反的次数 (忽略零项)。

斯图姆定理：若 \( P(a) \neq 0 \) 且 \( P(b) \neq 0 \)，则多项式 \( P(x) \) 在区间 \( (a, b] \) 内实根的个数等于 \( V(a) - V(b) \)。

应用步骤

① 构造多项式 \( P(x) \) 的斯图姆序列 \( \{P_0(x), P_1(x), \dots, P_m(x)\} \)。
② 选择实数区间 \( [a, b] \)。确保 \( P(a) \neq 0 \) 且 \( P(b) \neq 0 \)。
③ 分别计算 \( V(a) \) 和 \( V(b) \)。
④ 区间 \( (a, b] \) 内实根个数为 \( V(a) - V(b) \)。

根的隔离

斯图姆定理可以用于根的隔离 (Root Isolation)，即确定包含多项式各个实根的互不相交的区间。方法如下：

① 确定包含所有实根的初始区间 \( [A, B] \) (例如，利用柯西界 (Cauchy Bound) 估计根的范围)。
② 计算 \( V(A) - V(B) \)，得到总实根个数。
③ 将区间 \( [A, B] \) 分割成若干小区间，例如二分法分割。
④ 对每个小区间 \( [a_i, b_i] \)，计算 \( V(a_i) - V(b_i) \)，若为 1，则该区间内恰好包含一个实根；若大于 1，则继续分割；若为 0，则该区间内没有实根。
⑤ 重复步骤 ④，直到每个包含根的区间足够小，达到精度要求。

优缺点

⚝ 优点：
⚝ 能够精确确定多项式在给定区间内的实根个数。
⚝ 可以用于实根隔离，为进一步求根提供初始区间。
⚝ 理论严谨，可靠性高。

⚝ 缺点：
⚝ 只能确定实根个数和隔离实根，不能直接求出根的数值近似值。
⚝ 构造斯图姆序列需要多项式除法和求导运算，计算量较大。
⚝ 对于高阶多项式，斯图姆序列的计算可能变得复杂。

应用场景

斯图姆定理适用于：

⚝ 需要精确知道多项式实根个数的场合。
⚝ 作为实根隔离的工具，为其他求根方法提供初始区间。
⚝ 理论研究和算法分析。

3. chapter 3：线性方程组的数值解法 (Numerical Methods for Linear Systems)

3.1 高斯消元法 (Gaussian Elimination)

线性方程组是科学与工程计算中最常见的问题之一。形式如下：
\[ \begin{cases} a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = b_1 \\ a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n = b_2 \\ \vdots \\ a_{n1}x_1 + a_{n2}x_2 + \cdots + a_{nn}x_n = b_n \end{cases} \]
其中，\(a_{ij}\) 和 \(b_i\) 是已知常数，\(x_i\) 是待求的未知数。用矩阵形式可以简洁地表示为：
\[ Ax = b \]
其中，\(A = (a_{ij})\) 是 \(n \times n\) 的系数矩阵，\(x = (x_1, x_2, \ldots, x_n)^T\) 是未知向量，\(b = (b_1, b_2, \ldots, b_n)^T\) 是常数向量。

高斯消元法 (Gaussian Elimination) 是一种经典的直接解法，其基本思想是通过一系列的行变换，将系数矩阵 \(A\) 化为上三角矩阵 \(U\) 或行阶梯形矩阵，然后通过回代过程求得方程组的解。

高斯消元法的步骤:

① 前向消元 (Forward Elimination)：
从第一行开始，逐行向下消去未知数。对于第 \(k\) 行 (\(k = 1, 2, \ldots, n-1\))，选取主元 \(a_{kk}^{(k)}\) (通常选取第 \(k\) 列中绝对值最大的元素作为主元，以减小计算误差，称为列主元高斯消元法 (Gaussian Elimination with Partial Pivoting))。如果 \(a_{kk}^{(k)} = 0\)，则交换第 \(k\) 行与下面某一行，使得主元不为零。然后，对于 \(i = k+1, \ldots, n\)，计算消元乘数 \(m_{ik} = a_{ik}^{(k)} / a_{kk}^{(k)}\)，并进行行变换：
\[ R_i \leftarrow R_i - m_{ik} R_k \]
即，将第 \(i\) 行减去 \(m_{ik}\) 倍的第 \(k\) 行，使得第 \(i\) 行第 \(k\) 列的元素变为零。经过 \(n-1\) 步消元后，系数矩阵 \(A\) 被转化为上三角矩阵 \(U\)，常数向量 \(b\) 也被转化为新的向量 \(b'\)。增广矩阵 \([A|b]\) 变为 \([U|b']\)。

② 回代 (Back Substitution)：
对于上三角方程组 \(Ux = b'\)，从最后一行开始，逐行向上求解未知数。
从最后一行，我们可以直接解出 \(x_n\):
\[ x_n = b'_n / u_{nn} \]
然后，倒数第二行可以解出 \(x_{n-1}\):
\[ x_{n-1} = (b'_{n-1} - u_{n-1, n} x_n) / u_{n-1, n-1} \]
以此类推，对于 \(i = n-1, n-2, \ldots, 1\)，可以解出 \(x_i\):
\[ x_i = \left( b'_i - \sum_{j=i+1}^{n} u_{ij} x_j \right) / u_{ii} \]
最终得到方程组的解 \(x = (x_1, x_2, \ldots, x_n)^T\)。

案例分析:

求解线性方程组：
\[ \begin{cases} 2x_1 + x_2 + 4x_3 = 16 \\ 3x_1 + 2x_2 + x_3 = 10 \\ x_1 + 3x_2 + 3x_3 = 16 \end{cases} \]
增广矩阵为：
\[ \left[ \begin{array}{ccc|c} 2 & 1 & 4 & 16 \\ 3 & 2 & 1 & 10 \\ 1 & 3 & 3 & 16 \end{array} \right] \]
前向消元：

第一步：以 \(a_{11} = 2\) 为主元。
⚝ \(m_{21} = 3/2\), \(R_2 \leftarrow R_2 - \frac{3}{2} R_1\)
⚝ \(m_{31} = 1/2\), \(R_3 \leftarrow R_3 - \frac{1}{2} R_1\)
\[ \left[ \begin{array}{ccc|c} 2 & 1 & 4 & 16 \\ 0 & 1/2 & -5 & -14 \\ 0 & 5/2 & 1 & 8 \end{array} \right] \]
第二步：以 \(a_{22}^{(2)} = 1/2\) 为主元。
⚝ \(m_{32} = (5/2) / (1/2) = 5\), \(R_3 \leftarrow R_3 - 5 R_2\)
\[ \left[ \begin{array}{ccc|c} 2 & 1 & 4 & 16 \\ 0 & 1/2 & -5 & -14 \\ 0 & 0 & 26 & 78 \end{array} \right] \]
得到上三角矩阵 \(U\) 和新的常数向量 \(b'\)。

回代：

从最后一行开始：
\[ 26x_3 = 78 \Rightarrow x_3 = 3 \]
倒数第二行：
\[ \frac{1}{2}x_2 - 5x_3 = -14 \Rightarrow \frac{1}{2}x_2 - 5 \times 3 = -14 \Rightarrow x_2 = 2 \]
第一行：
\[ 2x_1 + x_2 + 4x_3 = 16 \Rightarrow 2x_1 + 2 + 4 \times 3 = 16 \Rightarrow x_1 = 1 \]
因此，解为 \(x = (1, 2, 3)^T\)。

参考文献:

⚝ [书名] 数值分析 (第[版本]版), 作者: [作者], 出版社: [出版社], [出版年份]. (详细介绍高斯消元法的原理和应用)
⚝ [论文标题], 作者: [作者], 期刊: [期刊名], 卷号: [卷号], 页码: [页码], [出版年份]. (关于高斯消元法误差分析的深入研究)

3.2 LU分解 (LU Decomposition)

LU分解 (LU Decomposition) 是将矩阵 \(A\) 分解为一个下三角矩阵 \(L\) (Lower triangular matrix) 和一个上三角矩阵 \(U\) (Upper triangular matrix) 的乘积，即 \(A = LU\)。一旦得到 \(A\) 的 LU 分解，线性方程组 \(Ax = b\) 就可以转化为求解两个三角方程组：

\(Ly = b\) (前代，Forward Substitution)
\(Ux = y\) (回代，Back Substitution)

由于三角方程组容易求解，因此 LU 分解提供了一种高效的解线性方程组的方法。

LU分解的步骤 (Doolittle 分解，Doolittle Decomposition):

Doolittle 分解要求 \(L\) 的对角元素为 1。

对于 \(n \times n\) 矩阵 \(A\)，LU分解的计算公式如下：

对于 \(k = 1, 2, \ldots, n\):
\[ \begin{aligned} u_{kj} &= a_{kj} - \sum_{r=1}^{k-1} l_{kr} u_{rj}, \quad j = k, k+1, \ldots, n \\ l_{ik} &= \frac{1}{u_{kk}} \left( a_{ik} - \sum_{r=1}^{k-1} l_{ir} u_{rk} \right), \quad i = k+1, k+2, \ldots, n \end{aligned} \]
其中，当 \(k=1\) 时，求和项为空，即：
\[ \begin{aligned} u_{1j} &= a_{1j}, \quad j = 1, 2, \ldots, n \\ l_{i1} &= \frac{a_{i1}}{u_{11}} = \frac{a_{i1}}{a_{11}}, \quad i = 2, 3, \ldots, n \end{aligned} \]

算法流程:

初始化：\(L\) 为单位下三角矩阵，\(U\) 为零矩阵。
循环 \(k\) 从 1 到 \(n\):
① 计算 \(U\) 的第 \(k\) 行元素：
\[ u_{kj} = a_{kj} - \sum_{r=1}^{k-1} l_{kr} u_{rj}, \quad j = k, k+1, \ldots, n \]
② 计算 \(L\) 的第 \(k\) 列元素 (除了对角线元素)：
\[ l_{ik} = \frac{1}{u_{kk}} \left( a_{ik} - \sum_{r=1}^{k-1} l_{ir} u_{rk} \right), \quad i = k+1, k+2, \ldots, n \]

求解 \(Ly = b\) (前代):

由于 \(L\) 是下三角矩阵，可以从第一个方程开始逐个求解 \(y_i\)。
\[ \begin{aligned} y_1 &= b_1 \\ y_2 &= b_2 - l_{21} y_1 \\ y_3 &= b_3 - l_{31} y_1 - l_{32} y_2 \\ & \vdots \\ y_i &= b_i - \sum_{j=1}^{i-1} l_{ij} y_j, \quad i = 1, 2, \ldots, n \end{aligned} \]

求解 \(Ux = y\) (回代):

由于 \(U\) 是上三角矩阵，可以从最后一个方程开始逐个求解 \(x_i\)。
\[ \begin{aligned} x_n &= y_n / u_{nn} \\ x_{n-1} &= (y_{n-1} - u_{n-1, n} x_n) / u_{n-1, n-1} \\ & \vdots \\ x_i &= \left( y_i - \sum_{j=i+1}^{n} u_{ij} x_j \right) / u_{ii}, \quad i = n, n-1, \ldots, 1 \end{aligned} \]

案例分析:

对矩阵 \(A = \begin{pmatrix} 2 & 1 & 4 \\ 3 & 2 & 1 \\ 1 & 3 & 3 \end{pmatrix}\) 进行 LU 分解。

LU分解过程:

\(k=1\):
\[ \begin{aligned} u_{11} &= a_{11} = 2, \quad u_{12} = a_{12} = 1, \quad u_{13} = a_{13} = 4 \\ l_{21} &= \frac{a_{21}}{u_{11}} = \frac{3}{2}, \quad l_{31} = \frac{a_{31}}{u_{11}} = \frac{1}{2} \end{aligned} \]
\(k=2\):
\[ \begin{aligned} u_{22} &= a_{22} - l_{21} u_{12} = 2 - \frac{3}{2} \times 1 = \frac{1}{2} \\ u_{23} &= a_{23} - l_{21} u_{13} = 1 - \frac{3}{2} \times 4 = -5 \\ l_{32} &= \frac{1}{u_{22}} \left( a_{32} - l_{31} u_{12} \right) = \frac{1}{1/2} \left( 3 - \frac{1}{2} \times 1 \right) = 5 \end{aligned} \]
\(k=3\):
\[ u_{33} = a_{33} - l_{31} u_{13} - l_{32} u_{23} = 3 - \frac{1}{2} \times 4 - 5 \times (-5) = 26 \]
得到 LU 分解：
\[ L = \begin{pmatrix} 1 & 0 & 0 \\ 3/2 & 1 & 0 \\ 1/2 & 5 & 1 \end{pmatrix}, \quad U = \begin{pmatrix} 2 & 1 & 4 \\ 0 & 1/2 & -5 \\ 0 & 0 & 26 \end{pmatrix} \]
验证 \(LU = A\):
\[ LU = \begin{pmatrix} 1 & 0 & 0 \\ 3/2 & 1 & 0 \\ 1/2 & 5 & 1 \end{pmatrix} \begin{pmatrix} 2 & 1 & 4 \\ 0 & 1/2 & -5 \\ 0 & 0 & 26 \end{pmatrix} = \begin{pmatrix} 2 & 1 & 4 \\ 3 & 2 & 1 \\ 1 & 3 & 3 \end{pmatrix} = A \]
与原矩阵 \(A\) 一致。

参考文献:

⚝ [书籍] 线性代数及其应用 (第[版本]版), 作者: [作者], 出版社: [出版社], [出版年份]. (介绍LU分解的理论基础)
⚝ [在线资源] Numerical Recipes in C/Fortran, Cambridge University Press. (提供LU分解的算法实现和代码)

3.3 特殊矩阵的LU分解 (LU Decomposition for Special Matrices)

对于某些具有特殊结构的矩阵，LU分解可以得到简化，从而提高计算效率。常见的特殊矩阵包括对称正定矩阵和三对角矩阵。

3.3.1 对称正定矩阵的乔列斯基分解 (Cholesky Decomposition for Symmetric Positive Definite Matrices)

对称正定矩阵 (Symmetric Positive Definite Matrix)：
⚝ 对称性：\(A^T = A\)，即 \(a_{ij} = a_{ji}\)。
⚝ 正定性：对于任意非零向量 \(x\)，都有 \(x^T A x > 0\)。

对于对称正定矩阵 \(A\)，可以进行乔列斯基分解 (Cholesky Decomposition)，将其分解为 \(A = LL^T\)，其中 \(L\) 是一个下三角矩阵，且对角元素为正实数。乔列斯基分解是 LU 分解的一种特殊形式，但计算量更小，稳定性更好。

乔列斯基分解的步骤:

对于对称正定矩阵 \(A\)，乔列斯基分解的计算公式如下：

对于 \(j = 1, 2, \ldots, n\):
\[ \begin{aligned} l_{jj} &= \left( a_{jj} - \sum_{k=1}^{j-1} l_{jk}^2 \right)^{1/2} \\ l_{ij} &= \frac{1}{l_{jj}} \left( a_{ij} - \sum_{k=1}^{j-1} l_{ik} l_{jk} \right), \quad i = j+1, j+2, \ldots, n \end{aligned} \]
其中，当 \(j=1\) 时，求和项为空，即：
\[ l_{11} = \sqrt{a_{11}}, \quad l_{i1} = \frac{a_{i1}}{l_{11}}, \quad i = 2, 3, \ldots, n \]

算法流程:

初始化：\(L\) 为零矩阵。
循环 \(j\) 从 1 到 \(n\):
① 计算对角元素 \(l_{jj}\):
\[ l_{jj} = \sqrt{a_{jj} - \sum_{k=1}^{j-1} l_{jk}^2} \]
② 计算第 \(j\) 列的非对角元素：
\[ l_{ij} = \frac{1}{l_{jj}} \left( a_{ij} - \sum_{k=1}^{j-1} l_{ik} l_{jk} \right), \quad i = j+1, j+2, \ldots, n \]

案例分析:

对对称正定矩阵 \(A = \begin{pmatrix} 4 & 12 & -16 \\ 12 & 37 & -43 \\ -16 & -43 & 98 \end{pmatrix}\) 进行乔列斯基分解。

乔列斯基分解过程:

\(j=1\):
\[ l_{11} = \sqrt{a_{11}} = \sqrt{4} = 2 \\ l_{21} = \frac{a_{21}}{l_{11}} = \frac{12}{2} = 6 \\ l_{31} = \frac{a_{31}}{l_{11}} = \frac{-16}{2} = -8 \]
\(j=2\):
\[ l_{22} = \sqrt{a_{22} - l_{21}^2} = \sqrt{37 - 6^2} = \sqrt{1} = 1 \\ l_{32} = \frac{1}{l_{22}} \left( a_{32} - l_{31} l_{21} \right) = \frac{1}{1} \left( -43 - (-8) \times 6 \right) = 5 \]
\(j=3\):
\[ l_{33} = \sqrt{a_{33} - l_{31}^2 - l_{32}^2} = \sqrt{98 - (-8)^2 - 5^2} = \sqrt{9} = 3 \]
得到乔列斯基分解：
\[ L = \begin{pmatrix} 2 & 0 & 0 \\ 6 & 1 & 0 \\ -8 & 5 & 3 \end{pmatrix} \]
验证 \(LL^T = A\):
\[ LL^T = \begin{pmatrix} 2 & 0 & 0 \\ 6 & 1 & 0 \\ -8 & 5 & 3 \end{pmatrix} \begin{pmatrix} 2 & 6 & -8 \\ 0 & 1 & 5 \\ 0 & 0 & 3 \end{pmatrix} = \begin{pmatrix} 4 & 12 & -16 \\ 12 & 37 & -43 \\ -16 & -43 & 98 \end{pmatrix} = A \]
与原矩阵 \(A\) 一致。

参考文献:

⚝ [书籍] 矩阵计算 (第[版本]版), 作者: [作者], 出版社: [出版社], [出版年份]. (深入探讨乔列斯基分解的性质和应用)
⚝ [软件文档] LAPACK (Linear Algebra PACKage) User's Guide. (提供高效的乔列斯基分解算法实现)

3.3.2 三对角矩阵的追赶法 (Tridiagonal Matrix Algorithm, TDMA)

三对角矩阵 (Tridiagonal Matrix)：
指矩阵的非零元素集中在主对角线及其相邻两条对角线上，其余元素均为零。形式如下：
\[ A = \begin{pmatrix} b_1 & c_1 & & & \\ a_2 & b_2 & c_2 & & \\ & a_3 & b_3 & c_3 & \\ & & \ddots & \ddots & \ddots \\ & & & a_n & b_n \end{pmatrix} \]
求解具有三对角系数矩阵的线性方程组，可以使用追赶法 (Tridiagonal Matrix Algorithm, TDMA)，也称为 Thomas 算法。追赶法是高斯消元法或 LU 分解在三对角矩阵上的简化形式，计算效率非常高。

追赶法的步骤 (基于 LU 分解):

将三对角矩阵 \(A\) 分解为 \(A = LU\)，其中 \(L\) 是下双对角矩阵，\(U\) 是上双对角矩阵。
\[ L = \begin{pmatrix} 1 & & & & \\ \alpha_2 & 1 & & & \\ & \alpha_3 & 1 & & \\ & & \ddots & \ddots & \\ & & & \alpha_n & 1 \end{pmatrix}, \quad U = \begin{pmatrix} \beta_1 & \gamma_1 & & & \\ & \beta_2 & \gamma_2 & & \\ & & \beta_3 & \gamma_3 & \\ & & & \ddots & \ddots \\ & & & & \beta_n \end{pmatrix} \]
通过比较 \(A = LU\) 的元素，可以得到递推公式：

\[ \begin{aligned} \beta_1 &= b_1 \\ \gamma_1 &= c_1 \\ \alpha_i &= a_i / \beta_{i-1}, \quad i = 2, 3, \ldots, n \\ \beta_i &= b_i - \alpha_i \gamma_{i-1}, \quad i = 2, 3, \ldots, n \\ \gamma_i &= c_i, \quad i = 2, 3, \ldots, n \quad (\text{如果 } c_i \text{ 存在}) \end{aligned} \]
注意，当 \(i=n\) 时，没有 \(\gamma_n\)。

追 (Forward Sweep): 计算 \(L\) 和 \(U\) 的元素 \(\alpha_i\) 和 \(\beta_i\)。
\[ \begin{aligned} \beta_1 &= b_1, \quad \gamma_1 = c_1 \\ \text{for } i &= 2, 3, \ldots, n: \\ & \alpha_i = a_i / \beta_{i-1} \\ & \beta_i = b_i - \alpha_i \gamma_{i-1} \\ & \gamma_i = c_i \quad (\text{如果 } c_i \text{ 存在}) \end{aligned} \]

赶 (Backward Substitution): 求解 \(Ly = b\) 得到 \(y\)，再求解 \(Ux = y\) 得到 \(x\)。
求解 \(Ly = b\) (前代):
\[ \begin{aligned} y_1 &= b_1 \\ y_i &= b_i - \alpha_i y_{i-1}, \quad i = 2, 3, \ldots, n \end{aligned} \]
求解 \(Ux = y\) (回代):
\[ \begin{aligned} x_n &= y_n / \beta_n \\ x_i &= (y_i - \gamma_i x_{i+1}) / \beta_i, \quad i = n-1, n-2, \ldots, 1 \end{aligned} \]

案例分析:

求解三对角方程组 \(Ax = d\)，其中
\[ A = \begin{pmatrix} 2 & -1 & 0 & 0 \\ -1 & 2 & -1 & 0 \\ 0 & -1 & 2 & -1 \\ 0 & 0 & -1 & 2 \end{pmatrix}, \quad d = \begin{pmatrix} 1 \\ 0 \\ 0 \\ 1 \end{pmatrix} \]
这里，\(b_i = 2, a_i = c_i = -1\)。

追 (Forward Sweep):
\[ \begin{aligned} \beta_1 &= b_1 = 2, \quad \gamma_1 = c_1 = -1 \\ \alpha_2 &= a_2 / \beta_1 = -1 / 2 = -0.5, \quad \beta_2 = b_2 - \alpha_2 \gamma_1 = 2 - (-0.5) \times (-1) = 1.5, \quad \gamma_2 = c_2 = -1 \\ \alpha_3 &= a_3 / \beta_2 = -1 / 1.5 = -2/3, \quad \beta_3 = b_3 - \alpha_3 \gamma_2 = 2 - (-2/3) \times (-1) = 4/3, \quad \gamma_3 = c_3 = -1 \\ \alpha_4 &= a_4 / \beta_3 = -1 / (4/3) = -3/4, \quad \beta_4 = b_4 - \alpha_4 \gamma_3 = 2 - (-3/4) \times (-1) = 5/4 \end{aligned} \]
赶 (Backward Substitution):
求解 \(Ly = d\):
\[ \begin{aligned} y_1 &= d_1 = 1 \\ y_2 &= d_2 - \alpha_2 y_1 = 0 - (-0.5) \times 1 = 0.5 \\ y_3 &= d_3 - \alpha_3 y_2 = 0 - (-2/3) \times 0.5 = 1/3 \\ y_4 &= d_4 - \alpha_4 y_3 = 1 - (-3/4) \times (1/3) = 5/4 \end{aligned} \]
求解 \(Ux = y\):
\[ \begin{aligned} x_4 &= y_4 / \beta_4 = (5/4) / (5/4) = 1 \\ x_3 &= (y_3 - \gamma_3 x_4) / \beta_3 = (1/3 - (-1) \times 1) / (4/3) = 1 \\ x_2 &= (y_2 - \gamma_2 x_3) / \beta_2 = (0.5 - (-1) \times 1) / 1.5 = 1 \\ x_1 &= (y_1 - \gamma_1 x_2) / \beta_1 = (1 - (-1) \times 1) / 2 = 1 \end{aligned} \]
解为 \(x = (1, 1, 1, 1)^T\)。

参考文献:

⚝ [书籍] 数值方法 (第[版本]版), 作者: [作者], 出版社: [出版社], [出版年份]. (详细介绍追赶法的推导和应用场景)
⚝ [标准文档] ISO/IEC 15444-2:2004, Information technology — JPEG 2000 image coding system: Extensions. (在JPEG 2000标准中使用了追赶法)

3.4 迭代法 (Iterative Methods)

对于大型稀疏矩阵 (Large Sparse Matrix) 线性方程组，直接解法 (如高斯消元法、LU分解) 可能会导致计算量过大和存储空间需求过高。迭代法 (Iterative Methods) 通过构造迭代序列逐步逼近方程组的精确解，具有计算量小、存储空间需求低等优点，特别适用于求解大型稀疏矩阵线性方程组。

迭代法的基本思想是将线性方程组 \(Ax = b\) 转化为等价形式 \(x = Bx + f\)，然后构造迭代公式：
\[ x^{(k+1)} = Bx^{(k)} + f, \quad k = 0, 1, 2, \ldots \]
其中，\(B\) 称为迭代矩阵，\(f\) 称为迭代向量，\(x^{(0)}\) 为初始迭代向量。

3.4.1 雅可比迭代法 (Jacobi Iteration Method)

雅可比迭代法 (Jacobi Iteration Method) 是一种经典的迭代法。将系数矩阵 \(A\) 分解为 \(A = D - L - U\)，其中 \(D\) 是对角矩阵，\(-L\) 是下三角矩阵，\(-U\) 是上三角矩阵。
\[ D = \begin{pmatrix} a_{11} & & & \\ & a_{22} & & \\ & & \ddots & \\ & & & a_{nn} \end{pmatrix}, \quad L = \begin{pmatrix} 0 & & & \\ -a_{21} & 0 & & \\ -a_{31} & -a_{32} & 0 & \\ \vdots & \vdots & \vdots & \ddots \end{pmatrix}, \quad U = \begin{pmatrix} 0 & -a_{12} & -a_{13} & \cdots \\ & 0 & -a_{23} & \cdots \\ & & 0 & \cdots \\ & & & \ddots \end{pmatrix} \]
则方程组 \(Ax = b\) 可以写成 \((D - L - U)x = b\)，变形得到 \(Dx = (L + U)x + b\)，如果 \(D\) 可逆 (即对角元素 \(a_{ii} \neq 0\))，则有：
\[ x = D^{-1}(L + U)x + D^{-1}b \]
因此，雅可比迭代法的迭代公式为：
\[ x^{(k+1)} = D^{-1}(L + U)x^{(k)} + D^{-1}b \]
迭代矩阵 \(B_J = D^{-1}(L + U)\)，迭代向量 \(f_J = D^{-1}b\)。

分量形式:

\[ x_i^{(k+1)} = \frac{1}{a_{ii}} \left( b_i - \sum_{j=1, j \neq i}^{n} a_{ij} x_j^{(k)} \right), \quad i = 1, 2, \ldots, n \]

算法流程:

选取初始迭代向量 \(x^{(0)}\)。
迭代计算：
\[ x_i^{(k+1)} = \frac{1}{a_{ii}} \left( b_i - \sum_{j=1, j \neq i}^{n} a_{ij} x_j^{(k)} \right), \quad i = 1, 2, \ldots, n \]
判断收敛性：检查迭代向量是否收敛，例如，当 \(||x^{(k+1)} - x^{(k)}|| < \epsilon\) 或达到最大迭代次数时，停止迭代。

案例分析:

求解线性方程组：
\[ \begin{cases} 4x_1 - x_2 = 1 \\ -x_1 + 4x_2 - x_3 = 0 \\ -x_2 + 4x_3 = 1 \end{cases} \]
迭代公式：
\[ \begin{aligned} x_1^{(k+1)} &= \frac{1}{4} (1 + x_2^{(k)}) \\ x_2^{(k+1)} &= \frac{1}{4} (0 + x_1^{(k)} + x_3^{(k)}) \\ x_3^{(k+1)} &= \frac{1}{4} (1 + x_2^{(k)}) \end{aligned} \]
选取初始向量 \(x^{(0)} = (0, 0, 0)^T\)。

迭代过程：
⚝ \(k=0\): \(x^{(1)} = (\frac{1}{4}, 0, \frac{1}{4})^T = (0.25, 0, 0.25)^T\)
⚝ \(k=1\): \(x^{(2)} = (\frac{1}{4}(1+0), \frac{1}{4}(0.25+0.25), \frac{1}{4}(1+0))^T = (0.25, 0.125, 0.25)^T\)
⚝ \(k=2\): \(x^{(3)} = (\frac{1}{4}(1+0.125), \frac{1}{4}(0.25+0.25), \frac{1}{4}(1+0.125))^T = (0.28125, 0.125, 0.28125)^T\)
⚝ ...

参考文献:

⚝ [书籍] 迭代方法及其应用, 作者: [作者], 出版社: [出版社], [出版年份]. (系统介绍雅可比迭代法的理论和应用)
⚝ [在线课程] MIT OpenCourseware 18.330 Introduction to Numerical Analysis. (提供数值分析课程，包含迭代法的内容)

3.4.2 高斯-赛德尔迭代法 (Gauss-Seidel Iteration Method)

高斯-赛德尔迭代法 (Gauss-Seidel Iteration Method) 是雅可比迭代法的一种改进。在计算 \(x_i^{(k+1)}\) 时，使用已经更新的 \(x_1^{(k+1)}, x_2^{(k+1)}, \ldots, x_{i-1}^{(k+1)}\) 和未更新的 \(x_i^{(k)}, x_{i+1}^{(k)}, \ldots, x_n^{(k)}\)。

将 \(A = D - L - U\) 代入 \(Ax = b\)，得到 \((D - L - U)x = b\)，变形为 \((D - L)x = Ux + b\)，如果 \((D - L)\) 可逆，则有：
\[ x = (D - L)^{-1}Ux + (D - L)^{-1}b \]
高斯-赛德尔迭代法的迭代公式为：
\[ x^{(k+1)} = (D - L)^{-1}Ux^{(k)} + (D - L)^{-1}b \]
迭代矩阵 \(B_{GS} = (D - L)^{-1}U\)，迭代向量 \(f_{GS} = (D - L)^{-1}b\)。

分量形式:

\[ x_i^{(k+1)} = \frac{1}{a_{ii}} \left( b_i - \sum_{j=1}^{i-1} a_{ij} x_j^{(k+1)} - \sum_{j=i+1}^{n} a_{ij} x_j^{(k)} \right), \quad i = 1, 2, \ldots, n \]

算法流程:

选取初始迭代向量 \(x^{(0)}\)。
迭代计算：
\[ x_i^{(k+1)} = \frac{1}{a_{ii}} \left( b_i - \sum_{j=1}^{i-1} a_{ij} x_j^{(k+1)} - \sum_{j=i+1}^{n} a_{ij} x_j^{(k)} \right), \quad i = 1, 2, \ldots, n \]
判断收敛性：检查迭代向量是否收敛，例如，当 \(||x^{(k+1)} - x^{(k)}|| < \epsilon\) 或达到最大迭代次数时，停止迭代。

案例分析:

使用高斯-赛德尔迭代法求解与雅可比迭代法相同的方程组：
\[ \begin{cases} 4x_1 - x_2 = 1 \\ -x_1 + 4x_2 - x_3 = 0 \\ -x_2 + 4x_3 = 1 \end{cases} \]
迭代公式：
\[ \begin{aligned} x_1^{(k+1)} &= \frac{1}{4} (1 + x_2^{(k)}) \\ x_2^{(k+1)} &= \frac{1}{4} (0 + x_1^{(k+1)} + x_3^{(k)}) \\ x_3^{(k+1)} &= \frac{1}{4} (1 + x_2^{(k+1)}) \end{aligned} \]
选取初始向量 \(x^{(0)} = (0, 0, 0)^T\)。

迭代过程：
⚝ \(k=0\): \(x^{(1)} = (\frac{1}{4}(1+0), \frac{1}{4}(0.25+0), \frac{1}{4}(1+0.0625))^T = (0.25, 0.0625, 0.265625)^T\)
⚝ \(k=1\): \(x^{(2)} = (\frac{1}{4}(1+0.0625), \frac{1}{4}(0.265625+0.265625), \frac{1}{4}(1+0.1328125))^T = (0.265625, 0.1328125, 0.283203125)^T\)
⚝ ...

参考文献:

⚝ [书籍] 数值线性代数, 作者: [作者], 出版社: [出版社], [出版年份]. (深入分析高斯-赛德尔迭代法的收敛性和误差估计)
⚝ [软件库] SciPy (Scientific Python). (提供高斯-赛德尔迭代法的实现函数)

3.4.3 超松弛迭代法 (Successive Over-Relaxation, SOR)

超松弛迭代法 (Successive Over-Relaxation, SOR) 是高斯-赛德尔迭代法的一种加速方法。引入松弛因子 \(\omega \in (0, 2)\)，迭代公式为：
\[ x_i^{(k+1)} = (1 - \omega) x_i^{(k)} + \frac{\omega}{a_{ii}} \left( b_i - \sum_{j=1}^{i-1} a_{ij} x_j^{(k+1)} - \sum_{j=i+1}^{n} a_{ij} x_j^{(k)} \right), \quad i = 1, 2, \ldots, n \]
当 \(\omega = 1\) 时，SOR 方法退化为高斯-赛德尔迭代法。当 \(1 < \omega < 2\) 时，称为超松弛 (Over-Relaxation)；当 \(0 < \omega < 1\) 时，称为低松弛 (Under-Relaxation)。合适的 \(\omega\) 可以显著提高迭代收敛速度。

迭代矩阵:

SOR 方法的迭代矩阵 \(B_{SOR}\) 可以表示为：
\[ B_{SOR} = (D - \omega L)^{-1}((1 - \omega)D + \omega U) \]
迭代向量 \(f_{SOR} = \omega (D - \omega L)^{-1}b\)。

算法流程:

选取初始迭代向量 \(x^{(0)}\) 和松弛因子 \(\omega \in (0, 2)\)。
迭代计算：
\[ x_i^{(k+1)} = (1 - \omega) x_i^{(k)} + \frac{\omega}{a_{ii}} \left( b_i - \sum_{j=1}^{i-1} a_{ij} x_j^{(k+1)} - \sum_{j=i+1}^{n} a_{ij} x_j^{(k)} \right), \quad i = 1, 2, \ldots, n \]
判断收敛性：检查迭代向量是否收敛，例如，当 \(||x^{(k+1)} - x^{(k)}|| < \epsilon\) 或达到最大迭代次数时，停止迭代。

案例分析:

使用 SOR 方法求解与前述相同的方程组，并尝试选取不同的 \(\omega\) 值。合适的 \(\omega\) 值通常需要通过实验或理论分析确定。对于某些特定类型的矩阵 (如对称正定矩阵)，存在理论最优松弛因子。

参考文献:

⚝ [专著] 松弛法理论与应用, 作者: [作者], 出版社: [出版社], [出版年份]. (全面介绍SOR方法的理论基础和最优松弛因子的选取)
⚝ [研究论文] Optimal Overrelaxation Parameter for SOR Method, 作者: [作者], 期刊: [期刊名], 卷号: [卷号], 页码: [页码], [出版年份]. (探讨最优松弛因子的理论分析和计算方法)

3.5 收敛性分析与迭代法加速 (Convergence Analysis and Acceleration of Iterative Methods)

迭代法收敛性 (Convergence of Iterative Methods):

迭代法是否收敛以及收敛速度是评价迭代法性能的重要指标。迭代法 \(x^{(k+1)} = Bx^{(k)} + f\) 收敛的充要条件是迭代矩阵 \(B\) 的谱半径 \(\rho(B) < 1\)，其中谱半径 \(\rho(B)\) 定义为 \(B\) 的所有特征值绝对值的最大值。

充分条件:

⚝ 行和准则 (Row Sum Criterion): 如果迭代矩阵 \(B\) 满足 \(\max_{1 \leq i \leq n} \sum_{j=1}^{n} |b_{ij}| < 1\)，则迭代法收敛。
⚝ 列和准则 (Column Sum Criterion): 如果迭代矩阵 \(B\) 满足 \(\max_{1 \leq j \leq n} \sum_{i=1}^{n} |b_{ij}| < 1\)，则迭代法收敛。
⚝ 谱半径准则 (Spectral Radius Criterion): 如果迭代矩阵 \(B\) 的谱半径 \(\rho(B) < 1\)，则迭代法收敛。

对于雅可比迭代法和高斯-赛德尔迭代法:

⚝ 对角占优矩阵 (Diagonally Dominant Matrix): 如果系数矩阵 \(A\) 是严格对角占优的，即对于每一行 \(i\)，都有 \(|a_{ii}| > \sum_{j=1, j \neq i}^{n} |a_{ij}|\)，则雅可比迭代法和高斯-赛德尔迭代法都收敛。且高斯-赛德尔迭代法通常比雅可比迭代法收敛更快。
⚝ 对称正定矩阵 (Symmetric Positive Definite Matrix): 如果系数矩阵 \(A\) 是对称正定的，则高斯-赛德尔迭代法收敛。对于 SOR 方法，当 \(0 < \omega < 2\) 时，SOR 方法收敛。

迭代法加速 (Acceleration of Iterative Methods):

为了提高迭代法的收敛速度，可以采用一些加速技术，例如：

⚝ 超松弛迭代法 (SOR): 通过引入松弛因子 \(\omega\) 加速收敛。选择合适的 \(\omega\) 可以显著提高收敛速度。
⚝ 共轭梯度法 (Conjugate Gradient Method, CG): 特别适用于求解对称正定矩阵线性方程组，是一种高效的迭代法。将在后续章节详细介绍。
⚝ 预处理技术 (Preconditioning): 通过对原方程组进行预处理，构造一个更容易求解的等价方程组，从而加速迭代收敛。常见的预处理方法包括 Jacobi 预处理、Gauss-Seidel 预处理、不完全 LU 分解预处理等。

参考文献:

⚝ [教材] 数值分析教程, 作者: [作者], 出版社: [出版社], [出版年份]. (详细介绍迭代法的收敛性理论和加速方法)
⚝ [研究报告] Templates for the Solution of Linear Systems: Building Blocks for Iterative Methods, SIAM. (提供各种迭代法和预处理技术的模板和算法描述)

3.6 线性方程组的病态性与条件数 (Ill-Conditioning and Condition Number of Linear Systems)

病态线性方程组 (Ill-Conditioned Linear Systems):

当系数矩阵 \(A\) 或常数向量 \(b\) 的微小扰动，导致解 \(x\) 产生巨大变化时，称该线性方程组为病态的 (Ill-Conditioned)。病态性是线性方程组固有的性质，与求解方法无关。

条件数 (Condition Number):

条件数 (Condition Number) 是衡量线性方程组病态程度的指标。对于矩阵 \(A\)，其条件数定义为：
\[ \text{cond}(A) = ||A|| \cdot ||A^{-1}|| \]
其中，\(||\cdot||\) 表示矩阵范数，常用的矩阵范数包括谱范数 (谱条件数，spectral condition number) 和 Frobenius 范数 (Frobenius condition number)。在实际应用中，通常使用谱条件数或 2-范数条件数，记为 \(\text{cond}_2(A) = ||A||_2 \cdot ||A^{-1}||_2 = \frac{\sigma_{\max}(A)}{\sigma_{\min}(A)}\)，其中 \(\sigma_{\max}(A)\) 和 \(\sigma_{\min}(A)\) 分别是矩阵 \(A\) 的最大和最小奇异值。

条件数的性质:

⚝ \(\text{cond}(A) \geq 1\)。
⚝ \(\text{cond}(I) = 1\)，其中 \(I\) 是单位矩阵。
⚝ 条件数越大，矩阵越病态，线性方程组的解对扰动越敏感。
⚝ 条件数接近 1 时，矩阵是良态的 (Well-Conditioned)。

误差放大因子:

设线性方程组 \(Ax = b\)，如果 \(A\) 和 \(b\) 存在扰动 \(\delta A\) 和 \(\delta b\)，解的相对误差 \(\frac{||\delta x||}{||x||}\) 与系数矩阵和常数向量的相对误差 \(\frac{||\delta A||}{||A||}\) 和 \(\frac{||\delta b||}{||b||}\) 之间存在如下关系：
\[ \frac{||\delta x||}{||x||} \lesssim \text{cond}(A) \left( \frac{||\delta A||}{||A||} + \frac{||\delta b||}{||b||} \right) \]
条件数 \(\text{cond}(A)\) 可以看作是误差放大因子，它放大了系数矩阵和常数向量的相对误差，导致解的相对误差增大。

改善病态性:

⚝ 预处理 (Preconditioning): 通过预处理技术，可以降低系数矩阵的条件数，从而改善方程组的病态性。
⚝ 使用更高精度的算法和计算软件: 减小计算过程中的舍入误差。
⚝ 重新审视问题模型: 有时病态性是由于问题模型本身不合理造成的，需要重新审视和改进模型。

案例分析:

Hilbert 矩阵 \(H_n\) 是一种典型的病态矩阵，其元素 \(h_{ij} = \frac{1}{i+j-1}\)。随着矩阵阶数 \(n\) 的增大，Hilbert 矩阵的条件数迅速增大，线性方程组 \(H_n x = b\) 变得越来越病态。

参考文献:

⚝ [专著] 矩阵病态性分析与处理, 作者: [作者], 出版社: [出版社], [出版年份]. (深入探讨线性方程组病态性的理论、分析方法和处理技术)
⚝ [数值计算库] NumPy, SciPy, MATLAB. (提供计算矩阵条件数的函数)

4. chapter 4：插值与逼近 (Interpolation and Approximation)

4.1 拉格朗日插值 (Lagrange Interpolation)

在数值分析中，插值 (interpolation) 是一种重要的数值逼近方法。当已知函数在一些离散点上的取值时，插值旨在构造一个简单的、易于计算的函数，例如多项式函数，使其在这些已知点上与原函数取值相等。拉格朗日插值 (Lagrange Interpolation) 是多项式插值中最基本且重要的形式之一。

基本思想

拉格朗日插值的核心思想是构造一组特殊的基函数——拉格朗日插值基函数 (Lagrange basis polynomials)，使得每个基函数在某个节点上取值为 1，而在其他节点上取值为 0。通过这些基函数的线性组合，可以构造出一个多项式，满足在给定节点上的插值条件。

拉格朗日插值基函数的构造

假设给定 \( n+1 \) 个互不相同的节点 \( x_0, x_1, \ldots, x_n \) 及其对应的函数值 \( y_0, y_1, \ldots, y_n \)。拉格朗日插值多项式 \( L_n(x) \) 是一个次数不超过 \( n \) 的多项式，满足 \( L_n(x_i) = y_i \) 对 \( i = 0, 1, \ldots, n \) 成立。

为了构造拉格朗日插值多项式，我们首先定义拉格朗日插值基函数 \( l_i(x) \) (Lagrange basis polynomials) 为：

\[ l_i(x) = \prod_{j=0, j \neq i}^{n} \frac{x - x_j}{x_i - x_j}, \quad i = 0, 1, \ldots, n \]

对于每个基函数 \( l_i(x) \)，它具有以下性质：

① 当 \( x = x_i \) 时，分子分母相同，\( l_i(x_i) = 1 \)。
② 当 \( x = x_j \) 且 \( j \neq i \) 时，分子中含有因子 \( (x_j - x_j) = 0 \)，因此 \( l_i(x_j) = 0 \)。

拉格朗日插值多项式的表达式

利用拉格朗日插值基函数，我们可以构造拉格朗日插值多项式 \( L_n(x) \) 如下：

\[ L_n(x) = \sum_{i=0}^{n} y_i l_i(x) = \sum_{i=0}^{n} y_i \prod_{j=0, j \neq i}^{n} \frac{x - x_j}{x_i - x_j} \]

误差分析

拉格朗日插值多项式在节点 \( x_i \) 处精确地等于 \( y_i \)，但在其他点上存在插值误差。如果原函数 \( f(x) \) 在包含插值节点 \( x_0, x_1, \ldots, x_n \) 的区间 \( [a, b] \) 上具有 \( n+1 \) 阶连续导数，则拉格朗日插值余项 (Lagrange interpolation remainder) \( R_n(x) = f(x) - L_n(x) \) 可以表示为：

\[ R_n(x) = \frac{f^{(n+1)}(\xi)}{(n+1)!} \prod_{i=0}^{n} (x - x_i) \]

其中 \( \xi \) 是依赖于 \( x \) 的某个介于 \( \min(x, x_0, \ldots, x_n) \) 和 \( \max(x, x_0, \ldots, x_n) \) 之间的值。

优点与缺点

优点：
① 形式简洁，易于理解和构造。
② 基函数性质明确，便于理论分析。

缺点：
① 当插值节点增加时，需要重新计算所有的基函数，计算量较大。
② 龙格现象 (Runge's phenomenon)：当插值节点较多且分布不均匀时，高次拉格朗日插值多项式可能在节点之间产生剧烈震荡，导致插值效果不佳。

应用场景

拉格朗日插值常用于理论分析和推导，例如数值积分中的牛顿-科特斯公式 (Newton-Cotes formulas) 的推导就基于拉格朗日插值。在实际应用中，当插值节点较少且分布较为均匀时，拉格朗日插值可以提供较好的逼近效果。然而，当节点较多或分布不均匀时，通常会选择分段插值或样条插值等方法来克服龙格现象。

4.2 牛顿插值 (Newton Interpolation)

牛顿插值 (Newton Interpolation) 是另一种常用的多项式插值方法，它克服了拉格朗日插值在增加节点时需要重新计算所有基函数的缺点，具有递推计算的特点，更便于增加插值节点。

差商 (Divided Differences)

牛顿插值的核心概念是差商。差商是导数的离散近似，它反映了函数值在节点之间的变化率。

① 零阶差商：\( f[x_i] = f(x_i) \)
② 一阶差商：\( f[x_i, x_{i+1}] = \frac{f[x_{i+1}] - f[x_i]}{x_{i+1} - x_i} \)
③ 二阶差商：\( f[x_i, x_{i+1}, x_{i+2}] = \frac{f[x_{i+1}, x_{i+2}] - f[x_i, x_{i+1}]}{x_{i+2} - x_i} \)
④ k阶差商：\( f[x_i, x_{i+1}, \ldots, x_{i+k}] = \frac{f[x_{i+1}, \ldots, x_{i+k}] - f[x_i, \ldots, x_{i+k-1}]}{x_{i+k} - x_i} \)

差商具有以下性质：

① 对称性：差商的值与节点的排列顺序无关，例如 \( f[x_i, x_j] = f[x_j, x_i] \)。
② 线性性：对于常数 \( c_1, c_2 \) 和函数 \( f(x), g(x) \)，有 \( (c_1 f + c_2 g)[x_0, \ldots, x_k] = c_1 f[x_0, \ldots, x_k] + c_2 g[x_0, \ldots, x_k] \)。

牛顿插值多项式的构造

牛顿插值多项式 (Newton interpolation polynomial) 可以表示为：

\[ N_n(x) = f[x_0] + f[x_0, x_1](x - x_0) + f[x_0, x_1, x_2](x - x_0)(x - x_1) + \cdots + f[x_0, x_1, \ldots, x_n](x - x_0)(x - x_1) \cdots (x - x_{n-1}) \]

或者使用求和符号表示为：

\[ N_n(x) = \sum_{k=0}^{n} f[x_0, x_1, \ldots, x_k] \prod_{j=0}^{k-1} (x - x_j) \]

其中，当 \( k = 0 \) 时，\( \prod_{j=0}^{-1} (x - x_j) = 1 \)。

差商表的计算

为了方便计算牛顿插值多项式，通常使用差商表 (divided difference table) 来组织和计算差商。差商表的结构如下：

\( x_i \)	\( f[x_i] \)	\( f[x_i, x_{i+1}] \)	\( f[x_i, x_{i+1}, x_{i+2}] \)	\( \cdots \)	\( f[x_0, \ldots, x_n] \)
\( x_0 \)	\( f[x_0] \)	\( f[x_0, x_1] \)	\( f[x_0, x_1, x_2] \)	\( \cdots \)	\( f[x_0, \ldots, x_n] \)
\( x_1 \)	\( f[x_1] \)	\( f[x_1, x_2] \)	\( f[x_1, x_2, x_3] \)	\( \cdots \)
\( x_2 \)	\( f[x_2] \)	\( f[x_2, x_3] \)	\( f[x_2, x_3, x_4] \)	\( \cdots \)
\( \vdots \)	\( \vdots \)	\( \vdots \)	\( \vdots \)	\( \ddots \)
\( x_n \)	\( f[x_n] \)

差商表的第一列是节点 \( x_i \)，第二列是函数值 \( f[x_i] = y_i \)。从第三列开始，每一列的元素都由前两列的元素计算得到。例如，第三列的元素 \( f[x_i, x_{i+1}] \) 由第二列的 \( f[x_{i+1}] \) 和 \( f[x_i] \) 计算得到。

误差分析

牛顿插值多项式的插值余项 (interpolation remainder) 与拉格朗日插值多项式的余项形式相同：

\[ R_n(x) = f(x) - N_n(x) = \frac{f^{(n+1)}(\xi)}{(n+1)!} \prod_{i=0}^{n} (x - x_i) \]

优点与缺点

优点：
① 递推性：当增加插值节点时，只需要计算新的差商，并在原有插值多项式的基础上增加一项，无需重新计算整个多项式。
② 计算效率较高，尤其是在需要多次计算不同次数的插值多项式时。

缺点：
① 差商表的计算和存储需要一定的空间。
② 同样存在龙格现象，高次牛顿插值在节点分布不均匀时可能效果不佳。

应用场景

牛顿插值广泛应用于需要逐步增加插值精度的场合，例如在数值积分和数值微分中，可以通过增加节点来提高精度。此外，牛顿插值的递推性质也使其在计算机程序实现中更为方便。

4.3 埃尔米特插值 (Hermite Interpolation)

埃尔米特插值 (Hermite Interpolation) 不仅要求插值多项式在给定节点上函数值相等，还要求其导数值也相等。这种插值方法可以更好地逼近原函数，尤其是在函数值和导数值都已知的情况下。

基本思想

埃尔米特插值旨在构造一个多项式 \( H(x) \)，使得在给定节点 \( x_0, x_1, \ldots, x_m \) 上，不仅满足函数值插值条件 \( H(x_i) = f(x_i) \)，还满足导数值插值条件 \( H'(x_i) = f'(x_i), H''(x_i) = f''(x_i), \ldots \) 等。最常见的埃尔米特插值是要求函数值和一阶导数值都相等的情况。

两点三次埃尔米特插值

考虑在两个节点 \( x_0 \) 和 \( x_1 \) 上，已知函数值 \( f(x_0), f(x_1) \) 和导数值 \( f'(x_0), f'(x_1) \)。我们需要构造一个次数不超过 3 的多项式 \( H_3(x) \)，满足：

\[ H_3(x_0) = f(x_0), \quad H_3(x_1) = f(x_1), \quad H_3'(x_0) = f'(x_0), \quad H_3'(x_1) = f'(x_1) \]

我们可以构造如下形式的埃尔米特插值基函数：

\[ H_{0,0}(x) = (1 + 2\frac{x-x_0}{x_1-x_0}) (\frac{x-x_1}{x_0-x_1})^2 \]
\[ H_{1,0}(x) = (1 + 2\frac{x-x_1}{x_0-x_1}) (\frac{x-x_0}{x_1-x_0})^2 \]
\[ H_{0,1}(x) = (x-x_0) (\frac{x-x_1}{x_0-x_1})^2 \]
\[ H_{1,1}(x) = (x-x_1) (\frac{x-x_0}{x_1-x_0})^2 \]

则三次埃尔米特插值多项式为：

\[ H_3(x) = f(x_0) H_{0,0}(x) + f(x_1) H_{1,0}(x) + f'(x_0) H_{0,1}(x) + f'(x_1) H_{1,1}(x) \]

可以验证，这些基函数满足以下条件：

\[ H_{0,0}(x_0) = 1, H_{0,0}(x_1) = 0, H'_{0,0}(x_0) = 0, H'_{0,0}(x_1) = 0 \]
\[ H_{1,0}(x_0) = 0, H_{1,0}(x_1) = 1, H'_{1,0}(x_0) = 0, H'_{1,0}(x_1) = 0 \]
\[ H_{0,1}(x_0) = 0, H_{0,1}(x_1) = 0, H'_{0,1}(x_0) = 1, H'_{0,1}(x_1) = 0 \]
\[ H_{1,1}(x_0) = 0, H_{1,1}(x_1) = 0, H'_{1,1}(x_0) = 0, H'_{1,1}(x_1) = 1 \]

一般埃尔米特插值

更一般地，假设在节点 \( x_0, x_1, \ldots, x_m \) 上，已知函数值 \( f(x_i) \) 及其直到 \( k_i-1 \) 阶导数值 \( f'(x_i), \ldots, f^{(k_i-1)}(x_i) \)，其中 \( i = 0, 1, \ldots, m \)。我们需要构造一个次数不超过 \( N = \sum_{i=0}^{m} k_i - 1 \) 的多项式 \( H_N(x) \)，满足这些插值条件。

可以使用广义牛顿插值公式 (Generalized Newton Interpolation Formula) 和重节点差商 (Divided Differences with Repeated Nodes) 来构造埃尔米特插值多项式。

误差分析

如果原函数 \( f(x) \) 在包含插值节点的区间上具有足够阶的连续导数，则埃尔米特插值余项 (Hermite interpolation remainder) 可以表示为：

\[ R_N(x) = f(x) - H_N(x) = \frac{f^{(N+1)}(\xi)}{(N+1)!} \prod_{i=0}^{m} (x - x_i)^{k_i} \]

其中 \( N = \sum_{i=0}^{m} k_i - 1 \)，\( \xi \) 是区间内的某个值。

优点与缺点

优点：
① 能够利用函数值和导数值信息，提供更高精度的逼近。
② 在节点处函数值和导数值都连续，插值曲线更光滑。

缺点：
① 需要知道函数在节点处的导数值，实际应用中可能难以获取。
② 当节点和导数信息较多时，构造和计算较为复杂。

应用场景

埃尔米特插值常用于需要保证插值函数光滑性的场合，例如在计算机辅助几何设计 (CAGD) 和曲线曲面造型中，埃尔米特插值可以用于构造光滑的曲线和曲面。此外，在数值微分和数值积分中，利用埃尔米特插值可以构造更高精度的数值方法。

4.4 分段多项式插值与样条函数 (Piecewise Polynomial Interpolation and Spline Functions)

为了克服高次多项式插值可能出现的龙格现象，并提高插值的稳定性和精度，实际应用中更常用分段多项式插值 (Piecewise Polynomial Interpolation) 和样条函数 (Spline Functions)。

基本思想

分段多项式插值将插值区间划分为若干个子区间，在每个子区间上使用低次多项式进行插值。样条函数是一种特殊的分段多项式插值，它要求在节点处具有一定的光滑性，例如连续性、一阶导数连续、二阶导数连续等。

4.4.1 线性样条插值 (Linear Spline Interpolation)

线性样条插值 (Linear Spline Interpolation) 是最简单的分段多项式插值。它将相邻两个节点用直线段连接起来，形成一条折线。

构造方法

给定节点 \( x_0 < x_1 < \cdots < x_n \) 和函数值 \( y_0, y_1, \ldots, y_n \)。在每个区间 \( [x_i, x_{i+1}] \) 上，线性样条函数 \( S_1(x) \) 定义为连接点 \( (x_i, y_i) \) 和 \( (x_{i+1}, y_{i+1}) \) 的直线段。

对于 \( x \in [x_i, x_{i+1}] \)，线性样条函数可以表示为：

\[ S_1(x) = y_i + \frac{y_{i+1} - y_i}{x_{i+1} - x_i} (x - x_i) \]

或者使用拉格朗日插值形式：

\[ S_1(x) = \frac{x - x_{i+1}}{x_i - x_{i+1}} y_i + \frac{x - x_i}{x_{i+1} - x_i} y_{i+1} \]

性质

① 线性样条函数 \( S_1(x) \) 在每个子区间 \( [x_i, x_{i+1}] \) 上是线性函数。
② \( S_1(x) \) 在整个插值区间 \( [x_0, x_n] \) 上连续，即 \( S_1(x) \in C[x_0, x_n] \)。
③ \( S_1(x_i) = y_i \) 对 \( i = 0, 1, \ldots, n \) 成立。

优点与缺点

优点：
① 构造简单，计算量小。
② 不会出现龙格现象，稳定性好。

缺点：
① 光滑性较差，只具有连续性，导数不连续，插值曲线不够光滑。
② 逼近精度较低，通常只能达到 \( O(h^2) \) 精度，其中 \( h = \max_i (x_{i+1} - x_i) \) 是步长。

应用场景

线性样条插值适用于对光滑性要求不高，但对计算速度和稳定性要求较高的场合。例如，在数据可视化和快速数据逼近中，线性样条插值是一种简单有效的选择。

4.4.2 三次样条插值 (Cubic Spline Interpolation)

三次样条插值 (Cubic Spline Interpolation) 是一种更常用的分段多项式插值方法，它使用三次多项式在每个子区间上进行插值，并要求在节点处函数值、一阶导数和二阶导数都连续，从而保证插值曲线的光滑性。

构造方法

给定节点 \( x_0 < x_1 < \cdots < x_n \) 和函数值 \( y_0, y_1, \ldots, y_n \)。在每个区间 \( [x_i, x_{i+1}] \) 上，三次样条函数 \( S_3(x) \) 是一个三次多项式。为了确定这些三次多项式，我们需要满足以下条件：

① 插值条件：\( S_3(x_i) = y_i \) 对 \( i = 0, 1, \ldots, n \) 成立。
② 连续性条件：\( S_3(x) \in C^2[x_0, x_n] \)，即 \( S_3(x), S'_3(x), S''_3(x) \) 在 \( [x_0, x_n] \) 上连续。

设 \( S_3(x) \) 在区间 \( [x_i, x_{i+1}] \) 上为 \( S_{3,i}(x) \)，则 \( S_{3,i}(x) \) 是三次多项式。共有 \( n \) 个区间，每个区间有 4 个待定系数，总共 \( 4n \) 个待定系数。

插值条件提供 \( 2n \) 个方程（每个内节点 \( x_i \) 提供两个条件，端点 \( x_0, x_n \) 各一个条件）。
连续性条件在每个内节点 \( x_i \) 处提供 3 个条件（函数值连续、一阶导数连续、二阶导数连续），共 \( 3(n-1) \) 个方程。

总共 \( 2n + 3(n-1) = 5n - 3 \) 个方程，而未知数有 \( 4n \) 个。为了唯一确定三次样条函数，还需要增加 \( n+3 - (5n - 4n) = 2 \) 个边界条件 (boundary conditions)。

常用的边界条件有：

① 自然边界条件 (Natural Boundary Conditions)：\( S''_3(x_0) = S''_3(x_n) = 0 \)。
② 固定边界条件 (Clamped Boundary Conditions)：\( S'_3(x_0) = f'(x_0), S'_3(x_n) = f'(x_n) \)。如果 \( f'(x_0), f'(x_n) \) 未知，可以使用其他近似值。
③ 周期边界条件 (Periodic Boundary Conditions)：如果 \( y_0 = y_n \)，且要求 \( S_3(x_0) = S_3(x_n), S'_3(x_0) = S'_3(x_n), S''_3(x_0) = S''_3(x_n) \)。

三弯矩方程 (Tridiagonal System for Cubic Splines)

求解三次样条函数的系数通常转化为求解一个三对角线性方程组。设 \( M_i = S''_3(x_i) \) 为节点 \( x_i \) 处的二阶导数值（弯矩），则可以推导出关于 \( M_i \) 的三弯矩方程组 (Tridiagonal System for Cubic Splines)。

优点与缺点

优点：
① 光滑性好，具有二阶导数连续性，插值曲线非常光滑。
② 逼近精度较高，通常可以达到 \( O(h^4) \) 精度。
③ 稳定性好，不易出现龙格现象。

缺点：
① 构造和计算相对复杂，需要求解三对角线性方程组。
② 计算量比线性样条插值大。

应用场景

三次样条插值广泛应用于需要高质量曲线逼近和光滑插值的场合，例如计算机辅助设计 (CAD)、动画制作、数据平滑、数值求解微分方程等。它是工程和科学计算中非常重要的插值方法。

4.5 曲线拟合的最小二乘法 (Least Squares Method for Curve Fitting)

在实际问题中，有时我们得到的数据点 \( (x_i, y_i) \) 并非精确值，而是带有测量误差的。这时，插值方法要求插值曲线精确通过每个数据点可能并不合适，因为插值曲线会受到误差的影响。曲线拟合 (Curve Fitting) 旨在找到一条曲线，使其在某种意义下“最佳”地逼近这些数据点，而不是精确通过它们。最小二乘法 (Least Squares Method) 是最常用的曲线拟合方法之一。

基本思想

最小二乘法的基本思想是选择一组基函数 \( \phi_1(x), \phi_2(x), \ldots, \phi_m(x) \)，构造拟合函数 \( \Phi(x) = \sum_{j=1}^{m} c_j \phi_j(x) \)，其中 \( c_j \) 是待定系数。通过最小化误差平方和 (Sum of Squared Errors, SSE) 来确定系数 \( c_j \)。

给定数据点 \( (x_i, y_i), i = 1, 2, \ldots, n \)，误差平方和定义为：

\[ E(c_1, c_2, \ldots, c_m) = \sum_{i=1}^{n} [y_i - \Phi(x_i)]^2 = \sum_{i=1}^{n} [y_i - \sum_{j=1}^{m} c_j \phi_j(x_i)]^2 \]

最小二乘法的目标是找到系数 \( c_1, c_2, \ldots, c_m \)，使得 \( E(c_1, c_2, \ldots, c_m) \) 达到最小值。

求解方法

为了求得使 \( E \) 最小的系数 \( c_j \)，我们需要对 \( E \) 关于每个 \( c_k \) 求偏导数，并令偏导数等于零：

\[ \frac{\partial E}{\partial c_k} = -2 \sum_{i=1}^{n} [y_i - \sum_{j=1}^{m} c_j \phi_j(x_i)] \phi_k(x_i) = 0, \quad k = 1, 2, \ldots, m \]

整理后得到正规方程组 (Normal Equations)：

\[ \sum_{j=1}^{m} (\sum_{i=1}^{n} \phi_j(x_i) \phi_k(x_i)) c_j = \sum_{i=1}^{n} y_i \phi_k(x_i), \quad k = 1, 2, \ldots, m \]

这是一个关于系数 \( c_1, c_2, \ldots, c_m \) 的线性方程组。记矩阵 \( A = [\phi_j(x_i)]_{n \times m} \)，向量 \( \mathbf{c} = [c_1, c_2, \ldots, c_m]^T \)，向量 \( \mathbf{y} = [y_1, y_2, \ldots, y_n]^T \)，则正规方程组可以写成矩阵形式：

\[ (A^T A) \mathbf{c} = A^T \mathbf{y} \]

如果矩阵 \( A^T A \) 非奇异（通常当 \( x_i \) 互不相同且基函数线性无关时成立），则可以解出系数向量 \( \mathbf{c} \)：

\[ \mathbf{c} = (A^T A)^{-1} A^T \mathbf{y} \]

多项式拟合

最常见的曲线拟合是多项式拟合 (Polynomial Curve Fitting)。选择基函数为多项式基 \( \phi_j(x) = x^{j-1}, j = 1, 2, \ldots, m \)，即拟合函数为 \( \Phi(x) = c_1 + c_2 x + \cdots + c_m x^{m-1} \)。

例如，线性拟合 (Linear Regression) 是 \( m = 2 \) 的情况，拟合函数为 \( \Phi(x) = c_1 + c_2 x \)。二次拟合 (Quadratic Regression) 是 \( m = 3 \) 的情况，拟合函数为 \( \Phi(x) = c_1 + c_2 x + c_3 x^2 \)。

优点与缺点

优点：
① 方法通用，适用于各种类型的基函数。
② 能够处理带有误差的数据，得到最佳逼近曲线。
③ 理论成熟，应用广泛。

缺点：
① 正规方程组的系数矩阵 \( A^T A \) 可能是病态的，导致数值解不稳定。
② 选择合适的基函数和拟合阶数需要一定的经验。

应用场景

最小二乘法广泛应用于数据分析、统计学、机器学习、工程技术等领域。例如，在实验数据处理、参数估计、趋势预测、模型建立等方面，最小二乘法都是重要的工具。

4.6 正交多项式与最佳逼近 (Orthogonal Polynomials and Best Approximation)

在函数逼近中，我们常常希望找到在某种意义下“最佳”的逼近函数。正交多项式 (Orthogonal Polynomials) 在最佳逼近理论中扮演着重要的角色。利用正交多项式作为基函数，可以简化最小二乘逼近的计算，并提高逼近的精度和稳定性。

内积与正交性 (Inner Product and Orthogonality)

在函数空间中，可以定义内积 (inner product) 来衡量两个函数的“相似程度”。对于区间 \( [a, b] \) 上的实函数 \( f(x) \) 和 \( g(x) \)，带权函数 \( \rho(x) \ge 0 \) 的内积定义为：

\[ \langle f, g \rangle = \int_{a}^{b} f(x) g(x) \rho(x) dx \]

如果 \( \langle f, g \rangle = 0 \)，则称函数 \( f(x) \) 和 \( g(x) \) 在区间 \( [a, b] \) 上关于权函数 \( \rho(x) \) 正交 (orthogonal)。

一组多项式 \( \{ \phi_0(x), \phi_1(x), \phi_2(x), \ldots \} \) 称为正交多项式族 (orthogonal polynomial family)，如果 \( \phi_n(x) \) 是 \( n \) 次多项式，且对于 \( m \neq n \)，有 \( \langle \phi_m, \phi_n \rangle = 0 \)。如果还满足 \( \langle \phi_n, \phi_n \rangle = 1 \)，则称其为标准正交多项式族 (orthonormal polynomial family)。

最佳平方逼近 (Best Least Squares Approximation)

给定函数 \( f(x) \) 和一组线性无关的基函数 \( \{ \phi_1(x), \phi_2(x), \ldots, \phi_m(x) \} \)，我们希望找到一个线性组合 \( \Phi(x) = \sum_{j=1}^{m} c_j \phi_j(x) \)，使得 \( \Phi(x) \) 在区间 \( [a, b] \) 上“最佳”地逼近 \( f(x) \)。最佳平方逼近是指选择系数 \( c_j \)，使得平方误差积分最小：

\[ \| f - \Phi \|^2 = \int_{a}^{b} [f(x) - \Phi(x)]^2 \rho(x) dx = \min \]

如果基函数 \( \{ \phi_1(x), \phi_2(x), \ldots, \phi_m(x) \} \) 是正交的，则求解最佳平方逼近系数 \( c_j \) 的正规方程组将大大简化。此时，正规方程组变为对角线形式，系数可以直接计算：

\[ c_j = \frac{\langle f, \phi_j \rangle}{\langle \phi_j, \phi_j \rangle} = \frac{\int_{a}^{b} f(x) \phi_j(x) \rho(x) dx}{\int_{a}^{b} [\phi_j(x)]^2 \rho(x) dx}, \quad j = 1, 2, \ldots, m \]

常用正交多项式

4.6.1 切比雪夫多项式 (Chebyshev Polynomials)

切比雪夫多项式 (Chebyshev Polynomials) 是一类重要的正交多项式，在区间 \( [-1, 1] \) 上关于权函数 \( \rho(x) = \frac{1}{\sqrt{1 - x^2}} \) 正交。

定义

第一类切比雪夫多项式 \( T_n(x) \) 可以通过以下递推关系定义：

\[ T_0(x) = 1, \quad T_1(x) = x, \quad T_{n+1}(x) = 2x T_n(x) - T_{n-1}(x), \quad n \ge 1 \]

或者用三角函数表示：\( T_n(\cos \theta) = \cos(n \theta) \)。

性质

① 正交性：\( \int_{-1}^{1} T_m(x) T_n(x) \frac{1}{\sqrt{1 - x^2}} dx = \begin{cases} 0, & m \neq n \\ \pi, & m = n = 0 \\ \frac{\pi}{2}, & m = n \neq 0 \end{cases} \)
② 零点：\( T_n(x) \) 在 \( [-1, 1] \) 内有 \( n \) 个零点 \( x_k = \cos(\frac{(2k-1)\pi}{2n}), k = 1, 2, \ldots, n \)。
③ 极值点：\( T_n(x) \) 在 \( [-1, 1] \) 内有 \( n+1 \) 个极值点 \( x_k = \cos(\frac{k\pi}{n}), k = 0, 1, \ldots, n \)，且 \( |T_n(x)| \le 1 \) 对 \( x \in [-1, 1] \) 成立。
④ 最小最大性：在所有首项系数为 1 的 \( n \) 次多项式中，\( \frac{1}{2^{n-1}} T_n(x) \) 在 \( [-1, 1] \) 上的最大绝对值最小。

应用

切比雪夫多项式在数值分析中有广泛应用，例如：
① 最佳一致逼近：利用切比雪夫多项式的零点作为插值节点，可以减小龙格现象，提高插值精度。
② 切比雪夫加速迭代法：在迭代法求解线性方程组时，利用切比雪夫多项式可以加速收敛。
③ 数值积分：高斯-切比雪夫求积公式基于切比雪夫多项式的零点。

4.6.2 勒让德多项式 (Legendre Polynomials)

勒让德多项式 (Legendre Polynomials) 是另一类重要的正交多项式，在区间 \( [-1, 1] \) 上关于权函数 \( \rho(x) = 1 \) 正交。

定义

勒让德多项式 \( P_n(x) \) 可以通过以下递推关系定义：

\[ P_0(x) = 1, \quad P_1(x) = x, \quad P_{n+1}(x) = \frac{(2n+1)x P_n(x) - n P_{n-1}(x)}{n+1}, \quad n \ge 1 \]

或者用罗德里格公式 (Rodrigues' formula) 表示：\( P_n(x) = \frac{1}{2^n n!} \frac{d^n}{dx^n} [(x^2 - 1)^n] \)。

性质

① 正交性：\( \int_{-1}^{1} P_m(x) P_n(x) dx = \begin{cases} 0, & m \neq n \\ \frac{2}{2n+1}, & m = n \end{cases} \)
② 零点：\( P_n(x) \) 在 \( [-1, 1] \) 内有 \( n \) 个实零点，且互不相同。
③ 规范性：\( P_n(1) = 1, P_n(-1) = (-1)^n \)。

应用

勒让德多项式在物理学、工程学和数值分析中都有重要应用，例如：
① 高斯-勒让德求积公式：基于勒让德多项式的零点，是数值积分中精度最高的求积公式之一。
② 球谐函数：在球坐标系中求解偏微分方程时，勒让德多项式是球谐函数的一部分。
③ 最佳平方逼近：利用勒让德多项式作为基函数进行最佳平方逼近，可以得到高效稳定的逼近结果。

总结

正交多项式为函数逼近提供了强大的工具。利用正交多项式作为基函数，可以简化最小二乘逼近的计算，提高逼近的精度和稳定性。切比雪夫多项式和勒让德多项式是两类最常用的正交多项式，它们在数值分析和科学计算中都有广泛的应用。

5. chapter 5：数值积分与数值微分 (Numerical Integration and Numerical Differentiation)

5.1 数值积分的基本思想与方法 (Basic Ideas and Methods of Numerical Integration)

在科学与工程计算中，我们经常需要计算定积分 \( I = \int_a^b f(x) dx \)。然而，对于许多函数 \( f(x) \)，我们可能无法找到其原函数 \( F(x) \)，或者即使能找到原函数，计算 \( F(b) - F(a) \) 也可能非常复杂。此外，在实际应用中，被积函数 \( f(x) \) 往往是通过实验数据或数值计算给出的离散数据点，而不是显式的函数表达式。这时，就需要使用数值积分 (Numerical Integration) 方法来近似计算定积分。数值积分，有时也称为求积 (Quadrature)，其基本思想是用简单的数值求积公式 (Numerical Quadrature Formula) 近似代替定积分中的被积函数 \( f(x) \)，从而将积分计算转化为代数运算。

数值积分的核心思想是近似 (Approximation)。我们用一系列离散的点 \( x_i \) 上的函数值 \( f(x_i) \) 的线性组合来近似定积分的值。一般的数值积分公式可以表示为：
\[ \int_a^b f(x) dx \approx \sum_{i=0}^n A_i f(x_i) \]
其中，\( x_i \) 称为求积节点 (Quadrature Nodes)，\( A_i \) 称为求积系数 (Quadrature Weights)。不同的数值积分方法的主要区别在于求积节点 \( x_i \) 和求积系数 \( A_i \) 的选取方式。

常用的数值积分方法主要基于以下几种基本思想：

① 插值型求积公式 (Interpolatory Quadrature Formulas)：这是最基本也是最常用的一类数值积分方法。其基本思想是用插值多项式 (Interpolation Polynomial) \( p_n(x) \) 近似被积函数 \( f(x) \)，然后用 \( \int_a^b p_n(x) dx \) 作为 \( \int_a^b f(x) dx \) 的近似值。由于插值多项式容易计算积分，因此这种方法非常有效。根据插值节点 \( x_i \) 的不同选取方式，可以得到不同的插值型求积公式，例如牛顿-科特斯公式 (Newton-Cotes Formulas) 和 高斯求积公式 (Gaussian Quadrature) 等。

② 复合求积公式 (Composite Quadrature Rules)：为了提高数值积分的精度，通常将积分区间 \( [a, b] \) 分成若干个小区间，在每个小区间上使用低阶的求积公式，然后将各小区间的积分值累加起来，得到整个积分区间上的近似值。这种方法称为复合求积 (Composite Quadrature)。常用的复合求积公式包括复合梯形公式 (Composite Trapezoidal Rule)、复合辛普森公式 (Composite Simpson's Rule) 等。

③ 龙贝格积分法 (Romberg Integration)：这是一种基于外推加速 (Extrapolation Acceleration) 思想的数值积分方法。它通过计算不同步长下的梯形公式或辛普森公式的积分值，然后利用理查森外推 (Richardson Extrapolation) 技术，构造出具有更高精度的积分近似值。龙贝格积分法具有精度高、计算效率较高等优点。

④ 高斯求积公式 (Gaussian Quadrature)：与牛顿-科特斯公式不同，高斯求积公式的求积节点 \( x_i \) 不是等距的，而是通过正交多项式 (Orthogonal Polynomials) 的零点来确定的。高斯求积公式在相同的节点数目下，可以达到最高的代数精度，因此具有很高的计算效率。常用的高斯求积公式包括高斯-勒让德求积公式 (Gauss-Legendre Quadrature)、高斯-切比雪夫求积公式 (Gauss-Chebyshev Quadrature) 等。

选择合适的数值积分方法需要考虑以下因素：

⚝ 被积函数 \( f(x) \) 的性质：例如，函数的光滑性、振荡性等。对于光滑函数，可以使用高阶的求积公式；对于振荡函数或奇异函数，可能需要特殊的处理方法。
⚝ 积分精度要求：精度要求越高，通常需要使用更高阶的求积公式或更小的步长。
⚝ 计算效率：在满足精度要求的前提下，应尽量选择计算效率高的方法。例如，高斯求积公式通常比牛顿-科特斯公式具有更高的效率。
⚝ 计算资源的限制：例如，计算时间和存储空间。

在实际应用中，通常需要根据具体问题选择合适的数值积分方法，并进行误差分析，以保证计算结果的可靠性。

5.2 牛顿-科特斯公式 (Newton-Cotes Formulas)

牛顿-科特斯公式 (Newton-Cotes Formulas) 是一类重要的插值型求积公式。它的基本思想是用等距节点 (Equidistant Nodes) 构造插值多项式来近似被积函数，然后积分插值多项式得到数值积分公式。

设积分区间为 \( [a, b] \)，将其 \( n \) 等分，得到 \( n+1 \) 个等距节点：
\[ x_i = a + i h, \quad i = 0, 1, \dots, n \]
其中，步长 \( h = \frac{b-a}{n} \)。牛顿-科特斯公式利用这些等距节点 \( x_i \) 上的函数值 \( f(x_i) \) 构造 \( n \) 次拉格朗日插值多项式 (Lagrange Interpolation Polynomial) \( L_n(x) \) 来近似 \( f(x) \)。
\[ f(x) \approx L_n(x) = \sum_{i=0}^n f(x_i) l_i(x) \]
其中，\( l_i(x) \) 是拉格朗日插值基函数 (Lagrange Interpolation Basis Functions)：
\[ l_i(x) = \prod_{j=0, j \neq i}^n \frac{x - x_j}{x_i - x_j} \]
将 \( L_n(x) \) 在区间 \( [a, b] \) 上积分，就得到 \( n \) 阶牛顿-科特斯公式：
\[ \int_a^b f(x) dx \approx \int_a^b L_n(x) dx = \int_a^b \sum_{i=0}^n f(x_i) l_i(x) dx = \sum_{i=0}^n f(x_i) \int_a^b l_i(x) dx \]
令 科特斯系数 (Cotes Coefficients) \( C_i^{(n)} = \frac{1}{b-a} \int_a^b l_i(x) dx \)，则牛顿-科特斯公式可以写成：
\[ \int_a^b f(x) dx \approx (b-a) \sum_{i=0}^n C_i^{(n)} f(x_i) \]
或者，令 求积系数 (Quadrature Weights) \( A_i = (b-a) C_i^{(n)} = \int_a^b l_i(x) dx \)，则公式为：
\[ \int_a^b f(x) dx \approx \sum_{i=0}^n A_i f(x_i) \]
由于等距节点的对称性，牛顿-科特斯公式的系数具有对称性，即 \( C_i^{(n)} = C_{n-i}^{(n)} \)。

常用的低阶牛顿-科特斯公式包括：

5.2.1 梯形公式 (Trapezoidal Rule)

梯形公式 (Trapezoidal Rule) 是 \( n=1 \) 的牛顿-科特斯公式。此时，我们用线性插值多项式 (Linear Interpolation Polynomial) 近似被积函数 \( f(x) \)。取两个节点 \( x_0 = a \) 和 \( x_1 = b \)，则步长 \( h = b-a \)。
拉格朗日插值基函数为：
\[ l_0(x) = \frac{x - x_1}{x_0 - x_1} = \frac{x - b}{a - b} \]
\[ l_1(x) = \frac{x - x_0}{x_1 - x_0} = \frac{x - a}{b - a} \]
线性插值多项式为：
\[ L_1(x) = f(a) l_0(x) + f(b) l_1(x) = f(a) \frac{x - b}{a - b} + f(b) \frac{x - a}{b - a} \]
梯形公式为：
\[ \int_a^b f(x) dx \approx \int_a^b L_1(x) dx = f(a) \int_a^b \frac{x - b}{a - b} dx + f(b) \int_a^b \frac{x - a}{b - a} dx \]
计算积分：
\[ \int_a^b \frac{x - b}{a - b} dx = \frac{1}{a - b} \left[ \frac{1}{2} x^2 - bx \right]_a^b = \frac{1}{a - b} \left[ (\frac{1}{2} b^2 - b^2) - (\frac{1}{2} a^2 - ba) \right] = \frac{1}{a - b} \left[ -\frac{1}{2} b^2 - \frac{1}{2} a^2 + ba \right] = \frac{1}{2} (b - a) \]
\[ \int_a^b \frac{x - a}{b - a} dx = \frac{1}{b - a} \left[ \frac{1}{2} x^2 - ax \right]_a^b = \frac{1}{b - a} \left[ (\frac{1}{2} b^2 - ab) - (\frac{1}{2} a^2 - a^2) \right] = \frac{1}{b - a} \left[ \frac{1}{2} b^2 - ab + \frac{1}{2} a^2 \right] = \frac{1}{2} (b - a) \]
因此，梯形公式为：
\[ \int_a^b f(x) dx \approx \frac{b - a}{2} [f(a) + f(b)] \]
几何解释：梯形公式用梯形面积近似曲边梯形面积，梯形的两个底边长分别为 \( f(a) \) 和 \( f(b) \)，高为 \( b-a \)。

梯形公式的误差分析 (Error Analysis of Trapezoidal Rule)：
设 \( f(x) \in C^2[a, b] \)，则梯形公式的截断误差 (Truncation Error) 为：
\[ R_T(f) = \int_a^b f(x) dx - \frac{b - a}{2} [f(a) + f(b)] = - \frac{(b - a)^3}{12} f''(\xi), \quad \xi \in (a, b) \]
或者表示为：
\[ R_T(f) = - \frac{h^3}{12} f''(\xi), \quad h = b - a \]
梯形公式具有 1 阶代数精度 (Algebraic Precision of Order 1)，即对于次数不超过 1 的多项式，梯形公式精确成立。对于二次多项式，梯形公式一般不精确。

5.2.2 辛普森公式 (Simpson's Rule)

辛普森公式 (Simpson's Rule) 是 \( n=2 \) 的牛顿-科特斯公式。此时，我们用二次插值多项式 (Quadratic Interpolation Polynomial) 近似被积函数 \( f(x) \)。取三个节点 \( x_0 = a \)，\( x_1 = \frac{a+b}{2} = m \)，\( x_2 = b \)，步长 \( h = \frac{b-a}{2} \)。
拉格朗日插值基函数为：
\[ l_0(x) = \frac{(x - x_1)(x - x_2)}{(x_0 - x_1)(x_0 - x_2)} = \frac{(x - m)(x - b)}{(a - m)(a - b)} = \frac{(x - m)(x - b)}{(\frac{a-b}{2})(a - b)} = \frac{2(x - m)(x - b)}{(a - b)^2} \]
\[ l_1(x) = \frac{(x - x_0)(x - x_2)}{(x_1 - x_0)(x_1 - x_2)} = \frac{(x - a)(x - b)}{(m - a)(m - b)} = \frac{(x - a)(x - b)}{(\frac{b-a}{2})(\frac{a-b}{2})} = \frac{-4(x - a)(x - b)}{(a - b)^2} \]
\[ l_2(x) = \frac{(x - x_0)(x - x_1)}{(x_2 - x_0)(x_2 - x_1)} = \frac{(x - a)(x - m)}{(b - a)(b - m)} = \frac{(x - a)(x - m)}{(b - a)(\frac{b-a}{2})} = \frac{2(x - a)(x - m)}{(b - a)^2} \]
二次插值多项式为：
\[ L_2(x) = f(a) l_0(x) + f(m) l_1(x) + f(b) l_2(x) \]
辛普森公式为：
\[ \int_a^b f(x) dx \approx \int_a^b L_2(x) dx = f(a) \int_a^b l_0(x) dx + f(m) \int_a^b l_1(x) dx + f(b) \int_a^b l_2(x) dx \]
计算积分（利用对称性，可以简化计算）：
\[ \int_a^b l_0(x) dx = \int_a^b \frac{2(x - m)(x - b)}{(a - b)^2} dx = \frac{b - a}{6} \]
\[ \int_a^b l_1(x) dx = \int_a^b \frac{-4(x - a)(x - b)}{(a - b)^2} dx = \frac{4(b - a)}{6} = \frac{2(b - a)}{3} \]
\[ \int_a^b l_2(x) dx = \int_a^b \frac{2(x - a)(x - m)}{(b - a)^2} dx = \frac{b - a}{6} \]
因此，辛普森公式为：
\[ \int_a^b f(x) dx \approx \frac{b - a}{6} [f(a) + 4f(m) + f(b)] = \frac{h}{3} [f(a) + 4f(\frac{a+b}{2}) + f(b)], \quad h = \frac{b-a}{2} \]
几何解释：辛普森公式用抛物线弧线近似曲线 \( y = f(x) \)，然后计算抛物线与 x 轴围成的面积。

辛普森公式的误差分析 (Error Analysis of Simpson's Rule)：
设 \( f(x) \in C^4[a, b] \)，则辛普森公式的截断误差 (Truncation Error) 为：
\[ R_S(f) = \int_a^b f(x) dx - \frac{b - a}{6} [f(a) + 4f(\frac{a+b}{2}) + f(b)] = - \frac{(b - a)^5}{2880} f^{(4)}(\xi), \quad \xi \in (a, b) \]
或者表示为：
\[ R_S(f) = - \frac{h^5}{90} f^{(4)}(\xi), \quad h = \frac{b - a}{2} \]
辛普森公式具有 3 阶代数精度 (Algebraic Precision of Order 3)，实际上，辛普森公式对于三次多项式也精确成立，因此其代数精度为 3。对于四次多项式，辛普森公式一般不精确。

更高阶的牛顿-科特斯公式 (Higher-Order Newton-Cotes Formulas)：
可以类似地构造更高阶的牛顿-科特斯公式，例如 \( n=3 \) 的柯特斯公式 (Cotes' Formula)，\( n=4 \) 的布尔公式 (Boole's Rule) 等。但是，当 \( n \geq 8 \) 时，牛顿-科特斯公式的科特斯系数出现负值，这会导致数值计算不稳定，且高阶牛顿-科特斯公式的精度提升并不明显，因此在实际应用中较少使用高阶牛顿-科特斯公式。

5.3 复合求积公式 (Composite Quadrature Rules)

为了提高数值积分的精度，且避免使用高阶牛顿-科特斯公式的不稳定性，通常采用复合求积公式 (Composite Quadrature Rules)。复合求积的基本思想是将积分区间 \( [a, b] \) 分成若干个小区间，在每个小区间上使用低阶的求积公式，然后将各小区间的积分值累加起来。

设将积分区间 \( [a, b] \) 分成 \( m \) 个小区间 \( [x_{j-1}, x_j] \)，其中 \( x_j = a + jH \)，\( j = 0, 1, \dots, m \)，步长 \( H = \frac{b-a}{m} \)。

复合梯形公式 (Composite Trapezoidal Rule)：
在每个小区间 \( [x_{j-1}, x_j] \) 上使用梯形公式：
\[ \int_{x_{j-1}}^{x_j} f(x) dx \approx \frac{H}{2} [f(x_{j-1}) + f(x_j)] \]
将所有小区间上的积分值累加起来，得到复合梯形公式：
\[ \int_a^b f(x) dx = \sum_{j=1}^m \int_{x_{j-1}}^{x_j} f(x) dx \approx \sum_{j=1}^m \frac{H}{2} [f(x_{j-1}) + f(x_j)] \]
展开求和式，并注意到内部节点 \( f(x_1), f(x_2), \dots, f(x_{m-1}) \) 被加了两次，得到：
\[ T_m = \frac{H}{2} [f(x_0) + 2f(x_1) + 2f(x_2) + \dots + 2f(x_{m-1}) + f(x_m)] = H \left[ \frac{f(x_0) + f(x_m)}{2} + \sum_{j=1}^{m-1} f(x_j) \right] \]
其中，\( H = \frac{b-a}{m} \)，\( x_j = a + jH \)，\( j = 0, 1, \dots, m \)。

复合梯形公式的误差分析 (Error Analysis of Composite Trapezoidal Rule)：
设 \( f(x) \in C^2[a, b] \)，则复合梯形公式的截断误差为：
\[ R_{CT}(f) = \int_a^b f(x) dx - T_m = \sum_{j=1}^m R_T^{(j)}(f) = \sum_{j=1}^m - \frac{(x_j - x_{j-1})^3}{12} f''(\xi_j) = - \sum_{j=1}^m \frac{H^3}{12} f''(\xi_j), \quad \xi_j \in (x_{j-1}, x_j) \]
\[ R_{CT}(f) = - \frac{H^3}{12} \sum_{j=1}^m f''(\xi_j) = - \frac{H^2}{12} \frac{b-a}{m} \sum_{j=1}^m f''(\xi_j) = - \frac{(b-a)H^2}{12} \frac{1}{m} \sum_{j=1}^m f''(\xi_j) \]
根据中值定理 (Intermediate Value Theorem)，存在 \( \xi \in (a, b) \)，使得 \( \frac{1}{m} \sum_{j=1}^m f''(\xi_j) = f''(\xi) \)。因此，
\[ R_{CT}(f) = - \frac{(b-a)H^2}{12} f''(\xi) = O(H^2) \]
复合梯形公式具有 1 阶精度 (Order of Accuracy 1)，误差阶为 \( O(H^2) \)。当步长 \( H \) 减半时，误差大约减小为原来的 1/4。

复合辛普森公式 (Composite Simpson's Rule)：
在每个小区间对 \( [x_{2j-2}, x_{2j}] \) 上使用辛普森公式（需要将区间 \( [a, b] \) 分成偶数个小区间，设为 \( 2m \) 个小区间，步长 \( h = \frac{b-a}{2m} \)，节点 \( x_j = a + jh \)，\( j = 0, 1, \dots, 2m \)）。在每个区间对 \( [x_{2j-2}, x_{2j}] \) 上，取三个节点 \( x_{2j-2}, x_{2j-1}, x_{2j} \)，使用辛普森公式：
\[ \int_{x_{2j-2}}^{x_{2j}} f(x) dx \approx \frac{h}{3} [f(x_{2j-2}) + 4f(x_{2j-1}) + f(x_{2j})] \]
将所有区间对上的积分值累加起来，得到复合辛普森公式：
\[ S_m = \sum_{j=1}^m \int_{x_{2j-2}}^{x_{2j}} f(x) dx \approx \sum_{j=1}^m \frac{h}{3} [f(x_{2j-2}) + 4f(x_{2j-1}) + f(x_{2j})] \]
展开求和式，得到：
\[ S_m = \frac{h}{3} [f(x_0) + 4f(x_1) + 2f(x_2) + 4f(x_3) + 2f(x_4) + \dots + 2f(x_{2m-2}) + 4f(x_{2m-1}) + f(x_{2m})] \]
\[ S_m = \frac{h}{3} [f(x_0) + f(x_{2m}) + 4 \sum_{j=1}^m f(x_{2j-1}) + 2 \sum_{j=1}^{m-1} f(x_{2j})] \]
其中，\( h = \frac{b-a}{2m} \)，\( x_j = a + jh \)，\( j = 0, 1, \dots, 2m \)。

复合辛普森公式的误差分析 (Error Analysis of Composite Simpson's Rule)：
设 \( f(x) \in C^4[a, b] \)，则复合辛普森公式的截断误差为：
\[ R_{CS}(f) = \int_a^b f(x) dx - S_m = \sum_{j=1}^m R_S^{(j)}(f) = \sum_{j=1}^m - \frac{(x_{2j} - x_{2j-2})^5}{2880} f^{(4)}(\xi_j) = - \sum_{j=1}^m \frac{(2h)^5}{2880} f^{(4)}(\xi_j), \quad \xi_j \in (x_{2j-2}, x_{2j}) \]
\[ R_{CS}(f) = - \frac{(2h)^5}{2880} \sum_{j=1}^m f^{(4)}(\xi_j) = - \frac{32h^5}{2880} \sum_{j=1}^m f^{(4)}(\xi_j) = - \frac{h^4}{90} \frac{b-a}{2m} \sum_{j=1}^m f^{(4)}(\xi_j) = - \frac{(b-a)h^4}{180} \frac{1}{m} \sum_{j=1}^m f^{(4)}(\xi_j) \]
根据中值定理，存在 \( \xi \in (a, b) \)，使得 \( \frac{1}{m} \sum_{j=1}^m f^{(4)}(\xi_j) = f^{(4)}(\xi) \)。因此，
\[ R_{CS}(f) = - \frac{(b-a)h^4}{180} f^{(4)}(\xi) = O(h^4) \]
复合辛普森公式具有 3 阶精度 (Order of Accuracy 3)，误差阶为 \( O(h^4) \)。当步长 \( h \) 减半时，误差大约减小为原来的 1/16。

复合求积公式通过减小步长来提高精度，是实际应用中常用的数值积分方法。

5.4 龙贝格积分法 (Romberg Integration)

龙贝格积分法 (Romberg Integration)，也称为逐次分半加速法 (Successive Halving Acceleration Method)，是一种基于理查森外推 (Richardson Extrapolation) 的高效数值积分方法。它利用复合梯形公式计算积分值，并通过外推加速技术，构造出具有更高精度的积分近似值。

理查森外推的基本思想是，如果一个数值方法的误差可以表示为步长 \( H \) 的幂级数形式，例如：
\[ I - T(H) = c_1 H^2 + c_2 H^4 + c_3 H^6 + \dots \]
其中，\( I \) 是精确值，\( T(H) \) 是步长为 \( H \) 的近似值，\( c_i \) 是与 \( H \) 无关的常数。我们可以通过计算不同步长 \( H \) 下的近似值，然后消除误差的主要项，得到更高精度的近似值。

龙贝格积分法通常使用复合梯形公式作为基础方法。设 \( T_k \) 表示将区间 \( [a, b] \) 分成 \( 2^{k-1} \) 等份的复合梯形公式的积分近似值，步长 \( H_k = \frac{b-a}{2^{k-1}} \)。则有误差展开式：
\[ I - T_k = c_1 H_k^2 + c_2 H_k^4 + c_3 H_k^6 + \dots \]
为了消除 \( H_k^2 \) 项，我们可以考虑 \( T_k \) 和 \( T_{k-1} \) 的线性组合。由于 \( H_k = \frac{1}{2} H_{k-1} \)，则 \( H_{k-1}^2 = 4 H_k^2 \)。
\[ I - T_{k-1} = c_1 H_{k-1}^2 + c_2 H_{k-1}^4 + \dots = 4 c_1 H_k^2 + 16 c_2 H_k^4 + \dots \]
构造新的近似值 \( S_k \)：
\[ S_k = \frac{4T_k - T_{k-1}}{3} = \frac{4T_k - T_{k-1}}{4 - 1} \]
则 \( S_k \) 的误差为：
\[ I - S_k = I - \frac{4T_k - T_{k-1}}{3} = \frac{3I - 4T_k + T_{k-1}}{3} = \frac{3I - 4T_k + T_{k-1}}{3} = \frac{4(I - T_k) - (I - T_{k-1})}{3} \]
\[ I - S_k = \frac{4(c_1 H_k^2 + c_2 H_k^4 + \dots) - (4 c_1 H_k^2 + 16 c_2 H_k^4 + \dots)}{3} = \frac{(4c_2 - 16c_2) H_k^4 + \dots}{3} = -4 c_2 H_k^4 + O(H_k^6) \]
可见，\( S_k \) 的误差阶由 \( O(H_k^2) \) 提高到 \( O(H_k^4) \)。实际上，\( S_k \) 就是复合辛普森公式。

类似地，我们可以继续外推加速，构造更高精度的近似值。定义 龙贝格序列 (Romberg Sequence) \( R_{k,j} \)：
⚝ \( R_{k,1} = T_k \) (复合梯形公式)
⚝ \( R_{k,j} = \frac{4^{j-1} R_{k,j-1} - R_{k-1,j-1}}{4^{j-1} - 1}, \quad j = 2, 3, \dots, k \)

其中，\( R_{k,j} \) 的精度为 \( O(H_k^{2j}) \)。
龙贝格积分法的计算过程可以表示为一个龙贝格表格 (Romberg Table)：

\( k \)	\( H_k \)	\( R_{k,1} \) (梯形)	\( R_{k,2} \) (辛普森)	\( R_{k,3} \)	\( R_{k,4} \)	...
1	\( b-a \)	\( R_{1,1} = T_1 \)
2	\( \frac{b-a}{2} \)	\( R_{2,1} = T_2 \)	\( R_{2,2} = S_2 \)
3	\( \frac{b-a}{4} \)	\( R_{3,1} = T_3 \)	\( R_{3,2} = S_3 \)	\( R_{3,3} \)
4	\( \frac{b-a}{8} \)	\( R_{4,1} = T_4 \)	\( R_{4,2} = S_4 \)	\( R_{4,3} \)	\( R_{4,4} \)
...	...	...	...	...	...	...

龙贝格积分法的计算步骤 (Computational Steps of Romberg Integration)：
① 初始化：计算 \( R_{1,1} = T_1 = \frac{b-a}{2} [f(a) + f(b)] \)。
② 迭代计算 \( T_k \)：对于 \( k = 2, 3, \dots \)，计算 \( T_k \)。利用复合梯形公式的递推关系：
\[ T_k = \frac{1}{2} T_{k-1} + H_k \sum_{i=1}^{2^{k-2}} f(a + (2i-1)H_k), \quad H_k = \frac{b-a}{2^{k-1}} \]
③ 外推加速：对于 \( j = 2, 3, \dots, k \)，计算 \( R_{k,j} = \frac{4^{j-1} R_{k,j-1} - R_{k-1,j-1}}{4^{j-1} - 1} \)。
④ 精度控制：检查 \( |R_{k,k} - R_{k,k-1}| \) 是否小于给定的精度 \( \epsilon \)。如果满足精度要求，则 \( R_{k,k} \) 作为积分近似值；否则，增加迭代次数 \( k \)，重复步骤 ② 和 ③。

龙贝格积分法具有精度高、收敛速度快、计算效率较高等优点，是一种非常有效的数值积分方法。

5.5 高斯求积公式 (Gaussian Quadrature)

高斯求积公式 (Gaussian Quadrature) 是一类具有最高代数精度的数值积分公式。与牛顿-科特斯公式不同，高斯求积公式的求积节点 \( x_i \) 不是等距的，而是通过正交多项式 (Orthogonal Polynomials) 的零点来确定的。

对于给定的权函数 \( \omega(x) \geq 0 \) 和区间 \( [a, b] \)，定义内积：
\[ (f, g) = \int_a^b \omega(x) f(x) g(x) dx \]
如果多项式序列 \( \{P_n(x)\}_{n=0}^\infty \) 满足：
① \( P_n(x) \) 是 \( n \) 次多项式。
② \( (P_m, P_n) = 0, \quad m \neq n \) (正交性)。
则称 \( \{P_n(x)\}_{n=0}^\infty \) 为关于权函数 \( \omega(x) \) 在区间 \( [a, b] \) 上的正交多项式序列 (Orthogonal Polynomial Sequence)。

高斯求积公式的构造 (Construction of Gaussian Quadrature)：
对于给定的 \( n+1 \) 个求积节点 \( x_0, x_1, \dots, x_n \)，要使求积公式
\[ \int_a^b \omega(x) f(x) dx \approx \sum_{i=0}^n A_i f(x_i) \]
具有最高的代数精度，即对于次数尽可能高的多项式精确成立。可以证明，当求积节点 \( x_0, x_1, \dots, x_n \) 选取为关于权函数 \( \omega(x) \) 在区间 \( [a, b] \) 上的 \( (n+1) \) 次正交多项式 \( P_{n+1}(x) \) 的零点时，可以达到最高的代数精度 \( 2n+1 \)。

高斯求积公式的步骤 (Steps of Gaussian Quadrature)：
① 确定权函数 \( \omega(x) \) 和积分区间 \( [a, b] \)。
② 构造关于权函数 \( \omega(x) \) 在区间 \( [a, b] \) 上的 \( (n+1) \) 次正交多项式 \( P_{n+1}(x) \)。
③ 求 \( P_{n+1}(x) \) 的 \( n+1 \) 个零点 \( x_0, x_1, \dots, x_n \)，作为高斯求积公式的求积节点。
④ 计算求积系数 \( A_i \)。一种方法是利用插值型求积公式的思想，令求积公式对于 \( n \) 次多项式精确成立，解线性方程组得到 \( A_i \)。另一种方法是利用公式：
\[ A_i = \int_a^b \omega(x) l_i(x) dx \]
其中，\( l_i(x) \) 是以 \( x_0, x_1, \dots, x_n \) 为节点的拉格朗日插值基函数。

常用的高斯求积公式 (Common Gaussian Quadrature Formulas)：

⚝ 高斯-勒让德求积公式 (Gauss-Legendre Quadrature)：权函数 \( \omega(x) = 1 \)，区间 \( [-1, 1] \)。正交多项式为勒让德多项式 (Legendre Polynomials) \( P_n(x) \)。求积节点 \( x_i \) 是 \( P_{n+1}(x) \) 的零点。求积公式为：
\[ \int_{-1}^1 f(x) dx \approx \sum_{i=0}^n A_i f(x_i) \]
⚝ 高斯-切比雪夫求积公式 (Gauss-Chebyshev Quadrature)：权函数 \( \omega(x) = \frac{1}{\sqrt{1 - x^2}} \)，区间 \( [-1, 1] \)。正交多项式为第一类切比雪夫多项式 (Chebyshev Polynomials of the First Kind) \( T_n(x) = \cos(n \arccos x) \)。求积节点 \( x_i \) 是 \( T_{n+1}(x) \) 的零点：
\[ x_i = \cos \left( \frac{(2i+1)\pi}{2(n+1)} \right), \quad i = 0, 1, \dots, n \]
求积系数为：
\[ A_i = \frac{\pi}{n+1}, \quad i = 0, 1, \dots, n \]
求积公式为：
\[ \int_{-1}^1 \frac{f(x)}{\sqrt{1 - x^2}} dx \approx \frac{\pi}{n+1} \sum_{i=0}^n f(x_i) \]
⚝ 高斯-拉盖尔求积公式 (Gauss-Laguerre Quadrature)：权函数 \( \omega(x) = e^{-x} \)，区间 \( [0, +\infty) \)。正交多项式为拉盖尔多项式 (Laguerre Polynomials) \( L_n(x) \)。
⚝ 高斯-埃尔米特求积公式 (Gauss-Hermite Quadrature)：权函数 \( \omega(x) = e^{-x^2} \)，区间 \( (-\infty, +\infty) \)。正交多项式为埃尔米特多项式 (Hermite Polynomials) \( H_n(x) \)。

高斯求积公式的优点 (Advantages of Gaussian Quadrature)：
⚝ 在 \( n+1 \) 个节点下，具有最高的代数精度 \( 2n+1 \)。
⚝ 收敛速度快，精度高，计算效率高。

高斯求积公式的应用 (Applications of Gaussian Quadrature)：
⚝ 计算定积分，特别是被积函数光滑，且积分区间和权函数与常用高斯求积公式匹配的情况。
⚝ 在有限元方法中，高斯求积公式常用于计算单元刚度矩阵和载荷向量的积分。

5.6 数值微分 (Numerical Differentiation)

数值微分 (Numerical Differentiation) 是用差商 (Difference Quotient) 近似导数的方法。在实际应用中，我们有时需要计算函数的导数，但函数可能是以离散数据点形式给出，或者函数表达式复杂难以直接求导。这时，就需要使用数值微分方法。

数值微分的基本思想是用泰勒展开 (Taylor Expansion) 将函数在某点的值用其在该点及其邻近点的值来近似表示，从而得到导数的近似公式。

5.6.1 差商公式 (Difference Quotient Formulas)

差商公式 (Difference Quotient Formulas) 是最基本的数值微分方法。常用的差商公式包括前向差商公式 (Forward Difference Quotient Formula)、后向差商公式 (Backward Difference Quotient Formula) 和 中心差商公式 (Central Difference Quotient Formula)。

① 前向差商公式 (Forward Difference Quotient Formula)：
根据导数的定义：
\[ f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} \]
当 \( h \) 较小时，可以用差商 \( \frac{f(x+h) - f(x)}{h} \) 近似导数 \( f'(x) \)。
前向差商公式：
\[ f'(x) \approx \frac{f(x+h) - f(x)}{h} \]
误差分析 (Error Analysis)：
将 \( f(x+h) \) 在 \( x \) 处进行泰勒展开：
\[ f(x+h) = f(x) + hf'(x) + \frac{h^2}{2!} f''(\xi), \quad \xi \in (x, x+h) \]
移项得到：
\[ f'(x) = \frac{f(x+h) - f(x)}{h} - \frac{h}{2} f''(\xi) \]
因此，前向差商公式的截断误差 (Truncation Error) 为 \( R_F(f) = - \frac{h}{2} f''(\xi) = O(h) \)。前向差商公式具有 1 阶精度 (Order of Accuracy 1)。

② 后向差商公式 (Backward Difference Quotient Formula)：
类似地，根据导数的定义，也可以用差商 \( \frac{f(x) - f(x-h)}{h} \) 近似导数 \( f'(x) \)。
后向差商公式：
\[ f'(x) \approx \frac{f(x) - f(x-h)}{h} \]
误差分析 (Error Analysis)：
将 \( f(x-h) \) 在 \( x \) 处进行泰勒展开：
\[ f(x-h) = f(x) - hf'(x) + \frac{h^2}{2!} f''(\xi), \quad \xi \in (x-h, x) \]
移项得到：
\[ f'(x) = \frac{f(x) - f(x-h)}{h} + \frac{h}{2} f''(\xi) \]
因此，后向差商公式的截断误差 (Truncation Error) 为 \( R_B(f) = \frac{h}{2} f''(\xi) = O(h) \)。后向差商公式也具有 1 阶精度 (Order of Accuracy 1)。

③ 中心差商公式 (Central Difference Quotient Formula)：
将 \( f(x+h) \) 和 \( f(x-h) \) 在 \( x \) 处进行泰勒展开：
\[ f(x+h) = f(x) + hf'(x) + \frac{h^2}{2!} f''(x) + \frac{h^3}{3!} f'''(x) + O(h^4) \]
\[ f(x-h) = f(x) - hf'(x) + \frac{h^2}{2!} f''(x) - \frac{h^3}{3!} f'''(x) + O(h^4) \]
两式相减，得到：
\[ f(x+h) - f(x-h) = 2hf'(x) + \frac{2h^3}{3!} f'''(x) + O(h^5) \]
移项得到：
\[ f'(x) = \frac{f(x+h) - f(x-h)}{2h} - \frac{h^2}{6} f'''(x) + O(h^4) \]
中心差商公式：
\[ f'(x) \approx \frac{f(x+h) - f(x-h)}{2h} \]
误差分析 (Error Analysis)：
中心差商公式的截断误差 (Truncation Error) 为 \( R_C(f) = - \frac{h^2}{6} f'''(\xi) = O(h^2) \)。中心差商公式具有 2 阶精度 (Order of Accuracy 2)，精度比前向和后向差商公式更高。

二阶导数的差商公式 (Difference Quotient Formulas for Second Derivative)：
将 \( f(x+h) \) 和 \( f(x-h) \) 的泰勒展开式相加：
\[ f(x+h) + f(x-h) = 2f(x) + h^2 f''(x) + \frac{2h^4}{4!} f^{(4)}(x) + O(h^6) \]
移项得到：
\[ f''(x) = \frac{f(x+h) - 2f(x) + f(x-h)}{h^2} - \frac{h^2}{12} f^{(4)}(x) + O(h^4) \]
二阶中心差商公式：
\[ f''(x) \approx \frac{f(x+h) - 2f(x) + f(x-h)}{h^2} \]
误差分析 (Error Analysis)：
二阶中心差商公式的截断误差 (Truncation Error) 为 \( R_{C2}(f) = - \frac{h^2}{12} f^{(4)}(\xi) = O(h^2) \)。二阶中心差商公式也具有 2 阶精度 (Order of Accuracy 2)。

5.6.2 提高精度的数值微分方法 (Methods to Improve Accuracy of Numerical Differentiation)

为了提高数值微分的精度，可以使用以下方法：

① 高阶差商公式 (Higher-Order Difference Quotient Formulas)：
可以使用更多节点构造更高阶的差商公式，例如利用 \( f(x-2h), f(x-h), f(x), f(x+h), f(x+2h) \) 等节点构造更高精度的差商公式。例如，三点中心差商公式 可以达到 4 阶精度。

② 理查森外推法 (Richardson Extrapolation)：
类似于龙贝格积分法，可以利用理查森外推技术，从低阶差商公式出发，构造出更高精度的差商公式。例如，利用步长 \( h \) 和 \( 2h \) 的中心差商公式进行外推，可以得到 4 阶精度的差商公式。

③ 复步长微分法 (Complex-Step Differentiation)：
利用复数泰勒展开，可以构造出精度高且稳定性好的数值微分公式。例如，复步长前向差商公式：
\[ f'(x) \approx \frac{\text{Im}(f(x + ih))}{h} \]
其中，\( i \) 是虚数单位，\( \text{Im}(z) \) 表示复数 \( z \) 的虚部。复步长微分公式可以避免减法抵消误差，具有较高的精度和稳定性。

数值微分的误差来源 (Error Sources in Numerical Differentiation)：
数值微分的误差主要来源于两个方面：

⚝ 截断误差 (Truncation Error)：由泰勒展开截断造成的误差，与步长 \( h \) 的幂次有关。减小步长 \( h \) 可以减小截断误差。
⚝ 舍入误差 (Round-off Error)：由于计算机浮点运算的精度有限，计算函数值 \( f(x) \) 时会产生舍入误差。当步长 \( h \) 过小时，差商公式中的分子 \( f(x+h) - f(x) \) 或 \( f(x+h) - f(x-h) \) 可能会因为 \( f(x+h) \) 和 \( f(x) \) 或 \( f(x+h) \) 和 \( f(x-h) \) 过于接近而导致减法抵消 (Subtractive Cancellation)，放大舍入误差。

因此，在选择步长 \( h \) 时，需要在截断误差和舍入误差之间进行权衡。通常，存在一个最优步长 \( h_{opt} \)，使得总误差最小。实际应用中，可以通过实验或误差分析来选择合适的步长 \( h \)。

数值微分在科学计算和工程应用中有着广泛的应用，例如求解微分方程、优化问题、灵敏度分析等。

6. chapter 6：常微分方程数值解法 (Numerical Methods for Ordinary Differential Equations)

6.1 初值问题与边值问题 (Initial Value Problems and Boundary Value Problems)

常微分方程 (Ordinary Differential Equation, ODE) 是描述单变量函数及其导数之间关系的方程。在科学和工程领域中，ODE 广泛用于建模各种动态系统，例如物理运动、化学反应、生物种群变化等。数值解法是求解 ODE 的重要手段，尤其当解析解难以获得或不存在时。根据附加条件的类型，ODE 问题可以分为初值问题 (Initial Value Problem, IVP) 和边值问题 (Boundary Value Problem, BVP)。

初值问题 (Initial Value Problem, IVP)：
初值问题是指在给定的初始条件下，求解 ODE 在指定时间范围内的解。一个典型的 \( n \) 阶常微分方程初值问题可以表示为：
\[ \begin{cases} y^{(n)}(t) = f(t, y(t), y'(t), \dots, y^{(n-1)}(t)), \quad t \in [a, b] \\ y(a) = y_0, y'(a) = y'_0, \dots, y^{(n-1)}(a) = y_0^{(n-1)} \end{cases} \]
其中，\( y^{(n)}(t) \) 表示 \( y(t) \) 的 \( n \) 阶导数，\( f \) 是给定的函数，\( [a, b] \) 是求解区间，\( y_0, y'_0, \dots, y_0^{(n-1)} \) 是给定的初始值。

对于一阶常微分方程初值问题，形式更为简洁：
\[ \begin{cases} y'(t) = f(t, y(t)), \quad t \in [a, b] \\ y(a) = y_0 \end{cases} \]
求解初值问题的目标是找到函数 \( y(t) \)，使其满足上述方程和初始条件。

边值问题 (Boundary Value Problem, BVP)：
边值问题是指在给定的边界条件下，求解 ODE 在指定区间上的解。与初值问题不同，边值问题给出的条件是在区间的端点处，而不是初始点。一个典型的二阶常微分方程边值问题可以表示为：
\[ \begin{cases} y''(t) = f(t, y(t), y'(t)), \quad t \in [a, b] \\ g_1(y(a), y'(a)) = 0 \\ g_2(y(b), y'(b)) = 0 \end{cases} \]
其中，\( g_1 \) 和 \( g_2 \) 是给定的边界条件函数。常见的边界条件类型包括：

① 狄利克雷边界条件 (Dirichlet boundary condition)：直接给出边界点函数的值，例如 \( y(a) = \alpha, y(b) = \beta \)。
② 诺伊曼边界条件 (Neumann boundary condition)：给出边界点函数导数的值，例如 \( y'(a) = \gamma, y'(b) = \delta \)。
③ 混合边界条件 (Mixed boundary condition) 或 罗宾斯边界条件 (Robin boundary condition)：边界条件是函数值和导数值的线性组合，例如 \( \alpha_1 y(a) + \beta_1 y'(a) = \epsilon_1, \alpha_2 y(b) + \beta_2 y'(b) = \epsilon_2 \)。

求解边值问题的目标是找到函数 \( y(t) \)，使其满足上述方程和边界条件。

初值问题和边值问题在物理和工程应用中都有广泛的应用。例如，在物理学中，行星运动的轨迹预测通常可以建模为初值问题，而弦的振动或热传导问题则常常是边值问题。数值分析提供了多种方法来近似求解这些问题，本章将重点介绍常微分方程初值问题的数值解法，并简要介绍边值问题的相关方法。

6.2 欧拉方法 (Euler Methods)

欧拉方法 (Euler Methods) 是一类最基础和最直观的常微分方程数值解法，它基于泰勒展开的思想，通过离散时间步长，逐步逼近 ODE 的解。欧拉方法主要分为前向欧拉方法 (Forward Euler Method) 和后向欧拉方法 (Backward Euler Method)。

6.2.1 前向欧拉方法 (Forward Euler Method)

前向欧拉方法，也称为显式欧拉方法 (Explicit Euler Method)，是最简单的数值方法之一。考虑一阶常微分方程初值问题：
\[ \begin{cases} y'(t) = f(t, y(t)), \quad t \in [a, b] \\ y(a) = y_0 \end{cases} \]
将区间 \( [a, b] \) 离散化为 \( N \) 个子区间，步长为 \( h = (b - a) / N \)，时间节点为 \( t_i = a + i h \)，其中 \( i = 0, 1, 2, \dots, N \)。我们用 \( y_i \) 近似表示 \( y(t_i) \)。

前向欧拉方法的核心思想是用差商近似导数。根据导数的定义，我们有：
\[ y'(t_i) \approx \frac{y(t_{i+1}) - y(t_i)}{h} \]
将上述差商近似代入原 ODE 方程 \( y'(t) = f(t, y(t)) \)，得到：
\[ \frac{y_{i+1} - y_i}{h} \approx f(t_i, y_i) \]
整理得到前向欧拉方法的迭代公式：
\[ y_{i+1} = y_i + h f(t_i, y_i), \quad i = 0, 1, 2, \dots, N-1 \]
给定初始值 \( y_0 = y(a) \)，我们可以通过迭代公式依次计算 \( y_1, y_2, \dots, y_N \)，从而得到 ODE 解在离散时间节点上的近似值。

算法步骤：
① 设定步长 \( h = (b - a) / N \) 和时间节点 \( t_i = a + i h \)，\( i = 0, 1, \dots, N \)。
② 初始条件：\( y_0 = y(a) \)。
③ 迭代计算：对于 \( i = 0, 1, \dots, N-1 \)，计算 \( y_{i+1} = y_i + h f(t_i, y_i) \)。
④ 输出数值解：\( (t_i, y_i) \)，\( i = 0, 1, \dots, N \)。

几何解释：
前向欧拉方法可以理解为在每个时间步 \( t_i \)，利用当前点 \( (t_i, y_i) \) 处的切线方向 \( f(t_i, y_i) \)，向前步进 \( h \) 得到下一个近似点 \( (t_{i+1}, y_{i+1}) \)。

局部截断误差 (Local Truncation Error)：
前向欧拉方法的局部截断误差是指在一步迭代中产生的误差。将 \( y(t_{i+1}) \) 在 \( t_i \) 处进行泰勒展开：
\[ y(t_{i+1}) = y(t_i) + h y'(t_i) + \frac{h^2}{2} y''(\xi_i), \quad \xi_i \in (t_i, t_{i+1}) \]
由于 \( y'(t_i) = f(t_i, y(t_i)) \)，则有：
\[ y(t_{i+1}) = y(t_i) + h f(t_i, y(t_i)) + \frac{h^2}{2} y''(\xi_i) \]
前向欧拉方法的迭代公式为 \( y_{i+1} = y_i + h f(t_i, y_i) \)。因此，局部截断误差 \( \tau_{i+1} \) 为：
\[ \tau_{i+1} = y(t_{i+1}) - (y(t_i) + h f(t_i, y(t_i))) = \frac{h^2}{2} y''(\xi_i) = O(h^2) \]
局部截断误差的阶为 \( O(h^2) \)，因此前向欧拉方法是一阶方法。

全局截断误差 (Global Truncation Error)：
全局截断误差是指数值解在整个区间 \( [a, b] \) 上的累积误差。对于前向欧拉方法，全局截断误差的阶为 \( O(h) \)。这意味着当步长 \( h \) 减半时，全局误差大致减半。

优点与缺点：
⚝ 优点：
▮▮▮▮⚝ 方法简单，易于理解和实现。
▮▮▮▮⚝ 计算量小，每步迭代只需计算一次函数 \( f \)。
⚝ 缺点：
▮▮▮▮⚝ 精度较低，为一阶方法，收敛速度慢。
▮▮▮▮⚝ 稳定性较差，对于某些 ODE 问题，当步长 \( h \) 较大时可能出现数值不稳定现象。

6.2.2 后向欧拉方法 (Backward Euler Method)

后向欧拉方法，也称为隐式欧拉方法 (Implicit Euler Method)，与前向欧拉方法类似，也是基于差商近似导数，但采用了不同的时间节点。后向欧拉方法使用 \( t_{i+1} \) 时刻的函数值来近似 \( t_i \) 时刻的导数：
\[ y'(t_{i+1}) \approx \frac{y(t_{i+1}) - y(t_i)}{h} \]
将上述差商近似代入原 ODE 方程 \( y'(t) = f(t, y(t)) \)，并在 \( t_{i+1} \) 时刻计算函数 \( f \)，得到：
\[ \frac{y_{i+1} - y_i}{h} \approx f(t_{i+1}, y_{i+1}) \]
整理得到后向欧拉方法的迭代公式：
\[ y_{i+1} = y_i + h f(t_{i+1}, y_{i+1}), \quad i = 0, 1, 2, \dots, N-1 \]
与前向欧拉方法不同，后向欧拉方法的迭代公式中，\( y_{i+1} \) 不仅出现在等式左边，也出现在等式右边的函数 \( f(t_{i+1}, y_{i+1}) \) 中。因此，后向欧拉方法是隐式方法，每步迭代需要求解一个关于 \( y_{i+1} \) 的方程。

算法步骤：
① 设定步长 \( h = (b - a) / N \) 和时间节点 \( t_i = a + i h \)，\( i = 0, 1, \dots, N \)。
② 初始条件：\( y_0 = y(a) \)。
③ 迭代计算：对于 \( i = 0, 1, \dots, N-1 \)，求解方程 \( y_{i+1} = y_i + h f(t_{i+1}, y_{i+1}) \) 得到 \( y_{i+1} \)。
④ 输出数值解：\( (t_i, y_i) \)，\( i = 0, 1, \dots, N \)。

求解隐式方程：
后向欧拉方法每步迭代需要求解方程 \( y_{i+1} = y_i + h f(t_{i+1}, y_{i+1}) \)。如果函数 \( f \) 是线性的，则可以直接解出 \( y_{i+1} \)。例如，若 \( f(t, y) = \lambda y \)，则方程变为 \( y_{i+1} = y_i + h \lambda y_{i+1} \)，解得 \( y_{i+1} = \frac{y_i}{1 - h \lambda} \)。如果函数 \( f \) 是非线性的，则通常需要使用迭代方法（如牛顿迭代法）来求解 \( y_{i+1} \)。

局部截断误差：
类似于前向欧拉方法，后向欧拉方法的局部截断误差也可以通过泰勒展开分析。将 \( y(t_i) \) 在 \( t_{i+1} \) 处进行泰勒展开：
\[ y(t_i) = y(t_{i+1}) - h y'(t_{i+1}) + \frac{h^2}{2} y''(\xi_i), \quad \xi_i \in (t_i, t_{i+1}) \]
由于 \( y'(t_{i+1}) = f(t_{i+1}, y(t_{i+1})) \)，则有：
\[ y(t_i) = y(t_{i+1}) - h f(t_{i+1}, y(t_{i+1})) + \frac{h^2}{2} y''(\xi_i) \]
后向欧拉方法的迭代公式为 \( y_{i+1} = y_i + h f(t_{i+1}, y_{i+1}) \)，即 \( y_i = y_{i+1} - h f(t_{i+1}, y_{i+1}) \)。因此，局部截断误差 \( \tau_{i+1} \) 为：
\[ \tau_{i+1} = y(t_{i+1}) - (y(t_{i+1}) - h f(t_{i+1}, y(t_{i+1}))) = -\frac{h^2}{2} y''(\xi_i) = O(h^2) \]
局部截断误差的阶也为 \( O(h^2) \)，因此后向欧拉方法也是一阶方法。全局截断误差的阶同样为 \( O(h) \)。

优点与缺点：
⚝ 优点：
▮▮▮▮⚝ 稳定性较好，特别是对于刚性方程 (Stiff Equation)，后向欧拉方法具有更好的稳定性。
⚝ 缺点：
▮▮▮▮⚝ 精度较低，为一阶方法，收敛速度慢。
▮▮▮▮⚝ 计算量较大，每步迭代需要求解隐式方程，对于非线性问题可能需要迭代求解。

总结：
前向欧拉方法和后向欧拉方法都是一阶方法，精度较低，但它们是理解更高级数值方法的基础。前向欧拉方法是显式方法，计算简单，但稳定性较差；后向欧拉方法是隐式方法，计算相对复杂，但稳定性较好，尤其适用于刚性方程。

6.3 龙格-库塔方法 (Runge-Kutta Methods)

龙格-库塔方法 (Runge-Kutta Methods) 是一类高精度的单步数值方法，通过在每个时间步内计算多个中间点的斜率值，来提高数值解的精度。龙格-库塔方法避免了泰勒展开中高阶导数的计算，仅使用函数 \( f(t, y) \) 的值，因此在实际应用中更为方便。

6.3.1 二阶龙格-库塔方法 (Second-Order Runge-Kutta Methods)

二阶龙格-库塔方法旨在达到二阶精度，即局部截断误差为 \( O(h^3) \)，全局截断误差为 \( O(h^2) \)。典型的二阶龙格-库塔方法包括改进的欧拉方法 (Improved Euler Method) 和中点法 (Midpoint Method)。

改进的欧拉方法 (Improved Euler Method)：
改进的欧拉方法，也称为休恩方法 (Heun's Method)，是一种预测-校正方法 (Predictor-Corrector Method)。它首先使用前向欧拉方法预测一个中间值，然后利用该中间值和当前值，通过平均斜率进行校正。

迭代公式如下：
\[ \begin{aligned} k_1 &= f(t_i, y_i) \\ k_2 &= f(t_i + h, y_i + h k_1) \\ y_{i+1} &= y_i + \frac{h}{2} (k_1 + k_2) \end{aligned} \]
其中，\( k_1 \) 是在 \( (t_i, y_i) \) 处的斜率，\( k_2 \) 是使用前向欧拉方法预测的下一个点 \( (t_i + h, y_i + h k_1) \) 处的斜率，\( y_{i+1} \) 是通过 \( k_1 \) 和 \( k_2 \) 的加权平均得到的下一个近似值。

算法步骤：
① 设定步长 \( h = (b - a) / N \) 和时间节点 \( t_i = a + i h \)，\( i = 0, 1, \dots, N \)。
② 初始条件：\( y_0 = y(a) \)。
③ 迭代计算：对于 \( i = 0, 1, \dots, N-1 \)，计算：
▮▮▮▮ⓓ \( k_1 = f(t_i, y_i) \)
▮▮▮▮ⓔ \( k_2 = f(t_i + h, y_i + h k_1) \)
▮▮▮▮ⓕ \( y_{i+1} = y_i + \frac{h}{2} (k_1 + k_2) \)
⑦ 输出数值解：\( (t_i, y_i) \)，\( i = 0, 1, \dots, N \)。

中点法 (Midpoint Method)：
中点法使用区间中点 \( t_i + h/2 \) 处的斜率来更新解。

迭代公式如下：
\[ \begin{aligned} k_1 &= f(t_i, y_i) \\ k_2 &= f(t_i + \frac{h}{2}, y_i + \frac{h}{2} k_1) \\ y_{i+1} &= y_i + h k_2 \end{aligned} \]
其中，\( k_1 \) 是在 \( (t_i, y_i) \) 处的斜率，\( k_2 \) 是使用前向欧拉方法步进半步得到的中间点 \( (t_i + h/2, y_i + \frac{h}{2} k_1) \) 处的斜率，\( y_{i+1} \) 是通过 \( k_2 \) 得到的下一个近似值。

算法步骤：
① 设定步长 \( h = (b - a) / N \) 和时间节点 \( t_i = a + i h \)，\( i = 0, 1, \dots, N \)。
② 初始条件：\( y_0 = y(a) \)。
③ 迭代计算：对于 \( i = 0, 1, \dots, N-1 \)，计算：
▮▮▮▮ⓓ \( k_1 = f(t_i, y_i) \)
▮▮▮▮ⓔ \( k_2 = f(t_i + \frac{h}{2}, y_i + \frac{h}{2} k_1) \)
▮▮▮▮ⓕ \( y_{i+1} = y_i + h k_2 \)
⑦ 输出数值解：\( (t_i, y_i) \)，\( i = 0, 1, \dots, N \)。

局部截断误差：
二阶龙格-库塔方法的局部截断误差为 \( O(h^3) \)，全局截断误差为 \( O(h^2) \)。因此，二阶龙格-库塔方法比欧拉方法具有更高的精度。

优点与缺点：
⚝ 优点：
▮▮▮▮⚝ 精度比欧拉方法高，为二阶方法，收敛速度更快。
▮▮▮▮⚝ 仍然是单步方法，易于实现。
⚝ 缺点：
▮▮▮▮⚝ 每步迭代需要计算两次函数 \( f \)，计算量略大于欧拉方法。
▮▮▮▮⚝ 稳定性方面，通常比前向欧拉方法好，但可能不如后向欧拉方法。

6.3.2 四阶龙格-库塔方法 (Fourth-Order Runge-Kutta Methods)

四阶龙格-库塔方法是工程和科学计算中最常用的数值方法之一，它在精度和计算效率之间取得了很好的平衡。经典的四阶龙格-库塔方法 (Classical Fourth-Order Runge-Kutta Method)，通常简称为 RK4 方法。

迭代公式如下：
\[ \begin{aligned} k_1 &= f(t_i, y_i) \\ k_2 &= f(t_i + \frac{h}{2}, y_i + \frac{h}{2} k_1) \\ k_3 &= f(t_i + \frac{h}{2}, y_i + \frac{h}{2} k_2) \\ k_4 &= f(t_i + h, y_i + h k_3) \\ y_{i+1} &= y_i + \frac{h}{6} (k_1 + 2k_2 + 2k_3 + k_4) \end{aligned} \]
其中，\( k_1, k_2, k_3, k_4 \) 是在不同点计算的斜率值，\( y_{i+1} \) 是通过这些斜率值的加权平均得到的下一个近似值。\( k_1 \) 是在步开始时的斜率，\( k_2 \) 和 \( k_3 \) 是在步中点附近的斜率估计，\( k_4 \) 是在步结束时的斜率估计。

算法步骤：
① 设定步长 \( h = (b - a) / N \) 和时间节点 \( t_i = a + i h \)，\( i = 0, 1, \dots, N \)。
② 初始条件：\( y_0 = y(a) \)。
③ 迭代计算：对于 \( i = 0, 1, \dots, N-1 \)，计算：
▮▮▮▮ⓓ \( k_1 = f(t_i, y_i) \)
▮▮▮▮ⓔ \( k_2 = f(t_i + \frac{h}{2}, y_i + \frac{h}{2} k_1) \)
▮▮▮▮ⓕ \( k_3 = f(t_i + \frac{h}{2}, y_i + \frac{h}{2} k_2) \)
▮▮▮▮ⓖ \( k_4 = f(t_i + h, y_i + h k_3) \)
▮▮▮▮ⓗ \( y_{i+1} = y_i + \frac{h}{6} (k_1 + 2k_2 + 2k_3 + k_4) \)
⑨ 输出数值解：\( (t_i, y_i) \)，\( i = 0, 1, \dots, N \)。

局部截断误差：
四阶龙格-库塔方法的局部截断误差为 \( O(h^5) \)，全局截断误差为 \( O(h^4) \)。因此，RK4 方法具有很高的精度，通常能够满足工程和科学计算的需求。

优点与缺点：
⚝ 优点：
▮▮▮▮⚝ 精度非常高，为四阶方法，收敛速度快。
▮▮▮▮⚝ 稳定性较好，比前向欧拉方法和二阶龙格-库塔方法更稳定。
▮▮▮▮⚝ 单步方法，易于实现和应用。
⚝ 缺点：
▮▮▮▮⚝ 每步迭代需要计算四次函数 \( f \)，计算量相对较大，但通常可以接受，因为精度提高显著。

总结：
龙格-库塔方法是一类非常有效的常微分方程数值解法，通过在每个时间步内计算多个斜率值，提高了数值解的精度。二阶龙格-库塔方法（如改进的欧拉方法和中点法）和四阶龙格-库塔方法（RK4）是常用的高精度方法，其中 RK4 方法因其高精度和较好的稳定性，成为实际应用中最广泛的方法之一。

6.4 线性多步法 (Linear Multistep Methods)

线性多步法 (Linear Multistep Methods) 是一类利用前几个时间步的数值解来计算当前步数值解的方法。与单步法（如龙格-库塔方法）只使用前一步的信息不同，多步法利用了更多的历史信息，从而有可能在相同的精度下减少计算量。线性多步法主要分为亚当斯-巴什福思方法 (Adams-Bashforth Methods) 和亚当斯-莫尔顿方法 (Adams-Moulton Methods)。

6.4.1 亚当斯-巴什福思方法 (Adams-Bashforth Methods)

亚当斯-巴什福思方法是一类显式线性多步法。\( p \) 步亚当斯-巴什福思方法使用前 \( p \) 步的导数值 \( f(t_{i-1}, y_{i-1}), f(t_{i-2}, y_{i-2}), \dots, f(t_{i-p}, y_{i-p}) \) 来外插逼近当前步的解 \( y_{i+1} \)。

\( p \) 步亚当斯-巴什福思方法的一般形式：
\[ y_{i+1} = y_i + h \sum_{j=0}^{p-1} b_j f(t_{i-j}, y_{i-j}) \]
其中，系数 \( b_j \) 通过插值多项式确定。

常用低阶亚当斯-巴什福思方法：

① 一步亚当斯-巴什福思方法 (1-step Adams-Bashforth Method)：
当 \( p = 1 \) 时，即一步亚当斯-巴什福思方法，其公式为：
\[ y_{i+1} = y_i + h f(t_i, y_i) \]
这实际上就是前向欧拉方法。

② 二步亚当斯-巴什福思方法 (2-step Adams-Bashforth Method)：
当 \( p = 2 \) 时，二步亚当斯-巴什福思方法公式为：
\[ y_{i+1} = y_i + h \left( \frac{3}{2} f(t_i, y_i) - \frac{1}{2} f(t_{i-1}, y_{i-1}) \right) \]

③ 三步亚当斯-巴什福思方法 (3-step Adams-Bashforth Method)：
当 \( p = 3 \) 时，三步亚当斯-巴什福思方法公式为：
\[ y_{i+1} = y_i + h \left( \frac{23}{12} f(t_i, y_i) - \frac{16}{12} f(t_{i-1}, y_{i-1}) + \frac{5}{12} f(t_{i-2}, y_{i-2}) \right) \]

④ 四步亚当斯-巴什福思方法 (4-step Adams-Bashforth Method)：
当 \( p = 4 \) 时，四步亚当斯-巴什福思方法公式为：
\[ y_{i+1} = y_i + h \left( \frac{55}{24} f(t_i, y_i) - \frac{59}{24} f(t_{i-1}, y_{i-1}) + \frac{37}{24} f(t_{i-2}, y_{i-2}) - \frac{9}{24} f(t_{i-3}, y_{i-3}) \right) \]

启动问题：
多步法需要前 \( p \) 步的数值解才能计算 \( y_{i+1} \)。对于 \( p \) 步方法，需要 \( y_0, y_1, \dots, y_{p-1} \) 作为初始值。\( y_0 \) 由初始条件给出，\( y_1, \dots, y_{p-1} \) 需要用单步法（如龙格-库塔方法）计算得到，这称为启动过程 (Starting Procedure)。

局部截断误差：
\( p \) 步亚当斯-巴什福思方法的局部截断误差为 \( O(h^{p+1}) \)，全局截断误差为 \( O(h^p) \)。因此，\( p \) 步亚当斯-巴什福思方法是 \( p \) 阶方法。

优点与缺点：
⚝ 优点：
▮▮▮▮⚝ 精度较高，\( p \) 步方法为 \( p \) 阶精度。
▮▮▮▮⚝ 每步迭代只需计算一次函数 \( f \)，计算效率较高（在启动后）。
⚝ 缺点：
▮▮▮▮⚝ 需要启动过程，启动阶段需要使用单步法。
▮▮▮▮⚝ 稳定性不如某些单步法，例如四阶龙格-库塔方法。
▮▮▮▮⚝ 不易改变步长，变步长实现较为复杂。

6.4.2 亚当斯-莫尔顿方法 (Adams-Moulton Methods)

亚当斯-莫尔顿方法是一类隐式线性多步法。\( (p+1) \) 步亚当斯-莫尔顿方法使用前 \( p \) 步的导数值以及当前步的导数值 \( f(t_{i+1}, y_{i+1}) \) 来内插逼近当前步的解 \( y_{i+1} \)。

\( (p+1) \) 步亚当斯-莫尔顿方法的一般形式：
\[ y_{i+1} = y_i + h \left( b_{-1} f(t_{i+1}, y_{i+1}) + \sum_{j=0}^{p-1} b_j f(t_{i-j}, y_{i-j}) \right) \]
其中，系数 \( b_j \) 通过插值多项式确定。由于公式右边包含 \( y_{i+1} \)，因此是隐式方法。

常用低阶亚当斯-莫尔顿方法：

① 一步亚当斯-莫尔顿方法 (1-step Adams-Moulton Method)：
当 \( p = 0 \) 时，即一步亚当斯-莫尔顿方法，其公式为：
\[ y_{i+1} = y_i + h f(t_{i+1}, y_{i+1}) \]
这实际上就是后向欧拉方法。

② 二步亚当斯-莫尔顿方法 (2-step Adams-Moulton Method)：
当 \( p = 1 \) 时，二步亚当斯-莫尔顿方法公式为：
\[ y_{i+1} = y_i + h \left( \frac{1}{2} f(t_{i+1}, y_{i+1}) + \frac{1}{2} f(t_i, y_i) \right) \]
这实际上是梯形公式 (Trapezoidal Rule)。

③ 三步亚当斯-莫尔顿方法 (3-step Adams-Moulton Method)：
当 \( p = 2 \) 时，三步亚当斯-莫尔顿方法公式为：
\[ y_{i+1} = y_i + h \left( \frac{5}{12} f(t_{i+1}, y_{i+1}) + \frac{8}{12} f(t_i, y_i) - \frac{1}{12} f(t_{i-1}, y_{i-1}) \right) \]

④ 四步亚当斯-莫尔顿方法 (4-step Adams-Moulton Method)：
当 \( p = 3 \) 时，四步亚当斯-莫尔顿方法公式为：
\[ y_{i+1} = y_i + h \left( \frac{9}{24} f(t_{i+1}, y_{i+1}) + \frac{19}{24} f(t_i, y_i) - \frac{5}{24} f(t_{i-1}, y_{i-1}) + \frac{1}{24} f(t_{i-2}, y_{i-2}) \right) \]

求解隐式方程：
亚当斯-莫尔顿方法是隐式方法，每步迭代需要求解关于 \( y_{i+1} \) 的方程。与后向欧拉方法类似，如果 \( f \) 是线性的，可以直接解出 \( y_{i+1} \)。对于非线性 \( f \)，通常使用迭代方法，例如不动点迭代法或牛顿迭代法。

预测-校正系统 (Predictor-Corrector System)：
为了提高计算效率，通常将亚当斯-巴什福思方法作为预测步，亚当斯-莫尔顿方法作为校正步，构成预测-校正系统。例如，可以使用 \( p \) 步亚当斯-巴什福思方法预测 \( y_{i+1}^{(0)} \)，然后使用 \( (p+1) \) 步亚当斯-莫尔顿方法校正 \( y_{i+1}^{(0)} \) 得到 \( y_{i+1}^{(1)} \)，可以迭代多次校正以提高精度。

局部截断误差：
\( (p+1) \) 步亚当斯-莫尔顿方法的局部截断误差为 \( O(h^{p+2}) \)，全局截断误差为 \( O(h^{p+1}) \)。因此，\( (p+1) \) 步亚当斯-莫尔顿方法是 \( (p+1) \) 阶方法，比同阶的亚当斯-巴什福思方法精度更高。

优点与缺点：
⚝ 优点：
▮▮▮▮⚝ 精度较高，\( (p+1) \) 步方法为 \( (p+1) \) 阶精度，比同阶亚当斯-巴什福思方法精度更高。
▮▮▮▮⚝ 稳定性通常比同阶亚当斯-巴什福思方法更好。
⚝ 缺点：
▮▮▮▮⚝ 需要启动过程，与亚当斯-巴什福思方法相同。
▮▮▮▮⚝ 每步迭代需要求解隐式方程，计算量比显式方法大。
▮▮▮▮⚝ 不易改变步长，变步长实现较为复杂。

总结：
线性多步法通过利用历史信息，可以在保证精度的前提下提高计算效率。亚当斯-巴什福思方法是显式多步法，计算简单，但稳定性相对较差；亚当斯-莫尔顿方法是隐式多步法，精度和稳定性都较好，但计算量较大。预测-校正系统结合了显式和隐式方法的优点，是实际应用中常用的多步法形式。

6.5 稳定性与收敛性 (Stability and Convergence)

数值方法的稳定性 (Stability) 和收敛性 (Convergence) 是评价方法优劣的重要指标。稳定性保证数值解在计算过程中不会因为小的扰动而发散，收敛性保证当步长 \( h \) 趋于零时，数值解逼近真解。

稳定性 (Stability)：
数值稳定性是指在计算过程中，误差不会无限增长。对于常微分方程数值解法，稳定性通常分为绝对稳定性 (Absolute Stability) 和相对稳定性 (Relative Stability)。

绝对稳定性 (Absolute Stability)：
绝对稳定性关注数值方法在应用于线性测试方程 \( y' = \lambda y \) 时的稳定性，其中 \( \lambda \) 是常数。对于前向欧拉方法应用于测试方程，迭代公式为：
\[ y_{i+1} = y_i + h \lambda y_i = (1 + h \lambda) y_i \]
为了保证数值解不发散，需要 \( |1 + h \lambda| < 1 \)，即 \( -2 < h \lambda < 0 \)。在复平面上，绝对稳定区域 (Region of Absolute Stability) 是以 \(-1\) 为圆心，半径为 \( 1 \) 的圆盘的内部。

对于后向欧拉方法应用于测试方程，迭代公式为：
\[ y_{i+1} = y_i + h \lambda y_{i+1} \Rightarrow y_{i+1} = \frac{1}{1 - h \lambda} y_i \]
为了保证数值解不发散，需要 \( \left| \frac{1}{1 - h \lambda} \right| < 1 \)，即 \( |1 - h \lambda| > 1 \)。在复平面上，绝对稳定区域是以 \( 1 \) 为圆心，半径为 \( 1 \) 的圆盘的外部。后向欧拉方法的绝对稳定区域包含左半平面，因此对于 \( \text{Re}(\lambda) < 0 \) 的情况，后向欧拉方法是绝对稳定的，称为 A-稳定 (A-stable)。

龙格-库塔方法和线性多步法也有相应的绝对稳定区域。一般来说，隐式方法的稳定性区域比显式方法大，更适合求解刚性方程。

收敛性 (Convergence)：
收敛性是指当步长 \( h \to 0 \) 时，数值解 \( y_i \) 逼近真解 \( y(t_i) \)。对于数值方法，收敛性通常与局部截断误差和稳定性有关。

相容性 (Consistency)：
一个数值方法是相容的，如果其局部截断误差 \( \tau_{i+1} \to 0 \) 当 \( h \to 0 \)。所有介绍的欧拉方法、龙格-库塔方法和线性多步法都是相容的。

零稳定性 (Zero-Stability)：
对于线性多步法，零稳定性是一个重要的概念。零稳定性是指当 \( f(t, y) = 0 \) 时，数值解的稳定性。零稳定性与多步法特征方程的根有关。一个 \( p \) 步线性多步法是零稳定的，如果其特征方程的所有根的模长小于等于 1，且模长为 1 的根都是单根。

达克斯特维尔-拉克斯等价定理 (Dahlquist-Lax Equivalence Theorem)：
对于线性多步法，达克斯特维尔-拉克斯等价定理指出，如果一个线性多步法是相容的且零稳定的，则它是收敛的。对于单步法（如龙格-库塔方法），相容性和稳定性通常足以保证收敛性。

收敛阶 (Order of Convergence)：
如果一个数值方法的全局截断误差为 \( O(h^p) \)，则称该方法具有 \( p \) 阶收敛精度。例如，前向欧拉方法和后向欧拉方法是一阶收敛，二阶龙格-库塔方法是二阶收敛，四阶龙格-库塔方法是四阶收敛。

误差估计与步长控制 (Error Estimation and Step Size Control)：
在实际应用中，为了保证精度和效率，通常需要进行误差估计和步长控制。误差估计可以估计每步迭代的局部误差或全局误差，步长控制则根据误差估计结果动态调整步长 \( h \)。常用的步长控制策略包括比例-积分-微分 (PID) 控制、嵌入式龙格-库塔方法等。

6.6 刚性方程组 (Stiff Equations)

刚性方程组 (Stiff Equations) 是一类特殊的常微分方程组，其解包含快速变化和缓慢变化的成分，数值求解时容易出现稳定性问题。刚性方程组的特征值谱 (Eigenvalue Spectrum) 分布范围很广，即最大特征值和最小特征值之比很大。

刚性的定义：
一个常微分方程组 \( y' = f(t, y) \) 在区间 \( [a, b] \) 上是刚性的，如果其雅可比矩阵 \( J = \frac{\partial f}{\partial y} \) 的特征值 \( \lambda_i \) 满足：
① \( \text{Re}(\lambda_i) < 0 \) 对于所有 \( i \)。
② 刚性比 (Stiffness Ratio) \( S = \frac{\max_i |\text{Re}(\lambda_i)|}{\min_i |\text{Re}(\lambda_i)|} \) 很大，例如 \( S \gg 1 \)。

刚性方程的特点：
⚝ 解包含快速衰减的瞬态分量和缓慢变化的稳态分量。
⚝ 使用显式方法求解刚性方程时，为了保证稳定性，需要使用非常小的步长 \( h \)，导致计算效率极低。
⚝ 隐式方法在求解刚性方程时具有更好的稳定性，可以使用较大的步长，提高计算效率。

刚性方程的例子：
考虑以下线性常微分方程组：
\[ \begin{cases} y'_1 = -1000 y_1 \\ y'_2 = -y_2 \end{cases} \]
其雅可比矩阵为 \( J = \begin{pmatrix} -1000 & 0 \\ 0 & -1 \end{pmatrix} \)，特征值为 \( \lambda_1 = -1000, \lambda_2 = -1 \)，刚性比 \( S = \frac{1000}{1} = 1000 \)，因此该方程组是刚性的。

求解刚性方程的方法：
⚝ 隐式方法：如后向欧拉方法、隐式龙格-库塔方法、亚当斯-莫尔顿方法等。隐式方法具有较大的稳定性区域，适合求解刚性方程。
⚝ 后向微分公式 (Backward Differentiation Formulas, BDFs)：BDFs 是一类专门为求解刚性方程设计的线性多步法，具有较好的稳定性和精度。常用的 BDF 方法包括 BDF1（后向欧拉方法）、BDF2、BDF3 等。
⚝ 奇异摄动方法 (Singular Perturbation Methods)：对于某些特定形式的刚性方程，可以使用奇异摄动方法进行分析和求解。

选择数值方法：
对于非刚性方程，可以使用显式方法（如四阶龙格-库塔方法、亚当斯-巴什福思方法），计算效率较高。对于刚性方程，必须使用隐式方法（如后向欧拉方法、隐式龙格-库塔方法、亚当斯-莫尔顿方法、BDFs），以保证稳定性并提高计算效率。在实际应用中，需要根据具体问题的性质选择合适的数值方法。

数值分析领域针对常微分方程的数值解法提供了丰富的理论和方法。理解各种方法的原理、优缺点、适用范围，以及稳定性、收敛性等概念，对于有效地解决实际问题至关重要。本章介绍的欧拉方法、龙格-库塔方法和线性多步法是数值求解 ODE 的基础方法，掌握这些方法有助于进一步学习和应用更高级的数值技术。

7. chapter 7：偏微分方程数值解法 (Numerical Methods for Partial Differential Equations)

7.1 偏微分方程的分类与定解问题 (Classification of Partial Differential Equations and Well-Posed Problems)

偏微分方程 (Partial Differential Equations, PDEs) 是描述多变量函数及其偏导数之间关系的方程，广泛应用于物理学、工程学、金融学等多个领域，用于模拟各种自然现象和社会现象，例如流体流动、热传导、电磁场、量子力学以及金融衍生品定价等。与常微分方程 (Ordinary Differential Equations, ODEs) 不同，偏微分方程涉及多个自变量，这使得其解的性质和数值解法更加复杂多样。

在数值分析中，研究偏微分方程的数值解法至关重要，因为许多实际问题对应的偏微分方程往往难以求得解析解。数值解法通过离散化等手段，将连续的偏微分方程问题转化为离散的代数问题，从而在计算机上获得近似解。

7.1.1 偏微分方程的分类 (Classification of Partial Differential Equations)

二阶线性偏微分方程是最常见且最重要的一类偏微分方程，其一般形式可以表示为：
\[ A \frac{\partial^2 u}{\partial x^2} + B \frac{\partial^2 u}{\partial x \partial y} + C \frac{\partial^2 u}{\partial y^2} + D \frac{\partial u}{\partial x} + E \frac{\partial u}{\partial y} + F u = G(x, y) \]
其中 \(A, B, C, D, E, F\) 是关于 \(x, y\) 的函数，\(u = u(x, y)\) 是未知函数。根据系数 \(A, B, C\) 满足的判别式 \(B^2 - 4AC\) 的符号，二阶线性偏微分方程可以分为三类：

① 椭圆型方程 (Elliptic Equations)：当 \(B^2 - 4AC < 0\) 时，方程为椭圆型。典型的椭圆型方程是拉普拉斯方程 (Laplace Equation) 和泊松方程 (Poisson Equation)，它们描述了平衡态或稳态过程。例如，二维拉普拉斯方程为：
\[ \frac{\partial^2 u}{\partial x^2} + \frac{\partial^2 u}{\partial y^2} = 0 \]
椭圆型方程的解通常是光滑的，并且其解的性质受到边界条件的强烈影响。在物理上，椭圆型方程常用于描述静电场、稳态热传导等问题。

② 抛物型方程 (Parabolic Equations)：当 \(B^2 - 4AC = 0\) 时，方程为抛物型。典型的抛物型方程是热传导方程 (Heat Equation) 或扩散方程 (Diffusion Equation)，它们描述了随时间演化的扩散过程。例如，一维热传导方程为：
\[ \frac{\partial u}{\partial t} = \alpha \frac{\partial^2 u}{\partial x^2} \]
其中 \(\alpha\) 是热扩散系数。抛物型方程的解会随着时间推移而趋于平滑，初始条件的影响会逐渐减弱。在物理上，抛物型方程常用于描述热量扩散、物质扩散等随时间变化的现象。

③ 双曲型方程 (Hyperbolic Equations)：当 \(B^2 - 4AC > 0\) 时，方程为双曲型。典型的双曲型方程是波动方程 (Wave Equation)，它描述了波的传播现象。例如，一维波动方程为：
\[ \frac{\partial^2 u}{\partial t^2} = c^2 \frac{\partial^2 u}{\partial x^2} \]
其中 \(c\) 是波速。双曲型方程的解具有波的特性，能量会沿着特征线传播，初始条件的影响会持续存在。在物理上，双曲型方程常用于描述声波、光波、弹性波等传播现象。

7.1.2 偏微分方程的定解问题 (Well-Posed Problems for Partial Differential Equations)

为了使偏微分方程的解是唯一且有物理意义的，我们需要为偏微分方程附加定解条件 (Determinate Conditions)。对于偏微分方程，常见的定解条件包括初始条件 (Initial Conditions) 和 边界条件 (Boundary Conditions)。由偏微分方程和定解条件共同构成定解问题 (Well-Posed Problem)。

一个定解问题被称为适定 (Well-Posed) 的，如果它满足以下三个条件（由 Hadamard 提出）：

① 解的存在性 (Existence of Solution)：至少存在一个解满足方程和定解条件。
② 解的唯一性 (Uniqueness of Solution)：满足方程和定解条件的解是唯一的。
③ 解的稳定性 (Stability of Solution)：解连续依赖于定解条件。即当定解条件发生微小扰动时，解的变化也是微小的。

适定性是偏微分方程数值解法的基础。如果一个定解问题不是适定的，那么即使我们找到了数值解，也无法保证其逼近真实解，或者解可能对输入数据过于敏感，导致计算结果不稳定。

不同的偏微分方程类型需要附加不同类型的定解条件才能构成适定问题。

⚝ 椭圆型方程 通常定义在有界区域上，需要给定边界条件 (Boundary Conditions)。常见的边界条件类型包括：
▮▮▮▮⚝ 狄利克雷边界条件 (Dirichlet Boundary Condition)：给定边界上的函数值，例如 \(u|_{\partial \Omega} = g(x, y)\)，其中 \(\partial \Omega\) 是区域 \(\Omega\) 的边界，\(g(x, y)\) 是给定的边界函数。
▮▮▮▮⚝ 诺伊曼边界条件 (Neumann Boundary Condition)：给定边界上的法向导数值，例如 \(\frac{\partial u}{\partial n}|_{\partial \Omega} = h(x, y)\)，其中 \(\frac{\partial u}{\partial n}\) 是法向导数，\(h(x, y)\) 是给定的边界函数。
▮▮▮▮⚝ 罗宾边界条件 (Robin Boundary Condition) (混合边界条件)：给定边界上函数值和法向导数的线性组合，例如 \(\alpha u + \beta \frac{\partial u}{\partial n}|_{\partial \Omega} = k(x, y)\)，其中 \(\alpha, \beta, k(x, y)\) 是给定的函数。

⚝ 抛物型方程 通常是时间相关的，需要给定初始条件 (Initial Condition) 和边界条件 (Boundary Conditions)。初始条件描述了系统在初始时刻的状态，例如 \(u(x, 0) = u_0(x)\)，其中 \(u_0(x)\) 是给定的初始函数。边界条件则描述了在区域边界上的约束。

⚝ 双曲型方程 也是时间相关的，同样需要给定初始条件 (Initial Conditions) 和边界条件 (Boundary Conditions)。对于二阶双曲型方程，通常需要给定两个初始条件，分别对应函数值和时间导数值，例如 \(u(x, 0) = u_0(x)\) 和 \(\frac{\partial u}{\partial t}(x, 0) = v_0(x)\)，其中 \(u_0(x)\) 和 \(v_0(x)\) 是给定的初始函数。边界条件同样描述了区域边界上的约束。

理解偏微分方程的分类和定解问题是选择合适的数值解法的基础。不同的方程类型和定解条件，需要采用不同的数值方法才能有效地求解。接下来，我们将介绍几种常用的偏微分方程数值解法，包括差分方法和有限元方法。

7.2 差分方法 (Finite Difference Methods)

差分方法 (Finite Difference Methods, FDM) 是求解偏微分方程最经典和最常用的数值方法之一。其基本思想是用差商 (Difference Quotient) 近似导数，将连续的微分方程问题转化为离散的差分方程问题，从而得到数值解。差分方法概念直观、易于理解和实现，尤其适用于求解规则区域上的偏微分方程。

7.2.1 椭圆型方程的差分格式 (Finite Difference Schemes for Elliptic Equations)

以二维泊松方程 (Poisson Equation) 为例，考虑在矩形区域 \(\Omega = [a, b] \times [c, d]\) 上的狄利克雷边界问题：
\[ \begin{cases} -\left(\frac{\partial^2 u}{\partial x^2} + \frac{\partial^2 u}{\partial y^2}\right) = f(x, y), & (x, y) \in \Omega \\ u(x, y) = g(x, y), & (x, y) \in \partial \Omega \end{cases} \]
其中 \(f(x, y)\) 和 \(g(x, y)\) 是已知函数，\(\partial \Omega\) 是矩形区域 \(\Omega\) 的边界。

网格剖分 (Grid Discretization)：首先，对求解区域 \(\Omega\) 进行网格剖分。在 \(x\) 方向和 \(y\) 方向分别取步长 \(h\) 和 \(k\)，将区域离散化为网格点 \((x_i, y_j)\)，其中 \(x_i = a + ih\), \(y_j = c + jk\)，\(i = 0, 1, \ldots, m\), \(j = 0, 1, \ldots, n\)，\(h = (b - a) / m\), \(k = (d - c) / n\)。记 \(u_{ij} \approx u(x_i, y_j)\)。

中心差分近似 (Central Difference Approximation)：利用中心差分公式近似二阶偏导数：
\[ \frac{\partial^2 u}{\partial x^2}(x_i, y_j) \approx \frac{u_{i+1, j} - 2u_{i, j} + u_{i-1, j}}{h^2} \]
\[ \frac{\partial^2 u}{\partial y^2}(x_i, y_j) \approx \frac{u_{i, j+1} - 2u_{i, j} + u_{i, j-1}}{k^2} \]
将上述差分近似代入泊松方程，得到五点差分格式 (Five-Point Stencil)：
\[ -\left(\frac{u_{i+1, j} - 2u_{i, j} + u_{i-1, j}}{h^2} + \frac{u_{i, j+1} - 2u_{i, j} + u_{i, j-1}}{k^2}\right) = f(x_i, y_j) \]
整理后得到：
\[ \left(\frac{2}{h^2} + \frac{2}{k^2}\right) u_{i, j} - \frac{1}{h^2} (u_{i+1, j} + u_{i-1, j}) - \frac{1}{k^2} (u_{i, j+1} + u_{i, j-1}) = f_{i, j} \]
其中 \(f_{i, j} = f(x_i, y_j)\)。对于内部网格点 \((x_i, y_j)\) (\(i = 1, \ldots, m-1\), \(j = 1, \ldots, n-1\))，我们得到一个线性方程。

边界条件处理 (Boundary Condition Treatment)：对于狄利克雷边界条件 \(u(x, y) = g(x, y)\) 在 \(\partial \Omega\) 上，边界网格点上的值直接由边界条件给出：
\[ u_{0, j} = g(x_0, y_j), \quad u_{m, j} = g(x_m, y_j), \quad u_{i, 0} = g(x_i, y_0), \quad u_{i, n} = g(x_i, y_n) \]
将边界条件代入内部网格点的差分方程，得到一个关于内部网格点未知量 \(u_{i, j}\) 的线性方程组。

线性方程组求解 (Solving Linear System)：将所有内部网格点的差分方程联立起来，得到一个大型稀疏线性方程组 \(AU = b\)，其中 \(U\) 是由内部网格点未知量组成的向量，\(b\) 是由 \(f_{i, j}\) 和边界条件组成的向量，\(A\) 是系数矩阵。可以使用直接法（如高斯消元法、LU分解）或迭代法（如雅可比迭代法、高斯-赛德尔迭代法、SOR）求解该线性方程组，得到数值解 \(U\)，即网格点上的近似解 \(u_{i, j}\)。

对于诺伊曼边界条件和罗宾边界条件，也需要进行相应的差分近似处理，将其转化为差分方程组。例如，对于诺伊曼边界条件 \(\frac{\partial u}{\partial n} = h(x, y)\)，可以使用单侧差分或中心差分近似法向导数。

7.2.2 抛物型方程的差分格式 (Finite Difference Schemes for Parabolic Equations)

以一维热传导方程 (Heat Equation) 为例，考虑在区域 \([a, b] \times [0, T]\) 上的初边值问题：
\[ \begin{cases} \frac{\partial u}{\partial t} = \alpha \frac{\partial^2 u}{\partial x^2}, & a < x < b, 0 < t \le T \\ u(x, 0) = u_0(x), & a \le x \le b \\ u(a, t) = g_1(t), \quad u(b, t) = g_2(t), & 0 \le t \le T \end{cases} \]
其中 \(\alpha > 0\) 是热扩散系数，\(u_0(x)\), \(g_1(t)\), \(g_2(t)\) 是已知函数。

时空网格剖分 (Space-Time Grid Discretization)：对空间区域 \([a, b]\) 和时间区间 \([0, T]\) 分别进行离散化。在 \(x\) 方向取步长 \(h\)，在 \(t\) 方向取步长 \(\tau\)。网格点为 \((x_i, t_n)\)，其中 \(x_i = a + ih\), \(t_n = n\tau\)，\(i = 0, 1, \ldots, m\), \(n = 0, 1, \ldots, N\)，\(h = (b - a) / m\), \(\tau = T / N\)。记 \(u_{i}^{n} \approx u(x_i, t_n)\)。

时间方向差分近似 (Time Discretization)：对于时间导数 \(\frac{\partial u}{\partial t}\)，可以使用前向差分 (Forward Difference) 或后向差分 (Backward Difference) 近似。

空间方向差分近似 (Space Discretization)：对于空间二阶导数 \(\frac{\partial^2 u}{\partial x^2}\)，使用中心差分近似：
\[ \frac{\partial^2 u}{\partial x^2}(x_i, t_n) \approx \frac{u_{i+1}^{n} - 2u_{i}^{n} + u_{i-1}^{n}}{h^2} \]

① 前向欧拉格式 (Forward Euler Scheme, Explicit Scheme)：时间方向使用前向差分，空间方向使用中心差分。
\[ \frac{u_{i}^{n+1} - u_{i}^{n}}{\tau} = \alpha \frac{u_{i+1}^{n} - 2u_{i}^{n} + u_{i-1}^{n}}{h^2} \]
整理后得到显式格式：
\[ u_{i}^{n+1} = u_{i}^{n} + \frac{\alpha \tau}{h^2} (u_{i+1}^{n} - 2u_{i}^{n} + u_{i-1}^{n}) = r u_{i-1}^{n} + (1 - 2r) u_{i}^{n} + r u_{i+1}^{n} \]
其中 \(r = \frac{\alpha \tau}{h^2}\) 称为网格比 (Mesh Ratio)。前向欧拉格式是显式格式，计算 \(u_{i}^{n+1}\) 时只需要用到 \(n\) 时刻的值，计算简单。但其稳定性条件 (Stability Condition) 较为苛刻，需要满足 \(r = \frac{\alpha \tau}{h^2} \le \frac{1}{2}\)，即 \(\tau \le \frac{h^2}{2\alpha}\)，时间步长 \(\tau\) 受到空间步长 \(h\) 的限制。

② 后向欧拉格式 (Backward Euler Scheme, Implicit Scheme)：时间方向使用后向差分，空间方向使用中心差分。
\[ \frac{u_{i}^{n+1} - u_{i}^{n}}{\tau} = \alpha \frac{u_{i+1}^{n+1} - 2u_{i}^{n+1} + u_{i-1}^{n+1}}{h^2} \]
整理后得到隐式格式：
\[ -r u_{i-1}^{n+1} + (1 + 2r) u_{i}^{n+1} - r u_{i+1}^{n+1} = u_{i}^{n} \]
后向欧拉格式是隐式格式，计算 \(u_{i}^{n+1}\) 时需要求解一个线性方程组。后向欧拉格式是无条件稳定 (Unconditionally Stable) 的，对时间步长 \(\tau\) 没有限制，可以取较大的时间步长，但计算量相对较大。

③ Crank-Nicolson 格式 (Crank-Nicolson Scheme, Implicit Scheme)：时间方向使用中心差分（在 \(t_{n+1/2}\) 时刻），空间方向使用 \(t_{n}\) 和 \(t_{n+1}\) 时刻的中心差分的平均。
\[ \frac{u_{i}^{n+1} - u_{i}^{n}}{\tau} = \frac{\alpha}{2} \left(\frac{u_{i+1}^{n} - 2u_{i}^{n} + u_{i-1}^{n}}{h^2} + \frac{u_{i+1}^{n+1} - 2u_{i}^{n+1} + u_{i-1}^{n+1}}{h^2}\right) \]
整理后得到隐式格式：
\[ -\frac{r}{2} u_{i-1}^{n+1} + (1 + r) u_{i}^{n+1} - \frac{r}{2} u_{i+1}^{n+1} = \frac{r}{2} u_{i-1}^{n} + (1 - r) u_{i}^{n} + \frac{r}{2} u_{i+1}^{n} \]
Crank-Nicolson 格式也是隐式格式，需要求解线性方程组。Crank-Nicolson 格式也是无条件稳定的，且具有二阶时间精度 (Second-Order Accuracy in Time)，精度高于前向欧拉格式和后向欧拉格式（一阶时间精度）。

对于边界条件和初始条件，需要进行相应的离散化处理。例如，狄利克雷边界条件 \(u(a, t) = g_1(t)\) 离散为 \(u_{0}^{n} = g_1(t_n)\)，初始条件 \(u(x, 0) = u_0(x)\) 离散为 \(u_{i}^{0} = u_0(x_i)\)。

7.2.3 双曲型方程的差分格式 (Finite Difference Schemes for Hyperbolic Equations)

以一维波动方程 (Wave Equation) 为例，考虑在区域 \([a, b] \times [0, T]\) 上的初边值问题：
\[ \begin{cases} \frac{\partial^2 u}{\partial t^2} = c^2 \frac{\partial^2 u}{\partial x^2}, & a < x < b, 0 < t \le T \\ u(x, 0) = u_0(x), \quad \frac{\partial u}{\partial t}(x, 0) = v_0(x), & a \le x \le b \\ u(a, t) = g_1(t), \quad u(b, t) = g_2(t), & 0 \le t \le T \end{cases} \]
其中 \(c > 0\) 是波速，\(u_0(x)\), \(v_0(x)\), \(g_1(t)\), \(g_2(t)\) 是已知函数。

时空网格剖分 (Space-Time Grid Discretization)：与抛物型方程类似，进行时空网格剖分，网格点为 \((x_i, t_n)\)。

差分近似 (Difference Approximation)：对于时间二阶导数 \(\frac{\partial^2 u}{\partial t^2}\) 和空间二阶导数 \(\frac{\partial^2 u}{\partial x^2}\)，都使用中心差分近似：
\[ \frac{\partial^2 u}{\partial t^2}(x_i, t_n) \approx \frac{u_{i}^{n+1} - 2u_{i}^{n} + u_{i}^{n-1}}{\tau^2} \]
\[ \frac{\partial^2 u}{\partial x^2}(x_i, t_n) \approx \frac{u_{i+1}^{n} - 2u_{i}^{n} + u_{i-1}^{n}}{h^2} \]
将上述差分近似代入波动方程，得到中心差分格式 (Central Difference Scheme)：
\[ \frac{u_{i}^{n+1} - 2u_{i}^{n} + u_{i}^{n-1}}{\tau^2} = c^2 \frac{u_{i+1}^{n} - 2u_{i}^{n} + u_{i-1}^{n}}{h^2} \]
整理后得到显式格式：
\[ u_{i}^{n+1} = 2u_{i}^{n} - u_{i}^{n-1} + \lambda^2 (u_{i+1}^{n} - 2u_{i}^{n} + u_{i-1}^{n}) = \lambda^2 u_{i-1}^{n} + 2(1 - \lambda^2) u_{i}^{n} + \lambda^2 u_{i+1}^{n} - u_{i}^{n-1} \]
其中 \(\lambda = \frac{c\tau}{h}\) 称为 Courant 数 (Courant Number)。中心差分格式是显式格式，计算 \(u_{i}^{n+1}\) 时只需要用到 \(n\) 和 \(n-1\) 时刻的值。其稳定性条件 (Stability Condition) 由 CFL (Courant-Friedrichs-Lewy) 条件 给出，需要满足 \(\lambda = \frac{c\tau}{h} \le 1\)，即 \(\tau \le \frac{h}{c}\)，时间步长 \(\tau\) 受到空间步长 \(h\) 和波速 \(c\) 的限制。

初始条件处理 (Initial Condition Treatment)：需要处理两个初始条件 \(u(x, 0) = u_0(x)\) 和 \(\frac{\partial u}{\partial t}(x, 0) = v_0(x)\)。
⚝ \(u(x, 0) = u_0(x)\) 离散为 \(u_{i}^{0} = u_0(x_i)\)。
⚝ 对于 \(\frac{\partial u}{\partial t}(x, 0) = v_0(x)\)，可以使用中心差分近似：
\[ \frac{u_{i}^{1} - u_{i}^{-1}}{2\tau} \approx v_0(x_i) \]
得到 \(u_{i}^{-1} = u_{i}^{1} - 2\tau v_0(x_i)\)。将 \(n = 0\) 代入中心差分格式，得到：
\[ u_{i}^{1} = 2u_{i}^{0} - u_{i}^{-1} + \lambda^2 (u_{i+1}^{0} - 2u_{i}^{0} + u_{i-1}^{0}) \]
将 \(u_{i}^{-1}\) 代入上式，得到计算第一层时间步 \(u_{i}^{1}\) 的公式：
\[ u_{i}^{1} = u_{i}^{0} + \tau v_0(x_i) + \frac{\lambda^2}{2} (u_{i+1}^{0} - 2u_{i}^{0} + u_{i-1}^{0}) \]
或者，更简单的方法是使用泰勒展开近似：
\[ u(x_i, \tau) \approx u(x_i, 0) + \tau \frac{\partial u}{\partial t}(x_i, 0) = u_0(x_i) + \tau v_0(x_i) \]
即 \(u_{i}^{1} \approx u_{i}^{0} + \tau v_0(x_i)\)。

边界条件处理 (Boundary Condition Treatment)：狄利克雷边界条件 \(u(a, t) = g_1(t)\) 离散为 \(u_{0}^{n} = g_1(t_n)\)，\(u(b, t) = g_2(t)\) 离散为 \(u_{m}^{n} = g_2(t_n)\)。

差分方法是求解偏微分方程的重要数值方法，通过选择合适的差分格式和步长，可以获得满足精度要求的数值解。但差分方法通常适用于规则区域，对于复杂区域或高精度要求的问题，可能需要考虑其他数值方法，例如有限元方法。

7.3 有限元方法简介 (Introduction to Finite Element Methods)

有限元方法 (Finite Element Methods, FEM) 是一种强大的数值方法，广泛应用于求解各种科学和工程问题中的偏微分方程。与差分方法不同，有限元方法基于变分原理 (Variational Principle)，将偏微分方程的求解转化为求解等价的变分问题 (Variational Problem)，然后在有限维空间 (Finite Dimensional Space) 中寻找近似解。有限元方法具有处理复杂区域、灵活适应不同边界条件、易于提高精度等优点，是求解复杂偏微分方程问题的重要工具。

7.3.1 变分原理 (Variational Principles)

许多物理问题可以用能量最小化原理来描述。例如，弹性力学中的最小势能原理、热传导中的最小热流原理等。这些原理可以转化为数学上的变分问题。对于偏微分方程，也存在与之等价的变分形式，称为弱形式 (Weak Form) 或变分形式 (Variational Form)。

以二维泊松方程的狄利克雷边界问题为例：
\[ \begin{cases} -\nabla^2 u = f, & \text{in } \Omega \\ u = g, & \text{on } \partial \Omega \end{cases} \]
其中 \(\nabla^2 = \frac{\partial^2}{\partial x^2} + \frac{\partial^2}{\partial y^2}\) 是拉普拉斯算子，\(\Omega\) 是求解区域，\(\partial \Omega\) 是边界。

推导弱形式 (Derivation of Weak Form)：将泊松方程两边乘以一个试探函数 (Test Function) \(v(x, y)\)，并在区域 \(\Omega\) 上积分：
\[ -\int_{\Omega} (\nabla^2 u) v \, d\Omega = \int_{\Omega} f v \, d\Omega \]
利用格林公式 (Green's Formula) (分部积分公式在二维的推广)：
\[ -\int_{\Omega} (\nabla^2 u) v \, d\Omega = \int_{\Omega} \nabla u \cdot \nabla v \, d\Omega - \int_{\partial \Omega} \frac{\partial u}{\partial n} v \, dS \]
其中 \(\frac{\partial u}{\partial n}\) 是 \(u\) 的外法向导数，\(dS\) 是边界 \(\partial \Omega\) 上的线元素。

对于狄利克雷边界条件 \(u = g\) on \(\partial \Omega\)，我们要求试探函数 \(v\) 在边界上为零，即 \(v = 0\) on \(\partial \Omega\)。这样，边界积分项 \(\int_{\partial \Omega} \frac{\partial u}{\partial n} v \, dS = 0\)。因此，泊松方程的弱形式为：
\[ \int_{\Omega} \nabla u \cdot \nabla v \, d\Omega = \int_{\Omega} f v \, d\Omega, \quad \forall v \in V \]
其中 \(V = \{v \in H^1(\Omega) \mid v = 0 \text{ on } \partial \Omega\}\) 是试探函数空间 (Test Function Space)，\(H^1(\Omega)\) 是索伯列夫空间 (Sobolev Space)。

变分问题 (Variational Problem)：求解泊松方程的狄利克雷问题等价于求解如下变分问题：
寻找 \(u \in U = \{u \in H^1(\Omega) \mid u = g \text{ on } \partial \Omega\}\)，使得
\[ a(u, v) = L(v), \quad \forall v \in V \]
其中双线性形式 \(a(u, v) = \int_{\Omega} \nabla u \cdot \nabla v \, d\Omega\)，线性形式 \(L(v) = \int_{\Omega} f v \, d\Omega\)。

Ritz-Galerkin 方法 (Ritz-Galerkin Method)：有限元方法是 Ritz-Galerkin 方法的一种具体实现。Ritz-Galerkin 方法的基本思想是在有限维子空间 \(V_h \subset V\) 和 \(U_h \subset U\) 中寻找近似解 \(u_h \in U_h\)，使得弱形式在 \(V_h\) 上成立：
\[ a(u_h, v_h) = L(v_h), \quad \forall v_h \in V_h \]

7.3.2 有限元离散 (Finite Element Discretization)

有限元离散 (Finite Element Discretization) 的关键步骤包括：

① 区域剖分 (Domain Discretization)：将求解区域 \(\Omega\) 剖分为一系列互不重叠的有限单元 (Finite Elements)，例如三角形单元、四边形单元、四面体单元、六面体单元等。单元的集合称为网格 (Mesh)。

② 选择基函数 (Shape Functions)：在每个单元上选择一组基函数 (Basis Functions) 或形函数 (Shape Functions)，用于逼近单元上的解。常用的基函数是分片多项式函数，例如线性基函数、二次基函数、三次基函数等。

③ 有限元逼近 (Finite Element Approximation)：在每个单元上，将近似解 \(u_h\) 表示为基函数的线性组合：
\[ u_h(x, y) = \sum_{j=1}^{N_e} N_j(x, y) U_j \]
其中 \(N_j(x, y)\) 是基函数，\(U_j\) 是待求的节点值 (Nodal Values)，\(N_e\) 是单元内基函数的个数。

④ 组装单元方程 (Element Equation Assembly)：将有限元逼近代入变分问题，得到关于节点值 \(U_j\) 的线性方程组。对于每个单元 \(K\)，计算单元刚度矩阵 (Element Stiffness Matrix) \(A_K\) 和单元载荷向量 (Element Load Vector) \(b_K\)。然后将所有单元的单元刚度矩阵和单元载荷向量组装 (Assemble) 成全局刚度矩阵 \(A\) 和全局载荷向量 \(b\)。

⑤ 求解线性方程组 (Solving Linear System)：求解组装后的线性方程组 \(AU = b\)，得到节点值 \(U\)。将节点值代入有限元逼近表达式，得到整个区域上的近似解 \(u_h(x, y)\)。

有限元方法的优点在于可以灵活处理复杂几何区域，通过选择不同类型的单元和基函数，可以适应不同精度和计算效率的要求。有限元方法在结构力学、流体力学、电磁场分析、热传导分析等领域得到了广泛应用。

本章介绍了偏微分方程的分类、定解问题以及两种重要的数值解法：差分方法和有限元方法。差分方法通过差商近似导数，将偏微分方程转化为差分方程组，适用于规则区域。有限元方法基于变分原理，将偏微分方程转化为变分问题，并通过有限元离散求解，适用于复杂区域。在实际应用中，需要根据具体问题的特点选择合适的数值方法。

8. chapter 8：特征值与特征向量的计算 (Computation of Eigenvalues and Eigenvectors)

8.1 幂法与反幂法 (Power Iteration and Inverse Power Iteration)

在数值线性代数中，特征值 (eigenvalue) 和 特征向量 (eigenvector) 是描述矩阵内在性质的关键概念。它们在物理学、工程学、计算机科学等多个领域中都有着广泛的应用，例如振动分析、稳定性分析、量子力学以及机器学习中的主成分分析 (Principal Component Analysis, PCA) 等。对于一个给定的 \( n \times n \) 矩阵 \( A \)，如果存在非零向量 \( \mathbf{v} \) 和标量 \( \lambda \) 满足 \( A\mathbf{v} = \lambda \mathbf{v} \)，则 \( \lambda \) 称为矩阵 \( A \) 的一个特征值，\( \mathbf{v} \) 称为对应于特征值 \( \lambda \) 的特征向量。

计算矩阵的特征值和特征向量是数值分析中的一个重要问题。对于小规模矩阵，我们可以通过求解特征多项式来获得特征值，但对于大规模矩阵，这种方法在计算上变得不可行且效率低下。因此，我们需要发展数值方法来有效地计算矩阵的特征值和特征向量。幂法 (Power Iteration) 和 反幂法 (Inverse Power Iteration) 是两种经典且重要的迭代方法，它们分别用于计算矩阵的主特征值（模最大特征值）和与给定值最接近的特征值。

8.1.1 幂法 (Power Iteration)

幂法是一种迭代算法，用于计算矩阵的主特征值以及对应的特征向量。其基本思想是通过迭代地应用矩阵乘法，使得初始向量逐渐向主特征向量的方向靠拢。

算法 8.1.1 幂法 (Power Iteration Algorithm)

给定一个 \( n \times n \) 的实矩阵 \( A \)，假设其特征值满足 \( |\lambda_1| > |\lambda_2| \ge |\lambda_3| \ge \cdots \ge |\lambda_n| \)，其中 \( \lambda_1 \) 是主特征值。选择一个初始向量 \( \mathbf{q}_0 \)，通常为随机向量或全 1 向量，并进行如下迭代：

① for \( k = 1, 2, 3, \ldots \) do:
②      \( \mathbf{z}_k = A\mathbf{q}_{k-1} \)
③      \( \mathbf{q}_k = \frac{\mathbf{z}_k}{\|\mathbf{z}_k\|} \) (归一化 normalization)
④      \( \lambda^{(k)} = \mathbf{q}_k^T A \mathbf{q}_k = \mathbf{q}_k^T \mathbf{z}_k \) (Rayleigh quotient approximation of eigenvalue)
⑤ end for

在迭代过程中，向量序列 \( \{\mathbf{q}_k\} \) 将收敛于与主特征值 \( \lambda_1 \) 对应的特征向量（或其方向），而 \( \{\lambda^{(k)}\} \) 将收敛于主特征值 \( \lambda_1 \)。

理论分析

假设矩阵 \( A \) 存在一组线性无关的特征向量 \( \{\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_n\} \) 对应于特征值 \( \{\lambda_1, \lambda_2, \ldots, \lambda_n\} \)，且 \( |\lambda_1| > |\lambda_2| \ge \cdots \ge |\lambda_n| \)。初始向量 \( \mathbf{q}_0 \) 可以表示为特征向量的线性组合：
\[ \mathbf{q}_0 = \sum_{i=1}^n c_i \mathbf{v}_i \]
经过 \( k \) 次迭代后，向量 \( \mathbf{z}_k \) 可以表示为：
\[ \mathbf{z}_k = A^k \mathbf{q}_0 = A^k \sum_{i=1}^n c_i \mathbf{v}_i = \sum_{i=1}^n c_i A^k \mathbf{v}_i = \sum_{i=1}^n c_i \lambda_i^k \mathbf{v}_i = \lambda_1^k \left( c_1 \mathbf{v}_1 + \sum_{i=2}^n c_i \left(\frac{\lambda_i}{\lambda_1}\right)^k \mathbf{v}_i \right) \]
由于 \( |\lambda_1| > |\lambda_i| \) for \( i \ge 2 \)，当 \( k \to \infty \) 时，\( \left(\frac{\lambda_i}{\lambda_1}\right)^k \to 0 \)。因此，\( \mathbf{z}_k \) 的方向逐渐趋近于 \( \mathbf{v}_1 \) 的方向。归一化步骤保证了向量的长度不会趋于无穷大或零。Rayleigh quotient \( \lambda^{(k)} = \mathbf{q}_k^T A \mathbf{q}_k \) 提供了特征值的近似值，并且随着迭代的进行，它将收敛于主特征值 \( \lambda_1 \)。

收敛速度 (Convergence Rate)

幂法的收敛速度取决于主特征值 \( \lambda_1 \) 与第二大特征值 \( \lambda_2 \) 的比值 \( \left| \frac{\lambda_2}{\lambda_1} \right| \)。比值越小，收敛速度越快。具体来说，误差 \( \|\mathbf{q}_k - \mathbf{v}_1\| \) 和 \( |\lambda^{(k)} - \lambda_1| \) 通常以 \( O\left( \left| \frac{\lambda_2}{\lambda_1} \right|^k \right) \) 的速度收敛。如果 \( |\lambda_1| \) 非常接近 \( |\lambda_2| \)，则收敛速度会很慢。

优点与缺点 (Advantages and Disadvantages)

⚝ 优点 (Advantages)：
▮▮▮▮⚝ 算法简单，易于实现。
▮▮▮▮⚝ 每次迭代计算量相对较小，主要为矩阵向量乘法。
▮▮▮▮⚝ 适用于大型稀疏矩阵，因为矩阵向量乘法可以高效实现。

8.1.2 反幂法 (Inverse Power Iteration)

反幂法 (Inverse Power Iteration) 是幂法的一个变体，用于计算矩阵 模最小的特征值，或者更一般地，计算与给定值 \( \mu \) 最接近的特征值。反幂法的基本思想是将幂法应用于矩阵 \( (A - \mu I)^{-1} \)，其中 \( \mu \) 是一个给定的位移值 (shift value)，\( I \) 是单位矩阵。

如果 \( \lambda_i \) 是矩阵 \( A \) 的特征值，对应的特征向量为 \( \mathbf{v}_i \)，则 \( (A - \mu I) \mathbf{v}_i = (\lambda_i - \mu) \mathbf{v}_i \)。如果 \( \lambda_i \neq \mu \)，则 \( (A - \mu I) \) 可逆，且 \( (A - \mu I)^{-1} \mathbf{v}_i = \frac{1}{\lambda_i - \mu} \mathbf{v}_i \)。这意味着，如果 \( \lambda_i \) 是 \( A \) 的特征值，则 \( \frac{1}{\lambda_i - \mu} \) 是 \( (A - \mu I)^{-1} \) 的特征值，且特征向量相同。

为了找到与给定值 \( \mu \) 最接近的特征值，我们希望 \( |\lambda_i - \mu| \) 最小，等价于 \( \left| \frac{1}{\lambda_i - \mu} \right| \) 最大。因此，我们可以对矩阵 \( (A - \mu I)^{-1} \) 应用幂法，求得其主特征值 \( \frac{1}{\lambda^* - \mu} \) 和对应的特征向量 \( \mathbf{v}^* \)。那么，\( \lambda^* \) 就是矩阵 \( A \) 最接近 \( \mu \) 的特征值，\( \mathbf{v}^* \) 是对应的特征向量。

算法 8.1.2 反幂法 (Inverse Power Iteration Algorithm)

给定一个 \( n \times n \) 的实矩阵 \( A \) 和一个位移值 \( \mu \)。选择一个初始向量 \( \mathbf{q}_0 \)，并进行如下迭代：

① for \( k = 1, 2, 3, \ldots \) do:
②      解方程 \( (A - \mu I) \mathbf{z}_k = \mathbf{q}_{k-1} \) (求解线性方程组 solve linear system)
③      \( \mathbf{q}_k = \frac{\mathbf{z}_k}{\|\mathbf{z}_k\|} \) (归一化 normalization)
④      \( \lambda^{(k)} = \mathbf{q}_k^T A \mathbf{q}_k = \mathbf{q}_k^T \mathbf{z}_k + \mu \mathbf{q}_k^T \mathbf{q}_{k-1} \) (Rayleigh quotient approximation of eigenvalue) 或者更简单的 \( \lambda^{(k)} = \mu + \frac{1}{\mathbf{q}_k^T (A-\mu I)^{-1} \mathbf{q}_k} = \mu + \frac{1}{\mathbf{q}_k^T \mathbf{z}_k / \|\mathbf{z}_k\|^2} = \mu + \frac{\|\mathbf{z}_k\|^2}{\mathbf{q}_k^T \mathbf{z}_k} \) 实际上更常用的是 \( \lambda^{(k)} = \mu + \frac{1}{\mathbf{q}_k^T \mathbf{z}_k} \) ，如果 \( \mathbf{q}_k \) 和 \( \mathbf{z}_k \) 已经归一化，则更简化为 \( \lambda^{(k)} = \mu + \frac{1}{\mathbf{q}_k^T \mathbf{z}_k} \) 的变体，但最稳健的仍然是 Rayleigh quotient \( \lambda^{(k)} = \mathbf{q}_k^T A \mathbf{q}_k \)。另一种更直接的计算方式是 \( \lambda^{(k)} = \mu + \frac{\mathbf{q}_{k-1}^T \mathbf{q}_{k-1}}{\mathbf{q}_{k-1}^T \mathbf{z}_k} \)。实际应用中，更常用且稳定的特征值估计是 Rayleigh quotient \( \lambda^{(k)} = \mathbf{q}_k^T A \mathbf{q}_k \)。
⑤ end for

在每次迭代中，最关键的步骤是求解线性方程组 \( (A - \mu I) \mathbf{z}_k = \mathbf{q}_{k-1} \)。由于矩阵 \( (A - \mu I) \) 在迭代过程中保持不变，可以先对其进行 LU 分解 (LU Decomposition) 或 Cholesky 分解 (Cholesky Decomposition) (如果 \( A - \mu I \) 是对称正定的)，然后在每次迭代中进行前后代入求解，从而提高效率。

收敛速度 (Convergence Rate)

反幂法的收敛速度取决于 \( A \) 的特征值分布以及位移值 \( \mu \) 的选择。假设 \( \lambda^* \) 是最接近 \( \mu \) 的特征值，\( \lambda^{**} \) 是次接近 \( \mu \) 的特征值。反幂法的收敛速度由比值 \( \left| \frac{\lambda^* - \mu}{\lambda^{**} - \mu} \right| \) 决定。如果 \( \mu \) 非常接近 \( \lambda^* \) 且远离其他特征值，则 \( \left| \frac{\lambda^* - \mu}{\lambda^{**} - \mu} \right| \) 将非常小，收敛速度将非常快。

位移策略 (Shift Strategy)

位移值 \( \mu \) 的选择对反幂法的收敛速度和所求特征值有重要影响。

⚝ 加速收敛 (Accelerate Convergence)：为了加速收敛到特定的特征值，可以选择 \( \mu \) 接近于目标特征值。例如，如果我们已经通过其他方法（如幂法或迭代过程中的 Rayleigh quotient）获得了一个特征值的近似值 \( \tilde{\lambda} \)，可以将 \( \mu \) 设置为 \( \tilde{\lambda} \) 来加速收敛到该特征值。

⚝ 计算模最小特征值 (Compute Smallest Eigenvalue)：当 \( \mu = 0 \) 时，反幂法实际上是求解 \( A^{-1} \) 的主特征值和特征向量。如果 \( A \) 可逆，则 \( A^{-1} \) 的主特征值是 \( A \) 的模最小特征值的倒数。因此，当 \( \mu = 0 \) 时，反幂法可以用于计算矩阵 \( A \) 的模最小特征值。

优点与缺点 (Advantages and Disadvantages)

⚝ 优点 (Advantages)：
▮▮▮▮⚝ 可以计算与给定值 \( \mu \) 最接近的特征值，具有更高的灵活性。
▮▮▮▮⚝ 当 \( \mu \) 接近于目标特征值时，收敛速度非常快，通常为二次收敛 (quadratic convergence) 或更快。
▮▮▮▮⚝ 同样适用于大型稀疏矩阵，因为求解线性方程组可以使用稀疏矩阵的有效方法。

⚝ 缺点 (Disadvantages)：
▮▮▮▮⚝ 每次迭代需要求解线性方程组，计算成本比幂法略高，但如果使用 LU 分解预处理，则后续迭代成本较低。
▮▮▮▮⚝ 如果 \( \mu \) 非常接近矩阵的某个特征值，则矩阵 \( (A - \mu I) \) 可能接近奇异 (singular)，导致数值不稳定。但实际上，接近奇异性正是反幂法快速收敛的关键，只要线性方程组求解器能够处理这种接近奇异的情况即可。
▮▮▮▮⚝ 需要选择合适的位移值 \( \mu \)。如果 \( \mu \) 选择不当，可能收敛到非期望的特征值，或者收敛速度变慢。

应用场景 (Application Scenarios)

幂法和反幂法在许多工程和科学计算领域中都有应用，特别是在需要计算大型稀疏矩阵的部分特征值和特征向量时。

⚝ 结构动力学 (Structural Dynamics)：在结构振动分析中，需要计算结构的固有频率和振型，这对应于求解特征值和特征向量问题。幂法和反幂法可以用于计算结构的基频（主特征值）和低阶频率（通过反幂法或位移反幂法）。

⚝ PageRank 算法 (PageRank Algorithm)：Google 的 PageRank 算法使用幂法来计算网页链接图的 PageRank 值，PageRank 值实际上是链接矩阵的主特征向量的分量。

⚝ 量子力学 (Quantum Mechanics)：在量子力学计算中，例如 Hartree-Fock 或密度泛函理论 (Density Functional Theory, DFT) 计算，需要求解大型矩阵的特征值问题，以获得电子的能级和波函数。幂法和反幂法及其变体是常用的方法。

⚝ 机器学习 (Machine Learning)：在主成分分析 (PCA) 中，需要计算协方差矩阵的特征值和特征向量，以进行降维和特征提取。幂法可以用于计算主成分对应的特征向量。

总而言之，幂法和反幂法是计算矩阵特征值和特征向量的有效迭代方法，它们各有优缺点，适用于不同的应用场景。幂法简单易用，适用于计算主特征值；反幂法灵活高效，可以计算与给定值最接近的特征值，通过位移策略可以加速收敛并计算特定范围内的特征值。

8.2 QR算法 (QR Algorithm)

QR 算法 (QR Algorithm) 是求解一般矩阵（包括非对称矩阵）全部特征值的最有效和最流行的迭代方法之一。与幂法和反幂法主要用于计算部分特征值不同，QR 算法旨在计算矩阵的所有特征值。QR 算法基于矩阵的 QR 分解 (QR Decomposition)，通过迭代地进行 QR 分解和矩阵乘法，最终将矩阵转化为一个拟上三角矩阵 (quasi-upper triangular matrix) 或上三角矩阵 (upper triangular matrix)，从而可以直接读出特征值。

8.2.1 QR 分解 (QR Decomposition)

在介绍 QR 算法之前，首先回顾 QR 分解。对于任意实矩阵 \( A \in \mathbb{R}^{n \times n} \)，都可以分解为一个正交矩阵 \( Q \) 和一个上三角矩阵 \( R \) 的乘积，即 \( A = QR \)，其中 \( Q^T Q = Q Q^T = I \) 且 \( R \) 是上三角矩阵。QR 分解可以通过 Householder 反射 (Householder reflection) 或 Givens 旋转 (Givens rotation) 等方法计算得到。

8.2.2 基本 QR 算法 (Basic QR Algorithm)

基本 QR 算法的迭代过程如下：

算法 8.2.1 基本 QR 算法 (Basic QR Algorithm)

给定一个 \( n \times n \) 的实矩阵 \( A_0 = A \)。

① for \( k = 1, 2, 3, \ldots \) do:
② 对矩阵 \( A_{k-1} \) 进行 QR 分解：\( A_{k-1} = Q_k R_k \)
③ 构造新的矩阵：\( A_k = R_k Q_k \)
④ end for

迭代产生的矩阵序列 \( \{A_k\} \) 在一定条件下会收敛于一个 拟上三角矩阵。对于实矩阵，拟上三角矩阵是指对角线上为 \( 1 \times 1 \) 或 \( 2 \times 2 \) 块的块上三角矩阵，其中 \( 2 \times 2 \) 块对应于共轭复数特征值对。如果矩阵 \( A \) 的特征值都是实数，则 \( \{A_k\} \) 会收敛于一个上三角矩阵。上三角矩阵的对角线元素就是矩阵的特征值。

收敛性 (Convergence)

在适当的条件下，基本 QR 算法产生的矩阵序列 \( \{A_k\} \) 会收敛。对于大多数矩阵，如果其特征值模互不相同，即 \( |\lambda_1| > |\lambda_2| > \cdots > |\lambda_n| > 0 \)，则 \( A_k \) 会收敛于一个上三角矩阵，其对角线元素按模从大到小排列。如果存在模相等的特征值，则会收敛到拟上三角形式。

收敛速度 (Convergence Rate)

基本 QR 算法的收敛速度相对较慢。其收敛速度与特征值模的比值有关。对于非对称矩阵，收敛速度通常是线性的，类似于幂法的收敛速度。为了加速收敛，实际应用中通常采用 位移 QR 算法 (Shifted QR Algorithm)。

8.2.3 位移 QR 算法 (Shifted QR Algorithm)

位移 QR 算法 (Shifted QR Algorithm) 通过在每次迭代中引入位移值 \( \mu_k \)，可以显著加速 QR 算法的收敛速度。位移 QR 算法的迭代过程如下：

算法 8.2.2 位移 QR 算法 (Shifted QR Algorithm)

给定一个 \( n \times n \) 的实矩阵 \( A_0 = A \)。

① for \( k = 1, 2, 3, \ldots \) do:
②      选择一个位移值 \( \mu_k \) (shift value)
③      对矩阵 \( A_{k-1} - \mu_k I \) 进行 QR 分解：\( A_{k-1} - \mu_k I = Q_k R_k \)
④      构造新的矩阵：\( A_k = R_k Q_k + \mu_k I \)
⑤ end for

位移值的选择策略对算法的收敛速度至关重要。常用的位移策略包括：

⚝ 原点位移 (Origin Shift)：选择 \( \mu_k = A_{k-1}(n, n) \)，即矩阵 \( A_{k-1} \) 的右下角元素。这种位移策略通常可以加速收敛，特别是当 \( A_{k-1}(n, n) \) 接近于一个特征值时。

⚝ Wilkinson 位移 (Wilkinson Shift)：对于实对称三对角矩阵，Wilkinson 位移是一种非常有效的策略。它基于矩阵右下角的 \( 2 \times 2 \) 子矩阵的特征值。具体来说，设右下角 \( 2 \times 2 \) 子矩阵为
\[ \begin{pmatrix} a & b \\ b & c \end{pmatrix} \]
计算其特征值，选择更接近 \( A_{k-1}(n, n) \) 的特征值作为位移 \( \mu_k \)。Wilkinson 位移通常可以实现三次收敛 (cubic convergence)。

⚝ Rayleigh Quotient 位移 (Rayleigh Quotient Shift)：选择 \( \mu_k = \mathbf{e}_n^T A_{k-1} \mathbf{e}_n = A_{k-1}(n, n) \)，与原点位移相同，但可以从 Rayleigh quotient 的角度理解。更一般的 Rayleigh quotient 位移可以结合反幂法使用，以加速收敛到特定特征值。

隐式位移 QR 算法 (Implicit Shift QR Algorithm)

为了避免显式地计算 \( A_{k-1} - \mu_k I \) 和 \( A_k = R_k Q_k + \mu_k I \)，实际应用中通常使用 隐式位移 QR 算法 (Implicit Shift QR Algorithm)。隐式位移 QR 算法在计算上更有效且数值更稳定。其基本思想是通过构造一个正交矩阵 \( Q_k \) 使得 \( Q_k^T A_{k-1} Q_k \) 的第一个列向量具有特定的形式（例如，与 \( (A_{k-1} - \mu_k I) \) 的第一个列向量方向相同），然后利用相似变换保持特征值不变性。

QR 算法的步骤总结 (Summary of QR Algorithm Steps)

化为 Hessenberg 矩阵 (Reduce to Hessenberg Form)：对于一般矩阵，首先通过正交相似变换将其化为 Hessenberg 矩阵。Hessenberg 矩阵是指上三角部分多一条次对角线的矩阵，即 \( a_{ij} = 0 \) for \( i > j + 1 \)。将一般矩阵化为 Hessenberg 矩阵可以显著降低 QR 分解和矩阵乘法的计算量。对于对称矩阵，Hessenberg 矩阵就是三对角矩阵。
迭代 QR 分解 (Iterative QR Decomposition)：对 Hessenberg 矩阵进行位移 QR 迭代。在每次迭代中，选择合适的位移值，进行 QR 分解和矩阵乘法。
收敛判断 (Convergence Check)：检查矩阵是否收敛。收敛准则通常是检查矩阵下对角线元素是否足够小。例如，当 \( |A_k(i+1, i)| < \epsilon \) (其中 \( \epsilon \) 是一个小的容差) 时，可以认为矩阵已经收敛，对角线元素 \( A_k(i, i) \) 近似为特征值。
提取特征值 (Extract Eigenvalues)：当矩阵收敛到拟上三角或上三角形式时，直接从对角线（和 \( 2 \times 2 \) 块）读取特征值。

优点与缺点 (Advantages and Disadvantages)

⚝ 优点 (Advantages)：
▮▮▮▮⚝ 可以计算矩阵的所有特征值，包括实特征值和复特征值。
▮▮▮▮⚝ 对于大多数矩阵，算法稳定可靠，收敛速度较快（特别是使用位移策略后）。
▮▮▮▮⚝ 广泛应用于各种科学计算软件和库中，如 LAPACK, MATLAB, Python 的 NumPy/SciPy 等。

⚝ 缺点 (Disadvantages)：
▮▮▮▮⚝ 计算量相对较大，特别是对于大型稠密矩阵。每次迭代的 QR 分解和矩阵乘法都需要一定的计算成本。
▮▮▮▮⚝ 对于病态矩阵 (ill-conditioned matrix)，可能存在数值精度问题。
▮▮▮▮⚝ 对于非常大的稀疏矩阵，QR 算法可能不如迭代方法（如幂法和反幂法）高效，因为 QR 分解可能会破坏稀疏性。

应用场景 (Application Scenarios)

QR 算法是求解矩阵特征值问题的通用方法，广泛应用于各个领域。

⚝ 控制理论 (Control Theory)：在系统稳定性分析、模态分析等问题中，需要计算系统矩阵的特征值。

⚝ 振动分析 (Vibration Analysis)：在机械振动、结构动力学等领域，需要计算系统的固有频率和振型，这对应于求解特征值和特征向量问题。

⚝ 量子化学 (Quantum Chemistry)：在分子轨道计算、电子结构理论等领域，需要求解 Hartree-Fock 方程或 Kohn-Sham 方程等，这些方程最终都转化为求解矩阵特征值问题。

⚝ 数据分析 (Data Analysis)：在主成分分析 (PCA)、奇异值分解 (Singular Value Decomposition, SVD) 等数据降维和特征提取方法中，特征值分解是核心步骤。

8.3 雅可比方法 (Jacobi Method)

雅可比方法 (Jacobi Method) 是一种经典的迭代方法，专门用于求解 实对称矩阵 (real symmetric matrix) 的全部特征值和特征向量。雅可比方法基于 平面旋转 (plane rotation) 或 雅可比旋转 (Jacobi rotation)，通过一系列的相似变换，逐步将实对称矩阵对角化。最终，非对角元素趋于零，对角元素收敛于特征值，而旋转矩阵的乘积构成特征向量矩阵。

8.3.1 雅可比旋转 (Jacobi Rotation)

雅可比旋转 (Jacobi Rotation) 是一个 \( n \times n \) 的正交矩阵 \( J(p, q, \theta) \)，它只在一个 \( 2 \times 2 \) 子矩阵上与单位矩阵不同，该子矩阵位于第 \( p \) 行和第 \( q \) 行、第 \( p \) 列和第 \( q \) 列的交叉位置。具体形式如下：

\[ J(p, q, \theta) = \begin{pmatrix} 1 & & & & & & \\ & \ddots & & & & & \\ & & \cos\theta & & -\sin\theta & & \\ & & & \ddots & & & \\ & & \sin\theta & & \cos\theta & & \\ & & & & & \ddots & \\ & & & & & & 1 \end{pmatrix} \]
其中，\( \cos\theta \) 和 \( \sin\theta \) 位于 \( (p, p), (p, q), (q, p), (q, q) \) 位置，其余非对角元素为 0，对角元素为 1。雅可比旋转矩阵是一个正交矩阵，即 \( J^T J = J J^T = I \)。

8.3.2 经典雅可比方法 (Classical Jacobi Method)

经典雅可比方法的目标是通过一系列雅可比旋转，将实对称矩阵 \( A \) 转化为对角矩阵。迭代过程如下：

算法 8.3.1 经典雅可比方法 (Classical Jacobi Method)

给定一个 \( n \times n \) 的实对称矩阵 \( A_0 = A \)。初始化特征向量矩阵 \( V_0 = I \) (单位矩阵)。

① for \( k = 1, 2, 3, \ldots \) do:
②      选取非对角元素 \( a_{pq}^{(k-1)} \) 中 模最大 的元素 (off-diagonal entry with largest absolute value)。
③      计算旋转角度 \( \theta \) 使得在旋转后的矩阵 \( A_k = J(p, q, \theta)^T A_{k-1} J(p, q, \theta) \) 中，\( (p, q) \) 位置和 \( (q, p) \) 位置的元素变为零。
④      更新特征向量矩阵 \( V_k = V_{k-1} J(p, q, \theta) \)。
⑤      检查非对角元素的平方和 \( \text{off}(A_k) = \sum_{i \neq j} (a_{ij}^{(k)})^2 \) 是否小于给定的容差 \( \epsilon \)。如果满足，则停止迭代。
⑥ end for

旋转角度 \( \theta \) 的计算 (Calculation of Rotation Angle \( \theta \))

为了使旋转后的矩阵 \( A_k = J(p, q, \theta)^T A_{k-1} J(p, q, \theta) \) 的 \( (p, q) \) 和 \( (q, p) \) 元素为零，需要选择合适的旋转角度 \( \theta \)。设 \( A_{k-1} \) 的元素为 \( a_{ij} \)，旋转后的矩阵 \( A_k \) 的元素为 \( a'_{ij} \)。我们只关心 \( p \) 行和 \( q \) 行、\( p \) 列和 \( q \) 列的元素变化。经过计算，可以得到：

\[ a'_{pp} = a_{pp} \cos^2\theta + 2a_{pq} \sin\theta \cos\theta + a_{qq} \sin^2\theta \]
\[ a'_{qq} = a_{pp} \sin^2\theta - 2a_{pq} \sin\theta \cos\theta + a_{qq} \cos^2\theta \]
\[ a'_{pq} = a'_{qp} = (a_{qq} - a_{pp}) \sin\theta \cos\theta + a_{pq} (\cos^2\theta - \sin^2\theta) \]

为了使 \( a'_{pq} = 0 \)，我们需要解方程 \( (a_{qq} - a_{pp}) \sin\theta \cos\theta + a_{pq} (\cos^2\theta - \sin^2\theta) = 0 \)。
令 \( \phi = \cot(2\theta) = \frac{\cos^2\theta - \sin^2\theta}{2\sin\theta \cos\theta} = \frac{\cos(2\theta)}{\sin(2\theta)} \)。则方程变为 \( (a_{qq} - a_{pp}) \frac{1}{2} \sin(2\theta) + a_{pq} \cos(2\theta) = 0 \)，即 \( \cot(2\theta) = \frac{a_{pp} - a_{qq}}{2a_{pq}} \)。

令 \( \tau = \cot\theta \)，则 \( \cot(2\theta) = \frac{\cot^2\theta - 1}{2\cot\theta} = \frac{\tau^2 - 1}{2\tau} \)。设 \( \phi = \frac{a_{pp} - a_{qq}}{2a_{pq}} \)。我们需要解方程 \( \frac{\tau^2 - 1}{2\tau} = \phi \)，即 \( \tau^2 - 2\phi\tau - 1 = 0 \)。解得 \( \tau = \phi \pm \sqrt{\phi^2 + 1} \)。为了数值稳定性，通常选择绝对值较小的根，即
\[ \tau = \begin{cases} \phi + \sqrt{\phi^2 + 1}, & \text{if } \phi \ge 0 \\ \phi - \sqrt{\phi^2 + 1}, & \text{if } \phi < 0 \end{cases} \]
然后计算 \( \cos\theta = \frac{1}{\sqrt{1 + \tau^2}} \) 和 \( \sin\theta = \tau \cos\theta \)。

收敛性 (Convergence)

经典雅可比方法保证收敛于对角矩阵。在每次迭代中，选取模最大的非对角元素进行消去，可以有效地减小非对角元素的平方和 \( \text{off}(A_k) \)。可以证明，非对角元素的平方和以二次收敛速度趋于零。

循环雅可比方法 (Cyclic Jacobi Method)

经典雅可比方法需要每次扫描所有非对角元素以找到模最大的元素，这增加了计算开销。循环雅可比方法 (Cyclic Jacobi Method) 按照一定的顺序（例如，行优先或列优先）循环选取非对角元素进行消去，而不需要每次都寻找模最大的元素。循环雅可比方法在实际应用中更常用，并且通常也具有较好的收敛速度。

阈值雅可比方法 (Threshold Jacobi Method)

阈值雅可比方法 (Threshold Jacobi Method) 是介于经典雅可比方法和循环雅可比方法之间的一种折衷方案。它设置一个阈值 \( \epsilon_k \)，在每次扫描中，只对模大于阈值 \( \epsilon_k \) 的非对角元素进行消去。随着迭代的进行，阈值 \( \epsilon_k \) 逐渐减小。阈值雅可比方法可以在保证收敛速度的同时，减少不必要的旋转操作，提高计算效率。

优点与缺点 (Advantages and Disadvantages)

⚝ 优点 (Advantages)：
▮▮▮▮⚝ 算法简单，易于实现。
▮▮▮▮⚝ 对于实对称矩阵，保证收敛到对角矩阵，从而得到全部特征值和特征向量。
▮▮▮▮⚝ 数值稳定性好，每步变换都是正交变换，不会放大舍入误差。
▮▮▮▮⚝ 可以并行计算，因为每次旋转只影响矩阵的两行和两列。

⚝ 缺点 (Disadvantages)：
▮▮▮▮⚝ 收敛速度相对较慢，通常为线性收敛或二次收敛，不如 QR 算法快。
▮▮▮▮⚝ 只适用于实对称矩阵。对于非对称矩阵，需要使用 QR 算法。
▮▮▮▮⚝ 对于大型稠密矩阵，计算量较大。

应用场景 (Application Scenarios)

雅可比方法主要用于求解实对称矩阵的特征值和特征向量问题。

⚝ 分子振动分析 (Molecular Vibration Analysis)：在分子力学和分子动力学模拟中，需要计算分子振动模式和频率，这对应于求解实对称矩阵的特征值问题。

⚝ 量子化学 (Quantum Chemistry)：在某些量子化学计算方法中，例如组态相互作用 (Configuration Interaction, CI) 方法，需要求解大型稀疏实对称矩阵的特征值问题。

⚝ 有限元分析 (Finite Element Analysis)：在结构力学、热传导等有限元分析中，有时会遇到求解实对称矩阵特征值问题，例如模态分析、屈曲分析等。

⚝ 低维问题 (Low-Dimensional Problems)：对于中小规模的实对称矩阵，雅可比方法是一个可靠且易于实现的选择。

总而言之，雅可比方法是一种经典且重要的求解实对称矩阵特征值和特征向量的方法。虽然其收敛速度不如 QR 算法，但由于其算法简单、数值稳定且易于并行化，在某些特定领域和问题中仍然具有重要的应用价值。对于一般矩阵的特征值问题，QR 算法是更通用的选择。

9. chapter 9：最优化方法 (Optimization Methods)

9.1 无约束最优化 (Unconstrained Optimization)

在科学研究和工程实践中，我们经常需要寻找一个函数在没有约束条件下的最小值或最大值，这类问题被称为无约束最优化问题 (Unconstrained Optimization Problems)。无约束最优化方法旨在寻找函数 \( f(x) \) 的局部最优解或全局最优解，其中 \( x \in \mathbb{R}^n \) 是自变量，\( f: \mathbb{R}^n \rightarrow \mathbb{R} \) 是目标函数。本节将介绍几种常用的无约束最优化方法。

9.1.1 最速下降法 (Steepest Descent Method)

最速下降法 (Steepest Descent Method)，又称梯度下降法 (Gradient Descent Method)，是一种迭代优化算法，其基本思想是沿着目标函数 \( f(x) \) 梯度 \( \nabla f(x) \) 的反方向搜索函数的局部最小值。由于负梯度方向是函数值下降最快的方向，因此该方法被称为“最速下降法”。

算法步骤：

① 给定初始点 \( x_0 \)，允许误差 \( \epsilon > 0 \)，令 \( k = 0 \)。

② 计算梯度 \( g_k = \nabla f(x_k) \)。

③ 若 \( \|g_k\| < \epsilon \)，则停止迭代，输出近似解 \( x_k \)。

④ 确定搜索方向 \( d_k = -g_k \)。

⑤ 选择合适的步长 \( \alpha_k > 0 \)，例如通过精确线搜索或非精确线搜索方法，使得目标函数值充分下降。常用的精确线搜索方法包括黄金分割法、二次插值法等。非精确线搜索方法如Armijo准则、Wolfe准则等。

⑥ 更新迭代点 \( x_{k+1} = x_k + \alpha_k d_k \)。

⑦ 令 \( k = k + 1 \)，返回步骤 ②。

步长 \( \alpha_k \) 的选择：

⚝ 精确线搜索 (Exact Line Search)：精确线搜索旨在找到步长 \( \alpha_k \) 使得目标函数 \( f(x_k + \alpha_k d_k) \) 沿方向 \( d_k \) 达到最小，即求解以下一维优化问题：
\[ \alpha_k = \arg\min_{\alpha > 0} f(x_k + \alpha d_k) \]
精确线搜索能够保证每次迭代都沿着最优步长方向下降，但计算成本较高。

⚝ 非精确线搜索 (Inexact Line Search)：非精确线搜索旨在找到满足一定条件的步长 \( \alpha_k \)，使得目标函数值有足够的下降，同时计算成本较低。常用的非精确线搜索准则包括：

▮▮▮▮⚝ Armijo准则 (Armijo Condition)：要求步长 \( \alpha_k \) 满足
\[ f(x_k + \alpha_k d_k) \leq f(x_k) + c_1 \alpha_k \nabla f(x_k)^T d_k \]
其中 \( c_1 \in (0, 1) \) 是一个预先设定的常数，通常取 \( c_1 = 10^{-4} \)。Armijo准则保证了函数值有足够的下降量。

▮▮▮▮⚝ Wolfe准则 (Wolfe Condition)：除了Armijo准则外，Wolfe准则还增加了一个曲率条件，要求步长 \( \alpha_k \) 满足
\[ \nabla f(x_k + \alpha_k d_k)^T d_k \geq c_2 \nabla f(x_k)^T d_k \]
其中 \( c_2 \in (c_1, 1) \) 是一个预先设定的常数，通常取 \( c_2 = 0.9 \)。Wolfe准则保证了步长不会过小，避免迭代过慢。

优点：

⚝ 算法简单，易于实现。
⚝ 每次迭代计算量小，主要计算梯度 \( \nabla f(x_k) \)。
⚝ 对于强凸函数，最速下降法具有线性收敛速度。

缺点：

⚝ 收敛速度慢，尤其是在接近最优解时，可能会出现“锯齿现象”，导致迭代次数增加。
⚝ 对步长的选择敏感，步长选择不当可能导致算法不收敛或收敛速度过慢。
⚝ 不具备二次终止性，即对于二次函数，最速下降法不能在有限步内达到最优解（除非是特殊情况）。

案例分析：

考虑 Rosenbrock 函数：\( f(x, y) = (1-x)^2 + 100(y-x^2)^2 \)。使用最速下降法求解该函数的最小值。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            import numpy as np
                        
                            import matplotlib.pyplot as plt
                        
                            def rosenbrock(x):
                        
                                return (1 - x[0])**2 + 100 * (x[1] - x[0]**2)**2
                        
                            def gradient_rosenbrock(x):
                        
                                df_dx = -2 * (1 - x[0]) - 400 * x[0] * (x[1] - x[0]**2)
                        
                                df_dy = 200 * (x[1] - x[0]**2)
                        
                                return np.array([df_dx, df_dy])
                        
                            def steepest_descent(x0, learning_rate=0.001, epsilon=1e-6, max_iter=10000):
                        
                                x = x0.copy()
                        
                                path = [x.copy()]
                        
                                for i in range(max_iter):
                        
                                    grad = gradient_rosenbrock(x)
                        
                                    if np.linalg.norm(grad) < epsilon:
                        
                                        break
                        
                                    x = x - learning_rate * grad
                        
                                    path.append(x.copy())
                        
                                return x, path
                        
                            x0 = np.array([-1.2, 1.0])
                        
                            optimal_x, path = steepest_descent(x0)
                        
                            print(f"Optimal solution: x = {optimal_x}, f(x) = {rosenbrock(optimal_x)}")
                        
                            # 可视化迭代路径 (Visualization of Iteration Path)
                        
                            x_range = np.linspace(-2, 2, 400)
                        
                            y_range = np.linspace(-1, 3, 400)
                        
                            X, Y = np.meshgrid(x_range, y_range)
                        
                            Z = rosenbrock(np.array([X, Y]))
                        
                            plt.figure(figsize=(8, 6))
                        
                            contour = plt.contour(X, Y, Z, levels=np.logspace(-1, 3, 10), colors='black')
                        
                            plt.clabel(contour, inline=True, fontsize=8)
                        
                            path_array = np.array(path)
                        
                            plt.plot(path_array[:, 0], path_array[:, 1], marker='o', linestyle='-', color='red', markersize=2)
                        
                            plt.plot(1, 1, marker='*', markersize=10, color='green', label='Optimal Point') # 标记最优解 (Mark Optimal Solution)
                        
                            plt.title('Steepest Descent Method for Rosenbrock Function')
                        
                            plt.xlabel('x')
                        
                            plt.ylabel('y')
                        
                            plt.legend()
                        
                            plt.grid(True)
                        
                            plt.show()

9.1.2 牛顿法 (Newton's Method)

牛顿法 (Newton's Method) 是一种更高效的无约束最优化方法，它利用目标函数 \( f(x) \) 的二阶导数信息（Hessian矩阵）来加速收敛。牛顿法的基本思想是在当前迭代点 \( x_k \) 处，将目标函数 \( f(x) \) 用二阶泰勒展开近似，并求解该二次近似函数的最小值点作为下一个迭代点 \( x_{k+1} \)。

二阶泰勒展开：

在 \( x_k \) 附近，将 \( f(x) \) 二阶泰勒展开：
\[ f(x) \approx f(x_k) + \nabla f(x_k)^T (x - x_k) + \frac{1}{2} (x - x_k)^T \nabla^2 f(x_k) (x - x_k) \]
其中 \( \nabla^2 f(x_k) \) 是 Hessian 矩阵。为了找到近似函数的最小值点，我们对上式关于 \( x \) 求导并令导数为零：
\[ \nabla f(x_k) + \nabla^2 f(x_k) (x - x_k) = 0 \]
解得牛顿方向：
\[ d_k = - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k) \]
因此，牛顿法的迭代公式为：
\[ x_{k+1} = x_k + d_k = x_k - [\nabla^2 f(x_k)]^{-1} \nabla f(x_k) \]

算法步骤：

① 给定初始点 \( x_0 \)，允许误差 \( \epsilon > 0 \)，令 \( k = 0 \)。

② 计算梯度 \( g_k = \nabla f(x_k) \) 和 Hessian 矩阵 \( H_k = \nabla^2 f(x_k) \)。

③ 若 \( \|g_k\| < \epsilon \)，则停止迭代，输出近似解 \( x_k \)。

④ 求解线性方程组 \( H_k d_k = -g_k \)，得到牛顿方向 \( d_k \)。

⑤ 更新迭代点 \( x_{k+1} = x_k + d_k \)。

⑥ 令 \( k = k + 1 \)，返回步骤 ②。

优点：

⚝ 收敛速度快，在最优解附近具有二次收敛速度。
⚝ 理论上，牛顿法比最速下降法更高效。
⚝ 对于二次函数，牛顿法一步即可达到最优解，具有二次终止性。

缺点：

⚝ 计算量大，每次迭代需要计算 Hessian 矩阵 \( \nabla^2 f(x_k) \) 及其逆矩阵 \( [\nabla^2 f(x_k)]^{-1} \)，计算成本高，尤其当问题规模较大时。
⚝ 局部收敛性，牛顿法只有在初始点 \( x_0 \) 足够接近最优解时才能保证收敛。
⚝ 当 Hessian 矩阵 \( \nabla^2 f(x_k) \) 非正定时，牛顿方向可能不是下降方向，算法可能不收敛。
⚝ 可能需要进行修正，例如阻尼牛顿法 (Damped Newton's Method) 或拟牛顿法 (Quasi-Newton Methods) 来克服 Hessian 矩阵非正定和计算量大的问题。

阻尼牛顿法 (Damped Newton's Method)：

为了保证牛顿法的全局收敛性，通常引入线搜索技术，得到阻尼牛顿法。迭代公式变为：
\[ x_{k+1} = x_k + \alpha_k d_k = x_k - \alpha_k [\nabla^2 f(x_k)]^{-1} \nabla f(x_k) \]
其中步长 \( \alpha_k \) 通过线搜索确定，例如 Armijo 准则或 Wolfe 准则，以保证每次迭代函数值都下降。

案例分析：

继续考虑 Rosenbrock 函数：\( f(x, y) = (1-x)^2 + 100(y-x^2)^2 \)。使用牛顿法求解该函数的最小值。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            import numpy as np
                        
                            import matplotlib.pyplot as plt
                        
                            def rosenbrock(x):
                        
                                return (1 - x[0])**2 + 100 * (x[1] - x[0]**2)**2
                        
                            def gradient_rosenbrock(x):
                        
                                df_dx = -2 * (1 - x[0]) - 400 * x[0] * (x[1] - x[0]**2)
                        
                                df_dy = 200 * (x[1] - x[0]**2)**2
                        
                                return np.array([df_dx, df_dy])
                        
                            def hessian_rosenbrock(x):
                        
                                H = np.array([
                        
                                    [1200 * x[0]**2 - 400 * x[1] + 2, -400 * x[0]],
                        
                                    [-400 * x[0], 200]
                        
                                ])
                        
                                return H
                        
                            def newton_method(x0, epsilon=1e-6, max_iter=100):
                        
                                x = x0.copy()
                        
                                path = [x.copy()]
                        
                                for i in range(max_iter):
                        
                                    grad = gradient_rosenbrock(x)
                        
                                    H = hessian_rosenbrock(x)
                        
                                    if np.linalg.norm(grad) < epsilon:
                        
                                        break
                        
                                    d = -np.linalg.solve(H, grad) # 求解线性方程组 Hd = -g (Solve linear system Hd = -g)
                        
                                    x = x + d
                        
                                    path.append(x.copy())
                        
                                return x, path
                        
                            x0 = np.array([-1.2, 1.0])
                        
                            optimal_x, path = newton_method(x0)
                        
                            print(f"Optimal solution: x = {optimal_x}, f(x) = {rosenbrock(optimal_x)}")
                        
                            # 可视化迭代路径 (Visualization of Iteration Path)
                        
                            x_range = np.linspace(-2, 2, 400)
                        
                            y_range = np.linspace(-1, 3, 400)
                        
                            X, Y = np.meshgrid(x_range, y_range)
                        
                            Z = rosenbrock(np.array([X, Y]))
                        
                            plt.figure(figsize=(8, 6))
                        
                            contour = plt.contour(X, Y, Z, levels=np.logspace(-1, 3, 10), colors='black')
                        
                            plt.clabel(contour, inline=True, fontsize=8)
                        
                            path_array = np.array(path)
                        
                            plt.plot(path_array[:, 0], path_array[:, 1], marker='o', linestyle='-', color='red', markersize=2)
                        
                            plt.plot(1, 1, marker='*', markersize=10, color='green', label='Optimal Point') # 标记最优解 (Mark Optimal Solution)
                        
                            plt.title('Newton\'s Method for Rosenbrock Function')
                        
                            plt.xlabel('x')
                        
                            plt.ylabel('y')
                        
                            plt.legend()
                        
                            plt.grid(True)
                        
                            plt.show()

9.1.3 共轭梯度法 (Conjugate Gradient Method)

共轭梯度法 (Conjugate Gradient Method, CG) 是一种介于最速下降法和牛顿法之间的优化方法。它避免了牛顿法计算和存储 Hessian 矩阵及其逆矩阵的困难，同时又比最速下降法收敛更快。共轭梯度法特别适用于求解大型稀疏线性方程组和无约束优化问题。

共轭方向 (Conjugate Directions)：

对于对称正定矩阵 \( A \)，如果两个非零向量 \( d_i \) 和 \( d_j \) 满足 \( d_i^T A d_j = 0 \) (当 \( i \neq j \) 时)，则称向量 \( d_i \) 和 \( d_j \) 关于矩阵 \( A \) 共轭。共轭方向具有以下性质：

⚝ 若 \( d_0, d_1, \dots, d_{n-1} \) 是一组关于对称正定矩阵 \( A \) 的共轭方向，则这组方向线性无关。
⚝ 利用共轭方向进行搜索，对于二次函数 \( f(x) = \frac{1}{2} x^T A x - b^T x + c \)，共轭梯度法最多迭代 \( n \) 步即可找到最优解，具有二次终止性。

算法步骤 (线性共轭梯度法，用于求解线性方程组 \( Ax = b \)，其中 \( A \) 是对称正定矩阵)：

① 给定初始点 \( x_0 \)，计算初始残差 \( r_0 = b - A x_0 \)，初始搜索方向 \( d_0 = r_0 \)，令 \( k = 0 \)。

② 若 \( \|r_k\| < \epsilon \)，则停止迭代，输出近似解 \( x_k \)。

③ 计算步长 \( \alpha_k = \frac{r_k^T r_k}{d_k^T A d_k} \)。

④ 更新迭代点 \( x_{k+1} = x_k + \alpha_k d_k \)。

⑤ 计算新的残差 \( r_{k+1} = r_k - \alpha_k A d_k \)。

⑥ 计算共轭参数 \( \beta_k = \frac{r_{k+1}^T r_{k+1}}{r_k^T r_k} \)。

⑦ 更新搜索方向 \( d_{k+1} = r_{k+1} + \beta_k d_k \)。

⑧ 令 \( k = k + 1 \)，返回步骤 ②。

非线性共轭梯度法 (用于求解非线性无约束优化问题)：

对于非线性优化问题，目标函数不再是二次函数，需要对线性共轭梯度法进行推广。常用的非线性共轭梯度法包括 Fletcher-Reeves (FR) 方法、Polak-Ribière-Polyak (PRP) 方法、Hestenes-Stiefel (HS) 方法等，它们的主要区别在于共轭参数 \( \beta_k \) 的计算方式不同。

Fletcher-Reeves (FR) 方法：
\[ \beta_k^{FR} = \frac{\|g_{k+1}\|^2}{\|g_k\|^2} = \frac{g_{k+1}^T g_{k+1}}{g_k^T g_k} \]

Polak-Ribière-Polyak (PRP) 方法：
\[ \beta_k^{PRP} = \frac{g_{k+1}^T (g_{k+1} - g_k)}{g_k^T g_k} \]

Hestenes-Stiefel (HS) 方法：
\[ \beta_k^{HS} = \frac{g_{k+1}^T (g_{k+1} - g_k)}{d_k^T (g_{k+1} - g_k)} \]

算法步骤 (非线性共轭梯度法，以 FR 方法为例)：

① 给定初始点 \( x_0 \)，允许误差 \( \epsilon > 0 \)，计算初始梯度 \( g_0 = \nabla f(x_0) \)，初始搜索方向 \( d_0 = -g_0 \)，令 \( k = 0 \)。

② 若 \( \|g_k\| < \epsilon \)，则停止迭代，输出近似解 \( x_k \)。

③ 通过线搜索确定步长 \( \alpha_k \)，例如精确线搜索或非精确线搜索。

④ 更新迭代点 \( x_{k+1} = x_k + \alpha_k d_k \)。

⑤ 计算新的梯度 \( g_{k+1} = \nabla f(x_{k+1}) \)。

⑥ 计算共轭参数 \( \beta_k^{FR} = \frac{g_{k+1}^T g_{k+1}}{g_k^T g_k} \)。

⑦ 更新搜索方向 \( d_{k+1} = -g_{k+1} + \beta_k^{FR} d_k \)。

⑧ 令 \( k = k + 1 \)，返回步骤 ②。

优点：

⚝ 收敛速度介于最速下降法和牛顿法之间，通常比最速下降法快，但不如牛顿法快。
⚝ 不需要计算 Hessian 矩阵，计算量比牛顿法小，每次迭代主要计算梯度 \( \nabla f(x_k) \)。
⚝ 存储量小，适用于求解大型优化问题。
⚝ 对于二次函数，线性共轭梯度法具有二次终止性。

缺点：

⚝ 非线性共轭梯度法的收敛性分析较为复杂，全局收敛性需要满足一定条件。
⚝ 对线搜索的精度要求较高，不精确的线搜索可能导致算法性能下降甚至不收敛。
⚝ 在迭代过程中，共轭性可能逐渐丧失，需要周期性地重启算法（例如每 \( n \) 步重启一次，将搜索方向重置为负梯度方向）。

案例分析：

继续考虑 Rosenbrock 函数：\( f(x, y) = (1-x)^2 + 100(y-x^2)^2 \)。使用非线性共轭梯度法（FR 方法）求解该函数的最小值。

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            import numpy as np
                        
                            import matplotlib.pyplot as plt
                        
                            def rosenbrock(x):
                        
                                return (1 - x[0])**2 + 100 * (x[1] - x[0]**2)**2
                        
                            def gradient_rosenbrock(x):
                        
                                df_dx = -2 * (1 - x[0]) - 400 * x[0] * (x[1] - x[0]**2)
                        
                                df_dy = 200 * (x[1] - x[0]**2)
                        
                                return np.array([df_dx, df_dy])
                        
                            def conjugate_gradient_fr(x0, epsilon=1e-6, max_iter=10000):
                        
                                x = x0.copy()
                        
                                g_k = gradient_rosenbrock(x)
                        
                                d_k = -g_k
                        
                                path = [x.copy()]
                        
                                for i in range(max_iter):
                        
                                    if np.linalg.norm(g_k) < epsilon:
                        
                                        break
                        
                                    # 简单步长选择 (Simple step size selection) - 可以替换为线搜索 (can be replaced with line search)
                        
                                    alpha_k = 0.01
                        
                                    x_next = x + alpha_k * d_k
                        
                                    g_next = gradient_rosenbrock(x_next)
                        
                                    beta_k = np.dot(g_next, g_next) / np.dot(g_k, g_k)
                        
                                    d_next = -g_next + beta_k * d_k
                        
                                    x = x_next
                        
                                    g_k = g_next
                        
                                    d_k = d_next
                        
                                    path.append(x.copy())
                        
                                return x, path
                        
                            x0 = np.array([-1.2, 1.0])
                        
                            optimal_x, path = conjugate_gradient_fr(x0)
                        
                            print(f"Optimal solution: x = {optimal_x}, f(x) = {rosenbrock(optimal_x)}")
                        
                            # 可视化迭代路径 (Visualization of Iteration Path)
                        
                            x_range = np.linspace(-2, 2, 400)
                        
                            y_range = np.linspace(-1, 3, 400)
                        
                            X, Y = np.meshgrid(x_range, y_range)
                        
                            Z = rosenbrock(np.array([X, Y]))
                        
                            plt.figure(figsize=(8, 6))
                        
                            contour = plt.contour(X, Y, Z, levels=np.logspace(-1, 3, 10), colors='black')
                        
                            plt.clabel(contour, inline=True, fontsize=8)
                        
                            path_array = np.array(path)
                        
                            plt.plot(path_array[:, 0], path_array[:, 1], marker='o', linestyle='-', color='red', markersize=2)
                        
                            plt.plot(1, 1, marker='*', markersize=10, color='green', label='Optimal Point') # 标记最优解 (Mark Optimal Solution)
                        
                            plt.title('Conjugate Gradient (FR) Method for Rosenbrock Function')
                        
                            plt.xlabel('x')
                        
                            plt.ylabel('y')
                        
                            plt.legend()
                        
                            plt.grid(True)
                        
                            plt.show()

9.2 约束最优化 (Constrained Optimization)

约束最优化问题 (Constrained Optimization Problems) 是指在优化目标函数的同时，自变量需要满足一定的约束条件。约束条件可以是等式约束或不等式约束，约束最优化问题在工程设计、经济管理等领域有着广泛的应用。本节将介绍拉格朗日乘子法和罚函数法这两种常用的约束最优化方法。

9.2.1 拉格朗日乘子法 (Lagrange Multiplier Method)

拉格朗日乘子法 (Lagrange Multiplier Method) 是一种求解等式约束优化问题的经典方法。其基本思想是通过引入拉格朗日乘子，将约束优化问题转化为无约束优化问题，从而利用无约束优化的方法进行求解。

等式约束优化问题：

考虑如下等式约束优化问题：
\[ \begin{aligned} \min_{x} & \quad f(x) \\ \text{s.t.} & \quad h_i(x) = 0, \quad i = 1, 2, \dots, m \end{aligned} \]
其中 \( x \in \mathbb{R}^n \)，\( f: \mathbb{R}^n \rightarrow \mathbb{R} \) 是目标函数，\( h_i: \mathbb{R}^n \rightarrow \mathbb{R} \) 是等式约束函数。

拉格朗日函数 (Lagrange Function)：

构造拉格朗日函数 \( L(x, \lambda) \):
\[ L(x, \lambda) = f(x) + \sum_{i=1}^{m} \lambda_i h_i(x) \]
其中 \( \lambda = (\lambda_1, \lambda_2, \dots, \lambda_m)^T \) 是拉格朗日乘子向量。

最优性条件 (必要条件)：

若 \( x^* \) 是局部最优解，则存在拉格朗日乘子 \( \lambda^* \) 使得 \( (x^*, \lambda^*) \) 满足以下 KKT (Karush-Kuhn-Tucker) 条件（对于等式约束问题，KKT 条件简化为拉格朗日条件）：

① 梯度为零条件 (Stationarity)：
\[ \nabla_x L(x^*, \lambda^*) = \nabla f(x^*) + \sum_{i=1}^{m} \lambda_i^* \nabla h_i(x^*) = 0 \]

② 约束条件 (Primal Feasibility)：
\[ h_i(x^*) = 0, \quad i = 1, 2, \dots, m \]

求解上述方程组，可以得到候选最优解 \( (x^*, \lambda^*) \)。

算法步骤：

① 构造拉格朗日函数 \( L(x, \lambda) = f(x) + \sum_{i=1}^{m} \lambda_i h_i(x) \)。

② 求解方程组：
\[ \begin{cases} \nabla_x L(x, \lambda) = \nabla f(x) + \sum_{i=1}^{m} \lambda_i \nabla h_i(x) = 0 \\ h_i(x) = 0, \quad i = 1, 2, \dots, m \end{cases} \]
得到候选最优解 \( (x^*, \lambda^*) \)。

③ 验证候选解是否为局部最优解或全局最优解，可以通过二阶条件或结合问题特性进行判断。

案例分析：

求解约束优化问题：
\[ \begin{aligned} \min_{x, y} & \quad f(x, y) = x^2 + y^2 \\ \text{s.t.} & \quad h(x, y) = x + y - 1 = 0 \end{aligned} \]

解：

① 构造拉格朗日函数：\( L(x, y, \lambda) = x^2 + y^2 + \lambda (x + y - 1) \)。

② 求解方程组：
\[ \begin{cases} \frac{\partial L}{\partial x} = 2x + \lambda = 0 \\ \frac{\partial L}{\partial y} = 2y + \lambda = 0 \\ \frac{\partial L}{\partial \lambda} = x + y - 1 = 0 \end{cases} \]
由前两个方程得到 \( 2x = 2y = -\lambda \)，即 \( x = y \)。代入第三个方程 \( x + y - 1 = 0 \)，得到 \( 2x - 1 = 0 \)，解得 \( x = y = \frac{1}{2} \)，\( \lambda = -1 \)。

③ 候选最优解为 \( (x^*, y^*) = (\frac{1}{2}, \frac{1}{2}) \)，最优值为 \( f(\frac{1}{2}, \frac{1}{2}) = (\frac{1}{2})^2 + (\frac{1}{2})^2 = \frac{1}{2} \)。

优点：

⚝ 理论基础完善，能够将约束优化问题转化为无约束优化问题。
⚝ 对于等式约束问题，拉格朗日乘子法是一种有效的方法。

缺点：

⚝ 求解方程组可能比较困难，尤其当约束条件和目标函数比较复杂时。
⚝ 拉格朗日乘子法主要用于等式约束问题，对于不等式约束问题需要进行推广（KKT 条件）。
⚝ 只能找到候选最优解，需要进一步验证最优性。

9.2.2 罚函数法 (Penalty Function Method)

罚函数法 (Penalty Function Method) 是一种求解约束优化问题的近似方法。其基本思想是将约束条件融入到目标函数中，构造一个增广目标函数（罚函数），通过求解一系列无约束优化问题来逼近约束优化问题的解。

不等式约束优化问题：

考虑如下不等式约束优化问题：
\[ \begin{aligned} \min_{x} & \quad f(x) \\ \text{s.t.} & \quad g_i(x) \leq 0, \quad i = 1, 2, \dots, p \\ & \quad h_j(x) = 0, \quad j = 1, 2, \dots, m \end{aligned} \]
其中 \( x \in \mathbb{R}^n \)，\( f: \mathbb{R}^n \rightarrow \mathbb{R} \) 是目标函数，\( g_i: \mathbb{R}^n \rightarrow \mathbb{R} \) 是不等式约束函数，\( h_j: \mathbb{R}^n \rightarrow \mathbb{R} \) 是等式约束函数。

外点罚函数法 (Exterior Penalty Function Method)：

外点罚函数法通过对违反约束条件的点施加惩罚，将约束优化问题转化为无约束优化问题。常用的外点罚函数形式为：

⚝ 二次罚函数 (Quadratic Penalty Function)：
\[ Q(x, \sigma) = f(x) + \frac{\sigma}{2} \left( \sum_{i=1}^{p} [\max\{0, g_i(x)\}]^2 + \sum_{j=1}^{m} [h_j(x)]^2 \right) \]
其中 \( \sigma > 0 \) 是罚因子，\( \sigma \rightarrow \infty \) 时，惩罚项的作用越来越大，迫使迭代点趋于可行域。

算法步骤 (外点罚函数法)：

① 给定初始罚因子 \( \sigma_1 > 0 \)，放大系数 \( c > 1 \) (例如 \( c = 10 \))，允许误差 \( \epsilon > 0 \)，令 \( k = 1 \)。

② 求解无约束优化问题：
\[ \min_{x} Q(x, \sigma_k) = f(x) + \frac{\sigma_k}{2} \left( \sum_{i=1}^{p} [\max\{0, g_i(x)\}]^2 + \sum_{j=1}^{m} [h_j(x)]^2 \right) \]
得到近似解 \( x_k^* \)。

③ 检查是否满足收敛准则，例如：
▮▮▮▮⚝ 约束违反程度小于容许误差：\( \max_{i} \{g_i(x_k^*), 0\} \leq \epsilon \) 且 \( \|h_j(x_k^*)\| \leq \epsilon \) 对所有 \( i, j \) 成立。
▮▮▮▮⚝ 相邻两次迭代解的变化小于容许误差：\( \|x_k^* - x_{k-1}^*\| \leq \epsilon \)。

④ 若满足收敛准则，则停止迭代，输出近似解 \( x_k^* \)。否则，令 \( \sigma_{k+1} = c \sigma_k \)，\( k = k + 1 \)，返回步骤 ②。

案例分析：

求解约束优化问题：
\[ \begin{aligned} \min_{x, y} & \quad f(x, y) = x^2 + y^2 \\ \text{s.t.} & \quad g(x, y) = x + y - 1 \leq 0 \end{aligned} \]

解：

构造二次罚函数：\( Q(x, y, \sigma) = x^2 + y^2 + \frac{\sigma}{2} [\max\{0, x + y - 1\}]^2 \)。

通过求解一系列无约束优化问题 \( \min_{x, y} Q(x, y, \sigma_k) \)，随着 \( \sigma_k \rightarrow \infty \)，近似解 \( (x_k^*, y_k^*) \) 将逼近约束优化问题的解。

优点：

⚝ 概念简单，易于理解和实现。
⚝ 可以将约束优化问题转化为无约束优化问题，利用无约束优化方法求解。
⚝ 适用范围广，可以处理等式约束和不等式约束。

缺点：

⚝ 罚因子 \( \sigma_k \) 的选择对算法性能影响较大，\( \sigma_k \) 过小，惩罚不足，难以满足约束条件；\( \sigma_k \) 过大，可能导致 Hessian 矩阵病态，求解无约束优化问题困难。
⚝ 近似解 \( x_k^* \) 通常不是可行解，只有当 \( \sigma_k \rightarrow \infty \) 时，才逼近可行域。
⚝ 可能产生ill-conditioning (病态) 问题，影响收敛速度和精度。

内点罚函数法 (Interior Penalty Function Method) / 障碍函数法 (Barrier Function Method)：

内点罚函数法主要用于处理不等式约束问题，要求初始点必须是严格可行点（即满足 \( g_i(x) < 0 \)）。障碍函数在可行域边界处趋于无穷大，阻止迭代点离开可行域。常用的障碍函数形式包括倒数障碍函数和对数障碍函数。

⚝ 倒数障碍函数 (Inverse Barrier Function)：
\[ B(x, \mu) = f(x) - \mu \sum_{i=1}^{p} \frac{1}{g_i(x)} \]
⚝ 对数障碍函数 (Logarithmic Barrier Function)：
\[ B(x, \mu) = f(x) - \mu \sum_{i=1}^{p} \ln(-g_i(x)) \]
其中 \( \mu > 0 \) 是障碍因子，\( \mu \rightarrow 0^+ \) 时，障碍项的作用逐渐减小，迭代点逼近最优解。

内点罚函数法适用于不等式约束问题，且要求可行域内部非空。与外点罚函数法相比，内点罚函数法产生的近似解始终是可行解。

总结：

最优化方法是数值分析的重要组成部分，无约束最优化方法如最速下降法、牛顿法和共轭梯度法各有优缺点，适用于不同类型的问题。约束最优化方法如拉格朗日乘子法和罚函数法为求解约束优化问题提供了有效途径。在实际应用中，需要根据问题的特点选择合适的优化方法，并结合数值计算工具进行求解。

参考文献 (References)：

⚝ [1] Richard L. Burden, J. Douglas Faires, Annette M. Burden. Numerical Analysis. Cengage Learning, 2015.
⚝ [2] Kendall Atkinson, Weimin Han. Theoretical Numerical Analysis: A Functional Analysis Framework. Springer Science & Business Media, 2009.
⚝ [3] Endre Süli, David Mayers. An Introduction to Numerical Analysis. Cambridge University Press, 2003.
⚝ [4] Jorge Nocedal, Stephen J. Wright. Numerical Optimization. Springer Science & Business Media, 2006.
⚝ [5] Dimitri P. Bertsekas. Nonlinear Programming. Athena Scientific, 1999.

10. chapter 10：数值分析的应用案例 (Application Cases of Numerical Analysis)

10.1 科学计算中的应用 (Applications in Scientific Computing)

数值分析在科学计算 (Scientific Computing) 领域中扮演着至关重要的角色。现代科学研究高度依赖于计算机模拟和数值计算，以解决那些传统解析方法难以处理的复杂问题。以下列举数值分析在几个关键科学领域中的应用案例，旨在展示其广泛的应用价值和强大的问题解决能力。

10.1.1 流体力学 (Fluid Mechanics)

流体力学是研究流体（液体和气体）运动规律的学科，广泛应用于航空航天、气象预测、海洋工程等领域。描述流体运动的基本方程是纳维-斯托克斯方程 (Navier-Stokes Equations)，这是一组非线性偏微分方程，在绝大多数情况下无法得到解析解。因此，数值分析方法成为研究流体力学的核心工具。

① 计算流体力学 (Computational Fluid Dynamics, CFD)：CFD 利用数值方法求解流体力学方程，模拟流体的流动行为。常见的数值方法包括：
▮▮▮▮ⓑ 有限体积法 (Finite Volume Method, FVM)：FVM 是一种保守型的离散方法，广泛应用于 CFD 领域。它将计算区域划分为一系列控制体积 (Control Volume)，并在每个控制体积上积分流体力学方程，得到离散方程组。FVM 能够保证物理量的守恒性，特别适合于求解具有激波等不连续解的流动问题。
▮▮▮▮ⓒ 有限差分法 (Finite Difference Method, FDM)：FDM 通过差分近似导数来离散微分方程。在 CFD 中，FDM 可以用于求解各种类型的流动问题，例如不可压缩流动、可压缩流动、多相流动等。FDM 的优点是概念简单、易于实现，但对于复杂几何形状的适应性较差。
▮▮▮▮ⓓ 有限元法 (Finite Element Method, FEM)：FEM 是一种基于变分原理的数值方法，在结构力学和流体力学中都有广泛应用。FEM 将计算区域划分为有限个单元 (Element)，并在每个单元上构造近似解。FEM 具有处理复杂几何形状和边界条件的优势，但其计算量通常比 FVM 和 FDM 更大。

② 湍流模拟 (Turbulence Simulation)：湍流是流体运动的一种复杂状态，具有高度的随机性和不稳定性。湍流模拟是 CFD 中的一个重要分支，旨在预测和分析湍流的统计特性。常见的湍流模拟方法包括：
▮▮▮▮ⓑ 直接数值模拟 (Direct Numerical Simulation, DNS)：DNS 直接求解纳维-斯托克斯方程，不引入任何湍流模型。DNS 能够提供最精确的湍流模拟结果，但其计算量非常庞大，只能用于雷诺数 (Reynolds Number) 较低的简单流动问题。
▮▮▮▮ⓒ 大涡模拟 (Large Eddy Simulation, LES)：LES 模拟湍流中的大尺度涡旋，而对小尺度涡旋进行建模。LES 的计算量比 DNS 小得多，但仍然需要较高的计算资源。LES 在工程领域中得到了越来越广泛的应用。
▮▮▮▮ⓓ 雷诺平均纳维-斯托克斯方程 (Reynolds-Averaged Navier-Stokes Equations, RANS)：RANS 方法对纳维-斯托克斯方程进行时间平均，得到平均流动方程和湍流模型。RANS 方法的计算量最小，但其精度受到湍流模型的影响。RANS 方法在工程实践中应用最为广泛。

③ 应用案例：
⚝ 飞机空气动力学设计：通过 CFD 模拟飞机周围的空气流动，可以评估飞机的气动性能，优化飞机外形设计，提高飞行效率和安全性。
⚝ 天气预报：数值天气预报模型利用数值方法求解大气动力学方程，预测未来的天气状况。天气预报的准确性直接关系到人们的生产生活和社会经济发展。
⚝ 海洋环流模拟：通过数值模拟海洋环流，可以研究海洋的动力学过程，预测海洋环境变化，为海洋资源开发和环境保护提供科学依据。

10.1.2 天体物理学 (Astrophysics)

天体物理学是研究宇宙天体的物理性质、结构和演化的学科。天体物理学研究涉及极端条件下的物理过程，例如高温、高压、强引力等，许多问题无法通过实验研究，数值模拟成为重要的研究手段。

① 恒星演化模拟 (Stellar Evolution Simulation)：恒星演化模拟研究恒星从诞生到死亡的整个生命周期。恒星内部的物理过程非常复杂，包括核反应、辐射输运、对流等。数值模拟可以帮助天体物理学家理解恒星的结构和演化规律，例如恒星的寿命、光度变化、元素合成等。

② 星系形成与演化模拟 (Galaxy Formation and Evolution Simulation)：星系是宇宙的基本结构单元，星系形成与演化模拟研究星系的起源、形成和演化过程。星系形成涉及到引力、气体动力学、恒星形成、超新星反馈等多种物理过程的相互作用。数值模拟可以帮助天体物理学家理解星系的形成机制、星系的形态分类、星系与环境的相互作用等。

③ 宇宙学模拟 (Cosmological Simulation)：宇宙学模拟研究宇宙的大尺度结构形成和演化。宇宙学模拟通常采用 N 体模拟 (N-body Simulation) 方法，模拟大量粒子在引力作用下的运动。宇宙学模拟可以帮助天体物理学家理解宇宙的起源、宇宙的膨胀、暗物质和暗能量的性质、宇宙大尺度结构的形成等。

④ 应用案例：
⚝ 超新星爆发模拟：超新星爆发是恒星演化的最后阶段，也是宇宙中重元素的主要来源。数值模拟可以帮助天体物理学家理解超新星爆发的物理机制、能量释放、元素合成等。
⚝ 黑洞吸积盘模拟：黑洞吸积盘是黑洞周围由气体和尘埃组成的盘状结构，是宇宙中最明亮的天体之一。数值模拟可以帮助天体物理学家理解吸积盘的物理过程、辐射机制、喷流形成等。
⚝ 引力波探测：引力波是时空弯曲的涟漪，由加速运动的质量产生。数值模拟可以帮助天体物理学家预测引力波的波形，为引力波探测提供理论支持。

10.1.3 材料科学与工程 (Materials Science and Engineering)

材料科学与工程是研究材料的组成、结构、性质、制备和应用的学科。数值分析在材料科学与工程中被广泛应用于材料的性能预测、材料设计和工艺优化等方面。

① 材料计算 (Computational Materials Science)：材料计算利用数值方法模拟材料的微观结构和宏观性质。常见的材料计算方法包括：
▮▮▮▮ⓑ 第一性原理计算 (First-Principles Calculation)：第一性原理计算基于量子力学原理，从头计算材料的电子结构、晶体结构、力学性质、热学性质等。密度泛函理论 (Density Functional Theory, DFT) 是最常用的第一性原理计算方法。
▮▮▮▮ⓒ 分子动力学模拟 (Molecular Dynamics Simulation, MD)：MD 模拟原子和分子的运动轨迹，研究材料的微观结构和动力学性质。MD 可以用于研究材料的相变、扩散、输运等过程。
▮▮▮▮ⓓ 有限元分析 (Finite Element Analysis, FEA)：FEA 在材料科学与工程中主要用于结构力学分析，例如应力应变分析、断裂力学分析、疲劳分析等。FEA 可以帮助工程师评估材料的力学性能，优化结构设计。

② 材料设计 (Materials Design)：材料设计利用数值模拟和优化算法，根据特定的性能需求设计新型材料。材料设计的目标是找到具有特定性能的材料组成和微观结构。数值分析方法可以加速材料设计过程，降低实验成本。

③ 工艺优化 (Process Optimization)：工艺优化利用数值模拟优化材料的制备和加工工艺。例如，在金属铸造过程中，数值模拟可以用于优化铸造工艺参数，减少铸造缺陷，提高铸件质量。在塑料成型过程中，数值模拟可以用于优化模具设计和成型工艺参数，提高产品质量和生产效率。

④ 应用案例：
⚝ 新型合金设计：通过第一性原理计算和 MD 模拟，可以预测合金的相结构、力学性能、热学性能等，加速新型合金的研发。
⚝ 电池材料设计：数值模拟可以用于研究电池材料的电化学性能、离子输运性能、结构稳定性等，优化电池材料的组成和结构，提高电池的能量密度和循环寿命。
⚝ 复合材料性能预测：FEA 可以用于预测复合材料的力学性能，例如强度、刚度、断裂韧性等，优化复合材料的组分和结构设计。

10.1.4 生物医学工程 (Biomedical Engineering)

生物医学工程是工程学与生物学、医学相结合的交叉学科，旨在利用工程技术解决生物医学问题，提高人类健康水平。数值分析在生物医学工程中被广泛应用于生物力学分析、生物流体力学分析、医学图像处理、药物设计等方面。

① 生物力学分析 (Biomechanics Analysis)：生物力学分析利用力学原理研究生物系统的力学行为。数值分析方法，特别是 FEA，被广泛应用于骨骼、肌肉、血管等生物组织的力学分析。生物力学分析可以帮助医生诊断疾病、设计医疗器械、评估治疗方案。

② 生物流体力学分析 (Biofluid Mechanics Analysis)：生物流体力学分析研究生物流体（例如血液、呼吸气体、淋巴液等）的流动规律。CFD 方法被广泛应用于心血管系统、呼吸系统、泌尿系统等生物流体系统的模拟。生物流体力学分析可以帮助医生理解生理过程、诊断疾病、设计医疗器械。

③ 医学图像处理 (Medical Image Processing)：医学图像处理利用计算机技术处理医学影像数据，例如 CT、MRI、超声等。数值分析方法在医学图像重建、图像分割、图像配准、图像分析等方面都有重要应用。医学图像处理可以帮助医生进行疾病诊断、治疗计划制定、疗效评估。

④ 药物设计 (Drug Design)：药物设计利用计算机辅助药物设计 (Computer-Aided Drug Design, CADD) 技术，加速新药研发过程。数值分析方法在药物分子建模、分子对接、分子动力学模拟、药代动力学预测等方面都有应用。CADD 可以降低药物研发成本，缩短研发周期。

⑤ 应用案例：
⚝ 人工关节设计：FEA 可以用于分析人工关节的应力分布、磨损特性、疲劳寿命等，优化人工关节的设计，提高人工关节的生物相容性和使用寿命。
⚝ 心血管疾病诊断：CFD 可以用于模拟血液在血管中的流动，分析血管狭窄、动脉瘤等病变的血流动力学特征，辅助心血管疾病的诊断。
⚝ 肿瘤治疗计划：数值模拟可以用于预测肿瘤的生长和扩散，优化放射治疗、化疗等治疗方案，提高肿瘤治疗效果。
⚝ 新药研发：CADD 技术可以用于筛选候选药物分子，预测药物的活性、毒性、药代动力学性质，加速新药研发过程。

通过以上案例可以看出，数值分析已经成为科学计算不可或缺的工具。随着计算机技术的不断发展和数值方法的不断进步，数值分析将在科学研究中发挥越来越重要的作用，推动科学发现和技术创新。

10.2 工程技术中的应用 (Applications in Engineering Technology)

数值分析在工程技术 (Engineering Technology) 领域同样具有广泛的应用，几乎所有的工程学科都离不开数值计算的支持。从结构设计、流体分析到控制系统、信号处理，数值分析都提供了强大的问题解决能力。以下列举数值分析在几个典型工程领域中的应用案例。

10.2.1 结构工程 (Structural Engineering)

结构工程是研究工程结构的设计、建造和维护的学科。结构工程师需要确保建筑物、桥梁、隧道、大坝等工程结构在各种荷载作用下安全可靠。数值分析方法，特别是有限元分析 (FEA)，是结构工程分析的核心工具。

① 结构静力分析 (Static Structural Analysis)：结构静力分析研究结构在静力荷载作用下的响应，例如位移、应力、应变等。FEA 可以用于分析各种复杂结构的静力性能，例如框架结构、壳体结构、实体结构等。结构静力分析是结构设计的基础，可以帮助工程师评估结构的强度、刚度和稳定性。

② 结构动力分析 (Dynamic Structural Analysis)：结构动力分析研究结构在动力荷载作用下的响应，例如地震、风荷载、冲击荷载等。FEA 可以用于分析结构的动力特性，例如固有频率、振型、阻尼比等。结构动力分析可以帮助工程师评估结构的抗震性能、抗风性能、抗冲击性能。

③ 结构优化设计 (Structural Optimization Design)：结构优化设计利用优化算法，在满足强度、刚度、稳定性等约束条件下，寻找结构的最优设计方案。数值分析方法，特别是 FEA，是结构优化设计的基础。结构优化设计可以帮助工程师降低结构重量、节省材料、提高结构性能。

④ 应用案例：
⚝ 桥梁设计：FEA 可以用于分析桥梁在车辆荷载、风荷载、地震荷载等作用下的应力分布、变形情况，评估桥梁的安全性，优化桥梁结构设计。
⚝ 高层建筑设计：FEA 可以用于分析高层建筑在风荷载、地震荷载等作用下的动力响应，评估建筑的抗震性能、抗风性能，优化建筑结构设计。
⚝ 汽车车身设计：FEA 可以用于分析汽车车身在碰撞、振动等工况下的力学性能，评估车身的安全性、舒适性，优化车身结构设计。
⚝ 航空航天结构设计：FEA 可以用于分析飞机、火箭、卫星等航空航天结构在飞行、发射等工况下的力学性能，评估结构的强度、刚度、稳定性，优化结构设计。

10.2.2 机械工程 (Mechanical Engineering)

机械工程是研究机械设备的设计、制造、运行和维护的学科。数值分析在机械工程中被广泛应用于机械设计、运动分析、热力分析、流体分析等方面。

① 机械设计与分析 (Mechanical Design and Analysis)：数值分析方法，例如 FEA 和 CFD，被广泛应用于机械零部件和系统的设计与分析。FEA 可以用于分析机械零部件的强度、刚度、疲劳寿命等，CFD 可以用于分析机械设备的流场、热场等。数值分析可以帮助工程师优化机械设计，提高产品性能和可靠性。

② 运动学与动力学分析 (Kinematics and Dynamics Analysis)：运动学分析研究机械系统的运动规律，动力学分析研究机械系统的受力与运动关系。数值方法可以用于求解复杂的运动学和动力学方程，模拟机械系统的运动行为。运动学与动力学分析可以帮助工程师设计和控制机械系统。

③ 热力学分析与传热分析 (Thermodynamic Analysis and Heat Transfer Analysis)：热力学分析研究热能与机械能、电能等其他形式能量的转换规律，传热分析研究热量传递的规律。数值方法，例如有限差分法和有限元法，可以用于求解热力学和传热学方程，模拟热力系统和传热过程。热力学分析与传热分析可以帮助工程师设计高效节能的热力设备和系统。

④ 流体机械分析 (Fluid Machinery Analysis)：流体机械是利用流体能量转换或传递能量的机械，例如泵、风机、压缩机、水轮机、汽轮机等。CFD 方法被广泛应用于流体机械的性能分析和优化设计。CFD 可以用于模拟流体在流体机械内部的流动，分析流体机械的效率、流量、压头等性能参数，优化流体机械的结构设计。

⑤ 应用案例：
⚝ 发动机设计：CFD 可以用于模拟发动机内部的燃烧过程、进气过程、排气过程，优化发动机的燃烧效率、排放性能，提高发动机的动力性和经济性。
⚝ 汽车悬架设计：运动学与动力学分析可以用于分析汽车悬架的运动特性、动力特性，优化悬架的结构参数，提高汽车的操控性和舒适性。
⚝ 空调系统设计：传热分析可以用于模拟空调系统的传热过程，优化空调系统的换热器设计、风道设计，提高空调系统的制冷效率和节能性能。
⚝ 水泵设计：CFD 可以用于模拟水泵内部的水流，分析水泵的效率、扬程、流量等性能参数，优化水泵的叶轮设计、蜗壳设计，提高水泵的运行效率。

10.2.3 电气工程 (Electrical Engineering)

电气工程是研究电能的产生、传输、分配、控制和应用的学科。数值分析在电气工程中被广泛应用于电磁场分析、电路分析、电力系统分析、控制系统设计等方面。

① 电磁场分析 (Electromagnetic Field Analysis)：电磁场分析研究电磁场的分布和变化规律。数值方法，例如有限元法和边界元法 (Boundary Element Method, BEM)，可以用于求解麦克斯韦方程组 (Maxwell's Equations)，模拟电磁场的分布。电磁场分析在电机设计、变压器设计、电磁兼容性分析等方面都有重要应用。

② 电路分析 (Circuit Analysis)：电路分析研究电路的电压、电流、功率等参数的计算和分析。数值方法，例如节点电压法 (Nodal Analysis) 和网孔电流法 (Mesh Analysis)，可以用于求解复杂的电路方程组，分析电路的稳态和暂态特性。电路分析是电子电路设计和电力系统分析的基础。

③ 电力系统分析 (Power System Analysis)：电力系统分析研究电力系统的运行特性、稳定性、控制策略等。数值方法被广泛应用于电力系统的潮流计算 (Power Flow Calculation)、短路计算 (Short-Circuit Calculation)、暂态稳定分析 (Transient Stability Analysis) 等。电力系统分析是电力系统规划、运行和控制的基础。

④ 控制系统设计 (Control System Design)：控制系统设计利用控制理论和数值方法，设计能够实现特定控制目标的控制系统。数值方法在控制系统的建模、仿真、分析和优化设计等方面都有应用。控制系统设计广泛应用于工业自动化、航空航天、机器人等领域。

⑤ 应用案例：
⚝ 电机设计：电磁场分析可以用于模拟电机内部的磁场分布、电磁力、损耗等，优化电机的结构设计，提高电机的效率和性能。
⚝ 变压器设计：电磁场分析可以用于模拟变压器内部的磁场分布、漏磁场、损耗等，优化变压器的结构设计，提高变压器的效率和可靠性。
⚝ 电力系统潮流计算：潮流计算是电力系统分析的基础，用于计算电力系统在稳态运行条件下的电压、电流、功率分布，为电力系统运行和规划提供依据。
⚝ 飞行器控制系统设计：控制系统设计可以用于设计飞行器的姿态控制系统、轨迹控制系统，保证飞行器的稳定飞行和精确控制。

10.2.4 化学工程 (Chemical Engineering)

化学工程是研究化学工业和相关工业生产过程的学科。数值分析在化学工程中被广泛应用于化工过程模拟、反应器设计、分离过程模拟、流体输送模拟等方面。

① 化工过程模拟 (Chemical Process Simulation)：化工过程模拟利用数值方法模拟化工生产过程的物料平衡、能量平衡、相平衡、化学反应动力学等。化工过程模拟可以用于化工过程的设计、优化、控制和安全分析。化工过程模拟软件，例如 Aspen Plus 和 CHEMCAD，已经成为化学工程师的常用工具。

② 反应器设计 (Reactor Design)：反应器是进行化学反应的关键设备。数值方法可以用于模拟反应器内部的流场、温度场、浓度场，分析反应器的反应性能、传热性能、混合性能等。反应器设计的目标是提高反应器的效率、选择性和安全性。

③ 分离过程模拟 (Separation Process Simulation)：分离过程是化工生产过程中的重要环节，例如蒸馏、吸收、萃取、吸附等。数值方法可以用于模拟分离过程的物料传递、能量传递、相平衡等，优化分离过程的设计和操作条件。分离过程模拟可以提高分离效率、降低能耗。

④ 流体输送模拟 (Fluid Transport Simulation)：流体输送是化工生产过程中的基本操作，例如管道输送、泵输送、压缩机输送等。CFD 方法可以用于模拟流体在管道、泵、压缩机等设备中的流动，分析流体输送系统的压力损失、能量消耗、稳定性等。流体输送模拟可以优化流体输送系统的设计和运行。

⑤ 应用案例：
⚝ 炼油厂工艺优化：化工过程模拟可以用于模拟炼油厂的各种生产过程，例如原油蒸馏、催化裂化、加氢精制等，优化工艺参数，提高炼油厂的生产效率和经济效益。
⚝ 新型催化剂设计：数值模拟可以用于研究催化剂的微观结构、表面性质、反应机理等，加速新型催化剂的研发，提高化学反应的效率和选择性。
⚝ 污水处理工艺优化：化工过程模拟可以用于模拟污水处理厂的各种处理工艺，例如生物处理、化学处理、物理处理等，优化工艺参数，提高污水处理效率和出水水质。
⚝ 化工设备安全分析：数值模拟可以用于分析化工设备的应力分布、温度分布、流场分布等，评估设备的安全性能，预防安全事故的发生。

通过以上案例可以看出，数值分析在工程技术领域发挥着至关重要的作用。随着工程技术的不断发展和数值方法的不断进步，数值分析将在工程设计、分析、优化和控制等方面发挥越来越重要的作用，推动工程技术的进步和创新。

10.3 数据分析与机器学习中的应用 (Applications in Data Analysis and Machine Learning)

数值分析不仅在传统的科学计算和工程技术领域发挥重要作用，而且在近年来兴起的数据分析 (Data Analysis) 与机器学习 (Machine Learning) 领域也扮演着越来越关键的角色。机器学习算法的实现和优化，以及数据分析方法的改进，都离不开数值分析的理论和方法。

10.3.1 最优化算法 (Optimization Algorithms)

最优化算法是机器学习和数据分析的核心算法之一。许多机器学习模型的训练过程，例如线性回归 (Linear Regression)、逻辑回归 (Logistic Regression)、支持向量机 (Support Vector Machine, SVM)、神经网络 (Neural Network) 等，都可以转化为求解最优化问题。数值分析提供了各种最优化算法，例如梯度下降法 (Gradient Descent Method)、牛顿法 (Newton's Method)、共轭梯度法 (Conjugate Gradient Method)、拟牛顿法 (Quasi-Newton Method) 等。

① 梯度下降法及其变种 (Gradient Descent and its Variants)：梯度下降法是最常用的最优化算法之一，其基本思想是沿着目标函数梯度 (Gradient) 的反方向迭代搜索最优解。梯度下降法的变种包括：
▮▮▮▮ⓑ 批量梯度下降法 (Batch Gradient Descent, BGD)：BGD 在每次迭代中使用所有样本的梯度信息更新模型参数。BGD 的优点是收敛稳定，但计算量大，不适合处理大规模数据集。
▮▮▮▮ⓒ 随机梯度下降法 (Stochastic Gradient Descent, SGD)：SGD 在每次迭代中随机选择一个样本的梯度信息更新模型参数。SGD 的优点是计算量小，收敛速度快，适合处理大规模数据集，但收敛过程不稳定。
▮▮▮▮ⓓ 小批量梯度下降法 (Mini-Batch Gradient Descent, MBGD)：MBGD 结合了 BGD 和 SGD 的优点，在每次迭代中使用一小批样本的梯度信息更新模型参数。MBGD 是实际应用中最常用的梯度下降法变种。

② 牛顿法与拟牛顿法 (Newton's Method and Quasi-Newton Methods)：牛顿法是一种二阶最优化算法，利用目标函数的二阶导数信息（海森矩阵 (Hessian Matrix)）加速收敛。牛顿法的收敛速度快，但计算海森矩阵和求解线性方程组的计算量大。拟牛顿法通过近似海森矩阵，降低计算量，同时保持较快的收敛速度。常见的拟牛顿法包括：
▮▮▮▮ⓑ DFP 算法 (Davidon-Fletcher-Powell Algorithm)
▮▮▮▮ⓒ BFGS 算法 (Broyden-Fletcher-Goldfarb-Shanno Algorithm)
▮▮▮▮ⓓ L-BFGS 算法 (Limited-memory BFGS Algorithm)

③ 共轭梯度法 (Conjugate Gradient Method)：共轭梯度法是一种介于梯度下降法和牛顿法之间的最优化算法，适用于求解大规模线性方程组和非线性最优化问题。共轭梯度法具有收敛速度快、存储量小的优点，在机器学习和数据分析中得到广泛应用。

④ 应用案例：
⚝ 线性回归模型训练：梯度下降法可以用于训练线性回归模型，求解模型参数，使得模型在训练数据集上的均方误差 (Mean Squared Error, MSE) 最小化。
⚝ 逻辑回归模型训练：梯度下降法或拟牛顿法可以用于训练逻辑回归模型，求解模型参数，使得模型在训练数据集上的交叉熵损失函数 (Cross-Entropy Loss Function) 最小化。
⚝ 神经网络模型训练：反向传播算法 (Backpropagation Algorithm) 结合梯度下降法及其变种，可以用于训练深度神经网络模型，求解模型参数，使得模型在训练数据集上的损失函数最小化。
⚝ 支持向量机模型训练：序列最小最优化算法 (Sequential Minimal Optimization, SMO) 等最优化算法可以用于训练支持向量机模型，求解模型参数，使得模型在训练数据集上的间隔最大化。

10.3.2 数值线性代数 (Numerical Linear Algebra)

数值线性代数是数值分析的重要分支，研究线性代数问题的数值解法。在数据分析和机器学习中，许多算法都涉及到线性代数运算，例如矩阵乘法、矩阵分解、特征值分解、奇异值分解 (Singular Value Decomposition, SVD) 等。高效的数值线性代数算法是保证机器学习算法性能的关键。

① 矩阵分解 (Matrix Decomposition)：矩阵分解是将一个矩阵分解为若干个矩阵乘积的过程。常见的矩阵分解方法包括：
▮▮▮▮ⓑ LU 分解 (LU Decomposition)：LU 分解将一个矩阵分解为一个下三角矩阵 (Lower Triangular Matrix) 和一个上三角矩阵 (Upper Triangular Matrix) 的乘积。LU 分解可以用于求解线性方程组、计算矩阵行列式、求逆矩阵等。
▮▮▮▮ⓒ QR 分解 (QR Decomposition)：QR 分解将一个矩阵分解为一个正交矩阵 (Orthogonal Matrix) 和一个上三角矩阵的乘积。QR 分解可以用于求解线性最小二乘问题、计算矩阵特征值等。
▮▮▮▮ⓓ 奇异值分解 (Singular Value Decomposition, SVD)：SVD 将一个矩阵分解为三个矩阵的乘积：一个正交矩阵、一个对角矩阵和一个正交矩阵的转置。SVD 在数据降维、图像压缩、推荐系统等领域有广泛应用。
▮▮▮▮ⓔ 特征值分解 (Eigenvalue Decomposition)：特征值分解将一个方阵分解为两个矩阵的乘积：一个特征向量矩阵和一个对角矩阵，对角矩阵的元素为特征值。特征值分解可以用于分析矩阵的特征性质、求解微分方程、进行主成分分析 (Principal Component Analysis, PCA) 等。

② 线性方程组求解 (Linear System Solving)：求解线性方程组是数值线性代数的基本问题。常见的线性方程组求解方法包括：
▮▮▮▮ⓑ 高斯消元法 (Gaussian Elimination)：高斯消元法是一种直接法，通过初等行变换将系数矩阵化为上三角矩阵，然后回代求解。高斯消元法适用于求解中小规模的稠密矩阵线性方程组。
▮▮▮▮ⓒ 迭代法 (Iterative Methods)：迭代法通过迭代逼近线性方程组的解。常见的迭代法包括雅可比迭代法 (Jacobi Iteration Method)、高斯-赛德尔迭代法 (Gauss-Seidel Iteration Method)、超松弛迭代法 (SOR)。迭代法适用于求解大规模的稀疏矩阵线性方程组。

③ 特征值与特征向量计算 (Eigenvalue and Eigenvector Computation)：计算矩阵的特征值和特征向量是数值线性代数的重要问题。常见的特征值和特征向量计算方法包括：
▮▮▮▮ⓑ 幂法 (Power Iteration)：幂法用于计算矩阵的主特征值（模最大的特征值）和对应的特征向量。
▮▮▮▮ⓒ 反幂法 (Inverse Power Iteration)：反幂法用于计算矩阵的最小特征值（模最小的特征值）和对应的特征向量。
▮▮▮▮ⓓ QR 算法 (QR Algorithm)：QR 算法是一种迭代法，可以计算矩阵的所有特征值。

④ 应用案例：
⚝ 主成分分析 (PCA)：PCA 是一种常用的数据降维方法，通过计算数据协方差矩阵的特征值和特征向量，将高维数据投影到低维空间。
⚝ 推荐系统：SVD 可以用于推荐系统中的协同过滤 (Collaborative Filtering) 算法，通过分解用户-物品评分矩阵，预测用户对未评分物品的评分。
⚝ 图像压缩：SVD 可以用于图像压缩，通过保留图像矩阵的较大奇异值，去除较小奇异值，实现图像数据的压缩。
⚝ PageRank 算法：PageRank 算法是 Google 搜索引擎的核心算法之一，用于评估网页的重要性。PageRank 算法的计算过程涉及到求解大规模线性方程组和特征值问题。

10.3.3 数值优化在机器学习中的应用实例 (Examples of Numerical Optimization in Machine Learning)

① 支持向量机 (SVM)：SVM 是一种常用的分类算法，其目标是找到一个最优超平面 (Hyperplane) 将不同类别的样本分开，并使得间隔 (Margin) 最大化。SVM 的训练过程可以转化为求解一个凸二次规划问题 (Convex Quadratic Programming Problem)，可以使用序列最小最优化算法 (SMO) 等数值优化算法求解。

② 神经网络 (Neural Network)：神经网络是一种复杂的非线性模型，通过多层神经元 (Neuron) 的连接实现复杂的函数映射。神经网络的训练过程可以使用反向传播算法 (Backpropagation Algorithm) 结合梯度下降法及其变种，求解模型参数，使得模型在训练数据集上的损失函数最小化。

③ 聚类算法 (Clustering Algorithms)：聚类算法是将数据集划分为若干个簇 (Cluster) 的算法，使得簇内样本相似度高，簇间样本相似度低。K-均值算法 (K-Means Algorithm) 是一种常用的聚类算法，其迭代过程涉及到计算样本到簇中心的距离，并更新簇中心，可以使用数值优化方法加速收敛。

④ 降维算法 (Dimensionality Reduction Algorithms)：降维算法是将高维数据投影到低维空间的算法，例如主成分分析 (PCA)、线性判别分析 (Linear Discriminant Analysis, LDA) 等。降维算法的实现通常涉及到矩阵分解、特征值分解等数值线性代数运算。

通过以上案例可以看出，数值分析在数据分析与机器学习领域发挥着至关重要的作用。数值分析提供了机器学习算法的理论基础和实现方法，推动了数据分析和机器学习技术的快速发展。随着数据规模的不断增大和机器学习模型的不断复杂化，数值分析在数据分析与机器学习中的作用将更加重要。

附录A：常用数学公式 (Common Mathematical Formulas)

本附录收录了数值分析中常用的数学公式，方便读者查阅。

A.1 微积分公式 (Calculus Formulas)

① 导数定义 (Derivative Definition)：
\[ f'(x) = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} \]

② 泰勒公式 (Taylor's Formula)：
\[ f(x+h) = f(x) + f'(x)h + \frac{f''(x)}{2!}h^2 + \cdots + \frac{f^{(n)}(x)}{n!}h^n + R_n(h) \]
其中 \( R_n(h) \) 为余项，拉格朗日余项 (Lagrange Remainder) 表示为：
\[ R_n(h) = \frac{f^{(n+1)}(\xi)}{(n+1)!}h^{n+1}, \quad \xi \in (x, x+h) \]

③ 中值定理 (Mean Value Theorem)：
若函数 \( f(x) \) 在闭区间 \( [a, b] \) 上连续，在开区间 \( (a, b) \) 内可导，则存在 \( \xi \in (a, b) \) 使得：
\[ f'( \xi ) = \frac{f(b) - f(a)}{b - a} \]

④ 积分中值定理 (Mean Value Theorem for Integrals)：
若函数 \( f(x) \) 在闭区间 \( [a, b] \) 上连续，则存在 \( \xi \in [a, b] \) 使得：
\[ \int_a^b f(x) dx = f(\xi) (b - a) \]

⑤ 微积分基本定理 (Fundamental Theorem of Calculus)：
若函数 \( F(x) \) 是函数 \( f(x) \) 的原函数，则：
\[ \int_a^b f(x) dx = F(b) - F(a) \]

A.2 线性代数公式 (Linear Algebra Formulas)

① 向量内积 (Vector Dot Product)：
对于向量 \( \mathbf{x} = [x_1, x_2, \ldots, x_n]^T \) 和 \( \mathbf{y} = [y_1, y_2, \ldots, y_n]^T \)，其内积为：
\[ \mathbf{x}^T \mathbf{y} = \sum_{i=1}^n x_i y_i \]

② 向量范数 (Vector Norm)：
⚝ \( L_1 \) 范数 (1-norm)：\( \| \mathbf{x} \|_1 = \sum_{i=1}^n |x_i| \)
⚝ \( L_2 \) 范数 (2-norm)：\( \| \mathbf{x} \|_2 = \sqrt{\sum_{i=1}^n x_i^2} = \sqrt{\mathbf{x}^T \mathbf{x}} \)
⚝ \( L_\infty \) 范数 (\(\infty\)-norm)：\( \| \mathbf{x} \|_\infty = \max_{1 \le i \le n} |x_i| \)

③ 矩阵乘法 (Matrix Multiplication)：
若矩阵 \( \mathbf{A} \) 的维度为 \( m \times p \)，矩阵 \( \mathbf{B} \) 的维度为 \( p \times n \)，则矩阵 \( \mathbf{C} = \mathbf{A} \mathbf{B} \) 的维度为 \( m \times n \)，其元素 \( c_{ij} \) 为：
\[ c_{ij} = \sum_{k=1}^p a_{ik} b_{kj} \]

④ 矩阵转置 (Matrix Transpose)：
矩阵 \( \mathbf{A} \) 的转置 \( \mathbf{A}^T \) 的元素 \( (\mathbf{A}^T)_{ij} = a_{ji} \)。

⑤ 矩阵逆 (Matrix Inverse)：
若方阵 \( \mathbf{A} \) 可逆，则存在逆矩阵 \( \mathbf{A}^{-1} \) 使得 \( \mathbf{A} \mathbf{A}^{-1} = \mathbf{A}^{-1} \mathbf{A} = \mathbf{I} \)，其中 \( \mathbf{I} \) 为单位矩阵 (Identity Matrix)。

⑥ 特征值与特征向量 (Eigenvalues and Eigenvectors)：
若对于方阵 \( \mathbf{A} \)，存在非零向量 \( \mathbf{v} \) 和标量 \( \lambda \) 使得 \( \mathbf{A} \mathbf{v} = \lambda \mathbf{v} \)，则 \( \lambda \) 为矩阵 \( \mathbf{A} \) 的特征值，\( \mathbf{v} \) 为对应于特征值 \( \lambda \) 的特征向量。

A.3 常微分方程公式 (Ordinary Differential Equations Formulas)

① 欧拉方法 (Euler Methods)：
⚝ 前向欧拉方法 (Forward Euler Method)：\( y_{n+1} = y_n + h f(t_n, y_n) \)
⚝ 后向欧拉方法 (Backward Euler Method)：\( y_{n+1} = y_n + h f(t_{n+1}, y_{n+1}) \)

② 二阶龙格-库塔方法 (Second-Order Runge-Kutta Methods)：
⚝ 中点公式 (Midpoint Rule)：
\[ k_1 = f(t_n, y_n) \]
\[ k_2 = f(t_n + \frac{h}{2}, y_n + \frac{h}{2} k_1) \]
\[ y_{n+1} = y_n + h k_2 \]
⚝ 改进欧拉公式 (Improved Euler Method)：
\[ k_1 = f(t_n, y_n) \]
\[ k_2 = f(t_n + h, y_n + h k_1) \]
\[ y_{n+1} = y_n + \frac{h}{2} (k_1 + k_2) \]

③ 四阶龙格-库塔方法 (Fourth-Order Runge-Kutta Method)：
\[ k_1 = f(t_n, y_n) \]
\[ k_2 = f(t_n + \frac{h}{2}, y_n + \frac{h}{2} k_1) \]
\[ k_3 = f(t_n + \frac{h}{2}, y_n + \frac{h}{2} k_2) \]
\[ k_4 = f(t_n + h, y_n + h k_3) \]
\[ y_{n+1} = y_n + \frac{h}{6} (k_1 + 2k_2 + 2k_3 + k_4) \]

A.4 数值积分公式 (Numerical Integration Formulas)

① 梯形公式 (Trapezoidal Rule)：
\[ \int_a^b f(x) dx \approx \frac{h}{2} [f(x_0) + 2f(x_1) + \cdots + 2f(x_{n-1}) + f(x_n)] \]
其中 \( h = \frac{b-a}{n} \)，\( x_i = a + ih \)。

② 辛普森公式 (Simpson's Rule)：
\[ \int_a^b f(x) dx \approx \frac{h}{3} [f(x_0) + 4f(x_1) + 2f(x_2) + 4f(x_3) + \cdots + 2f(x_{n-2}) + 4f(x_{n-1}) + f(x_n)] \]
其中 \( n \) 为偶数，\( h = \frac{b-a}{n} \)，\( x_i = a + ih \)。

附录B：MATLAB/Python 数值计算工具箱简介 (Introduction to MATLAB/Python Numerical Computation Toolboxes)

本附录简要介绍 MATLAB 和 Python 中常用的数值计算工具箱，帮助读者快速上手使用这些工具进行数值分析。

B.1 MATLAB 数值计算工具箱 (MATLAB Numerical Computation Toolboxes)

MATLAB (Matrix Laboratory) 是一款强大的商业数学软件，广泛应用于科学计算、工程仿真、数据分析等领域。MATLAB 提供了丰富的工具箱 (Toolbox) 用于数值计算，主要包括：

① MATLAB 核心工具箱 (Core Toolboxes)：
⚝ MATLAB 语言 (MATLAB Language)：MATLAB 语言是一种高级矩阵/数组语言，语法简洁、易于学习，适合于数值计算和算法开发。
⚝ MATLAB 数学函数库 (MATLAB Math Functions)：MATLAB 提供了大量的内置数学函数，包括线性代数、微积分、优化、插值、积分、微分方程求解等。
⚝ MATLAB 图形功能 (MATLAB Graphics)：MATLAB 提供了强大的数据可视化功能，可以绘制各种二维和三维图形，方便用户分析和展示数值计算结果。

② 常用数值计算工具箱 (Common Numerical Computation Toolboxes)：
⚝ 优化工具箱 (Optimization Toolbox)：提供了各种最优化算法，包括线性规划、二次规划、非线性规划、无约束优化、约束优化等，用于求解各种最优化问题。
⚝ 曲线拟合工具箱 (Curve Fitting Toolbox)：提供了各种曲线拟合方法，包括多项式拟合、样条拟合、指数拟合、高斯拟合等，用于数据拟合和函数逼近。
⚝ 样条工具箱 (Spline Toolbox)：提供了各种样条函数及其应用，包括样条插值、样条逼近、样条曲线和曲面等，用于曲线和曲面建模。
⚝ 偏微分方程工具箱 (Partial Differential Equation Toolbox)：提供了有限元方法求解偏微分方程的功能，可以求解各种类型的偏微分方程，例如椭圆型方程、抛物型方程、双曲型方程等。
⚝ 全局优化工具箱 (Global Optimization Toolbox)：提供了全局优化算法，例如遗传算法 (Genetic Algorithm)、模拟退火算法 (Simulated Annealing)、粒子群优化算法 (Particle Swarm Optimization) 等，用于求解全局最优化问题。

③ MATLAB 使用示例 (MATLAB Usage Example)：
使用 MATLAB 求解线性方程组 \( \mathbf{A} \mathbf{x} = \mathbf{b} \)：

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            A = [2, 1; 1, 3];
                        
                            b = [5; 8];
                        
                            x = A \ b; % 使用反斜杠运算符求解线性方程组
                        
                            disp(x);

B.2 Python 数值计算工具箱 (Python Numerical Computation Toolboxes)

Python 是一种流行的开源编程语言，具有丰富的科学计算库，成为科学计算和数据分析领域的重要工具。Python 中常用的数值计算库主要包括：

① NumPy (Numerical Python)：NumPy 是 Python 科学计算的基础库，提供了高性能的多维数组对象 (ndarray) 和各种数值计算函数，包括线性代数、傅里叶变换、随机数生成等。NumPy 是 SciPy 和 Matplotlib 等库的基础。

② SciPy (Scientific Python)：SciPy 是基于 NumPy 的科学计算库，提供了更多的数值计算功能，包括最优化、插值、积分、微分方程求解、信号处理、图像处理、统计分析等。SciPy 涵盖了数值分析的各个方面。

③ Matplotlib (Mathematical Plotting Library)：Matplotlib 是 Python 的绘图库，可以生成各种静态、交互式、可视化的图形，包括线图、散点图、柱状图、等高线图、三维图形等。Matplotlib 可以与 NumPy 和 SciPy 结合使用，方便用户可视化数值计算结果。

④ SymPy (Symbolic Python)：SymPy 是 Python 的符号计算库，可以进行符号运算，例如代数运算、微积分运算、方程求解、化简表达式等。SymPy 可以用于验证数值计算结果，推导数值算法。

⑤ 常用 Python 数值计算库 (Common Python Numerical Computation Libraries)：
⚝ pandas (Python Data Analysis Library)：pandas 是 Python 的数据分析库，提供了高性能的数据结构 (DataFrame 和 Series) 和数据分析工具，用于数据清洗、数据处理、数据分析和数据可视化。
⚝ scikit-learn (sklearn)：scikit-learn 是 Python 的机器学习库，提供了各种机器学习算法，包括分类、回归、聚类、降维、模型选择、预处理等。scikit-learn 基于 NumPy 和 SciPy 构建，易于使用，广泛应用于机器学习领域。

⑥ Python 使用示例 (Python Usage Example)：
使用 Python (NumPy) 求解线性方程组 \( \mathbf{A} \mathbf{x} = \mathbf{b} \)：

 1.双击鼠标左键复制此行；2.单击复制所有代码。 
                                
                            import numpy as np
                        
                            A = np.array([[2, 1], [1, 3]])
                        
                            b = np.array([5, 8])
                        
                            x = np.linalg.solve(A, b) # 使用 numpy.linalg.solve 函数求解线性方程组
                        
                            print(x)

通过本附录的介绍，读者可以初步了解 MATLAB 和 Python 的数值计算工具箱，并可以根据自己的需求选择合适的工具进行数值分析和科学计算。熟练掌握这些工具将极大地提高数值计算的效率和能力。

1	import numpy as np
2	import matplotlib.pyplot as plt
3
4	def rosenbrock(x):
5	return (1 - x[0])*2 + 100 (x[1] - x[0]2)2
6
7	def gradient_rosenbrock(x):
8	df_dx = -2 * (1 - x[0]) - 400 * x[0] * (x[1] - x[0]**2)
9	df_dy = 200 * (x[1] - x[0]**2)
10	return np.array([df_dx, df_dy])
11
12	def steepest_descent(x0, learning_rate=0.001, epsilon=1e-6, max_iter=10000):
13	x = x0.copy()
14	path = [x.copy()]
15	for i in range(max_iter):
16	grad = gradient_rosenbrock(x)
17	if np.linalg.norm(grad) < epsilon:
18	break
19	x = x - learning_rate * grad
20	path.append(x.copy())
21	return x, path
22
23	x0 = np.array([-1.2, 1.0])
24	optimal_x, path = steepest_descent(x0)
25
26	print(f"Optimal solution: x = {optimal_x}, f(x) = {rosenbrock(optimal_x)}")
27
28	# 可视化迭代路径 (Visualization of Iteration Path)
29	x_range = np.linspace(-2, 2, 400)
30	y_range = np.linspace(-1, 3, 400)
31	X, Y = np.meshgrid(x_range, y_range)
32	Z = rosenbrock(np.array([X, Y]))
33
34	plt.figure(figsize=(8, 6))
35	contour = plt.contour(X, Y, Z, levels=np.logspace(-1, 3, 10), colors='black')
36	plt.clabel(contour, inline=True, fontsize=8)
37	path_array = np.array(path)
38	plt.plot(path_array[:, 0], path_array[:, 1], marker='o', linestyle='-', color='red', markersize=2)
39	plt.plot(1, 1, marker='*', markersize=10, color='green', label='Optimal Point') # 标记最优解 (Mark Optimal Solution)
40	plt.title('Steepest Descent Method for Rosenbrock Function')
41	plt.xlabel('x')
42	plt.ylabel('y')
43	plt.legend()
44	plt.grid(True)
45	plt.show()

1	A = [2, 1; 1, 3];
2	b = [5; 8];
3	x = A \ b; % 使用反斜杠运算符求解线性方程组
4	disp(x);

1	import numpy as np
2
3	A = np.array([[2, 1], [1, 3]])
4	b = np.array([5, 8])
5	x = np.linalg.solve(A, b) # 使用 numpy.linalg.solve 函数求解线性方程组
6	print(x)