024 《数理统计:原理、方法与应用 (Mathematical Statistics: Principles, Methods, and Applications)》
🌟🌟🌟本文案由Gemini 2.0 Flash Thinking Experimental 01-21创作,用来辅助学习知识。🌟🌟🌟
书籍大纲
▮▮▮▮ 1. chapter 1: 绪论 (Introduction)
▮▮▮▮▮▮▮ 1.1 数理统计的定义与发展 (Definition and Development of Mathematical Statistics)
▮▮▮▮▮▮▮ 1.2 数理统计的研究对象与内容 (Research Objects and Contents of Mathematical Statistics)
▮▮▮▮▮▮▮ 1.3 数理统计在科学研究中的作用 (Role of Mathematical Statistics in Scientific Research)
▮▮▮▮▮▮▮ 1.4 如何学习数理统计 (How to Learn Mathematical Statistics)
▮▮▮▮ 2. chapter 2: 概率论基础回顾 (Review of Probability Theory Fundamentals)
▮▮▮▮▮▮▮ 2.1 随机事件与概率 (Random Events and Probability)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.1 样本空间与事件 (Sample Space and Events)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.2 概率的定义与性质 (Definition and Properties of Probability)
▮▮▮▮▮▮▮ 2.2 随机变量及其分布 (Random Variables and Their Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.1 随机变量的类型 (Types of Random Variables)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.2 离散型随机变量及其分布 (Discrete Random Variables and Their Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.3 连续型随机变量及其分布 (Continuous Random Variables and Their Distributions)
▮▮▮▮▮▮▮ 2.3 多维随机变量及其分布 (Multivariate Random Variables and Their Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 2.3.1 联合分布、边缘分布与条件分布 (Joint Distribution, Marginal Distribution, and Conditional Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 2.3.2 随机变量的独立性 (Independence of Random Variables)
▮▮▮▮▮▮▮ 2.4 随机变量的数字特征 (Numerical Characteristics of Random Variables)
▮▮▮▮▮▮▮▮▮▮▮ 2.4.1 期望 (Expectation)
▮▮▮▮▮▮▮▮▮▮▮ 2.4.2 方差 (Variance)
▮▮▮▮▮▮▮▮▮▮▮ 2.4.3 协方差与相关系数 (Covariance and Correlation Coefficient)
▮▮▮▮ 3. chapter 3: 常用概率分布 (Common Probability Distributions)
▮▮▮▮▮▮▮ 3.1 离散型分布 (Discrete Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.1 伯努利分布 (Bernoulli Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.2 二项分布 (Binomial Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.3 泊松分布 (Poisson Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.4 几何分布 (Geometric Distribution)
▮▮▮▮▮▮▮ 3.2 连续型分布 (Continuous Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.1 均匀分布 (Uniform Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.2 指数分布 (Exponential Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.3 正态分布 (Normal Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.4 伽玛分布 (Gamma Distribution)
▮▮▮▮▮▮▮ 3.3 重要分布的性质与应用 (Properties and Applications of Important Distributions)
▮▮▮▮ 4. chapter 4: 抽样分布与大样本理论 (Sampling Distributions and Large Sample Theory)
▮▮▮▮▮▮▮ 4.1 随机抽样 (Random Sampling)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.1 简单随机抽样 (Simple Random Sampling)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.2 分层抽样、整群抽样等 (Stratified Sampling, Cluster Sampling, etc.)
▮▮▮▮▮▮▮ 4.2 统计量及其分布 (Statistics and Their Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 4.2.1 样本均值、样本方差等常用统计量 (Sample Mean, Sample Variance, etc.)
▮▮▮▮▮▮▮▮▮▮▮ 4.2.2 抽样分布的概念 (Concept of Sampling Distribution)
▮▮▮▮▮▮▮ 4.3 正态总体下的抽样分布 (Sampling Distributions under Normal Population)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.1 卡方分布 (Chi-Square Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.2 t 分布 (t-Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.3 F 分布 (F-Distribution)
▮▮▮▮▮▮▮ 4.4 大数定律与中心极限定理 (Laws of Large Numbers and Central Limit Theorem)
▮▮▮▮▮▮▮▮▮▮▮ 4.4.1 切比雪夫不等式 (Chebyshev's Inequality)
▮▮▮▮▮▮▮▮▮▮▮ 4.4.2 大数定律 (Laws of Large Numbers)
▮▮▮▮▮▮▮▮▮▮▮ 4.4.3 中心极限定理 (Central Limit Theorem)
▮▮▮▮ 5. chapter 5: 参数估计 (Parameter Estimation)
▮▮▮▮▮▮▮ 5.1 点估计 (Point Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 5.1.1 矩估计法 (Method of Moments)
▮▮▮▮▮▮▮▮▮▮▮ 5.1.2 极大似然估计法 (Maximum Likelihood Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 5.1.3 估计量的评价标准 (Criteria for Evaluating Estimators)
▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮ 5.1.3.1 无偏性 (Unbiasedness)
▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮ 5.1.3.2 有效性 (Efficiency)
▮▮▮▮▮▮▮▮▮▮▮▮▮▮▮ 5.1.3.3 相合性 (Consistency)
▮▮▮▮▮▮▮ 5.2 区间估计 (Interval Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.1 置信区间的基本概念 (Basic Concepts of Confidence Intervals)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.2 单个正态总体参数的区间估计 (Interval Estimation for Parameters of a Single Normal Population)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.3 两个正态总体参数的区间估计 (Interval Estimation for Parameters of Two Normal Populations)
▮▮▮▮▮▮▮ 5.3 非参数估计简介 (Introduction to Non-parametric Estimation)
▮▮▮▮ 6. chapter 6: 假设检验 (Hypothesis Testing)
▮▮▮▮▮▮▮ 6.1 假设检验的基本概念 (Basic Concepts of Hypothesis Testing)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.1 原假设与备择假设 (Null Hypothesis and Alternative Hypothesis)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.2 两类错误 (Type I Error and Type II Error)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.3 显著性水平与p 值 (Significance Level and p-value)
▮▮▮▮▮▮▮ 6.2 单个正态总体参数的假设检验 (Hypothesis Testing for Parameters of a Single Normal Population)
▮▮▮▮▮▮▮▮▮▮▮ 6.2.1 均值检验 (Mean Test)
▮▮▮▮▮▮▮▮▮▮▮ 6.2.2 方差检验 (Variance Test)
▮▮▮▮▮▮▮ 6.3 两个正态总体参数的假设检验 (Hypothesis Testing for Parameters of Two Normal Populations)
▮▮▮▮▮▮▮▮▮▮▮ 6.3.1 均值差检验 (Difference in Means Test)
▮▮▮▮▮▮▮▮▮▮▮ 6.3.2 方差比检验 (Ratio of Variances Test)
▮▮▮▮▮▮▮ 6.4 非参数假设检验简介 (Introduction to Non-parametric Hypothesis Testing)
▮▮▮▮▮▮▮▮▮▮▮ 6.4.1 符号检验 (Sign Test)
▮▮▮▮▮▮▮▮▮▮▮ 6.4.2 秩和检验 (Rank Sum Test)
▮▮▮▮▮▮▮ 6.5 假设检验的应用案例 (Application Cases of Hypothesis Testing)
▮▮▮▮ 7. chapter 7: 方差分析 (Analysis of Variance, ANOVA)
▮▮▮▮▮▮▮ 7.1 方差分析的基本原理 (Basic Principles of ANOVA)
▮▮▮▮▮▮▮▮▮▮▮ 7.1.1 方差分解 (Variance Decomposition)
▮▮▮▮▮▮▮▮▮▮▮ 7.1.2 F 检验 (F-test)
▮▮▮▮▮▮▮ 7.2 单因素方差分析 (One-way ANOVA)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.1 模型建立与假设检验 (Model Building and Hypothesis Testing)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.2 多重比较 (Multiple Comparisons)
▮▮▮▮▮▮▮ 7.3 双因素方差分析 (Two-way ANOVA)
▮▮▮▮▮▮▮▮▮▮▮ 7.3.1 无交互效应的双因素方差分析 (Two-way ANOVA without Interaction)
▮▮▮▮▮▮▮▮▮▮▮ 7.3.2 有交互效应的双因素方差分析 (Two-way ANOVA with Interaction)
▮▮▮▮▮▮▮ 7.4 方差分析的应用案例 (Application Cases of ANOVA)
▮▮▮▮ 8. chapter 8: 回归分析 (Regression Analysis)
▮▮▮▮▮▮▮ 8.1 线性回归模型 (Linear Regression Model)
▮▮▮▮▮▮▮▮▮▮▮ 8.1.1 简单线性回归 (Simple Linear Regression)
▮▮▮▮▮▮▮▮▮▮▮ 8.1.2 多元线性回归 (Multiple Linear Regression)
▮▮▮▮▮▮▮ 8.2 回归模型的参数估计 (Parameter Estimation of Regression Models)
▮▮▮▮▮▮▮▮▮▮▮ 8.2.1 最小二乘法 (Least Squares Method)
▮▮▮▮▮▮▮▮▮▮▮ 8.2.2 回归系数的统计推断 (Statistical Inference of Regression Coefficients)
▮▮▮▮▮▮▮ 8.3 回归模型的检验与诊断 (Regression Model Testing and Diagnosis)
▮▮▮▮▮▮▮▮▮▮▮ 8.3.1 模型的显著性检验 (Significance Test of the Model)
▮▮▮▮▮▮▮▮▮▮▮ 8.3.2 残差分析 (Residual Analysis)
▮▮▮▮▮▮▮ 8.4 非线性回归简介 (Introduction to Non-linear Regression)
▮▮▮▮▮▮▮ 8.5 回归分析的应用案例 (Application Cases of Regression Analysis)
▮▮▮▮ 9. chapter 9: 非参数统计方法 (Non-parametric Statistical Methods)
▮▮▮▮▮▮▮ 9.1 非参数统计的基本思想 (Basic Ideas of Non-parametric Statistics)
▮▮▮▮▮▮▮ 9.2 常用非参数检验 (Common Non-parametric Tests)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.1 符号检验 (Sign Test)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.2 秩和检验 (Rank Sum Test)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.3 秩相关检验 (Rank Correlation Test)
▮▮▮▮▮▮▮ 9.3 非参数估计简介 (Introduction to Non-parametric Estimation)
▮▮▮▮▮▮▮ 9.4 非参数统计的应用案例 (Application Cases of Non-parametric Statistics)
▮▮▮▮ 10. chapter 10: 贝叶斯统计初步 (Introduction to Bayesian Statistics)
▮▮▮▮▮▮▮ 10.1 贝叶斯定理回顾 (Review of Bayes' Theorem)
▮▮▮▮▮▮▮ 10.2 贝叶斯统计的基本思想 (Basic Ideas of Bayesian Statistics)
▮▮▮▮▮▮▮▮▮▮▮ 10.2.1 先验分布、后验分布与似然函数 (Prior Distribution, Posterior Distribution, and Likelihood Function)
▮▮▮▮▮▮▮▮▮▮▮ 10.2.2 贝叶斯估计 (Bayesian Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 10.2.3 贝叶斯假设检验 (Bayesian Hypothesis Testing)
▮▮▮▮▮▮▮ 10.3 共轭先验分布 (Conjugate Prior Distributions)
▮▮▮▮▮▮▮ 10.4 贝叶斯统计的应用案例 (Application Cases of Bayesian Statistics)
▮▮▮▮ 11. chapter 11: 多元统计分析简介 (Introduction to Multivariate Statistical Analysis)
▮▮▮▮▮▮▮ 11.1 多元数据的描述性统计 (Descriptive Statistics for Multivariate Data)
▮▮▮▮▮▮▮▮▮▮▮ 11.1.1 均值向量与协方差矩阵 (Mean Vector and Covariance Matrix)
▮▮▮▮▮▮▮▮▮▮▮ 11.1.2 相关矩阵 (Correlation Matrix)
▮▮▮▮▮▮▮ 11.2 主成分分析 (Principal Component Analysis, PCA)
▮▮▮▮▮▮▮ 11.3 因子分析 (Factor Analysis)
▮▮▮▮▮▮▮ 11.4 聚类分析 (Cluster Analysis)
▮▮▮▮▮▮▮ 11.5 判别分析 (Discriminant Analysis)
▮▮▮▮ 12. chapter 12: 统计学习初步 (Introduction to Statistical Learning)
▮▮▮▮▮▮▮ 12.1 统计学习概述 (Overview of Statistical Learning)
▮▮▮▮▮▮▮▮▮▮▮ 12.1.1 监督学习与无监督学习 (Supervised Learning and Unsupervised Learning)
▮▮▮▮▮▮▮▮▮▮▮ 12.1.2 模型评估与选择 (Model Evaluation and Selection)
▮▮▮▮▮▮▮ 12.2 常用统计学习方法简介 (Introduction to Common Statistical Learning Methods)
▮▮▮▮▮▮▮▮▮▮▮ 12.2.1 线性回归与逻辑回归 (Linear Regression and Logistic Regression)
▮▮▮▮▮▮▮▮▮▮▮ 12.2.2 决策树与随机森林 (Decision Trees and Random Forests)
▮▮▮▮▮▮▮▮▮▮▮ 12.2.3 支持向量机 (Support Vector Machines, SVM)
▮▮▮▮▮▮▮ 12.3 统计学习的应用案例 (Application Cases of Statistical Learning)
▮▮▮▮ 13. chapter 13: 数理统计的应用领域 (Application Fields of Mathematical Statistics)
▮▮▮▮▮▮▮ 13.1 生物统计 (Biostatistics)
▮▮▮▮▮▮▮ 13.2 经济统计 (Econometrics)
▮▮▮▮▮▮▮ 13.3 工程统计 (Engineering Statistics)
▮▮▮▮▮▮▮ 13.4 社会统计 (Social Statistics)
▮▮▮▮▮▮▮ 13.5 其他应用领域 (Other Application Fields)
▮▮▮▮ 14. chapter 14: 总结与展望 (Summary and Outlook)
▮▮▮▮▮▮▮ 14.1 数理统计的核心思想回顾 (Review of Core Ideas of Mathematical Statistics)
▮▮▮▮▮▮▮ 14.2 数理统计的未来发展趋势 (Future Development Trends of Mathematical Statistics)
▮▮▮▮▮▮▮ 14.3 进一步学习建议 (Suggestions for Further Learning)
1. chapter 1: 绪论 (Introduction)
1.1 数理统计的定义与发展 (Definition and Development of Mathematical Statistics)
数理统计 (Mathematical Statistics) 是一门利用概率论 (Probability Theory) 的原理和方法,研究如何从样本 (sample) 数据中提取信息,进而对总体 (population) 的性质和规律进行推断的学科。简单来说,数理统计是连接理论与实际的桥梁,它提供了一套严谨的工具和方法,帮助我们从有限的数据中认识无限的世界。
数理统计的发展历史可以追溯到17世纪,与概率论的诞生和发展紧密相连。早期的统计思想萌芽于对赌博问题和人口统计的研究。
① 萌芽阶段 (17世纪 - 19世纪初):
▮▮▮▮ⓑ 概率论的奠基:帕斯卡 (Pascal)、费马 (Fermat)、惠更斯 (Huygens) 等数学家对概率论的早期发展做出了重要贡献,为数理统计的诞生奠定了理论基础。
▮▮▮▮ⓒ 统计应用的兴起:约翰·格劳恩特 (John Graunt) 的《对死亡公报的自然和政治观察》 (Natural and Political Observations Made upon the Bills of Mortality) 等著作标志着统计方法在人口统计和公共卫生领域的初步应用。拉普拉斯 (Laplace) 和高斯 (Gauss) 等人在天文学和测量学中应用概率方法,发展了最小二乘法 (Least Squares Method) 等重要的统计技术。
② 经典统计学时期 (19世纪末 - 20世纪中期):
▮▮▮▮ⓑ 皮尔逊 (Karl Pearson) 的贡献:卡尔·皮尔逊被誉为“现代统计学之父”,他创立了著名的生物统计学杂志《Biometrika》,提出了矩估计法 (Method of Moments)、卡方检验 (Chi-Square Test) 等重要统计方法,并推动了统计学在生物学、社会学等领域的应用。
▮▮▮▮ⓒ 费希尔 (Ronald Aylmer Fisher) 的突破:罗纳德·费希尔是现代统计学的奠基人之一,他提出了极大似然估计法 (Maximum Likelihood Estimation)、方差分析 (Analysis of Variance, ANOVA)、实验设计 (Experimental Design) 等一系列影响深远的统计理论和方法,极大地推动了统计学的发展和应用。他的著作《统计方法与科研工作者》 (Statistical Methods for Research Workers) 成为统计学领域的经典之作。
▮▮▮▮ⓓ 奈曼 (Jerzy Neyman) 和 埃贡·皮尔逊 (Egon Pearson) 的贡献: 奈曼和埃贡·皮尔逊共同发展了假设检验 (Hypothesis Testing) 的理论框架,提出了原假设 (Null Hypothesis)、备择假设 (Alternative Hypothesis)、两类错误 (Type I Error and Type II Error) 等重要概念,完善了统计推断的理论体系。
③ 现代统计学时期 (20世纪中期至今):
▮▮▮▮ⓑ 贝叶斯统计 (Bayesian Statistics) 的复兴:随着计算技术的发展,贝叶斯统计方法重新受到重视。贝叶斯方法强调利用先验信息 (prior information) 和似然函数 (likelihood function) 来更新对参数的认识,在机器学习、人工智能等领域得到广泛应用。
▮▮▮▮ⓒ 非参数统计 (Non-parametric Statistics) 的发展: 针对数据分布未知或不满足参数统计假设条件的情况,非参数统计方法得到了快速发展。例如,符号检验 (Sign Test)、秩和检验 (Rank Sum Test) 等非参数检验方法在实际应用中发挥着重要作用。
▮▮▮▮ⓓ 统计计算与软件的进步: 计算机技术的飞速发展极大地推动了统计学的发展和应用。各种统计软件 (如R, Python, SAS, SPSS等) 的出现,使得复杂的统计分析变得更加便捷高效。大数据 (Big Data) 时代的到来,也对统计学提出了新的挑战和机遇,推动了统计学在数据科学、机器学习等新兴领域的应用。
数理统计的发展历程是一部不断完善和拓展的学科史,从最初的概率论萌芽到现代统计学的蓬勃发展,数理统计始终在解决实际问题、推动科学进步中发挥着关键作用。
1.2 数理统计的研究对象与内容 (Research Objects and Contents of Mathematical Statistics)
数理统计的研究对象是随机现象 (random phenomena) 的数量规律性 (quantitative regularity)。 这里的“随机现象”指的是在一定条件下,结果呈现不确定性的现象,例如:
⚝ 产品的质量特性 (quality characteristics of products)
⚝ 农作物的产量 (crop yield)
⚝ 股票市场的价格波动 (stock market price fluctuations)
⚝ 病人的病情变化 (changes in patient's condition)
⚝ 社会调查中的公众意见 (public opinion in social surveys)
虽然每次观测的结果可能不同,但在大量重复观测下,随机现象呈现出一定的统计规律性。数理统计的任务就是研究如何通过对样本数据的分析,揭示这些潜在的规律性,并对总体做出科学合理的推断。
数理统计的主要研究内容可以概括为以下几个方面:
① 数据收集 (Data Collection):
▮▮▮▮⚝ 抽样理论 (Sampling Theory): 研究如何科学地抽取样本,使得样本能够代表总体,为后续的统计推断提供可靠的数据基础。常见的抽样方法包括简单随机抽样 (Simple Random Sampling)、分层抽样 (Stratified Sampling)、整群抽样 (Cluster Sampling) 等。
▮▮▮▮⚝ 实验设计 (Experimental Design): 研究如何合理地安排实验,有效地收集数据,以达到特定的研究目的。实验设计关注如何控制实验条件、减少误差、提高实验效率。
② 数据整理与描述 (Data Organization and Description):
▮▮▮▮⚝ 描述性统计 (Descriptive Statistics): 通过图表、统计量等方法,对收集到的数据进行整理、Summarize 和描述,揭示数据的基本特征和分布规律。常用的描述性统计方法包括频数分布表 (Frequency Distribution Table)、直方图 (Histogram)、散点图 (Scatter Plot)、均值 (Mean)、中位数 (Median)、标准差 (Standard Deviation) 等。
③ 统计推断 (Statistical Inference): 这是数理统计的核心内容,包括参数估计 (Parameter Estimation) 和 假设检验 (Hypothesis Testing) 两大方面。
▮▮▮▮⚝ 参数估计 (Parameter Estimation): 利用样本数据,对总体未知参数 (unknown parameters) 进行估计。参数估计又分为点估计 (Point Estimation) 和 区间估计 (Interval Estimation)。
▮▮▮▮ⓐ 点估计 (Point Estimation): 用样本统计量 (sample statistic) 的某个值直接作为总体参数的估计值,如用样本均值 (sample mean) 估计总体均值 (population mean)。常用的点估计方法包括矩估计法 (Method of Moments)、极大似然估计法 (Maximum Likelihood Estimation) 等。
▮▮▮▮ⓑ 区间估计 (Interval Estimation): 给出一个包含总体参数真值的区间,并给出该区间包含真值的置信程度 (confidence level),即置信区间 (Confidence Interval)。
▮▮▮▮⚝ 假设检验 (Hypothesis Testing): 根据样本数据,检验关于总体参数或分布的某种假设 (hypothesis) 是否成立。假设检验的基本思想是反证法 (proof by contradiction),通过判断样本数据是否支持原假设 (Null Hypothesis),从而做出接受或拒绝原假设的决策。
④ 统计模型与方法 (Statistical Models and Methods):
▮▮▮▮⚝ 回归分析 (Regression Analysis): 研究变量之间相关关系 (correlation) 的统计方法,建立回归模型 (regression model),用于预测和控制。包括线性回归 (Linear Regression)、非线性回归 (Non-linear Regression)、多元回归 (Multiple Regression) 等。
▮▮▮▮⚝ 方差分析 (Analysis of Variance, ANOVA): 用于分析分类因素 (categorical factors) 对数值型响应变量 (numerical response variable) 影响的统计方法,检验不同组别之间均值是否存在显著差异。
▮▮▮▮⚝ 多元统计分析 (Multivariate Statistical Analysis): 研究多个变量之间相互关系的统计方法,包括主成分分析 (Principal Component Analysis, PCA)、因子分析 (Factor Analysis)、聚类分析 (Cluster Analysis)、判别分析 (Discriminant Analysis) 等。
▮▮▮▮⚝ 非参数统计方法 (Non-parametric Statistical Methods): 针对数据分布未知或不满足参数统计假设条件的情况,发展起来的统计方法,如符号检验 (Sign Test)、秩和检验 (Rank Sum Test) 等。
▮▮▮▮⚝ 贝叶斯统计方法 (Bayesian Statistical Methods): 基于贝叶斯定理 (Bayes' Theorem) 的统计推断方法,强调利用先验信息和似然函数进行统计推断。
▮▮▮▮⚝ 统计学习方法 (Statistical Learning Methods): 结合统计学和机器学习的思想,用于解决复杂数据分析和预测问题的统计方法,如决策树 (Decision Tree)、随机森林 (Random Forest)、支持向量机 (Support Vector Machine, SVM) 等。
总而言之,数理统计的研究内容涵盖了从数据收集、整理、描述到统计推断、模型构建和方法应用等各个方面,旨在为科学研究和实际问题提供强有力的统计工具和方法。
1.3 数理统计在科学研究中的作用 (Role of Mathematical Statistics in Scientific Research)
数理统计是现代科学研究中不可或缺的重要工具。在各个科学领域,从自然科学到社会科学,从工程技术到医学健康,数理统计都发挥着至关重要的作用。其主要作用可以归纳为以下几个方面:
① 科学研究设计 (Scientific Research Design):
▮▮▮▮⚝ 实验设计 (Experimental Design): 在实验研究中,数理统计的实验设计原理可以帮助研究者合理安排实验,有效地控制实验条件,最大限度地减少随机误差 (random error) 和系统误差 (systematic error),提高实验的效率 (efficiency) 和可靠性 (reliability)。例如,在医学临床试验中,需要合理设计对照组 (control group) 和实验组 (experimental group),采用随机化 (randomization)、盲法 (blinding) 等方法,以科学地评估新药或疗法的疗效。
▮▮▮▮⚝ 抽样设计 (Sampling Design): 在调查研究中,数理统计的抽样理论可以指导研究者选择合适的抽样方法,确保抽取的样本具有代表性 (representativeness),能够准确反映总体的特征。例如,在社会调查中,需要采用分层抽样、整群抽样等方法,以保证样本能够覆盖不同社会群体,提高调查结果的准确性 (accuracy) 和Generalizability。
② 数据分析与挖掘 (Data Analysis and Mining):
▮▮▮▮⚝ 描述性分析 (Descriptive Analysis): 数理统计的描述性统计方法可以帮助研究者对收集到的数据进行整理、Summarize 和描述,揭示数据的基本特征和分布规律,为进一步的深入分析提供基础。例如,通过计算均值 (mean)、标准差 (standard deviation)、绘制直方图 (histogram)、散点图 (scatter plot) 等,可以直观地了解数据的中心趋势、离散程度、分布形态以及变量之间的关系。
▮▮▮▮⚝ 推断性分析 (Inferential Analysis): 数理统计的推断性统计方法,如参数估计 (parameter estimation)、假设检验 (hypothesis testing)、回归分析 (regression analysis)、方差分析 (ANOVA) 等,可以帮助研究者从样本数据中提取信息,推断总体的性质和规律,验证科学假设,发现潜在的知识。例如,通过t 检验 (t-test) 可以比较两组样本均值是否存在显著差异;通过回归分析 (regression analysis) 可以建立变量之间的数学模型,预测因变量的变化趋势;通过聚类分析 (cluster analysis) 可以将研究对象划分为不同的类别,发现数据中的结构模式。
▮▮▮▮⚝ 大数据分析 (Big Data Analysis): 在大数据时代,数理统计方法在大数据分析中发挥着越来越重要的作用。 针对大数据的高维度 (high dimensionality)、海量性 (volume)、多样性 (variety) 和高速性 (velocity) 等特点,需要发展新的统计方法和技术,如降维 (dimensionality reduction)、特征选择 (feature selection)、机器学习 (machine learning) 等,从海量数据中挖掘有价值的信息和知识。
③ 科学决策支持 (Scientific Decision Support):
▮▮▮▮⚝ 量化决策 (Quantitative Decision Making): 数理统计为科学决策提供了量化的依据和方法。通过统计分析,可以将定性问题转化为定量问题,利用数据和模型进行科学预测和评估,为决策者提供客观、可靠的决策支持。例如,在风险评估 (risk assessment) 中,可以利用统计模型预测风险发生的概率和损失大小,为风险管理提供依据;在市场预测 (market forecasting) 中,可以利用时间序列分析 (time series analysis) 等方法预测市场需求,为企业决策提供参考。
▮▮▮▮⚝ 不确定性管理 (Uncertainty Management): 科学研究中充满了不确定性,数理统计正是研究和处理不确定性的科学。通过概率论和统计推断,可以量化不确定性,评估推断结果的可靠性,帮助研究者在不确定性条件下做出合理的决策。例如,在假设检验 (hypothesis testing) 中,通过p 值 (p-value) 和置信区间 (confidence interval) 可以评估检验结果的显著性和可靠性;在贝叶斯统计 (Bayesian statistics) 中,可以利用先验信息和后验分布来更新对参数的认识,更好地处理不确定性。
④ 学科交叉融合 (Interdisciplinary Integration):
▮▮▮▮⚝ 跨学科应用 (Interdisciplinary Applications): 数理统计作为一种通用的科学方法,广泛应用于各个学科领域,促进了学科之间的交叉融合。例如,生物统计学 (biostatistics) 将统计方法应用于生物学和医学研究;经济统计学 (econometrics) 将统计方法应用于经济学研究;社会统计学 (social statistics) 将统计方法应用于社会学研究;工程统计学 (engineering statistics) 将统计方法应用于工程技术研究。
▮▮▮▮⚝ 新兴领域发展 (Emerging Field Development): 随着科学技术的不断发展,新的学科领域不断涌现,数理统计在新兴领域的发展中发挥着重要的推动作用。例如,在人工智能 (artificial intelligence)、机器学习 (machine learning)、数据科学 (data science) 等新兴领域,数理统计提供了重要的理论基础和方法支撑。
综上所述,数理统计在科学研究中扮演着多重角色,从研究设计、数据分析到科学决策,都离不开数理统计的理论和方法。掌握数理统计的知识和技能,对于从事科学研究的人员来说至关重要。
1.4 如何学习数理统计 (How to Learn Mathematical Statistics)
学习数理统计需要一定的数学基础和逻辑思维能力,但更重要的是掌握正确的学习方法和策略。以下是一些关于如何学习数理统计的建议:
① 夯实数学基础 (Solid Mathematical Foundation):
▮▮▮▮ⓑ 概率论基础 (Probability Theory Fundamentals): 数理统计是建立在概率论基础之上的,因此,扎实的概率论基础是学习数理统计的前提。需要掌握随机事件与概率 (random events and probability)、随机变量及其分布 (random variables and their distributions)、数字特征 (numerical characteristics)、大数定律与中心极限定理 (laws of large numbers and central limit theorem) 等基本概念和理论。
▮▮▮▮ⓒ 微积分基础 (Calculus Fundamentals): 数理统计中涉及到大量的积分、求导等运算,尤其是在连续型随机变量 (continuous random variables) 的分布、极大似然估计 (maximum likelihood estimation) 等内容中,微积分是必不可少的工具。
▮▮▮▮ⓓ 线性代数基础 (Linear Algebra Fundamentals): 在多元统计分析 (multivariate statistical analysis)、回归分析 (regression analysis) 等内容中,线性代数的知识,如矩阵 (matrix)、向量 (vector)、特征值 (eigenvalue)、特征向量 (eigenvector) 等,是重要的数学工具。
② 理解基本概念 (Understanding Basic Concepts):
▮▮▮▮ⓑ 概念的准确理解 (Accurate Understanding of Concepts): 数理统计中有很多抽象的概念,如随机变量 (random variable)、分布函数 (distribution function)、期望 (expectation)、方差 (variance)、统计量 (statistic)、抽样分布 (sampling distribution)、置信区间 (confidence interval)、假设检验 (hypothesis testing) 等。要准确理解这些概念的定义、含义和相互关系,避免概念混淆。
▮▮▮▮ⓒ 概念的联系与应用 (Connection and Application of Concepts): 学习数理统计不能孤立地学习概念,要注重概念之间的联系,理解概念在解决实际问题中的应用。例如,要理解抽样分布 (sampling distribution) 的概念,就要将其与样本统计量 (sample statistic)、总体参数 (population parameter) 联系起来,理解抽样分布在统计推断 (statistical inference) 中的作用。
③ 掌握统计方法 (Mastering Statistical Methods):
▮▮▮▮ⓑ 方法的原理与适用条件 (Principles and Applicable Conditions of Methods): 数理统计中有很多统计方法,如矩估计法 (method of moments)、极大似然估计法 (maximum likelihood estimation)、假设检验 (hypothesis testing)、方差分析 (ANOVA)、回归分析 (regression analysis) 等。要掌握每种方法的原理、推导过程、适用条件和优缺点,理解方法的本质。
▮▮▮▮ⓒ 方法的步骤与应用 (Steps and Application of Methods): 学习统计方法要注重实践,要掌握方法的具体步骤,能够运用统计方法解决实际问题。例如,学习假设检验 (hypothesis testing),要掌握假设检验的步骤,包括提出假设、选择检验统计量、确定拒绝域、计算检验统计量、做出决策等,并能够运用假设检验方法解决实际问题。
④ 注重实践与练习 (Emphasis on Practice and Exercises):
▮▮▮▮ⓑ 理论联系实际 (Theory and Practice Integration): 数理统计是一门应用性很强的学科,学习数理统计要注重理论联系实际,将所学的理论知识应用于解决实际问题。可以通过阅读案例分析、做习题、进行数据分析项目等方式,提高应用能力。
▮▮▮▮ⓒ 习题练习 (Exercise Practice): 做习题是巩固知识、提高解题能力的重要手段。要认真完成教材中的习题,并适当选择一些难度适中的参考书进行练习。对于一些典型的例题和习题,要反复练习,熟练掌握解题技巧。
▮▮▮▮ⓓ 统计软件应用 (Statistical Software Application): 现代统计分析离不开统计软件。要学习使用常用的统计软件,如R, Python, SAS, SPSS等,掌握软件的基本操作和常用统计分析功能的实现。通过软件的应用,可以更高效地进行数据分析,验证理论知识,加深对统计方法的理解。
⑤ 培养统计思维 (Cultivating Statistical Thinking):
▮▮▮▮ⓑ 数据意识 (Data Awareness): 培养对数据的敏感性和重视程度,认识到数据是信息的重要载体,是科学研究的基础。要学会从数据中提取信息,发现规律,用数据说话。
▮▮▮▮ⓒ 概率思维 (Probabilistic Thinking): 培养用概率的观点看待随机现象的思维方式,理解随机性、不确定性,学会用概率模型描述和分析随机现象。
▮▮▮▮ⓓ 批判性思维 (Critical Thinking): 培养批判性思维能力,对统计分析结果进行审慎的评估,认识到统计推断的局限性,避免过度解读和误用统计方法。
⑥ 持续学习与探索 (Continuous Learning and Exploration):
▮▮▮▮ⓑ 关注学科发展 (Pay Attention to Disciplinary Development): 数理统计是一门不断发展的学科,要关注学科的最新发展动态,了解新的理论、方法和应用。可以通过阅读学术期刊、参加学术会议、关注统计学网站和博客等方式,保持对学科前沿的了解。
▮▮▮▮ⓒ 深入学习与研究 (In-depth Learning and Research): 如果想深入学习数理统计,可以进一步学习高级统计学课程,阅读经典的统计学著作,参与科研项目,进行深入的理论研究和方法探索。
总之,学习数理统计是一个循序渐进的过程,需要扎实的数学基础、正确的学习方法、大量的实践练习和持续的学习探索。 只要坚持不懈,就一定能够掌握数理统计的精髓,并将其应用于科学研究和实际问题中。
2. chapter 2: 概率论基础回顾 (Review of Probability Theory Fundamentals)
2.1 随机事件与概率 (Random Events and Probability)
2.1.1 样本空间与事件 (Sample Space and Events)
在数理统计学中,我们经常需要处理不确定性的现象,这些现象的结果无法事先准确预测,但可能的结果以及发生的可能性却有一定的规律性。概率论是研究这些随机现象规律性的数学工具,而数理统计则是应用概率论的理论来分析和推断现实世界中随机现象的学科。本章作为数理统计的预备知识,将回顾概率论中的基本概念和理论,为后续章节的学习打下坚实的基础。
首先,我们从样本空间 (sample space) 与 事件 (event) 这两个基本概念开始。
样本空间 (sample space),通常用 \( \Omega \) 或 \( S \) 表示,是随机试验所有可能结果的集合。样本空间中的每个元素称为样本点 (sample point) 或基本事件 (elementary event),用 \( \omega \) 表示。
例如,抛掷一枚硬币的试验,其样本空间可以表示为 \( \Omega = \{正面, 反面\} \)。如果用数字表示,可以记为 \( \Omega = \{H, T\} \) 或 \( \Omega = \{0, 1\} \)。
又如,掷骰子的试验,样本空间为 \( \Omega = \{1, 2, 3, 4, 5, 6\} \)。
再如,考察某地区一天的最高气温,样本空间可以是 \( \Omega = (-\infty, +\infty) \) 或更实际的 \( \Omega = [-50^\circ C, 50^\circ C] \)。
事件 (event) 是样本空间 \( \Omega \) 的子集,表示试验结果的某种集合。当试验结果落在事件所包含的样本点集合中时,称该事件发生。
例如,在掷骰子的试验中,事件 “掷出的点数为偶数” 可以表示为集合 \( A = \{2, 4, 6\} \)。如果掷骰子的结果是 2,则事件 \( A \) 发生。
根据事件中包含样本点的个数,可以将事件分为:
① 基本事件 (elementary event):由单个样本点组成的事件。例如,掷骰子试验中,事件 “掷出点数为 1” ,即 \( \{1\} \) 就是一个基本事件。
② 复合事件 (compound event):由多个样本点组成的事件。例如,掷骰子试验中,事件 “掷出点数为偶数” ,即 \( \{2, 4, 6\} \) 就是一个复合事件。
③ 必然事件 (certain event):每次试验都必然发生的事件,即样本空间 \( \Omega \) 本身。
④ 不可能事件 (impossible event):在试验中不可能发生的事件,即空集 \( \emptyset \)。
事件之间可以进行集合运算,常见的事件运算及其含义包括:
⚝ 并事件 (union of events):设 \( A \) 和 \( B \) 是两个事件,\( A \cup B \) 表示事件 \( A \) 或事件 \( B \) 至少有一个发生。
⚝ 交事件 (intersection of events):设 \( A \) 和 \( B \) 是两个事件,\( A \cap B \) 或 \( AB \) 表示事件 \( A \) 和事件 \( B \) 同时发生。
⚝ 差事件 (difference of events):设 \( A \) 和 \( B \) 是两个事件,\( A \setminus B \) 或 \( A - B \) 表示事件 \( A \) 发生但事件 \( B \) 不发生。
⚝ 互斥事件 (mutually exclusive events) 或 不相容事件 (disjoint events):如果 \( A \cap B = \emptyset \),则称事件 \( A \) 与事件 \( B \) 互斥,表示事件 \( A \) 和事件 \( B \) 不可能同时发生。
⚝ 对立事件 (complementary event) 或 逆事件 (opposite event):对于事件 \( A \),其对立事件记为 \( A^c \) 或 \( \bar{A} \),表示事件 \( A \) 不发生,\( A^c = \Omega \setminus A \)。
理解样本空间和事件的概念是进行概率计算的基础。在实际问题中,首先需要明确试验的样本空间,然后将所关心的结果表示为样本空间的子集,即事件。
2.1.2 概率的定义与性质 (Definition and Properties of Probability)
概率 (probability) 是用来衡量随机事件发生可能性大小的数值。对于每个事件 \( A \),我们希望赋予一个数值 \( P(A) \),来表示事件 \( A \) 发生的可能性大小。概率的严格定义建立在公理化的基础上。
概率的公理化定义 (axiomatic definition of probability) 由 Kolmogorov 提出,它基于以下三条公理:
设 \( \Omega \) 为样本空间,\( \mathcal{F} \) 是 \( \Omega \) 的某些子集构成的集合(称为事件域,满足一定的条件,通常可以简单理解为 \( \Omega \) 的所有子集构成的集合),对于 \( \mathcal{F} \) 中的每一个事件 \( A \),定义一个实值函数 \( P(A) \),若 \( P(A) \) 满足以下公理:
① 非负性 (non-negativity):对于任意事件 \( A \in \mathcal{F} \),有 \( P(A) \ge 0 \)。
② 规范性 (normalization):对于必然事件 \( \Omega \),有 \( P(\Omega) = 1 \)。
③ 可列可加性 (countable additivity):若 \( A_1, A_2, \dots \) 是一列互斥事件,即对于任意 \( i \ne j \),有 \( A_i \cap A_j = \emptyset \),则有
\[ P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) \]
满足以上三条公理的函数 \( P \) 称为概率 (probability) 或 概率测度 (probability measure)。
基于概率的公理化定义,可以推导出概率的一些重要性质:
① 不可能事件的概率 (probability of impossible event):\( P(\emptyset) = 0 \)。
证明: 因为 \( \Omega \cup \emptyset = \Omega \) 且 \( \Omega \cap \emptyset = \emptyset \),根据可列可加性(对于两个互斥事件的情况)有 \( P(\Omega \cup \emptyset) = P(\Omega) + P(\emptyset) \)。又因为 \( \Omega \cup \emptyset = \Omega \),所以 \( P(\Omega) = P(\Omega) + P(\emptyset) \),从而 \( P(\emptyset) = 0 \)。
② 有限可加性 (finite additivity):若 \( A_1, A_2, \dots, A_n \) 是一组互斥事件,则
\[ P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i=1}^{n} P(A_i) \]
这是可列可加性的直接推论,只需令 \( A_{n+1} = A_{n+2} = \dots = \emptyset \)。
③ 概率的有界性 (boundedness of probability):对于任意事件 \( A \),有 \( 0 \le P(A) \le 1 \)。
证明: 由非负性公理知 \( P(A) \ge 0 \)。又因为 \( A \subseteq \Omega \),所以 \( A \) 与 \( A^c \) 互斥,且 \( A \cup A^c = \Omega \)。根据有限可加性,\( P(A \cup A^c) = P(A) + P(A^c) \)。根据规范性,\( P(A \cup A^c) = P(\Omega) = 1 \)。由于 \( P(A^c) \ge 0 \),所以 \( P(A) = 1 - P(A^c) \le 1 \)。
④ 减法公式 (subtraction rule):对于事件 \( A \) 和 \( B \),若 \( B \subseteq A \),则 \( P(A \setminus B) = P(A) - P(B) \),且 \( P(B) \le P(A) \)。
证明: 因为 \( B \subseteq A \),所以 \( A = B \cup (A \setminus B) \) 且 \( B \cap (A \setminus B) = \emptyset \)。根据有限可加性,\( P(A) = P(B) + P(A \setminus B) \),从而 \( P(A \setminus B) = P(A) - P(B) \)。由于 \( P(A \setminus B) \ge 0 \),所以 \( P(B) \le P(A) \)。
⑤ 加法公式 (addition rule):对于任意两个事件 \( A \) 和 \( B \),有 \( P(A \cup B) = P(A) + P(B) - P(A \cap B) \)。
证明: 可以将 \( A \cup B \) 分解为三个互斥事件的并:\( A \cup B = A \cup (B \setminus A) = A \cup (B \cap A^c) \)。且 \( B = (A \cap B) \cup (B \setminus A) = (A \cap B) \cup (B \cap A^c) \)。根据有限可加性,
\( P(A \cup B) = P(A) + P(B \setminus A) \)
\( P(B) = P(A \cap B) + P(B \setminus A) \)
从第二个式子得到 \( P(B \setminus A) = P(B) - P(A \cap B) \)。代入第一个式子,得到 \( P(A \cup B) = P(A) + P(B) - P(A \cap B) \)。
⑥ 对立事件的概率 (probability of complementary event):对于任意事件 \( A \),\( P(A^c) = 1 - P(A) \)。
*这是加法公式的特殊情况,令 \( B = A^c \),由于 \( A \cup A^c = \Omega \) 且 \( A \cap A^c = \emptyset \),所以 \( P(A \cup A^c) = P(A) + P(A^c) - P(A \cap A^c) = P(A) + P(A^c) - P(\emptyset) = P(A) + P(A^c) \)。又 \( P(A \cup A^c) = P(\Omega) = 1 \),所以 \( 1 = P(A) + P(A^c) \),从而 \( P(A^c) = 1 - P(A) \)。
在实际计算概率时,除了使用上述性质,还需要根据具体情况选择合适的概率模型。对于样本空间有限且样本点等可能出现的情况,可以使用古典概型 (classical probability model)。对于可以重复进行试验,且每次试验结果的概率稳定的情况,可以使用频率 (frequency) 来近似概率,当试验次数趋于无穷时,频率的极限可以作为概率的定义,这体现了频率学派 (frequentist school) 的思想。而主观概率 (subjective probability) 则允许概率带有一定的主观性,适用于一些无法重复试验或样本空间难以确定的情况,这与贝叶斯学派 (Bayesian school) 的观点相符,将在后续章节中进一步介绍。
2.2 随机变量及其分布 (Random Variables and Their Distributions)
2.2.1 随机变量的类型 (Types of Random Variables)
在概率论中,为了更方便地用数学工具研究随机现象,我们引入了随机变量 (random variable) 的概念。随机变量 是定义在样本空间 \( \Omega \) 上的实值函数 \( X: \Omega \to \mathbb{R} \),它将每个样本点 \( \omega \in \Omega \) 映射到一个实数 \( X(\omega) \)。简单来说,随机变量就是用数值来表示随机试验的结果。
根据随机变量取值的不同情况,可以将其分为离散型随机变量 (discrete random variable) 和 连续型随机变量 (continuous random variable)。
① 离散型随机变量 (discrete random variable):如果随机变量 \( X \) 的取值是有限个或可列无限个,则称 \( X \) 为离散型随机变量。离散型随机变量的取值可以用列表的方式一一列举出来。
例如,掷骰子的点数 \( X \in \{1, 2, 3, 4, 5, 6\} \) 是离散型随机变量。某工厂一天内发生的机器故障次数 \( Y \in \{0, 1, 2, \dots\} \) 也是离散型随机变量。
② 连续型随机变量 (continuous random variable):如果随机变量 \( X \) 的取值充满一个区间或几个区间的并集,且无法一一列举,则称 \( X \) 为连续型随机变量。连续型随机变量的取值可以是区间内的任意实数。
例如,某人的身高 \( H \in [0, 3] \) (单位:米) 可以看作是连续型随机变量。某地区一天的最高气温 \( T \in [-50, 50] \) (单位:摄氏度) 也可以看作是连续型随机变量。
需要注意的是,离散型和连续型是两种基本的随机变量类型,但在实际应用中,也可能遇到既非离散型又非连续型的随机变量,例如混合型随机变量。不过,在初等数理统计中,我们主要关注离散型和连续型随机变量。
2.2.2 离散型随机变量及其分布 (Discrete Random Variables and Their Distributions)
对于离散型随机变量 \( X \),描述其概率规律性,最重要的是给出其概率质量函数 (probability mass function, PMF) 或 分布律 (probability distribution)。
设离散型随机变量 \( X \) 的所有可能取值为 \( x_1, x_2, \dots \)。概率质量函数 (PMF) 定义为:
\[ p(x_i) = P(X = x_i), \quad i = 1, 2, \dots \]
概率质量函数 \( p(x_i) \) 表示随机变量 \( X \) 取值为 \( x_i \) 的概率。概率质量函数需要满足以下两个条件:
① 非负性 (non-negativity):\( p(x_i) \ge 0 \) 对于所有 \( i \)。
② 规范性 (normalization):\( \sum_{i} p(x_i) = 1 \)。
离散型随机变量的累积分布函数 (cumulative distribution function, CDF) 定义为:
\[ F(x) = P(X \le x) = \sum_{x_i \le x} p(x_i) \]
累积分布函数 \( F(x) \) 表示随机变量 \( X \) 取值小于等于 \( x \) 的概率。对于离散型随机变量,累积分布函数是阶梯函数,在随机变量的取值点处发生跳跃。
例 2.1 考虑抛掷一枚均匀硬币两次的试验。样本空间为 \( \Omega = \{ (H, H), (H, T), (T, H), (T, T) \} \)。设随机变量 \( X \) 表示两次抛掷中出现正面的次数。则 \( X \) 的可能取值为 0, 1, 2。
\( P(X = 0) = P(\{(T, T)\}) = \frac{1}{4} \)
\( P(X = 1) = P(\{(H, T), (T, H)\}) = \frac{2}{4} = \frac{1}{2} \)
\( P(X = 2) = P(\{(H, H)\}) = \frac{1}{4} \)
因此,\( X \) 的概率质量函数为:
\[ p(x) = \begin{cases} \frac{1}{4}, & x = 0 \\ \frac{1}{2}, & x = 1 \\ \frac{1}{4}, & x = 2 \\ 0, & \text{其他} \end{cases} \]
\( X \) 的累积分布函数为:
\[ F(x) = \begin{cases} 0, & x < 0 \\ \frac{1}{4}, & 0 \le x < 1 \\ \frac{3}{4}, & 1 \le x < 2 \\ 1, & x \ge 2 \end{cases} \]
2.2.3 连续型随机变量及其分布 (Continuous Random Variables and Their Distributions)
对于连续型随机变量 \( X \),由于其取值是连续的,取到任何一个特定值的概率都为 0,即对于任意实数 \( x \),\( P(X = x) = 0 \)。因此,不能像离散型随机变量那样用概率质量函数来描述其分布。描述连续型随机变量分布的关键是概率密度函数 (probability density function, PDF)。
概率密度函数 (PDF) \( f(x) \) 是一个非负函数,满足以下条件:
① 非负性 (non-negativity):\( f(x) \ge 0 \) 对于所有 \( x \in \mathbb{R} \)。
② 规范性 (normalization):\( \int_{-\infty}^{\infty} f(x) dx = 1 \)。
③ 对于任意区间 \( (a, b] \),随机变量 \( X \) 取值在区间 \( (a, b] \) 内的概率为:
\[ P(a < X \le b) = \int_{a}^{b} f(x) dx \]
连续型随机变量的累积分布函数 (CDF) 定义为:
\[ F(x) = P(X \le x) = \int_{-\infty}^{x} f(t) dt \]
累积分布函数 \( F(x) \) 表示随机变量 \( X \) 取值小于等于 \( x \) 的概率。对于连续型随机变量,累积分布函数是连续函数。概率密度函数 \( f(x) \) 是累积分布函数 \( F(x) \) 的导数,即 \( f(x) = F'(x) \) (在 \( F(x) \) 可导的点处)。
例 2.2 设随机变量 \( X \) 的概率密度函数为:
\[ f(x) = \begin{cases} \frac{1}{2}, & -1 < x < 1 \\ 0, & \text{其他} \end{cases} \]
这是一个均匀分布 (uniform distribution) 的概率密度函数,在区间 \( (-1, 1) \) 上取常数值 \( \frac{1}{2} \),区间长度为 2,保证了积分值为 1。
计算 \( P(0 < X \le 0.5) \):
\[ P(0 < X \le 0.5) = \int_{0}^{0.5} f(x) dx = \int_{0}^{0.5} \frac{1}{2} dx = \frac{1}{2} x \Big|_{0}^{0.5} = \frac{1}{2} \times 0.5 = \frac{1}{4} \]
计算 \( X \) 的累积分布函数 \( F(x) \):
当 \( x \le -1 \) 时,\( F(x) = \int_{-\infty}^{x} 0 dt = 0 \)。
当 \( -1 < x < 1 \) 时,\( F(x) = \int_{-\infty}^{x} f(t) dt = \int_{-1}^{x} \frac{1}{2} dt = \frac{1}{2} t \Big|_{-1}^{x} = \frac{1}{2} (x - (-1)) = \frac{x+1}{2} \)。
当 \( x \ge 1 \) 时,\( F(x) = \int_{-\infty}^{x} f(t) dt = \int_{-1}^{1} \frac{1}{2} dt = 1 \)。
因此,\( X \) 的累积分布函数为:
\[ F(x) = \begin{cases} 0, & x \le -1 \\ \frac{x+1}{2}, & -1 < x < 1 \\ 1, & x \ge 1 \end{cases} \]
2.3 多维随机变量及其分布 (Multivariate Random Variables and Their Distributions)
2.3.1 联合分布、边缘分布与条件分布 (Joint Distribution, Marginal Distribution, and Conditional Distribution)
在实际问题中,我们常常需要同时研究多个随机变量。例如,在研究一个人的健康状况时,可能需要同时考虑其身高、体重、血压等多个指标。多维随机变量 (multivariate random variable) 就是用来描述这种同时考虑多个随机变量的情况。
以二维随机变量 \( (X, Y) \) 为例,它是由两个随机变量 \( X \) 和 \( Y \) 组成的向量。描述二维随机变量 \( (X, Y) \) 的分布,需要用到联合分布函数 (joint distribution function)。
联合分布函数 (joint CDF) 定义为:
\[ F(x, y) = P(X \le x, Y \le y) \]
\( F(x, y) \) 表示事件 \( \{X \le x\} \) 和 \( \{Y \le y\} \) 同时发生的概率。
如果 \( X \) 和 \( Y \) 都是离散型随机变量,则 \( (X, Y) \) 是二维离散型随机变量。其联合概率质量函数 (joint PMF) 定义为:
\[ p(x_i, y_j) = P(X = x_i, Y = y_j) \]
联合 PMF 满足 \( p(x_i, y_j) \ge 0 \) 和 \( \sum_{i} \sum_{j} p(x_i, y_j) = 1 \)。
如果 \( X \) 和 \( Y \) 都是连续型随机变量,则 \( (X, Y) \) 是二维连续型随机变量。其联合概率密度函数 (joint PDF) \( f(x, y) \) 是一个非负函数,满足 \( f(x, y) \ge 0 \) 和 \( \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) dx dy = 1 \)。对于区域 \( D \subseteq \mathbb{R}^2 \),\( P((X, Y) \in D) = \iint_{D} f(x, y) dx dy \)。
边缘分布 (marginal distribution) 是指在多维随机变量中,单独考虑某个或某些维度随机变量的分布。对于二维随机变量 \( (X, Y) \),\( X \) 的边缘分布函数 (marginal CDF) 为:
\[ F_X(x) = P(X \le x) = P(X \le x, Y < \infty) = \lim_{y \to \infty} F(x, y) \]
\( Y \) 的边缘分布函数 (marginal CDF) 为:
\[ F_Y(y) = P(Y \le y) = P(X < \infty, Y \le y) = \lim_{x \to \infty} F(x, y) \]
对于二维离散型随机变量,\( X \) 的边缘概率质量函数 (marginal PMF) 为:
\[ p_X(x_i) = P(X = x_i) = \sum_{j} P(X = x_i, Y = y_j) = \sum_{j} p(x_i, y_j) \]
\( Y \) 的边缘概率质量函数 (marginal PMF) 为:
\[ p_Y(y_j) = P(Y = y_j) = \sum_{i} P(X = x_i, Y = y_j) = \sum_{i} p(x_i, y_j) \]
对于二维连续型随机变量,\( X \) 的边缘概率密度函数 (marginal PDF) 为:
\[ f_X(x) = \int_{-\infty}^{\infty} f(x, y) dy \]
\( Y \) 的边缘概率密度函数 (marginal PDF) 为:
\[ f_Y(y) = \int_{-\infty}^{\infty} f(x, y) dx \]
条件分布 (conditional distribution) 是指在给定某些事件发生的条件下,研究其他随机变量的分布。对于二维随机变量 \( (X, Y) \),在给定 \( Y = y_j \) 的条件下,\( X \) 的条件概率质量函数 (conditional PMF) 为:
\[ p_{X|Y}(x_i|y_j) = P(X = x_i | Y = y_j) = \frac{P(X = x_i, Y = y_j)}{P(Y = y_j)} = \frac{p(x_i, y_j)}{p_Y(y_j)}, \quad \text{若 } p_Y(y_j) > 0 \]
在给定 \( Y = y \) 的条件下,\( X \) 的条件概率密度函数 (conditional PDF) 为:
\[ f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)}, \quad \text{若 } f_Y(y) > 0 \]
类似地,可以定义 \( Y \) 在给定 \( X \) 条件下的条件分布。
2.3.2 随机变量的独立性 (Independence of Random Variables)
随机变量的独立性 (independence of random variables) 是概率论中一个非常重要的概念。它描述了多个随机变量之间是否相互影响。
对于两个随机变量 \( X \) 和 \( Y \),如果对于任意实数 \( x \) 和 \( y \),都有
\[ P(X \le x, Y \le y) = P(X \le x) P(Y \le y) \]
即联合分布函数等于边缘分布函数的乘积,则称随机变量 \( X \) 和 \( Y \) 相互独立 (independent)。
对于离散型随机变量 \( X \) 和 \( Y \),相互独立等价于对于所有可能的取值 \( x_i \) 和 \( y_j \),都有
\[ P(X = x_i, Y = y_j) = P(X = x_i) P(Y = y_j) \]
即联合概率质量函数等于边缘概率质量函数的乘积:\( p(x_i, y_j) = p_X(x_i) p_Y(y_j) \)。
对于连续型随机变量 \( X \) 和 \( Y \),相互独立等价于对于所有实数 \( x \) 和 \( y \),都有
\[ f(x, y) = f_X(x) f_Y(y) \]
即联合概率密度函数等于边缘概率密度函数的乘积。
推广到多个随机变量 \( X_1, X_2, \dots, X_n \),它们相互独立是指对于任意 \( n \) 个实数 \( x_1, x_2, \dots, x_n \),都有
\[ P(X_1 \le x_1, X_2 \le x_2, \dots, X_n \le x_n) = P(X_1 \le x_1) P(X_2 \le x_2) \dots P(X_n \le x_n) \]
对于离散型随机变量,联合 PMF 等于边缘 PMF 的乘积;对于连续型随机变量,联合 PDF 等于边缘 PDF 的乘积。
随机变量的独立性在数理统计中非常重要,很多统计方法都基于样本的独立性假设。例如,简单随机抽样 (simple random sampling) 得到的样本,通常就假设是独立同分布的。
2.4 随机变量的数字特征 (Numerical Characteristics of Random Variables)
2.4.1 期望 (Expectation)
期望 (expectation),也称为均值 (mean) 或数学期望 (mathematical expectation),是随机变量最重要的数字特征之一,它反映了随机变量取值的平均水平。
对于离散型随机变量 \( X \),其期望定义为:
\[ E(X) = \sum_{i} x_i p(x_i) = \sum_{i} x_i P(X = x_i) \]
其中求和是对 \( X \) 的所有可能取值 \( x_i \) 进行的,前提是级数绝对收敛,即 \( \sum_{i} |x_i| p(x_i) < \infty \)。
对于连续型随机变量 \( X \),其期望定义为:
\[ E(X) = \int_{-\infty}^{\infty} x f(x) dx \]
前提是积分绝对收敛,即 \( \int_{-\infty}^{\infty} |x| f(x) dx < \infty \)。
期望具有重要的性质,例如线性性 (linearity):对于常数 \( a, b \) 和随机变量 \( X, Y \),有
\[ E(aX + bY) = aE(X) + bE(Y) \]
这个性质对离散型和连续型随机变量都成立,且可以推广到多个随机变量的线性组合。
例 2.3 计算例 2.1 中随机变量 \( X \) (两次抛掷硬币正面次数) 的期望。
\( X \) 的 PMF 为:\( p(0) = \frac{1}{4}, p(1) = \frac{1}{2}, p(2) = \frac{1}{4} \)。
\[ E(X) = 0 \times p(0) + 1 \times p(1) + 2 \times p(2) = 0 \times \frac{1}{4} + 1 \times \frac{1}{2} + 2 \times \frac{1}{4} = 0 + \frac{1}{2} + \frac{1}{2} = 1 \]
平均来说,两次抛掷硬币,正面朝上的次数期望为 1 次。
例 2.4 计算例 2.2 中均匀分布随机变量 \( X \) 的期望。
\( X \) 的 PDF 为:\( f(x) = \begin{cases} \frac{1}{2}, & -1 < x < 1 \\ 0, & \text{其他} \end{cases} \)。
\[ E(X) = \int_{-\infty}^{\infty} x f(x) dx = \int_{-1}^{1} x \cdot \frac{1}{2} dx = \frac{1}{2} \int_{-1}^{1} x dx = \frac{1}{2} \cdot \frac{x^2}{2} \Big|_{-1}^{1} = \frac{1}{4} (1^2 - (-1)^2) = \frac{1}{4} (1 - 1) = 0 \]
均匀分布在 \( (-1, 1) \) 区间上的随机变量,其期望为 0,这符合直观,因为分布关于原点对称。
2.4.2 方差 (Variance)
方差 (variance) 是衡量随机变量取值分散程度的数字特征。它反映了随机变量取值偏离期望值的平均程度。
随机变量 \( X \) 的方差定义为:
\[ Var(X) = E\left([X - E(X)]^2\right) \]
记 \( \mu = E(X) \),则 \( Var(X) = E\left((X - \mu)^2\right) \)。
对于离散型随机变量 \( X \),方差的计算公式为:
\[ Var(X) = \sum_{i} (x_i - \mu)^2 p(x_i) = \sum_{i} (x_i - \mu)^2 P(X = x_i) \]
对于连续型随机变量 \( X \),方差的计算公式为:
\[ Var(X) = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx \]
方差的常用计算公式为:
\[ Var(X) = E(X^2) - [E(X)]^2 = E(X^2) - \mu^2 \]
其中 \( E(X^2) \) 的计算方法为:
对于离散型随机变量:\( E(X^2) = \sum_{i} x_i^2 p(x_i) \)
对于连续型随机变量:\( E(X^2) = \int_{-\infty}^{\infty} x^2 f(x) dx \)
标准差 (standard deviation) 是方差的算术平方根,记为 \( \sigma_X = \sqrt{Var(X)} \) 或简记为 \( \sigma \)。标准差与随机变量 \( X \) 的单位相同,更直观地反映了数据的离散程度。
方差的重要性质:
① 非负性 (non-negativity):\( Var(X) \ge 0 \)。
② 对于常数 \( c \),\( Var(c) = 0 \)。
③ 对于常数 \( a, b \) 和随机变量 \( X \),\( Var(aX + b) = a^2 Var(X) \)。
证明: \( E(aX + b) = aE(X) + b \)。
\( Var(aX + b) = E\left([(aX + b) - E(aX + b)]^2\right) = E\left([aX + b - (aE(X) + b)]^2\right) = E\left([a(X - E(X))]^2\right) = E\left(a^2 [X - E(X)]^2\right) = a^2 E\left([X - E(X)]^2\right) = a^2 Var(X) \)。
例 2.5 计算例 2.1 中随机变量 \( X \) (两次抛掷硬币正面次数) 的方差。
已知 \( E(X) = 1 \)。先计算 \( E(X^2) \)。
\( E(X^2) = 0^2 \times p(0) + 1^2 \times p(1) + 2^2 \times p(2) = 0^2 \times \frac{1}{4} + 1^2 \times \frac{1}{2} + 2^2 \times \frac{1}{4} = 0 + \frac{1}{2} + 1 = \frac{3}{2} \)。
\( Var(X) = E(X^2) - [E(X)]^2 = \frac{3}{2} - 1^2 = \frac{3}{2} - 1 = \frac{1}{2} \)。
例 2.6 计算例 2.2 中均匀分布随机变量 \( X \) 的方差。
已知 \( E(X) = 0 \)。先计算 \( E(X^2) \)。
\( E(X^2) = \int_{-1}^{1} x^2 f(x) dx = \int_{-1}^{1} x^2 \cdot \frac{1}{2} dx = \frac{1}{2} \int_{-1}^{1} x^2 dx = \frac{1}{2} \cdot \frac{x^3}{3} \Big|_{-1}^{1} = \frac{1}{6} (1^3 - (-1)^3) = \frac{1}{6} (1 - (-1)) = \frac{1}{6} \times 2 = \frac{1}{3} \)。
\( Var(X) = E(X^2) - [E(X)]^2 = \frac{1}{3} - 0^2 = \frac{1}{3} \)。
2.4.3 协方差与相关系数 (Covariance and Correlation Coefficient)
协方差 (covariance) 是衡量两个随机变量之间线性相关程度的数字特征。对于二维随机变量 \( (X, Y) \),其协方差定义为:
\[ Cov(X, Y) = E\left([X - E(X)][Y - E(Y)]\right) \]
记 \( \mu_X = E(X), \mu_Y = E(Y) \),则 \( Cov(X, Y) = E\left((X - \mu_X)(Y - \mu_Y)\right) \)。
协方差的常用计算公式为:
\[ Cov(X, Y) = E(XY) - E(X)E(Y) = E(XY) - \mu_X \mu_Y \]
其中 \( E(XY) \) 的计算方法为:
对于二维离散型随机变量:\( E(XY) = \sum_{i} \sum_{j} x_i y_j p(x_i, y_j) \)
对于二维连续型随机变量:\( E(XY) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xy f(x, y) dx dy \)
协方差的重要性质:
① \( Cov(X, Y) = Cov(Y, X) \) (对称性)。
② \( Cov(X, X) = Var(X) \)。
③ 对于常数 \( a, b, c, d \) 和随机变量 \( X, Y \),\( Cov(aX + b, cY + d) = ac Cov(X, Y) \)。
证明: \( E(aX + b) = aE(X) + b, E(cY + d) = cE(Y) + d \)。
\( Cov(aX + b, cY + d) = E\left([(aX + b) - E(aX + b)][(cY + d) - E(cY + d)]\right) = E\left([a(X - E(X))][c(Y - E(Y))]\right) = ac E\left([X - E(X)][Y - E(Y)]\right) = ac Cov(X, Y) \)。
④ 若 \( X \) 和 \( Y \) 相互独立,则 \( Cov(X, Y) = 0 \)。
证明: 若 \( X \) 和 \( Y \) 相互独立,则 \( E(XY) = E(X)E(Y) \)。因此 \( Cov(X, Y) = E(XY) - E(X)E(Y) = E(X)E(Y) - E(X)E(Y) = 0 \)。
注意,协方差为 0 并不能推出随机变量相互独立,只有对于正态分布随机变量,协方差为 0 与相互独立等价。
相关系数 (correlation coefficient) 是对协方差进行标准化后的量,它也是衡量两个随机变量之间线性相关程度的数字特征,且取值在 \([-1, 1]\) 之间,更方便比较不同随机变量之间的相关程度。
随机变量 \( X \) 和 \( Y \) 的相关系数定义为:
\[ \rho_{XY} = Corr(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}} = \frac{Cov(X, Y)}{\sigma_X \sigma_Y} \]
其中 \( \sigma_X = \sqrt{Var(X)}, \sigma_Y = \sqrt{Var(Y)} \) 分别是 \( X \) 和 \( Y \) 的标准差。
相关系数 \( \rho_{XY} \) 的性质:
① \( -1 \le \rho_{XY} \le 1 \)。
② 若 \( \rho_{XY} = 0 \),称 \( X \) 和 \( Y \) 不相关 (uncorrelated),表示 \( X \) 和 \( Y \) 之间没有线性关系。
③ 若 \( \rho_{XY} = 1 \),称 \( X \) 和 \( Y \) 完全正相关 (perfectly positively correlated),表示 \( Y \) 近似地线性增加时,\( X \) 也线性增加。
④ 若 \( \rho_{XY} = -1 \),称 \( X \) 和 \( Y \) 完全负相关 (perfectly negatively correlated),表示 \( Y \) 近似地线性增加时,\( X \) 线性减小。
⑤ \( |\rho_{XY}| \) 越接近 1,\( X \) 和 \( Y \) 之间的线性相关程度越强;\( |\rho_{XY}| \) 越接近 0,线性相关程度越弱。
例 2.7 设二维离散型随机变量 \( (X, Y) \) 的联合概率质量函数如下:
\( X \backslash Y \) | -1 | 0 | 1 |
---|---|---|---|
-1 | 1/8 | 1/4 | 1/8 |
1 | 1/8 | 1/4 | 1/8 |
计算 \( Cov(X, Y) \) 和 \( \rho_{XY} \)。
首先计算边缘分布:
\( p_X(-1) = p(-1, -1) + p(-1, 0) + p(-1, 1) = \frac{1}{8} + \frac{1}{4} + \frac{1}{8} = \frac{1}{2} \)
\( p_X(1) = p(1, -1) + p(1, 0) + p(1, 1) = \frac{1}{8} + \frac{1}{4} + \frac{1}{8} = \frac{1}{2} \)
\( p_Y(-1) = p(-1, -1) + p(1, -1) = \frac{1}{8} + \frac{1}{8} = \frac{1}{4} \)
\( p_Y(0) = p(-1, 0) + p(1, 0) = \frac{1}{4} + \frac{1}{4} = \frac{1}{2} \)
\( p_Y(1) = p(-1, 1) + p(1, 1) = \frac{1}{8} + \frac{1}{8} = \frac{1}{4} \)
计算期望:
\( E(X) = (-1) \times p_X(-1) + 1 \times p_X(1) = (-1) \times \frac{1}{2} + 1 \times \frac{1}{2} = 0 \)
\( E(Y) = (-1) \times p_Y(-1) + 0 \times p_Y(0) + 1 \times p_Y(1) = (-1) \times \frac{1}{4} + 0 \times \frac{1}{2} + 1 \times \frac{1}{4} = 0 \)
计算 \( E(XY) \):
\( E(XY) = \sum_{x} \sum_{y} xy p(x, y) \)
\( = (-1) \times (-1) \times p(-1, -1) + (-1) \times 0 \times p(-1, 0) + (-1) \times 1 \times p(-1, 1) \)
\( + 1 \times (-1) \times p(1, -1) + 1 \times 0 \times p(1, 0) + 1 \times 1 \times p(1, 1) \)
\( = 1 \times \frac{1}{8} + 0 + (-1) \times \frac{1}{8} + (-1) \times \frac{1}{8} + 0 + 1 \times \frac{1}{8} = \frac{1}{8} - \frac{1}{8} - \frac{1}{8} + \frac{1}{8} = 0 \)
计算协方差:
\( Cov(X, Y) = E(XY) - E(X)E(Y) = 0 - 0 \times 0 = 0 \)
由于协方差为 0,所以相关系数也为 0,\( \rho_{XY} = 0 \)。因此,\( X \) 和 \( Y \) 不相关。
本章回顾了概率论的基本概念,包括样本空间与事件、概率的定义与性质、随机变量及其分布、多维随机变量及其分布、随机变量的独立性以及随机变量的数字特征(期望、方差、协方差与相关系数)。这些概念是学习数理统计的基础,后续章节将在此基础上,介绍统计推断的基本理论和方法。
3. chapter 3: 常用概率分布 (Common Probability Distributions)
3.1 离散型分布 (Discrete Distributions)
离散型分布 (Discrete Distributions) 描述的是取值只能为可列个数值的随机变量的概率分布。这些数值通常是整数,例如 0, 1, 2, ...。离散型分布通过概率质量函数 (Probability Mass Function, PMF) 来描述,PMF 给出了随机变量取每个特定值的概率。
3.1.1 伯努利分布 (Bernoulli Distribution)
伯努利分布 (Bernoulli Distribution),又称两点分布或 0-1 分布,是最简单的离散型分布。它描述了一次只有两种可能结果的随机试验,例如抛硬币,结果可以是正面或反面;或者考察一个产品是否合格,结果可以是合格或不合格。
① 定义:
伯努利分布描述了一次试验中成功的概率为 \(p\),失败的概率为 \(1-p\) 的情况。随机变量 \(X\) 服从参数为 \(p\) 的伯努利分布,记作 \(X \sim Bernoulli(p)\)。其概率质量函数 (PMF) 为:
\[ P(X=k) = \begin{cases} p, & \text{if } k=1 \\ 1-p, & \text{if } k=0 \\ 0, & \text{otherwise} \end{cases} \]
其中,\(0 \le p \le 1\),\(k\) 取值为 0 或 1。通常用 \(X=1\) 表示成功,\(X=0\) 表示失败。
② 期望与方差:
对于服从伯努利分布 \(Bernoulli(p)\) 的随机变量 \(X\),其期望 \(E(X)\) 和方差 \(Var(X)\) 分别为:
⚝ 期望 (Expectation):\(E(X) = 1 \cdot p + 0 \cdot (1-p) = p\)
⚝ 方差 (Variance):\(Var(X) = E(X^2) - [E(X)]^2 = (1^2 \cdot p + 0^2 \cdot (1-p)) - p^2 = p - p^2 = p(1-p)\)
③ 应用场景:
伯努利分布在实际应用中非常广泛,是许多更复杂分布的基础。
⚝ 例如,在质量控制中,检验一个产品是否为次品可以看作是一次伯努利试验。
⚝ 在医学研究中,考察一个病人接受某种治疗后是否有效也可以用伯努利分布来描述。
⚝ 在调查研究中,询问一个人是否支持某个观点,其回答(支持或不支持)也可以视为伯努利试验的结果。
3.1.2 二项分布 (Binomial Distribution)
二项分布 (Binomial Distribution) 是对伯努利分布的推广。它描述了在 \(n\) 次独立重复的伯努利试验中,成功的次数的分布。每次试验的成功概率都为 \(p\)。
① 定义:
设在 \(n\) 次独立重复的伯努利试验中,每次试验成功的概率为 \(p\),失败的概率为 \(1-p\)。随机变量 \(X\) 表示 \(n\) 次试验中成功的次数,则 \(X\) 服从参数为 \(n\) 和 \(p\) 的二项分布,记作 \(X \sim Binomial(n, p)\) 或 \(X \sim B(n, p)\)。其概率质量函数 (PMF) 为:
\[ P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n \]
其中,\(\binom{n}{k} = \frac{n!}{k!(n-k)!}\) 是二项系数,表示从 \(n\) 次试验中选择 \(k\) 次成功的组合数。
② 期望与方差:
对于服从二项分布 \(Binomial(n, p)\) 的随机变量 \(X\),其期望 \(E(X)\) 和方差 \(Var(X)\) 分别为:
⚝ 期望 (Expectation):\(E(X) = np\)
⚝ 方差 (Variance):\(Var(X) = np(1-p)\)
③ 性质:
⚝ 可加性:若 \(X_1 \sim Binomial(n_1, p)\) 和 \(X_2 \sim Binomial(n_2, p)\) 且 \(X_1\) 和 \(X_2\) 相互独立,则 \(X_1 + X_2 \sim Binomial(n_1 + n_2, p)\)。
⚝ 当 \(n=1\) 时,二项分布退化为伯努利分布。
④ 应用场景:
二项分布在需要计算多次独立重复试验成功次数的概率问题中非常有用。
⚝ 例如,在产品抽样检验中,从一批产品中随机抽取 \(n\) 个进行检验,若每个产品是不合格品的概率为 \(p\),则抽取的 \(n\) 个产品中不合格品数量就服从二项分布。
⚝ 在市场调查中,调查 \(n\) 个顾客对某种产品的满意度,若每个顾客满意的概率为 \(p\),则 \(n\) 个顾客中满意的人数服从二项分布。
⚝ 在遗传学中,研究后代性状分离比时,如果每次后代个体性状的出现是独立的,且某种性状出现的概率为 \(p\),则在 \(n\) 个后代中,出现该性状的个体数服从二项分布。
3.1.3 泊松分布 (Poisson Distribution)
泊松分布 (Poisson Distribution) 描述了在给定时间或空间区域内,稀有事件发生的次数的概率分布。这里的“稀有事件”指的是在单位时间或单位面积内发生概率很小的事件。
① 定义:
随机变量 \(X\) 服从参数为 \(\lambda > 0\) 的泊松分布,记作 \(X \sim Poisson(\lambda)\) 或 \(X \sim P(\lambda)\)。其概率质量函数 (PMF) 为:
\[ P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k = 0, 1, 2, \ldots \]
其中,\(\lambda\) 是单位时间或单位面积内事件发生的平均次数,\(e\) 是自然常数(约等于 2.71828)。
② 期望与方差:
对于服从泊松分布 \(Poisson(\lambda)\) 的随机变量 \(X\),其期望 \(E(X)\) 和方差 \(Var(X)\) 均为 \(\lambda\)。
⚝ 期望 (Expectation):\(E(X) = \lambda\)
⚝ 方差 (Variance):\(Var(X) = \lambda\)
③ 泊松分布与二项分布的关系:
当二项分布的试验次数 \(n\) 很大,而成功概率 \(p\) 很小,使得 \(np = \lambda\) 适中时(通常 \(n \ge 20, p \le 0.05\)),二项分布 \(Binomial(n, p)\) 可以近似为泊松分布 \(Poisson(\lambda)\),即 \(Binomial(n, p) \approx Poisson(np)\)。
这个近似在实际应用中非常重要,因为当 \(n\) 很大时,计算二项分布的概率非常复杂,而泊松分布的计算则相对简单。
④ 应用场景:
泊松分布广泛应用于描述单位时间或空间内稀有事件的发生次数。
⚝ 例如,在一定时间内,某交通路口发生交通事故的次数。
⚝ 在一定时间内,某电话交换台收到的呼叫次数。
⚝ 在一定面积内,某地区发现的某种稀有植物的株数。
⚝ 在生物学中,单位体积的培养液中细菌的个数。
⚝ 在排队论中,单位时间内到达服务台的顾客数。
⚝ 在风险管理中,一年内发生的重大事故次数。
3.1.4 几何分布 (Geometric Distribution)
几何分布 (Geometric Distribution) 描述了在多次独立的伯努利试验中,直到第一次成功发生所需的试验次数的分布。每次试验的成功概率为 \(p\)。几何分布有两种常见的定义方式,分别描述首次成功发生所需的试验次数(包括首次成功的那次试验)和首次成功发生前失败的次数。这里我们主要介绍第一种定义。
① 定义:
随机变量 \(X\) 表示在独立重复的伯努利试验中,直到第一次成功发生所需的试验次数。每次试验成功的概率为 \(p\),失败的概率为 \(1-p\)。则 \(X\) 服从参数为 \(p\) 的几何分布,记作 \(X \sim Geometric(p)\)。其概率质量函数 (PMF) 为:
\[ P(X=k) = (1-p)^{k-1} p, \quad k = 1, 2, 3, \ldots \]
其中,\(k\) 表示第一次成功发生在第 \(k\) 次试验。
② 期望与方差:
对于服从几何分布 \(Geometric(p)\) 的随机变量 \(X\),其期望 \(E(X)\) 和方差 \(Var(X)\) 分别为:
⚝ 期望 (Expectation):\(E(X) = \frac{1}{p}\)
⚝ 方差 (Variance):\(Var(X) = \frac{1-p}{p^2}\)
③ 无记忆性 (Memoryless Property):
几何分布具有无记忆性,这意味着未来事件的发生与过去事件的发生无关。具体来说,对于任意正整数 \(m\) 和 \(n\),有:
\[ P(X > m+n \mid X > m) = P(X > n) \]
这意味着,如果在前 \(m\) 次试验中都没有成功,那么从第 \(m+1\) 次试验开始,直到第一次成功所需的试验次数的分布,与从第一次试验开始直到第一次成功所需的试验次数的分布相同。
④ 应用场景:
几何分布常用于描述等待首次成功的等待时间问题。
⚝ 例如,在产品质量检验中,逐个检验产品直到发现第一个次品,检验的产品数量服从几何分布。
⚝ 在市场营销中,不断给潜在客户打电话直到成功推销出产品,拨打电话的次数服从几何分布。
⚝ 在生物学中,观察动物交配,直到第一次成功受孕,交配次数服从几何分布。
⚝ 在游戏中,不断投篮直到第一次投中,投篮次数服从几何分布。
3.2 连续型分布 (Continuous Distributions)
连续型分布 (Continuous Distributions) 描述的是取值可以连续变化的随机变量的概率分布。连续型分布通过概率密度函数 (Probability Density Function, PDF) 来描述,PDF 在某区间上的积分表示随机变量取该区间内值的概率。
3.2.1 均匀分布 (Uniform Distribution)
均匀分布 (Uniform Distribution) 是最简单的连续型分布之一。它描述了在给定区间内,随机变量取任何值的概率都是相同的。
① 定义:
随机变量 \(X\) 在区间 \([a, b]\) 上服从均匀分布,记作 \(X \sim Uniform(a, b)\) 或 \(X \sim U(a, b)\)。其概率密度函数 (PDF) 为:
\[ f(x) = \begin{cases} \frac{1}{b-a}, & \text{if } a \le x \le b \\ 0, & \text{otherwise} \end{cases} \]
其中,\(a\) 和 \(b\) 是区间的下限和上限,且 \(a < b\)。
② 累积分布函数 (Cumulative Distribution Function, CDF):
均匀分布的累积分布函数 (CDF) 为:
\[ F(x) = P(X \le x) = \begin{cases} 0, & \text{if } x < a \\ \frac{x-a}{b-a}, & \text{if } a \le x \le b \\ 1, & \text{if } x > b \end{cases} \]
③ 期望与方差:
对于服从均匀分布 \(Uniform(a, b)\) 的随机变量 \(X\),其期望 \(E(X)\) 和方差 \(Var(X)\) 分别为:
⚝ 期望 (Expectation):\(E(X) = \frac{a+b}{2}\)
⚝ 方差 (Variance):\(Var(X) = \frac{(b-a)^2}{12}\)
④ 应用场景:
均匀分布在实际应用中常用于模拟完全随机的情况,或者作为其他复杂分布的基础。
⚝ 例如,在计算机模拟中,生成伪随机数时,通常先生成 \([0, 1]\) 上的均匀分布随机数。
⚝ 在数值分析中,某些积分的蒙特卡洛方法就基于均匀分布的随机抽样。
⚝ 在某些情况下,当对随机变量的分布一无所知时,可以假设其在某个有限区间上服从均匀分布。
3.2.2 指数分布 (Exponential Distribution)
指数分布 (Exponential Distribution) 描述了独立事件以恒定平均速率发生的时间间隔的概率分布。它常用于描述寿命、等待时间等。
① 定义:
随机变量 \(X\) 服从参数为 \(\lambda > 0\) 的指数分布,记作 \(X \sim Exponential(\lambda)\) 或 \(X \sim Exp(\lambda)\)。其概率密度函数 (PDF) 为:
\[ f(x) = \begin{cases} \lambda e^{-\lambda x}, & \text{if } x \ge 0 \\ 0, & \text{if } x < 0 \end{cases} \]
其中,\(\lambda\) 是速率参数,表示单位时间内事件发生的平均次数,\(e\) 是自然常数。
② 累积分布函数 (CDF):
指数分布的累积分布函数 (CDF) 为:
\[ F(x) = P(X \le x) = \begin{cases} 1 - e^{-\lambda x}, & \text{if } x \ge 0 \\ 0, & \text{if } x < 0 \end{cases} \]
③ 期望与方差:
对于服从指数分布 \(Exponential(\lambda)\) 的随机变量 \(X\),其期望 \(E(X)\) 和方差 \(Var(X)\) 分别为:
⚝ 期望 (Expectation):\(E(X) = \frac{1}{\lambda}\)
⚝ 方差 (Variance):\(Var(X) = \frac{1}{\lambda^2}\)
④ 无记忆性 (Memoryless Property):
指数分布也具有无记忆性,与几何分布类似。对于任意 \(s, t \ge 0\),有:
\[ P(X > s+t \mid X > s) = P(X > t) \]
这意味着,如果一个部件已经使用了 \(s\) 时间而没有失效,那么它再使用 \(t\) 时间才失效的概率,与新部件使用 \(t\) 时间才失效的概率相同。
⑤ 与泊松分布的关系:
指数分布与泊松分布密切相关。如果单位时间内事件发生的次数服从泊松分布 \(Poisson(\lambda)\),那么事件发生的时间间隔就服从指数分布 \(Exponential(\lambda)\)。
⑥ 应用场景:
指数分布广泛应用于可靠性分析、排队论、通信工程等领域。
⚝ 例如,电子元件的寿命分布,通常可以用指数分布来近似描述。
⚝ 顾客到达服务台的时间间隔,在排队论中常假设服从指数分布。
⚝ 放射性原子衰变的时间间隔也服从指数分布。
⚝ 电话呼叫的持续时间有时也用指数分布来建模。
3.2.3 正态分布 (Normal Distribution)
正态分布 (Normal Distribution),又称高斯分布 (Gaussian Distribution),是统计学中最重要、最常用的连续型分布。许多自然现象和社会现象都近似服从正态分布。
① 定义:
随机变量 \(X\) 服从参数为 \(\mu\) 和 \(\sigma^2\) 的正态分布,记作 \(X \sim Normal(\mu, \sigma^2)\) 或 \(X \sim N(\mu, \sigma^2)\)。其概率密度函数 (PDF) 为:
\[ f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty \]
其中,\(\mu\) 是均值,\(\sigma^2\) 是方差,\(\sigma\) 是标准差,\(\pi\) 是圆周率,\(e\) 是自然常数。
当 \(\mu = 0\) 和 \(\sigma^2 = 1\) 时,称为标准正态分布 (Standard Normal Distribution),记作 \(Z \sim N(0, 1)\)。其 PDF 为:
\[ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \]
其 CDF 通常用 \(\Phi(z)\) 表示:
\[ \Phi(z) = P(Z \le z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt \]
② 性质:
⚝ 对称性:正态分布的 PDF 关于 \(x = \mu\) 对称。
⚝ 单峰性:PDF 在 \(x = \mu\) 处达到最大值。
⚝ 钟形曲线:正态分布的 PDF 曲线呈钟形。
⚝ 线性变换不变性:若 \(X \sim N(\mu, \sigma^2)\),\(a\) 和 \(b\) 为常数,则 \(aX + b \sim N(a\mu + b, a^2\sigma^2)\)。特别地,标准化变换 \(Z = \frac{X-\mu}{\sigma}\) 使得 \(Z \sim N(0, 1)\)。
⚝ 中心极限定理 (Central Limit Theorem):大量独立同分布的随机变量之和(或均值)的分布,在一定条件下,近似于正态分布。这是正态分布如此重要的理论基础。
③ 68-95-99.7 规则 (经验法则):
对于正态分布 \(N(\mu, \sigma^2)\),约有:
⚝ 68% 的数据落在 \((\mu - \sigma, \mu + \sigma)\) 区间内。
⚝ 95% 的数据落在 \((\mu - 2\sigma, \mu + 2\sigma)\) 区间内。
⚝ 99.7% 的数据落在 \((\mu - 3\sigma, \mu + 3\sigma)\) 区间内。
④ 应用场景:
正态分布在自然科学、社会科学、工程技术等领域都有广泛应用。
⚝ 例如,人的身高、体重、智商等生理指标,通常近似服从正态分布。
⚝ 测量误差、噪声等随机误差,也常假设服从正态分布。
⚝ 股票价格的波动、金融资产的收益率等,在一定程度上可以用正态分布来描述。
⚝ 许多统计推断方法,如假设检验、置信区间等,都是基于正态分布理论的。
3.2.4 伽玛分布 (Gamma Distribution)
伽玛分布 (Gamma Distribution) 是一族非常灵活的连续型分布,它有两个参数:形状参数 (shape parameter) \(\alpha > 0\) 和尺度参数 (scale parameter) \(\beta > 0\)。伽玛分布可以用来描述等待一系列事件发生的时间,或者描述正值的偏态分布数据。
① 定义:
随机变量 \(X\) 服从参数为 \(\alpha\) 和 \(\beta\) 的伽玛分布,记作 \(X \sim Gamma(\alpha, \beta)\)。其概率密度函数 (PDF) 为:
\[ f(x) = \begin{cases} \frac{1}{\Gamma(\alpha) \beta^\alpha} x^{\alpha-1} e^{-\frac{x}{\beta}}, & \text{if } x > 0 \\ 0, & \text{if } x \le 0 \end{cases} \]
其中,\(\alpha > 0\) 是形状参数,\(\beta > 0\) 是尺度参数,\(\Gamma(\alpha)\) 是伽玛函数,定义为 \(\Gamma(\alpha) = \int_{0}^{\infty} t^{\alpha-1} e^{-t} dt\)。当 \(\alpha\) 为正整数 \(n\) 时,\(\Gamma(n) = (n-1)!\)。
② 期望与方差:
对于服从伽玛分布 \(Gamma(\alpha, \beta)\) 的随机变量 \(X\),其期望 \(E(X)\) 和方差 \(Var(X)\) 分别为:
⚝ 期望 (Expectation):\(E(X) = \alpha\beta\)
⚝ 方差 (Variance):\(Var(X) = \alpha\beta^2\)
③ 性质:
⚝ 可加性:若 \(X_1 \sim Gamma(\alpha_1, \beta)\) 和 \(X_2 \sim Gamma(\alpha_2, \beta)\) 且 \(X_1\) 和 \(X_2\) 相互独立,则 \(X_1 + X_2 \sim Gamma(\alpha_1 + \alpha_2, \beta)\)。注意,这里尺度参数 \(\beta\) 必须相同。
⚝ 与指数分布的关系:当 \(\alpha = 1\) 时,伽玛分布退化为指数分布 \(Exponential(\frac{1}{\beta})\)。即 \(Gamma(1, \beta) = Exponential(\frac{1}{\beta})\)。
⚝ 与卡方分布的关系:当 \(\alpha = \frac{n}{2}\) 和 \(\beta = 2\) 时,伽玛分布变为卡方分布 \(\chi^2(n)\),其中 \(n\) 是自由度。即 \(Gamma(\frac{n}{2}, 2) = \chi^2(n)\)。
④ 应用场景:
伽玛分布在多个领域都有应用,尤其适用于描述等待时间、寿命、以及正值偏态数据。
⚝ 例如,在排队论中,服务时间有时可以用伽玛分布来建模。
⚝ 在保险精算中,索赔金额的分布有时可以用伽玛分布来近似。
⚝ 在水文学中,降雨量的分布可以用伽玛分布来描述。
⚝ 在生物学中,某些生物量的分布也可能服从伽玛分布。
⚝ 在可靠性工程中,元件的寿命分布可以用威布尔分布 (Weibull Distribution) 来描述,而威布尔分布与伽玛分布有关。
3.3 重要分布的性质与应用 (Properties and Applications of Important Distributions)
本章介绍的几种常用概率分布,在数理统计中占据着核心地位。理解它们的性质和应用场景,对于掌握数理统计的基本方法至关重要。
① 离散型分布的应用总结:
⚝ 伯努利分布:作为最基本的离散分布,是理解二项分布和更复杂模型的基石。适用于描述单次试验的二元结果。
⚝ 二项分布:适用于描述固定次数独立重复试验中成功的次数,广泛应用于质量控制、市场调查等领域。
⚝ 泊松分布:适用于描述单位时间或空间内稀有事件的发生次数,常用于排队论、风险管理等领域。
⚝ 几何分布:适用于描述首次成功所需的试验次数,常用于等待时间分析、产品检验等领域。
② 连续型分布的应用总结:
⚝ 均匀分布:作为最简单的连续分布,常用于随机数生成、蒙特卡洛模拟等,也作为未知分布的初步假设。
⚝ 指数分布:适用于描述独立事件发生的时间间隔,常用于可靠性分析、排队论等,具有无记忆性。
⚝ 正态分布:最重要的连续分布,广泛应用于自然科学、社会科学、工程技术等领域,中心极限定理保证了其在统计推断中的核心地位。
⚝ 伽玛分布:一族灵活的分布,适用于描述等待时间、寿命、正值偏态数据,与指数分布、卡方分布等密切相关。
③ 分布的选择与应用:
在实际应用中,选择合适的概率分布模型至关重要。选择分布时,需要考虑以下因素:
⚝ 随机变量的类型:是离散型还是连续型?
⚝ 数据的特征:数据的取值范围、对称性、偏态性等。
⚝ 问题的背景:试验的性质、事件发生的规律等。
⚝ 模型的适用性:所选分布是否符合实际情况,是否能有效解决问题。
通过深入理解各种常用概率分布的定义、性质和应用场景,可以为后续的统计推断、建模分析打下坚实的基础。在实际应用中,灵活运用这些分布,能够有效地解决各种实际问题。
4. chapter 4: 抽样分布与大样本理论 (Sampling Distributions and Large Sample Theory)
4.1 随机抽样 (Random Sampling)
在数理统计 (Mathematical Statistics) 中,抽样 (sampling) 是从总体 (population) 中选取一部分个体 (individuals) 的过程,目的是通过对样本 (sample) 的分析来推断总体的特征。随机抽样 (random sampling) 是保证样本代表性的关键,它确保总体中的每个个体都有一定的概率被选中,从而减少抽样偏差 (sampling bias),使得样本能够更好地反映总体的信息。
4.1.1 简单随机抽样 (Simple Random Sampling)
简单随机抽样 (simple random sampling, SRS) 是最基本也是最常用的抽样方法之一。它指的是在抽样过程中,总体中的每个个体都有相同的被抽取概率,并且每次抽取之间是相互独立的。简单随机抽样可以分为放回抽样 (sampling with replacement) 和 不放回抽样 (sampling without replacement)。
① 放回抽样 (sampling with replacement):每次从总体中抽取一个个体后,再将该个体放回总体中。这样,每次抽取时,总体构成不变,每个个体在每次抽取中被抽到的概率都相同。
② 不放回抽样 (sampling without replacement):每次从总体中抽取一个个体后,不再将该个体放回总体。这样,随着抽取的进行,总体构成会发生变化,但保证了在首次抽取时,每个个体被抽到的概率是相同的。
在实际应用中,当总体容量 \(N\) 很大,而样本容量 \(n\) 相对较小时,放回抽样和不放回抽样的差异可以忽略不计。不放回抽样更为常用,因为它避免了样本中出现重复个体的情况,更有效地利用了样本信息。
简单随机抽样的优点是操作简单,易于理解,理论分析也相对容易。但是,当总体结构复杂,存在明显的层次或类别时,简单随机抽样可能不是最有效的方法。
4.1.2 分层抽样、整群抽样等 (Stratified Sampling, Cluster Sampling, etc.)
为了提高抽样效率,更好地反映总体结构,人们发展了多种复杂的抽样方法,例如分层抽样 (stratified sampling) 和 整群抽样 (cluster sampling) 等。
① 分层抽样 (stratified sampling):当总体可以划分为若干个互不重叠的层 (strata),且层内个体特征相似,层间个体特征差异较大时,可以采用分层抽样。分层抽样的步骤如下:
▮▮▮▮ⓑ 将总体划分为若干个层。
▮▮▮▮ⓒ 在每一层内进行简单随机抽样。
▮▮▮▮ⓓ 将各层抽取的样本合并成总样本。
分层抽样可以保证样本在各层中都有代表,从而提高估计的精度。分层抽样又可以分为按比例分层抽样 (proportionate stratified sampling) 和 不按比例分层抽样 (disproportionate stratified sampling)。按比例分层抽样是指各层样本量与该层总体量成比例;不按比例分层抽样则可以根据研究目的,对某些重要的层加大抽样比例。
② 整群抽样 (cluster sampling):当总体可以划分为若干个群 (clusters),且群内个体特征差异较大,群间个体特征差异较小时,可以采用整群抽样。整群抽样的步骤如下:
▮▮▮▮ⓑ 将总体划分为若干个群。
▮▮▮▮ⓒ 随机抽取若干个群。
▮▮▮▮ⓓ 对抽取的群内的所有个体或部分个体进行调查。
整群抽样可以节省抽样成本,特别是在总体分布范围广,个体分散的情况下。但是,如果群间差异较大,而群内差异较小,整群抽样的效率可能会降低。
③ 其他抽样方法 (other sampling methods):除了简单随机抽样、分层抽样和整群抽样外,还有许多其他的抽样方法,例如:
▮▮▮▮ⓑ 系统抽样 (systematic sampling):按照一定的间隔抽取个体。例如,每隔 \(k\) 个个体抽取一个。系统抽样操作简便,但如果总体存在周期性变化,可能会产生偏差。
▮▮▮▮ⓒ 多阶段抽样 (multi-stage sampling):将抽样过程分为多个阶段进行。例如,先抽取群,再在抽取的群内抽取个体。多阶段抽样可以结合多种抽样方法的优点,提高抽样效率。
选择合适的抽样方法需要根据具体的研究目的、总体特征和实际条件综合考虑。随机抽样是数理统计推断的基础,保证了样本的随机性和代表性,为后续的统计分析提供了可靠的数据来源。
4.2 统计量及其分布 (Statistics and Their Distributions)
在数理统计 (Mathematical Statistics) 中,我们通过样本来推断总体的信息。统计量 (statistic) 是指样本的函数,它不依赖于任何未知参数。统计量是构建统计推断方法的基础。
4.2.1 样本均值、样本方差等常用统计量 (Sample Mean, Sample Variance, etc.)
常用的统计量有很多,其中最基本和最重要的是样本均值 (sample mean) 和 样本方差 (sample variance)。
① 样本均值 (sample mean):对于一个样本 \(X_1, X_2, ..., X_n\),样本均值 \(\bar{X}\) 定义为:
\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
样本均值 \(\bar{X}\) 是总体均值 \(\mu\) 的一个良好估计量,它反映了样本数据的中心位置。
② 样本方差 (sample variance):对于一个样本 \(X_1, X_2, ..., X_n\),样本方差 \(S^2\) 定义为:
\[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
样本方差 \(S^2\) 是总体方差 \(\sigma^2\) 的一个无偏估计量,它反映了样本数据的离散程度。分母使用 \(n-1\) 而不是 \(n\) 是为了保证 \(S^2\) 的无偏性,这涉及到自由度 (degrees of freedom) 的概念。
③ 其他常用统计量 (other common statistics):除了样本均值和样本方差,还有一些常用的统计量,例如:
▮▮▮▮ⓑ 样本中位数 (sample median):将样本数据排序后,位于中间位置的值。样本中位数对异常值不敏感,稳健性较好。
▮▮▮▮ⓒ 样本分位数 (sample quantile):将样本数据排序后,位于特定位置的值。例如,样本四分位数 (sample quartiles)。
▮▮▮▮ⓓ 样本极差 (sample range):样本中最大值与最小值之差。样本极差简单易算,但只利用了样本的两个极端值,信息利用率较低。
▮▮▮▮ⓔ 样本标准差 (sample standard deviation):样本方差的平方根,\(S = \sqrt{S^2}\)。样本标准差与样本数据的单位相同,更易于解释。
▮▮▮▮ⓕ 样本矩 (sample moments):样本 \(k\) 阶原点矩 \(A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k\),样本 \(k\) 阶中心矩 \(M_k = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^k\)。样本矩可以描述样本分布的形状特征。
4.2.2 抽样分布的概念 (Concept of Sampling Distribution)
由于样本是随机抽取的,统计量的值也具有随机性,会随着不同的样本而变化。抽样分布 (sampling distribution) 是指统计量的概率分布。理解抽样分布是进行统计推断的关键。
① 抽样分布的定义 (definition of sampling distribution):设 \(X_1, X_2, ..., X_n\) 是从总体中抽取的样本,\(T = T(X_1, X_2, ..., X_n)\) 是一个统计量。由于样本 \(X_1, X_2, ..., X_n\) 是随机变量,因此统计量 \(T\) 也是随机变量。统计量 \(T\) 的概率分布称为统计量 \(T\) 的抽样分布。
② 抽样分布的重要性 (importance of sampling distribution):抽样分布描述了统计量在多次重复抽样下的取值规律。通过抽样分布,我们可以了解统计量的性质,例如期望、方差等,从而评估统计量的优劣,并构建统计推断方法。例如,在参数估计 (parameter estimation) 中,我们需要知道估计量的抽样分布,才能评估估计量的精度;在假设检验 (hypothesis testing) 中,我们需要知道检验统计量的抽样分布,才能计算 \(p\) 值 (p-value) 和进行决策。
③ 确定抽样分布的方法 (methods to determine sampling distribution):确定抽样分布的方法主要有以下几种:
▮▮▮▮ⓑ 解析法 (analytical method):当总体分布已知,且统计量形式简单时,可以通过数学推导直接求出抽样分布的解析表达式。例如,正态总体下样本均值和样本方差的抽样分布。
▮▮▮▮ⓒ 模拟法 (simulation method):当解析法难以求解时,可以通过计算机模拟大量抽样,然后根据模拟结果近似得到抽样分布。例如,Bootstrap 方法和 Monte Carlo 模拟。
▮▮▮▮ⓓ 渐近法 (asymptotic method):当样本容量 \(n\) 很大时,可以利用大样本理论,例如中心极限定理,近似得到抽样分布。例如,样本均值在大样本下的近似正态分布。
理解抽样分布是数理统计的核心内容之一。在接下来的章节中,我们将介绍一些重要的抽样分布,例如卡方分布 (Chi-square distribution)、t 分布 (t-distribution) 和 F 分布 (F-distribution),以及大样本理论,例如大数定律 (Laws of Large Numbers) 和中心极限定理 (Central Limit Theorem)。
4.3 正态总体下的抽样分布 (Sampling Distributions under Normal Population)
正态分布 (normal distribution) 是数理统计中最重要和最常用的分布之一。当总体服从正态分布时,样本统计量的抽样分布具有良好的性质,便于进行统计推断。本节介绍正态总体下几个重要的抽样分布:卡方分布 (Chi-square distribution)、t 分布 (t-distribution) 和 F 分布 (F-distribution)。
4.3.1 卡方分布 (Chi-Square Distribution)
卡方分布 (\(\chi^2\) distribution) 是一种重要的概率分布,广泛应用于假设检验和置信区间估计中。
① 卡方分布的定义 (definition of Chi-square distribution):设 \(Z_1, Z_2, ..., Z_k\) 是相互独立的,且都服从标准正态分布 \(N(0, 1)\) 的随机变量,则它们的平方和
\[ \chi^2(k) = \sum_{i=1}^{k} Z_i^2 \]
服从自由度为 \(k\) 的卡方分布,记为 \(\chi^2 \sim \chi^2(k)\)。其中,\(k\) 称为卡方分布的自由度 (degrees of freedom)。
② 卡方分布的性质 (properties of Chi-square distribution):
▮▮▮▮ⓑ 卡方分布的概率密度函数 (probability density function, PDF) 为:
\[ f(x; k) = \begin{cases} \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2-1} e^{-x/2}, & x > 0 \\ 0, & x \le 0 \end{cases} \]
其中,\(\Gamma(\cdot)\) 是伽玛函数 (Gamma function)。
▮▮▮▮ⓑ 卡方分布的期望 (expectation) 和方差 (variance) 为:
\[ E(\chi^2(k)) = k, \quad Var(\chi^2(k)) = 2k \]
▮▮▮▮ⓒ 可加性:若 \(\chi_1^2 \sim \chi^2(k_1)\) 和 \(\chi_2^2 \sim \chi^2(k_2)\) 相互独立,则 \(\chi_1^2 + \chi_2^2 \sim \chi^2(k_1 + k_2)\)。
▮▮▮▮ⓓ 当自由度 \(k\) 较大时,卡方分布近似于正态分布。更精确地,当 \(k\) 较大时,\(\sqrt{2\chi^2(k)} \approx N(\sqrt{2k-1}, 1)\)。
③ 卡方分布的应用 (applications of Chi-square distribution):
▮▮▮▮ⓑ 样本方差的抽样分布 (sampling distribution of sample variance):设 \(X_1, X_2, ..., X_n\) 是从正态总体 \(N(\mu, \sigma^2)\) 中抽取的样本,样本方差为 \(S^2\),则
\[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \]
这个结论是关于正态总体方差进行统计推断的基础。
▮▮▮▮ⓑ 拟合优度检验 (goodness-of-fit test):卡方检验可以用于检验样本数据是否符合某种理论分布。
▮▮▮▮ⓒ 独立性检验 (test of independence):卡方检验可以用于检验两个分类变量是否独立。
4.3.2 t 分布 (t-Distribution)
t 分布 (t-distribution),也称为学生 t 分布 (Student's t-distribution),常用于小样本情况下,总体方差未知时,关于总体均值的统计推断。
① t 分布的定义 (definition of t-distribution):设 \(Z \sim N(0, 1)\) 和 \(\chi^2 \sim \chi^2(k)\) 相互独立,则
\[ t(k) = \frac{Z}{\sqrt{\chi^2(k)/k}} \]
服从自由度为 \(k\) 的 t 分布,记为 \(t \sim t(k)\)。其中,\(k\) 称为 t 分布的自由度 (degrees of freedom)。
② t 分布的性质 (properties of t-distribution):
▮▮▮▮ⓑ t 分布的概率密度函数 (PDF) 具有复杂的表达式,但其形状类似于标准正态分布,是单峰、对称于 0 的分布。
▮▮▮▮ⓒ t 分布的期望 (expectation) 和方差 (variance) 为:
\[ E(t(k)) = 0, \quad (k > 1) \]
\[ Var(t(k)) = \frac{k}{k-2}, \quad (k > 2) \]
当 \(k=1\) 时,t 分布的期望不存在;当 \(k \le 2\) 时,t 分布的方差不存在。
▮▮▮▮ⓒ 当自由度 \(k \to \infty\) 时,t 分布趋近于标准正态分布 \(N(0, 1)\)。实际上,当 \(k > 30\) 时,t 分布与标准正态分布已经非常接近。
▮▮▮▮ⓓ t 分布的尾部比标准正态分布更厚,这意味着 t 分布更容易出现极端值。
③ t 分布的应用 (applications of t-distribution):
▮▮▮▮ⓑ 样本均值的抽样分布 (sampling distribution of sample mean):设 \(X_1, X_2, ..., X_n\) 是从正态总体 \(N(\mu, \sigma^2)\) 中抽取的样本,样本均值为 \(\bar{X}\),样本标准差为 \(S\),则
\[ \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) \]
这个结论是关于正态总体均值进行统计推断(特别是小样本情况)的基础。
▮▮▮▮ⓑ 单个正态总体均值的假设检验和置信区间估计 (hypothesis testing and confidence interval estimation for the mean of a single normal population):当总体方差 \(\sigma^2\) 未知时,可以使用 t 检验和 t 分布构建置信区间。
▮▮▮▮ⓒ 两个正态总体均值差的假设检验和置信区间估计 (hypothesis testing and confidence interval estimation for the difference in means of two normal populations):例如,双样本 t 检验。
4.3.3 F 分布 (F-Distribution)
F 分布 (F-distribution),也称为方差比分布 (variance ratio distribution),常用于方差分析 (ANOVA) 和回归分析 (regression analysis) 中,进行方差的比较。
① F 分布的定义 (definition of F-distribution):设 \(\chi_1^2 \sim \chi^2(k_1)\) 和 \(\chi_2^2 \sim \chi^2(k_2)\) 相互独立,则
\[ F(k_1, k_2) = \frac{\chi_1^2/k_1}{\chi_2^2/k_2} \]
服从自由度为 \((k_1, k_2)\) 的 F 分布,记为 \(F \sim F(k_1, k_2)\)。其中,\(k_1\) 称为分子自由度 (numerator degrees of freedom),\(k_2\) 称为分母自由度 (denominator degrees of freedom)。
② F 分布的性质 (properties of F-distribution):
▮▮▮▮ⓑ F 分布的概率密度函数 (PDF) 表达式较为复杂,但其形状是非对称的,取值非负。
▮▮▮▮ⓒ F 分布的期望 (expectation) 和方差 (variance) 为:
\[ E(F(k_1, k_2)) = \frac{k_2}{k_2-2}, \quad (k_2 > 2) \]
\[ Var(F(k_1, k_2)) = \frac{2k_2^2(k_1+k_2-2)}{k_1(k_2-2)^2(k_2-4)}, \quad (k_2 > 4) \]
当 \(k_2 \le 2\) 时,F 分布的期望不存在;当 \(k_2 \le 4\) 时,F 分布的方差不存在。
▮▮▮▮ⓒ 若 \(F \sim F(k_1, k_2)\),则 \(\frac{1}{F} \sim F(k_2, k_1)\)。
▮▮▮▮ⓓ F 分布与 t 分布和卡方分布之间存在联系。例如,若 \(t \sim t(k)\),则 \(t^2 \sim F(1, k)\)。
③ F 分布的应用 (applications of F-distribution):
▮▮▮▮ⓑ 两个正态总体方差比的假设检验 (hypothesis testing for the ratio of variances of two normal populations):设 \(S_1^2\) 和 \(S_2^2\) 分别是来自两个独立正态总体的样本方差,样本容量分别为 \(n_1\) 和 \(n_2\),则
\[ \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1) \]
当 \(\sigma_1^2 = \sigma_2^2\) 时,\(\frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1)\)。这个结论是方差比检验的基础。
▮▮▮▮ⓑ 方差分析 (ANOVA):F 检验是方差分析的核心方法,用于检验多个总体均值是否相等。
▮▮▮▮ⓒ 回归分析 (regression analysis):F 检验用于检验回归模型的整体显著性。
卡方分布、t 分布和 F 分布是正态总体下最常用的抽样分布,它们在参数估计、假设检验和方差分析等统计推断方法中起着至关重要的作用。掌握这些分布的定义、性质和应用,是深入学习数理统计的基础。
4.4 大数定律与中心极限定理 (Laws of Large Numbers and Central Limit Theorem)
大数定律 (Laws of Large Numbers) 和 中心极限定理 (Central Limit Theorem) 是概率论和数理统计中最重要的极限定理。它们揭示了随机现象的一些基本规律,为统计推断提供了理论基础。
4.4.1 切比雪夫不等式 (Chebyshev's Inequality)
切比雪夫不等式 (Chebyshev's Inequality) 是一个重要的概率不等式,它给出了随机变量取值偏离其期望的概率上限,而无需知道随机变量的具体分布。
① 切比雪夫不等式的内容 (content of Chebyshev's Inequality):设 \(X\) 是一个随机变量,期望为 \(E(X) = \mu\),方差为 \(Var(X) = \sigma^2 < \infty\)。对于任意 \(\epsilon > 0\),有
\[ P(|X - \mu| \ge \epsilon) \le \frac{\sigma^2}{\epsilon^2} \]
或者等价地,
\[ P(|X - \mu| < \epsilon) \ge 1 - \frac{\sigma^2}{\epsilon^2} \]
切比雪夫不等式说明,当方差 \(\sigma^2\) 较小时,随机变量 \(X\) 取值偏离期望 \(\mu\) 的概率较小;当 \(\epsilon\) 较大时,随机变量 \(X\) 取值偏离期望 \(\mu\) 的概率也较小。
② 切比雪夫不等式的意义 (significance of Chebyshev's Inequality):
▮▮▮▮ⓑ 普适性 (universality):切比雪夫不等式对任何随机变量都成立,只需知道期望和方差即可,无需知道具体的分布形式。
▮▮▮▮ⓒ 理论基础 (theoretical basis):切比雪夫不等式是大数定律的重要基础。
③ 切比雪夫不等式的局限性 (limitations of Chebyshev's Inequality):切比雪夫不等式给出的概率界限通常比较宽松,实际应用中可能不够精确。当随机变量的分布已知时,可以得到更精确的概率估计。
4.4.2 大数定律 (Laws of Large Numbers)
大数定律 (Laws of Large Numbers) 描述了大量重复独立试验的平均结果的稳定性。它表明,随着试验次数的增加,样本均值会越来越接近总体均值。大数定律是统计推断中用样本均值估计总体均值的理论依据。
① 弱大数定律 (Weak Law of Large Numbers, WLLN):设 \(X_1, X_2, ...\) 是一列独立同分布 (independent and identically distributed, i.i.d.) 的随机变量序列,期望为 \(E(X_i) = \mu\),方差为 \(Var(X_i) = \sigma^2 < \infty\)。令 \(\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i\) 为样本均值。对于任意 \(\epsilon > 0\),有
\[ \lim_{n \to \infty} P(|\bar{X}_n - \mu| \ge \epsilon) = 0 \]
或者等价地,
\[ \lim_{n \to \infty} P(|\bar{X}_n - \mu| < \epsilon) = 1 \]
弱大数定律表明,当样本容量 \(n\) 趋于无穷大时,样本均值 \(\bar{X}_n\) 依概率收敛于总体均值 \(\mu\)。依概率收敛 (convergence in probability) 是指对于任意 \(\epsilon > 0\),事件 \(|\bar{X}_n - \mu| \ge \epsilon\) 的概率随着 \(n \to \infty\) 趋于 0。
② 强大数定律 (Strong Law of Large Numbers, SLLN):在弱大数定律的条件下,样本均值 \(\bar{X}_n\) 不仅依概率收敛于总体均值 \(\mu\),而且几乎必然收敛 (convergence almost surely) 于总体均值 \(\mu\)。即
\[ P(\lim_{n \to \infty} \bar{X}_n = \mu) = 1 \]
几乎必然收敛比依概率收敛更强。几乎必然收敛意味着,在几乎所有的样本序列中,样本均值都收敛于总体均值。
③ 大数定律的意义 (significance of Laws of Large Numbers):
▮▮▮▮ⓑ 理论基础 (theoretical basis):大数定律为用样本均值估计总体均值提供了理论依据。当样本容量足够大时,样本均值可以很好地近似总体均值。
▮▮▮▮ⓒ 实际应用 (practical applications):大数定律在统计学和概率论的各个领域都有广泛应用,例如,频率的稳定性、蒙特卡洛模拟等。
4.4.3 中心极限定理 (Central Limit Theorem)
中心极限定理 (Central Limit Theorem, CLT) 是概率论中最重要、最深刻的定理之一。它指出,在一定条件下,大量独立同分布的随机变量之和(或均值)的分布近似于正态分布,而与原始分布的具体形式无关。中心极限定理为统计推断提供了强大的工具,使得我们可以利用正态分布来近似许多统计量的分布。
① 独立同分布中心极限定理 (Lindeberg-Lévy Central Limit Theorem):设 \(X_1, X_2, ...\) 是一列独立同分布 (i.i.d.) 的随机变量序列,期望为 \(E(X_i) = \mu\),方差为 \(Var(X_i) = \sigma^2 > 0\)。令 \(S_n = \sum_{i=1}^{n} X_i\) 为前 \(n\) 个随机变量之和,\(\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i\) 为样本均值。则当 \(n \to \infty\) 时,随机变量
\[ Z_n = \frac{S_n - n\mu}{\sqrt{n}\sigma} = \frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \]
的分布趋近于标准正态分布 \(N(0, 1)\)。记为
\[ Z_n \xrightarrow{d} N(0, 1) \]
或者
\[ \bar{X}_n \xrightarrow{approx.} N(\mu, \frac{\sigma^2}{n}) \]
其中,\(\xrightarrow{d}\) 表示依分布收敛 (convergence in distribution)。依分布收敛是指随机变量序列的分布函数趋近于某个分布函数。
② 中心极限定理的意义 (significance of Central Limit Theorem):
▮▮▮▮ⓑ 普适性 (universality):中心极限定理表明,无论原始分布是什么,只要满足独立同分布条件,且方差存在,样本均值在大样本下都近似服从正态分布。这使得我们可以利用正态分布来近似许多统计量的分布,从而进行统计推断。
▮▮▮▮ⓒ 统计推断的基础 (foundation for statistical inference):中心极限定理是构建大样本统计推断方法的基础。例如,大样本均值的假设检验、置信区间估计等。
▮▮▮▮ⓓ 实际应用 (practical applications):中心极限定理在各个领域都有广泛应用,例如,误差分析、质量控制、金融建模等。
③ 中心极限定理的应用条件 (conditions for applying Central Limit Theorem):
▮▮▮▮ⓑ 独立性 (independence):随机变量之间需要相互独立或近似独立。
▮▮▮▮ⓒ 同分布 (identical distribution):随机变量需要服从相同的分布或近似相同的分布。
▮▮▮▮ⓓ 有限方差 (finite variance):原始分布的方差需要存在且有限。
▮▮▮▮ⓔ 样本容量 (sample size):样本容量 \(n\) 需要足够大。一般来说,当 \(n \ge 30\) 时,中心极限定理的近似效果就比较好。但具体需要根据原始分布的形状来判断。如果原始分布接近正态分布,则较小的样本容量即可;如果原始分布偏态严重,则需要更大的样本容量。
大数定律和中心极限定理是数理统计的基石。大数定律保证了样本均值在样本容量增大时会稳定地接近总体均值,中心极限定理则揭示了样本均值在大样本下的分布规律,为我们利用样本信息推断总体特征提供了强有力的理论工具。
5. chapter 5: 参数估计 (Parameter Estimation)
5.1 点估计 (Point Estimation)
点估计 (Point Estimation) 是数理统计中参数估计 (Parameter Estimation) 的重要组成部分。它的目标是利用样本数据,找出一个最佳的数值来估计总体 (population) 中未知参数 (parameter) 的真值。这个数值被称为点估计值 (point estimate)。点估计就像是在参数可能的取值范围内,用一个点来代表我们对参数真值的最佳猜测。
5.1.1 矩估计法 (Method of Moments)
矩估计法 (Method of Moments, MM) 是一种经典的参数估计方法,其基本思想是用样本矩 (sample moments) 来估计总体矩 (population moments),然后解方程得到参数的估计。矩 (moment) 是概率分布的重要数字特征,例如期望 (expectation) 是一阶原点矩,方差 (variance) 与二阶中心矩有关。
步骤 (Steps):
① 假设总体分布 (population distribution) 的形式已知,但包含 \(k\) 个未知参数 \(\theta_1, \theta_2, \ldots, \theta_k\)。
② 计算总体的前 \(k\) 阶原点矩 \(\mu_1, \mu_2, \ldots, \mu_k\),它们是未知参数 \(\theta_1, \theta_2, \ldots, \theta_k\) 的函数。通常,第 \(j\) 阶原点矩 \(\mu_j = E(X^j)\)。
③ 计算样本的前 \(k\) 阶样本原点矩 \(A_1, A_2, \ldots, A_k\),其中第 \(j\) 阶样本原点矩 \(A_j = \frac{1}{n} \sum_{i=1}^{n} X_i^j\),\(X_1, X_2, \ldots, X_n\) 是来自总体的样本。
④ 令总体矩等于样本矩,得到方程组:
\[ \begin{cases} \mu_1(\theta_1, \theta_2, \ldots, \theta_k) = A_1 \\ \mu_2(\theta_1, \theta_2, \ldots, \theta_k) = A_2 \\ \vdots \\ \mu_k(\theta_1, \theta_2, \ldots, \theta_k) = A_k \end{cases} \]
⑤ 解这个方程组,得到未知参数 \(\theta_1, \theta_2, \ldots, \theta_k\) 的矩估计量 \(\hat{\theta}_1, \hat{\theta}_2, \ldots, \hat{\theta}_k\)。
案例 (Example):
假设总体 \(X\) 服从均匀分布 (Uniform Distribution) \(U(0, \theta)\),其中 \(\theta > 0\) 是未知参数。我们希望用矩估计法估计 \(\theta\)。
① 总体分布只包含一个未知参数 \(\theta\)。
② 计算总体的一阶原点矩(期望):
\[ \mu_1 = E(X) = \int_{0}^{\theta} x \cdot \frac{1}{\theta} dx = \frac{1}{\theta} \left[ \frac{x^2}{2} \right]_{0}^{\theta} = \frac{\theta}{2} \]
③ 计算样本的一阶样本原点矩(样本均值):
\[ A_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
④ 令总体矩等于样本矩:
\[ \mu_1 = A_1 \Rightarrow \frac{\theta}{2} = \bar{X} \]
⑤ 解方程得到 \(\theta\) 的矩估计量:
\[ \hat{\theta} = 2\bar{X} \]
因此,对于服从 \(U(0, \theta)\) 分布的总体,参数 \(\theta\) 的矩估计量为样本均值的两倍。
优点 (Advantages):
⚝ 方法简单直观,容易理解和操作。
⚝ 在某些情况下,矩估计量具有良好的性质。
缺点 (Disadvantages):
⚝ 矩估计量不一定是唯一的。
⚝ 矩估计量可能不是充分统计量 (sufficient statistic) 的函数,会损失信息。
⚝ 矩估计量可能不具备优良的统计性质,例如可能不是无偏的 (unbiased) 或有效的 (efficient)。
⚝ 有时需要解高阶方程组,计算较为复杂。
尽管存在一些缺点,矩估计法仍然是参数估计的入门方法,为理解其他更高级的估计方法奠定了基础。
5.1.2 极大似然估计法 (Maximum Likelihood Estimation)
极大似然估计法 (Maximum Likelihood Estimation, MLE) 是另一种非常重要的参数估计方法。它的核心思想是:“最大可能”。即选择参数值,使得在给定参数下,观测到的样本数据出现的概率最大。 换句话说,我们认为最有可能产生我们观测到的样本的参数值,就是参数的最佳估计。
似然函数 (Likelihood Function):
设总体分布的概率密度函数 (probability density function, PDF) 或概率质量函数 (probability mass function, PMF) 为 \(f(x; \theta)\),其中 \(\theta\) 为未知参数(可以是向量)。对于给定的样本 \(X_1, X_2, \ldots, X_n\),似然函数 \(L(\theta)\) 定义为样本联合概率密度函数或联合概率质量函数,看作参数 \(\theta\) 的函数:
对于连续型随机变量 (continuous random variable):
\[ L(\theta) = L(\theta; x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} f(x_i; \theta) \]
对于离散型随机变量 (discrete random variable):
\[ L(\theta) = L(\theta; x_1, x_2, \ldots, x_n) = \prod_{i=1}^{n} P(X_i = x_i; \theta) \]
其中 \(x_1, x_2, \ldots, x_n\) 是观测到的样本值。
极大似然估计量 (Maximum Likelihood Estimator, MLE):
极大似然估计量 \(\hat{\theta}_{MLE}\) 是使似然函数 \(L(\theta)\) 达到最大值的参数值:
\[ \hat{\theta}_{MLE} = \mathop{\arg\max}_{\theta} L(\theta) \]
为了简化计算,通常最大化对数似然函数 (log-likelihood function) \(\ln L(\theta)\),因为对数函数是单调递增的,最大化 \(L(\theta)\) 和最大化 \(\ln L(\theta)\) 得到相同的 \(\hat{\theta}_{MLE}\)。
步骤 (Steps):
① 写出似然函数 \(L(\theta)\)。
② 写出对数似然函数 \(\ln L(\theta)\)。
③ 对 \(\ln L(\theta)\) 关于 \(\theta\) 求导,并令导数等于零,得到似然方程 (likelihood equation):
\[ \frac{d}{d\theta} \ln L(\theta) = 0 \]
如果 \(\theta\) 是向量,则需要求偏导数:
\[ \frac{\partial}{\partial\theta_j} \ln L(\theta) = 0, \quad j = 1, 2, \ldots, k \]
④ 解似然方程(组),得到候选的极大似然估计值。
⑤ 验证解是否为极大值点。可以通过二阶导数判别法 (second derivative test) 或其他方法进行验证。对于单参数情况,若二阶导数 \(\frac{d^2}{d\theta^2} \ln L(\theta) < 0\),则为极大值点。
案例 (Example):
假设总体 \(X\) 服从正态分布 (Normal Distribution) \(N(\mu, \sigma^2)\),其中 \(\mu\) 和 \(\sigma^2\) 均为未知参数。我们希望用极大似然估计法估计 \(\mu\) 和 \(\sigma^2\)。
① 写出似然函数。正态分布的概率密度函数为:
\[ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \]
似然函数为:
\[ L(\mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i-\mu)^2\right) \]
② 写出对数似然函数:
\[ \ln L(\mu, \sigma^2) = -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i-\mu)^2 = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i-\mu)^2 \]
③ 求偏导数并令其为零:
\[ \frac{\partial \ln L}{\partial \mu} = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} 2(x_i-\mu)(-1) = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i-\mu) = 0 \]
\[ \frac{\partial \ln L}{\partial \sigma^2} = -\frac{n}{2} \frac{1}{\sigma^2} - \frac{1}{2} \sum_{i=1}^{n} (x_i-\mu)^2 \cdot (-\frac{1}{(\sigma^2)^2}) = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^{n} (x_i-\mu)^2 = 0 \]
④ 解似然方程组:
从第一个方程得到:
\[ \sum_{i=1}^{n} (x_i-\mu) = 0 \Rightarrow \sum_{i=1}^{n} x_i - n\mu = 0 \Rightarrow \hat{\mu}_{MLE} = \frac{1}{n} \sum_{i=1}^{n} x_i = \bar{x} \]
将 \(\hat{\mu}_{MLE} = \bar{x}\) 代入第二个方程:
\[ -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^{n} (x_i-\bar{x})^2 = 0 \]
\[ \frac{1}{2(\sigma^2)^2} \sum_{i=1}^{n} (x_i-\bar{x})^2 = \frac{n}{2\sigma^2} \]
\[ \hat{\sigma}^2_{MLE} = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 = S_{n}^2 \]
其中 \(S_{n}^2\) 是样本方差(除以 \(n\))。
因此,正态分布 \(N(\mu, \sigma^2)\) 的参数 \(\mu\) 和 \(\sigma^2\) 的极大似然估计量分别为样本均值 \(\bar{X}\) 和样本方差 \(S_{n}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2\)。
优点 (Advantages):
⚝ 在很多情况下,极大似然估计量具有优良的统计性质,例如相合性 (consistency)、渐近正态性 (asymptotic normality) 和渐近有效性 (asymptotic efficiency)。
⚝ 极大似然估计法是一种通用的估计方法,适用范围广泛。
缺点 (Disadvantages):
⚝ 似然方程可能没有解析解,需要数值方法求解。
⚝ 极大似然估计量在小样本情况下可能表现不佳。
⚝ 极大似然估计量对模型假设的正确性比较敏感。
总的来说,极大似然估计法是参数估计中最重要和最常用的方法之一。它在理论和应用上都具有重要的地位。
5.1.3 估计量的评价标准 (Criteria for Evaluating Estimators)
当我们得到一个参数的多个估计量时,我们需要一些标准来评价哪个估计量更好。常用的评价标准包括无偏性 (unbiasedness)、有效性 (efficiency) 和相合性 (consistency)。
5.1.3.1 无偏性 (Unbiasedness)
定义 (Definition):
设 \(\hat{\theta}\) 是参数 \(\theta\) 的一个估计量。如果对于任意 \(\theta\),都有
\[ E(\hat{\theta}) = \theta \]
则称 \(\hat{\theta}\) 是 \(\theta\) 的无偏估计量 (unbiased estimator)。否则,如果 \(E(\hat{\theta}) \neq \theta\),则称 \(\hat{\theta}\) 是有偏估计量 (biased estimator)。偏差 (bias) 定义为 \(Bias(\hat{\theta}) = E(\hat{\theta}) - \theta\)。
无偏性意味着估计量的期望值等于被估计的参数真值。从长期来看,无偏估计量的平均估计值会接近参数真值,不会系统性地高估或低估参数。
案例 (Example):
对于服从正态分布 \(N(\mu, \sigma^2)\) 的总体,样本均值 \(\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\) 是 \(\mu\) 的无偏估计量,因为
\[ E(\bar{X}) = E\left(\frac{1}{n} \sum_{i=1}^{n} X_i\right) = \frac{1}{n} \sum_{i=1}^{n} E(X_i) = \frac{1}{n} \sum_{i=1}^{n} \mu = \frac{1}{n} \cdot n\mu = \mu \]
而样本方差 \(S_{n}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2\) 是 \(\sigma^2\) 的有偏估计量。事实上,
\[ E(S_{n}^2) = \frac{n-1}{n} \sigma^2 \neq \sigma^2 \]
因此,\(S_{n}^2\) 低估了 \(\sigma^2\)。为了得到 \(\sigma^2\) 的无偏估计,我们通常使用样本无偏方差 (unbiased sample variance) \(S^2\):
\[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X})^2 \]
可以证明 \(E(S^2) = \sigma^2\),所以 \(S^2\) 是 \(\sigma^2\) 的无偏估计量。
注意 (Note):
⚝ 无偏性只是评价估计量的一个方面,无偏估计量不一定是最好的估计量。
⚝ 在某些情况下,允许有轻微偏差,但具有其他优良性质(例如更小的方差)的有偏估计量可能更受欢迎。
5.1.3.2 有效性 (Efficiency)
定义 (Definition):
设 \(\hat{\theta}_1\) 和 \(\hat{\theta}_2\) 都是参数 \(\theta\) 的无偏估计量。如果对于任意 \(\theta\),都有
\[ Var(\hat{\theta}_1) \leq Var(\hat{\theta}_2) \]
且至少对于某个 \(\theta\) 严格不等号成立,则称 \(\hat{\theta}_1\) 比 \(\hat{\theta}_2\) 更有效 (more efficient),或者称 \(\hat{\theta}_1\) 是有效估计量 (efficient estimator)。
有效性是在无偏估计量之间进行比较的标准。有效估计量具有更小的方差,这意味着估计值更集中在参数真值附近,估计精度更高。
相对有效性 (Relative Efficiency):
对于两个无偏估计量 \(\hat{\theta}_1\) 和 \(\hat{\theta}_2\),\(\hat{\theta}_1\) 相对于 \(\hat{\theta}_2\) 的相对有效性定义为:
\[ e(\hat{\theta}_1, \hat{\theta}_2) = \frac{Var(\hat{\theta}_2)}{Var(\hat{\theta}_1)} \]
如果 \(e(\hat{\theta}_1, \hat{\theta}_2) > 1\),则 \(\hat{\theta}_1\) 比 \(\hat{\theta}_2\) 更有效;如果 \(e(\hat{\theta}_1, \hat{\theta}_2) = 1\),则两者的有效性相同;如果 \(e(\hat{\theta}_1, \hat{\theta}_2) < 1\),则 \(\hat{\theta}_2\) 比 \(\hat{\theta}_1\) 更有效。
克拉美-罗下界 (Cramér-Rao Lower Bound, CRLB):
克拉美-罗下界给出了无偏估计量方差的下界。对于满足一定正则条件的总体分布,参数 \(\theta\) 的任何无偏估计量 \(\hat{\theta}\) 的方差都满足:
\[ Var(\hat{\theta}) \geq \frac{1}{nI(\theta)} \]
其中 \(n\) 是样本量,\(I(\theta)\) 是费希尔信息量 (Fisher information),定义为:
\[ I(\theta) = E\left[\left(\frac{\partial}{\partial\theta} \ln f(X; \theta)\right)^2\right] = -E\left[\frac{\partial^2}{\partial\theta^2} \ln f(X; \theta)\right] \]
如果一个无偏估计量的方差达到了克拉美-罗下界,则称该估计量为有效估计 (efficient estimator) 或最小方差无偏估计 (Minimum Variance Unbiased Estimator, MVUE)。
案例 (Example):
对于服从正态分布 \(N(\mu, \sigma^2)\) 的总体,样本均值 \(\bar{X}\) 是 \(\mu\) 的有效估计量。可以证明,\(\bar{X}\) 的方差 \(Var(\bar{X}) = \frac{\sigma^2}{n}\) 达到了克拉美-罗下界。
注意 (Note):
⚝ 有效性是在无偏估计量中进行比较的。
⚝ 有效估计量是最佳的无偏估计量,但有效估计量不一定存在。
⚝ 在实际应用中,我们通常寻找方差尽可能小的无偏估计量。
5.1.3.3 相合性 (Consistency)
定义 (Definition):
设 \(\hat{\theta}_n\) 是基于样本量为 \(n\) 的样本得到的参数 \(\theta\) 的估计量序列。如果对于任意 \(\epsilon > 0\) 和任意 \(\theta\),都有
\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| > \epsilon) = 0 \]
或者等价地,
\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| \leq \epsilon) = 1 \]
则称 \(\hat{\theta}_n\) 是 \(\theta\) 的相合估计量 (consistent estimator) 或依概率收敛估计量 (estimator consistent in probability),记为 \(\hat{\theta}_n \xrightarrow{P} \theta\)。
相合性描述了当样本量 \(n\) 趋于无穷大时,估计量 \(\hat{\theta}_n\) 依概率收敛到参数真值 \(\theta\) 的性质。相合性是估计量的一个基本要求,它保证了当样本量足够大时,估计量会越来越接近参数真值。
弱相合性与强相合性 (Weak Consistency and Strong Consistency):
上述定义是弱相合性 (weak consistency) 或概率相合性 (consistency in probability)。还有更强的相合性概念,称为强相合性 (strong consistency) 或几乎必然相合性 (almost surely consistency)。如果
\[ P\left(\lim_{n \to \infty} \hat{\theta}_n = \theta\right) = 1 \]
则称 \(\hat{\theta}_n\) 是 \(\theta\) 的强相合估计量,记为 \(\hat{\theta}_n \xrightarrow{a.s.} \theta\)。
强相合性意味着当样本量 \(n\) 趋于无穷大时,估计量序列 \(\hat{\theta}_n\) 几乎必然收敛到参数真值 \(\theta\)。强相合性比弱相合性更强,但实际应用中,弱相合性已经足够。
相合性的常用判别方法 (Methods for Checking Consistency):
⚝ 切比雪夫不等式 (Chebyshev's Inequality): 如果 \(E(\hat{\theta}_n) \to \theta\) 且 \(Var(\hat{\theta}_n) \to 0\) 当 \(n \to \infty\) 时,则 \(\hat{\theta}_n\) 是 \(\theta\) 的相合估计量。
⚝ 大数定律 (Law of Large Numbers): 样本均值 \(\bar{X}\) 是总体期望 \(\mu\) 的相合估计量(在一定条件下)。
案例 (Example):
对于服从任意分布(期望存在)的总体,样本均值 \(\bar{X}\) 是总体期望 \(\mu\) 的相合估计量。根据大数定律,当样本量 \(n \to \infty\) 时,\(\bar{X} \xrightarrow{P} \mu\)。
样本方差 \(S_{n}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i-\bar{X})^2\) 是总体方差 \(\sigma^2\) 的相合估计量(当总体方差存在时)。虽然 \(S_{n}^2\) 是有偏的,但偏差会随着样本量增大而趋于零,且 \(Var(S_{n}^2) \to 0\) 当 \(n \to \infty\) 时。
注意 (Note):
⚝ 相合性是样本量趋于无穷大时的性质,描述了估计量在大样本 (large sample) 下的表现。
⚝ 相合性是估计量最基本的要求之一。
⚝ 在实际应用中,我们希望估计量不仅相合,而且收敛速度尽可能快。
5.2 区间估计 (Interval Estimation)
区间估计 (Interval Estimation) 是参数估计的另一重要组成部分。与点估计不同,区间估计不是给出一个参数的具体的数值估计值,而是给出一个参数可能取值的范围,并指出这个范围包含参数真值的可信程度。这个范围被称为置信区间 (confidence interval),可信程度用置信水平 (confidence level) 来度量。
5.2.1 置信区间的基本概念 (Basic Concepts of Confidence Intervals)
置信区间 (Confidence Interval):
对于未知参数 \(\theta\),置信区间是一个随机区间 \((\hat{\theta}_L, \hat{\theta}_U)\),其中 \(\hat{\theta}_L\) 和 \(\hat{\theta}_U\) 是基于样本数据计算得到的统计量,称为置信下限 (lower confidence limit) 和 置信上限 (upper confidence limit)。我们希望这个随机区间以一定的概率包含参数真值 \(\theta\)。
置信水平 (Confidence Level):
置信水平 \(1-\alpha\) 是指在多次重复抽样下,构建的置信区间包含参数真值 \(\theta\) 的比例。通常用百分比表示,例如 95% 置信水平意味着在重复抽样 100 次的情况下,大约有 95 个置信区间会包含参数真值。 \(\alpha\) 称为显著性水平 (significance level),通常取 0.05 或 0.01。
置信系数 (Confidence Coefficient):
置信系数是指置信水平 \(1-\alpha\)。
置信区间的解释 (Interpretation of Confidence Interval):
一个 \(1-\alpha\) 置信区间 \((\hat{\theta}_L, \hat{\theta}_U)\) 的正确解释是:如果我们重复抽样多次,每次都用相同的方法构建 \(1-\alpha\) 置信区间,那么在所有构建的置信区间中,大约有 \(1-\alpha\) 的比例会包含参数真值 \(\theta\)。
注意 (Important Note):
⚝ 置信区间是一个随机区间,它的端点是随机变量,会随着样本的变化而变化。
⚝ 参数真值 \(\theta\) 是固定的未知常数,不是随机变量。
⚝ 我们不能说“参数 \(\theta\) 有 \(1-\alpha\) 的概率落在置信区间 \((\hat{\theta}_L, \hat{\theta}_U)\) 内”。因为参数 \(\theta\) 要么在区间内,要么不在区间内,概率要么是 1,要么是 0。
⚝ 置信区间提供的是一个范围估计,而不是点估计。它反映了我们对参数真值位置的不确定性。
枢轴量法 (Pivotal Quantity Method):
枢轴量法是构建置信区间的一种常用方法。枢轴量 (pivotal quantity) 是一个关于样本和未知参数的函数 \(G(X_1, \ldots, X_n; \theta)\),其分布不依赖于未知参数 \(\theta\)。
构建置信区间的步骤 (Steps for Constructing Confidence Interval using Pivotal Quantity):
① 找到一个枢轴量 \(G(X_1, \ldots, X_n; \theta)\),其分布已知且不依赖于 \(\theta\)。
② 对于给定的置信水平 \(1-\alpha\),确定常数 \(a\) 和 \(b\),使得
\[ P(a \leq G(X_1, \ldots, X_n; \theta) \leq b) = 1-\alpha \]
③ 将不等式 \(a \leq G(X_1, \ldots, X_n; \theta) \leq b\) 反解出 \(\theta\) 的范围,得到形如 \((\hat{\theta}_L, \hat{\theta}_U)\) 的置信区间。
常用的枢轴量 (Common Pivotal Quantities):
⚝ 对于正态总体均值 \(\mu\) (方差 \(\sigma^2\) 已知),枢轴量为 \(Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)\)。
⚝ 对于正态总体均值 \(\mu\) (方差 \(\sigma^2\) 未知),枢轴量为 \(T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\)。
⚝ 对于正态总体方差 \(\sigma^2\),枢轴量为 \(\chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)。
5.2.2 单个正态总体参数的区间估计 (Interval Estimation for Parameters of a Single Normal Population)
假设总体 \(X \sim N(\mu, \sigma^2)\)。
1. 均值 \(\mu\) 的区间估计 (方差 \(\sigma^2\) 已知) (Interval Estimation for Mean \(\mu\) when Variance \(\sigma^2\) is Known):
枢轴量: \(Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)\)。
对于给定的置信水平 \(1-\alpha\),查标准正态分布表,找到 \(z_{\alpha/2}\) 使得 \(P(|Z| \leq z_{\alpha/2}) = 1-\alpha\),即 \(P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) = 1-\alpha\)。
将 \(Z\) 的表达式代入:
\[ P\left(-z_{\alpha/2} \leq \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \leq z_{\alpha/2}\right) = 1-\alpha \]
反解出 \(\mu\) 的范围:
\[ P\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right) = 1-\alpha \]
因此,均值 \(\mu\) 的 \(1-\alpha\) 置信区间为:
\[ \left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right) \]
2. 均值 \(\mu\) 的区间估计 (方差 \(\sigma^2\) 未知) (Interval Estimation for Mean \(\mu\) when Variance \(\sigma^2\) is Unknown):
枢轴量: \(T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)\)。
对于给定的置信水平 \(1-\alpha\),查 \(t\) 分布表,找到 \(t_{\alpha/2}(n-1)\) 使得 \(P(|T| \leq t_{\alpha/2}(n-1)) = 1-\alpha\),即 \(P(-t_{\alpha/2}(n-1) \leq T \leq t_{\alpha/2}(n-1)) = 1-\alpha\)。
将 \(T\) 的表达式代入,反解出 \(\mu\) 的范围,得到均值 \(\mu\) 的 \(1-\alpha\) 置信区间为:
\[ \left(\bar{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}, \bar{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}\right) \]
其中 \(S = \sqrt{S^2} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i-\bar{X})^2}\) 是样本标准差 (sample standard deviation)。
3. 方差 \(\sigma^2\) 的区间估计 (Interval Estimation for Variance \(\sigma^2\)):
枢轴量: \(\chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)\)。
对于给定的置信水平 \(1-\alpha\),查 \(\chi^2\) 分布表,找到 \(\chi^2_{1-\alpha/2}(n-1)\) 和 \(\chi^2_{\alpha/2}(n-1)\) 使得
\[ P\left(\chi^2_{1-\alpha/2}(n-1) \leq \chi^2 \leq \chi^2_{\alpha/2}(n-1)\right) = 1-\alpha \]
将 \(\chi^2\) 的表达式代入,反解出 \(\sigma^2\) 的范围,得到方差 \(\sigma^2\) 的 \(1-\alpha\) 置信区间为:
\[ \left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right) \]
5.2.3 两个正态总体参数的区间估计 (Interval Estimation for Parameters of Two Normal Populations)
假设有两个独立的正态总体 \(X_1 \sim N(\mu_1, \sigma_1^2)\) 和 \(X_2 \sim N(\mu_2, \sigma_2^2)\)。分别从两个总体中抽取样本 \(X_{11}, \ldots, X_{1n_1}\) 和 \(X_{21}, \ldots, X_{2n_2}\)。
1. 均值差 \(\mu_1 - \mu_2\) 的区间估计 (方差 \(\sigma_1^2, \sigma_2^2\) 已知) (Interval Estimation for \(\mu_1 - \mu_2\) when \(\sigma_1^2, \sigma_2^2\) are Known):
枢轴量: \(Z = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)\)。
均值差 \(\mu_1 - \mu_2\) 的 \(1-\alpha\) 置信区间为:
\[ \left((\bar{X}_1 - \bar{X}_2) - z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}, (\bar{X}_1 - \bar{X}_2) + z_{\alpha/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\right) \]
2. 均值差 \(\mu_1 - \mu_2\) 的区间估计 (方差 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 未知但相等) (Interval Estimation for \(\mu_1 - \mu_2\) when \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) is Unknown):
枢轴量: \(T = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)\)。
其中 \(S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}\) 是合并样本方差 (pooled sample variance)。
均值差 \(\mu_1 - \mu_2\) 的 \(1-\alpha\) 置信区间为:
\[ \left((\bar{X}_1 - \bar{X}_2) - t_{\alpha/2}(n_1 + n_2 - 2) S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}, (\bar{X}_1 - \bar{X}_2) + t_{\alpha/2}(n_1 + n_2 - 2) S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\right) \]
3. 均值差 \(\mu_1 - \mu_2\) 的区间估计 (方差 \(\sigma_1^2, \sigma_2^2\) 未知且不相等) (Interval Estimation for \(\mu_1 - \mu_2\) when \(\sigma_1^2, \sigma_2^2\) are Unknown and Unequal):
近似枢轴量: \(T' \approx \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}\) 近似服从 \(t\) 分布,自由度 \(df\) 可以用 Welch-Satterthwaite 近似自由度 计算:
\[ df = \frac{\left(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1} + \frac{(S_2^2/n_2)^2}{n_2-1}} \]
取最接近的整数作为自由度。
均值差 \(\mu_1 - \mu_2\) 的近似 \(1-\alpha\) 置信区间为:
\[ \left((\bar{X}_1 - \bar{X}_2) - t_{\alpha/2}(df) \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}, (\bar{X}_1 - \bar{X}_2) + t_{\alpha/2}(df) \sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}\right) \]
4. 方差比 \(\sigma_1^2 / \sigma_2^2\) 的区间估计 (Interval Estimation for \(\sigma_1^2 / \sigma_2^2\)):
枢轴量: \(F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} = \frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2} \sim F(n_1-1, n_2-1)\)。
方差比 \(\sigma_1^2 / \sigma_2^2\) 的 \(1-\alpha\) 置信区间为:
\[ \left(\frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{\alpha/2}(n_1-1, n_2-1)}, \frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{1-\alpha/2}(n_1-1, n_2-1)}\right) \]
或者等价地,使用 \(F_{1-\alpha/2}(n_2-1, n_1-1) = \frac{1}{F_{\alpha/2}(n_1-1, n_2-1)}\) 的性质,可以将置信区间写为:
\[ \left(\frac{S_1^2}{S_2^2} \cdot \frac{1}{F_{\alpha/2}(n_1-1, n_2-1)}, \frac{S_1^2}{S_2^2} \cdot F_{\alpha/2}(n_2-1, n_1-1)\right) \]
5.3 非参数估计简介 (Introduction to Non-parametric Estimation)
非参数估计 (Non-parametric Estimation) 是一类不依赖于总体分布具体形式的统计推断方法。与参数估计 (parametric estimation) 相比,非参数估计不需要假设总体服从特定的分布族(如正态分布、指数分布等),因此适用范围更广,更加稳健 (robust)。
非参数估计的特点 (Characteristics of Non-parametric Estimation):
⚝ 分布自由 (Distribution-free): 不依赖于总体分布的具体形式,只需要对总体分布做较少的假设(例如连续性、对称性等)。
⚝ 稳健性 (Robustness): 对数据中的异常值 (outliers) 不敏感,结果更加可靠。
⚝ 适用性广 (Wide Applicability): 适用于各种类型的总体分布,特别是当总体分布未知或难以确定时。
⚝ 效率相对较低 (Relatively Lower Efficiency): 在总体分布已知且符合参数模型假设的情况下,参数方法的效率通常高于非参数方法。但在不满足参数模型假设时,非参数方法可能更有效。
常见的非参数估计方法 (Common Non-parametric Estimation Methods):
⚝ 非参数点估计 (Non-parametric Point Estimation): 例如,中位数 (median) 作为总体中心位置的估计,经验分布函数 (empirical distribution function) 作为总体分布函数的估计。
⚝ 非参数区间估计 (Non-parametric Interval Estimation): 例如,基于次序统计量 (order statistics) 的置信区间,Bootstrap 置信区间。
⚝ 非参数假设检验 (Non-parametric Hypothesis Testing): 例如,符号检验 (sign test)、秩和检验 (rank sum test)、Wilcoxon 符号秩检验 (Wilcoxon signed-rank test)、Kruskal-Wallis 检验 (Kruskal-Wallis test) 等。
⚝ 非参数回归 (Non-parametric Regression): 例如,核回归 (kernel regression)、局部多项式回归 (local polynomial regression)、样条回归 (spline regression) 等。
⚝ 密度估计 (Density Estimation): 例如,直方图 (histogram)、核密度估计 (kernel density estimation)。
非参数估计的应用场景 (Application Scenarios of Non-parametric Estimation):
⚝ 当无法确定总体分布类型时。
⚝ 当数据不满足参数方法的假设条件时(例如,非正态性、方差不齐等)。
⚝ 当数据中存在异常值时。
⚝ 当需要对分布的位置、形状等特征进行估计,而不仅仅是参数估计时。
总结 (Summary):
非参数估计为我们提供了一套在更宽松的条件下进行统计推断的工具。在实际应用中,应根据具体问题和数据特点,选择合适的参数方法或非参数方法。在不确定总体分布时,非参数方法往往是更稳妥的选择。
6. chapter 6: 假设检验 (Hypothesis Testing)
6.1 假设检验的基本概念 (Basic Concepts of Hypothesis Testing)
6.1.1 原假设与备择假设 (Null Hypothesis and Alternative Hypothesis)
在数理统计中,假设检验 (Hypothesis Testing) 是用于判断关于总体 参数 (Parameter) 或 总体分布 (Population Distribution) 的假设是否成立的一种统计推断方法。它基于样本数据提供的证据,来决定是否拒绝一个预先设定的假设。
在进行假设检验时,我们首先需要提出两个相互对立的假设:原假设 (Null Hypothesis) 和 备择假设 (Alternative Hypothesis)。
原假设 (Null Hypothesis),通常记为 \(H_0\),是我们想要检验的假设,它常常是对现状、默认情况或没有效应的陈述。例如,原假设可能是“药物A 无效”,“两个总体均值相等”,或者“硬币是公平的”。 在法庭审判中,原假设类似于“被告无罪”,我们需要证据来推翻它。
备择假设 (Alternative Hypothesis),通常记为 \(H_1\) 或 \(H_a\),是当我们拒绝原假设时接受的假设,它代表我们想要证明的结论。备择假设与原假设互斥,它常常是对研究问题或效应的陈述。例如,备择假设可能是“药物A 有效”,“两个总体均值不相等”,或者“硬币是不公平的”。 在法庭审判中,备择假设类似于“被告有罪”,只有当证据充分时才能被接受。
关键要点:
① 假设的陈述对象: 假设检验是对总体参数或总体分布的陈述,而不是对样本统计量的陈述。例如,我们假设的是总体均值 \(\mu\) 等于某个值,而不是样本均值 \(\bar{x}\) 等于某个值。
② 原假设的设定: 原假设通常设定为我们想要拒绝的假设。在实际问题中,我们常常希望通过收集证据来推翻原假设,从而支持备择假设。
③ 备择假设的设定: 备择假设是当我们拒绝原假设时所接受的结论。备择假设应该反映研究者想要证实的效应或差异。
④ 假设的类型: 根据备择假设的方向性,假设检验可以分为:
⚝ 双侧检验 (Two-tailed Test):当备择假设表示参数不等于某个特定值时,例如 \(H_1: \mu \neq \mu_0\)。
⚝ 单侧检验 (One-tailed Test):当备择假设表示参数大于或小于某个特定值时,例如 \(H_1: \mu > \mu_0\) (右侧检验) 或 \(H_1: \mu < \mu_0\) (左侧检验)。
例子 1: 药物疗效检验
假设我们要检验一种新药是否能有效降低血压。
⚝ 原假设 \(H_0\):新药无效,即服用新药后血压没有显著变化。 (例如,总体平均血压变化 \(\mu = 0\))
⚝ 备择假设 \(H_1\):新药有效,即服用新药后血压显著降低。 (例如,总体平均血压变化 \(\mu < 0\),单侧检验)
例子 2: 硬币公平性检验
假设我们要检验一枚硬币是否是公平的。
⚝ 原假设 \(H_0\):硬币是公平的,即正面朝上的概率 \(p = 0.5\)。
⚝ 备择假设 \(H_1\):硬币是不公平的,即正面朝上的概率 \(p \neq 0.5\)。 (双侧检验)
在进行假设检验时,明确地陈述原假设和备择假设是至关重要的第一步,它将指导后续的检验步骤和结论的解释。
6.1.2 两类错误 (Type I Error and Type II Error)
在假设检验中,我们的决策是基于样本数据做出的,因此不可避免地存在犯错误的可能。 假设检验可能犯两种类型的错误:第一类错误 (Type I Error) 和 第二类错误 (Type II Error)。
为了理解这两类错误,我们首先回顾假设检验的逻辑:我们基于样本数据,试图判断是否应该拒绝原假设 \(H_0\)。 我们的决策只有两种可能:拒绝 \(H_0\) 或不拒绝 \(H_0\)。 然而,现实情况(总体的真实状态)也只有两种可能:\(H_0\) 为真 或 \(H_0\) 为假。 将我们的决策与现实情况进行对比,就产生了四种可能的结果,如下表所示:
决策 (Decision) | \(H_0\) 为真 ( \(H_0\) is True) | \(H_0\) 为假 ( \(H_0\) is False) |
---|---|---|
不拒绝 \(H_0\) (Do not reject \(H_0\)) | 正确决策 (Correct Decision) | 第二类错误 (Type II Error) |
拒绝 \(H_0\) (Reject \(H_0\)) | 第一类错误 (Type I Error) | 正确决策 (Correct Decision) |
① 第一类错误 (Type I Error)
⚝ 定义: 当 原假设 \(H_0\) 实际上为真 时,我们却 拒绝了 \(H_0\),就犯了第一类错误,也称为 拒真错误 或 弃真错误 (False Positive)。
⚝ 概率: 犯第一类错误的概率通常用 \(\alpha\) 表示,也称为 显著性水平 (Significance Level)。 \(\alpha = P(\text{拒绝 } H_0 \mid H_0 \text{ 为真})\)。
⚝ 例子: 在药物疗效检验的例子中,如果新药实际上无效 (\(H_0\) 为真),但我们通过假设检验却得出结论认为新药有效 (拒绝 \(H_0\)),那么我们就犯了第一类错误。
② 第二类错误 (Type II Error)
⚝ 定义: 当 原假设 \(H_0\) 实际上为假 时,我们却 没有拒绝 \(H_0\),就犯了第二类错误,也称为 纳伪错误 或 取伪错误 (False Negative)。
⚝ 概率: 犯第二类错误的概率通常用 \(\beta\) 表示。 \(\beta = P(\text{不拒绝 } H_0 \mid H_0 \text{ 为假})\)。
⚝ 例子: 在药物疗效检验的例子中,如果新药实际上有效 (\(H_0\) 为假),但我们通过假设检验却得出结论认为新药无效 (不拒绝 \(H_0\)),那么我们就犯了第二类错误。
理解 \(\alpha\) 和 \(\beta\):
⚝ \(\alpha\) 是我们愿意承担的 最大 犯第一类错误的概率。 在实践中,\(\alpha\) 的常用取值有 0.05, 0.01, 0.10 等。 例如,当 \(\alpha = 0.05\) 时,意味着如果我们重复进行 100 次假设检验,平均来说,当我们原假设为真时,我们大约有 5 次会错误地拒绝原假设。
⚝ \(\beta\) 的值通常不容易直接计算,它取决于总体的真实参数值与原假设参数值之间的差异大小,以及样本容量等因素。
⚝ 功效 (Power):与第二类错误相关的概念是 功效 (Power),记为 \(1-\beta\)。 功效是指当 备择假设 \(H_1\) 为真 时,我们 正确地拒绝原假设 \(H_0\) 的概率。 功效越大,检验就越灵敏,越容易发现真实存在的效应。 \(1-\beta = P(\text{拒绝 } H_0 \mid H_1 \text{ 为真})\)。
权衡 \(\alpha\) 和 \(\beta\):
在实际应用中,我们希望同时减小 \(\alpha\) 和 \(\beta\),但这通常是不可能同时实现的。 当我们减小 \(\alpha\) 时,通常会增大 \(\beta\),反之亦然。 在给定样本容量的情况下,减小犯一类错误的概率通常会增大犯二类错误的概率。
在实际问题中,我们需要根据具体情况来权衡两类错误的重要性。
⚝ 如果犯第一类错误的后果更严重,例如,在医学诊断中,将一个健康的人误诊为病人 (假阳性),可能导致不必要的治疗和心理负担。 此时,我们应该选择较小的 \(\alpha\) 值,例如 \(\alpha = 0.01\) 或 \(\alpha = 0.001\),以降低犯第一类错误的概率。
⚝ 如果犯第二类错误的后果更严重,例如,在疾病筛查中,将一个病人误诊为健康人 (假阴性),可能延误治疗,导致病情恶化。 此时,我们应该考虑增大 \(\alpha\) 值 (例如 \(\alpha = 0.10\)) 或增加样本容量,以提高检验的功效,减小犯第二类错误的概率。
在大多数科学研究中,通常优先控制第一类错误的概率 \(\alpha\), 习惯上取 \(\alpha = 0.05\) 作为显著性水平。 在保证 \(\alpha\) 不超过一定水平的前提下,我们希望尽可能地减小 \(\beta\) (或增大功效 \(1-\beta\)),这通常可以通过增加样本容量来实现。
6.1.3 显著性水平与 p 值 (Significance Level and p-value)
显著性水平 (Significance Level),通常用 \(\alpha\) 表示,是我们在进行假设检验时预先设定的一个概率值,它代表我们 容忍犯第一类错误的最大概率。 \(\alpha\) 常用的取值有 0.05, 0.01, 0.10 等。 显著性水平 \(\alpha\) 也被称为 检验水平 或 显著水平。
p 值 (p-value),也称为 概率值 或 观测到的显著性水平 (Observed Significance Level),是指在 原假设 \(H_0\) 为真 的前提下, 观测到的样本结果,以及更极端的结果 出现的概率。 p 值是根据样本数据计算出来的一个概率值,用于衡量样本数据与原假设之间不一致的程度。
假设检验的决策规则 (基于 p 值):
在假设检验中,我们通常将计算得到的 p 值与预先设定的显著性水平 \(\alpha\) 进行比较,以做出决策:
⚝ 如果 \(p \leq \alpha\): 我们认为 p 值足够小,表明在原假设 \(H_0\) 为真的情况下,观测到当前样本结果或更极端结果的概率很小,这说明样本数据提供了 足够的证据来反对原假设 \(H_0\)。 因此,我们 拒绝原假设 \(H_0\),接受备择假设 \(H_1\)。 此时,我们称检验结果在 \(\alpha\) 显著性水平下是 统计显著的 (Statistically Significant)。
⚝ 如果 \(p > \alpha\): 我们认为 p 值不够小,表明在原假设 \(H_0\) 为真的情况下,观测到当前样本结果或更极端结果的概率并不小,这说明样本数据 没有提供足够的证据来反对原假设 \(H_0\)。 因此,我们 不拒绝原假设 \(H_0\)。 此时,我们 不能接受备择假设 \(H_1\),但也不能说原假设 \(H_0\) 一定为真,只能说 没有足够的证据拒绝 \(H_0\)。 我们称检验结果在 \(\alpha\) 显著性水平下是 统计不显著的 (Statistically Non-significant)。
理解 p 值:
⚝ p 值不是原假设 \(H_0\) 为真的概率。 p 值是在 假设 \(H_0\) 为真 的前提下计算出来的条件概率。 它衡量的是样本数据与原假设之间的一致性程度。
⚝ p 值越小,反对原假设 \(H_0\) 的证据越强。 p 值越小,说明在原假设 \(H_0\) 为真的情况下,观测到当前样本结果或更极端结果的可能性越小,因此我们更有理由怀疑原假设 \(H_0\) 的真实性,从而拒绝 \(H_0\)。
⚝ p 值的大小受到样本容量的影响。 在其他条件相同的情况下,样本容量越大,p 值往往会越小。 即使效应量 (Effect Size) 很小,当样本容量足够大时,也可能得到统计显著的结果 (p 值很小)。 因此,在解释统计显著性时,需要同时考虑效应量的大小和实际意义。
计算 p 值:
p 值的计算方法取决于具体的假设检验类型和检验统计量 (Test Statistic) 的分布。 一般来说,计算 p 值的步骤如下:
- 确定检验统计量 (Test Statistic): 根据假设检验的问题和样本数据,选择合适的检验统计量,例如 z 统计量、t 统计量、卡方统计量、F 统计量等。
- 计算检验统计量的观测值 (Observed Value): 将样本数据代入检验统计量的公式,计算出检验统计量的具体数值。
- 确定 p 值: 根据检验统计量的分布类型 (例如,标准正态分布、t 分布、卡方分布、F 分布) 和备择假设的类型 (单侧或双侧),计算 p 值。
▮▮▮▮⚝ 对于右侧检验 (例如 \(H_1: \mu > \mu_0\)): p 值是检验统计量 大于或等于 观测值的概率,即 \(P(T \geq t_{obs})\),其中 \(T\) 是检验统计量,\(t_{obs}\) 是检验统计量的观测值。
▮▮▮▮⚝ 对于左侧检验 (例如 \(H_1: \mu < \mu_0\)): p 值是检验统计量 小于或等于 观测值的概率,即 \(P(T \leq t_{obs})\)。
▮▮▮▮⚝ 对于双侧检验 (例如 \(H_1: \mu \neq \mu_0\)): p 值是检验统计量 绝对值大于或等于 观测值绝对值的概率,即 \(P(|T| \geq |t_{obs}|)\)。 对于对称分布,双侧检验的 p 值通常是单侧检验 p 值的两倍。
现代统计软件 (如 R, Python, SPSS 等) 可以自动计算各种假设检验的 p 值,大大简化了假设检验的步骤。 理解 p 值的含义和决策规则,是正确应用和解释假设检验结果的关键。
6.2 单个正态总体参数的假设检验 (Hypothesis Testing for Parameters of a Single Normal Population)
6.2.1 均值检验 (Mean Test)
问题背景: 假设我们有一个来自 正态总体 \(N(\mu, \sigma^2)\) 的随机样本 \(X_1, X_2, ..., X_n\)。 我们想要检验关于总体均值 \(\mu\) 的假设。
检验假设:
我们通常要检验以下三种类型的假设:
① 双侧检验 (Two-tailed Test):
\[ H_0: \mu = \mu_0, \quad H_1: \mu \neq \mu_0 \]
其中 \(\mu_0\) 是一个给定的常数。
② 右侧检验 (Right-tailed Test):
\[ H_0: \mu \leq \mu_0, \quad H_1: \mu > \mu_0 \]
或者等价地, \(H_0: \mu = \mu_0, \quad H_1: \mu > \mu_0\)。
③ 左侧检验 (Left-tailed Test):
\[ H_0: \mu \geq \mu_0, \quad H_1: \mu < \mu_0 \]
或者等价地, \(H_0: \mu = \mu_0, \quad H_1: \mu < \mu_0\)。
检验统计量:
根据总体方差 \(\sigma^2\) 是否已知,我们采用不同的检验统计量。
情况 1: 总体方差 \(\sigma^2\) 已知
当总体方差 \(\sigma^2\) 已知时,我们使用 z 检验 (z-test)。 检验统计量为:
\[ z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \]
其中 \(\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\) 是样本均值。 在原假设 \(H_0: \mu = \mu_0\) 成立时,检验统计量 \(z\) 近似服从标准正态分布 \(N(0, 1)\)。
情况 2: 总体方差 \(\sigma^2\) 未知
当总体方差 \(\sigma^2\) 未知时,我们使用 t 检验 (t-test)。 用样本方差 \(S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\) 来估计 \(\sigma^2\)。 检验统计量为:
\[ t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}} \]
在原假设 \(H_0: \mu = \mu_0\) 成立时,检验统计量 \(t\) 服从自由度为 \(n-1\) 的 t 分布 \(t(n-1)\)。
拒绝域 (Rejection Region) 和 p 值:
给定显著性水平 \(\alpha\),根据备择假设的类型,我们可以确定拒绝域和计算 p 值。
① 双侧检验 \(H_1: \mu \neq \mu_0\):
⚝ 拒绝域 (z 检验): \(|z| > z_{\alpha/2}\),其中 \(z_{\alpha/2}\) 是标准正态分布的上 \(\alpha/2\) 分位数,即 \(P(Z > z_{\alpha/2}) = \alpha/2\),\(Z \sim N(0, 1)\)。
⚝ 拒绝域 (t 检验): \(|t| > t_{\alpha/2}(n-1)\),其中 \(t_{\alpha/2}(n-1)\) 是自由度为 \(n-1\) 的 t 分布的上 \(\alpha/2\) 分位数,即 \(P(T > t_{\alpha/2}(n-1)) = \alpha/2\),\(T \sim t(n-1)\)。
⚝ p 值 (z 检验): \(p = 2P(Z > |z_{obs}|)\),其中 \(z_{obs}\) 是检验统计量 \(z\) 的观测值。
⚝ p 值 (t 检验): \(p = 2P(T > |t_{obs}|)\),其中 \(t_{obs}\) 是检验统计量 \(t\) 的观测值。
② 右侧检验 \(H_1: \mu > \mu_0\):
⚝ 拒绝域 (z 检验): \(z > z_{\alpha}\),其中 \(z_{\alpha}\) 是标准正态分布的上 \(\alpha\) 分位数,即 \(P(Z > z_{\alpha}) = \alpha\)。
⚝ 拒绝域 (t 检验): \(t > t_{\alpha}(n-1)\),其中 \(t_{\alpha}(n-1)\) 是自由度为 \(n-1\) 的 t 分布的上 \(\alpha\) 分位数,即 \(P(T > t_{\alpha}(n-1)) = \alpha\)。
⚝ p 值 (z 检验): \(p = P(Z > z_{obs})\)。
⚝ p 值 (t 检验): \(p = P(T > t_{obs})\)。
③ 左侧检验 \(H_1: \mu < \mu_0\):
⚝ 拒绝域 (z 检验): \(z < -z_{\alpha}\) 或 \(z < z_{1-\alpha}\),其中 \(-z_{\alpha} = z_{1-\alpha}\) 是标准正态分布的下 \(\alpha\) 分位数。
⚝ 拒绝域 (t 检验): \(t < -t_{\alpha}(n-1)\) 或 \(t < t_{1-\alpha}(n-1)\),其中 \(-t_{\alpha}(n-1) = t_{1-\alpha}(n-1)\) 是自由度为 \(n-1\) 的 t 分布的下 \(\alpha\) 分位数。
⚝ p 值 (z 检验): \(p = P(Z < z_{obs})\)。
⚝ p 值 (t 检验): \(p = P(T < t_{obs})\)。
步骤总结:
- 提出假设: 根据研究问题,确定原假设 \(H_0\) 和备择假设 \(H_1\)。
- 选择检验统计量: 根据总体方差 \(\sigma^2\) 是否已知,选择 z 检验或 t 检验。
- 计算检验统计量的观测值: 根据样本数据计算检验统计量的值 \(z_{obs}\) 或 \(t_{obs}\)。
- 确定 p 值: 根据备择假设的类型和检验统计量的分布,计算 p 值。
- 做出决策: 将 p 值与显著性水平 \(\alpha\) 进行比较,如果 \(p \leq \alpha\),则拒绝 \(H_0\),否则不拒绝 \(H_0\)。
- 得出结论: 根据假设检验的结果,结合实际问题,给出结论。
例子: 某工厂生产的零件长度检验
假设某工厂生产一种零件,零件长度服从正态分布。 规定零件的标准长度为 10cm。 为了检验生产线是否正常,随机抽取了 16 个零件,测量其长度 (单位:cm) 如下:
1
9.8, 10.2, 9.9, 10.1, 10.0, 9.7, 10.3, 10.2, 9.8, 10.0, 10.1, 9.9, 10.2, 9.8, 10.1, 10.0
假设总体方差 \(\sigma^2\) 未知,显著性水平 \(\alpha = 0.05\)。 检验该批零件的平均长度是否符合标准 10cm。
解:
- 提出假设:
\(H_0: \mu = 10\) (零件平均长度符合标准)
\(H_1: \mu \neq 10\) (零件平均长度不符合标准,双侧检验) - 选择检验统计量: 由于总体方差 \(\sigma^2\) 未知,样本容量 \(n=16 < 30\), 采用 t 检验。
- 计算检验统计量的观测值:
样本均值 \(\bar{x} = \frac{1}{16} \sum_{i=1}^{16} x_i = 10.0\)
样本方差 \(s^2 = \frac{1}{16-1} \sum_{i=1}^{16} (x_i - \bar{x})^2 \approx 0.0253\)
样本标准差 \(s = \sqrt{s^2} \approx 0.159\)
检验统计量 \(t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} = \frac{10.0 - 10}{0.159 / \sqrt{16}} = 0\) - 确定 p 值: 自由度 \(df = n-1 = 16-1 = 15\)。 双侧检验的 p 值为 \(p = 2P(T > |t_{obs}|) = 2P(T > |0|) = 2P(T > 0)\)。 由于 t 分布是对称的,\(P(T > 0) = 0.5\),所以 \(p = 2 \times 0.5 = 1\)。
- 做出决策: 显著性水平 \(\alpha = 0.05\),p 值 \(p = 1 > \alpha = 0.05\),因此,不拒绝原假设 \(H_0\)。
- 得出结论: 在显著性水平 0.05 下,没有足够的证据拒绝原假设 \(H_0\)。 可以认为该批零件的平均长度符合标准 10cm。
6.2.2 方差检验 (Variance Test)
问题背景: 假设我们有一个来自 正态总体 \(N(\mu, \sigma^2)\) 的随机样本 \(X_1, X_2, ..., X_n\)。 我们想要检验关于总体方差 \(\sigma^2\) (或标准差 \(\sigma\)) 的假设。
检验假设:
我们通常要检验以下三种类型的假设:
① 双侧检验 (Two-tailed Test):
\[ H_0: \sigma^2 = \sigma_0^2, \quad H_1: \sigma^2 \neq \sigma_0^2 \]
其中 \(\sigma_0^2\) 是一个给定的常数。
② 右侧检验 (Right-tailed Test):
\[ H_0: \sigma^2 \leq \sigma_0^2, \quad H_1: \sigma^2 > \sigma_0^2 \]
或者等价地, \(H_0: \sigma^2 = \sigma_0^2, \quad H_1: \sigma^2 > \sigma_0^2\)。
③ 左侧检验 (Left-tailed Test):
\[ H_0: \sigma^2 \geq \sigma_0^2, \quad H_1: \sigma^2 < \sigma_0^2 \]
或者等价地, \(H_0: \sigma^2 = \sigma_0^2, \quad H_1: \sigma^2 < \sigma_0^2\)。
检验统计量:
对于正态总体方差的假设检验,我们使用 卡方检验 (Chi-square Test)。 检验统计量为:
\[ \chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \]
其中 \(S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\) 是样本方差。 在原假设 \(H_0: \sigma^2 = \sigma_0^2\) 成立时,检验统计量 \(\chi^2\) 服从自由度为 \(n-1\) 的卡方分布 \(\chi^2(n-1)\)。
拒绝域 (Rejection Region) 和 p 值:
给定显著性水平 \(\alpha\),根据备择假设的类型,我们可以确定拒绝域和计算 p 值。
① 双侧检验 \(H_1: \sigma^2 \neq \sigma_0^2\):
⚝ 拒绝域: \(\chi^2 < \chi^2_{1-\alpha/2}(n-1)\) 或 \(\chi^2 > \chi^2_{\alpha/2}(n-1)\),其中 \(\chi^2_{\alpha/2}(n-1)\) 和 \(\chi^2_{1-\alpha/2}(n-1)\) 分别是自由度为 \(n-1\) 的卡方分布的上 \(\alpha/2\) 分位数和下 \(\alpha/2\) 分位数。
⚝ p 值: \(p = 2 \min\{P(\chi^2 \leq \chi^2_{obs}), P(\chi^2 \geq \chi^2_{obs})\}\),其中 \(\chi^2_{obs}\) 是检验统计量 \(\chi^2\) 的观测值,\(\chi^2 \sim \chi^2(n-1)\)。 更精确的 p 值计算需要考虑双侧检验的特性,通常统计软件会给出准确的 p 值。
② 右侧检验 \(H_1: \sigma^2 > \sigma_0^2\):
⚝ 拒绝域: \(\chi^2 > \chi^2_{\alpha}(n-1)\),其中 \(\chi^2_{\alpha}(n-1)\) 是自由度为 \(n-1\) 的卡方分布的上 \(\alpha\) 分位数。
⚝ p 值: \(p = P(\chi^2 \geq \chi^2_{obs})\),其中 \(\chi^2_{obs}\) 是检验统计量 \(\chi^2\) 的观测值,\(\chi^2 \sim \chi^2(n-1)\)。
③ 左侧检验 \(H_1: \sigma^2 < \sigma_0^2\):
⚝ 拒绝域: \(\chi^2 < \chi^2_{1-\alpha}(n-1)\),其中 \(\chi^2_{1-\alpha}(n-1)\) 是自由度为 \(n-1\) 的卡方分布的下 \(\alpha\) 分位数。
⚝ p 值: \(p = P(\chi^2 \leq \chi^2_{obs})\),其中 \(\chi^2_{obs}\) 是检验统计量 \(\chi^2\) 的观测值,\(\chi^2 \sim \chi^2(n-1)\)。
步骤总结:
- 提出假设: 根据研究问题,确定原假设 \(H_0\) 和备择假设 \(H_1\) (关于总体方差 \(\sigma^2\))。
- 选择检验统计量: 采用卡方检验,检验统计量为 \(\chi^2 = \frac{(n-1)S^2}{\sigma_0^2}\)。
- 计算检验统计量的观测值: 根据样本数据计算检验统计量的值 \(\chi^2_{obs}\)。
- 确定 p 值: 根据备择假设的类型和卡方分布,计算 p 值。
- 做出决策: 将 p 值与显著性水平 \(\alpha\) 进行比较,如果 \(p \leq \alpha\),则拒绝 \(H_0\),否则不拒绝 \(H_0\)。
- 得出结论: 根据假设检验的结果,结合实际问题,给出结论。
例子: 某机器生产零件尺寸的稳定性检验
假设某机器生产零件的尺寸服从正态分布。 要求零件尺寸的标准差不超过 0.02mm。 为了检验机器生产的稳定性,随机抽取了 20 个零件,测量其尺寸,计算得到样本方差 \(s^2 = 0.0005 \text{mm}^2\)。 显著性水平 \(\alpha = 0.05\)。 检验该机器生产的零件尺寸的标准差是否超过 0.02mm (即方差是否超过 \(0.02^2 = 0.0004 \text{mm}^2\))。
解:
- 提出假设: 检验标准差是否超过 0.02mm,即检验方差是否超过 \(0.0004 \text{mm}^2\)。
\(H_0: \sigma^2 \leq 0.0004\) (机器生产稳定,方差不超过 \(0.0004 \text{mm}^2\))
\(H_1: \sigma^2 > 0.0004\) (机器生产不稳定,方差超过 \(0.0004 \text{mm}^2\),右侧检验) - 选择检验统计量: 采用卡方检验,检验统计量为 \(\chi^2 = \frac{(n-1)S^2}{\sigma_0^2}\)。
- 计算检验统计量的观测值:
样本容量 \(n = 20\),样本方差 \(s^2 = 0.0005\),\(\sigma_0^2 = 0.0004\)。
检验统计量 \(\chi^2 = \frac{(20-1) \times 0.0005}{0.0004} = \frac{19 \times 0.0005}{0.0004} = 23.75\) - 确定 p 值: 自由度 \(df = n-1 = 20-1 = 19\)。 右侧检验的 p 值为 \(p = P(\chi^2 \geq \chi^2_{obs}) = P(\chi^2 \geq 23.75)\),其中 \(\chi^2 \sim \chi^2(19)\)。 查卡方分布表或使用统计软件,可以得到 \(p \approx 0.203\)。
- 做出决策: 显著性水平 \(\alpha = 0.05\),p 值 \(p \approx 0.203 > \alpha = 0.05\),因此,不拒绝原假设 \(H_0\)。
- 得出结论: 在显著性水平 0.05 下,没有足够的证据拒绝原假设 \(H_0\)。 可以认为该机器生产的零件尺寸的标准差没有超过 0.02mm,机器生产稳定性尚可接受。
6.3 两个正态总体参数的假设检验 (Hypothesis Testing for Parameters of Two Normal Populations)
6.3.1 均值差检验 (Difference in Means Test)
问题背景: 假设我们有两个独立的随机样本,分别来自两个正态总体:
⚝ 样本 1: \(X_1, X_2, ..., X_{n_1}\) 来自总体 \(N(\mu_1, \sigma_1^2)\)
⚝ 样本 2: \(Y_1, Y_2, ..., Y_{n_2}\) 来自总体 \(N(\mu_2, \sigma_2^2)\)
我们想要检验关于两个总体均值之差 \(\mu_1 - \mu_2\) 的假设。
检验假设:
我们通常要检验以下三种类型的假设:
① 双侧检验 (Two-tailed Test):
\[ H_0: \mu_1 - \mu_2 = \delta_0, \quad H_1: \mu_1 - \mu_2 \neq \delta_0 \]
通常 \(\delta_0 = 0\),即检验 \(H_0: \mu_1 = \mu_2, \quad H_1: \mu_1 \neq \mu_2\)。
② 右侧检验 (Right-tailed Test):
\[ H_0: \mu_1 - \mu_2 \leq \delta_0, \quad H_1: \mu_1 - \mu_2 > \delta_0 \]
通常 \(\delta_0 = 0\),即检验 \(H_0: \mu_1 \leq \mu_2, \quad H_1: \mu_1 > \mu_2\)。
③ 左侧检验 (Left-tailed Test):
\[ H_0: \mu_1 - \mu_2 \geq \delta_0, \quad H_1: \mu_1 - \mu_2 < \delta_0 \]
通常 \(\delta_0 = 0\),即检验 \(H_0: \mu_1 \geq \mu_2, \quad H_1: \mu_1 < \mu_2\)。
检验统计量:
根据总体方差 \(\sigma_1^2, \sigma_2^2\) 是否已知以及是否相等,我们采用不同的检验统计量。
情况 1: \(\sigma_1^2, \sigma_2^2\) 已知
当 \(\sigma_1^2, \sigma_2^2\) 已知时,我们使用 z 检验 (z-test)。 检验统计量为:
\[ z = \frac{(\bar{X} - \bar{Y}) - \delta_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]
其中 \(\bar{X} = \frac{1}{n_1} \sum_{i=1}^{n_1} X_i\) 和 \(\bar{Y} = \frac{1}{n_2} \sum_{i=1}^{n_2} Y_i\) 分别是两个样本的均值。 在原假设 \(H_0: \mu_1 - \mu_2 = \delta_0\) 成立时,检验统计量 \(z\) 近似服从标准正态分布 \(N(0, 1)\)。
情况 2: \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 未知但相等
当 \(\sigma_1^2 = \sigma_2^2 = \sigma^2\) 未知但相等时,我们使用 合并方差 t 检验 (Pooled Variance t-test)。 首先估计合并方差 \(S_p^2\):
\[ S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2} \]
其中 \(S_1^2\) 和 \(S_2^2\) 分别是两个样本的方差。 检验统计量为:
\[ t = \frac{(\bar{X} - \bar{Y}) - \delta_0}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \]
在原假设 \(H_0: \mu_1 - \mu_2 = \delta_0\) 成立时,检验统计量 \(t\) 服从自由度为 \(n_1 + n_2 - 2\) 的 t 分布 \(t(n_1 + n_2 - 2)\)。
情况 3: \(\sigma_1^2 \neq \sigma_2^2\) 未知且不相等
当 \(\sigma_1^2 \neq \sigma_2^2\) 未知且不相等时,我们使用 Welch's t 检验 (Welch's t-test),也称为 不等方差 t 检验 (Unequal Variance t-test)。 检验统计量为:
\[ t = \frac{(\bar{X} - \bar{Y}) - \delta_0}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \]
Welch's t 检验的自由度需要近似计算,常用的近似公式为 Welch-Satterthwaite 方程 (Welch-Satterthwaite equation):
\[ df \approx \frac{(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2})^2}{\frac{(\frac{S_1^2}{n_1})^2}{n_1-1} + \frac{(\frac{S_2^2}{n_2})^2}{n_2-1}} \]
计算得到的自由度 \(df\) 通常不是整数,需要取整到最接近的整数。 在原假设 \(H_0: \mu_1 - \mu_2 = \delta_0\) 成立时,检验统计量 \(t\) 近似服从自由度为 \(df\) 的 t 分布 \(t(df)\)。
拒绝域 (Rejection Region) 和 p 值:
拒绝域和 p 值的确定方法与单个总体均值检验类似,根据备择假设的类型和检验统计量的分布 (标准正态分布或 t 分布) 确定。 例如,对于双侧检验 \(H_1: \mu_1 - \mu_2 \neq \delta_0\),使用 t 检验时,拒绝域为 \(|t| > t_{\alpha/2}(df)\),p 值为 \(p = 2P(T > |t_{obs}|)\),其中 \(T \sim t(df)\),\(df\) 为相应的自由度。
步骤总结:
- 提出假设: 根据研究问题,确定原假设 \(H_0\) 和备择假设 \(H_1\) (关于 \(\mu_1 - \mu_2\))。
- 检验方差是否相等: 如果 \(\sigma_1^2, \sigma_2^2\) 未知,需要先检验两个总体方差是否相等 (可以使用 F 检验,见 6.3.2 节)。 根据方差是否相等以及是否已知,选择合适的检验方法 (z 检验、合并方差 t 检验、Welch's t 检验)。
- 计算检验统计量的观测值: 根据样本数据计算检验统计量的值 \(z_{obs}\) 或 \(t_{obs}\)。
- 确定自由度 (如果需要): 对于 t 检验,确定相应的自由度。
- 确定 p 值: 根据备择假设的类型和检验统计量的分布,计算 p 值。
- 做出决策: 将 p 值与显著性水平 \(\alpha\) 进行比较,如果 \(p \leq \alpha\),则拒绝 \(H_0\),否则不拒绝 \(H_0\)。
- 得出结论: 根据假设检验的结果,结合实际问题,给出结论。
例子: 两种教学方法效果比较
为了比较两种教学方法的效果,分别用两种方法对两组学生进行教学。 方法 1 组有 25 名学生,方法 2 组有 30 名学生。 期末考试成绩 (假设服从正态分布) 的样本统计量如下:
⚝ 方法 1 组: 样本均值 \(\bar{x} = 80\),样本标准差 \(s_1 = 8\)
⚝ 方法 2 组: 样本均值 \(\bar{y} = 75\),样本标准差 \(s_2 = 10\)
显著性水平 \(\alpha = 0.05\)。 检验两种教学方法的平均成绩是否有显著差异。 假设两组学生的总体方差不相等。
解:
- 提出假设:
\(H_0: \mu_1 = \mu_2\) (两种教学方法平均成绩无显著差异,即 \(\mu_1 - \mu_2 = 0\))
\(H_1: \mu_1 \neq \mu_2\) (两种教学方法平均成绩有显著差异,即 \(\mu_1 - \mu_2 \neq 0\),双侧检验) - 检验方差是否相等: 题目假设两组总体方差不相等,因此使用 Welch's t 检验。
- 计算检验统计量的观测值:
\(\bar{x} = 80\), \(s_1 = 8\), \(n_1 = 25\)
\(\bar{y} = 75\), \(s_2 = 10\), \(n_2 = 30\)
检验统计量 \(t = \frac{(\bar{x} - \bar{y}) - 0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} = \frac{80 - 75}{\sqrt{\frac{8^2}{25} + \frac{10^2}{30}}} \approx \frac{5}{\sqrt{2.56 + 3.33}} \approx \frac{5}{\sqrt{5.89}} \approx 2.06\) - 确定自由度: 使用 Welch-Satterthwaite 方程近似计算自由度:
\[ df \approx \frac{(\frac{8^2}{25} + \frac{10^2}{30})^2}{\frac{(\frac{8^2}{25})^2}{25-1} + \frac{(\frac{10^2}{30})^2}{30-1}} = \frac{(2.56 + 3.33)^2}{\frac{2.56^2}{24} + \frac{3.33^2}{29}} \approx \frac{5.89^2}{\frac{6.55}{24} + \frac{11.09}{29}} \approx \frac{34.69}{0.273 + 0.382} \approx \frac{34.69}{0.655} \approx 52.96 \]
取自由度 \(df = 53\)。 - 确定 p 值: 双侧检验的 p 值为 \(p = 2P(T > |t_{obs}|) = 2P(T > |2.06|)\),其中 \(T \sim t(53)\)。 查 t 分布表或使用统计软件,可以得到 \(p \approx 0.044\)。
- 做出决策: 显著性水平 \(\alpha = 0.05\),p 值 \(p \approx 0.044 < \alpha = 0.05\),因此,拒绝原假设 \(H_0\)。
- 得出结论: 在显著性水平 0.05 下,有足够的证据拒绝原假设 \(H_0\)。 可以认为两种教学方法的平均成绩有显著差异。 从样本均值来看,方法 1 的教学效果可能略好于方法 2。
6.3.2 方差比检验 (Ratio of Variances Test)
问题背景: 假设我们有两个独立的随机样本,分别来自两个正态总体:
⚝ 样本 1: \(X_1, X_2, ..., X_{n_1}\) 来自总体 \(N(\mu_1, \sigma_1^2)\)
⚝ 样本 2: \(Y_1, Y_2, ..., Y_{n_2}\) 来自总体 \(N(\mu_2, \sigma_2^2)\)
我们想要检验关于两个总体方差之比 \(\sigma_1^2 / \sigma_2^2\) 的假设。 方差比检验常用于检验两个总体的方差是否相等,这在进行两个总体均值差的 t 检验 (需要判断是否使用合并方差 t 检验或 Welch's t 检验) 前非常重要。
检验假设:
我们通常要检验以下三种类型的假设:
① 双侧检验 (Two-tailed Test):
\[ H_0: \sigma_1^2 = \sigma_2^2, \quad H_1: \sigma_1^2 \neq \sigma_2^2 \]
或者等价地, \(H_0: \sigma_1^2 / \sigma_2^2 = 1, \quad H_1: \sigma_1^2 / \sigma_2^2 \neq 1\)。
② 右侧检验 (Right-tailed Test):
\[ H_0: \sigma_1^2 \leq \sigma_2^2, \quad H_1: \sigma_1^2 > \sigma_2^2 \]
或者等价地, \(H_0: \sigma_1^2 / \sigma_2^2 \leq 1, \quad H_1: \sigma_1^2 / \sigma_2^2 > 1\)。
③ 左侧检验 (Left-tailed Test):
\[ H_0: \sigma_1^2 \geq \sigma_2^2, \quad H_1: \sigma_1^2 < \sigma_2^2 \]
或者等价地, \(H_0: \sigma_1^2 / \sigma_2^2 \geq 1, \quad H_1: \sigma_1^2 / \sigma_2^2 < 1\)。
检验统计量:
对于两个正态总体方差比的假设检验,我们使用 F 检验 (F-test)。 检验统计量为:
\[ F = \frac{S_1^2}{S_2^2} \]
其中 \(S_1^2\) 和 \(S_2^2\) 分别是两个样本的方差。 在原假设 \(H_0: \sigma_1^2 = \sigma_2^2\) 成立时,检验统计量 \(F\) 服从自由度为 \((n_1-1, n_2-1)\) 的 F 分布 \(F(n_1-1, n_2-1)\)。 其中,分子自由度 \(df_1 = n_1-1\),分母自由度 \(df_2 = n_2-1\)。
拒绝域 (Rejection Region) 和 p 值:
给定显著性水平 \(\alpha\),根据备择假设的类型,我们可以确定拒绝域和计算 p 值。
① 双侧检验 \(H_1: \sigma_1^2 \neq \sigma_2^2\):
⚝ 拒绝域: \(F < F_{1-\alpha/2}(n_1-1, n_2-1)\) 或 \(F > F_{\alpha/2}(n_1-1, n_2-1)\),其中 \(F_{\alpha/2}(n_1-1, n_2-1)\) 和 \(F_{1-\alpha/2}(n_1-1, n_2-1)\) 分别是 F 分布 \(F(n_1-1, n_2-1)\) 的上 \(\alpha/2\) 分位数和下 \(\alpha/2\) 分位数。
⚝ p 值: \(p = 2 \min\{P(F \leq F_{obs}), P(F \geq F_{obs})\}\),其中 \(F_{obs}\) 是检验统计量 \(F\) 的观测值,\(F \sim F(n_1-1, n_2-1)\)。 更精确的 p 值计算需要考虑双侧检验的特性,通常统计软件会给出准确的 p 值。
② 右侧检验 \(H_1: \sigma_1^2 > \sigma_2^2\):
⚝ 拒绝域: \(F > F_{\alpha}(n_1-1, n_2-1)\),其中 \(F_{\alpha}(n_1-1, n_2-1)\) 是 F 分布 \(F(n_1-1, n_2-1)\) 的上 \(\alpha\) 分位数。
⚝ p 值: \(p = P(F \geq F_{obs})\),其中 \(F_{obs}\) 是检验统计量 \(F\) 的观测值,\(F \sim F(n_1-1, n_2-1)\)。
③ 左侧检验 \(H_1: \sigma_1^2 < \sigma_2^2\):
⚝ 拒绝域: \(F < F_{1-\alpha}(n_1-1, n_2-1)\),其中 \(F_{1-\alpha}(n_1-1, n_2-1)\) 是 F 分布 \(F(n_1-1, n_2-1)\) 的下 \(\alpha\) 分位数。
⚝ p 值: \(p = P(F \leq F_{obs})\),其中 \(F_{obs}\) 是检验统计量 \(F\) 的观测值,\(F \sim F(n_1-1, n_2-1)\)。
注意: F 分布表通常只提供上侧分位数 \(F_{\alpha}(df_1, df_2)\)。 下侧分位数 \(F_{1-\alpha}(df_1, df_2)\) 可以通过以下关系计算:
\[ F_{1-\alpha}(df_1, df_2) = \frac{1}{F_{\alpha}(df_2, df_1)} \]
步骤总结:
- 提出假设: 根据研究问题,确定原假设 \(H_0\) 和备择假设 \(H_1\) (关于 \(\sigma_1^2 / \sigma_2^2\))。
- 选择检验统计量: 采用 F 检验,检验统计量为 \(F = \frac{S_1^2}{S_2^2}\)。 通常将样本方差较大的组放在分子位置,这样 F 值一般大于 1,便于查表。 如果这样做,对于双侧检验,需要将 p 值乘以 2 (如果计算的是单侧 p 值)。
- 计算检验统计量的观测值: 根据样本数据计算检验统计量的值 \(F_{obs}\)。
- 确定自由度: 分子自由度 \(df_1 = n_1-1\),分母自由度 \(df_2 = n_2-1\)。
- 确定 p 值: 根据备择假设的类型和 F 分布,计算 p 值。
- 做出决策: 将 p 值与显著性水平 \(\alpha\) 进行比较,如果 \(p \leq \alpha\),则拒绝 \(H_0\),否则不拒绝 \(H_0\)。
- 得出结论: 根据假设检验的结果,结合实际问题,给出结论。
例子: 两种仪器测量精度比较
为了比较两种仪器的测量精度,分别用两种仪器对同一物体进行多次测量。 仪器 1 测量 10 次,仪器 2 测量 12 次。 测量结果 (假设服从正态分布) 的样本方差分别为 \(s_1^2 = 0.025\) 和 \(s_2^2 = 0.015\)。 显著性水平 \(\alpha = 0.10\)。 检验两种仪器的测量精度 (方差) 是否有显著差异。
解:
- 提出假设:
\(H_0: \sigma_1^2 = \sigma_2^2\) (两种仪器测量精度无显著差异,即 \(\sigma_1^2 / \sigma_2^2 = 1\))
\(H_1: \sigma_1^2 \neq \sigma_2^2\) (两种仪器测量精度有显著差异,即 \(\sigma_1^2 / \sigma_2^2 \neq 1\),双侧检验) - 选择检验统计量: 采用 F 检验,检验统计量为 \(F = \frac{S_1^2}{S_2^2}\)。 将样本方差较大的仪器 1 放在分子位置。
- 计算检验统计量的观测值:
\(s_1^2 = 0.025\), \(n_1 = 10\)
\(s_2^2 = 0.015\), \(n_2 = 12\)
检验统计量 \(F = \frac{s_1^2}{s_2^2} = \frac{0.025}{0.015} \approx 1.67\) - 确定自由度: 分子自由度 \(df_1 = n_1-1 = 10-1 = 9\),分母自由度 \(df_2 = n_2-1 = 12-1 = 11\)。
- 确定 p 值: 双侧检验的 p 值为 \(p = 2P(F \geq F_{obs}) = 2P(F \geq 1.67)\),其中 \(F \sim F(9, 11)\)。 查 F 分布表或使用统计软件,可以得到 \(P(F \geq 1.67) \approx 0.23\)。 因此,\(p = 2 \times 0.23 = 0.46\)。
- 做出决策: 显著性水平 \(\alpha = 0.10\),p 值 \(p \approx 0.46 > \alpha = 0.10\),因此,不拒绝原假设 \(H_0\)。
- 得出结论: 在显著性水平 0.10 下,没有足够的证据拒绝原假设 \(H_0\)。 可以认为两种仪器的测量精度没有显著差异。
6.4 非参数假设检验简介 (Introduction to Non-parametric Hypothesis Testing)
6.4.1 符号检验 (Sign Test)
适用情况: 符号检验 (Sign Test) 是一种 非参数检验方法 (Non-parametric Test),适用于对 单个总体中位数 (Median) 进行假设检验,或者对 配对样本 (Paired Samples) 的 差值中位数 进行假设检验。 它不要求总体分布的具体形式,只需要数据是连续的即可。 符号检验主要利用样本数据中 正号和负号的个数 来进行推断。
单个总体中位数检验:
假设我们要检验单个总体中位数 \(M\) 是否等于某个给定值 \(M_0\)。
检验假设:
① 双侧检验 (Two-tailed Test): \(H_0: M = M_0, \quad H_1: M \neq M_0\)
② 右侧检验 (Right-tailed Test): \(H_0: M \leq M_0, \quad H_1: M > M_0\)
③ 左侧检验 (Left-tailed Test): \(H_0: M \geq M_0, \quad H_1: M < M_0\)
检验步骤:
- 计算差值: 对于样本数据 \(X_1, X_2, ..., X_n\),计算每个观测值与中位数假设值 \(M_0\) 的差值 \(D_i = X_i - M_0\),\(i = 1, 2, ..., n\)。
- 确定符号: 记录每个差值 \(D_i\) 的符号:
▮▮▮▮⚝ 正号 (+): 当 \(D_i > 0\) 时
▮▮▮▮⚝ 负号 (-): 当 \(D_i < 0\) 时
▮▮▮▮⚝ 零 (0): 当 \(D_i = 0\) 时 (如果出现零值,通常剔除零值,并减小样本容量 \(n\)) - 计算正号数和负号数: 设 \(S_+\) 为正号的个数,\(S_-\) 为负号的个数。 检验统计量可以使用 \(S_+\) 或 \(S_-\)。 在原假设 \(H_0: M = M_0\) 成立时,正号数 \(S_+\) 近似服从二项分布 \(B(n, 0.5)\),其中 \(n\) 是非零差值的个数。
- 计算 p 值: 根据备择假设的类型,计算 p 值。
▮▮▮▮⚝ 双侧检验 \(H_1: M \neq M_0\): \(p = 2 \min\{P(S_+ \leq s_+), P(S_+ \geq s_+)\}\),其中 \(s_+\) 是观测到的正号数,\(S_+ \sim B(n, 0.5)\)。
▮▮▮▮⚝ 右侧检验 \(H_1: M > M_0\): \(p = P(S_+ \geq s_+)\),其中 \(S_+ \sim B(n, 0.5)\)。
▮▮▮▮⚝ 左侧检验 \(H_1: M < M_0\): \(p = P(S_+ \leq s_+)\),其中 \(S_+ \sim B(n, 0.5)\)。
二项分布概率 \(P(S_+ = k) = \binom{n}{k} (0.5)^n\)。 当 \(n\) 较大时 (例如 \(n \geq 20\)),二项分布可以近似为正态分布 \(N(np, np(1-p))\),此处 \(p = 0.5\),即 \(N(0.5n, 0.25n)\)。 可以使用正态近似计算 p 值。
配对样本差值中位数检验:
假设我们有配对样本 \((X_1, Y_1), (X_2, Y_2), ..., (X_n, Y_n)\)。 我们想要检验差值 \(D_i = X_i - Y_i\) 的中位数 \(M_D\) 是否为 0,即检验两个配对总体的中位数是否相等。
检验假设:
① 双侧检验 (Two-tailed Test): \(H_0: M_D = 0, \quad H_1: M_D \neq 0\)
② 右侧检验 (Right-tailed Test): \(H_0: M_D \leq 0, \quad H_1: M_D > 0\)
③ 左侧检验 (Left-tailed Test): \(H_0: M_D \geq 0, \quad H_1: M_D < 0\)
检验步骤:
- 计算差值: 计算每对观测值的差值 \(D_i = X_i - Y_i\),\(i = 1, 2, ..., n\)。
- 确定符号: 记录每个差值 \(D_i\) 的符号 (+, -, 0)。
- 计算正号数和负号数: 设 \(S_+\) 为正号的个数,\(S_-\) 为负号的个数 (剔除零值,减小样本容量 \(n\))。
- 计算 p 值: 与单个总体中位数检验的 p 值计算方法相同,使用二项分布 \(B(n, 0.5)\) 或正态近似。
- 做出决策和得出结论: 根据 p 值和显著性水平 \(\alpha\) 做出决策,并给出结论。
例子: 减肥药效果检验
为了检验一种减肥药的效果,随机选取了 15 名志愿者,测量服用药物前后的体重 (单位:kg),数据如下:
志愿者 | 服药前体重 | 服药后体重 | 差值 (前-后) | 符号 |
---|---|---|---|---|
1 | 75 | 73 | 2 | + |
2 | 80 | 78 | 2 | + |
3 | 92 | 90 | 2 | + |
4 | 68 | 69 | -1 | - |
5 | 85 | 82 | 3 | + |
6 | 78 | 76 | 2 | + |
7 | 95 | 93 | 2 | + |
8 | 70 | 68 | 2 | + |
9 | 88 | 86 | 2 | + |
10 | 72 | 71 | 1 | + |
11 | 83 | 81 | 2 | + |
12 | 90 | 89 | 1 | + |
13 | 77 | 75 | 2 | + |
14 | 82 | 80 | 2 | + |
15 | 86 | 84 | 2 | + |
显著性水平 \(\alpha = 0.05\)。 检验该减肥药是否有效 (即服用药物后体重是否显著降低)。
解:
- 提出假设: 检验差值中位数是否大于 0 (体重是否降低)。
\(H_0: M_D \leq 0\) (减肥药无效或体重增加)
\(H_1: M_D > 0\) (减肥药有效,体重降低,右侧检验) - 计算差值和符号: 已在表中计算差值和符号。
- 计算正号数和负号数: 正号数 \(S_+ = 14\),负号数 \(S_- = 1\),零值个数为 0。 非零差值个数 \(n = 15\)。
- 计算 p 值: 右侧检验的 p 值为 \(p = P(S_+ \geq 14)\),其中 \(S_+ \sim B(15, 0.5)\)。
\(P(S_+ \geq 14) = P(S_+ = 14) + P(S_+ = 15) = \binom{15}{14} (0.5)^{15} + \binom{15}{15} (0.5)^{15} = (15 + 1) (0.5)^{15} = 16 \times (0.5)^{15} \approx 0.000488\) - 做出决策: 显著性水平 \(\alpha = 0.05\),p 值 \(p \approx 0.000488 < \alpha = 0.05\),因此,拒绝原假设 \(H_0\)。
- 得出结论: 在显著性水平 0.05 下,有足够的证据拒绝原假设 \(H_0\)。 可以认为该减肥药有效,服用药物后体重显著降低。
6.4.2 秩和检验 (Rank Sum Test)
适用情况: 秩和检验 (Rank Sum Test),也称为 Wilcoxon 秩和检验 (Wilcoxon Rank Sum Test) 或 Mann-Whitney U 检验 (Mann-Whitney U Test),是一种常用的非参数检验方法,用于检验 两个独立样本是否来自相同分布的总体。 它不要求总体分布的具体形式,只需要数据是连续的或有序的即可。 秩和检验基于样本数据的 秩 (Rank) 进行分析,而不是原始数据值。
检验假设:
假设我们有两个独立样本,样本 1 来自总体 1,样本 2 来自总体 2。 我们想要检验两个总体分布是否相同。
① 双侧检验 (Two-tailed Test): \(H_0\): 两个总体分布相同, \(H_1\): 两个总体分布不相同 (位置参数不同)
② 右侧检验 (Right-tailed Test): \(H_0\): 总体 1 分布位置不大于总体 2, \(H_1\): 总体 1 分布位置大于总体 2
③ 左侧检验 (Left-tailed Test): \(H_0\): 总体 1 分布位置不小于总体 2, \(H_1\): 总体 1 分布位置小于总体 2
检验步骤:
- 混合排序: 将两个样本的所有观测值混合在一起,并从小到大排序。 如果出现相同数值,赋予平均秩。
- 计算秩和: 分别计算两个样本观测值的秩的和。 设样本 1 的秩和为 \(R_1\),样本 2 的秩和为 \(R_2\)。 样本容量分别为 \(n_1\) 和 \(n_2\)。 检验统计量可以使用 \(R_1\) 或 \(R_2\)。 通常使用秩和较小的样本的秩和作为检验统计量。 例如,如果 \(n_1 \leq n_2\),使用 \(R_1\) 作为检验统计量。
- 计算检验统计量的期望和方差: 在原假设 \(H_0\) 成立时,样本 1 的秩和 \(R_1\) 的期望和方差为:
\[ E(R_1) = \frac{n_1(n_1 + n_2 + 1)}{2} \]
\[ Var(R_1) = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12} \] - 计算检验统计量 (标准化): 当样本容量较大时 (例如 \(n_1 \geq 10\) 且 \(n_2 \geq 10\)),秩和 \(R_1\) 近似服从正态分布 \(N(E(R_1), Var(R_1))\)。 可以将 \(R_1\) 标准化为 z 统计量:
\[ z = \frac{R_1 - E(R_1)}{\sqrt{Var(R_1)}} = \frac{R_1 - \frac{n_1(n_1 + n_2 + 1)}{2}}{\sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}}} \] - 计算 p 值: 根据备择假设的类型,计算 p 值。 使用标准正态分布计算 p 值。
▮▮▮▮⚝ 双侧检验 \(H_1\): 两个总体分布不相同: \(p = 2P(Z > |z_{obs}|)\),其中 \(z_{obs}\) 是检验统计量 \(z\) 的观测值,\(Z \sim N(0, 1)\)。
▮▮▮▮⚝ 右侧检验 \(H_1\): 总体 1 分布位置大于总体 2: \(p = P(Z > z_{obs})\),其中 \(Z \sim N(0, 1)\)。
▮▮▮▮⚝ 左侧检验 \(H_1\): 总体 1 分布位置小于总体 2: \(p = P(Z < z_{obs})\),其中 \(Z \sim N(0, 1)\)。 - 做出决策和得出结论: 根据 p 值和显著性水平 \(\alpha\) 做出决策,并给出结论。
例子: 两种饲料喂养效果比较
为了比较两种饲料对鸡的增重效果,随机选取两组鸡,分别用饲料 A 和饲料 B 喂养。 一段时间后,测量鸡的增重 (单位:g),数据如下:
⚝ 饲料 A 组 (样本 1): 35, 42, 38, 45, 40, 39, 41, 43, 37, 44 (\(n_1 = 10\))
⚝ 饲料 B 组 (样本 2): 30, 33, 28, 32, 35, 31, 29, 34, 27, 32 (\(n_2 = 10\))
显著性水平 \(\alpha = 0.05\)。 检验饲料 A 的增重效果是否显著高于饲料 B。
解:
- 提出假设: 检验饲料 A 组增重是否大于饲料 B 组。
\(H_0\): 饲料 A 增重效果不大于饲料 B
\(H_1\): 饲料 A 增重效果大于饲料 B (右侧检验) - 混合排序和计算秩: 将两组数据混合排序,并赋予秩。
数据 | 组别 | 秩 |
---|---|---|
27 | B | 1 |
28 | B | 2 |
29 | B | 3 |
30 | B | 4 |
31 | B | 5 |
32 | B | 6.5 |
32 | B | 6.5 |
33 | B | 8 |
34 | B | 9 |
35 | A, B | 10.5 |
35 | A, B | 10.5 |
37 | A | 12 |
38 | A | 13 |
39 | A | 14 |
40 | A | 15 |
41 | A | 16 |
42 | A | 17 |
43 | A | 18 |
44 | A | 19 |
45 | A | 20 |
- 计算秩和: 饲料 A 组秩和 \(R_1 = 10.5 + 10.5 + 12 + 13 + 14 + 15 + 16 + 17 + 18 + 19 + 20 = 155\)。 饲料 B 组秩和 \(R_2 = 1 + 2 + 3 + 4 + 5 + 6.5 + 6.5 + 8 + 9 = 55\)。 (验证:\(R_1 + R_2 = 155 + 55 = 210\)。 总秩和应为 \(\frac{(n_1 + n_2)(n_1 + n_2 + 1)}{2} = \frac{20 \times 21}{2} = 210\),验证正确。)
- 计算期望和方差:
\(E(R_1) = \frac{n_1(n_1 + n_2 + 1)}{2} = \frac{10 \times (10 + 10 + 1)}{2} = \frac{10 \times 21}{2} = 105\)
\(Var(R_1) = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12} = \frac{10 \times 10 \times 21}{12} = \frac{2100}{12} = 175\) - 计算检验统计量 (标准化):
\(z = \frac{R_1 - E(R_1)}{\sqrt{Var(R_1)}} = \frac{155 - 105}{\sqrt{175}} \approx \frac{50}{13.23} \approx 3.78\) - 计算 p 值: 右侧检验的 p 值为 \(p = P(Z > z_{obs}) = P(Z > 3.78)\),其中 \(Z \sim N(0, 1)\)。 查标准正态分布表或使用统计软件,可以得到 \(p \approx 0.00007\)。
- 做出决策: 显著性水平 \(\alpha = 0.05\),p 值 \(p \approx 0.00007 < \alpha = 0.05\),因此,拒绝原假设 \(H_0\)。
- 得出结论: 在显著性水平 0.05 下,有足够的证据拒绝原假设 \(H_0\)。 可以认为饲料 A 的增重效果显著高于饲料 B。
6.5 假设检验的应用案例 (Application Cases of Hypothesis Testing)
假设检验在各个科学领域和实际应用中都有广泛的应用。 以下列举一些应用案例,展示假设检验在解决实际问题中的作用。
案例 1: 医学研究 - 新药临床试验
⚝ 研究问题: 评估一种新药治疗某种疾病的疗效。
⚝ 研究设计: 随机双盲对照试验,将患者随机分为两组:治疗组 (服用新药) 和对照组 (服用安慰剂)。 在试验结束后,比较两组患者的病情改善情况 (例如,症状减轻程度、疾病缓解率等)。
⚝ 假设检验: 检验原假设 \(H_0\): 新药无效 (治疗组和对照组的病情改善程度无显著差异);备择假设 \(H_1\): 新药有效 (治疗组的病情改善程度显著优于对照组)。 可以使用均值差检验 (例如,独立样本 t 检验) 或非参数检验 (例如,秩和检验) 来比较两组的病情改善指标。
⚝ 应用意义: 假设检验的结果可以帮助判断新药是否具有临床疗效,为新药的审批和临床应用提供依据。
案例 2: 市场营销 - 广告效果评估
⚝ 研究问题: 评估一项新的广告活动是否能有效提高产品销量。
⚝ 研究设计: 在广告活动前后,或者在投放广告的地区和未投放广告的地区,收集产品销量数据。 比较广告活动前后的销量变化,或者比较投放广告地区和未投放广告地区的销量差异。
⚝ 假设检验: 检验原假设 \(H_0\): 广告活动无效 (广告活动前后或不同地区的销量无显著差异);备择假设 \(H_1\): 广告活动有效 (广告活动后或投放广告地区的销量显著提高)。 可以使用配对样本 t 检验 (广告活动前后销量比较) 或独立样本 t 检验 (不同地区销量比较) 来分析销量数据。
⚝ 应用意义: 假设检验的结果可以帮助企业评估广告投入的回报率,优化营销策略。
案例 3: 质量管理 - 产品质量检验
⚝ 研究问题: 检验生产线生产的产品质量是否符合标准。
⚝ 研究设计: 从生产线上随机抽取一批产品,测量产品的关键质量指标 (例如,尺寸、重量、强度等)。 将样本质量指标与预先设定的质量标准进行比较。
⚝ 假设检验: 检验原假设 \(H_0\): 产品质量符合标准 (总体平均质量指标等于或优于标准值);备择假设 \(H_1\): 产品质量不符合标准 (总体平均质量指标低于标准值)。 可以使用单样本均值检验 (t 检验或 z 检验) 或方差检验 (卡方检验) 来评估产品质量。
⚝ 应用意义: 假设检验的结果可以帮助企业监控生产过程,及时发现和纠正质量问题,保证产品质量。
案例 4: 环境科学 - 污染程度评估
⚝ 研究问题: 评估某地区的水质或空气质量是否受到污染。
⚝ 研究设计: 在研究地区采集水样或空气样本,测量污染物浓度指标 (例如,重金属含量、PM2.5 浓度等)。 将样本污染物浓度与环境质量标准进行比较。
⚝ 假设检验: 检验原假设 \(H_0\): 该地区未受污染 (污染物浓度低于或等于标准值);备择假设 \(H_1\): 该地区受到污染 (污染物浓度高于标准值)。 可以使用单样本均值检验 (t 检验或 z 检验) 或非参数检验 (例如,符号检验) 来评估污染程度。
⚝ 应用意义: 假设检验的结果可以为环境保护部门提供决策依据,制定相应的污染防治措施。
案例 5: 社会科学 - 社会调查研究
⚝ 研究问题: 调查不同人群在某个社会问题上的态度或行为是否存在差异。
⚝ 研究设计: 通过问卷调查、访谈等方式,收集不同人群 (例如,不同性别、年龄、教育程度等) 的数据。 比较不同人群在态度、行为等方面的差异。
⚝ 假设检验: 检验原假设 \(H_0\): 不同人群在态度或行为上无显著差异;备择假设 \(H_1\): 不同人群在态度或行为上存在显著差异。 可以使用独立样本 t 检验 (比较两组人群的均值差异) 或方差分析 (比较多组人群的均值差异) 或卡方检验 (比较分类数据的分布差异) 等方法。
⚝ 应用意义: 假设检验的结果可以帮助社会科学研究者了解社会现象,揭示社会规律,为政策制定和社会管理提供参考。
总而言之,假设检验是一种强大的统计推断工具,可以应用于各种需要基于样本数据进行决策和推断的领域。 通过合理地运用假设检验方法,我们可以从数据中提取有价值的信息,解决实际问题,推动科学研究和社会进步。
7. chapter 7: 方差分析 (Analysis of Variance, ANOVA)
7.1 方差分析的基本原理 (Basic Principles of ANOVA)
7.1.1 方差分解 (Variance Decomposition)
方差分析 (ANOVA) 的核心思想是方差分解 (Variance Decomposition)。它将总变异分解为不同来源的变异,从而判断不同因素对研究变量的影响是否显著。
假设我们研究一个因素对某个指标的影响,该因素有 \(k\) 个水平。我们收集了在每个水平下的观测数据。方差分析的目标是将总变异分解为两部分:
① 组间变异 (Between-group variation):也称为因素变异 (Factor variation) 或处理变异 (Treatment variation),反映了不同水平之间样本均值的差异。如果因素的不同水平对指标有显著影响,那么组间变异会相对较大。
② 组内变异 (Within-group variation):也称为误差变异 (Error variation) 或随机变异 (Random variation),反映了同一水平下样本数据自身的随机波动。即使因素没有影响,组内变异仍然存在。
总变异 (Total variation) 可以表示为总平方和 (Sum of Squares Total, SST),组间变异可以表示为组间平方和 (Sum of Squares Between, SSB),组内变异可以表示为组内平方和 (Sum of Squares Within, SSW) 或误差平方和 (Sum of Squares Error, SSE)。
方差分解的基本公式为:
\[ SST = SSB + SSW \]
更具体地,假设总共有 \(N\) 个观测数据,分为 \(k\) 组,第 \(i\) 组有 \(n_i\) 个观测数据,\(i = 1, 2, ..., k\),且 \(\sum_{i=1}^{k} n_i = N\)。设 \(x_{ij}\) 表示第 \(i\) 组的第 \(j\) 个观测值,\(\bar{x}_i\) 表示第 \(i\) 组的样本均值,\(\bar{x}\) 表示总样本均值。
则各项平方和的计算公式如下:
① 总平方和 (SST):反映了所有观测值相对于总均值的总变异。
\[ SST = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (x_{ij} - \bar{x})^2 \]
② 组间平方和 (SSB):反映了各组均值相对于总均值的变异。
\[ SSB = \sum_{i=1}^{k} n_i (\bar{x}_i - \bar{x})^2 \]
③ 组内平方和 (SSW):反映了每组内部观测值相对于组均值的变异。
\[ SSW = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (x_{ij} - \bar{x}_i)^2 \]
方差分析的目的就是通过比较组间变异和组内变异的大小,来判断因素的不同水平是否对指标有显著影响。如果组间变异远大于组内变异,说明因素的影响是显著的。
7.1.2 F 检验 (F-test)
为了定量地判断组间变异是否显著大于组内变异,方差分析使用 F 检验 (F-test)。F 检验基于 F 分布 (F-distribution),通过构造 F 统计量 (F-statistic) 来进行假设检验。
首先,我们需要计算均方 (Mean Square, MS),它是平方和除以相应的自由度 (Degrees of Freedom, df)。
① 组间均方 (Mean Square Between, MSB):
\[ MSB = \frac{SSB}{df_B} \]
其中,组间自由度 \(df_B = k - 1\),\(k\) 为组数(因素水平数)。
② 组内均方 (Mean Square Within, MSW) 或 误差均方 (Mean Square Error, MSE):
\[ MSW = MSE = \frac{SSW}{df_W} \]
其中,组内自由度 \(df_W = N - k\),\(N\) 为总观测数。
F 统计量 (F-statistic) 定义为组间均方与组内均方的比值:
\[ F = \frac{MSB}{MSW} = \frac{MSB}{MSE} \]
在原假设(各组均值相等,即因素无影响)成立的条件下,F 统计量服从自由度为 \((df_B, df_W)\) 的 F 分布,即 \(F \sim F(df_B, df_W)\)。
假设检验步骤:
① 提出假设:
▮▮▮▮⚝ 原假设 \(H_0\): 各组总体均值相等,即 \(\mu_1 = \mu_2 = ... = \mu_k\)。
▮▮▮▮⚝ 备择假设 \(H_1\): 各组总体均值不完全相等,即至少存在两组均值不相等。
② 计算 F 统计量:根据样本数据计算 SSB, SSW, MSB, MSW,进而计算 F 值。
③ 确定显著性水平 \(\alpha\):通常取 \(\alpha = 0.05\) 或 \(0.01\)。
④ 查找临界值或计算 p 值:
▮▮▮▮⚝ 临界值法:查 F 分布表,找到自由度为 \((df_B, df_W)\) 和显著性水平为 \(\alpha\) 的临界值 \(F_{\alpha}(df_B, df_W)\)。
▮▮▮▮⚝ p 值法:计算 F 统计量对应的 p 值,即在 \(H_0\) 成立的条件下,观察到当前 F 值或更极端值的概率。
⑤ 做出决策:
▮▮▮▮⚝ 临界值法:如果 \(F > F_{\alpha}(df_B, df_W)\),则拒绝原假设 \(H_0\),接受备择假设 \(H_1\)。
▮▮▮▮⚝ p 值法:如果 \(p < \alpha\),则拒绝原假设 \(H_0\),接受备择假设 \(H_1\)。
F 检验的意义:
⚝ 如果拒绝原假设 \(H_0\),则表明因素的不同水平对研究指标有显著影响,组间变异显著大于组内变异。
⚝ 如果接受原假设 \(H_0\),则表明没有充分证据证明因素的不同水平对研究指标有显著影响,组间变异与组内变异相比不显著。
7.2 单因素方差分析 (One-way ANOVA)
单因素方差分析 (One-way ANOVA) 用于研究单个因素的不同水平对一个数值型因变量的影响。它假设因变量服从正态分布,且各组的方差齐性。
7.2.1 模型建立与假设检验 (Model Building and Hypothesis Testing)
模型建立:
单因素方差分析的统计模型可以表示为:
\[ x_{ij} = \mu_i + \epsilon_{ij} \]
其中:
⚝ \(x_{ij}\) 是第 \(i\) 组的第 \(j\) 个观测值 (\(i = 1, 2, ..., k; j = 1, 2, ..., n_i\))。
⚝ \(\mu_i\) 是第 \(i\) 组的总体均值。
⚝ \(\epsilon_{ij}\) 是随机误差项,假设 \(\epsilon_{ij} \sim N(0, \sigma^2)\),且相互独立。
假设检验:
单因素方差分析的假设检验问题是:
⚝ 原假设 \(H_0\): \(\mu_1 = \mu_2 = ... = \mu_k\) (各组总体均值相等)
⚝ 备择假设 \(H_1\): \(\mu_1, \mu_2, ..., \mu_k\) 不全相等 (至少存在两组总体均值不相等)
检验步骤:
① 数据准备:收集各组的样本数据。
② 计算平方和与均方:
▮▮▮▮⚝ 计算总平方和 SST, 组间平方和 SSB, 组内平方和 SSW。
▮▮▮▮⚝ 计算组间均方 MSB 和组内均方 MSW (MSE)。
③ 计算 F 统计量:
\[ F = \frac{MSB}{MSE} \]
④ 确定自由度:
▮▮▮▮⚝ 组间自由度 \(df_B = k - 1\)
▮▮▮▮⚝ 组内自由度 \(df_W = N - k\)
⑤ 进行 F 检验:
▮▮▮▮⚝ 设定显著性水平 \(\alpha\)。
▮▮▮▮⚝ 查找临界值 \(F_{\alpha}(k-1, N-k)\) 或计算 p 值。
▮▮▮▮⚝ 根据临界值或 p 值做出决策。
ANOVA 表 (ANOVA Table):
为了清晰地展示方差分析的结果,通常使用 ANOVA 表格。
变异来源 (Source of Variation) | 平方和 (Sum of Squares, SS) | 自由度 (Degrees of Freedom, df) | 均方 (Mean Square, MS) | F 统计量 (F-statistic) | p 值 (p-value) |
---|---|---|---|---|---|
组间 (Between Groups) | SSB | \(k-1\) | MSB = SSB / \((k-1)\) | \(F = \frac{MSB}{MSE}\) | |
组内 (Within Groups) / 误差 (Error) | SSW (SSE) | \(N-k\) | MSE = SSW / \((N-k)\) | ||
总计 (Total) | SST | \(N-1\) |
7.2.2 多重比较 (Multiple Comparisons)
如果在单因素方差分析中,F 检验拒绝了原假设 \(H_0\),即各组总体均值不全相等,那么我们需要进一步分析哪些组之间的均值存在显著差异,这就需要进行多重比较 (Multiple Comparisons)。
多重比较方法旨在控制族错误率 (Family-wise Error Rate, FWER),即在进行多次比较时,至少犯一次 Type I error (第一类错误,拒绝了实际上为真的原假设) 的概率。常用的多重比较方法包括:
① Bonferroni 校正 (Bonferroni Correction):
▮▮▮▮⚝ 最简单且保守的方法。
▮▮▮▮⚝ 将每次两两比较的显著性水平 \(\alpha\) 调整为 \(\alpha' = \frac{\alpha}{m}\),其中 \(m\) 是比较的次数。对于 \(k\) 组均值的两两比较,\(m = \frac{k(k-1)}{2}\)。
▮▮▮▮⚝ 使用调整后的显著性水平 \(\alpha'\) 进行 t 检验。
② Tukey's HSD (Honestly Significant Difference):
▮▮▮▮⚝ 适用于所有组别两两比较,且各组样本量相等或近似相等的情况。
▮▮▮▮⚝ 计算 Tukey's HSD 临界值: \(HSD = q_{\alpha, k, N-k} \sqrt{\frac{MSE}{n}}\),其中 \(q_{\alpha, k, N-k}\) 是学生化极差分布 (Studentized Range Distribution) 的临界值,\(n\) 是每组的样本量(假设各组样本量相等)。
▮▮▮▮⚝ 如果两组均值之差的绝对值 \(|\bar{x}_i - \bar{x}_j| > HSD\),则认为这两组均值之间存在显著差异。
③ Scheffé 检验 (Scheffé's Method):
▮▮▮▮⚝ 最保守的方法之一,适用于各种类型的比较,包括两两比较和更复杂的线性组合比较。
▮▮▮▮⚝ 使用 F 统计量进行比较,但临界值根据 F 分布调整。
④ Dunnett 检验 (Dunnett's Test):
▮▮▮▮⚝ 适用于将多个处理组与一个对照组进行比较的情况。
▮▮▮▮⚝ 专门设计用于控制与对照组进行多次比较的 FWER。
选择哪种多重比较方法取决于具体的研究设计和需求。Bonferroni 校正简单易用,但可能过于保守;Tukey's HSD 在组样本量相近时效果较好;Scheffé 检验非常稳健,但可能过于保守;Dunnett 检验适用于与对照组比较的情况。
7.3 双因素方差分析 (Two-way ANOVA)
双因素方差分析 (Two-way ANOVA) 用于研究两个因素的不同水平对一个数值型因变量的影响。它可以分析两个因素各自的主效应,以及两个因素之间的交互效应。
7.3.1 无交互效应的双因素方差分析 (Two-way ANOVA without Interaction)
模型建立:
在无交互效应的双因素方差分析中,假设两个因素 A 和 B 对因变量的影响是独立的,模型可以表示为:
\[ x_{ijk} = \mu + \alpha_i + \beta_j + \epsilon_{ijk} \]
其中:
⚝ \(x_{ijk}\) 是因素 A 的第 \(i\) 个水平、因素 B 的第 \(j\) 个水平下的第 \(k\) 个观测值 (\(i = 1, 2, ..., a; j = 1, 2, ..., b; k = 1, 2, ..., n\))。
⚝ \(\mu\) 是总均值。
⚝ \(\alpha_i\) 是因素 A 的第 \(i\) 个水平的主效应。
⚝ \(\beta_j\) 是因素 B 的第 \(j\) 个水平的主效应。
⚝ \(\epsilon_{ijk}\) 是随机误差项,假设 \(\epsilon_{ijk} \sim N(0, \sigma^2)\),且相互独立。
假设检验:
无交互效应的双因素方差分析需要检验两个原假设:
① 因素 A 的主效应检验:
▮▮▮▮⚝ \(H_{0A}\): \(\alpha_1 = \alpha_2 = ... = \alpha_a = 0\) (因素 A 的各水平主效应均为 0,即因素 A 无主效应)
▮▮▮▮⚝ \(H_{1A}\): \(\alpha_1, \alpha_2, ..., \alpha_a\) 不全为 0 (因素 A 至少有一个水平主效应不为 0,即因素 A 有主效应)
② 因素 B 的主效应检验:
▮▮▮▮⚝ \(H_{0B}\): \(\beta_1 = \beta_2 = ... = \beta_b = 0\) (因素 B 的各水平主效应均为 0,即因素 B 无主效应)
▮▮▮▮⚝ \(H_{1B}\): \(\beta_1, \beta_2, ..., \beta_b\) 不全为 0 (因素 B 至少有一个水平主效应不为 0,即因素 B 有主效应)
平方和分解:
总平方和 SST 可以分解为:
\[ SST = SSA + SSB + SSE \]
其中:
⚝ SSA 是因素 A 的平方和 (Sum of Squares for Factor A)。
⚝ SSB 是因素 B 的平方和 (Sum of Squares for Factor B)。
⚝ SSE 是误差平方和 (Sum of Squares Error)。
F 检验:
分别对因素 A 和因素 B 进行 F 检验:
① 因素 A 的 F 统计量: \(F_A = \frac{MSA}{MSE}\),其中 \(MSA = \frac{SSA}{df_A}\),\(df_A = a - 1\)。
② 因素 B 的 F 统计量: \(F_B = \frac{MSB}{MSE}\),其中 \(MSB = \frac{SSB}{df_B}\),\(df_B = b - 1\)。
误差均方 \(MSE = \frac{SSE}{df_E}\),误差自由度 \(df_E = (a-1)(b-1)n\)。总自由度 \(df_T = abn - 1\)。
ANOVA 表 (无交互效应):
变异来源 (Source of Variation) | 平方和 (SS) | 自由度 (df) | 均方 (MS) | F 统计量 (F-statistic) | p 值 (p-value) |
---|---|---|---|---|---|
因素 A (Factor A) | SSA | \(a-1\) | MSA = SSA / \((a-1)\) | \(F_A = \frac{MSA}{MSE}\) | |
因素 B (Factor B) | SSB | \(b-1\) | MSB = SSB / \((b-1)\) | \(F_B = \frac{MSB}{MSE}\) | |
误差 (Error) | SSE | \((a-1)(b-1)n\) | MSE = SSE / \((a-1)(b-1)n\) | ||
总计 (Total) | SST | \(abn-1\) |
7.3.2 有交互效应的双因素方差分析 (Two-way ANOVA with Interaction)
模型建立:
当考虑因素 A 和因素 B 之间可能存在交互效应时,模型需要加入交互项:
\[ x_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk} \]
其中:
⚝ \((\alpha\beta)_{ij}\) 是因素 A 的第 \(i\) 个水平和因素 B 的第 \(j\) 个水平的交互效应。
⚝ 其他符号含义与无交互效应模型相同。
假设检验:
有交互效应的双因素方差分析需要检验三个原假设:
① 因素 A 的主效应检验:\(H_{0A}\): \(\alpha_1 = \alpha_2 = ... = \alpha_a = 0\) (忽略交互效应时,因素 A 无主效应)
② 因素 B 的主效应检验:\(H_{0B}\): \(\beta_1 = \beta_2 = ... = \beta_b = 0\) (忽略交互效应时,因素 B 无主效应)
③ 交互效应检验:\(H_{0AB}\): 所有 \((\alpha\beta)_{ij} = 0\) (因素 A 和因素 B 无交互效应)
▮▮▮▮⚝ \(H_{1AB}\): 至少存在一个 \((\alpha\beta)_{ij} \neq 0\) (因素 A 和因素 B 存在交互效应)
平方和分解:
总平方和 SST 可以分解为:
\[ SST = SSA + SSB + SSAB + SSE \]
其中:
⚝ SSAB 是交互效应平方和 (Sum of Squares for Interaction AB)。
⚝ SSA, SSB, SSE 的含义与无交互效应模型相同,但计算方式略有不同。
F 检验:
分别对因素 A, 因素 B 和交互效应 AB 进行 F 检验:
① 因素 A 的 F 统计量: \(F_A = \frac{MSA}{MSE}\),\(MSA = \frac{SSA}{df_A}\),\(df_A = a - 1\)。
② 因素 B 的 F 统计量: \(F_B = \frac{MSB}{MSE}\),\(MSB = \frac{SSB}{df_B}\),\(df_B = b - 1\)。
③ 交互效应的 F 统计量: \(F_{AB} = \frac{MSAB}{MSE}\),\(MSAB = \frac{SSAB}{df_{AB}}\),\(df_{AB} = (a-1)(b-1)\)。
误差均方 \(MSE = \frac{SSE}{df_E}\),误差自由度 \(df_E = ab(n-1)\)。总自由度 \(df_T = abn - 1\)。
ANOVA 表 (有交互效应):
变异来源 (Source of Variation) | 平方和 (SS) | 自由度 (df) | 均方 (MS) | F 统计量 (F-statistic) | p 值 (p-value) |
---|---|---|---|---|---|
因素 A (Factor A) | SSA | \(a-1\) | MSA = SSA / \((a-1)\) | \(F_A = \frac{MSA}{MSE}\) | |
因素 B (Factor B) | SSB | \(b-1\) | MSB = SSB / \((b-1)\) | \(F_B = \frac{MSB}{MSE}\) | |
交互效应 (Interaction AB) | SSAB | \((a-1)(b-1)\) | MSAB = SSAB / \((a-1)(b-1)\) | \(F_{AB} = \frac{MSAB}{MSE}\) | |
误差 (Error) | SSE | \(ab(n-1)\) | MSE = SSE / \(ab(n-1)\) | ||
总计 (Total) | SST | \(abn-1\) |
交互效应的解释:
如果交互效应检验显著,说明因素 A 的效应大小受到因素 B 的水平影响,反之亦然。此时,解释主效应需要谨慎,通常需要结合交互效应图 (Interaction Plot) 进行分析。
7.4 方差分析的应用案例 (Application Cases of ANOVA)
方差分析在各个领域都有广泛的应用,以下是一些案例:
① 医学研究:比较不同药物治疗方案对疾病疗效的影响。例如,研究三种不同的降压药对患者血压的降低效果是否有显著差异,可以使用单因素方差分析。如果考虑药物剂量和给药方式两个因素,则可以使用双因素方差分析。
② 农业实验:研究不同肥料、不同灌溉方式对农作物产量的影响。例如,比较不同肥料配方对水稻产量的影响,可以使用单因素方差分析。研究肥料种类和种植密度对玉米产量的联合影响,可以使用双因素方差分析。
③ 工业生产:优化生产工艺参数,提高产品质量。例如,研究不同生产线、不同操作人员对产品合格率的影响,可以使用单因素或双因素方差分析。
④ 市场营销:评估不同广告策略、不同促销活动的效果。例如,比较不同广告渠道对产品销售额的影响,可以使用单因素方差分析。研究广告渠道和广告预算对销售额的联合影响,可以使用双因素方差分析。
⑤ 教育研究:比较不同教学方法、不同教学资源对学生成绩的影响。例如,比较传统教学法和项目式学习法对学生数学成绩的影响,可以使用单因素方差分析。研究教学方法和学生基础对学习效果的联合影响,可以使用双因素方差分析。
案例分析要点:
⚝ 明确研究目的:确定要研究的因素和因变量。
⚝ 设计实验方案:确定因素的水平,进行随机抽样或分组。
⚝ 收集数据:获取各组的观测数据。
⚝ 进行方差分析:选择合适的方差分析模型(单因素、双因素等),进行假设检验。
⚝ 结果解释:根据 F 检验结果和多重比较结果,解释因素的影响,并结合实际背景给出结论和建议。
⚝ 模型诊断:检验方差分析的假设条件是否满足(正态性、方差齐性等),进行必要的模型修正或非参数方法选择。
方差分析是一种强大的统计分析工具,能够有效地分析因素对数值型因变量的影响,并在科学研究和实际应用中发挥重要作用。理解方差分解的思想、掌握 F 检验的方法、合理选择和应用方差分析模型,是进行数据分析和科学决策的关键技能。
8. chapter 8: 回归分析 (Regression Analysis)
8.1 线性回归模型 (Linear Regression Model)
回归分析 (Regression Analysis) 是一种强大的统计学方法,用于研究变量之间相互依赖的定量关系。它旨在通过建立数学模型来描述因变量 (dependent variable) 如何随着一个或多个自变量 (independent variables) 的变化而变化。在众多回归模型中,线性回归模型 (Linear Regression Model) 因其简洁性和广泛的应用性而成为最基础且重要的模型之一。本节将深入探讨线性回归模型,包括简单线性回归 (Simple Linear Regression) 和多元线性回归 (Multiple Linear Regression)。
8.1.1 简单线性回归 (Simple Linear Regression)
简单线性回归模型研究的是一个自变量 \(X\) 与因变量 \(Y\) 之间的线性关系。其基本形式可以用以下方程表示:
\[ Y = \beta_0 + \beta_1 X + \epsilon \]
其中:
⚝ \(Y\) 是因变量,也称为响应变量 (response variable) 或被解释变量 (explained variable)。
⚝ \(X\) 是自变量,也称为解释变量 (explanatory variable) 或预测变量 (predictor variable)。
⚝ \(\beta_0\) 是截距 (intercept),表示当 \(X\) 为 0 时,\(Y\) 的期望值。
⚝ \(\beta_1\) 是斜率 (slope),表示当 \(X\) 每增加一个单位时,\(Y\) 的期望值的变化量。
⚝ \(\epsilon\) 是误差项 (error term),代表模型无法解释的随机变异性。我们通常假设 \(\epsilon\) 服从均值为 0,方差为 \(\sigma^2\) 的正态分布,即 \(\epsilon \sim N(0, \sigma^2)\),且误差项之间相互独立。
简单线性回归模型的目标是利用观测到的数据 \((x_i, y_i), i=1, 2, ..., n\) 来估计未知参数 \(\beta_0\), \(\beta_1\) 和 \(\sigma^2\),并建立 \(Y\) 与 \(X\) 之间的线性关系模型,从而可以进行预测和推断。
模型假设 (Model Assumptions): 为了保证简单线性回归模型的有效性和可靠性,需要满足以下几个基本假设:
① 线性性 (Linearity): 因变量 \(Y\) 与自变量 \(X\) 之间存在线性关系。这意味着 \(Y\) 的期望值 \(E(Y)\) 可以表示为 \(X\) 的线性函数,即 \(E(Y|X) = \beta_0 + \beta_1 X\)。
② 独立性 (Independence): 误差项 \(\epsilon_i\) 之间相互独立。这意味着一个个体或观测值的误差项不应影响其他个体或观测值的误差项。
③ 同方差性 (Homoscedasticity): 误差项 \(\epsilon_i\) 的方差对于所有 \(X\) 的取值都是恒定的,即 \(Var(\epsilon_i) = \sigma^2\) 对于所有 \(i\) 都是常数。
④ 正态性 (Normality): 误差项 \(\epsilon_i\) 服从正态分布。这意味着对于给定的 \(X\),\(Y\) 的条件分布是正态分布。
这些假设是进行参数估计和统计推断的基础。在实际应用中,我们需要检验这些假设是否成立,以确保回归模型的有效性。
案例 (Case Study): 考虑一个简单的例子,研究广告投入 \(X\) (万元) 与销售额 \(Y\) (万元) 之间的关系。我们收集了若干组数据,希望通过简单线性回归模型来分析广告投入对销售额的影响。
广告投入 \(X\) (万元) | 销售额 \(Y\) (万元) |
---|---|
10 | 100 |
15 | 120 |
20 | 140 |
25 | 160 |
30 | 180 |
通过简单线性回归分析,我们可以估计出截距 \(\beta_0\) 和斜率 \(\beta_1\),从而建立销售额 \(Y\) 关于广告投入 \(X\) 的线性回归方程,例如 \(Y = 80 + 3X + \epsilon\)。这个方程表明,当广告投入增加 1 万元时,销售额平均增加 3 万元。截距 80 表示当广告投入为 0 时,销售额的期望值为 80 万元。
8.1.2 多元线性回归 (Multiple Linear Regression)
多元线性回归模型是简单线性回归模型的扩展,它研究的是多个自变量 \(X_1, X_2, ..., X_p\) 与因变量 \(Y\) 之间的线性关系。其基本形式可以用以下方程表示:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon \]
其中:
⚝ \(Y\) 是因变量。
⚝ \(X_1, X_2, ..., X_p\) 是 \(p\) 个自变量。
⚝ \(\beta_0\) 是截距。
⚝ \(\beta_1, \beta_2, ..., \beta_p\) 是偏回归系数 (partial regression coefficients),\(\beta_j\) 表示在保持其他自变量不变的情况下,当 \(X_j\) 每增加一个单位时,\(Y\) 的期望值的变化量。
⚝ \(\epsilon\) 是误差项,同样假设 \(\epsilon \sim N(0, \sigma^2)\) 且误差项之间相互独立。
多元线性回归模型的目标与简单线性回归类似,也是利用观测到的数据 \((x_{i1}, x_{i2}, ..., x_{ip}, y_i), i=1, 2, ..., n\) 来估计未知参数 \(\beta_0, \beta_1, ..., \beta_p\) 和 \(\sigma^2\),并建立 \(Y\) 与 \(X_1, X_2, ..., X_p\) 之间的线性关系模型。
模型假设 (Model Assumptions): 多元线性回归模型也需要满足与简单线性回归模型类似的假设,但在线性性假设方面有所扩展:
① 线性性 (Linearity): 因变量 \(Y\) 与自变量 \(X_1, X_2, ..., X_p\) 之间存在线性关系。更准确地说,\(Y\) 的期望值 \(E(Y)\) 可以表示为 \(X_1, X_2, ..., X_p\) 的线性组合,即 \(E(Y|X_1, X_2, ..., X_p) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p\)。
② 独立性 (Independence): 误差项 \(\epsilon_i\) 之间相互独立。
③ 同方差性 (Homoscedasticity): 误差项 \(\epsilon_i\) 的方差对于所有自变量 \(X_1, X_2, ..., X_p\) 的取值组合都是恒定的。
④ 正态性 (Normality): 误差项 \(\epsilon_i\) 服从正态分布。
⑤ 自变量之间不存在完全多重共线性 (No perfect multicollinearity): 自变量 \(X_1, X_2, ..., X_p\) 之间不存在完全的线性相关关系。也就是说,自变量矩阵 \(X\) 是列满秩的。
案例 (Case Study): 考虑研究房价 \(Y\) (万元/平方米) 与房屋面积 \(X_1\) (平方米)、地理位置指数 \(X_2\) (评分) 和交通便利度 \(X_3\) (评分) 之间的关系。我们收集了多组房屋数据,希望通过多元线性回归模型来分析这些因素对房价的影响。
房屋面积 \(X_1\) (平方米) | 地理位置指数 \(X_2\) | 交通便利度 \(X_3\) | 房价 \(Y\) (万元/平方米) |
---|---|---|---|
80 | 8 | 7 | 5 |
100 | 9 | 8 | 6 |
120 | 7 | 6 | 7 |
140 | 8 | 9 | 8 |
160 | 9 | 7 | 9 |
通过多元线性回归分析,我们可以估计出截距 \(\beta_0\) 和偏回归系数 \(\beta_1, \beta_2, \beta_3\),从而建立房价 \(Y\) 关于房屋面积 \(X_1\)、地理位置指数 \(X_2\) 和交通便利度 \(X_3\) 的多元线性回归方程,例如 \(Y = 1 + 0.03X_1 + 0.5X_2 + 0.2X_3 + \epsilon\)。这个方程表明,在保持地理位置指数和交通便利度不变的情况下,房屋面积每增加 1 平方米,房价平均增加 0.03 万元/平方米;在保持房屋面积和交通便利度不变的情况下,地理位置指数每增加 1 分,房价平均增加 0.5 万元/平方米;在保持房屋面积和地理位置指数不变的情况下,交通便利度每增加 1 分,房价平均增加 0.2 万元/平方米。
8.2 回归模型的参数估计 (Parameter Estimation of Regression Models)
回归模型的参数估计 (Parameter Estimation of Regression Models) 是回归分析的核心步骤,其目标是根据样本数据估计模型中的未知参数,如线性回归模型中的 \(\beta_0, \beta_1, ..., \beta_p\) 和 \(\sigma^2\)。常用的参数估计方法是最小二乘法 (Least Squares Method)。此外,我们还需要对估计出的参数进行统计推断 (Statistical Inference),以评估参数的显著性和精度。
8.2.1 最小二乘法 (Least Squares Method)
最小二乘法 (Least Squares Method) 是一种广泛应用于回归分析中的参数估计方法。其基本思想是选择参数估计值,使得观测值 \(y_i\) 与模型预测值 \(\hat{y}_i\) 之间的残差平方和 (residual sum of squares, RSS) 达到最小。
对于简单线性回归模型 \(Y = \beta_0 + \beta_1 X + \epsilon\),模型预测值为 \(\hat{y}_i = \beta_0 + \beta_1 x_i\),残差为 \(e_i = y_i - \hat{y}_i = y_i - (\beta_0 + \beta_1 x_i)\)。残差平方和 \(Q(\beta_0, \beta_1)\) 定义为:
\[ Q(\beta_0, \beta_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2 \]
最小二乘法的目标是找到 \(\beta_0\) 和 \(\beta_1\) 的估计值 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\),使得 \(Q(\beta_0, \beta_1)\) 最小化。为了求解这个问题,我们需要对 \(Q(\beta_0, \beta_1)\) 分别关于 \(\beta_0\) 和 \(\beta_1\) 求偏导数,并令偏导数等于零,得到正规方程组 (normal equations):
\[ \begin{cases} \frac{\partial Q}{\partial \beta_0} = -2\sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i)) = 0 \\ \frac{\partial Q}{\partial \beta_1} = -2\sum_{i=1}^{n} x_i(y_i - (\beta_0 + \beta_1 x_i)) = 0 \end{cases} \]
化简正规方程组,得到:
\[ \begin{cases} \sum_{i=1}^{n} y_i = n\beta_0 + \beta_1 \sum_{i=1}^{n} x_i \\ \sum_{i=1}^{n} x_i y_i = \beta_0 \sum_{i=1}^{n} x_i + \beta_1 \sum_{i=1}^{n} x_i^2 \end{cases} \]
解这个方程组,可以得到 \(\beta_0\) 和 \(\beta_1\) 的最小二乘估计 (least squares estimates) \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\):
\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}} \]
\[ \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} \]
其中,\(\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\) 和 \(\bar{y} = \frac{1}{n}\sum_{i=1}^{n} y_i\) 分别是 \(x_i\) 和 \(y_i\) 的样本均值,\(S_{xy} = \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})\) 是 \(X\) 和 \(Y\) 的样本协方差的分子部分,\(S_{xx} = \sum_{i=1}^{n} (x_i - \bar{x})^2\) 是 \(X\) 的样本离差平方和。
对于多元线性回归模型 \(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_p X_p + \epsilon\),我们可以用矩阵形式表示模型:
\[ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} \]
其中,\(\mathbf{Y} = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}\) 是 \(n \times 1\) 的因变量向量,\(\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{pmatrix}\) 是 \(n \times (p+1)\) 的设计矩阵 (design matrix),\(\boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix}\) 是 \((p+1) \times 1\) 的参数向量,\(\boldsymbol{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix}\) 是 \(n \times 1\) 的误差向量。
残差平方和可以表示为:
\[ Q(\boldsymbol{\beta}) = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \]
通过矩阵求导,可以得到参数向量 \(\boldsymbol{\beta}\) 的最小二乘估计 \(\hat{\boldsymbol{\beta}}\):
\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \]
前提是矩阵 \((\mathbf{X}^T \mathbf{X})\) 可逆,这要求设计矩阵 \(\mathbf{X}\) 是列满秩的,即自变量之间不存在完全多重共线性。
误差项方差 \(\sigma^2\) 的无偏估计 (unbiased estimate) 为:
\[ \hat{\sigma}^2 = \frac{RSS}{n - (p+1)} = \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{n - (p+1)} \]
其中,\(RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = (\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})^T (\mathbf{Y} - \mathbf{X}\hat{\boldsymbol{\beta}})\) 是残差平方和,\(n - (p+1)\) 是残差的自由度 (degrees of freedom)。
8.2.2 回归系数的统计推断 (Statistical Inference of Regression Coefficients)
在得到回归系数的最小二乘估计 \(\hat{\boldsymbol{\beta}}\) 后,我们需要进行统计推断,包括假设检验 (hypothesis testing) 和区间估计 (interval estimation),以评估回归系数的显著性和精度。
假设检验 (Hypothesis Testing): 我们通常需要检验每个回归系数 \(\beta_j\) 是否显著不为零,即检验自变量 \(X_j\) 对因变量 \(Y\) 是否有显著的线性影响。对于回归系数 \(\beta_j\) 的假设检验,我们通常建立如下假设:
⚝ 原假设 \(H_0: \beta_j = 0\) (自变量 \(X_j\) 对因变量 \(Y\) 没有线性影响)
⚝ 备择假设 \(H_1: \beta_j \neq 0\) (自变量 \(X_j\) 对因变量 \(Y\) 有线性影响)
在模型假设成立的条件下,可以证明 \(\hat{\beta}_j\) 服从正态分布,且其标准差 (standard error, SE) 可以估计为:
\[ SE(\hat{\beta}_j) = \hat{\sigma} \sqrt{c_{jj}} \]
其中,\(c_{jj}\) 是矩阵 \((\mathbf{X}^T \mathbf{X})^{-1}\) 的第 \(j+1\) 个对角元素 (对应于 \(\beta_j\)),\(\hat{\sigma}\) 是误差项标准差 \(\sigma\) 的估计值 \(\sqrt{\hat{\sigma}^2}\)。
构造 t 统计量 (t-statistic) 用于检验假设:
\[ t_j = \frac{\hat{\beta}_j - 0}{SE(\hat{\beta}_j)} = \frac{\hat{\beta}_j}{\hat{\sigma} \sqrt{c_{jj}}} \]
在原假设 \(H_0\) 成立时,\(t_j\) 近似服从自由度为 \(n - (p+1)\) 的 t 分布 (t-distribution)。我们可以计算 t 统计量的 p 值 (p-value),或者将 t 统计量的绝对值与给定的显著性水平 \(\alpha\) 下的 t 分布临界值进行比较,来判断是否拒绝原假设 \(H_0\)。如果 p 值小于 \(\alpha\) 或者 \(|t_j|\) 大于临界值,则拒绝原假设 \(H_0\),认为回归系数 \(\beta_j\) 显著不为零,即自变量 \(X_j\) 对因变量 \(Y\) 有显著的线性影响。
区间估计 (Interval Estimation): 除了假设检验,我们还可以对回归系数 \(\beta_j\) 进行区间估计,给出 \(\beta_j\) 的置信区间 (confidence interval),以估计 \(\beta_j\) 的取值范围。 \(\beta_j\) 的 \(100(1-\alpha)\%\) 置信区间为:
\[ \hat{\beta}_j \pm t_{\alpha/2, n-(p+1)} \cdot SE(\hat{\beta}_j) \]
其中,\(t_{\alpha/2, n-(p+1)}\) 是自由度为 \(n - (p+1)\) 的 t 分布的上 \(\alpha/2\) 分位数。置信区间给出了 \(\beta_j\) 的一个可能的取值范围,如果置信区间不包含 0,则也表明 \(\beta_j\) 显著不为零。
8.3 回归模型的检验与诊断 (Regression Model Testing and Diagnosis)
回归模型的检验与诊断 (Regression Model Testing and Diagnosis) 是评估回归模型有效性和可靠性的重要环节。它包括模型的显著性检验 (Significance Test of the Model) 和残差分析 (Residual Analysis) 等方面。
8.3.1 模型的显著性检验 (Significance Test of the Model)
模型的显著性检验 (Significance Test of the Model) 旨在检验整个回归模型是否具有统计学意义,即检验所有自变量 \(X_1, X_2, ..., X_p\) 作为一个整体是否对因变量 \(Y\) 有显著的线性影响。对于多元线性回归模型,我们通常建立如下假设:
⚝ 原假设 \(H_0: \beta_1 = \beta_2 = ... = \beta_p = 0\) (所有自变量对因变量 \(Y\) 都没有线性影响)
⚝ 备择假设 \(H_1: \beta_1, \beta_2, ..., \beta_p\) 不全为 0 (至少有一个自变量对因变量 \(Y\) 有线性影响)
为了检验这个假设,我们使用 F 检验 (F-test)。首先,我们需要计算以下平方和:
⚝ 总平方和 (total sum of squares, TSS): \(SST = \sum_{i=1}^{n} (y_i - \bar{y})^2\)
⚝ 回归平方和 (regression sum of squares, RSS): \(SSR = \sum_{i=1}^{n} (\hat{y}_i - \bar{y})^2\)
⚝ 残差平方和 (residual sum of squares, SSE): \(SSE = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)
它们之间满足关系:\(SST = SSR + SSE\)。
构造 F 统计量 (F-statistic):
\[ F = \frac{MSR}{MSE} = \frac{SSR/p}{SSE/(n-p-1)} \]
其中,\(MSR = SSR/p\) 是回归均方 (mean square regression),\(MSE = SSE/(n-p-1)\) 是残差均方 (mean square error)。在原假设 \(H_0\) 成立时,F 统计量近似服从自由度为 \((p, n-p-1)\) 的 F 分布 (F-distribution)。我们可以计算 F 统计量的 p 值,或者将 F 统计量与给定的显著性水平 \(\alpha\) 下的 F 分布临界值进行比较,来判断是否拒绝原假设 \(H_0\)。如果 p 值小于 \(\alpha\) 或者 \(F\) 大于临界值,则拒绝原假设 \(H_0\),认为整个回归模型是显著的,即至少有一个自变量对因变量 \(Y\) 有显著的线性影响。
此外,判定系数 (coefficient of determination) \(R^2\) 也是衡量模型拟合优度 (goodness of fit) 的常用指标,定义为:
\[ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]
\(R^2\) 表示回归平方和占总平方和的比例,取值范围为 \(0 \leq R^2 \leq 1\)。\(R^2\) 越接近 1,表示回归模型对数据的拟合程度越好,模型能够解释因变量 \(Y\) 变异性的比例越高。调整的判定系数 (adjusted \(R^2\)) 考虑了自变量个数的影响,可以更合理地评价模型的拟合优度,尤其是在比较不同自变量个数的模型时。
8.3.2 残差分析 (Residual Analysis)
残差分析 (Residual Analysis) 是检验回归模型假设的重要手段。通过分析残差的性质和模式,我们可以诊断模型是否违反了线性性、独立性、同方差性和正态性等假设。常用的残差分析方法包括残差图 (residual plots) 分析。
残差图 (Residual Plots): 残差图是以残差 \(e_i = y_i - \hat{y}_i\) 为纵轴,以其他变量 (如预测值 \(\hat{y}_i\)、自变量 \(x_{ij}\) 或观测顺序等) 为横轴绘制的散点图。通过观察残差图的模式,我们可以判断模型假设是否成立。
① 残差 vs. 预测值图 (Residuals vs. Fitted Values Plot): 以预测值 \(\hat{y}_i\) 为横轴,残差 \(e_i\) 为纵轴绘制散点图。
▮▮▮▮⚝ 线性性 (Linearity): 如果模型是线性的,残差应该随机分布在水平线 \(y=0\) 附近,没有明显的曲线模式。如果残差图呈现明显的曲线模式,则可能表明模型线性性假设不成立,需要考虑非线性模型或对变量进行变换。
▮▮▮▮⚝ 同方差性 (Homoscedasticity): 如果误差项是同方差的,残差的散布程度应该在整个预测值范围内大致均匀,没有明显的喇叭口或倒喇叭口形状。如果残差图呈现明显的喇叭口形状,则可能表明模型同方差性假设不成立,需要考虑加权最小二乘法等方法处理异方差性 (heteroscedasticity)。
② 残差 vs. 自变量图 (Residuals vs. Predictors Plot): 分别以每个自变量 \(x_{ij}\) 为横轴,残差 \(e_i\) 为纵轴绘制散点图。这些图可以帮助检查模型是否正确地捕捉了每个自变量与因变量之间的关系。如果残差图呈现与某个自变量相关的模式,则可能表明模型对该自变量的线性关系假设不成立,或者模型中遗漏了与该自变量相关的非线性项或交互项。
③ 正态概率图 (Normal Probability Plot) 或 Q-Q 图 (Quantile-Quantile Plot): 用于检验误差项的正态性假设。如果误差项服从正态分布,残差的正态概率图应该近似呈一条直线。如果残差的正态概率图明显偏离直线,则可能表明模型正态性假设不成立,需要考虑非参数回归方法或对数据进行变换。
④ 残差 vs. 观测顺序图 (Residuals vs. Order Plot): 如果数据是按时间顺序或其他顺序收集的,可以绘制残差 vs. 观测顺序图,以检验误差项的独立性假设。如果残差图呈现明显的趋势或周期性模式,则可能表明误差项之间存在自相关性 (autocorrelation),违反了独立性假设。
通过综合分析各种残差图,我们可以对回归模型的假设进行诊断,并根据诊断结果对模型进行改进,例如添加非线性项、进行变量变换、处理异方差性或自相关性等,以提高模型的有效性和可靠性。
8.4 非线性回归简介 (Introduction to Non-linear Regression)
非线性回归 (Non-linear Regression) 是相对于线性回归而言的,当因变量与自变量之间的关系不是线性时,我们需要使用非线性回归模型。非线性回归模型的一般形式可以表示为:
\[ Y = f(X, \boldsymbol{\beta}) + \epsilon \]
其中,\(f(X, \boldsymbol{\beta})\) 是关于自变量 \(X\) 和参数向量 \(\boldsymbol{\beta}\) 的非线性函数,\(\epsilon\) 是误差项。与线性回归模型不同,非线性回归模型中的参数 \(\boldsymbol{\beta}\) 不是线性地出现在模型中。
常见的非线性回归模型 (Common Non-linear Regression Models):
① 指数模型 (Exponential Model): 例如 \(Y = \beta_0 e^{\beta_1 X} + \epsilon\)。指数模型常用于描述增长或衰减过程。
② 幂函数模型 (Power Function Model): 例如 \(Y = \beta_0 X^{\beta_1} + \epsilon\)。幂函数模型常用于描述经济学和生物学中的一些关系。
③ Logistic 模型 (Logistic Model): 例如 \(Y = \frac{\beta_0}{1 + e^{-(\beta_1 + \beta_2 X)}} + \epsilon\)。Logistic 模型常用于描述 S 形增长曲线,例如人口增长、疾病传播等。
④ Michaelis-Menten 模型 (Michaelis-Menten Model): 例如 \(Y = \frac{\beta_0 X}{\beta_1 + X} + \epsilon\)。Michaelis-Menten 模型常用于酶动力学研究。
非线性回归的参数估计 (Parameter Estimation in Non-linear Regression): 非线性回归模型的参数估计通常不能像线性回归那样直接通过正规方程组求解,而是需要使用迭代优化算法,例如高斯-牛顿法 (Gauss-Newton method)、Levenberg-Marquardt 算法等,通过迭代搜索最优参数值,使得残差平方和最小化。
非线性回归模型的检验与诊断 (Testing and Diagnosis of Non-linear Regression Models): 非线性回归模型的检验与诊断方法与线性回归类似,也包括模型显著性检验和残差分析等。但由于非线性模型的复杂性,检验和诊断过程可能更加复杂。
何时使用非线性回归 (When to Use Non-linear Regression): 当理论知识或先验经验表明因变量与自变量之间存在非线性关系,或者线性回归模型的残差分析表明线性模型不适用时,应考虑使用非线性回归模型。选择合适的非线性模型形式通常需要结合专业知识和数据探索分析。
8.5 回归分析的应用案例 (Application Cases of Regression Analysis)
回归分析 (Regression Analysis) 作为一种强大的统计分析工具,在各个领域都有广泛的应用。以下列举一些回归分析的应用案例:
① 经济学 (Economics):
▮▮▮▮⚝ 需求预测 (Demand Forecasting): 利用回归模型分析商品价格、收入水平、广告投入等因素对商品需求量的影响,进行需求预测。
▮▮▮▮⚝ 宏观经济分析 (Macroeconomic Analysis): 建立回归模型分析 GDP、通货膨胀率、失业率等宏观经济指标之间的关系,进行经济形势分析和预测。
▮▮▮▮⚝ 金融市场分析 (Financial Market Analysis): 利用回归模型分析股票价格、利率、汇率等金融市场变量之间的关系,进行投资决策和风险管理。
② 医学 (Medicine) 与生物学 (Biology):
▮▮▮▮⚝ 药物剂量-反应关系研究 (Dose-Response Relationship Study): 利用回归模型分析药物剂量与疗效或毒性反应之间的关系,确定最佳药物剂量。
▮▮▮▮⚝ 流行病学研究 (Epidemiological Study): 利用回归模型分析疾病发生率与环境因素、生活方式、遗传因素等之间的关系,寻找疾病的危险因素。
▮▮▮▮⚝ 基因表达分析 (Gene Expression Analysis): 利用回归模型分析基因表达水平与生物学性状或疾病状态之间的关系,揭示基因功能和调控机制。
③ 工程学 (Engineering):
▮▮▮▮⚝ 质量控制 (Quality Control): 利用回归模型分析生产过程参数与产品质量指标之间的关系,优化生产工艺,提高产品质量。
▮▮▮▮⚝ 可靠性分析 (Reliability Analysis): 利用回归模型分析环境应力、工作时间等因素对产品寿命的影响,评估产品可靠性。
▮▮▮▮⚝ 系统建模与仿真 (System Modeling and Simulation): 利用回归模型建立复杂系统的数学模型,进行系统仿真和性能优化。
④ 社会科学 (Social Sciences):
▮▮▮▮⚝ 教育学研究 (Educational Research): 利用回归模型分析学生成绩与家庭背景、学校条件、教学方法等因素之间的关系,评估教育政策和教学效果。
▮▮▮▮⚝ 心理学研究 (Psychological Research): 利用回归模型分析心理变量之间的关系,例如人格特征、认知能力、情绪状态等,揭示心理现象的规律。
▮▮▮▮⚝ 市场营销研究 (Marketing Research): 利用回归模型分析消费者行为与产品特征、促销策略、渠道选择等因素之间的关系,制定营销策略。
⑤ 环境科学 (Environmental Science):
▮▮▮▮⚝ 环境污染评估 (Environmental Pollution Assessment): 利用回归模型分析污染物浓度与排放源、气象条件、地理位置等因素之间的关系,评估环境污染程度和来源。
▮▮▮▮⚝ 气候变化研究 (Climate Change Research): 利用回归模型分析气温、降水、海平面等气候变量与温室气体排放、太阳辐射等因素之间的关系,研究气候变化规律和趋势。
▮▮▮▮⚝ 生态学研究 (Ecology Research): 利用回归模型分析物种分布、种群数量与环境因素、生物相互作用等之间的关系,研究生态系统结构和功能。
这些案例仅仅是回归分析应用的一小部分,实际上,回归分析几乎可以应用于所有需要研究变量之间关系的领域。随着数据科学和人工智能的发展,回归分析方法也在不断创新和拓展,例如正则化回归 (regularized regression)、广义线性模型 (generalized linear models)、非参数回归 (nonparametric regression) 等,为解决更加复杂和多样化的实际问题提供了强大的工具。
9. chapter 9: 非参数统计方法 (Non-parametric Statistical Methods)
9.1 非参数统计的基本思想 (Basic Ideas of Non-parametric Statistics)
在统计学领域中,我们常常会遇到需要对数据进行分析和推断的情况。传统的参数统计方法在应用时,通常会预先假设数据服从特定的概率分布,例如正态分布 (Normal Distribution)。然而,在现实世界的许多场景中,这些假设条件可能无法得到满足。例如,当样本量较小、数据分布未知或明显偏离正态分布、或者数据类型为顺序数据 (ordinal data) 而非数值数据时,参数统计方法的应用就会受到限制。为了应对这些挑战,非参数统计方法 (Non-parametric Statistical Methods) 应运而生。
非参数统计方法,顾名思义,是一种不对数据分布做严格假定的统计方法。与参数统计方法依赖于特定分布的参数(如正态分布的均值和方差)不同,非参数统计方法通常不依赖于总体分布的具体形式,或者对总体分布的假定条件非常宽松。因此,非参数统计方法也被称为分布自由方法 (distribution-free methods)。
非参数统计方法的核心思想在于,它侧重于利用数据的秩次 (rank)、符号 (sign) 等信息,而非原始数据值本身。通过对数据进行排序或符号化处理,将原始数据转换为秩次或符号数据,从而降低了对数据分布的要求。这种转换使得非参数统计方法能够有效地处理各种类型的数据,包括数值型数据、顺序数据,甚至是类别数据 (categorical data)。
非参数统计方法的优势主要体现在以下几个方面:
① 适用范围广 (Wide Applicability):非参数统计方法对数据分布的假定条件宽松,适用范围更广,可以处理各种类型的分布数据,尤其适用于总体分布未知或非正态分布的情况。
② 稳健性强 (Robustness):非参数统计方法的结果不易受少数异常值 (outliers) 的影响,具有较好的稳健性。这是因为秩次和符号等信息对异常值不敏感,异常值不会对数据的整体排序产生过大的影响。
③ 易于理解和应用 (Easy to Understand and Apply):非参数统计方法通常基于简单的统计量和检验原理,计算过程相对简便,易于理解和应用。
然而,非参数统计方法也存在一些局限性:
① 检验效能相对较低 (Lower Statistical Power):当数据满足参数统计方法的应用条件时,非参数统计方法的检验效能通常低于参数统计方法。这意味着在相同的样本量下,非参数检验可能不如参数检验更容易检测到真实存在的效应。
② 信息利用率较低 (Lower Information Utilization):非参数统计方法在将原始数据转换为秩次或符号的过程中,可能会损失一部分原始数据的信息。
何时选择非参数统计方法?通常情况下,当遇到以下情况时,可以考虑使用非参数统计方法:
① 总体分布未知或非正态 (Unknown or Non-normal Population Distribution):当无法确定总体分布是否为正态分布,或者已知总体分布明显偏离正态分布时。
② 小样本数据 (Small Sample Size):当样本量较小时,参数统计方法可能无法准确估计总体参数,而非参数统计方法在小样本情况下仍然有效。
③ 顺序数据或等级数据 (Ordinal or Ranked Data):当数据为顺序数据或等级数据时,例如调查问卷中的 Likert 量表数据,非参数统计方法是更合适的选择。
④ 存在异常值 (Outliers Present):当数据中存在异常值时,非参数统计方法由于其稳健性,能够提供更可靠的分析结果。
总之,非参数统计方法是参数统计方法的有力补充,它为我们提供了一套在更广泛条件下进行统计推断的工具。在实际应用中,我们需要根据数据的特点和研究目的,合理选择参数统计方法或非参数统计方法,或者将两者结合使用,以获得更全面、更准确的分析结果。
9.2 常用非参数检验 (Common Non-parametric Tests)
非参数检验方法种类繁多,针对不同的研究问题和数据类型,可以选择不同的非参数检验方法。本节将介绍几种常用的非参数检验方法,包括符号检验 (Sign Test)、秩和检验 (Rank Sum Test) 和秩相关检验 (Rank Correlation Test)。
9.2.1 符号检验 (Sign Test)
符号检验 (Sign Test) 是一种简单且应用广泛的非参数检验方法,主要用于检验单个样本的中位数 (median) 是否等于某个给定的值,或者检验配对样本的差值中位数是否为零。符号检验的原理非常直观,它基于样本数据与假设中位数的差值的符号进行分析。
① 单样本符号检验 (One-Sample Sign Test)
单样本符号检验用于检验单个总体中位数 \(M\) 是否等于某个给定的值 \(M_0\)。其原假设 (Null Hypothesis) 和备择假设 (Alternative Hypothesis) 可以表示为:
\(H_0: M = M_0\)
\(H_1: M \neq M_0\) (双尾检验, two-tailed test)
或
\(H_1: M > M_0\) (右尾检验, right-tailed test)
或
\(H_1: M < M_0\) (左尾检验, left-tailed test)
检验步骤如下:
- 计算差值 (Calculate Differences):对于样本中的每个观测值 \(x_i\),计算其与假设中位数 \(M_0\) 的差值 \(d_i = x_i - M_0\)。
- 确定符号 (Determine Signs):记录每个差值 \(d_i\) 的符号。正差值记为 “+”,负差值记为 “-”,零差值剔除 (或忽略)。
- 计算正负号个数 (Count Positive and Negative Signs):设 \(S_+\) 为正号的个数,\(S_-\) 为负号的个数,\(n\) 为非零差值的个数,即 \(n = S_+ + S_-\)。
- 计算检验统计量 (Calculate Test Statistic):在原假设 \(H_0\) 成立的条件下,正号和负号出现的概率应该相等,都为 0.5。因此,\(S_+\) (或 \(S_-\)) 近似服从二项分布 (Binomial Distribution) \(B(n, 0.5)\)。我们可以选择 \(S_+\) 或 \(S_-\) 作为检验统计量。通常选择较小的那个值,记为 \(S = \min(S_+, S_-)\)。
- 确定 p 值 (Determine p-value):根据备择假设的类型,计算相应的 p 值。
▮▮▮▮⚝ 双尾检验 (\(H_1: M \neq M_0\)):p 值 \( = 2 \times P(X \leq S)\),其中 \(X \sim B(n, 0.5)\)。
▮▮▮▮⚝ 右尾检验 (\(H_1: M > M_0\)):p 值 \( = P(X \leq S_-)\),其中 \(X \sim B(n, 0.5)\)。
▮▮▮▮⚝ 左尾检验 (\(H_1: M < M_0\)):p 值 \( = P(X \leq S_+)\),其中 \(X \sim B(n, 0.5)\)。
- 做出决策 (Make Decision):将 p 值与显著性水平 \(\alpha\) 进行比较。如果 p 值 \(\leq \alpha\),则拒绝原假设 \(H_0\),否则接受原假设 \(H_0\)。
② 配对样本符号检验 (Paired-Sample Sign Test)
配对样本符号检验用于检验两个相关样本的差值中位数是否为零,从而推断两个相关总体的中位数是否存在差异。例如,在医学研究中,我们可能想比较同一样本个体在接受某种治疗前后的某项指标的变化情况。
检验步骤与单样本符号检验类似,只是差值的计算方式有所不同:
- 计算配对差值 (Calculate Paired Differences):对于每对观测值 \((x_{1i}, x_{2i})\),计算其差值 \(d_i = x_{1i} - x_{2i}\)。
- 确定符号 (Determine Signs):记录每个差值 \(d_i\) 的符号。正差值记为 “+”,负差值记为 “-”,零差值剔除 (或忽略)。
- 计算正负号个数 (Count Positive and Negative Signs):设 \(S_+\) 为正号的个数,\(S_-\) 为负号的个数,\(n\) 为非零差值的个数,即 \(n = S_+ + S_-\)。
- 计算检验统计量 (Calculate Test Statistic):\(S = \min(S_+, S_-)\)。
- 确定 p 值 (Determine p-value):与单样本符号检验相同,根据备择假设的类型,计算相应的 p 值,并使用二项分布 \(B(n, 0.5)\) 计算概率。
- 做出决策 (Make Decision):将 p 值与显著性水平 \(\alpha\) 进行比较,做出统计决策。
符号检验的优点在于其简单易懂,计算方便,对数据分布没有严格要求。缺点是只利用了差值的符号信息,损失了部分数值信息,因此检验效能相对较低。当数据满足参数检验条件时,符号检验的效能通常低于参数检验。
应用案例:
假设我们要检验某种新型教学方法是否能提高学生的数学成绩。我们随机抽取了 10 名学生,记录了他们在采用新方法前后的数学成绩。数据如下:
学生 | 成绩 (方法前) | 成绩 (方法后) | 差值 | 符号 |
---|---|---|---|---|
1 | 75 | 80 | 5 | + |
2 | 82 | 85 | 3 | + |
3 | 68 | 70 | 2 | + |
4 | 90 | 92 | 2 | + |
5 | 78 | 75 | -3 | - |
6 | 85 | 88 | 3 | + |
7 | 70 | 72 | 2 | + |
8 | 92 | 95 | 3 | + |
9 | 88 | 90 | 2 | + |
10 | 76 | 78 | 2 | + |
我们想要检验新方法是否显著提高了学生的数学成绩,即检验差值中位数是否大于零。
步骤:
- 计算差值:已在表格中给出。
- 确定符号:已在表格中给出。
- 计算正负号个数:\(S_+ = 9\),\(S_- = 1\),\(n = 10\)。
- 计算检验统计量:\(S = \min(9, 1) = 1\)。
- 确定 p 值:这是一个右尾检验 (\(H_1: M > 0\)),p 值 \( = P(X \leq S_- = 1)\),其中 \(X \sim B(10, 0.5)\)。
\[ P(X \leq 1) = P(X=0) + P(X=1) = \binom{10}{0} (0.5)^{10} + \binom{10}{1} (0.5)^{10} = (1 + 10) \times (0.5)^{10} = 11 \times (0.5)^{10} \approx 0.0107 \] - 做出决策:假设显著性水平 \(\alpha = 0.05\)。由于 p 值 \( \approx 0.0107 < 0.05 \),我们拒绝原假设 \(H_0\),接受备择假设 \(H_1\)。结论是,新教学方法显著提高了学生的数学成绩。
9.2.2 秩和检验 (Rank Sum Test)
秩和检验 (Rank Sum Test) 是一类非常重要的非参数检验方法,用于比较两个或多个独立样本的总体分布是否存在显著差异。其中最常用的包括 Mann-Whitney U 检验 (Mann-Whitney U Test) 和 Wilcoxon 秩和检验 (Wilcoxon Rank-Sum Test),两者在原理上是等价的,只是检验统计量的形式略有不同。这里我们主要介绍 Wilcoxon 秩和检验。
Wilcoxon 秩和检验主要用于检验两个独立样本是否来自具有相同分布的总体。其原假设 (Null Hypothesis) 和备择假设 (Alternative Hypothesis) 可以表示为:
\(H_0\): 两个总体分布相同 (Two populations have the same distribution)
\(H_1\): 两个总体分布不同 (Two populations have different distributions) (双尾检验)
或
\(H_1\): 总体 1 的分布倾向于比总体 2 更大 (Population 1 tends to have larger values than Population 2) (右尾检验,通常指样本 1 的秩和显著大于样本 2)
或
\(H_1\): 总体 1 的分布倾向于比总体 2 更小 (Population 1 tends to have smaller values than Population 2) (左尾检验,通常指样本 1 的秩和显著小于样本 2)
检验步骤如下:
- 混合排序 (Combined Ranking):将两个样本的所有观测值混合在一起,并按照从小到大的顺序进行排序。如果存在相同数值,则赋予平均秩次 (average rank)。
- 计算秩和 (Calculate Rank Sums):分别计算两个样本观测值在其混合排序中的秩次之和。设样本 1 的秩和为 \(R_1\),样本 2 的秩和为 \(R_2\),样本 1 的样本量为 \(n_1\),样本 2 的样本量为 \(n_2\)。
- 计算检验统计量 (Calculate Test Statistic):Wilcoxon 秩和检验的检验统计量通常使用 \(R_1\) 或 \(R_2\)。例如,我们可以选择 \(W = R_1\)。
- 确定 p 值 (Determine p-value):在原假设 \(H_0\) 成立的条件下,可以推导出秩和 \(W\) 的分布。当样本量较大时 (例如,\(n_1, n_2 \geq 10\)),秩和 \(W\) 近似服从正态分布。其均值和方差为:
\[ E(W) = \frac{n_1(n_1 + n_2 + 1)}{2} \]
\[ Var(W) = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12} \]
可以将检验统计量 \(W\) 标准化为 Z 统计量:
\[ Z = \frac{W - E(W)}{\sqrt{Var(W)}} \]
Z 统计量近似服从标准正态分布 \(N(0, 1)\)。根据备择假设的类型,计算相应的 p 值。
▮▮▮▮⚝ 双尾检验 (\(H_1\): 两个总体分布不同):p 值 \( = 2 \times P(Z \geq |z_{obs}|)\),其中 \(z_{obs}\) 是 Z 统计量的观测值。
▮▮▮▮⚝ 右尾检验 (\(H_1\): 总体 1 的分布倾向于更大):p 值 \( = P(Z \geq z_{obs})\)。
▮▮▮▮⚝ 左尾检验 (\(H_1\): 总体 1 的分布倾向于更小):p 值 \( = P(Z \leq z_{obs})\)。
当样本量较小时,需要查阅 Wilcoxon 秩和检验的临界值表,或者使用精确的分布计算 p 值。
- 做出决策 (Make Decision):将 p 值与显著性水平 \(\alpha\) 进行比较,做出统计决策。
应用案例:
假设我们要比较两种不同的肥料对农作物产量的影响。我们随机选取了两块地,分别施用肥料 A 和肥料 B,并记录了每块地上的农作物产量 (单位:公斤)。数据如下:
肥料 A 产量 | 肥料 B 产量 |
---|---|
45 | 52 |
50 | 55 |
48 | 58 |
52 | 60 |
47 | 56 |
55 | 62 |
我们想要检验肥料 B 是否显著提高了农作物产量,即检验肥料 B 组的产量是否显著高于肥料 A 组。
步骤:
- 混合排序:将所有产量数据混合排序:45, 47, 48, 50, 52, 52, 55, 55, 56, 58, 60, 62。
赋予秩次:1, 2, 3, 4, 5.5, 5.5, 7.5, 7.5, 9, 10, 11, 12 (52 和 55 出现两次,取平均秩次)。 - 计算秩和:
肥料 A 组产量及其秩次:45(1), 50(4), 48(3), 52(5.5), 47(2), 55(7.5)。\(R_1 = 1 + 4 + 3 + 5.5 + 2 + 7.5 = 23\)。
肥料 B 组产量及其秩次:52(5.5), 55(7.5), 58(10), 60(11), 56(9), 62(12)。\(R_2 = 5.5 + 7.5 + 10 + 11 + 9 + 12 = 55\)。
\(n_1 = 6\),\(n_2 = 6\)。 - 计算检验统计量:\(W = R_1 = 23\)。
- 确定 p 值:这是一个右尾检验 (\(H_1\): 肥料 B 产量更高)。计算 Z 统计量:
\[ E(W) = \frac{n_1(n_1 + n_2 + 1)}{2} = \frac{6 \times (6 + 6 + 1)}{2} = 39 \]
\[ Var(W) = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12} = \frac{6 \times 6 \times (6 + 6 + 1)}{12} = 39 \]
\[ Z = \frac{W - E(W)}{\sqrt{Var(W)}} = \frac{23 - 39}{\sqrt{39}} \approx -2.56 \]
p 值 \( = P(Z \geq -2.56) = 1 - P(Z < -2.56) = 1 - \Phi(-2.56) = \Phi(2.56) \approx 0.9948 \)。
这里我们犯了一个错误,右尾检验应该看 \(R_1\) 是否显著小于期望值,或者 \(R_2\) 是否显著大于期望值。我们应该使用 \(R_2\) 来计算 Z 统计量,或者使用 \(R_1\) 并进行左尾检验。
如果使用 \(R_2 = 55\),则 \(W' = R_2 = 55\)。
\[ E(W') = \frac{n_2(n_1 + n_2 + 1)}{2} = \frac{6 \times (6 + 6 + 1)}{2} = 39 \]
\[ Var(W') = \frac{n_1 n_2 (n_1 + n_2 + 1)}{12} = 39 \]
\[ Z' = \frac{W' - E(W')}{\sqrt{Var(W')}} = \frac{55 - 39}{\sqrt{39}} \approx 2.56 \]
p 值 \( = P(Z' \geq 2.56) = 1 - \Phi(2.56) \approx 1 - 0.9948 = 0.0052 \)。 - 做出决策:假设显著性水平 \(\alpha = 0.05\)。由于 p 值 \( \approx 0.0052 < 0.05 \),我们拒绝原假设 \(H_0\),接受备择假设 \(H_1\)。结论是,肥料 B 显著提高了农作物产量。
秩和检验的优点在于其对数据分布没有严格要求,适用于比较两个独立样本的总体分布差异。缺点是当数据满足参数检验条件时,秩和检验的效能通常低于参数检验方法,例如 t 检验 (t-test)。
9.2.3 秩相关检验 (Rank Correlation Test)
秩相关检验 (Rank Correlation Test) 用于度量两个变量之间的单调关系 (monotonic relationship),即一个变量增加时,另一个变量也倾向于增加或减少的趋势,但不一定是线性关系。常用的秩相关系数包括 Spearman 秩相关系数 (Spearman's Rank Correlation Coefficient) 和 Kendall's tau (Kendall's τ)。这里我们主要介绍 Spearman 秩相关系数。
Spearman 秩相关系数 \(\rho_s\) (rho) 是基于秩次计算的相关系数,用于衡量两个变量的秩次之间的相关程度。其取值范围为 \([-1, 1]\),\(\rho_s = 1\) 表示完全单调递增关系,\(\rho_s = -1\) 表示完全单调递减关系,\(\rho_s = 0\) 表示不存在单调关系。
计算步骤如下:
- 秩次转换 (Rank Transformation):分别对两个变量 \(X\) 和 \(Y\) 的观测值进行排序,并赋予秩次。如果存在相同数值,则赋予平均秩次。设 \(x_i\) 的秩次为 \(R_i\),\(y_i\) 的秩次为 \(Q_i\)。
- 计算秩次差 (Calculate Rank Differences):计算每对观测值的秩次差 \(d_i = R_i - Q_i\)。
- 计算 Spearman 秩相关系数 (Calculate Spearman's Rank Correlation Coefficient):
\[ \rho_s = 1 - \frac{6 \sum_{i=1}^{n} d_i^2}{n(n^2 - 1)} \]
其中 \(n\) 为样本量。
假设检验:
检验两个变量之间是否存在显著的秩相关关系。其原假设 (Null Hypothesis) 和备择假设 (Alternative Hypothesis) 可以表示为:
\(H_0: \rho_s = 0\) (两个变量之间不存在秩相关关系)
\(H_1: \rho_s \neq 0\) (两个变量之间存在秩相关关系) (双尾检验)
或
\(H_1: \rho_s > 0\) (两个变量之间存在正向秩相关关系) (右尾检验)
或
\(H_1: \rho_s < 0\) (两个变量之间存在负向秩相关关系) (左尾检验)
检验统计量:当样本量 \(n\) 较大时 (例如,\(n \geq 10\)),可以近似使用 t 检验。检验统计量为:
\[ t = \rho_s \sqrt{\frac{n-2}{1 - \rho_s^2}} \]
t 统计量近似服从自由度为 \(n-2\) 的 t 分布 \(t(n-2)\)。根据备择假设的类型,计算相应的 p 值。
⚝ 双尾检验 (\(H_1: \rho_s \neq 0\)):p 值 \( = 2 \times P(T \geq |t_{obs}|)\),其中 \(T \sim t(n-2)\),\(t_{obs}\) 是 t 统计量的观测值。
⚝ 右尾检验 (\(H_1: \rho_s > 0\)):p 值 \( = P(T \geq t_{obs})\)。
⚝ 左尾检验 (\(H_1: \rho_s < 0\)):p 值 \( = P(T \leq t_{obs})\)。
当样本量较小时,需要查阅 Spearman 秩相关系数的临界值表,或者使用精确的分布计算 p 值。
应用案例:
假设我们要研究学生的学习时长和考试成绩之间是否存在单调关系。我们随机抽取了 8 名学生,记录了他们的学习时长 (小时) 和考试成绩 (百分制)。数据如下:
学生 | 学习时长 (X) | 考试成绩 (Y) |
---|---|---|
1 | 10 | 65 |
2 | 15 | 75 |
3 | 8 | 60 |
4 | 20 | 90 |
5 | 12 | 70 |
6 | 25 | 95 |
7 | 6 | 55 |
8 | 18 | 80 |
我们想要检验学习时长和考试成绩之间是否存在正向秩相关关系。
步骤:
- 秩次转换:
学习时长 X 的秩次:6(1), 8(2), 10(3), 12(4), 15(5), 18(6), 20(7), 25(8)。
考试成绩 Y 的秩次:55(1), 60(2), 65(3), 70(4), 75(5), 80(6), 90(7), 95(8)。 - 计算秩次差:
学生 | 学习时长秩次 (R) | 考试成绩秩次 (Q) | 秩次差 \(d = R - Q\) | \(d^2\) |
---|---|---|---|---|
1 | 3 | 3 | 0 | 0 |
2 | 5 | 5 | 0 | 0 |
3 | 2 | 2 | 0 | 0 |
4 | 7 | 7 | 0 | 0 |
5 | 4 | 4 | 0 | 0 |
6 | 8 | 8 | 0 | 0 |
7 | 1 | 1 | 0 | 0 |
8 | 6 | 6 | 0 | 0 |
\( \sum_{i=1}^{8} d_i^2 = 0 \)。 (这里计算出现错误,重新计算秩次差)
学生 | 学习时长秩次 (R) | 考试成绩秩次 (Q) | 秩次差 \(d = R - Q\) | \(d^2\) |
---|---|---|---|---|
1 | 3 | 3 | 0 | 0 |
2 | 5 | 5 | 0 | 0 |
3 | 2 | 2 | 0 | 0 |
4 | 7 | 7 | 0 | 0 |
5 | 4 | 4 | 0 | 0 |
6 | 8 | 8 | 0 | 0 |
7 | 1 | 1 | 0 | 0 |
8 | 6 | 6 | 0 | 0 |
(再次检查数据和秩次,发现之前的秩次计算是正确的,但是数据有问题,导致秩次差都为0,这不合理。重新审视数据,并重新计算秩次和秩次差)
学习时长 X 排序:6, 8, 10, 12, 15, 18, 20, 25。 秩次:1, 2, 3, 4, 5, 6, 7, 8。
考试成绩 Y 排序:55, 60, 65, 70, 75, 80, 90, 95。 秩次:1, 2, 3, 4, 5, 6, 7, 8。
学生 | 学习时长 (X) | 考试成绩 (Y) | 学习时长秩次 (R) | 考试成绩秩次 (Q) | 秩次差 \(d = R - Q\) | \(d^2\) |
---|---|---|---|---|---|---|
1 | 10 | 65 | 3 | 3 | 0 | 0 |
2 | 15 | 75 | 5 | 5 | 0 | 0 |
3 | 8 | 60 | 2 | 2 | 0 | 0 |
4 | 20 | 90 | 7 | 7 | 0 | 0 |
5 | 12 | 70 | 4 | 4 | 0 | 0 |
6 | 25 | 95 | 8 | 8 | 0 | 0 |
7 | 6 | 55 | 1 | 1 | 0 | 0 |
8 | 18 | 80 | 6 | 6 | 0 | 0 |
(数据和秩次再次检查,发现数据本身就设计成了完全正相关,导致秩次差都为0,这在实际应用中不太可能出现。为了演示秩相关检验的计算过程,我们稍微修改一下考试成绩数据,使其不完全正相关)
修改后的数据:
学生 | 学习时长 (X) | 考试成绩 (Y) |
---|---|---|
1 | 10 | 68 |
2 | 15 | 75 |
3 | 8 | 62 |
4 | 20 | 85 |
5 | 12 | 70 |
6 | 25 | 92 |
7 | 6 | 58 |
8 | 18 | 80 |
重新计算秩次和秩次差:
学习时长 X 秩次:6(1), 8(2), 10(3), 12(4), 15(5), 18(6), 20(7), 25(8)。
考试成绩 Y 排序:58, 62, 68, 70, 75, 80, 85, 92。 秩次:1, 2, 3, 4, 5, 6, 7, 8。
学生 | 学习时长 (X) | 考试成绩 (Y) | 学习时长秩次 (R) | 考试成绩秩次 (Q) | 秩次差 \(d = R - Q\) | \(d^2\) |
---|---|---|---|---|---|---|
1 | 10 | 68 | 3 | 3 | 0 | 0 |
2 | 15 | 75 | 5 | 5 | 0 | 0 |
3 | 8 | 62 | 2 | 2 | 0 | 0 |
4 | 20 | 85 | 7 | 7 | 0 | 0 |
5 | 12 | 70 | 4 | 4 | 0 | 0 |
6 | 25 | 92 | 8 | 8 | 0 | 0 |
7 | 6 | 58 | 1 | 1 | 0 | 0 |
8 | 18 | 80 | 6 | 6 | 0 | 0 |
(再次发现问题,考试成绩的秩次计算错误,重新计算考试成绩的秩次)
考试成绩 Y 排序:58, 62, 68, 70, 75, 80, 85, 92。 秩次:1, 2, 3, 4, 5, 6, 7, 8。
学生 | 学习时长 (X) | 考试成绩 (Y) | 学习时长秩次 (R) | 考试成绩秩次 (Q) | 秩次差 \(d = R - Q\) | \(d^2\) |
---|---|---|---|---|---|---|
1 | 10 | 68 | 3 | 3 | 0 | 0 |
2 | 15 | 75 | 5 | 5 | 0 | 0 |
3 | 8 | 62 | 2 | 2 | 0 | 0 |
4 | 20 | 85 | 7 | 7 | 0 | 0 |
5 | 12 | 70 | 4 | 4 | 0 | 0 |
6 | 25 | 92 | 8 | 8 | 0 | 0 |
7 | 6 | 58 | 1 | 1 | 0 | 0 |
8 | 18 | 80 | 6 | 6 | 0 | 0 |
(仍然有问题,数据修改后,秩次计算还是有问题,重新仔细检查数据和秩次计算过程)
再次修改数据,并重新计算秩次:
学生 | 学习时长 (X) | 考试成绩 (Y) |
---|---|---|
1 | 10 | 65 |
2 | 15 | 78 |
3 | 8 | 60 |
4 | 20 | 90 |
5 | 12 | 72 |
6 | 25 | 85 |
7 | 6 | 55 |
8 | 18 | 82 |
学习时长 X 秩次:6(1), 8(2), 10(3), 12(4), 15(5), 18(6), 20(7), 25(8)。
考试成绩 Y 排序:55, 60, 65, 72, 78, 82, 85, 90。 秩次:1, 2, 3, 4, 5, 6, 7, 8。
学生 | 学习时长 (X) | 考试成绩 (Y) | 学习时长秩次 (R) | 考试成绩秩次 (Q) | 秩次差 \(d = R - Q\) | \(d^2\) |
---|---|---|---|---|---|---|
1 | 10 | 65 | 3 | 3 | 0 | 0 |
2 | 15 | 78 | 5 | 5 | 0 | 0 |
3 | 8 | 60 | 2 | 2 | 0 | 0 |
4 | 20 | 90 | 7 | 8 | -1 | 1 |
5 | 12 | 72 | 4 | 4 | 0 | 0 |
6 | 25 | 85 | 8 | 7 | 1 | 1 |
7 | 6 | 55 | 1 | 1 | 0 | 0 |
8 | 18 | 82 | 6 | 6 | 0 | 0 |
(再次检查,发现问题在于之前的修改仍然保持了过于强的正相关性,导致秩次差仍然很小。需要更大幅度修改数据,并仔细计算秩次)
最终修改数据,并重新计算秩次:
学生 | 学习时长 (X) | 考试成绩 (Y) |
---|---|---|
1 | 10 | 70 |
2 | 15 | 65 |
3 | 8 | 55 |
4 | 20 | 80 |
5 | 12 | 68 |
6 | 25 | 95 |
7 | 6 | 72 |
8 | 18 | 75 |
学习时长 X 秩次:6(1), 8(2), 10(3), 12(4), 15(5), 18(6), 20(7), 25(8)。
考试成绩 Y 排序:55, 65, 68, 70, 72, 75, 80, 95。 秩次:1, 2, 3, 4, 5, 6, 7, 8。
学生 | 学习时长 (X) | 考试成绩 (Y) | 学习时长秩次 (R) | 考试成绩秩次 (Q) | 秩次差 \(d = R - Q\) | \(d^2\) |
---|---|---|---|---|---|---|
1 | 10 | 70 | 3 | 4 | -1 | 1 |
2 | 15 | 65 | 5 | 2 | 3 | 9 |
3 | 8 | 55 | 2 | 1 | 1 | 1 |
4 | 20 | 80 | 7 | 7 | 0 | 0 |
5 | 12 | 68 | 4 | 3 | 1 | 1 |
6 | 25 | 95 | 8 | 8 | 0 | 0 |
7 | 6 | 72 | 1 | 5 | -4 | 16 |
8 | 18 | 75 | 6 | 6 | 0 | 0 |
\( \sum d_i \) = 0 | \( \sum d_i^2 \) = 28 |
- 计算 Spearman 秩相关系数:
\[ \rho_s = 1 - \frac{6 \sum_{i=1}^{8} d_i^2}{8(8^2 - 1)} = 1 - \frac{6 \times 28}{8 \times (64 - 1)} = 1 - \frac{168}{8 \times 63} = 1 - \frac{168}{504} = 1 - \frac{1}{3} = \frac{2}{3} \approx 0.667 \] - 假设检验:检验 \(H_0: \rho_s = 0\) vs \(H_1: \rho_s > 0\)。
\[ t = \rho_s \sqrt{\frac{n-2}{1 - \rho_s^2}} = 0.667 \sqrt{\frac{8-2}{1 - (0.667)^2}} \approx 0.667 \sqrt{\frac{6}{1 - 0.445}} \approx 0.667 \sqrt{\frac{6}{0.555}} \approx 0.667 \times 3.286 \approx 2.19 \]
自由度 \(df = n - 2 = 8 - 2 = 6\)。查 t 分布表或计算器,得到右尾 p 值 \(P(T > 2.19)\) (df=6) 大约在 0.05 左右。 - 做出决策:假设显著性水平 \(\alpha = 0.05\)。由于 p 值 \(\approx 0.05 \leq 0.05 \),我们勉强拒绝原假设 \(H_0\),接受备择假设 \(H_1\)。结论是,学习时长和考试成绩之间可能存在正向秩相关关系,但结果并不非常显著。
Spearman 秩相关检验的优点在于其可以度量非线性但单调的关系,且对数据分布没有严格要求。缺点是当数据之间存在线性关系且满足参数检验条件时,Spearman 秩相关检验的效能通常低于参数方法,例如 Pearson 相关系数检验 (Pearson correlation coefficient test)。
9.3 非参数估计简介 (Introduction to Non-parametric Estimation)
非参数统计不仅包括假设检验,也包括非参数估计 (Non-parametric Estimation)。非参数估计是指在不对总体分布做特定参数形式假设的前提下,对总体分布或分布的某些特征进行估计的方法。与参数估计相比,非参数估计更加灵活,适用范围更广。
常用的非参数估计方法包括:
① 核密度估计 (Kernel Density Estimation, KDE):核密度估计是一种用于估计随机变量概率密度函数 (probability density function, PDF) 的非参数方法。它通过对每个样本点应用一个核函数 (kernel function),然后将所有核函数叠加起来,得到概率密度函数的估计。核密度估计可以有效地估计任意形状的分布,而无需预先假设分布的具体形式。
② 直方图估计 (Histogram Estimation):直方图是最常见的非参数密度估计方法之一。它将数据范围划分为若干个区间 (bin),然后统计每个区间内的数据点个数,用矩形的高度表示每个区间的频率或密度。直方图简单直观,但其形状受区间宽度和起始位置的影响较大。
③ 经验分布函数 (Empirical Distribution Function, EDF):经验分布函数是样本分布函数的非参数估计。对于一个样本 \(x_1, x_2, ..., x_n\),其经验分布函数 \(F_n(x)\) 定义为:
\[ F_n(x) = \frac{1}{n} \sum_{i=1}^{n} I(x_i \leq x) \]
其中 \(I(x_i \leq x)\) 是示性函数 (indicator function),当 \(x_i \leq x\) 时为 1,否则为 0。经验分布函数是对总体分布函数的一个阶梯状的估计。
④ 中位数估计及其他分位数估计 (Median Estimation and Other Quantile Estimation):在非参数统计中,中位数是一个重要的位置参数。样本中位数可以直接作为总体中位数的非参数估计。类似地,可以使用样本分位数来估计总体分位数。
核密度估计 (Kernel Density Estimation) 示例:
假设我们有一组样本数据,想要估计其概率密度函数。使用核密度估计,我们可以选择一个核函数 (例如,高斯核函数 (Gaussian kernel)) 和一个带宽 (bandwidth) 参数。对于每个样本点,我们以该点为中心,绘制一个核函数曲线。然后,将所有核函数曲线叠加起来,并进行归一化处理,就得到了概率密度函数的核密度估计。带宽参数控制了估计曲线的平滑程度,带宽越大,曲线越平滑。
非参数估计方法在实际应用中非常广泛,尤其是在探索性数据分析 (exploratory data analysis, EDA) 和对数据分布知之甚少的情况下。它们为我们提供了一种灵活且稳健的数据分析工具。
9.4 非参数统计的应用案例 (Application Cases of Non-parametric Statistics)
非参数统计方法由于其对数据分布的宽松要求和稳健性,在各个领域都有广泛的应用。以下列举一些典型的应用案例:
① 医学研究 (Medical Research):在临床试验中,研究者常常需要比较不同治疗方案的效果。当研究指标 (例如,疼痛评分、生活质量评分等) 不满足正态分布假设,或者样本量较小时,非参数检验方法 (如 Wilcoxon 秩和检验、符号秩检验 (Wilcoxon signed-rank test)) 是更合适的选择。例如,比较两种药物对缓解关节炎疼痛的效果,可以使用秩和检验比较两组患者的疼痛评分差异。
② 市场调查 (Market Research):在市场调查中,问卷调查常常采用 Likert 量表等顺序尺度 (ordinal scale) 来收集消费者对产品或服务的评价。对于这类顺序数据,非参数统计方法 (如 Mann-Whitney U 检验、Kruskal-Wallis 检验 (Kruskal-Wallis test)) 比参数方法更适用。例如,比较不同年龄段消费者对某品牌手机的偏好程度,可以使用秩和检验或 Kruskal-Wallis 检验分析不同年龄组的偏好评分差异。
③ 环境科学 (Environmental Science):在环境监测和评估中,环境数据 (如污染物浓度、水质指标等) 常常不服从正态分布,且可能存在异常值。非参数统计方法 (如 Spearman 秩相关、非参数回归 (non-parametric regression)) 可以用于分析环境因素之间的关系,或者评估环境质量的变化趋势。例如,分析某地区空气污染指数与气象条件 (如温度、湿度) 之间的关系,可以使用 Spearman 秩相关系数。
④ 社会科学 (Social Sciences):在社会学、心理学等社会科学研究中,很多研究变量 (如态度、价值观、行为倾向等) 难以进行精确的数值测量,常常使用顺序数据或等级数据。非参数统计方法 (如 Wilcoxon 秩和检验、Friedman 检验 (Friedman test)) 可以用于比较不同组别或不同条件下的社会现象差异。例如,比较不同教育程度人群的幸福感水平,可以使用秩和检验分析幸福感评分的差异。
⑤ 质量管理 (Quality Management):在质量管理中,非参数统计方法可以用于过程能力分析 (process capability analysis)、质量控制图 (control chart) 等方面。当产品质量指标不服从正态分布时,可以使用非参数方法进行过程能力评估,或者构建非参数控制图监控生产过程的稳定性。
⑥ 金融领域 (Finance):在金融数据分析中,股票收益率、资产价格等数据常常表现出非正态性、尖峰厚尾等特征。非参数统计方法 (如核密度估计、非参数 VaR (Value at Risk) 估计) 可以用于风险管理、投资组合优化等方面。例如,使用核密度估计方法估计股票收益率的分布,可以更准确地评估投资风险。
总之,非参数统计方法在各个领域都有广泛的应用前景,尤其是在处理非正态数据、顺序数据、小样本数据以及需要稳健性分析的场景下,非参数统计方法能够发挥重要作用,为我们提供有效的统计分析工具。
10. chapter 10: 贝叶斯统计初步 (Introduction to Bayesian Statistics)
10.1 贝叶斯定理回顾 (Review of Bayes' Theorem)
贝叶斯统计 (Bayesian Statistics) 的核心是贝叶斯定理 (Bayes' Theorem),因此,在深入探讨贝叶斯统计之前,我们首先回顾一下贝叶斯定理。贝叶斯定理描述了在已知一些条件下,某事件发生的概率。它提供了一种更新概率的方式,当我们获得新的证据或信息时,可以用来修正我们原有的信念。
贝叶斯定理的数学表达式如下:
\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]
其中:
⚝ \( P(A|B) \) 是在事件 B 发生的条件下,事件 A 发生的条件概率 (Conditional Probability),也称为后验概率 (Posterior Probability)。这是我们最终想要计算的概率,即在观察到数据 B 后,我们对 A 事件的信念。
⚝ \( P(B|A) \) 是在事件 A 发生的条件下,事件 B 发生的条件概率,也称为似然度 (Likelihood)。在统计学中,这通常表示在给定参数 A 的情况下,观察到数据 B 的概率。
⚝ \( P(A) \) 是事件 A 发生的先验概率 (Prior Probability)。这是在没有任何关于 B 的信息之前,我们对 A 事件发生的初始信念或概率估计。
⚝ \( P(B) \) 是事件 B 发生的边缘概率 (Marginal Probability) 或证据 (Evidence)。它可以看作是一个归一化常数,保证后验概率 \( P(A|B) \) 的总和为 1。\( P(B) \) 可以通过全概率公式计算得到:
\[ P(B) = \sum_{i} P(B|A_i)P(A_i) \]
或者,如果 A 是连续的,则为积分形式。
为了更好地理解贝叶斯定理,我们通过一个经典的例子来说明:
例 10.1.1 疾病检测
假设有一种疾病,人群中的患病率是 1% (即 \( P(\text{患病}) = 0.01 \))。有一种检测方法可以检测出这种疾病,其准确率如下:
⚝ 如果某人患病,检测结果为阳性的概率是 95% (即 \( P(\text{阳性}|\text{患病}) = 0.95 \)),称为灵敏度 (Sensitivity)。
⚝ 如果某人未患病,检测结果为阴性的概率是 90% (即 \( P(\text{阴性}|\text{未患病}) = 0.90 \)),那么检测结果为阳性的概率是 10% (即 \( P(\text{阳性}|\text{未患病}) = 0.10 \)),称为 假阳性率 (False Positive Rate) 的补。
现在,如果一个人的检测结果为阳性,那么这个人真正患病的概率是多少?
解:
我们想计算的是 \( P(\text{患病}|\text{阳性}) \)。根据贝叶斯定理,我们有:
\[ P(\text{患病}|\text{阳性}) = \frac{P(\text{阳性}|\text{患病})P(\text{患病})}{P(\text{阳性})} \]
我们已知:
⚝ \( P(\text{患病}) = 0.01 \) (先验概率)
⚝ \( P(\text{阳性}|\text{患病}) = 0.95 \) (似然度)
⚝ \( P(\text{阳性}|\text{未患病}) = 0.10 \)
我们需要计算 \( P(\text{阳性}) \)。根据全概率公式:
\[ P(\text{阳性}) = P(\text{阳性}|\text{患病})P(\text{患病}) + P(\text{阳性}|\text{未患病})P(\text{未患病}) \]
由于 \( P(\text{未患病}) = 1 - P(\text{患病}) = 1 - 0.01 = 0.99 \),所以:
\[ P(\text{阳性}) = (0.95 \times 0.01) + (0.10 \times 0.99) = 0.0095 + 0.099 = 0.1085 \]
将这些值代入贝叶斯定理公式:
\[ P(\text{患病}|\text{阳性}) = \frac{0.95 \times 0.01}{0.1085} = \frac{0.0095}{0.1085} \approx 0.0876 \]
因此,即使检测结果为阳性,这个人真正患病的概率也只有约 8.76%。这个结果可能会让人惊讶,因为它远低于检测的灵敏度 95%。这说明了先验概率的重要性。由于患病率非常低 (1%),即使检测具有较高的灵敏度,假阳性率也会显著影响后验概率。
这个例子清晰地展示了贝叶斯定理如何根据新的证据 (检测结果为阳性) 更新我们对事件 (患病) 的信念。在贝叶斯统计中,我们正是利用这种思想来更新对参数的认识。
10.2 贝叶斯统计的基本思想 (Basic Ideas of Bayesian Statistics)
贝叶斯统计与经典统计学 (Classical Statistics) 在思想上存在显著差异。经典统计学主要关注频率学派 (Frequentist) 的观点,认为概率是事件在重复试验中发生的频率的极限。参数被认为是固定的未知量,统计推断的目标是基于样本数据对这些固定参数进行估计和检验。
而贝叶斯统计则采用贝叶斯学派 (Bayesian) 的观点,认为概率是对事件或参数信念程度 (Degree of Belief) 的度量。参数不再被视为固定的未知量,而是随机变量 (Random Variable),具有自己的概率分布。贝叶斯统计的核心思想是通过贝叶斯定理,利用样本数据来更新我们对参数的先验信念,得到后验信念,并基于后验信念进行统计推断。
10.2.1 先验分布、后验分布与似然函数 (Prior Distribution, Posterior Distribution, and Likelihood Function)
在贝叶斯统计中,有三个核心概念:先验分布 (Prior Distribution)、似然函数 (Likelihood Function) 和 后验分布 (Posterior Distribution)。
① 先验分布 (Prior Distribution) \( P(\theta) \)
先验分布描述了在观察到任何数据之前,我们对参数 \( \theta \) 的初始信念或知识。先验分布可以是:
⚝ 信息先验 (Informative Prior):当我们对参数 \( \theta \) 有一定的先验知识时,可以使用信息先验。例如,基于过去的经验或专家意见,我们可能认为某个参数的值更有可能落在某个范围内。
⚝ 无信息先验 (Non-informative Prior):当我们对参数 \( \theta \) 几乎一无所知,或者希望尽可能少地引入主观信息时,可以使用无信息先验。无信息先验通常选择尽可能平坦的分布,例如均匀分布 (Uniform Distribution) 在一定范围内,或者 Jeffreys 先验等。
⚝ 共轭先验 (Conjugate Prior):为了数学上的便利性,有时会选择共轭先验。如果先验分布和似然函数结合后得到的后验分布与先验分布属于同一分布族,则称该先验分布为共轭先验。共轭先验可以简化后验分布的计算。
选择合适的先验分布是贝叶斯分析的关键步骤之一,它直接影响到后验分布和最终的推断结果。
② 似然函数 (Likelihood Function) \( P(D|\theta) \)
似然函数描述了在给定参数 \( \theta \) 的情况下,观察到样本数据 \( D \) 的概率。似然函数来源于我们所选择的统计模型。例如,如果我们假设数据服从正态分布 (Normal Distribution),那么似然函数就是基于正态分布的概率密度函数 (Probability Density Function, PDF)。
对于独立同分布 (Independent and Identically Distributed, i.i.d.) 的样本 \( D = \{x_1, x_2, ..., x_n\} \),似然函数可以表示为:
\[ L(\theta|D) = P(D|\theta) = \prod_{i=1}^{n} P(x_i|\theta) \]
其中 \( P(x_i|\theta) \) 是第 \( i \) 个数据点 \( x_i \) 在给定参数 \( \theta \) 下的概率密度函数或概率质量函数 (Probability Mass Function, PMF)。
似然函数在贝叶斯统计和经典统计中都扮演着重要角色。在经典统计的极大似然估计 (Maximum Likelihood Estimation, MLE) 中,我们通过最大化似然函数来估计参数 \( \theta \)。在贝叶斯统计中,似然函数是连接先验分布和后验分布的桥梁。
③ 后验分布 (Posterior Distribution) \( P(\theta|D) \)
后验分布是贝叶斯统计的核心,它描述了在观察到样本数据 \( D \) 之后,我们对参数 \( \theta \) 的更新信念。后验分布是通过贝叶斯定理,将先验分布和似然函数结合得到的:
\[ P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} \]
其中,\( P(D) \) 是边缘似然 (Marginal Likelihood) 或证据 (Evidence),作为归一化常数,保证后验分布 \( P(\theta|D) \) 积分或求和为 1。
\[ P(D) = \int P(D|\theta)P(\theta) d\theta \]
或
\[ P(D) = \sum_{\theta} P(D|\theta)P(\theta) \]
在实际应用中,计算 \( P(D) \) 的积分或求和可能很复杂,但通常在贝叶斯推断中,我们更关注后验分布的相对形状,而不是绝对值,因此常忽略 \( P(D) \),将贝叶斯定理写成比例形式 (Proportional Form):
\[ P(\theta|D) \propto P(D|\theta)P(\theta) \]
即 后验分布 ∝ 似然函数 × 先验分布。
贝叶斯统计的整个过程可以概括为:先验信念 + 数据 = 后验信念。我们从先验分布开始,通过似然函数引入数据信息,最终得到更新后的后验分布。后验分布包含了所有关于参数 \( \theta \) 的信息,我们可以基于后验分布进行各种统计推断,例如点估计、区间估计和假设检验。
10.2.2 贝叶斯估计 (Bayesian Estimation)
在贝叶斯估计中,我们不再像经典统计那样寻找参数的“点估计值”,而是得到参数的后验分布。后验分布本身就提供了关于参数 \( \theta \) 的完整信息,包括其可能的取值范围和概率分布。然而,在很多情况下,我们仍然需要从后验分布中提取一个“最佳”的点估计值。常用的贝叶斯点估计方法包括:
① 后验均值 (Posterior Mean)
后验均值是后验分布的期望值,计算公式为:
\[ \hat{\theta}_{\text{Bayes}} = E[\theta|D] = \int \theta P(\theta|D) d\theta \]
或
\[ \hat{\theta}_{\text{Bayes}} = E[\theta|D] = \sum \theta P(\theta|D) \]
后验均值可以看作是后验分布的中心位置,它在平方误差损失函数 (Squared Error Loss Function) 下是最优的贝叶斯估计。
② 后验中位数 (Posterior Median)
后验中位数是后验分布的中位数,即满足以下条件的 \( \hat{\theta}_{\text{med}} \):
\[ P(\theta \leq \hat{\theta}_{\text{med}}|D) = 0.5 \]
后验中位数在绝对误差损失函数 (Absolute Error Loss Function) 下是最优的贝叶斯估计。
③ 后验众数 (Posterior Mode)
后验众数是后验分布的峰值,即后验分布概率密度或概率质量最大的点:
\[ \hat{\theta}_{\text{mode}} = \arg \max_{\theta} P(\theta|D) \]
后验众数在0-1 损失函数 (0-1 Loss Function) 下是最优的贝叶斯估计,也称为最大后验估计 (Maximum A Posteriori Estimation, MAP)。当先验分布是均匀分布时,MAP 估计等价于极大似然估计 (MLE)。
除了点估计,贝叶斯统计还提供区间估计 (Interval Estimation),称为可信区间 (Credible Interval) 或后验概率区间 (Posterior Probability Interval)。可信区间描述了参数 \( \theta \) 以一定的概率落在的区间。例如,95% 可信区间是指参数 \( \theta \) 有 95% 的概率落在该区间内。可信区间的计算通常基于后验分布的累积分布函数 (Cumulative Distribution Function, CDF)。
与经典统计的置信区间 (Confidence Interval) 不同,可信区间直接描述了参数落在某个区间的概率,更符合人们对概率的直观理解。置信区间则是在重复抽样下,包含真参数值的频率。
10.2.3 贝叶斯假设检验 (Bayesian Hypothesis Testing)
在贝叶斯假设检验中,我们不再像经典统计那样计算 p 值 (p-value),而是直接比较不同假设的后验概率,或者计算贝叶斯因子 (Bayes Factor) 来评估不同假设的相对可能性。
假设我们有两个互斥的假设 \( H_0 \) 和 \( H_1 \),我们希望比较这两个假设在给定数据 \( D \) 下的可能性。在贝叶斯框架下,我们可以计算这两个假设的后验概率 \( P(H_0|D) \) 和 \( P(H_1|D) \)。根据贝叶斯定理:
\[ P(H_0|D) = \frac{P(D|H_0)P(H_0)}{P(D)} \]
\[ P(H_1|D) = \frac{P(D|H_1)P(H_1)}{P(D)} \]
其中,\( P(H_0) \) 和 \( P(H_1) \) 是假设 \( H_0 \) 和 \( H_1 \) 的先验概率,\( P(D|H_0) \) 和 \( P(D|H_1) \) 是在假设 \( H_0 \) 和 \( H_1 \) 下的似然函数,\( P(D) = P(D|H_0)P(H_0) + P(D|H_1)P(H_1) \) 是边缘似然。
我们可以通过比较后验概率 \( P(H_0|D) \) 和 \( P(H_1|D) \) 来判断哪个假设更受数据支持。如果 \( P(H_1|D) > P(H_0|D) \),则我们认为 \( H_1 \) 比 \( H_0 \) 更可能为真。
另一种常用的方法是计算贝叶斯因子 (Bayes Factor, BF),它是两个假设下边缘似然的比值:
\[ BF_{10} = \frac{P(D|H_1)}{P(D|H_0)} \]
贝叶斯因子 \( BF_{10} \) 表示在数据 \( D \) 下,假设 \( H_1 \) 相对于假设 \( H_0 \) 的支持程度。如果 \( BF_{10} > 1 \),则数据更支持 \( H_1 \);如果 \( BF_{10} < 1 \),则数据更支持 \( H_0 \)。通常,我们会根据贝叶斯因子的值来判断假设检验的结果,例如:
贝叶斯因子 \( BF_{10} \) | 对 \( H_1 \) 的支持程度 |
---|---|
1 - 3 | 弱支持 (Weak support) |
3 - 10 | 中等支持 (Moderate support) |
10 - 30 | 强支持 (Strong support) |
30 - 100 | 很强支持 (Very strong support) |
> 100 | 极端支持 (Extreme support) |
贝叶斯假设检验直接给出假设成立的概率,或者不同假设之间的相对可能性,结果解释更直观。与经典假设检验的 p 值不同,贝叶斯因子不依赖于重复抽样的概念,更符合贝叶斯统计的信念更新思想。
10.3 共轭先验分布 (Conjugate Prior Distributions)
在贝叶斯统计中,计算后验分布通常需要进行积分或求和运算,这在很多情况下可能非常复杂甚至无法解析求解。共轭先验分布 (Conjugate Prior Distributions) 的概念应运而生,它可以大大简化后验分布的计算。
如果对于给定的似然函数 \( P(D|\theta) \),存在一个先验分布族 \( \mathcal{F} \),使得对于族 \( \mathcal{F} \) 中的任何先验分布 \( P(\theta) \),通过贝叶斯定理得到的后验分布 \( P(\theta|D) \) 仍然属于族 \( \mathcal{F} \),则称 \( \mathcal{F} \) 为关于该似然函数的共轭先验分布族,族 \( \mathcal{F} \) 中的先验分布称为共轭先验分布。
使用共轭先验分布的好处是,我们可以得到解析形式 (Analytical Form) 的后验分布,避免复杂的数值计算。常见的共轭先验分布族包括:
① 二项分布 (Binomial Distribution) 的共轭先验:Beta 分布 (Beta Distribution)
如果观测数据 \( D \) 服从二项分布 \( \text{Binomial}(n, p) \),其中 \( p \) 是成功概率,我们希望估计参数 \( p \)。Beta 分布是二项分布参数 \( p \) 的共轭先验分布。
⚝ 似然函数:\( P(D|p) \propto p^{\sum x_i} (1-p)^{n - \sum x_i} \)
⚝ 先验分布:\( p \sim \text{Beta}(\alpha, \beta) \propto p^{\alpha-1} (1-p)^{\beta-1} \)
⚝ 后验分布:\( P(p|D) \propto P(D|p)P(p) \propto p^{\sum x_i + \alpha - 1} (1-p)^{n - \sum x_i + \beta - 1} \)
可以看到,后验分布仍然是 Beta 分布,参数更新为 \( \text{Beta}(\sum x_i + \alpha, n - \sum x_i + \beta) \)。
② 泊松分布 (Poisson Distribution) 的共轭先验:Gamma 分布 (Gamma Distribution)
如果观测数据 \( D \) 服从泊松分布 \( \text{Poisson}(\lambda) \),其中 \( \lambda \) 是平均发生率,我们希望估计参数 \( \lambda \)。Gamma 分布是泊松分布参数 \( \lambda \) 的共轭先验分布。
⚝ 似然函数:\( P(D|\lambda) \propto \lambda^{\sum x_i} e^{-n\lambda} \)
⚝ 先验分布:\( \lambda \sim \text{Gamma}(\alpha, \beta) \propto \lambda^{\alpha-1} e^{-\beta\lambda} \)
⚝ 后验分布:\( P(\lambda|D) \propto P(D|\lambda)P(\lambda) \propto \lambda^{\sum x_i + \alpha - 1} e^{-(n + \beta)\lambda} \)
后验分布仍然是 Gamma 分布,参数更新为 \( \text{Gamma}(\sum x_i + \alpha, n + \beta) \)。
③ 正态分布 (Normal Distribution) 均值的共轭先验:正态分布 (Normal Distribution)
如果观测数据 \( D \) 服从正态分布 \( \text{Normal}(\mu, \sigma^2) \),且方差 \( \sigma^2 \) 已知,我们希望估计均值 \( \mu \)。正态分布是正态分布均值 \( \mu \) 的共轭先验分布。
⚝ 似然函数:\( P(D|\mu) \propto e^{-\frac{1}{2\sigma^2} \sum (x_i - \mu)^2} \)
⚝ 先验分布:\( \mu \sim \text{Normal}(\mu_0, \tau_0^2) \propto e^{-\frac{1}{2\tau_0^2} (\mu - \mu_0)^2} \)
⚝ 后验分布:\( P(\mu|D) \propto P(D|\mu)P(\mu) \propto e^{-\frac{1}{2} [\frac{1}{\sigma^2} \sum (x_i - \mu)^2 + \frac{1}{\tau_0^2} (\mu - \mu_0)^2]} \)
后验分布仍然是正态分布,参数更新后的均值和方差可以通过公式计算得到。
共轭先验分布的存在大大简化了贝叶斯分析的计算,使得我们可以方便地得到后验分布的解析形式,并进行后续的贝叶斯推断。在实际应用中,当模型和先验分布选择合适时,共轭性可以显著提高计算效率。
10.4 贝叶斯统计的应用案例 (Application Cases of Bayesian Statistics)
贝叶斯统计在各个领域都有广泛的应用,以下列举几个典型的应用案例:
① 垃圾邮件过滤 (Spam Filtering) 📧
贝叶斯垃圾邮件过滤器是贝叶斯统计在实际应用中最成功的例子之一。它基于邮件内容 (例如关键词) 来判断邮件是否为垃圾邮件。
⚝ 先验概率:可以基于历史数据估计垃圾邮件的先验概率,例如,假设在所有邮件中,垃圾邮件的比例为 80%,正常邮件为 20%。
⚝ 似然函数:对于每个关键词,可以统计在垃圾邮件和正常邮件中出现的频率,作为似然函数。例如,关键词“免费 (free)” 在垃圾邮件中出现的频率远高于正常邮件。
⚝ 后验概率:当收到一封新邮件时,根据邮件中出现的关键词,利用贝叶斯定理计算该邮件是垃圾邮件的后验概率。如果后验概率超过某个阈值 (例如 0.9),则将邮件判定为垃圾邮件。
贝叶斯垃圾邮件过滤器可以不断学习和更新,随着用户标记垃圾邮件和正常邮件,过滤器可以自动调整关键词的似然度和垃圾邮件的后验概率,提高过滤准确率。
② 医学诊断 (Medical Diagnosis) 🩺
贝叶斯统计可以用于辅助医学诊断,根据患者的症状、体征和检查结果,判断患者患某种疾病的概率。
⚝ 先验概率:疾病的患病率可以作为先验概率。例如,某种罕见病的患病率可能很低。
⚝ 似然函数:对于每种症状或检查结果,可以估计在患病和未患病人群中出现的概率,作为似然函数。例如,发烧在流感患者中出现的概率较高,但在健康人群中出现的概率较低。
⚝ 后验概率:当患者出现一系列症状和检查结果时,利用贝叶斯定理计算患者患某种疾病的后验概率。医生可以根据后验概率和临床经验,做出诊断决策。
贝叶斯诊断模型可以整合多种信息,提供量化的疾病风险评估,辅助医生进行更准确的诊断。
③ 金融风险管理 (Financial Risk Management) 💰
贝叶斯统计在金融领域,尤其是在风险管理中得到广泛应用。例如,信用风险评估、市场风险预测等。
⚝ 先验分布:对于金融市场的波动性、资产收益率等参数,可以基于历史数据或专家意见设定先验分布。
⚝ 似然函数:根据金融模型 (例如 GARCH 模型、VaR 模型),建立似然函数,描述在给定参数下,市场数据出现的概率。
⚝ 后验分布:利用贝叶斯定理更新参数的后验分布,得到更准确的风险参数估计。基于后验分布,可以进行风险预测和决策。
贝叶斯方法可以更好地处理金融数据的不确定性和复杂性,提供更稳健的风险管理工具。
④ A/B 测试 (A/B Testing) 🧪
在互联网产品和营销领域,A/B 测试是一种常用的优化方法。贝叶斯统计可以用于 A/B 测试的结果分析。
⚝ 先验分布:对于不同方案的转化率、点击率等指标,可以设定先验分布,例如均匀分布或信息先验。
⚝ 似然函数:根据 A/B 测试的数据,建立似然函数,描述在给定参数下,观察到数据的概率。
⚝ 后验分布:利用贝叶斯定理更新参数的后验分布,比较不同方案的后验分布,判断哪个方案更优。贝叶斯方法可以直接计算方案 A 优于方案 B 的概率,提供更直观的决策依据。
贝叶斯 A/B 测试方法可以更有效地利用数据,更快地得出结论,并提供更丰富的决策信息。
⑤ 自然语言处理 (Natural Language Processing, NLP) 🗣️
贝叶斯统计在自然语言处理领域也有重要应用,例如文本分类、主题模型、机器翻译等。
⚝ 先验分布:在文本分类中,可以设定不同类别的先验概率。在主题模型中,可以设定主题分布的先验分布。
⚝ 似然函数:根据文本模型 (例如朴素贝叶斯模型、LDA 模型),建立似然函数,描述在给定参数下,观察到文本数据的概率。
⚝ 后验分布:利用贝叶斯定理更新参数的后验分布,进行文本分类、主题发现等任务。
贝叶斯方法可以处理自然语言的复杂性和不确定性,提高 NLP 模型的性能和鲁棒性。
总而言之,贝叶斯统计以其独特的思想和方法,在各个领域都展现出强大的应用潜力。随着计算技术的进步和贝叶斯方法的不断发展,相信贝叶斯统计将在未来发挥越来越重要的作用。
11. chapter 11: 多元统计分析简介 (Introduction to Multivariate Statistical Analysis)
11.1 多元数据的描述性统计 (Descriptive Statistics for Multivariate Data)
在单变量统计分析中,我们主要关注单个随机变量的性质和规律。然而,在现实世界的许多问题中,我们往往需要同时研究多个变量,这些变量之间可能存在复杂的关联关系。多元统计分析 (Multivariate Statistical Analysis) 就是研究多个相关随机变量的统计理论和方法。本节作为多元统计分析的入门,首先介绍如何对多元数据 (Multivariate Data) 进行描述性统计,为后续深入学习奠定基础。
11.1.1 均值向量与协方差矩阵 (Mean Vector and Covariance Matrix)
对于多元数据,最基本的描述性统计量是均值向量 (Mean Vector) 和 协方差矩阵 (Covariance Matrix)。 它们是单变量数据中均值和方差概念的自然推广。
假设我们有 \(p\) 个随机变量 \(X_1, X_2, \ldots, X_p\),构成一个随机向量 (Random Vector) \( \mathbf{X} = (X_1, X_2, \ldots, X_p)^T \)。 假设我们从总体中抽取了 \(n\) 个样本,每个样本都包含了这 \(p\) 个变量的观测值。 我们可以将第 \(i\) 个样本表示为 \( \mathbf{x}_i = (x_{i1}, x_{i2}, \ldots, x_{ip})^T \),其中 \(x_{ij}\) 表示第 \(i\) 个样本在第 \(j\) 个变量上的观测值。 整个数据集可以表示为一个 \(n \times p\) 的数据矩阵 \( \mathbf{X} \)。
① 均值向量 (Mean Vector): 均值向量 \( \boldsymbol{\mu} \) 是由每个变量的均值组成的列向量,用来描述多元数据的中心位置。对于随机向量 \( \mathbf{X} = (X_1, X_2, \ldots, X_p)^T \),其均值向量 \( \boldsymbol{\mu} \) 定义为:
\[ \boldsymbol{\mu} = E(\mathbf{X}) = \begin{pmatrix} E(X_1) \\ E(X_2) \\ \vdots \\ E(X_p) \end{pmatrix} = \begin{pmatrix} \mu_1 \\ \mu_2 \\ \vdots \\ \mu_p \end{pmatrix} \]
其中,\( \mu_j = E(X_j) \) 是第 \(j\) 个变量 \(X_j\) 的期望。
对于样本数据,样本均值向量 (Sample Mean Vector) \( \bar{\mathbf{x}} \) 是均值向量的估计,计算公式为:
\[ \bar{\mathbf{x}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{x}_i = \begin{pmatrix} \frac{1}{n} \sum_{i=1}^{n} x_{i1} \\ \frac{1}{n} \sum_{i=1}^{n} x_{i2} \\ \vdots \\ \frac{1}{n} \sum_{i=1}^{n} x_{ip} \end{pmatrix} = \begin{pmatrix} \bar{x}_1 \\ \bar{x}_2 \\ \vdots \\ \bar{x}_p \end{pmatrix} \]
其中,\( \bar{x}_j = \frac{1}{n} \sum_{i=1}^{n} x_{ij} \) 是第 \(j\) 个变量的样本均值。
② 协方差矩阵 (Covariance Matrix): 协方差矩阵 \( \boldsymbol{\Sigma} \) 描述了多元数据各变量之间的线性相关关系以及各自的变异程度。对于随机向量 \( \mathbf{X} = (X_1, X_2, \ldots, X_p)^T \),其协方差矩阵 \( \boldsymbol{\Sigma} \) 定义为:
\[ \boldsymbol{\Sigma} = Cov(\mathbf{X}) = E[(\mathbf{X} - \boldsymbol{\mu})(\mathbf{X} - \boldsymbol{\mu})^T] = \begin{pmatrix} Cov(X_1, X_1) & Cov(X_1, X_2) & \cdots & Cov(X_1, X_p) \\ Cov(X_2, X_1) & Cov(X_2, X_2) & \cdots & Cov(X_2, X_p) \\ \vdots & \vdots & \ddots & \vdots \\ Cov(X_p, X_1) & Cov(X_p, X_2) & \cdots & Cov(X_p, X_p) \end{pmatrix} \]
其中,\( Cov(X_i, X_j) = E[(X_i - \mu_i)(X_j - \mu_j)] \) 是变量 \(X_i\) 和 \(X_j\) 的协方差。 特别地,对角线元素 \( Cov(X_i, X_i) = Var(X_i) = \sigma_i^2 \) 是变量 \(X_i\) 的方差。
协方差矩阵 \( \boldsymbol{\Sigma} \) 是一个 \(p \times p\) 的对称矩阵。它具有以下性质:
▮▮▮▮ⓐ 对角线元素为各变量的方差,非对角线元素为变量之间的协方差。
▮▮▮▮ⓑ 对称性: \( Cov(X_i, X_j) = Cov(X_j, X_i) \),因此 \( \boldsymbol{\Sigma}^T = \boldsymbol{\Sigma} \)。
▮▮▮▮ⓒ 半正定性:对于任意 \(p\) 维向量 \( \mathbf{a} \),二次型 \( \mathbf{a}^T \boldsymbol{\Sigma} \mathbf{a} \ge 0 \)。
对于样本数据,样本协方差矩阵 (Sample Covariance Matrix) \( \mathbf{S} \) 是协方差矩阵的估计,常用的计算公式有两种形式,分别对应于分母为 \(n\) 和 \(n-1\)。 在数理统计中,为了保证估计的无偏性,通常使用分母为 \(n-1\) 的形式:
\[ \mathbf{S} = \frac{1}{n-1} \sum_{i=1}^{n} (\mathbf{x}_i - \bar{\mathbf{x}})(\mathbf{x}_i - \bar{\mathbf{x}})^T = \begin{pmatrix} s_{11} & s_{12} & \cdots & s_{1p} \\ s_{21} & s_{22} & \cdots & s_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ s_{p1} & s_{p2} & \cdots & s_{pp} \end{pmatrix} \]
其中,样本协方差 \( s_{jk} \) 计算公式为:
\[ s_{jk} = \frac{1}{n-1} \sum_{i=1}^{n} (x_{ij} - \bar{x}_j)(x_{ik} - \bar{x}_k) \]
特别地,样本方差 \( s_{jj} = s_j^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_{ij} - \bar{x}_j)^2 \) 是第 \(j\) 个变量的样本方差。
案例分析: 假设我们收集了 5 名学生的两门课程(数学和物理)的成绩数据:
\[ \begin{pmatrix} \text{学生} & \text{数学} & \text{物理} \\ 1 & 85 & 78 \\ 2 & 92 & 88 \\ 3 & 80 & 82 \\ 4 & 75 & 70 \\ 5 & 88 & 90 \end{pmatrix} \]
我们可以将数学成绩记为 \(X_1\),物理成绩记为 \(X_2\),则样本数据为:
\[ \mathbf{x}_1 = \begin{pmatrix} 85 \\ 78 \end{pmatrix}, \mathbf{x}_2 = \begin{pmatrix} 92 \\ 88 \end{pmatrix}, \mathbf{x}_3 = \begin{pmatrix} 80 \\ 82 \end{pmatrix}, \mathbf{x}_4 = \begin{pmatrix} 75 \\ 70 \end{pmatrix}, \mathbf{x}_5 = \begin{pmatrix} 88 \\ 90 \end{pmatrix} \]
首先计算样本均值向量:
\[ \bar{\mathbf{x}} = \begin{pmatrix} \bar{x}_1 \\ \bar{x}_2 \end{pmatrix} = \begin{pmatrix} \frac{85+92+80+75+88}{5} \\ \frac{78+88+82+70+90}{5} \end{pmatrix} = \begin{pmatrix} 84 \\ 81.6 \end{pmatrix} \]
然后计算样本协方差矩阵:
\[ \mathbf{S} = \begin{pmatrix} s_{11} & s_{12} \\ s_{21} & s_{22} \end{pmatrix} \]
其中,
\[ s_{11} = \frac{1}{5-1} \sum_{i=1}^{5} (x_{i1} - \bar{x}_1)^2 = \frac{1}{4} [(85-84)^2 + (92-84)^2 + (80-84)^2 + (75-84)^2 + (88-84)^2] = 41.5 \]
\[ s_{22} = \frac{1}{5-1} \sum_{i=1}^{5} (x_{i2} - \bar{x}_2)^2 = \frac{1}{4} [(78-81.6)^2 + (88-81.6)^2 + (82-81.6)^2 + (70-81.6)^2 + (90-81.6)^2] = 61.3 \]
\[ s_{12} = s_{21} = \frac{1}{5-1} \sum_{i=1}^{5} (x_{i1} - \bar{x}_1)(x_{i2} - \bar{x}_2) = \frac{1}{4} [(85-84)(78-81.6) + (92-84)(88-81.6) + (80-84)(82-81.6) + (75-84)(70-81.6) + (88-84)(90-81.6)] = 33.7 \]
因此,样本协方差矩阵为:
\[ \mathbf{S} = \begin{pmatrix} 41.5 & 33.7 \\ 33.7 & 61.3 \end{pmatrix} \]
样本均值向量 \( \bar{\mathbf{x}} = \begin{pmatrix} 84 \\ 81.6 \end{pmatrix} \) 表示这 5 名学生的数学平均成绩为 84 分,物理平均成绩为 81.6 分。样本协方差矩阵 \( \mathbf{S} \) 的对角线元素 \( s_{11} = 41.5 \) 和 \( s_{22} = 61.3 \) 分别表示数学和物理成绩的样本方差,非对角线元素 \( s_{12} = 33.7 \) 表示数学和物理成绩的样本协方差,为正值,说明这两门课程的成绩之间存在正相关关系。
11.1.2 相关矩阵 (Correlation Matrix)
协方差 (Covariance) 可以衡量两个变量之间线性相关的方向,但其数值大小会受到变量自身尺度的影响。为了消除尺度的影响,更清晰地描述变量之间线性相关的强度,我们引入相关系数 (Correlation Coefficient) 的概念。 对于两个随机变量 \(X_i\) 和 \(X_j\),其相关系数 \( \rho_{ij} \) 定义为:
\[ \rho_{ij} = Corr(X_i, X_j) = \frac{Cov(X_i, X_j)}{\sqrt{Var(X_i)Var(X_j)}} = \frac{\sigma_{ij}}{\sqrt{\sigma_{ii}\sigma_{jj}}} \]
相关系数 \( \rho_{ij} \) 的取值范围为 \([-1, 1]\)。
① \( \rho_{ij} > 0 \) 表示 \(X_i\) 和 \(X_j\) 正相关。
② \( \rho_{ij} < 0 \) 表示 \(X_i\) 和 \(X_j\) 负相关。
③ \( \rho_{ij} = 0 \) 表示 \(X_i\) 和 \(X_j\) 不线性相关(注意,不相关不代表独立)。
④ \( |\rho_{ij}| \) 越接近 1,线性相关性越强;越接近 0,线性相关性越弱。
⑤ \( \rho_{ii} = Corr(X_i, X_i) = 1 \)。
相关矩阵 (Correlation Matrix) \( \mathbf{P} \) 是由所有变量两两之间的相关系数组成的矩阵,用来全面描述多元数据各变量之间的线性相关关系。对于随机向量 \( \mathbf{X} = (X_1, X_2, \ldots, X_p)^T \),其相关矩阵 \( \mathbf{P} \) 定义为:
\[ \mathbf{P} = Corr(\mathbf{X}) = \begin{pmatrix} Corr(X_1, X_1) & Corr(X_1, X_2) & \cdots & Corr(X_1, X_p) \\ Corr(X_2, X_1) & Corr(X_2, X_2) & \cdots & Corr(X_2, X_p) \\ \vdots & \vdots & \ddots & \vdots \\ Corr(X_p, X_1) & Corr(X_p, X_2) & \cdots & Corr(X_p, X_p) \end{pmatrix} = \begin{pmatrix} \rho_{11} & \rho_{12} & \cdots & \rho_{1p} \\ \rho_{21} & \rho_{22} & \cdots & \rho_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \rho_{p1} & \rho_{p2} & \cdots & \rho_{pp} \end{pmatrix} \]
其中,\( \rho_{ij} = Corr(X_i, X_j) \)。 特别地,对角线元素 \( \rho_{ii} = 1 \)。
相关矩阵 \( \mathbf{P} \) 也是一个 \(p \times p\) 的对称矩阵,且对角线元素均为 1。
对于样本数据,样本相关系数 (Sample Correlation Coefficient) \( r_{ij} \) 是总体相关系数 \( \rho_{ij} \) 的估计,计算公式为:
\[ r_{ij} = \frac{s_{ij}}{\sqrt{s_{ii}s_{jj}}} = \frac{\sum_{k=1}^{n} (x_{ki} - \bar{x}_i)(x_{kj} - \bar{x}_j)}{\sqrt{\sum_{k=1}^{n} (x_{ki} - \bar{x}_i)^2 \sum_{k=1}^{n} (x_{kj} - \bar{x}_j)^2}} \]
样本相关矩阵 (Sample Correlation Matrix) \( \mathbf{R} \) 是相关矩阵的估计,由样本相关系数构成:
\[ \mathbf{R} = \begin{pmatrix} r_{11} & r_{12} & \cdots & r_{1p} \\ r_{21} & r_{22} & \cdots & r_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ r_{p1} & r_{p2} & \cdots & r_{pp} \end{pmatrix} \]
其中,\( r_{ij} \) 是变量 \(X_i\) 和 \(X_j\) 的样本相关系数,\( r_{ii} = 1 \)。
案例分析 (续): 对于上一节学生成绩的例子,我们已经计算得到样本协方差矩阵:
\[ \mathbf{S} = \begin{pmatrix} 41.5 & 33.7 \\ 33.7 & 61.3 \end{pmatrix} \]
样本方差分别为 \( s_{11} = 41.5 \) 和 \( s_{22} = 61.3 \)。 因此,样本标准差分别为 \( \sqrt{s_{11}} = \sqrt{41.5} \approx 6.44 \) 和 \( \sqrt{s_{22}} = \sqrt{61.3} \approx 7.83 \)。
样本相关系数为:
\[ r_{12} = r_{21} = \frac{s_{12}}{\sqrt{s_{11}s_{22}}} = \frac{33.7}{\sqrt{41.5 \times 61.3}} \approx 0.679 \]
样本相关矩阵为:
\[ \mathbf{R} = \begin{pmatrix} 1 & 0.679 \\ 0.679 & 1 \end{pmatrix} \]
样本相关系数 \( r_{12} \approx 0.679 \) 表明数学和物理成绩之间存在中等强度的正线性相关关系。相比于协方差,相关系数更直观地反映了变量之间线性相关的程度,且不受变量尺度的影响。
11.2 主成分分析 (Principal Component Analysis, PCA)
主成分分析 (Principal Component Analysis, PCA) 是一种常用的降维 (Dimension Reduction) 技术。当多元数据的变量之间存在相关性时,信息会有重叠。PCA 的目标是通过线性变换,将原始高维变量转换为一组线性不相关的主成分 (Principal Components),使得这些主成分尽可能多地保留原始数据的信息,从而达到降维的目的。
PCA 的基本思想是:
① 中心化 (Centering): 首先对原始数据进行中心化处理,使得每个变量的均值为 0。
② 寻找主成分方向 (Principal Component Directions): 寻找能够最大化数据投影方差的方向,这些方向就是主成分方向。第一个主成分方向是数据投影方差最大的方向,第二个主成分方向是与第一个主成分方向正交且数据投影方差次大的方向,以此类推。
③ 计算主成分 (Principal Components): 将原始数据投影到主成分方向上,得到主成分得分 (Principal Component Scores),即降维后的数据。
PCA 的步骤可以概括为:
① 数据标准化 (Data Standardization) (可选): 如果各变量的尺度差异较大,通常需要先对数据进行标准化处理,例如 Z-score 标准化 (Z-score Standardization),使得每个变量的均值为 0,标准差为 1。
② 计算协方差矩阵或相关矩阵 (Calculate Covariance Matrix or Correlation Matrix): 根据数据是否标准化,计算样本的协方差矩阵 \( \mathbf{S} \) 或相关矩阵 \( \mathbf{R} \)。 如果数据已经标准化,通常使用相关矩阵;否则,使用协方差矩阵。
③ 特征值分解 (Eigenvalue Decomposition): 对协方差矩阵或相关矩阵进行特征值分解,得到特征值 \( \lambda_1 \ge \lambda_2 \ge \cdots \ge \lambda_p \ge 0 \) 和对应的特征向量 \( \mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_p \)。
④ 选择主成分 (Select Principal Components): 根据特征值的大小,选择前 \(k\) 个最大的特征值对应的特征向量作为主成分方向。通常根据累计贡献率 (Cumulative Proportion of Variance) 来确定 \(k\) 的值。累计贡献率定义为前 \(k\) 个特征值之和占所有特征值之和的比例: \( \frac{\sum_{i=1}^{k} \lambda_i}{\sum_{i=1}^{p} \lambda_i} \)。 一般选择累计贡献率达到 85% 或 90% 以上的前 \(k\) 个主成分。
⑤ 计算主成分得分 (Calculate Principal Component Scores): 将原始数据投影到选定的 \(k\) 个主成分方向上,得到 \(n \times k\) 的主成分得分矩阵,实现降维。 第 \(j\) 个主成分 \(Y_j\) 可以表示为原始变量的线性组合: \( Y_j = \mathbf{v}_j^T \mathbf{X} = v_{j1}X_1 + v_{j2}X_2 + \cdots + v_{jp}X_p \)。
应用场景:
⚝ 数据降维 (Data Dimension Reduction): 降低数据维度,简化模型,提高计算效率。
⚝ 特征提取 (Feature Extraction): 提取数据的主要特征,用于后续分析,例如分类、聚类等。
⚝ 数据可视化 (Data Visualization): 将高维数据降维到二维或三维,方便可视化展示。
11.3 因子分析 (Factor Analysis)
因子分析 (Factor Analysis) 也是一种常用的降维技术,与 PCA 类似,但侧重点不同。因子分析假设观测变量之间存在共同的潜在因子 (Latent Factors),观测变量的变化是由这些潜在因子和特殊因子 (Specific Factors) 共同决定的。因子分析的目标是通过少数几个潜在因子来解释观测变量之间的相关关系。
因子分析的模型可以表示为:
\[ \mathbf{X} = \mathbf{\Lambda} \mathbf{F} + \mathbf{\epsilon} \]
其中,
⚝ \( \mathbf{X} = (X_1, X_2, \ldots, X_p)^T \) 是 \(p\) 维观测变量向量。
⚝ \( \mathbf{F} = (F_1, F_2, \ldots, F_m)^T \) 是 \(m\) 维共同因子 (Common Factors) 向量,\(m < p\)。 共同因子是潜在的、不可直接观测的变量,它们是观测变量之间相关性的共同来源。 通常假设共同因子之间不相关,且均值为 0,方差为 1。
⚝ \( \mathbf{\Lambda} \) 是 \(p \times m\) 的因子载荷矩阵 (Factor Loading Matrix)。 \( \lambda_{ij} \) 表示第 \(i\) 个观测变量在第 \(j\) 个共同因子上的载荷,反映了第 \(j\) 个共同因子对第 \(i\) 个观测变量的影响程度。
⚝ \( \mathbf{\epsilon} = (\epsilon_1, \epsilon_2, \ldots, \epsilon_p)^T \) 是 \(p\) 维特殊因子 (Specific Factors) 向量。 特殊因子是每个观测变量特有的因素,反映了观测变量不能被共同因子解释的部分。 通常假设特殊因子之间不相关,且与共同因子也不相关,均值为 0,方差为 \(Var(\epsilon_i) = \psi_i\)。
因子分析的主要步骤包括:
① 适用性检验 (Suitability Test): 检验数据是否适合进行因子分析。常用的方法包括 巴特利特球形检验 (Bartlett's Test of Sphericity) 和 KMO 检验 (Kaiser-Meyer-Olkin Test)。
② 因子提取 (Factor Extraction): 从观测变量中提取共同因子。常用的方法包括 主成分法 (Principal Component Method) 和 主轴因子法 (Principal Axis Factoring)。 主成分法实际上是对相关矩阵或协方差矩阵进行特征值分解,类似于 PCA。
③ 因子旋转 (Factor Rotation): 为了使因子更易于解释,通常需要对因子载荷矩阵进行旋转。常用的旋转方法包括 正交旋转 (Orthogonal Rotation) (例如 方差最大化旋转 (Varimax Rotation)) 和 斜交旋转 (Oblique Rotation) (例如 斜交最小二乘法 (Promax Rotation))。
④ 因子解释 (Factor Interpretation): 根据旋转后的因子载荷矩阵,解释每个共同因子的含义。 通常根据因子载荷的绝对值大小来判断观测变量与共同因子的关系。
⑤ 因子得分计算 (Factor Score Calculation) (可选): 如果需要,可以计算每个样本在共同因子上的得分,用于后续分析。
PCA vs. 因子分析:
▮▮▮▮ⓐ 目的不同: PCA 的目的是降维,找到尽可能保留原始数据信息的低维表示;因子分析的目的是发现潜在因子,解释观测变量之间的相关关系。
▮▮▮▮ⓑ 模型不同: PCA 是一种数据变换技术,没有明确的统计模型;因子分析基于统计模型,假设观测变量是由共同因子和特殊因子决定的。
▮▮▮▮ⓒ 因子性质不同: PCA 的主成分是观测变量的线性组合,是可观测的;因子分析的共同因子是潜在变量,不可直接观测,需要通过因子载荷来解释。
▮▮▮▮ⓓ 应用场景不同: PCA 更侧重于数据压缩和特征提取;因子分析更侧重于探索潜在结构和解释变量关系。
应用场景:
⚝ 市场调研 (Market Research): 分析消费者对产品属性的潜在偏好因子。
⚝ 心理学研究 (Psychological Research): 分析人格特质、智力结构等潜在心理因子。
⚝ 社会学研究 (Sociological Research): 分析社会经济地位、生活质量等潜在社会因子。
11.4 聚类分析 (Cluster Analysis)
聚类分析 (Cluster Analysis) 是一种无监督学习 (Unsupervised Learning) 方法,用于将数据集中的样本划分为若干个簇 (Cluster),使得同一簇内的样本彼此相似,不同簇之间的样本差异较大。聚类分析不需要预先标记的类别信息,而是根据样本自身的特征进行聚类。
聚类分析的关键要素包括:
① 特征选择 (Feature Selection): 选择合适的特征变量来描述样本。
② 相似性度量 (Similarity Measure): 定义样本之间相似性的度量方式。常用的相似性度量包括 距离 (Distance) (例如 欧氏距离 (Euclidean Distance)、曼哈顿距离 (Manhattan Distance)、马氏距离 (Mahalanobis Distance)) 和 相关系数 (Correlation Coefficient)。 距离越小,相似性越高;相关系数越大,相似性越高。
③ 聚类算法 (Clustering Algorithm): 选择合适的聚类算法进行聚类。常用的聚类算法包括:
▮▮▮▮ⓓ 划分聚类 (Partitioning Clustering): 将数据集划分为互不重叠的簇。 例如 K-均值聚类 (K-Means Clustering)、K-中心点聚类 (K-Medoids Clustering)。
▮▮▮▮ⓔ 层次聚类 (Hierarchical Clustering): 通过构建层次结构来聚类。 可以分为 凝聚型层次聚类 (Agglomerative Hierarchical Clustering) (自底向上) 和 分裂型层次聚类 (Divisive Hierarchical Clustering) (自顶向下)。
▮▮▮▮ⓕ 密度聚类 (Density-based Clustering): 基于样本密度进行聚类,可以发现任意形状的簇,对噪声不敏感。 例如 DBSCAN (Density-Based Spatial Clustering of Applications with Noise)、OPTICS (Ordering Points To Identify the Clustering Structure)。
▮▮▮▮ⓖ 模型聚类 (Model-based Clustering): 假设数据来自若干个概率分布的混合,通过估计模型参数进行聚类。 例如 高斯混合模型 (Gaussian Mixture Model, GMM)。
⑧ 簇评估 (Cluster Evaluation): 评估聚类结果的质量。常用的评估指标包括 轮廓系数 (Silhouette Coefficient)、戴维斯-博尔丁指数 (Davies-Bouldin Index)、邓恩指数 (Dunn Index) 等。
K-均值聚类 (K-Means Clustering) 是最常用的划分聚类算法之一,其步骤如下:
① 初始化 (Initialization): 随机选择 \(k\) 个样本作为初始簇中心 (Cluster Centroids)。
② 分配 (Assignment): 将每个样本分配到与其最近的簇中心所在的簇。 通常使用欧氏距离作为距离度量。
③ 更新 (Update): 重新计算每个簇的均值,将均值作为新的簇中心。
④ 迭代 (Iteration): 重复步骤 ② 和 ③,直到簇中心不再发生变化或达到最大迭代次数。
应用场景:
⚝ 客户细分 (Customer Segmentation): 将客户划分为不同的群体,以便进行精准营销。
⚝ 图像分割 (Image Segmentation): 将图像像素划分为不同的区域,用于图像识别和分析。
⚝ 生物信息学 (Bioinformatics): 对基因表达数据、蛋白质序列等进行聚类分析,发现生物学规律。
⚝ 社交网络分析 (Social Network Analysis): 将社交网络用户划分为不同的社区。
11.5 判别分析 (Discriminant Analysis)
判别分析 (Discriminant Analysis) 是一种监督学习 (Supervised Learning) 方法,用于对样本进行分类。与聚类分析不同,判别分析需要预先知道样本的类别信息,即训练数据 (Training Data) 已经标记了类别。判别分析的目标是根据训练数据学习一个判别函数 (Discriminant Function),使得能够将新的样本正确地划分到已知的类别中。
常用的判别分析方法包括:
① 线性判别分析 (Linear Discriminant Analysis, LDA): 假设各类别的协方差矩阵相同,寻找一个或多个判别向量 (Discriminant Vectors),使得样本在判别向量上的投影,类内方差尽可能小,类间方差尽可能大,从而实现分类。 LDA 是一种有效的降维和分类方法。
② 二次判别分析 (Quadratic Discriminant Analysis, QDA): 假设各类别的协方差矩阵不同,使用二次判别函数进行分类。 QDA 比 LDA 更灵活,但参数更多,需要更多的数据。
③ 距离判别 (Distance Discriminant): 基于距离度量进行判别。 例如 最近邻判别 (Nearest Neighbor Discriminant)、马氏距离判别 (Mahalanobis Distance Discriminant)。
④ Fisher 判别 (Fisher Discriminant): 与 LDA 的思想类似,寻找投影方向,使得类间离散度矩阵与类内离散度矩阵的比值最大化。
线性判别分析 (LDA) 的基本思想是:
① 计算类内散布矩阵 (Within-class Scatter Matrix) \( \mathbf{S}_W \) 和 类间散布矩阵 (Between-class Scatter Matrix) \( \mathbf{S}_B \)。
② 求解广义特征值问题 (Generalized Eigenvalue Problem): 求解 \( \mathbf{S}_B \mathbf{v} = \lambda \mathbf{S}_W \mathbf{v} \) 的特征值和特征向量。
③ 选择判别向量 (Select Discriminant Vectors): 选择前 \(k\) 个最大的特征值对应的特征向量作为判别向量。 通常 \(k \le C-1\),其中 \(C\) 是类别数。
④ 构建判别函数 (Construct Discriminant Function): 将样本投影到判别向量上,根据投影值进行分类。
应用场景:
⚝ 医学诊断 (Medical Diagnosis): 根据患者的症状和检查结果,判断患者患有哪种疾病。
⚝ 信用评分 (Credit Scoring): 根据客户的个人信息和交易记录,评估客户的信用等级。
⚝ 人脸识别 (Face Recognition): 根据人脸图像的特征,识别人的身份。
⚝ 文本分类 (Text Classification): 将文本划分为不同的类别,例如新闻分类、情感分析等。
本章简要介绍了多元统计分析的基本概念和常用方法,包括多元数据的描述性统计、主成分分析、因子分析、聚类分析和判别分析。这些方法是多元统计分析的基础,也是数据分析和机器学习领域的重要工具。后续章节将深入探讨这些方法的理论和应用。
12. chapter 12: 统计学习初步 (Introduction to Statistical Learning)
12.1 统计学习概述 (Overview of Statistical Learning)
统计学习 (Statistical Learning) 是一门利用数据构建预测模型和理解数据模式的学科。它融合了统计学、计算机科学和机器学习等领域的思想和方法,旨在从数据中提取有价值的信息,并用于预测、分类、聚类等任务。统计学习方法在现代数据分析和人工智能领域中扮演着至关重要的角色。
12.1.1 监督学习与无监督学习 (Supervised Learning and Unsupervised Learning)
统计学习方法根据学习任务的性质可以分为两大类:监督学习 (Supervised Learning) 和无监督学习 (Unsupervised Learning)。
① 监督学习 (Supervised Learning):
监督学习是指从带有标签 (label) 的数据中学习模型的学习方式。这里的“标签”指的是我们希望模型预测的目标变量。监督学习的目标是学习输入变量(特征,features)与输出变量(标签,labels)之间的映射关系,使得模型能够对新的、未标记的数据进行预测。
⚝ 定义:监督学习是从标记数据中学习模型,用于预测或分类新数据的统计学习方法。
⚝ 特点:
▮▮▮▮⚝ 训练数据包含输入特征和对应的输出标签。
▮▮▮▮⚝ 学习目标是建立输入到输出的映射关系。
▮▮▮▮⚝ 主要用于预测和分类任务。
⚝ 常见任务:
▮▮▮▮⚝ 分类 (Classification):预测数据属于哪个类别。例如,垃圾邮件检测、图像识别。
▮▮▮▮⚝ 回归 (Regression):预测连续数值型数据。例如,房价预测、股票价格预测。
⚝ 常用算法:
▮▮▮▮⚝ 线性回归 (Linear Regression)
▮▮▮▮⚝ 逻辑回归 (Logistic Regression)
▮▮▮▮⚝ 决策树 (Decision Tree)
▮▮▮▮⚝ 支持向量机 (Support Vector Machine, SVM)
▮▮▮▮⚝ 神经网络 (Neural Network)
▮▮▮▮⚝ 随机森林 (Random Forest)
② 无监督学习 (Unsupervised Learning):
无监督学习是指从无标签的数据中学习模型的学习方式。无监督学习的目标是发现数据中的潜在结构和模式,例如数据的聚类、降维和关联规则等。
⚝ 定义:无监督学习是从无标记数据中学习数据结构和模式的统计学习方法。
⚝ 特点:
▮▮▮▮⚝ 训练数据不包含输出标签,只有输入特征。
▮▮▮▮⚝ 学习目标是发现数据内部的结构和规律。
▮▮▮▮⚝ 主要用于数据探索、降维和聚类等任务。
⚝ 常见任务:
▮▮▮▮⚝ 聚类 (Clustering):将数据划分为若干个组(簇),使得组内数据相似度高,组间数据相似度低。例如,客户分群、文档主题分类。
▮▮▮▮⚝ 降维 (Dimensionality Reduction):减少数据的特征维度,同时保留数据的主要信息。例如,主成分分析 (Principal Component Analysis, PCA)。
▮▮▮▮⚝ 关联规则学习 (Association Rule Learning):发现数据中不同变量之间的关联关系。例如,购物篮分析。
⚝ 常用算法:
▮▮▮▮⚝ k-均值聚类 (k-Means Clustering)
▮▮▮▮⚝ 主成分分析 (Principal Component Analysis, PCA)
▮▮▮▮⚝ 层次聚类 (Hierarchical Clustering)
▮▮▮▮⚝ 关联规则挖掘算法 (Apriori, FP-Growth)
12.1.2 模型评估与选择 (Model Evaluation and Selection)
在统计学习中,模型评估 (Model Evaluation) 和模型选择 (Model Selection) 是至关重要的环节。我们需要评估模型的性能,并选择泛化能力 (generalization ability) 最好的模型。
① 模型评估 (Model Evaluation):
模型评估是指对已训练好的模型进行性能评估,以了解模型在未知数据上的表现。常用的评估指标取决于学习任务的类型。
⚝ 分类模型评估指标:
▮▮▮▮⚝ 准确率 (Accuracy):分类正确的样本数占总样本数的比例。
\[ Accuracy = \frac{TP + TN}{TP + TN + FP + FN} \]
其中,TP (True Positive) 为真阳性,TN (True Negative) 为真阴性,FP (False Positive) 为假阳性,FN (False Negative) 为假阴性。
▮▮▮▮⚝ 精确率 (Precision):预测为正例的样本中,真正例的比例。
\[ Precision = \frac{TP}{TP + FP} \]
▮▮▮▮⚝ 召回率 (Recall):真正例的样本中,被预测为正例的比例。
\[ Recall = \frac{TP}{TP + FN} \]
▮▮▮▮⚝ F1 值 (F1-score):精确率和召回率的调和平均值。
\[ F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall} \]
▮▮▮▮⚝ ROC 曲线 (Receiver Operating Characteristic curve) 与 AUC (Area Under Curve):ROC 曲线描述了在不同阈值下,真正例率 (True Positive Rate, TPR) 与假正例率 (False Positive Rate, FPR) 之间的关系。AUC 是 ROC 曲线下的面积,AUC 值越大,模型性能越好。
▮▮▮▮⚝ 混淆矩阵 (Confusion Matrix):用于展示分类模型预测结果的矩阵,可以直观地看到模型在各个类别上的预测情况。
⚝ 回归模型评估指标:
▮▮▮▮⚝ 均方误差 (Mean Squared Error, MSE):预测值与真实值之差的平方的平均值。
\[ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]
其中,\(y_i\) 为真实值,\(\hat{y}_i\) 为预测值,\(n\) 为样本数量。
▮▮▮▮⚝ 均方根误差 (Root Mean Squared Error, RMSE):均方误差的平方根。
\[ RMSE = \sqrt{MSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \]
▮▮▮▮⚝ 平均绝对误差 (Mean Absolute Error, MAE):预测值与真实值之差的绝对值的平均值。
\[ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| \]
▮▮▮▮⚝ \(R^2\) 决定系数 (R-squared):衡量模型拟合优度的指标,取值范围为 [0, 1],越接近 1 表示模型拟合效果越好。
\[ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} \]
其中,\(\bar{y}\) 为真实值的平均值。
② 模型选择 (Model Selection):
模型选择是指从多个候选模型中选择一个最佳模型的过程。为了避免模型在训练数据上表现良好,但在未知数据上表现差(过拟合,overfitting),我们需要使用一些模型选择方法。
⚝ 交叉验证 (Cross-Validation):
交叉验证是一种常用的模型选择方法,它将数据集划分为若干份(例如 k 份),轮流选择其中一份作为验证集 (validation set),其余份作为训练集 (training set) 进行模型训练和评估,最后取多次评估结果的平均值作为模型的最终性能指标。
▮▮▮▮⚝ k 折交叉验证 (k-fold Cross-Validation):将数据集分成 k 份,每次用 k-1 份训练模型,用剩下的一份验证模型,重复 k 次,取平均性能。常用的 k 值有 5 和 10。
▮▮▮▮⚝ 留一交叉验证 (Leave-One-Out Cross-Validation, LOOCV):k 折交叉验证的特殊情况,k 等于样本数量 n,即每次只留一个样本作为验证集,其余样本作为训练集。
⚝ 正则化 (Regularization):
正则化是一种通过在模型的目标函数中添加惩罚项来限制模型复杂度的技术,可以有效防止过拟合。
▮▮▮▮⚝ L1 正则化 (L1 Regularization) ( Lasso Regression ):在目标函数中添加模型参数的 L1 范数惩罚项,可以使模型参数稀疏化,有助于特征选择。
▮▮▮▮⚝ L2 正则化 (L2 Regularization) ( Ridge Regression ):在目标函数中添加模型参数的 L2 范数惩罚项,可以减小模型参数的值,提高模型的泛化能力。
⚝ 网格搜索与超参数调优 (Grid Search and Hyperparameter Tuning):
许多统计学习模型都有超参数 (hyperparameters) 需要设置。超参数不是通过模型训练学习得到的参数,而是在训练前需要人为设定的参数。网格搜索是一种常用的超参数调优方法,它将超参数的所有可能取值组合成一个网格,对网格中的每个点进行交叉验证,选择性能最佳的超参数组合。
12.2 常用统计学习方法简介 (Introduction to Common Statistical Learning Methods)
本节将简要介绍几种常用的统计学习方法,包括线性回归与逻辑回归、决策树与随机森林、以及支持向量机。
12.2.1 线性回归与逻辑回归 (Linear Regression and Logistic Regression)
① 线性回归 (Linear Regression):
线性回归是一种用于建立连续型因变量 (dependent variable) 与一个或多个自变量 (independent variables) 之间线性关系的监督学习方法。简单线性回归只有一个自变量,多元线性回归有多个自变量。
⚝ 模型形式:
简单线性回归模型:\(y = \beta_0 + \beta_1 x + \epsilon\)
多元线性回归模型:\(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_p x_p + \epsilon\)
其中,\(y\) 是因变量,\(x_1, x_2, ..., x_p\) 是自变量,\(\beta_0, \beta_1, ..., \beta_p\) 是回归系数,\(\epsilon\) 是误差项。
⚝ 参数估计:
通常使用最小二乘法 (Least Squares Method) 来估计回归系数,即最小化残差平方和 (Residual Sum of Squares, RSS)。
\[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_{i1} + ... + \beta_p x_{ip}))^2 \]
⚝ 应用场景:
房价预测、销售额预测、身高体重关系分析等。
② 逻辑回归 (Logistic Regression):
逻辑回归是一种用于解决二分类问题的监督学习方法。虽然名字中带有“回归”,但逻辑回归实际上是一种分类算法。它通过 sigmoid 函数将线性回归模型的输出映射到 (0, 1) 区间,表示样本属于正例的概率。
⚝ 模型形式:
\[ p(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_p x_p)}} \]
其中,\(p(y=1|x)\) 表示给定输入 \(x\) 时,样本属于正例 (y=1) 的概率。
⚝ 损失函数:
逻辑回归通常使用对数损失函数 (Log Loss) 或交叉熵损失函数 (Cross-Entropy Loss) 作为损失函数。
⚝ 参数估计:
通常使用梯度下降法 (Gradient Descent) 或其他优化算法来估计模型参数。
⚝ 应用场景:
垃圾邮件检测、疾病诊断、用户点击预测等。
12.2.2 决策树与随机森林 (Decision Trees and Random Forests)
① 决策树 (Decision Tree):
决策树是一种树形结构的分类和回归模型。决策树通过一系列的决策规则对数据进行划分,从根节点到叶子节点的路径构成了一个分类或回归规则。
⚝ 模型结构:
决策树由节点 (node) 和有向边 (directed edge) 组成。节点分为内部节点 (internal node) 和叶节点 (leaf node)。内部节点表示一个特征或属性的测试条件,叶节点表示一个类别或预测值。
⚝ 树的构建:
决策树的构建过程是一个递归选择最优特征,并根据特征对训练数据进行划分的过程。常用的特征选择准则包括信息增益 (Information Gain) (ID3 算法)、信息增益率 (Information Gain Ratio) (C4.5 算法) 和基尼指数 (Gini Index) (CART 算法)。
⚝ 优点:
▮▮▮▮⚝ 易于理解和解释。
▮▮▮▮⚝ 可以处理类别型和数值型数据。
▮▮▮▮⚝ 对缺失值不敏感。
⚝ 缺点:
▮▮▮▮⚝ 容易过拟合。
▮▮▮▮⚝ 对数据敏感,数据变化可能导致树结构发生较大变化。
② 随机森林 (Random Forest):
随机森林是一种集成学习 (ensemble learning) 方法,它通过构建多个决策树并集成它们的预测结果来提高模型的性能和稳定性。随机森林在构建每棵树时,会随机选择一部分特征和一部分样本。
⚝ 构建过程:
▮▮▮▮ⓐ 从原始训练集中随机有放回地抽取 n 个样本,构建一个新的训练集(自助采样法,bootstrap sampling)。
▮▮▮▮ⓑ 从所有特征中随机选择 k 个特征子集。
▮▮▮▮ⓒ 使用新的训练集和特征子集构建决策树。
▮▮▮▮ⓓ 重复步骤 a-c 构建多棵决策树(森林)。
▮▮▮▮ⓔ 对于分类问题,采用投票法 (voting) 决定最终类别;对于回归问题,采用平均法 (averaging) 决定最终预测值。
⚝ 优点:
▮▮▮▮⚝ 精度高,泛化能力强。
▮▮▮▮⚝ 不容易过拟合。
▮▮▮▮⚝ 可以处理高维数据。
▮▮▮▮⚝ 可以评估特征的重要性。
⚝ 缺点:
▮▮▮▮⚝ 模型可解释性较差,相对于单棵决策树而言。
▮▮▮▮⚝ 训练和预测速度相对较慢,特别是当树的数量很多时。
12.2.3 支持向量机 (Support Vector Machines, SVM)
支持向量机 (Support Vector Machine, SVM) 是一种强大的分类和回归模型。SVM 的基本思想是找到一个最优超平面 (hyperplane) 将不同类别的样本分开,并且使得两类样本距离超平面的间隔 (margin) 最大化。
⚝ 线性可分支持向量机 (Linear SVM for Linearly Separable Data):
对于线性可分的数据,SVM 旨在找到一个能够正确划分两类样本,并且间隔最大的超平面。
⚝ 线性支持向量机 (Linear SVM):
对于线性不可分的数据,可以通过引入松弛变量 (slack variables) 和惩罚参数 (penalty parameter) 来允许少量样本分类错误,从而找到一个“软间隔”超平面。
⚝ 核函数 (Kernel Function):
为了处理非线性可分的数据,SVM 引入核函数将输入空间映射到高维特征空间,使得样本在高维空间中变得线性可分。常用的核函数包括线性核 (Linear Kernel)、多项式核 (Polynomial Kernel)、高斯核 (Gaussian Kernel) (RBF 核,Radial Basis Function Kernel) 等。
⚝ 优点:
▮▮▮▮⚝ 在高维空间中有效。
▮▮▮▮⚝ 在样本量较小时,仍然有效。
▮▮▮▮⚝ 使用核函数可以处理非线性问题。
⚝ 缺点:
▮▮▮▮⚝ 对参数和核函数的选择敏感。
▮▮▮▮⚝ 训练时间较长,特别是对于大规模数据集。
▮▮▮▮⚝ 模型可解释性较差。
12.3 统计学习的应用案例 (Application Cases of Statistical Learning)
统计学习方法在各个领域都有广泛的应用,以下列举一些应用案例:
① 金融领域:
⚝ 信用评分 (Credit Scoring):使用逻辑回归、决策树等方法预测客户的信用风险,用于贷款审批和风险管理。
⚝ 股票价格预测 (Stock Price Prediction):使用时间序列分析、回归模型、神经网络等方法预测股票价格走势。
⚝ 欺诈检测 (Fraud Detection):使用分类算法检测信用卡欺诈、保险欺诈等。
② 医疗健康领域:
⚝ 疾病诊断 (Disease Diagnosis):使用分类算法根据患者的症状和检查结果辅助医生进行疾病诊断。
⚝ 药物研发 (Drug Discovery):使用统计模型和机器学习方法分析生物数据,加速药物研发过程。
⚝ 基因组学 (Genomics):使用聚类分析、降维方法分析基因表达数据,研究基因功能和疾病机制。
③ 互联网与电子商务领域:
⚝ 推荐系统 (Recommendation System):使用协同过滤、内容推荐、深度学习等方法为用户推荐商品、电影、音乐等。
⚝ 广告点击率预测 (Click-Through Rate Prediction, CTR Prediction):使用逻辑回归、梯度提升树 (Gradient Boosting Decision Tree, GBDT) 等方法预测广告的点击率,提高广告投放效果。
⚝ 用户行为分析 (User Behavior Analysis):使用聚类分析、关联规则学习等方法分析用户行为数据,了解用户偏好和行为模式。
④ 自然语言处理 (Natural Language Processing, NLP):
⚝ 文本分类 (Text Classification):使用支持向量机、朴素贝叶斯 (Naive Bayes)、深度学习等方法对文本进行分类,例如情感分析、新闻分类。
⚝ 机器翻译 (Machine Translation):使用序列到序列模型 (Sequence-to-Sequence Model)、Transformer 模型等进行机器翻译。
⚝ 信息抽取 (Information Extraction):从文本中抽取结构化信息,例如实体识别、关系抽取。
⑤ 图像处理与计算机视觉 (Image Processing and Computer Vision):
⚝ 图像分类 (Image Classification):使用卷积神经网络 (Convolutional Neural Network, CNN) 等方法对图像进行分类,例如图像识别、物体检测。
⚝ 目标检测 (Object Detection):在图像中检测和定位特定目标,例如人脸检测、车辆检测。
⚝ 图像分割 (Image Segmentation):将图像分割成不同的区域,例如语义分割、实例分割。
统计学习的应用领域还在不断扩展,随着数据量的增长和算法的进步,统计学习将在未来发挥越来越重要的作用。
13. chapter 13: 数理统计的应用领域 (Application Fields of Mathematical Statistics)
13.1 生物统计 (Biostatistics)
生物统计 (Biostatistics) 是数理统计在生物学、医学、公共卫生等生命科学领域的应用,旨在运用统计学的原理和方法来研究和解决生物医学领域的问题。生物统计学是连接统计学理论与生物医学实践的桥梁,对于推动生命科学研究、疾病预防控制和医疗卫生事业发展具有至关重要的作用。
生物统计学的应用非常广泛,主要包括以下几个方面:
① 临床试验 (Clinical Trials):临床试验是评估新药、新疗法或医疗干预措施有效性和安全性的关键环节。生物统计学在临床试验的各个阶段都发挥着核心作用,从试验设计、样本量估算、随机化分组、数据收集与管理,到统计分析和结果解释,都离不开生物统计学的支持。例如,在评估一种新药的疗效时,生物统计学家需要设计合理的试验方案,选择合适的统计方法来分析试验数据,以判断新药是否具有统计学意义上的疗效,并评估其安全性。
② 流行病学 (Epidemiology):流行病学是研究疾病在人群中分布规律及其影响因素的学科。生物统计学是流行病学研究的重要工具,用于描述疾病的流行特征、分析疾病的病因和危险因素、评价疾病的预防和控制措施的效果。例如,在研究某种疾病的危险因素时,流行病学家可以使用回归分析 (Regression Analysis)、生存分析 (Survival Analysis) 等统计方法,分析疾病与各种潜在危险因素之间的关系,从而为疾病的预防提供科学依据。
③ 遗传学与基因组学 (Genetics and Genomics):随着分子生物学和基因组学的发展,生物统计学在遗传学研究中扮演着越来越重要的角色。例如,在全基因组关联研究 (Genome-Wide Association Studies, GWAS) 中,生物统计学方法被用于分析大量的基因组数据,以寻找与疾病相关的基因变异。此外,生物统计学还被应用于基因表达分析、蛋白质组学 (Proteomics) 和代谢组学 (Metabolomics) 等领域,帮助研究人员理解基因和蛋白质的功能,以及它们在疾病发生发展中的作用。
④ 公共卫生 (Public Health):公共卫生关注人群的健康,旨在预防疾病、延长寿命和促进健康。生物统计学是公共卫生研究和实践的基础学科,为公共卫生决策提供科学依据。例如,在制定公共卫生政策时,需要利用生物统计学方法分析健康数据,评估不同干预措施的效果,从而选择最优的公共卫生策略。生物统计学还被广泛应用于疾病监测、健康风险评估、卫生服务评价等领域。
⑤ 医学影像学 (Medical Imaging):医学影像技术如X 射线、CT、MRI 等在疾病诊断和治疗中发挥着重要作用。生物统计学方法被应用于医学影像数据的分析和处理,例如图像分割、图像配准、图像特征提取和图像分类等,以提高影像诊断的准确性和效率。此外,生物统计学还被用于评估影像技术的临床应用价值。
案例分析:
案例 1: 某药厂开发了一种治疗高血压的新药,需要进行临床试验来评估其疗效。生物统计学家参与了试验设计,采用了随机、双盲、安慰剂对照的试验方案。试验中,患者被随机分为新药组和安慰剂组,并在一段时间后测量血压。生物统计学家使用 \(t\) 检验 (t-test) 或方差分析 (ANOVA) 等方法比较两组患者的血压下降幅度,结果显示新药组的血压下降幅度显著高于安慰剂组(\(p < 0.05\)),从而证明了新药的疗效。
案例 2: 为了研究吸烟与肺癌的关系,流行病学家进行了一项病例对照研究。研究者招募了一组肺癌患者(病例组)和一组非肺癌患者(对照组),并收集了他们的吸烟史等信息。通过逻辑回归分析 (Logistic Regression Analysis),研究者发现吸烟者患肺癌的风险显著高于非吸烟者(优势比 (Odds Ratio) = 5.2,95% 置信区间 (Confidence Interval) 为 3.8-7.1),表明吸烟是肺癌的重要危险因素。
参考文献:
⚝ Rosner, B. (2015). Fundamentals of biostatistics. Cengage Learning.
⚝ Daniel, W. W., & Cross, C. L. (2018). Biostatistics: a foundation for analysis in the health sciences. John Wiley & Sons.
⚝ Pagano, M., & Gauvreau, K. (2018). Principles of biostatistics. CRC press.
13.2 经济统计 (Econometrics)
经济统计 (Econometrics) 是数理统计在经济学领域的应用,旨在运用统计学和数学方法来定量分析经济现象,检验经济理论,预测经济发展趋势,为经济决策提供科学依据。经济统计学是经济学研究的重要工具,对于理解经济运行规律、制定经济政策和进行经济预测具有关键作用。
经济统计学的应用领域非常广泛,主要包括以下几个方面:
① 计量经济模型构建与估计 (Econometric Model Building and Estimation):经济统计学的核心任务之一是构建和估计计量经济模型 (Econometric Models)。计量经济模型是用数学方程来描述经济变量之间关系的统计模型。例如,线性回归模型 (Linear Regression Model) 常被用于分析消费、投资、生产等经济变量之间的关系。经济统计学提供了多种模型估计方法,如普通最小二乘法 (Ordinary Least Squares, OLS)、广义最小二乘法 (Generalized Least Squares, GLS)、极大似然估计法 (Maximum Likelihood Estimation, MLE) 等,用于从经济数据中估计模型参数。
② 经济预测 (Economic Forecasting):经济预测是经济统计学的重要应用领域。通过建立合适的计量经济模型,并利用历史经济数据,可以预测未来的经济发展趋势。常用的经济预测方法包括时间序列分析 (Time Series Analysis)、回归预测 (Regression Forecasting)、VAR 模型 (Vector Autoregression Model) 等。经济预测结果可以为政府、企业和个人提供决策参考。
③ 政策评估 (Policy Evaluation):经济统计学被广泛应用于经济政策的评估。例如,为了评估某项经济政策的效果,可以使用因果推断 (Causal Inference) 方法,如双重差分法 (Difference-in-Differences, DID)、工具变量法 (Instrumental Variables, IV)、倾向得分匹配法 (Propensity Score Matching, PSM) 等,来分析政策实施前后经济指标的变化,从而判断政策是否达到了预期目标。
④ 市场分析 (Market Analysis):经济统计学在市场分析中也发挥着重要作用。例如,可以使用需求弹性分析 (Demand Elasticity Analysis) 来研究商品价格变化对需求量的影响;可以使用消费者行为分析 (Consumer Behavior Analysis) 来了解消费者的偏好和购买行为;可以使用市场结构分析 (Market Structure Analysis) 来研究市场竞争程度和企业行为。
⑤ 金融计量学 (Financial Econometrics):金融计量学是经济统计学在金融领域的应用,主要研究金融市场的运行规律、资产定价、风险管理等问题。常用的金融计量学方法包括时间序列模型 (Time Series Models) 如ARMA 模型 (Autoregressive Moving Average Model)、GARCH 模型 (Generalized Autoregressive Conditional Heteroskedasticity Model),以及风险价值 (Value at Risk, VaR) 模型、期望损失 (Expected Shortfall, ES) 模型等。
案例分析:
案例 1: 为了研究教育水平对工资收入的影响,经济学家使用线性回归模型进行分析。模型设定为:
\[ \ln(\text{工资}) = \beta_0 + \beta_1 \times \text{教育年限} + \beta_2 \times \text{工作经验} + \epsilon \]
其中,\(\ln(\text{工资})\) 是工资的自然对数,\(\text{教育年限}\) 是受教育年限,\(\text{工作经验}\) 是工作年限,\(\epsilon\) 是误差项。利用截面数据 (Cross-sectional Data) 进行回归分析,结果显示 \(\beta_1\) 的估计值显著为正,表明教育水平越高,工资收入越高。
案例 2: 为了预测未来一年的GDP增长率,经济学家可以使用时间序列模型,如 ARIMA 模型。基于过去20年的GDP增长率数据,建立 ARIMA 模型并进行参数估计。利用模型进行预测,可以得到未来一年GDP增长率的预测值和预测区间,为政府制定经济发展目标提供参考。
参考文献:
⚝ Wooldridge, J. M. (2016). Introductory econometrics: a modern approach. Cengage learning.
⚝ Stock, J. H., & Watson, M. W. (2018). Introduction to econometrics. Pearson Education.
⚝ Greene, W. H. (2018). Econometric analysis. Pearson Education.
13.3 工程统计 (Engineering Statistics)
工程统计 (Engineering Statistics) 是数理统计在工程技术领域的应用,旨在运用统计学的原理和方法来解决工程设计、生产制造、质量控制、可靠性分析等问题。工程统计学是现代工程管理和质量管理的重要组成部分,对于提高工程质量、降低生产成本、增强产品可靠性具有重要意义。
工程统计学的应用领域非常广泛,主要包括以下几个方面:
① 质量控制 (Quality Control):质量控制是工程统计学最经典的应用领域之一。统计质量控制 (Statistical Quality Control, SQC) 方法,如控制图 (Control Chart)、抽样检验 (Sampling Inspection)、过程能力分析 (Process Capability Analysis) 等,被广泛应用于生产过程的质量监控和改进。控制图可以实时监控生产过程的质量波动,及时发现异常情况并采取纠正措施;抽样检验用于对批量产品进行质量检验,判断是否合格;过程能力分析用于评估生产过程的质量水平,为过程改进提供依据。
② 可靠性工程 (Reliability Engineering):可靠性工程是研究产品或系统在规定条件下和规定时间内完成规定功能的概率的学科。工程统计学是可靠性工程的重要工具,用于可靠性建模、可靠性分析、可靠性试验和可靠性评估。常用的可靠性模型包括指数分布模型 (Exponential Distribution Model)、威布尔分布模型 (Weibull Distribution Model)、对数正态分布模型 (Lognormal Distribution Model) 等。可靠性分析方法如故障树分析 (Fault Tree Analysis, FTA)、事件树分析 (Event Tree Analysis, ETA) 等,用于识别系统失效模式和评估系统可靠性。
③ 试验设计 (Design of Experiments, DOE):试验设计是工程统计学的重要分支,旨在通过合理安排试验方案,有效地获取试验数据,并从中提取有用的信息。试验设计方法如析因设计 (Factorial Design)、响应面方法 (Response Surface Methodology, RSM)、田口方法 (Taguchi Methods) 等,被广泛应用于产品设计、工艺优化、参数优化等领域。试验设计可以显著减少试验次数,提高试验效率,降低试验成本。
④ 过程优化 (Process Optimization):过程优化是指通过调整工艺参数,使生产过程达到最优状态,如提高产品质量、降低生产成本、提高生产效率等。工程统计学方法如响应面方法、进化算法 (Evolutionary Algorithm) 等,被应用于过程建模和优化。响应面方法通过建立响应变量与工艺参数之间的数学模型,寻找最优工艺参数组合;进化算法通过模拟生物进化过程,搜索最优解。
⑤ 公差设计 (Tolerance Design):公差设计是指在产品设计阶段,合理地确定零部件的尺寸公差和装配公差,以保证产品的功能和质量,并降低生产成本。工程统计学方法如统计公差分析 (Statistical Tolerance Analysis)、蒙特卡洛模拟 (Monte Carlo Simulation) 等,被应用于公差设计。统计公差分析利用统计学原理,分析公差累积效应对产品质量的影响;蒙特卡洛模拟通过随机抽样,模拟产品装配过程,评估产品性能分布。
案例分析:
案例 1: 某电子元件生产企业为了控制产品电阻值的质量,引入了控制图技术。企业建立了均值控制图 ( \(\bar{X}\)-chart) 和极差控制图 (R-chart),定期抽取样本测量电阻值,并将样本均值和极差绘制在控制图上。通过观察控制图,企业及时发现了生产过程中的异常波动,并采取措施调整设备参数,使电阻值稳定在目标范围内,提高了产品质量。
案例 2: 某汽车制造商为了提高汽车发动机的可靠性,进行了可靠性试验。试验中,将一批发动机进行加速寿命试验 (Accelerated Life Testing),记录发动机的失效时间。利用威布尔分布模型对失效数据进行分析,估计出发动机的平均寿命 (Mean Time To Failure, MTTF) 和可靠性函数,为发动机的设计改进和维护保养提供了依据。
参考文献:
⚝ Montgomery, D. C. (2017). Statistical quality control: a modern introduction. John Wiley & Sons.
⚝ O'Connor, P. D. T., & Kleyner, A. (2011). Practical reliability engineering. John Wiley & Sons.
⚝ Myers, R. H., Montgomery, D. C., & Anderson-Cook, C. M. (2016). Response surface methodology: process and product optimization using designed experiments. John Wiley & Sons.
13.4 社会统计 (Social Statistics)
社会统计 (Social Statistics) 是数理统计在社会科学领域的应用,旨在运用统计学的原理和方法来研究和分析社会现象,揭示社会规律,为社会政策制定和社会管理提供科学依据。社会统计学是社会学、政治学、人口学、教育学、心理学等社会科学的重要研究方法,对于理解社会运行机制、解决社会问题和促进社会发展具有重要作用。
社会统计学的应用领域非常广泛,主要包括以下几个方面:
① 社会调查与抽样 (Social Survey and Sampling):社会调查是社会统计学常用的数据收集方法。为了了解社会公众的意见、态度和行为,需要进行大规模的社会调查。抽样技术 (Sampling Techniques) 是社会调查的关键环节,用于从总体中抽取具有代表性的样本。常用的抽样方法包括简单随机抽样 (Simple Random Sampling)、分层抽样 (Stratified Sampling)、整群抽样 (Cluster Sampling) 等。合理的抽样设计可以保证样本的代表性,提高调查结果的准确性。
② 人口统计 (Demography):人口统计是研究人口数量、结构、分布和变动规律的学科。社会统计学是人口统计学的基础方法,用于人口数据的收集、整理、分析和预测。人口普查 (Census)、人口抽样调查 (Population Sample Survey)、户籍登记 (Household Registration) 等是人口数据的主要来源。人口统计指标如出生率 (Birth Rate)、死亡率 (Death Rate)、人口增长率 (Population Growth Rate)、平均预期寿命 (Life Expectancy) 等,是描述人口状况和发展趋势的重要指标。
③ 社会分层与流动 (Social Stratification and Mobility):社会分层是指社会成员在社会资源和社会地位上的不平等分布。社会流动是指社会成员在不同社会阶层之间的移动。社会统计学方法被用于研究社会分层结构、社会流动模式和社会不平等问题。例如,可以使用基尼系数 (Gini Coefficient) 来衡量收入分配的公平程度;可以使用回归分析来研究教育、职业、家庭背景等因素对社会地位的影响;可以使用马尔可夫链模型 (Markov Chain Model) 来分析社会流动的模式。
④ 社会态度与行为研究 (Social Attitude and Behavior Research):社会态度与行为研究是社会统计学的重要应用领域。通过问卷调查 (Questionnaire Survey)、访谈 (Interview)、实验 (Experiment) 等方法收集数据,利用统计分析方法,研究社会公众对各种社会问题的态度和行为。例如,可以使用因子分析 (Factor Analysis) 来分析社会态度的结构;可以使用回归分析来研究态度与行为之间的关系;可以使用实验设计来检验某种社会干预措施的效果。
⑤ 社会网络分析 (Social Network Analysis, SNA):社会网络分析是研究社会关系结构的定量方法。社会网络是由节点(个体、组织等)和节点之间的连边(关系)构成的网络。社会统计学方法被用于分析社会网络的结构特征、网络中的信息传播、影响力扩散等问题。常用的社会网络分析指标包括度中心性 (Degree Centrality)、中间中心性 (Betweenness Centrality)、接近中心性 (Closeness Centrality)、特征向量中心性 (Eigenvector Centrality) 等。
案例分析:
案例 1: 某研究机构为了了解公众对环境保护的看法,进行了一项全国性的社会调查。研究者采用了分层抽样方法,根据地区、城乡、年龄、性别等因素进行分层,并在每一层内随机抽取样本。通过问卷调查,收集了公众对环境保护的态度、行为和意愿等信息。利用描述统计 (Descriptive Statistics) 和推断统计 (Inferential Statistics) 方法,分析了公众环境保护意识的总体水平和不同群体之间的差异,为政府制定环境保护政策提供了参考。
案例 2: 为了研究教育对收入的影响,社会学家使用回归分析方法,分析了大规模的社会调查数据。模型设定为:
\[ \text{收入} = \beta_0 + \beta_1 \times \text{教育年限} + \beta_2 \times \text{年龄} + \beta_3 \times \text{性别} + \epsilon \]
其中,\(\text{收入}\) 是个人年收入,\(\text{教育年限}\) 是受教育年限,\(\text{年龄}\) 是年龄,\(\text{性别}\) 是性别(虚拟变量),\(\epsilon\) 是误差项。回归分析结果显示,\(\beta_1\) 的估计值显著为正,表明教育年限越长,收入水平越高,教育对收入具有显著的正向影响。
参考文献:
⚝ Babbie, E. R. (2016). The practice of social research. Cengage learning.
⚝ de Vaus, D. A. (2014). Surveys in social research. Routledge.
⚝ Wasserman, S., & Faust, K. (1994). Social network analysis: Methods and applications. Cambridge university press.
13.5 其他应用领域 (Other Application Fields)
除了上述几个主要应用领域外,数理统计还在许多其他领域有着广泛的应用,例如:
① 精算学 (Actuarial Science):精算学是运用数学、统计学和经济学原理,研究风险管理和保险精算的学科。数理统计是精算学的基础工具,用于风险建模、保险费率厘定、准备金评估、偿付能力分析等。常用的统计模型包括生存模型 (Survival Models)、损失分布模型 (Loss Distribution Models)、时间序列模型等。
② 环境统计 (Environmental Statistics):环境统计是数理统计在环境科学领域的应用,旨在运用统计学的原理和方法来研究和解决环境问题,如环境监测、环境评价、环境风险评估、环境污染控制等。常用的统计方法包括空间统计 (Spatial Statistics)、时间序列分析、回归分析、多元统计分析等。
③ 市场营销 (Marketing):市场营销领域广泛应用数理统计方法进行市场调研、消费者行为分析、产品定位、广告效果评估、销售预测等。常用的统计方法包括聚类分析 (Cluster Analysis)、判别分析 (Discriminant Analysis)、回归分析、时间序列分析、实验设计等。
④ 金融工程 (Financial Engineering):金融工程是运用数学、统计学和计算机技术,设计、开发和应用创新型金融产品和金融工具的学科。数理统计是金融工程的重要基础,用于金融风险管理、资产定价、投资组合优化、衍生品定价等。常用的统计模型包括时间序列模型、随机过程模型 (Stochastic Process Models)、Copula 模型等。
⑤ 人工智能 (Artificial Intelligence, AI) 与机器学习 (Machine Learning, ML):人工智能和机器学习是当前科技领域的热点。数理统计是机器学习的理论基础,许多机器学习算法,如线性回归、逻辑回归、支持向量机、决策树、神经网络等,都建立在统计学原理之上。统计学习理论 (Statistical Learning Theory) 为机器学习算法的性能分析和模型选择提供了理论框架。
⑥ 运筹学 (Operations Research, OR) 与管理科学 (Management Science, MS):运筹学和管理科学是运用数学、统计学和计算机科学的方法,解决管理决策问题的学科。数理统计是运筹学和管理科学的重要工具,用于排队论 (Queueing Theory)、库存管理 (Inventory Management)、优化理论 (Optimization Theory)、决策分析 (Decision Analysis)、模拟 (Simulation) 等。
⑦ 数据科学 (Data Science):数据科学是一门交叉学科,融合了统计学、计算机科学、信息科学等多个领域的知识,旨在从海量数据中提取有价值的信息和知识。数理统计是数据科学的核心基础,为数据分析、数据挖掘、机器学习等提供理论和方法支撑。
总结:
数理统计作为一门基础而重要的学科,其应用领域几乎渗透到科学研究和社会生活的方方面面。从传统的生物医学、经济金融、工程技术和社会科学领域,到新兴的人工智能、数据科学等领域,数理统计都发挥着不可替代的作用。随着数据时代的到来和科学技术的不断发展,数理统计的应用前景将更加广阔,其重要性也将日益凸显。掌握数理统计的基本理论和方法,对于从事科学研究和实际工作的人员来说,都具有重要的意义和价值。
14. chapter 14: 总结与展望 (Summary and Outlook)
14.1 数理统计的核心思想回顾 (Review of Core Ideas of Mathematical Statistics)
数理统计学作为一门应用数学学科,其核心思想贯穿于从数据收集到结论推断的整个过程。回顾本书所涵盖的内容,我们可以将数理统计的核心思想归纳为以下几个关键方面:
14.1.1 概率模型与随机性 (Probability Models and Randomness)
数理统计的基石是概率论。我们利用概率模型来描述和解释现实世界中的随机现象。
① 随机变量 (Random Variable):数理统计研究的核心对象是随机变量,它将随机事件的数量化描述变为可能。无论是离散型随机变量还是连续型随机变量,都为我们构建现实问题的数学模型提供了工具。
② 概率分布 (Probability Distribution):概率分布是描述随机变量行为的关键。通过各种概率分布,如正态分布 (Normal Distribution)、泊松分布 (Poisson Distribution)、二项分布 (Binomial Distribution) 等,我们能够理解随机变量取值的可能性及其规律性。
③ 随机抽样 (Random Sampling):为了从总体 (Population) 中获取信息,我们依赖于随机抽样技术。随机抽样保证了样本 (Sample) 的代表性,是统计推断的基础。简单随机抽样 (Simple Random Sampling)、分层抽样 (Stratified Sampling) 和整群抽样 (Cluster Sampling) 等方法各有特点,适用于不同的场景。
14.1.2 统计推断:从样本到总体 (Statistical Inference: From Sample to Population)
数理统计的主要目标是从有限的样本数据中推断关于总体的信息。统计推断主要包括参数估计 (Parameter Estimation) 和假设检验 (Hypothesis Testing) 两大方面。
① 参数估计 (Parameter Estimation):参数估计旨在利用样本数据估计总体参数 (Population Parameter)。
⚝ 点估计 (Point Estimation):提供总体参数的一个最佳猜测值,常用的方法包括矩估计法 (Method of Moments) 和极大似然估计法 (Maximum Likelihood Estimation)。
⚝ 区间估计 (Interval Estimation):提供总体参数的一个可能取值范围,即置信区间 (Confidence Interval),它能反映估计的精度和可靠性。
② 假设检验 (Hypothesis Testing):假设检验用于检验关于总体参数的假设是否成立。
⚝ 原假设 (Null Hypothesis) 与备择假设 (Alternative Hypothesis):构建相互对立的假设,通过样本数据判断支持哪个假设。
⚝ 显著性水平 (Significance Level) 与 p 值 (p-value):设定显著性水平 \(\alpha\) 作为判断标准,通过计算 p 值来评估拒绝原假设的证据强度。
⚝ 两类错误 (Type I Error and Type II Error):理解假设检验中可能出现的两类错误,并努力控制犯错的概率。
14.1.3 模型构建与模型评估 (Model Building and Model Evaluation)
数理统计不仅仅是方法的应用,更重要的是模型的构建和评估。
① 模型选择 (Model Selection):根据研究问题和数据特点,选择合适的统计模型,例如线性回归模型 (Linear Regression Model)、方差分析模型 (ANOVA Model) 等。
② 模型参数估计 (Model Parameter Estimation):利用样本数据估计模型中的未知参数,例如最小二乘法 (Least Squares Method) 在回归分析中的应用。
③ 模型检验与诊断 (Model Testing and Diagnosis):评估模型的拟合效果和适用性,例如回归模型的显著性检验 (Significance Test of the Model) 和残差分析 (Residual Analysis)。
14.1.4 统计思维与批判性思维 (Statistical Thinking and Critical Thinking)
学习数理统计不仅仅是掌握统计方法,更重要的是培养统计思维和批判性思维。
① 数据意识 (Data Awareness):认识到数据的重要性,理解数据的来源、质量和局限性。
② 变异性思维 (Thinking about Variability):理解和分析数据中的变异性,认识到随机性是客观存在的。
③ 证据推理 (Evidence-based Reasoning):基于数据证据进行推理和决策,避免主观臆断。
④ 批判性评估 (Critical Evaluation):能够批判性地评估统计分析的结果,理解统计结论的适用范围和局限性。
总而言之,数理统计的核心思想在于利用概率模型描述随机现象,通过随机抽样获取样本数据,运用统计推断方法从样本推断总体,并构建和评估统计模型以解决实际问题。同时,培养统计思维和批判性思维是学习数理统计的最终目标,这将使我们能够更好地理解和分析周围的世界。
14.2 数理统计的未来发展趋势 (Future Development Trends of Mathematical Statistics)
随着数据科学和人工智能技术的飞速发展,数理统计学正面临着前所未有的机遇和挑战。未来的数理统计将呈现出以下几个重要的发展趋势:
14.2.1 大数据统计 (Big Data Statistics)
大数据时代带来了海量、高维、复杂的数据,传统的统计方法在处理这些数据时面临诸多挑战。
① 高维数据分析 (High-dimensional Data Analysis):如何有效地分析变量维度远高于样本量的高维数据,成为一个重要的研究方向。例如,在高维回归、高维分类、高维降维等方面,需要发展新的理论和方法。
② 复杂数据类型 (Complex Data Types):现实世界的数据类型越来越复杂,包括图像数据、文本数据、网络数据、时间序列数据等。如何针对这些复杂数据类型发展新的统计模型和方法,是一个重要的研究方向。
③ 计算统计 (Computational Statistics):大数据分析需要强大的计算能力。计算统计学的发展,例如蒙特卡洛方法 (Monte Carlo Methods)、马尔可夫链蒙特卡洛 (Markov Chain Monte Carlo, MCMC) 方法、并行计算 (Parallel Computing) 等,为大数据统计分析提供了有力的工具。
14.2.2 统计机器学习 (Statistical Machine Learning)
统计机器学习是统计学与计算机科学的交叉领域,它强调从数据中学习模型,并利用模型进行预测和决策。
① 因果推断 (Causal Inference):传统的机器学习方法主要关注预测,而统计机器学习更加关注因果推断,即探究变量之间的因果关系。因果推断在科学研究、政策制定等领域具有重要的应用价值。
② 可解释性机器学习 (Explainable Machine Learning, XML):随着机器学习模型的复杂性不断提高,模型的可解释性变得越来越重要。如何提高机器学习模型的可解释性,使其结果能够被人类理解和信任,是一个重要的研究方向。
③ 在线学习与自适应学习 (Online Learning and Adaptive Learning):现实世界的数据往往是动态变化的,需要发展在线学习和自适应学习方法,使模型能够不断地从新数据中学习和更新。
14.2.3 贝叶斯统计的复兴 (Resurgence of Bayesian Statistics)
贝叶斯统计 (Bayesian Statistics) 强调利用先验信息 (Prior Information) 和似然函数 (Likelihood Function) 来更新对参数的认识,得到后验分布 (Posterior Distribution)。
① 贝叶斯非参数方法 (Bayesian Nonparametric Methods):传统的贝叶斯方法通常需要假设参数的先验分布具有特定的形式,而贝叶斯非参数方法则可以更加灵活地处理先验信息不确定的情况。
② 层次贝叶斯模型 (Hierarchical Bayesian Models):层次贝叶斯模型可以处理复杂的数据结构,例如多层数据、面板数据等,并在生物统计、社会科学等领域得到广泛应用。
③ 贝叶斯计算方法 (Bayesian Computational Methods):随着计算能力的提高,贝叶斯计算方法,例如 MCMC 方法,得到了广泛应用,使得复杂的贝叶斯模型可以被有效地估计和推断。
14.2.4 统计与人工智能的融合 (Integration of Statistics and Artificial Intelligence)
数理统计与人工智能 (Artificial Intelligence, AI) 正在加速融合,相互促进,共同发展。
① 统计基础的AI (Statistics-grounded AI):人工智能的发展离不开统计学的理论基础。统计学为人工智能提供了概率模型、统计推断、模型评估等重要工具。
② AI驱动的统计 (AI-driven Statistics):人工智能技术,例如深度学习 (Deep Learning),也可以用于改进统计方法,例如自动化模型选择、高效的计算方法等。
③ 人机协同的统计分析 (Human-in-the-loop Statistical Analysis):未来的统计分析将更加强调人机协同,利用人工智能技术辅助统计学家进行数据分析和模型构建,提高统计分析的效率和质量。
总而言之,数理统计的未来发展趋势是更加注重处理大数据、复杂数据,更加强调统计机器学习和因果推断,贝叶斯统计将迎来复兴,并与人工智能深度融合。这些发展趋势将推动数理统计学在科学研究、工程技术、经济管理等领域发挥更加重要的作用。
14.3 进一步学习建议 (Suggestions for Further Learning)
数理统计是一门博大精深的学科,本书只是对其基础知识进行了介绍。为了更深入地学习和应用数理统计,以下是一些进一步学习的建议:
14.3.1 深入学习经典数理统计理论 (In-depth Study of Classical Mathematical Statistics Theory)
① 扎实的基础知识 (Solid Foundation):回顾和巩固概率论、微积分、线性代数等数学基础知识,这些是深入学习数理统计的基石。
② 经典教材研读 (Reading Classic Textbooks):选择经典的数理统计教材,例如 Mathematical Statistics and Data Analysis by John A. Rice, Probability and Statistical Inference by Robert V. Hogg, Elliot A. Tanis, and Dale L. Zimmerman, All of Statistics: A Concise Course in Statistical Inference by Larry Wasserman 等,进行系统学习。
③ 习题练习与案例分析 (Exercises and Case Studies):通过大量的习题练习和案例分析,加深对理论知识的理解和应用能力。
14.3.2 拓展学习现代统计方法 (Expanding Learning of Modern Statistical Methods)
① 统计计算与软件 (Statistical Computing and Software):学习使用统计软件,例如 R, Python (with libraries like NumPy, SciPy, Pandas, Statsmodels, Scikit-learn), SAS, SPSS 等,掌握数据处理、统计分析和模型构建的技能。
② 统计机器学习 (Statistical Machine Learning):学习统计机器学习的基本理论和方法,例如支持向量机 (Support Vector Machines, SVM)、决策树 (Decision Trees)、随机森林 (Random Forests)、神经网络 (Neural Networks) 等,了解其在数据分析和预测中的应用。
③ 贝叶斯统计 (Bayesian Statistics):深入学习贝叶斯统计的理论和方法,掌握先验分布、后验分布、贝叶斯估计、贝叶斯假设检验等核心概念,了解 MCMC 等贝叶斯计算方法。
④ 因果推断 (Causal Inference):学习因果推断的基本理论和方法,例如潜在结果框架 (Potential Outcomes Framework)、工具变量法 (Instrumental Variables Method)、双重差分法 (Difference-in-Differences) 等,了解其在社会科学、经济学等领域的应用。
14.3.3 关注统计学前沿发展 (Following the Frontier Development of Statistics)
① 学术期刊与会议 (Academic Journals and Conferences):关注统计学领域的顶级学术期刊,例如 Annals of Statistics, Journal of the American Statistical Association, Biometrika 等,以及重要的国际学术会议,例如 Joint Statistical Meetings (JSM), International Conference on Machine Learning (ICML), Neural Information Processing Systems (NeurIPS) 等,了解最新的研究进展和发展趋势。
② 在线资源与社区 (Online Resources and Communities):利用在线学习平台,例如 Coursera, edX, Udacity 等,学习最新的统计学课程和技术。参与统计学相关的在线社区和论坛,例如 Stack Overflow, Cross Validated 等,与其他学习者和专家交流学习心得和经验。
③ 交叉学科学习 (Interdisciplinary Learning):将数理统计与具体应用领域相结合,例如生物统计学 (Biostatistics)、经济计量学 (Econometrics)、金融统计学 (Financial Statistics)、社会统计学 (Social Statistics) 等,深入了解统计方法在不同领域的应用和发展。
通过持续的学习和实践,不断拓展知识面,提升技能水平,相信读者能够在数理统计的道路上越走越远,取得更大的成就。数理统计的世界充满挑战,也充满机遇,希望本书能够成为您探索这个精彩世界的起点。