034 《心理统计学:原理、方法与应用 (Psychological Statistics: Principles, Methods, and Applications)》
🌟🌟🌟本文案由Gemini 2.0 Flash Thinking Experimental 01-21创作,用来辅助学习知识。🌟🌟🌟
书籍大纲
▮▮▮▮ 1. chapter 1: 心理统计学导论 (Introduction to Psychological Statistics)
▮▮▮▮▮▮▮ 1.1 心理统计学的定义与作用 (Definition and Role of Psychological Statistics)
▮▮▮▮▮▮▮ 1.2 心理统计学的历史发展 (Historical Development of Psychological Statistics)
▮▮▮▮▮▮▮ 1.3 心理统计学在心理学研究中的应用 (Applications of Psychological Statistics in Psychological Research)
▮▮▮▮▮▮▮ 1.4 心理统计学的基本概念 (Basic Concepts of Psychological Statistics)
▮▮▮▮▮▮▮▮▮▮▮ 1.4.1 总体与样本 (Population and Sample)
▮▮▮▮▮▮▮▮▮▮▮ 1.4.2 变量与测量尺度 (Variables and Scales of Measurement)
▮▮▮▮▮▮▮▮▮▮▮ 1.4.3 统计量与参数 (Statistics and Parameters)
▮▮▮▮ 2. chapter 2: 描述统计学 (Descriptive Statistics)
▮▮▮▮▮▮▮ 2.1 数据的收集与整理 (Data Collection and Organization)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.1 数据的类型 (Types of Data)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.2 数据的编码与录入 (Data Coding and Entry)
▮▮▮▮▮▮▮ 2.2 数据的图表展示 (Graphical Representation of Data)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.1 频数分布表 (Frequency Distribution Table)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.2 直方图 (Histogram)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.3 条形图 (Bar Chart)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.4 饼图 (Pie Chart)
▮▮▮▮▮▮▮ 2.3 集中趋势的度量 (Measures of Central Tendency)
▮▮▮▮▮▮▮▮▮▮▮ 2.3.1 均值 (Mean)
▮▮▮▮▮▮▮▮▮▮▮ 2.3.2 中位数 (Median)
▮▮▮▮▮▮▮▮▮▮▮ 2.3.3 众数 (Mode)
▮▮▮▮▮▮▮ 2.4 离散程度的度量 (Measures of Dispersion)
▮▮▮▮▮▮▮▮▮▮▮ 2.4.1 全距 (Range)
▮▮▮▮▮▮▮▮▮▮▮ 2.4.2 方差 (Variance)
▮▮▮▮▮▮▮▮▮▮▮ 2.4.3 标准差 (Standard Deviation)
▮▮▮▮▮▮▮ 2.5 分布的形状 (Shape of Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 2.5.1 偏态 (Skewness)
▮▮▮▮▮▮▮▮▮▮▮ 2.5.2 峰态 (Kurtosis)
▮▮▮▮ 3. chapter 3: 推论统计学基础 (Fundamentals of Inferential Statistics)
▮▮▮▮▮▮▮ 3.1 概率论基础 (Basics of Probability Theory)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.1 概率的概念 (Concept of Probability)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.2 概率的类型 (Types of Probability)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.3 概率的运算规则 (Rules of Probability)
▮▮▮▮▮▮▮ 3.2 抽样分布 (Sampling Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.1 抽样误差 (Sampling Error)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.2 中心极限定理 (Central Limit Theorem)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.3 均值抽样分布 (Sampling Distribution of the Mean)
▮▮▮▮▮▮▮ 3.3 参数估计 (Parameter Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 3.3.1 点估计 (Point Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 3.3.2 区间估计 (Interval Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 3.3.3 置信区间 (Confidence Interval)
▮▮▮▮ 4. chapter 4: 假设检验 (Hypothesis Testing)
▮▮▮▮▮▮▮ 4.1 假设检验的基本原理 (Basic Principles of Hypothesis Testing)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.1 零假设与备择假设 (Null Hypothesis and Alternative Hypothesis)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.2 显著性水平 (Significance Level)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.3 Ⅰ型错误与Ⅱ型错误 (Type I Error and Type II Error)
▮▮▮▮▮▮▮ 4.2 单样本假设检验 (One-Sample Hypothesis Testing)
▮▮▮▮▮▮▮▮▮▮▮ 4.2.1 单样本z检验 (One-Sample z-test)
▮▮▮▮▮▮▮▮▮▮▮ 4.2.2 单样本t检验 (One-Sample t-test)
▮▮▮▮▮▮▮ 4.3 双样本假设检验 (Two-Sample Hypothesis Testing)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.1 独立样本t检验 (Independent Samples t-test)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.2 配对样本t检验 (Paired Samples t-test)
▮▮▮▮ 5. chapter 5: 方差分析 (Analysis of Variance, ANOVA)
▮▮▮▮▮▮▮ 5.1 方差分析的基本原理 (Basic Principles of ANOVA)
▮▮▮▮▮▮▮▮▮▮▮ 5.1.1 方差分解 (Variance Decomposition)
▮▮▮▮▮▮▮▮▮▮▮ 5.1.2 F 统计量 (F Statistic)
▮▮▮▮▮▮▮ 5.2 单因素方差分析 (One-Way ANOVA)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.1 事后检验 (Post-hoc Tests)
▮▮▮▮▮▮▮ 5.3 双因素方差分析 (Two-Way ANOVA)
▮▮▮▮▮▮▮▮▮▮▮ 5.3.1 主效应与交互效应 (Main Effects and Interaction Effects)
▮▮▮▮▮▮▮ 5.4 重复测量方差分析 (Repeated Measures ANOVA)
▮▮▮▮ 6. chapter 6: 相关与回归分析 (Correlation and Regression Analysis)
▮▮▮▮▮▮▮ 6.1 相关分析 (Correlation Analysis)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.1 皮尔逊相关系数 (Pearson Correlation Coefficient)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.2 斯皮尔曼等级相关系数 (Spearman Rank Correlation Coefficient)
▮▮▮▮▮▮▮ 6.2 简单线性回归 (Simple Linear Regression)
▮▮▮▮▮▮▮▮▮▮▮ 6.2.1 回归方程 (Regression Equation)
▮▮▮▮▮▮▮▮▮▮▮ 6.2.2 决定系数 (Coefficient of Determination)
▮▮▮▮▮▮▮ 6.3 多元线性回归 (Multiple Linear Regression)
▮▮▮▮▮▮▮▮▮▮▮ 6.3.1 回归系数的解释 (Interpretation of Regression Coefficients)
▮▮▮▮▮▮▮▮▮▮▮ 6.3.2 模型拟合与检验 (Model Fitting and Testing)
▮▮▮▮ 7. chapter 7: 非参数统计方法 (Non-parametric Statistical Methods)
▮▮▮▮▮▮▮ 7.1 非参数统计概述 (Overview of Non-parametric Statistics)
▮▮▮▮▮▮▮▮▮▮▮ 7.1.1 参数检验与非参数检验的适用条件 (Conditions for Parametric and Non-parametric Tests)
▮▮▮▮▮▮▮ 7.2 卡方检验 (Chi-Square Test)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.1 拟合优度检验 (Goodness-of-fit Test)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.2 独立性检验 (Test of Independence)
▮▮▮▮▮▮▮ 7.3 秩和检验 (Rank Sum Test)
▮▮▮▮▮▮▮▮▮▮▮ 7.3.1 曼-惠特尼U检验 (Mann-Whitney U Test)
▮▮▮▮▮▮▮▮▮▮▮ 7.3.2 威尔coxon符号秩检验 (Wilcoxon Signed-Rank Test)
▮▮▮▮▮▮▮ 7.4 克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test)
▮▮▮▮ 8. chapter 8: 效应量与统计功效 (Effect Size and Statistical Power)
▮▮▮▮▮▮▮ 8.1 效应量的概念与重要性 (Concept and Importance of Effect Size)
▮▮▮▮▮▮▮▮▮▮▮ 8.1.1 常见效应量指标 (Common Effect Size Indices)
▮▮▮▮▮▮▮ 8.2 统计功效分析 (Statistical Power Analysis)
▮▮▮▮▮▮▮▮▮▮▮ 8.2.1 功效、样本量、效应量与显著性水平的关系 (Relationship between Power, Sample Size, Effect Size, and Significance Level)
▮▮▮▮▮▮▮▮▮▮▮ 8.2.2 事前功效分析与事后功效分析 (A Priori Power Analysis and Post-hoc Power Analysis)
▮▮▮▮ 9. chapter 9: 元分析 (Meta-Analysis)
▮▮▮▮▮▮▮ 9.1 元分析概述 (Overview of Meta-Analysis)
▮▮▮▮▮▮▮▮▮▮▮ 9.1.1 元分析的目的与步骤 (Purpose and Steps of Meta-Analysis)
▮▮▮▮▮▮▮ 9.2 效应量整合方法 (Methods for Effect Size Aggregation)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.1 固定效应模型 (Fixed-Effect Model)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.2 随机效应模型 (Random-Effects Model)
▮▮▮▮▮▮▮ 9.3 发表偏倚与敏感性分析 (Publication Bias and Sensitivity Analysis)
▮▮▮▮ 10. chapter 10: 心理统计学伦理与最佳实践 (Ethics and Best Practices in Psychological Statistics)
▮▮▮▮▮▮▮ 10.1 数据的诚信与伦理 (Data Integrity and Ethics)
▮▮▮▮▮▮▮▮▮▮▮ 10.1.1 数据造假与篡改 (Data Fabrication and Falsification)
▮▮▮▮▮▮▮▮▮▮▮ 10.1.2 知情同意与数据保密 (Informed Consent and Data Confidentiality)
▮▮▮▮▮▮▮ 10.2 统计报告规范 (Statistical Reporting Standards)
▮▮▮▮▮▮▮▮▮▮▮ 10.2.1 APA 格式 (APA Format)
▮▮▮▮▮▮▮▮▮▮▮ 10.2.2 透明度和可重复性 (Transparency and Reproducibility)
▮▮▮▮ 11. chapter 11: 参考文献 (References)
▮▮▮▮▮▮▮ 11.1 经典著作 (Classic Works)
▮▮▮▮▮▮▮ 11.2 近期研究 (Recent Studies)
▮▮▮▮▮▮▮ 11.3 网络资源 (Online Resources)
1. chapter 1: 心理统计学导论 (Introduction to Psychological Statistics)
1.1 心理统计学的定义与作用 (Definition and Role of Psychological Statistics)
心理统计学 (Psychological Statistics) 是一门应用统计学 (Statistics) 的原理和方法,来处理、分析和解释心理学研究中数据的学科。它不仅仅是数学在心理学领域的简单应用,更是连接心理学理论与实证研究的桥梁。心理统计学旨在帮助研究者从收集到的数据中提取有意义的信息,从而验证假设、发现规律、并最终深化我们对人类行为和心理过程的理解。
心理统计学的核心作用体现在以下几个方面:
① 描述数据 (Describing Data):心理统计学提供了一系列方法,用于有效地组织、概括和呈现从心理学研究中获得的数据。例如,通过计算平均数 (mean)、中位数 (median)、标准差 (standard deviation) 等描述性统计量,我们可以简洁明了地了解数据的基本特征和分布情况。📊
② 推论结论 (Drawing Conclusions):心理学研究通常基于样本 (sample) 数据来推断总体 (population) 的特征。推论统计学 (Inferential Statistics) 的方法,如假设检验 (hypothesis testing) 和置信区间 (confidence interval) 估计,使我们能够评估样本结果在多大程度上可以推广到总体,从而做出科学的推论。 🎯
③ 检验理论 (Testing Theories):心理学理论的验证离不开实证数据的支持。心理统计学为检验理论假设提供了严谨的工具。通过统计检验,我们可以判断观察到的数据是否与理论预测相符,从而评估理论的有效性和适用范围。 🧪
④ 预测行为 (Predicting Behavior):心理统计学,特别是回归分析 (regression analysis) 等方法,可以帮助我们理解不同变量之间的关系,并基于这些关系预测个体的行为或心理状态。这在心理咨询、教育评估、人力资源管理等应用领域具有重要意义。 🔮
⑤ 促进沟通 (Facilitating Communication):心理统计学提供了一套通用的语言和符号系统,使得心理学研究者能够清晰、准确地交流研究结果。标准化的统计报告格式和术语,确保了研究成果的可理解性和可比性,促进了学术界的交流与合作。 🗣️
总而言之,心理统计学是心理学研究不可或缺的工具。它不仅帮助我们理解和解释数据,更重要的是,它提升了心理学研究的科学性和严谨性,推动了心理学知识的积累和发展。
1.2 心理统计学的历史发展 (Historical Development of Psychological Statistics)
心理统计学的历史发展与统计学和心理学两个学科的演进紧密相连。从早期的萌芽到现代的繁荣,心理统计学经历了漫长而曲折的道路。
① 早期萌芽 (Early Stages):19世纪中叶,随着实验心理学的兴起,心理学家开始尝试将定量方法引入心理学研究。早期的统计方法主要借鉴于生物学、天文学和社会统计学。
⚝ 高尔顿 (Francis Galton):被誉为“心理统计学之父”,高尔顿在遗传和智力研究中率先应用统计方法,如相关 (correlation) 和回归 (regression) 的概念。他的工作为心理统计学的建立奠定了基础。 👴
⚝ 皮尔逊 (Karl Pearson):皮尔逊进一步发展了相关分析,提出了皮尔逊相关系数 (Pearson correlation coefficient),并创立了著名的统计学期刊 Biometrika,推动了统计学在生物学和心理学领域的应用。 🧔
② 经典时期 (Classical Period):20世纪初,统计学理论的快速发展为心理统计学提供了更强大的工具。
⚝ 斯皮尔曼 (Charles Spearman):斯皮尔曼提出了因素分析 (factor analysis),这是一种用于分析变量之间潜在结构的重要统计方法,对智力理论和人格理论的发展产生了深远影响。 👨💼
⚝ 费希尔 (Ronald A. Fisher):费希尔是现代统计学的奠基人之一,他发展了方差分析 (ANOVA)、实验设计 (experimental design) 和最大似然估计 (maximum likelihood estimation) 等重要方法,极大地丰富了心理统计学的工具箱。 👨🔬
⚝ 内曼 (Jerzy Neyman) 和皮尔逊 (Egon Pearson):他们共同提出了假设检验的内曼-皮尔逊框架 (Neyman-Pearson framework),完善了假设检验的理论基础,为心理学研究提供了严谨的统计推断方法。 🧑🏫
③ 发展与普及时期 (Development and Popularization Period):20世纪中后期,随着计算机技术的普及和统计软件的开发,心理统计学方法得到了广泛应用。
⚝ 统计软件的出现:SPSS, SAS, R 等统计软件的出现,极大地降低了统计分析的门槛,使得心理学研究者能够更便捷地应用复杂的统计方法。 💻
⚝ 元分析 (Meta-analysis) 的兴起:元分析方法的发展,使得研究者能够系统地整合多个研究结果,提高研究结论的可靠性和普适性。 📚
⚝ 贝叶斯统计 (Bayesian statistics) 的复兴:随着计算能力的提升,贝叶斯统计方法在心理学研究中逐渐受到重视,为心理学研究提供了新的视角和方法。 💡
④ 现代心理统计学 (Modern Psychological Statistics):进入21世纪,心理统计学继续朝着更加精细化、模型化和应用化的方向发展。
⚝ 高级统计模型:结构方程模型 (structural equation modeling, SEM)、多层模型 (multilevel modeling)、潜变量模型 (latent variable modeling) 等高级统计模型被广泛应用于处理复杂的心理学数据。 📈
⚝ 大数据与计算心理统计学:大数据时代的到来,为心理统计学带来了新的挑战和机遇。计算心理统计学 (computational psychological statistics) 成为新的发展方向,关注如何利用计算机科学和统计学方法处理和分析大规模心理学数据。 ⚙️
⚝ 开放科学与可重复性:心理学界越来越重视研究的可重复性 (reproducibility) 和开放科学 (open science)。心理统计学在提高研究透明度、规范研究报告、促进研究结果的可重复性方面发挥着关键作用。 🔑
心理统计学的历史发展是一个不断完善和创新的过程。从最初的简单统计描述到现代复杂统计模型的应用,心理统计学始终伴随着心理学研究的进步,并为其提供强有力的支撑。
1.3 心理统计学在心理学研究中的应用 (Applications of Psychological Statistics in Psychological Research)
心理统计学是心理学研究的基石,其应用渗透到心理学研究的各个领域和环节。从研究设计、数据收集、数据分析到结果解释和报告,心理统计学都发挥着至关重要的作用。
① 研究设计 (Research Design):心理统计学的原理指导研究设计,确保研究能够有效地回答研究问题。
⚝ 样本量估计 (Sample Size Estimation):在研究开始前,需要根据效应量 (effect size)、显著性水平 (significance level) 和统计功效 (statistical power) 等因素,合理估计所需的样本量,以保证研究结果的可靠性。 📏
⚝ 实验设计类型选择:不同的研究问题和研究目的需要采用不同的实验设计,如完全随机设计 (completely randomized design)、随机区组设计 (randomized block design)、重复测量设计 (repeated measures design) 等。心理统计学知识帮助研究者选择最合适的设计方案。 🧪
⚝ 控制变量 (Control Variables):为了排除混淆变量 (confounding variables) 的干扰,研究设计需要考虑如何有效地控制无关变量。统计方法如协方差分析 (ANCOVA) 可以用于统计控制。 🎛️
② 数据收集 (Data Collection):心理统计学指导数据收集过程,保证数据的质量和有效性。
⚝ 测量工具的选择与评估:心理统计学方法,如信度分析 (reliability analysis) 和效度分析 (validity analysis),用于评估测量工具的质量,确保收集到的数据能够准确反映研究变量。 🧰
⚝ 抽样方法 (Sampling Methods):不同的抽样方法,如简单随机抽样 (simple random sampling)、分层抽样 (stratified sampling)、整群抽样 (cluster sampling) 等,会影响样本的代表性和研究结果的推广性。心理统计学指导研究者选择合适的抽样方法。 🧑🤝🧑
⚝ 数据质量控制:在数据收集过程中,需要采取措施监控数据质量,如处理缺失值 (missing values)、异常值 (outliers) 等。 🧹
③ 数据分析 (Data Analysis):数据分析是心理统计学应用的核心环节。
⚝ 描述统计 (Descriptive Statistics):运用描述统计方法,如频数分布 (frequency distribution)、集中趋势 (central tendency) 和离散程度 (dispersion) 的度量,概括和描述数据的基本特征。 📊
⚝ 推论统计 (Inferential Statistics):运用推论统计方法,如假设检验 (hypothesis testing)、参数估计 (parameter estimation) 和回归分析 (regression analysis),从样本数据推断总体特征,检验研究假设。 🎯
⚝ 高级统计模型:根据研究问题的复杂性和数据的特点,选择合适的高级统计模型,如方差分析 (ANOVA)、相关分析 (correlation analysis)、回归分析 (regression analysis)、结构方程模型 (SEM)、多层模型 (multilevel modeling) 等,进行深入的数据分析。 📈
④ 结果解释与报告 (Result Interpretation and Reporting):心理统计学指导研究结果的解释和报告,确保研究结论的科学性和可信度。
⚝ 统计显著性 (Statistical Significance) 的理解:正确理解统计显著性的含义,避免过度解读或误用 p 值 (p-value)。 ⚠️
⚝ 效应量 (Effect Size) 的报告:除了报告统计显著性,还需要报告效应量,以评估研究结果的实际意义和重要性。 💪
⚝ 结果的可视化 (Data Visualization):运用图表等可视化手段,清晰、直观地呈现研究结果,帮助读者理解研究发现。 🖼️
⚝ 遵循统计报告规范:按照学术界的统计报告规范,如 APA 格式 (APA format),规范地报告统计分析方法和结果,提高研究的可读性和可重复性。 📝
总之,心理统计学贯穿于心理学研究的各个阶段,是心理学研究不可或缺的工具和方法论基础。掌握和应用心理统计学知识,是成为一名合格的心理学研究者的基本要求。
1.4 心理统计学的基本概念 (Basic Concepts of Psychological Statistics)
理解心理统计学的基本概念是学习和应用心理统计学的前提。以下介绍几个核心概念:
1.4.1 总体与样本 (Population and Sample)
在心理学研究中,总体 (population) 是指研究者感兴趣的所有个体的集合。总体可以是具体的,例如“所有在校大学生”,也可以是抽象的,例如“所有人类”。由于总体通常非常庞大,甚至无限,研究者往往无法直接研究总体中的所有个体。
样本 (sample) 是从总体中抽取出来的一部分个体,用于代表总体。心理学研究通常基于样本数据进行分析,并利用统计推断方法将样本结果推广到总体。
总体和样本的关系可以用下图表示:
\[ \text{Population} \xrightarrow{\text{Sampling}} \text{Sample} \xrightarrow{\text{Data Analysis}} \text{Inference about Population} \]
关键概念辨析:
① 参数 (parameter) 与统计量 (statistic):参数是描述总体特征的数值,例如总体均值 (population mean, \( \mu \)) 和总体标准差 (population standard deviation, \( \sigma \))。统计量是描述样本特征的数值,例如样本均值 (sample mean, \( \bar{x} \)) 和样本标准差 (sample standard deviation, \( s \))。心理统计学的目标之一就是利用统计量来估计未知的总体参数。
② 抽样 (sampling):抽样是从总体中选择样本的过程。理想的抽样方法是随机抽样 (random sampling),即总体中的每个个体都有相同的机会被选入样本。随机抽样可以保证样本在一定程度上代表总体,从而提高推论的可靠性。常见的随机抽样方法包括简单随机抽样、分层抽样、整群抽样等。
③ 代表性 (representativeness):样本的代表性是指样本能够准确反映总体特征的程度。一个具有良好代表性的样本,可以有效地用于推断总体。样本的代表性受到抽样方法、样本量等因素的影响。
举例说明:
假设研究者想要了解某城市大学生的平均焦虑水平。
⚝ 总体:该城市所有在校大学生。
⚝ 样本:从该城市不同大学随机抽取的 500 名大学生。
⚝ 参数:该城市所有大学生的平均焦虑水平(总体均值 \( \mu \),未知)。
⚝ 统计量:这 500 名大学生的平均焦虑水平(样本均值 \( \bar{x} \),已知)。
研究者通过分析这 500 名大学生的焦虑水平数据(样本数据),并运用统计推断方法,来估计该城市所有大学生的平均焦虑水平(总体参数)。
1.4.2 变量与测量尺度 (Variables and Scales of Measurement)
变量 (variable) 是指在研究中可以取不同数值或类别的特征。在心理学研究中,我们关注各种各样的变量,例如:
⚝ 人口学变量:年龄 (age)、性别 (gender)、教育程度 (education level)、收入 (income) 等。
⚝ 心理特质变量:智力 (intelligence)、人格 (personality)、态度 (attitude)、情绪 (emotion) 等。
⚝ 行为变量:反应时 (reaction time)、错误率 (error rate)、社交互动频率 (frequency of social interaction) 等。
⚝ 生理变量:心率 (heart rate)、脑电波 (EEG)、皮电反应 (GSR) 等。
测量尺度 (scales of measurement) 是指变量取值的性质和水平,它决定了可以对变量进行何种数学运算和统计分析。根据测量尺度的不同,变量可以分为以下四种类型:
① 定类尺度 (Nominal Scale):定类尺度也称名义尺度,是对事物进行分类或命名的尺度。定类尺度下的数值或符号仅仅代表不同的类别,彼此之间没有等级或数量关系,只能进行计数。
⚝ 例子:性别(男/女)、职业(教师/医生/律师)、婚姻状况(已婚/未婚/离异)、血型(A/B/AB/O)。
⚝ 允许的运算:计数 (counting)、计算频数 (frequency)、百分比 (percentage)、众数 (mode)。
⚝ 统计方法:卡方检验 (chi-square test) 等非参数统计方法。
② 定序尺度 (Ordinal Scale):定序尺度是对事物进行排序的尺度。定序尺度下的数值或类别可以区分等级或顺序,但相邻类别之间的间隔并不相等或未知,不能进行加减乘除运算。
⚝ 例子:年级(一年级/二年级/三年级/四年级)、社会经济地位(低/中/高)、态度量表(非常同意/同意/中立/不同意/非常不同意)、比赛名次(第一名/第二名/第三名)。
⚝ 允许的运算:排序 (ranking)、计算中位数 (median)、四分位数 (quartiles)、百分位数 (percentiles)。
⚝ 统计方法:秩和检验 (rank sum test)、等级相关 (rank correlation) 等非参数统计方法。
③ 定距尺度 (Interval Scale):定距尺度不仅可以排序,而且相邻数值之间的间隔相等,可以进行加减运算。但定距尺度没有绝对零点,不能进行乘除运算。
⚝ 例子:摄氏温度 (Celsius temperature)、华氏温度 (Fahrenheit temperature)、智力测验分数 (IQ score)、标准化考试分数。
⚝ 允许的运算:加法 (addition)、减法 (subtraction)、计算均值 (mean)、标准差 (standard deviation)。
⚝ 统计方法:t 检验 (t-test)、方差分析 (ANOVA)、相关分析 (correlation analysis)、回归分析 (regression analysis) 等参数统计方法。
④ 定比尺度 (Ratio Scale):定比尺度是最高级的测量尺度,它不仅具备定距尺度的所有特点,而且有绝对零点。定比尺度下的数值可以进行所有的数学运算,包括加减乘除。
⚝ 例子:身高 (height)、体重 (weight)、年龄 (age)、收入 (income)、反应时 (reaction time)、血压 (blood pressure)。
⚝ 允许的运算:所有数学运算 (addition, subtraction, multiplication, division)、计算几何平均数 (geometric mean)、调和平均数 (harmonic mean)。
⚝ 统计方法:所有统计方法,包括参数统计方法和非参数统计方法。
测量尺度的重要性:
理解变量的测量尺度对于选择合适的统计分析方法至关重要。不同的测量尺度决定了可以使用的统计方法类型。一般来说,测量尺度越高,可以使用的统计方法越多,能够提取的信息也越丰富。在心理学研究中,要根据研究变量的性质和研究目的,选择合适的测量尺度,并根据测量尺度选择恰当的统计分析方法。
1.4.3 统计量与参数 (Statistics and Parameters)
如前所述,参数 (parameter) 是描述总体特征的数值,而 统计量 (statistic) 是描述样本特征的数值。心理统计学的核心任务之一就是利用样本统计量来估计未知的总体参数,并对总体特征进行推断。
常见的参数和统计量:
特征 | 总体 (Population) | 样本 (Sample) | 符号 (Population) | 符号 (Sample) |
---|---|---|---|---|
均值 (Mean) | 总体均值 | 样本均值 | \( \mu \) | \( \bar{x} \) |
方差 (Variance) | 总体方差 | 样本方差 | \( \sigma^2 \) | \( s^2 \) |
标准差 (Standard Deviation) | 总体标准差 | 样本标准差 | \( \sigma \) | \( s \) |
相关系数 (Correlation Coefficient) | 总体相关系数 | 样本相关系数 | \( \rho \) | \( r \) |
比例 (Proportion) | 总体比例 | 样本比例 | \( P \) | \( p \) |
参数估计 (parameter estimation):
参数估计是利用样本统计量来估计总体参数的过程。参数估计分为两种类型:
① 点估计 (point estimation):用样本统计量的一个具体数值直接估计总体参数。
⚝ 例子:用样本均值 \( \bar{x} \) 估计总体均值 \( \mu \)。
② 区间估计 (interval estimation):用样本统计量构建一个区间,并声称总体参数以一定的概率落在这个区间内。这个区间称为置信区间 (confidence interval)。
⚝ 例子:构建总体均值 \( \mu \) 的 95% 置信区间,表示我们有 95% 的把握认为总体均值 \( \mu \) 落在该区间内。
抽样误差 (sampling error):
由于样本只是总体的一部分,样本统计量与总体参数之间通常存在差异,这种差异称为抽样误差 (sampling error)。抽样误差是不可避免的,但可以通过增大样本量、采用更有效的抽样方法等方式来减小抽样误差。
统计推断 (statistical inference):
统计推断是指利用样本信息对总体进行推断的过程,包括参数估计和假设检验。统计推断是心理统计学的核心内容,它使得研究者能够基于有限的样本数据,得出关于总体的科学结论。
理解总体与样本、参数与统计量、测量尺度等基本概念,是掌握心理统计学的基础。只有牢固掌握这些概念,才能更好地学习和应用各种统计方法,进行严谨的心理学研究。
END_OF_CHAPTER
2. chapter 2: 描述统计学 (Descriptive Statistics)
2.1 数据的收集与整理 (Data Collection and Organization)
在心理统计学中,数据的收集与整理是研究过程的首要环节。高质量的数据是进行有效统计分析的基础。本节将介绍数据的类型以及如何对收集到的数据进行编码和录入,为后续的描述统计和推论统计分析做好准备。
2.1.1 数据的类型 (Types of Data)
心理学研究中常见的数据类型可以根据不同的标准进行分类。最常见的分类方式是根据数据的测量尺度,可以将数据分为以下几种类型:
① 定类数据 (Nominal Data):
⚝ 定类数据也称为类别数据或名义数据,它代表的是事物类别的属性,各类别之间是互斥且无等级顺序的。
⚝ 例如:性别(男、女)、婚姻状况(未婚、已婚、离异、丧偶)、职业(教师、医生、工程师等)。
⚝ 定类数据只能进行计数,计算各类别的频数和频率,不能进行数值运算。
② 定序数据 (Ordinal Data):
⚝ 定序数据代表的是事物类别的属性,与定类数据不同的是,定序数据各类别之间存在等级顺序或相对大小关系,但不能精确测量类别之间的差距。
⚝ 例如:教育程度(小学、初中、高中、大学、研究生)、年级(一年级、二年级、三年级、四年级)、态度量表(非常同意、同意、中立、不同意、非常不同意)。
⚝ 定序数据可以进行排序,计算中位数、百分位数等,但不能进行加减乘除运算。
③ 定距数据 (Interval Data):
⚝ 定距数据不仅可以区分类别、排序,还可以精确测量类别之间的差距。定距数据的特点是等距性,即相邻两个数值之间的差值相等,但没有绝对零点。
⚝ 例如:摄氏温度(\(0^\circ C\)、\(20^\circ C\)、\(40^\circ C\)),智力测验分数,人格测验分数。
⚝ 定距数据可以进行加减运算,计算均值、标准差等,但不能进行乘除运算(因为没有绝对零点,不能说 \(40^\circ C\) 是 \(20^\circ C\) 的两倍)。
④ 定比数据 (Ratio Data):
⚝ 定比数据是测量尺度最高的类型,它具备定距数据的所有特点,并且拥有绝对零点。这意味着定比数据可以进行所有的数学运算,包括加、减、乘、除。
⚝ 例如:身高、体重、年龄、反应时间、收入、考试分数(如果存在绝对零分,表示完全没有知识)。
⚝ 定比数据可以进行所有统计分析,包括均值、标准差、比率等。
理解数据的类型对于选择合适的统计方法至关重要。不同类型的数据需要使用不同的统计方法进行分析。例如,对于定类数据和定序数据,通常使用非参数统计方法;而对于定距数据和定比数据,则可以使用参数统计方法。
2.1.2 数据的编码与录入 (Data Coding and Entry)
数据收集之后,需要进行编码和录入,以便进行后续的统计分析。数据编码是将收集到的原始数据转换为计算机可以识别和处理的数字或符号的过程。数据录入是将编码后的数据输入到计算机软件(如 SPSS, R, Python 等)中。
① 数据编码 (Data Coding):
⚝ 明确编码目的:在编码之前,需要明确编码的目的,即希望通过编码实现什么。例如,是为了方便数据录入,还是为了进行特定类型的统计分析。
⚝ 制定编码方案:根据研究变量的类型和特点,制定详细的编码方案。对于定类数据和定序数据,通常需要为每个类别分配一个数字代码。例如,对于性别变量,可以编码“男”为 1,“女”为 2。对于定序数据,编码需要反映等级顺序,例如,教育程度可以编码“小学”为 1,“初中”为 2,“高中”为 3,“大学”为 4,“研究生”为 5。对于定距数据和定比数据,如果原始数据已经是数值形式,可以直接使用原始数据,也可以根据需要进行转换。
⚝ 编码一致性:在整个研究过程中,需要保持编码的一致性,避免出现编码错误或混乱。最好编写编码手册 (codebook),详细记录每个变量的编码方案,以便研究团队成员理解和遵循。
② 数据录入 (Data Entry):
⚝ 选择合适的软件:选择合适的统计软件进行数据录入和管理。常用的统计软件包括 SPSS, R, Python, Excel 等。不同的软件有不同的特点和适用场景,研究者可以根据自己的需求和技能选择合适的软件。
⚝ 数据录入格式:在软件中创建数据文件,设置变量名和变量类型。通常,每一行代表一个被试或观察单位,每一列代表一个变量。确保数据录入格式清晰、规范,方便后续的数据分析。
⚝ 数据核查与清理:数据录入完成后,需要进行数据核查和清理,以确保数据的准确性和完整性。常用的数据核查方法包括双人录入(double entry),即由两个人分别录入数据,然后对比两个数据文件,找出差异并进行修正;逻辑检查(logical check),检查数据是否符合逻辑,例如,年龄不应为负数,性别只能是男或女等;异常值检测(outlier detection),检测数据中是否存在异常值,并根据情况进行处理。数据清理包括处理缺失值、修正错误值、删除重复值等。
数据收集与整理是保证研究质量的关键步骤。严谨的数据编码和录入可以有效地减少数据错误,提高数据分析的可靠性和有效性。
2.2 数据的图表展示 (Graphical Representation of Data)
图表是描述统计学中非常重要的工具,它可以直观、清晰地展示数据的分布特征和规律,帮助研究者更好地理解数据,发现数据中的模式和趋势。常用的数据图表包括频数分布表、直方图、条形图和饼图等。
2.2.1 频数分布表 (Frequency Distribution Table)
频数分布表是用于展示定类数据和定序数据各类别的频数和频率的表格。它将数据按照类别进行分组,并统计每个类别中数据出现的次数(频数)和比例(频率)。
⚝ 频数 (Frequency):指某一类别中数据出现的次数,通常用 \(f\) 表示。
⚝ 频率 (Frequency):指某一类别的频数占总频数的比例,通常用 \(p\) 或 \(%\) 表示。频率可以通过以下公式计算:
\[ p = \frac{f}{N} \]
其中,\(p\) 为频率,\(f\) 为频数,\(N\) 为总频数(样本量)。
示例: 某研究调查了 50 名大学生的专业分布情况,数据如下:
专业 (Major) | 频数 (Frequency) | 频率 (Percentage) |
---|---|---|
心理学 (Psychology) | 15 | 30% |
教育学 (Education) | 10 | 20% |
社会学 (Sociology) | 8 | 16% |
经济学 (Economics) | 7 | 14% |
管理学 (Management) | 10 | 20% |
总计 (Total) | 50 | 100% |
频数分布表可以清晰地展示各专业学生的人数和比例,帮助研究者了解样本的专业构成。
2.2.2 直方图 (Histogram)
直方图是用于展示定距数据或定比数据分布情况的图形。它将数据按照一定的组距进行分组,然后用矩形的高度表示各组的频数或频率。直方图可以直观地展示数据的分布形状、集中趋势和离散程度。
⚝ 组距 (Class Interval):将数据分成若干组,每组的取值范围称为组距。组距的选择需要根据数据的特点和分析目的来确定。
⚝ 矩形高度 (Rectangle Height):矩形的高度表示各组的频数或频率。
绘制直方图的步骤:
① 确定数据的范围(最大值和最小值)。
② 确定组数和组距。组数的选择通常在 5-15 组之间,组距可以根据数据的范围和组数来确定。常用的方法是斯特吉斯公式 (Sturges' formula):
\[ k = 1 + 3.322 \lg N \]
其中,\(k\) 为组数,\(N\) 为样本量。组距 \(h\) 可以通过以下公式计算:
\[ h = \frac{\text{Range}}{k} = \frac{\text{Max} - \text{Min}}{k} \]
③ 确定组限。组限是每组的起始值和终止值。为了避免数据落在组限上造成归组不清,通常采用上限不在内原则,即每组包含下限值,但不包含上限值。例如,如果组距为 5,第一组可以设置为 0-5(不包含 5),第二组为 5-10(不包含 10),以此类推。
④ 制作频数分布表,统计各组的频数或频率。
⑤ 以组距为横轴,频数或频率为纵轴,绘制矩形图。
示例: 某研究测量了 30 名被试的反应时间(单位:毫秒),数据如下:
[数据省略,假设已分组并统计频数]
反应时间 (Reaction Time, ms) | 频数 (Frequency) |
---|---|
100-150 | 5 |
150-200 | 8 |
200-250 | 10 |
250-300 | 5 |
300-350 | 2 |
根据上述频数分布表,可以绘制直方图,横轴表示反应时间组距,纵轴表示频数。直方图可以直观地展示反应时间的分布情况,例如,反应时间主要集中在 200-250 毫秒之间。
2.2.3 条形图 (Bar Chart)
条形图与直方图类似,也是用矩形的高度表示各组的频数或频率,但条形图主要用于展示定类数据或定序数据的分布情况。与直方图不同的是,条形图的矩形之间通常是分开的,表示各类别之间是相互独立的。
绘制条形图的步骤:
① 整理定类数据或定序数据,统计各类别的频数或频率。
② 以类别为横轴,频数或频率为纵轴。
③ 为每个类别绘制一个矩形,矩形的高度表示该类别的频数或频率。矩形之间留有一定间隙。
示例: 某研究调查了 40 名学生的血型分布情况,数据如下:
血型 (Blood Type) | 频数 (Frequency) |
---|---|
A 型 (Type A) | 15 |
B 型 (Type B) | 10 |
AB 型 (Type AB) | 5 |
O 型 (Type O) | 10 |
根据上述数据,可以绘制条形图,横轴表示血型类别(A 型、B 型、AB 型、O 型),纵轴表示频数。条形图可以直观地展示不同血型的人数分布。
2.2.4 饼图 (Pie Chart)
饼图是用圆形及其扇形面积来表示定类数据或定序数据各类别频率的图形。整个圆形代表总体的 100%,每个扇形代表一个类别,扇形面积的大小与该类别的频率成正比。饼图可以清晰地展示各类别在总体中所占的比例。
绘制饼图的步骤:
① 整理定类数据或定序数据,计算各类别的频率。
② 计算每个类别对应的扇形角度。扇形角度可以通过以下公式计算:
\[ \text{扇形角度} = \text{频率} \times 360^\circ \]
③ 绘制圆形,根据计算出的扇形角度,将圆形分割成若干个扇形。
④ 在每个扇形上标注类别名称和频率(或百分比)。
示例: 沿用 2.2.3 的血型数据,计算各血型类别的频率和扇形角度:
血型 (Blood Type) | 频数 (Frequency) | 频率 (Percentage) | 扇形角度 (Angle) |
---|---|---|---|
A 型 (Type A) | 15 | 37.5% | \(135^\circ\) |
B 型 (Type B) | 10 | 25% | \(90^\circ\) |
AB 型 (Type AB) | 5 | 12.5% | \(45^\circ\) |
O 型 (Type O) | 10 | 25% | \(90^\circ\) |
总计 (Total) | 40 | 100% | \(360^\circ\) |
根据上述数据,可以绘制饼图,每个扇形代表一种血型,扇形面积的大小与该血型的频率成正比。饼图可以直观地展示不同血型在总体中所占的比例。
选择合适的图表类型取决于数据的类型和分析目的。频数分布表适用于展示各类别的具体频数和频率;直方图适用于展示定距数据或定比数据的分布形状;条形图适用于比较不同类别之间的频数或频率;饼图适用于展示各类别在总体中所占的比例。
2.3 集中趋势的度量 (Measures of Central Tendency)
集中趋势 (Central Tendency) 是指一组数据向某一中心值集中的程度。描述集中趋势的指标主要有均值 (Mean)、中位数 (Median) 和众数 (Mode)。这些指标可以帮助研究者了解数据的典型水平或中心位置。
2.3.1 均值 (Mean)
均值是最常用的集中趋势指标,它代表一组数据的平均水平。均值适用于定距数据和定比数据,对于定类数据和定序数据不适用。
⚝ 总体均值 (Population Mean):用 \(\mu\) (mu) 表示,计算公式为:
\[ \mu = \frac{\sum_{i=1}^{N} X_i}{N} \]
其中,\(X_i\) 为总体中的第 \(i\) 个数据,\(N\) 为总体大小。
⚝ 样本均值 (Sample Mean):用 \(\bar{X}\) (X-bar) 表示,计算公式为:
\[ \bar{X} = \frac{\sum_{i=1}^{n} x_i}{n} \]
其中,\(x_i\) 为样本中的第 \(i\) 个数据,\(n\) 为样本大小。
均值的特点:
① 均值易受极端值 (outlier) 的影响。当数据中存在极端值时,均值会向极端值方向偏移,不能很好地代表数据的典型水平。
② 均值是数据重心,所有数据与均值之差的平方和最小,即 \(\sum_{i=1}^{n} (x_i - \bar{X})^2\) 最小。
③ 均值具有良好的数学性质,是许多统计推断的基础。
示例: 某研究测量了 5 名被试的反应时间(单位:毫秒):180, 200, 220, 240, 360。计算样本均值:
\[ \bar{X} = \frac{180 + 200 + 220 + 240 + 360}{5} = \frac{1200}{5} = 240 \text{ ms} \]
样本均值为 240 毫秒。但由于存在极端值 360,均值可能不能很好地代表数据的典型水平。
2.3.2 中位数 (Median)
中位数是将一组数据按大小顺序排列后,位于中间位置的数值。中位数适用于定序数据、定距数据和定比数据,对于定类数据不适用。中位数不受极端值的影响,因此在数据分布偏态时,中位数比均值更能代表数据的典型水平。
计算中位数的步骤:
① 将数据按大小顺序排列。
② 确定中位数的位置。如果数据个数 \(n\) 为奇数,中位数的位置为 \(\frac{n+1}{2}\);如果数据个数 \(n\) 为偶数,中位数的位置为 \(\frac{n}{2}\) 和 \(\frac{n}{2} + 1\) 两个位置的数值的平均值。
③ 找出中位数。根据中位数的位置,找出对应的数值或计算平均值。
示例: 沿用 2.3.1 的反应时间数据:180, 200, 220, 240, 360。
① 数据排序:180, 200, 220, 240, 360。
② 数据个数 \(n=5\) 为奇数,中位数位置为 \(\frac{5+1}{2} = 3\)。
③ 中位数为第 3 个数值,即 220 毫秒。
示例: 另一组反应时间数据:180, 200, 220, 240, 260, 360。
① 数据排序:180, 200, 220, 240, 260, 360。
② 数据个数 \(n=6\) 为偶数,中位数位置为 \(\frac{6}{2} = 3\) 和 \(\frac{6}{2} + 1 = 4\)。
③ 中位数为第 3 个和第 4 个数值的平均值,即 \(\frac{220 + 240}{2} = 230\) 毫秒。
中位数的特点:
① 中位数不受极端值的影响,稳健性较好。
② 中位数将数据分为两等份,一半数据小于或等于中位数,一半数据大于或等于中位数。
③ 中位数的数学性质不如均值好,在统计推断中的应用不如均值广泛。
2.3.3 众数 (Mode)
众数是一组数据中出现次数最多的数值。众数适用于定类数据、定序数据、定距数据和定比数据。众数主要用于描述数据的集中趋势,尤其适用于类别数据。
寻找众数的方法:
① 统计每个数值或类别的频数。
② 找出频数最高的数值或类别,即为众数。
示例: 某研究调查了 20 名学生的血型:A, B, O, A, A, AB, O, B, A, O, A, A, B, O, A, O, A, B, A, O。
统计各血型的频数:
⚝ A 型:8 次
⚝ B 型:4 次
⚝ AB 型:1 次
⚝ O 型:7 次
A 型血出现次数最多(8 次),因此众数为 A 型。
众数的特点:
① 众数可能不存在或不唯一。如果所有数值或类别的频数都相同,则不存在众数;如果存在多个数值或类别的频数相同且最高,则存在多个众数(例如,双众数、多众数)。
② 众数不受极端值的影响,稳健性好。
③ 众数主要用于描述数据的集中趋势,在统计推断中的应用较少。
选择合适的集中趋势指标取决于数据的类型和分布特点。对于对称分布的定距数据或定比数据,均值、中位数和众数通常相等或接近,均值是最常用的指标;对于偏态分布的数据或存在极端值的数据,中位数比均值更具有代表性;对于定类数据或需要描述最常见类别的数据,众数是最合适的指标。
2.4 离散程度的度量 (Measures of Dispersion)
离散程度 (Dispersion) 是指一组数据彼此之间分散的程度。描述离散程度的指标主要有全距 (Range)、方差 (Variance) 和标准差 (Standard Deviation)。这些指标可以帮助研究者了解数据的变异性和波动性。
2.4.1 全距 (Range)
全距是一组数据中最大值与最小值之差。全距是最简单的离散程度指标,适用于定序数据、定距数据和定比数据,对于定类数据不适用。
⚝ 全距 (Range):计算公式为:
\[ \text{Range} = \text{Max} - \text{Min} \]
其中,\(\text{Max}\) 为最大值,\(\text{Min}\) 为最小值。
示例: 沿用 2.3.1 的反应时间数据:180, 200, 220, 240, 360。
最大值 \(\text{Max} = 360\),最小值 \(\text{Min} = 180\)。
全距 \(\text{Range} = 360 - 180 = 180\) 毫秒。
全距的特点:
① 全距计算简单,易于理解。
② 全距只考虑了数据的最大值和最小值,没有利用到中间数据的变异信息,因此对数据整体离散程度的代表性较差。
③ 全距易受极端值的影响。
2.4.2 方差 (Variance)
方差是衡量数据离散程度的重要指标,它表示数据偏离均值的平均程度。方差适用于定距数据和定比数据,对于定类数据和定序数据不适用。
⚝ 总体方差 (Population Variance):用 \(\sigma^2\) (sigma squared) 表示,计算公式为:
\[ \sigma^2 = \frac{\sum_{i=1}^{N} (X_i - \mu)^2}{N} \]
其中,\(X_i\) 为总体中的第 \(i\) 个数据,\(\mu\) 为总体均值,\(N\) 为总体大小。
⚝ 样本方差 (Sample Variance):用 \(s^2\) 表示,计算公式为:
\[ s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{X})^2}{n-1} \]
其中,\(x_i\) 为样本中的第 \(i\) 个数据,\(\bar{X}\) 为样本均值,\(n\) 为样本大小。样本方差的分母使用 \(n-1\) 而不是 \(n\),是为了对总体方差进行无偏估计,称为自由度校正。
方差的特点:
① 方差考虑了所有数据与均值的偏差,能够全面反映数据的离散程度。
② 方差的单位是原始数据单位的平方,不便于直接解释。例如,如果数据单位是毫秒,方差的单位是平方毫秒。
③ 方差易受极端值的影响。
示例: 沿用 2.3.1 的反应时间数据:180, 200, 220, 240, 360,样本均值 \(\bar{X} = 240\)。计算样本方差:
\[ s^2 = \frac{(180-240)^2 + (200-240)^2 + (220-240)^2 + (240-240)^2 + (360-240)^2}{5-1} \]
\[ s^2 = \frac{(-60)^2 + (-40)^2 + (-20)^2 + 0^2 + (120)^2}{4} = \frac{3600 + 1600 + 400 + 0 + 14400}{4} = \frac{20000}{4} = 5000 \]
样本方差为 5000 平方毫秒。
2.4.3 标准差 (Standard Deviation)
标准差是方差的平方根,它也是衡量数据离散程度的重要指标。标准差的单位与原始数据单位相同,便于直接解释。标准差适用于定距数据和定比数据,对于定类数据和定序数据不适用。
⚝ 总体标准差 (Population Standard Deviation):用 \(\sigma\) (sigma) 表示,是总体方差 \(\sigma^2\) 的平方根:
\[ \sigma = \sqrt{\sigma^2} = \sqrt{\frac{\sum_{i=1}^{N} (X_i - \mu)^2}{N}} \]
⚝ 样本标准差 (Sample Standard Deviation):用 \(s\) 表示,是样本方差 \(s^2\) 的平方根:
\[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{X})^2}{n-1}} \]
标准差的特点:
① 标准差的单位与原始数据单位相同,便于直接解释。例如,如果数据单位是毫秒,标准差的单位也是毫秒。
② 标准差与均值结合使用,可以描述数据的分布特征。例如,在正态分布中,约 68% 的数据落在均值加减一个标准差的范围内,约 95% 的数据落在均值加减两个标准差的范围内,约 99.7% 的数据落在均值加减三个标准差的范围内(68-95-99.7 法则)。
③ 标准差易受极端值的影响,但程度小于方差。
示例: 沿用 2.4.2 的反应时间数据,样本方差 \(s^2 = 5000\)。计算样本标准差:
\[ s = \sqrt{s^2} = \sqrt{5000} \approx 70.71 \text{ ms} \]
样本标准差约为 70.71 毫秒。
选择合适的离散程度指标取决于数据的类型和分析目的。全距简单易算,但信息量较少;方差和标准差信息量丰富,是常用的离散程度指标,标准差更便于解释和应用。在实际研究中,通常同时报告均值和标准差,以全面描述数据的集中趋势和离散程度。
2.5 分布的形状 (Shape of Distribution)
分布形状是指数据在数轴上的分布形态。描述分布形状的指标主要有偏态 (Skewness) 和峰态 (Kurtosis)。了解分布形状可以帮助研究者选择合适的统计方法,并对数据进行更深入的分析。
2.5.1 偏态 (Skewness)
偏态描述数据分布的对称性。如果数据分布是对称的,则为对称分布;如果数据分布不对称,向一侧倾斜,则为偏态分布。偏态分布分为正偏态 (Positive Skewness) 和负偏态 (Negative Skewness)。
⚝ 对称分布 (Symmetric Distribution):数据分布左右对称,均值、中位数和众数相等或接近。例如,正态分布、均匀分布等。
⚝ 正偏态分布 (Positive Skewness):也称右偏分布,数据分布向右侧(正方向)倾斜,尾部较长,均值 > 中位数 > 众数。正偏态分布表示数据中小值较多,大值较少。例如,收入分布、反应时间分布等。
⚝ 负偏态分布 (Negative Skewness):也称左偏分布,数据分布向左侧(负方向)倾斜,尾部较长,均值 < 中位数 < 众数。负偏态分布表示数据中大值较多,小值较少。例如,考试成绩分布(如果题目偏难)。
偏态系数 (Skewness Coefficient) 可以定量描述分布的偏态程度和方向。常用的偏态系数有皮尔逊偏态系数 (Pearson's Skewness Coefficient) 和三阶中心矩偏态系数 (Third Central Moment Skewness Coefficient)。
⚝ 皮尔逊偏态系数:
\[ Sk_p = \frac{3(\bar{X} - M)}{s} \]
其中,\(\bar{X}\) 为均值,\(M\) 为中位数,\(s\) 为标准差。
⚝ 三阶中心矩偏态系数:
\[ Sk = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{X})^3}{s^3} \]
其中,\(x_i\) 为数据,\(\bar{X}\) 为均值,\(s\) 为标准差,\(n\) 为样本大小。
偏态系数的解释:
⚝ \(Sk = 0\):对称分布。
⚝ \(Sk > 0\):正偏态分布。\(Sk\) 值越大,正偏程度越高。
⚝ \(Sk < 0\):负偏态分布。\(Sk\) 值的绝对值越大,负偏程度越高。
⚝ 一般认为,偏态系数的绝对值小于 0.5 时,可以认为分布基本对称;在 0.5-1 之间为中等偏态;大于 1 为高度偏态。
2.5.2 峰态 (Kurtosis)
峰态描述数据分布的尖峭程度。峰态反映数据分布相对于正态分布而言是更尖峭还是更平缓。峰态分为常峰态 (Mesokurtic)、尖峰态 (Leptokurtic) 和低峰态 (Platykurtic)。
⚝ 常峰态 (Mesokurtic):峰态与正态分布相似,也称为正态峰。正态分布的峰态为常峰态。
⚝ 尖峰态 (Leptokurtic):峰顶尖峭,两侧尾部较厚,数据集中在均值周围,分布比正态分布更集中。
⚝ 低峰态 (Platykurtic):峰顶平缓,两侧尾部较薄,数据分散,分布比正态分布更分散。
峰态系数 (Kurtosis Coefficient) 可以定量描述分布的峰态程度。常用的峰态系数是四阶中心矩峰态系数 (Fourth Central Moment Kurtosis Coefficient)。
⚝ 四阶中心矩峰态系数:
\[ K = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{X})^4}{s^4} \]
其中,\(x_i\) 为数据,\(\bar{X}\) 为均值,\(s\) 为标准差,\(n\) 为样本大小。
峰态系数的解释:
⚝ \(K = 3\):常峰态,与正态分布峰态相同。为了方便比较,通常使用超额峰态系数 (Excess Kurtosis Coefficient),即 \(K - 3\)。
⚝ \(K - 3 = 0\) 或 \(K = 3\):常峰态。
⚝ \(K - 3 > 0\) 或 \(K > 3\):尖峰态。\(K\) 值越大,峰顶越尖峭。
⚝ \(K - 3 < 0\) 或 \(K < 3\):低峰态。\(K\) 值越小,峰顶越平缓。
⚝ 一般认为,超额峰态系数在 \(\pm 1\) 之间时,可以认为峰态接近正态分布;大于 1 为尖峰态;小于 -1 为低峰态。
了解数据分布的偏态和峰态对于选择合适的统计方法非常重要。例如,对于偏态分布或峰态过高/过低的数据,可能需要进行数据转换或选择非参数统计方法。此外,分布形状也是描述数据特征的重要方面,可以帮助研究者更全面地理解数据。
END_OF_CHAPTER
3. chapter 3: 推论统计学基础 (Fundamentals of Inferential Statistics)
3.1 概率论基础 (Basics of Probability Theory)
3.1.1 概率的概念 (Concept of Probability)
概率 (Probability) 是推论统计学的基石,它量化了事件发生的可能性。在心理学研究中,我们常常需要评估某种现象或结果发生的概率,例如,一个特定的心理测验分数出现的可能性,或者一项心理干预措施有效的可能性。理解概率的概念对于进行科学推断至关重要。
概率通常用一个介于 0 和 1 之间的数字表示,也可以表示为百分比。
⚝ 概率为 0 表示事件不可能发生 (impossible event)。例如,在一次正常的硬币投掷中,同时出现正面和反面的概率为 0。
⚝ 概率为 1 表示事件必然发生 (certain event)。例如,在一次正常的硬币投掷中,出现正面或反面的概率为 1。
⚝ 概率介于 0 和 1 之间表示事件发生的可能性大小。概率越接近 1,事件发生的可能性越大;概率越接近 0,事件发生的可能性越小。
概率的表示方法:
假设 \(A\) 代表一个事件,则事件 \(A\) 发生的概率可以表示为 \(P(A)\)。
例如,投掷一枚均匀的硬币,正面朝上的事件记为 \(H\),反面朝上的事件记为 \(T\)。由于硬币是均匀的,正面和反面朝上的可能性相同,因此:
\[ P(H) = \frac{1}{2} = 0.5 = 50\% \]
\[ P(T) = \frac{1}{2} = 0.5 = 50\% \]
概率的两种基本解释:
① 频率解释 (Frequentist Interpretation):
▮▮▮▮⚝ 频率解释将概率定义为在大量重复试验中,某个事件发生的相对频率的极限。
▮▮▮▮⚝ 例如,如果我们重复投掷硬币很多次(比如 10000 次),正面朝上的次数接近总投掷次数的一半。那么,正面朝上的概率就可以被估计为 0.5。
▮▮▮▮⚝ 频率解释强调可重复性和长期观察。它适用于可以重复进行的随机试验。
▮▮▮▮⚝ 在心理学研究中,当我们说某种心理现象的发生概率时,通常可以理解为在类似条件下,该现象在多次观察或实验中出现的频率。
② 贝叶斯解释 (Bayesian Interpretation):
▮▮▮▮⚝ 贝叶斯解释将概率定义为对事件发生可能性的主观信念或置信程度。
▮▮▮▮⚝ 贝叶斯概率可以基于先验知识、经验或个人判断。
▮▮▮▮⚝ 例如,医生根据病人的症状和病史,判断病人患某种疾病的概率,这是一种贝叶斯概率。
▮▮▮▮⚝ 贝叶斯解释更灵活,可以应用于不可重复的事件或主观判断。
▮▮▮▮⚝ 在心理学研究中,贝叶斯方法在处理先验信息和更新信念方面具有优势,尤其是在研究复杂心理现象时。
在心理统计学中,频率解释是经典统计学的基础,而贝叶斯解释则是贝叶斯统计学的基础。两者在推论统计中都有重要的应用。
3.1.2 概率的类型 (Types of Probability)
根据不同的分类标准,概率可以分为多种类型。在心理统计学中,理解这些不同类型的概率有助于我们更准确地应用统计方法。
1. 根据事件的性质分类:
① 简单概率 (Simple Probability):
▮▮▮▮⚝ 简单概率是指单个事件发生的概率。
▮▮▮▮⚝ 例如,投掷一枚骰子,出现点数 1 的概率,\(P(\text{点数}=1) = \frac{1}{6}\)。
▮▮▮▮⚝ 在心理学研究中,例如,随机抽取一名学生,该学生是内向性格的概率。
② 联合概率 (Joint Probability):
▮▮▮▮⚝ 联合概率是指两个或多个事件同时发生的概率。
▮▮▮▮⚝ 例如,投掷一枚骰子,出现点数 1 且同时投掷一枚硬币,正面朝上的概率。如果骰子和硬币的投掷是独立的,则联合概率为 \(P(\text{点数}=1 \text{ 且 正面朝上}) = P(\text{点数}=1) \times P(\text{正面朝上}) = \frac{1}{6} \times \frac{1}{2} = \frac{1}{12}\)。
▮▮▮▮⚝ 在心理学研究中,例如,一个人既是高焦虑又具有抑郁症状的概率。
③ 条件概率 (Conditional Probability):
▮▮▮▮⚝ 条件概率是指在已知某个事件已经发生的条件下,另一个事件发生的概率。
▮▮▮▮⚝ 条件概率通常表示为 \(P(A|B)\),读作“在事件 \(B\) 发生的条件下,事件 \(A\) 发生的概率”。
▮▮▮▮⚝ 例如,已知一个人是女性,她是心理学专业的概率。
▮▮▮▮⚝ 在心理学研究中,条件概率非常重要,例如,在已知某人患有抑郁症的情况下,评估其自杀风险的概率。
2. 根据概率的来源分类:
① 先验概率 (Prior Probability):
▮▮▮▮⚝ 先验概率是在观察到新证据之前,基于已有的知识、经验或理论对事件发生概率的估计。
▮▮▮▮⚝ 先验概率是贝叶斯统计学中的重要概念。
▮▮▮▮⚝ 例如,在进行一项新的心理学实验之前,基于以往的研究,研究者可能对实验结果有一个先验的预期。
② 后验概率 (Posterior Probability):
▮▮▮▮⚝ 后验概率是在观察到新证据之后,更新的事件发生概率的估计。
▮▮▮▮⚝ 后验概率是通过贝叶斯定理,结合先验概率和似然性 (likelihood) 计算得到的。
▮▮▮▮⚝ 例如,在实验结束后,根据实验数据,研究者可以更新对实验结果的概率估计,得到后验概率。
③ 似然性 (Likelihood):
▮▮▮▮⚝ 似然性是指在给定某个假设(参数值)的条件下,观察到现有数据的概率。
▮▮▮▮⚝ 似然性是连接先验概率和后验概率的桥梁,在贝叶斯统计推断中起着关键作用。
▮▮▮▮⚝ 例如,在参数估计中,我们需要找到最有可能产生观测数据的参数值,这个“最有可能”就是通过似然性来衡量的。
3. 根据变量的类型分类:
① 离散概率 (Discrete Probability):
▮▮▮▮⚝ 离散概率是指离散随机变量取特定值的概率。
▮▮▮▮⚝ 离散随机变量的取值是可数的,例如,投掷骰子的点数、班级里学生的数量等。
▮▮▮▮⚝ 常见的离散概率分布包括二项分布 (Binomial Distribution)、泊松分布 (Poisson Distribution) 等。
② 连续概率 (Continuous Probability):
▮▮▮▮⚝ 连续概率是指连续随机变量在某个区间内取值的概率。
▮▮▮▮⚝ 连续随机变量的取值是不可数的,可以在某个区间内取任意值,例如,身高、体重、反应时间等。
▮▮▮▮⚝ 连续概率通常用概率密度函数 (Probability Density Function, PDF) 来描述。
▮▮▮▮⚝ 常见的连续概率分布包括正态分布 (Normal Distribution)、均匀分布 (Uniform Distribution) 等。
理解这些不同类型的概率,有助于我们在心理学研究中选择合适的统计方法,并正确解释统计结果。例如,在假设检验中,我们通常关注条件概率,即在零假设成立的条件下,观察到当前样本数据的概率(p 值)。在贝叶斯统计中,我们则会综合考虑先验概率、似然性和后验概率,进行更全面的统计推断。
3.1.3 概率的运算规则 (Rules of Probability)
概率的运算规则是进行概率计算和推论的基础。掌握这些规则,可以帮助我们处理复杂的概率问题,并在心理统计分析中正确应用概率理论。
1. 加法规则 (Addition Rule):
加法规则用于计算互斥事件 (mutually exclusive events) 或非互斥事件 (non-mutually exclusive events) 的并集概率。
① 互斥事件的加法规则:
▮▮▮▮⚝ 如果事件 \(A\) 和事件 \(B\) 是互斥的,即它们不可能同时发生(\(A \cap B = \emptyset\)),则事件 \(A\) 或事件 \(B\) 发生的概率(即 \(A \cup B\) 的概率)等于它们各自概率之和。
▮▮▮▮⚝ 公式表示为:
\[ P(A \cup B) = P(A) + P(B) \]
▮▮▮▮⚝ 例如,投掷一枚骰子,事件 \(A\) 为出现点数 1,事件 \(B\) 为出现点数 2。事件 \(A\) 和 \(B\) 是互斥的。则出现点数 1 或点数 2 的概率为:
\[ P(\text{点数}=1 \text{ 或 点数}=2) = P(\text{点数}=1) + P(\text{点数}=2) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6} = \frac{1}{3} \]
② 非互斥事件的加法规则:
▮▮▮▮⚝ 如果事件 \(A\) 和事件 \(B\) 是非互斥的,即它们可能同时发生(\(A \cap B \neq \emptyset\)),则事件 \(A\) 或事件 \(B\) 发生的概率需要减去它们同时发生的概率,以避免重复计数。
▮▮▮▮⚝ 公式表示为:
\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]
▮▮▮▮⚝ 例如,在一个班级里,事件 \(A\) 为学生是男生,事件 \(B\) 为学生戴眼镜。事件 \(A\) 和 \(B\) 可能同时发生(有些男生戴眼镜)。要计算学生是男生或戴眼镜的概率,需要减去既是男生又戴眼镜的概率。
2. 乘法规则 (Multiplication Rule):
乘法规则用于计算独立事件 (independent events) 或非独立事件 (dependent events) 的交集概率。
① 独立事件的乘法规则:
▮▮▮▮⚝ 如果事件 \(A\) 和事件 \(B\) 是独立的,即事件 \(A\) 的发生不影响事件 \(B\) 发生的概率,反之亦然,则事件 \(A\) 和事件 \(B\) 同时发生的概率(即 \(A \cap B\) 的概率)等于它们各自概率之积。
▮▮▮▮⚝ 公式表示为:
\[ P(A \cap B) = P(A) \times P(B) \]
▮▮▮▮⚝ 例如,连续投掷两次硬币,第一次正面朝上的事件为 \(A\),第二次正面朝上的事件为 \(B\)。事件 \(A\) 和 \(B\) 是独立的。则两次都正面朝上的概率为:
\[ P(\text{第一次正面且第二次正面}) = P(\text{第一次正面}) \times P(\text{第二次正面}) = \frac{1}{2} \times \frac{1}{2} = \frac{1}{4} \]
② 非独立事件的乘法规则:
▮▮▮▮⚝ 如果事件 \(A\) 和事件 \(B\) 是非独立的(即相关的),事件 \(A\) 的发生会影响事件 \(B\) 发生的概率,则事件 \(A\) 和事件 \(B\) 同时发生的概率需要使用条件概率来计算。
▮▮▮▮⚝ 公式表示为:
\[ P(A \cap B) = P(A) \times P(B|A) = P(B) \times P(A|B) \]
▮▮▮▮⚝ 其中,\(P(B|A)\) 是在事件 \(A\) 发生的条件下,事件 \(B\) 发生的条件概率;\(P(A|B)\) 是在事件 \(B\) 发生的条件下,事件 \(A\) 发生的条件概率。
▮▮▮▮⚝ 例如,在一个袋子里有 5 个红球和 3 个白球,不放回地连续抽取两个球。事件 \(A\) 为第一次抽到红球,事件 \(B\) 为第二次抽到红球。事件 \(A\) 和 \(B\) 是非独立的。
▮▮▮▮⚝ 第一次抽到红球的概率:\(P(A) = \frac{5}{8}\)。
▮▮▮▮⚝ 在第一次抽到红球的条件下,袋子里还剩下 4 个红球和 3 个白球,共 7 个球。第二次抽到红球的条件概率:\(P(B|A) = \frac{4}{7}\)。
▮▮▮▮⚝ 两次都抽到红球的概率:\(P(A \cap B) = P(A) \times P(B|A) = \frac{5}{8} \times \frac{4}{7} = \frac{20}{56} = \frac{5}{14}\)。
3. 全概率公式 (Law of Total Probability):
全概率公式用于计算事件 \(A\) 发生的总概率,当事件 \(A\) 的发生可以被分解为在一组互斥且完备的事件 \(B_1, B_2, ..., B_n\) 条件下发生时。
⚝ 公式表示为:
\[ P(A) = \sum_{i=1}^{n} P(A \cap B_i) = \sum_{i=1}^{n} P(A|B_i) \times P(B_i) \]
⚝ 其中,\(B_1, B_2, ..., B_n\) 是一组互斥且完备的事件,即 \(B_i \cap B_j = \emptyset\) (当 \(i \neq j\)),且 \(\bigcup_{i=1}^{n} B_i = \Omega\) (样本空间)。
⚝ 例如,假设某大学心理学系有本科生和研究生两种学生群体。事件 \(A\) 为“学生选修了统计学课程”。事件 \(B_1\) 为“学生是本科生”,事件 \(B_2\) 为“学生是研究生”。\(B_1\) 和 \(B_2\) 互斥且完备。
⚝ 假设本科生选修统计学课程的概率 \(P(A|B_1) = 0.6\),本科生占比 \(P(B_1) = 0.7\)。
⚝ 研究生选修统计学课程的概率 \(P(A|B_2) = 0.8\),研究生占比 \(P(B_2) = 0.3\)。
⚝ 则学生选修统计学课程的总概率为:
\[ P(A) = P(A|B_1) \times P(B_1) + P(A|B_2) \times P(B_2) = 0.6 \times 0.7 + 0.8 \times 0.3 = 0.42 + 0.24 = 0.66 \]
4. 贝叶斯定理 (Bayes' Theorem):
贝叶斯定理是概率论中最重要的定理之一,用于在已知先验概率和似然性的情况下,计算后验概率。
⚝ 公式表示为:
\[ P(B|A) = \frac{P(A|B) \times P(B)}{P(A)} \]
⚝ 其中:
⚝ \(P(B|A)\) 是后验概率,即在事件 \(A\) 发生的条件下,事件 \(B\) 发生的概率。
⚝ \(P(A|B)\) 是似然性,即在事件 \(B\) 发生的条件下,事件 \(A\) 发生的概率。
⚝ \(P(B)\) 是先验概率,即在事件 \(A\) 发生之前,事件 \(B\) 发生的概率。
⚝ \(P(A)\) 是事件 \(A\) 发生的总概率,可以使用全概率公式计算。
⚝ 贝叶斯定理在心理学研究中有着广泛的应用,尤其是在诊断、预测和决策等领域。例如,在临床心理学中,医生可以使用贝叶斯定理,结合病人的症状(事件 \(A\))和疾病的先验概率(\(P(B)\)),以及在患有某种疾病的情况下出现这些症状的概率(\(P(A|B)\)),来计算病人患有该疾病的后验概率(\(P(B|A)\)),从而辅助诊断。
掌握这些概率的运算规则,是理解和应用推论统计学的关键。在后续章节中,我们将看到这些规则如何在抽样分布、参数估计和假设检验等统计方法中发挥作用。
3.2 抽样分布 (Sampling Distribution)
3.2.1 抽样误差 (Sampling Error)
在心理学研究中,我们常常需要通过样本 (sample) 的数据来推断总体 (population) 的特征。然而,由于样本只是总体的一部分,样本统计量 (statistics) (如样本均值、样本标准差) 与总体参数 (parameters) (如总体均值、总体标准差) 之间通常存在差异,这种差异被称为抽样误差 (sampling error)。
抽样误差的定义:
抽样误差是指由于随机抽样的偶然性,导致样本统计量与总体参数之间存在的自然变异 (natural variability)。换句话说,即使我们使用相同的抽样方法,从同一个总体中抽取不同的样本,得到的样本统计量也会有所不同,这些差异就是抽样误差的表现。
抽样误差的来源:
抽样误差的根本来源是随机性 (randomness)。在随机抽样过程中,我们无法保证抽取的样本能够完美地代表总体。总有一些个体更有可能被抽到,而另一些个体则可能被遗漏。这种抽样的随机性导致了样本与总体之间的差异。
抽样误差的特点:
① 不可避免性:只要我们使用样本来推断总体,抽样误差就不可避免地存在。除非我们对整个总体进行调查(普查),否则无法完全消除抽样误差。
② 随机性:抽样误差的大小和方向是随机的。有时样本统计量可能高估总体参数,有时可能低估总体参数,这种偏差是随机的,没有系统性的规律。
③ 可估计性:虽然抽样误差是随机的,但我们可以通过统计方法来估计抽样误差的大小。例如,我们可以使用标准误 (standard error) 来量化抽样误差的平均大小。
抽样误差与偏差 (Bias) 的区别:
抽样误差和偏差是统计学中两个不同的概念,容易混淆。
⚝ 抽样误差是由于随机抽样的偶然性造成的,是自然变异,不可避免但可估计。
⚝ 偏差 (bias) 是由于非随机因素造成的,是系统性误差 (systematic error),可以避免但难以完全消除。偏差会导致样本统计量系统性地高估或低估总体参数。
常见的偏差来源包括:
⚝ 选择偏差 (selection bias):抽样方法不当,导致某些类型的个体更有可能被选入样本,而另一些类型的个体则被排除在外。例如,使用志愿者样本进行研究,可能导致样本不具有代表性。
⚝ 测量偏差 (measurement bias):测量工具或方法存在问题,导致测量结果系统性地偏离真实值。例如,问卷调查中引导性的问题可能导致回答偏差。
⚝ 无应答偏差 (non-response bias):某些被抽样到的个体拒绝参与研究或无法联系,导致样本不具有代表性。例如,电话调查中,某些人群可能更难接通电话。
减小抽样误差的方法:
虽然抽样误差不可避免,但我们可以通过一些方法来减小抽样误差的大小,提高样本统计量的精确性 (precision)。
① 增加样本容量 (Sample Size):
▮▮▮▮⚝ 样本容量越大,样本越有可能代表总体,抽样误差越小。这是最常用的减小抽样误差的方法。
▮▮▮▮⚝ 在其他条件相同的情况下,样本容量增加到原来的 4 倍,标准误减小到原来的一半。
② 采用分层抽样 (Stratified Sampling):
▮▮▮▮⚝ 如果总体可以划分为若干个同质 (homogeneous) 的层 (strata),可以在每一层内进行随机抽样,然后将各层样本合并成总样本。
▮▮▮▮⚝ 分层抽样可以减小层内变异,从而减小抽样误差,提高估计的精确性。
③ 提高测量的可靠性 (Reliability) 和效度 (Validity):
▮▮▮▮⚝ 虽然测量误差与抽样误差不同,但高质量的测量可以减少总体的变异性,间接地减小抽样误差的影响。
▮▮▮▮⚝ 使用可靠和有效的测量工具,可以更准确地反映个体的真实特征,提高样本统计量的代表性。
理解抽样误差的概念和来源,有助于我们正确认识样本统计量与总体参数之间的关系,并在心理学研究中合理地进行统计推断。在后续章节中,我们将学习如何使用抽样分布来量化和控制抽样误差,进行参数估计和假设检验。
3.2.2 中心极限定理 (Central Limit Theorem)
中心极限定理 (Central Limit Theorem, CLT) 是统计学中最重要、最 фундаментальных 定理之一。它描述了样本均值 (sample mean) 的抽样分布的性质,即使总体分布 (population distribution) 不是正态分布 (normal distribution),样本均值的抽样分布也趋近于正态分布。
中心极限定理的内容:
假设从一个总体中独立同分布 (independent and identically distributed, i.i.d.) 地随机抽取样本容量为 \(n\) 的样本。无论总体分布的形状如何,当样本容量 \(n\) 足够大时,样本均值 \(\bar{X}\) 的抽样分布近似服从正态分布。
更具体地说,如果总体均值为 \(\mu\),总体标准差为 \(\sigma\),则样本均值 \(\bar{X}\) 的抽样分布近似服从均值为 \(\mu\),标准差为 \(\frac{\sigma}{\sqrt{n}}\) 的正态分布。即:
\[ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{或} \quad \bar{X} \approx N\left(\mu, \frac{\sigma}{\sqrt{n}}\right) \]
其中,\(\frac{\sigma}{\sqrt{n}}\) 称为均值标准误 (standard error of the mean, SEM),它量化了样本均值抽样分布的离散程度,也反映了抽样误差的大小。
中心极限定理的条件:
中心极限定理的成立需要满足一定的条件:
① 独立性 (Independence):样本中的每个观测值必须是独立的。即一个个体的观测值不应影响其他个体的观测值。在随机抽样中,通常可以满足独立性条件。
② 同分布 (Identically Distributed):样本中的每个观测值都来自同一个总体分布。即所有个体都遵循相同的概率分布。
③ 样本容量足够大 (Sufficiently Large Sample Size):样本容量 \(n\) 需要足够大。 “足够大” 的标准并没有严格的界限,但通常认为当 \(n \geq 30\) 时,中心极限定理的近似效果就比较好。如果总体分布本身就接近正态分布,则即使样本容量较小,样本均值的抽样分布也很快趋近于正态分布。
中心极限定理的重要性:
中心极限定理在推论统计学中具有极其重要的地位,原因如下:
① 正态性假设的来源:中心极限定理为许多统计方法(如 t 检验、方差分析、回归分析等)中正态性假设 (normality assumption) 提供了理论基础。即使总体分布不是正态分布,只要样本容量足够大,我们就可以近似地认为样本均值的抽样分布是正态分布,从而可以使用基于正态分布的统计方法。
② 参数估计的基础:中心极限定理使得我们可以使用样本均值来估计总体均值,并计算估计的置信区间 (confidence interval)。由于样本均值的抽样分布是正态分布,我们可以利用正态分布的性质,构建置信区间,量化估计的不确定性 (uncertainty)。
③ 假设检验的基础:中心极限定理使得我们可以进行假设检验 (hypothesis testing)。在假设检验中,我们需要计算检验统计量 (test statistic) 的 p 值 (p-value),而 p 值的计算通常需要知道检验统计量的抽样分布。对于均值检验,中心极限定理保证了样本均值的抽样分布近似正态分布,从而可以使用正态分布或 t 分布来计算 p 值。
中心极限定理的直观理解:
我们可以通过一个简单的例子来直观理解中心极限定理。假设总体分布是均匀分布 (uniform distribution),即每个值出现的概率都相等。当我们从这个均匀分布的总体中抽取样本时,样本均值的分布会发生变化。
⚝ 当样本容量 \(n=1\) 时,样本均值的分布就是总体分布,仍然是均匀分布。
⚝ 当样本容量 \(n=2\) 时,样本均值的分布开始趋向于三角形分布 (triangular distribution),中间的值出现的概率更高。
⚝ 当样本容量 \(n\) 逐渐增大时,样本均值的分布越来越接近钟形曲线 (bell curve),即正态分布。
这个例子表明,随着样本容量的增大,样本均值的分布逐渐集中在总体均值附近,并且分布的形状越来越接近正态分布,这就是中心极限定理所描述的现象。
中心极限定理的应用:
中心极限定理在心理学研究中有着广泛的应用。例如:
① 大样本均值检验:当样本容量较大时,我们可以使用 z 检验 (z-test) 或 t 检验 (t-test) 来检验样本均值与总体均值之间是否存在显著差异。中心极限定理保证了样本均值的抽样分布近似正态分布,从而可以使用这些检验方法。
② 构建总体均值的置信区间:我们可以使用样本均值和均值标准误,根据正态分布或 t 分布,构建总体均值的置信区间,估计总体均值的范围。
③ 元分析 (meta-analysis):在元分析中,我们需要整合多个研究的效应量 (effect size)。中心极限定理可以应用于效应量的抽样分布,使得我们可以使用正态分布的方法进行元分析。
总之,中心极限定理是推论统计学的基石,它为我们使用样本数据推断总体特征提供了理论依据。理解中心极限定理,有助于我们更好地应用统计方法,进行科学研究。
3.2.3 均值抽样分布 (Sampling Distribution of the Mean)
均值抽样分布 (sampling distribution of the mean) 是指样本均值 \(\bar{X}\) 的所有可能取值的概率分布。它是推论统计学中一个核心概念,是进行参数估计和假设检验的基础。
构建均值抽样分布:
为了理解均值抽样分布,我们可以设想一个过程:
① 确定总体 (population):首先,明确研究的总体,例如,所有大学生的智力水平。
② 随机抽样 (random sampling):从总体中随机抽取一个样本容量为 \(n\) 的样本,例如,随机抽取 50 名大学生。
③ 计算样本均值 (sample mean):计算这个样本的均值 \(\bar{X}_1\)。
④ 重复抽样 (repeat sampling):将抽取的样本放回总体,再次随机抽取一个样本容量为 \(n\) 的样本,计算样本均值 \(\bar{X}_2\)。重复这个过程无数次 (theoretically infinite times)。
⑤ 构建分布 (distribution):将所有可能的样本均值 \(\bar{X}_1, \bar{X}_2, \bar{X}_3, ...\) 及其对应的概率绘制成一个分布图,这就是均值抽样分布。
在实际研究中,我们不可能进行无限次重复抽样。但通过理论推导和计算机模拟,我们可以了解均值抽样分布的性质。
均值抽样分布的性质:
根据中心极限定理,我们知道,当样本容量 \(n\) 足够大时,均值抽样分布具有以下重要性质:
① 形状 (Shape):均值抽样分布近似服从正态分布,无论总体分布的形状如何。样本容量越大,近似程度越高。
② 中心趋势 (Central Tendency):均值抽样分布的均值 (mean of the sampling distribution) 等于总体均值 \(\mu\)。也就是说,样本均值的平均值等于总体均值。这表明样本均值是总体均值的无偏估计 (unbiased estimator)。
\[ E(\bar{X}) = \mu \]
③ 离散程度 (Dispersion):均值抽样分布的标准差 (standard deviation of the sampling distribution) 称为均值标准误 (standard error of the mean, SEM),记为 \(\sigma_{\bar{X}}\) 或 \(SE(\bar{X})\)。均值标准误等于总体标准差 \(\sigma\) 除以样本容量的平方根 \(\sqrt{n}\)。
\[ \sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}} \]
均值标准误反映了样本均值抽样分布的离散程度,也量化了抽样误差的大小。样本容量越大,均值标准误越小,样本均值越集中在总体均值附近,抽样误差越小。
均值抽样分布的应用:
均值抽样分布在推论统计学中有着广泛的应用,主要包括:
① 参数估计 (Parameter Estimation):
▮▮▮▮⚝ 点估计 (point estimation):样本均值 \(\bar{X}\) 是总体均值 \(\mu\) 的点估计。由于均值抽样分布的均值等于总体均值,样本均值是总体均值的无偏估计。
▮▮▮▮⚝ 区间估计 (interval estimation):我们可以利用均值抽样分布构建总体均值的置信区间。例如,在 95% 的置信水平下,总体均值的 95% 置信区间可以近似表示为:
\[ \bar{X} \pm 1.96 \times \sigma_{\bar{X}} \]
这个区间表示,如果我们重复抽样多次,大约 95% 的置信区间会包含总体均值 \(\mu\)。
② 假设检验 (Hypothesis Testing):
▮▮▮▮⚝ 在假设检验中,我们需要检验关于总体均值的假设,例如,零假设 \(H_0: \mu = \mu_0\)。
▮▮▮▮⚝ 我们可以计算样本均值 \(\bar{X}\) 与假设总体均值 \(\mu_0\) 之间的差异,并将其标准化为 z 统计量 (z-statistic):
\[ z = \frac{\bar{X} - \mu_0}{\sigma_{\bar{X}}} \]
▮▮▮▮⚝ 在零假设成立的条件下,根据中心极限定理,z 统计量近似服从标准正态分布 \(N(0, 1)\)。我们可以根据 z 统计量的值,计算 p 值,判断是否拒绝零假设。
③ 样本容量估计 (Sample Size Estimation):
▮▮▮▮⚝ 在研究设计阶段,我们需要确定合适的样本容量。均值抽样分布可以帮助我们估计达到特定精度所需的样本容量。
▮▮▮▮⚝ 例如,如果我们希望将总体均值的估计误差控制在一定范围内,可以根据均值标准误的公式,反推出所需的样本容量。
总体标准差 \(\sigma\) 已知与未知的情况:
在实际应用中,总体标准差 \(\sigma\) 通常是未知的。根据总体标准差是否已知,均值抽样分布的应用略有不同。
① 总体标准差 \(\sigma\) 已知:
▮▮▮▮⚝ 当总体标准差 \(\sigma\) 已知时,我们可以直接使用正态分布来近似均值抽样分布。
▮▮▮▮⚝ 在参数估计中,可以使用 z 分布构建置信区间。
▮▮▮▮⚝ 在假设检验中,可以使用 z 检验。
② 总体标准差 \(\sigma\) 未知:
▮▮▮▮⚝ 当总体标准差 \(\sigma\) 未知时,我们需要使用样本标准差 \(s\) 来估计总体标准差 \(\sigma\)。
▮▮▮▮⚝ 此时,均值抽样分布不再严格服从正态分布,而是服从 t 分布 (t-distribution)。
▮▮▮▮⚝ 在参数估计中,需要使用 t 分布构建置信区间。
▮▮▮▮⚝ 在假设检验中,需要使用 t 检验。
当样本容量 \(n\) 较大时(通常 \(n \geq 30\)),t 分布近似于正态分布,因此,即使总体标准差未知,我们也可以近似地使用正态分布进行分析。但当样本容量较小时,使用 t 分布更为准确。 理解均值抽样分布的性质和应用,是掌握推论统计学的关键。在后续章节中,我们将深入探讨如何使用均值抽样分布进行参数估计和假设检验,解决心理学研究中的实际问题。 ### 3.3 参数估计 (Parameter Estimation) ### 3.3.1 点估计 (Point Estimation) **参数估计** (parameter estimation) 是推论统计学的重要组成部分,其目的是利用样本数据来估计总体参数的值。**点估计** (point estimation) 是参数估计的一种形式,它使用**样本统计量** (sample statistic) 的一个具体数值来作为**总体参数** (population parameter) 的估计值。 **点估计的概念:** 点估计是用一个**具体的数值**来估计总体参数。例如,用样本均值 \(\bar{X}\) 来估计总体均值 \(\mu\),用样本比例 \(p\) 来估计总体比例 \(P\),用样本方差 \(s^2\) 来估计总体方差 \(\sigma^2\)。
常用的点估计量 (Point Estimators):
在心理统计学中,常用的点估计量包括:
① 总体均值 \(\mu\) 的点估计:
▮▮▮▮⚝ 样本均值 \(\bar{X} = \frac{\sum_{i=1}^{n} X_i}{n}\) 是总体均值 \(\mu\) 最常用的点估计量。
▮▮▮▮⚝ 根据均值抽样分布的性质,样本均值 \(\bar{X}\) 是总体均值 \(\mu\) 的无偏估计 (unbiased estimator) 和一致估计 (consistent estimator)。
② 总体方差 \(\sigma^2\) 的点估计:
▮▮▮▮⚝ 样本方差 \(s^2 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}\) 是总体方差 \(\sigma^2\) 的常用点估计量。
▮▮▮▮⚝ 注意,这里使用的是 \(n-1\) 作为分母,而不是 \(n\)。使用 \(n-1\) 可以使样本方差 \(s^2\) 成为总体方差 \(\sigma^2\) 的无偏估计。如果使用 \(n\) 作为分母,得到的样本方差会低估总体方差。
③ 总体标准差 \(\sigma\) 的点估计:
▮▮▮▮⚝ 样本标准差 \(s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n} (X_i - \bar{X})^2}{n-1}}\) 可以作为总体标准差 \(\sigma\) 的点估计量。
▮▮▮▮⚝ 然而,样本标准差 \(s\) 不是总体标准差 \(\sigma\) 的无偏估计,而是一个略微低估的估计。但当样本容量 \(n\) 较大时,偏差很小,可以近似作为无偏估计使用。
④ 总体比例 \(P\) 的点估计:
▮▮▮▮⚝ 样本比例 \(p = \frac{X}{n}\) 是总体比例 \(P\) 的点估计量,其中 \(X\) 是样本中具有某种特征的个体数量,\(n\) 是样本容量。
▮▮▮▮⚝ 样本比例 \(p\) 是总体比例 \(P\) 的无偏估计 和一致估计。
点估计量的评价标准:
好的点估计量应具备以下特性:
① 无偏性 (Unbiasedness):
▮▮▮▮⚝ 如果一个估计量的期望值 (expected value) 等于被估计的总体参数,则称该估计量是无偏的。
▮▮▮▮⚝ 例如,\(E(\bar{X}) = \mu\),因此样本均值 \(\bar{X}\) 是总体均值 \(\mu\) 的无偏估计。
▮▮▮▮⚝ 无偏性意味着,如果重复抽样多次,点估计量的平均值会接近总体参数的真实值,没有系统性的偏差。
② 有效性 (Efficiency):
▮▮▮▮⚝ 在所有无偏估计量中,方差最小的估计量称为最有效估计量。
▮▮▮▮⚝ 有效性反映了估计量的精确性 (precision)。方差越小,估计值越集中在总体参数的真实值附近,估计越精确。
③ 一致性 (Consistency):
▮▮▮▮⚝ 随着样本容量 \(n\) 的增大,估计量的值越来越接近总体参数的真实值,则称该估计量是一致的。
▮▮▮▮⚝ 一致性保证了当样本容量足够大时,点估计量能够提供可靠的估计。
④ 充分性 (Sufficiency):
▮▮▮▮⚝ 如果一个估计量包含了样本中关于总体参数的所有信息,则称该估计量是充分的。
▮▮▮▮⚝ 充分性意味着,使用充分估计量进行参数估计,不会损失任何有用的信息。
最大似然估计 (Maximum Likelihood Estimation, MLE):
最大似然估计 是一种常用的点估计方法。其基本思想是:选择最有可能产生观测数据的参数值作为参数的估计值。
⚝ 似然函数 (likelihood function) \(L(\theta; \mathbf{x})\) 表示在给定参数 \(\theta\) 的条件下,观察到样本数据 \(\mathbf{x} = (x_1, x_2, ..., x_n)\) 的概率。
⚝ 最大似然估计的目标是找到使似然函数 \(L(\theta; \mathbf{x})\) 达到最大值的参数值 \(\hat{\theta}_{MLE}\),作为参数 \(\theta\) 的点估计。
最大似然估计具有良好的统计性质,例如,在一定条件下,最大似然估计是渐近无偏 (asymptotically unbiased)、渐近有效 (asymptotically efficient) 和渐近正态 (asymptotically normal) 的。
点估计的局限性:
点估计只给出了总体参数的一个具体数值,没有提供估计的精确程度和不确定性信息。我们无法知道点估计值与总体参数真实值之间的差距有多大,以及估计的可靠性如何。为了弥补点估计的不足,我们需要使用区间估计。
3.3.2 区间估计 (Interval Estimation)
区间估计 (interval estimation) 是参数估计的另一种形式,它给出一个参数的可能取值范围,而不是一个具体的数值。区间估计不仅提供了一个估计值,还提供了估计的精确程度和不确定性信息。
区间估计的概念:
区间估计是用一个区间 (interval) 来估计总体参数。例如,总体均值 \(\mu\) 的区间估计可能表示为 \((\bar{X}_{lower}, \bar{X}_{upper})\),表示总体均值 \(\mu\) 可能落在 \(\bar{X}_{lower}\) 和 \(\bar{X}_{upper}\) 之间。
置信区间 (Confidence Interval, CI):
最常用的区间估计形式是置信区间 (confidence interval)。置信区间是指在预先设定的置信水平 (confidence level) 下,包含总体参数真实值的概率区间。
⚝ 置信水平 (confidence level) 通常用 \(1-\alpha\) 表示,其中 \(\alpha\) 是显著性水平 (significance level)。常用的置信水平有 90%、95% 和 99%,对应的 \(\alpha\) 值分别为 0.10、0.05 和 0.01。
⚝ 例如,95% 置信区间表示,如果我们重复抽样 100 次,并每次都构建置信区间,那么大约有 95 个区间会包含总体参数的真实值,而另外 5 个区间则不会包含。
置信区间的构建方法:
构建置信区间的基本步骤如下:
① 选择合适的样本统计量:例如,估计总体均值 \(\mu\) 时,选择样本均值 \(\bar{X}\) 作为估计量。
② 确定抽样分布:根据中心极限定理或总体分布的性质,确定样本统计量的抽样分布。例如,样本均值 \(\bar{X}\) 的抽样分布近似服从正态分布或 t 分布。
③ 选择置信水平 \(1-\alpha\):常用的置信水平为 95% (\(\alpha = 0.05\))。
④ 计算临界值 (critical value):根据抽样分布和置信水平,查找临界值。例如,对于正态分布,95% 置信水平的临界值为 \(z_{\alpha/2} = z_{0.025} = 1.96\)。对于 t 分布,需要根据自由度 (degrees of freedom, df) 查找 t 分布表。
⑤ 计算边际误差 (margin of error, ME):边际误差是临界值与标准误 (standard error, SE) 的乘积。例如,总体均值 \(\mu\) 的边际误差为 \(ME = z_{\alpha/2} \times SE(\bar{X})\) 或 \(ME = t_{\alpha/2, df} \times SE(\bar{X})\)。
⑥ 构建置信区间:置信区间由样本统计量减去边际误差得到下限,加上边际误差得到上限。例如,总体均值 \(\mu\) 的置信区间为 \((\bar{X} - ME, \bar{X} + ME)\)。
总体均值 \(\mu\) 的置信区间:
① 总体标准差 \(\sigma\) 已知:
▮▮▮▮⚝ 样本均值 \(\bar{X}\) 的抽样分布近似服从正态分布 \(N(\mu, \frac{\sigma^2}{n})\)。
▮▮▮▮⚝ 均值标准误 \(SE(\bar{X}) = \frac{\sigma}{\sqrt{n}}\)。
▮▮▮▮⚝ \(1-\alpha\) 置信区间为:
\[ \left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right) \]
▮▮▮▮⚝ 其中,\(z_{\alpha/2}\) 是标准正态分布的 \(1-\alpha/2\) 分位数。
② 总体标准差 \(\sigma\) 未知:
▮▮▮▮⚝ 当总体标准差 \(\sigma\) 未知时,使用样本标准差 \(s\) 估计 \(\sigma\),均值标准误估计为 \(SE(\bar{X}) = \frac{s}{\sqrt{n}}\)。
▮▮▮▮⚝ 样本均值 \(\bar{X}\) 的抽样分布近似服从 t 分布,自由度 \(df = n-1\)。
▮▮▮▮⚝ \(1-\alpha\) 置信区间为:
\[ \left(\bar{X} - t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}, \bar{X} + t_{\alpha/2, n-1} \frac{s}{\sqrt{n}}\right) \]
▮▮▮▮⚝ 其中,\(t_{\alpha/2, n-1}\) 是自由度为 \(n-1\) 的 t 分布的 \(1-\alpha/2\) 分位数。
置信区间的解释:
置信区间的解释需要注意以下几点:
① 置信水平的含义:置信水平是指在重复抽样的情况下,置信区间包含总体参数真实值的频率。例如,95% 置信水平并不意味着总体参数有 95% 的概率落在该区间内,而是指在大量重复抽样中,95% 的置信区间会包含总体参数。
② 置信区间的宽度:置信区间的宽度反映了估计的精确程度。区间越窄,估计越精确;区间越宽,估计越不精确。
▮▮▮▮⚝ 影响置信区间宽度的因素包括:
▮▮▮▮⚝ 置信水平:置信水平越高,临界值越大,区间越宽。
▮▮▮▮⚝ 样本容量:样本容量越大,标准误越小,区间越窄。
▮▮▮▮⚝ 总体变异性:总体变异性越大(\(\sigma\) 或 \(s\) 越大),标准误越大,区间越宽。
③ 置信区间的随机性:置信区间是随机区间,其上下限都是样本统计量的函数,会随着样本的变化而变化。而总体参数是固定值,不会变化。
置信区间的应用:
置信区间在心理学研究中有着广泛的应用,例如:
① 估计总体均值:构建总体均值的置信区间,可以估计总体在某个心理特质上的平均水平,并量化估计的不确定性。
② 比较组间差异:在比较两组或多组的均值差异时,可以构建均值差异的置信区间。如果置信区间不包含 0,则可以认为组间差异具有统计学意义。
③ 评估效应量:在效应量估计中,可以构建效应量的置信区间,评估效应量的大小和精确程度。
3.3.3 置信区间 (Confidence Interval)
(本节内容与 3.3.2 区间估计内容高度重合,此处可以进一步细化和补充,例如,不同参数的置信区间构建方法,置信区间的可视化表示,以及置信区间在研究报告中的呈现方式等。)
不同参数的置信区间构建:
除了总体均值 \(\mu\) 的置信区间,我们还可以构建其他总体参数的置信区间,例如:
① 总体比例 \(P\) 的置信区间:
▮▮▮▮⚝ 当样本容量 \(n\) 足够大时(通常 \(np \geq 10\) 且 \(n(1-p) \geq 10\)),样本比例 \(p\) 的抽样分布近似服从正态分布。
▮▮▮▮⚝ 比例标准误 \(SE(p) = \sqrt{\frac{p(1-p)}{n}}\)。
▮▮▮▮⚝ \(1-\alpha\) 置信区间为:
\[ \left(p - z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}}, p + z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}}\right) \]
② 总体方差 \(\sigma^2\) 的置信区间:
▮▮▮▮⚝ 样本方差 \(s^2\) 的抽样分布与卡方分布 (chi-square distribution, \(\chi^2\)) 有关。
▮▮▮▮⚝ \(1-\alpha\) 置信区间为:
\[ \left(\frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}}, \frac{(n-1)s^2}{\chi^2_{1-\alpha/2, n-1}}\right) \]
▮▮▮▮⚝ 其中,\(\chi^2_{\alpha/2, n-1}\) 和 \(\chi^2_{1-\alpha/2, n-1}\) 是自由度为 \(n-1\) 的卡方分布的临界值。
③ 两总体均值之差 \(\mu_1 - \mu_2\) 的置信区间:
▮▮▮▮⚝ 独立样本:当两样本独立时,样本均值之差 \(\bar{X}_1 - \bar{X}_2\) 的抽样分布近似服从正态分布或 t 分布。
▮▮▮▮⚝ 总体方差已知时,使用 z 分布。
▮▮▮▮⚝ 总体方差未知但相等时,使用合并方差 t 检验。
▮▮▮▮⚝ 总体方差未知且不相等时,使用 Welch's t 检验。
▮▮▮▮⚝ 配对样本:当两样本配对时,计算配对差值 \(D = X_{1i} - X_{2i}\),然后构建差值均值 \(\mu_D\) 的置信区间,方法与单样本均值置信区间类似。
置信区间的可视化表示:
置信区间可以通过误差条图 (error bar plot) 进行可视化表示。在误差条图中,点估计值(如样本均值)用点或条形表示,置信区间用误差条 (error bar) 表示。误差条的长度通常表示 95% 置信区间的宽度。
置信区间在研究报告中的呈现:
在心理学研究报告中,置信区间通常与点估计值一起报告,以提供更全面的估计信息。例如,在报告均值时,可以同时报告均值和 95% 置信区间,如 “均值 = 5.6 (95% CI [4.8, 6.4])”。
置信区间与假设检验的关系:
置信区间和假设检验之间存在密切联系。对于双侧假设检验 (two-tailed hypothesis test),如果零假设值 (null hypothesis value) 落在 \(1-\alpha\) 置信区间之外,则在 \(\alpha\) 显著性水平下,可以拒绝零假设。反之,如果零假设值落在置信区间之内,则不能拒绝零假设。
例如,对于总体均值 \(\mu\) 的假设检验 \(H_0: \mu = \mu_0\),如果 \(\mu_0\) 不在 \(\mu\) 的 \(1-\alpha\) 置信区间 \((\bar{X}_{lower}, \bar{X}_{upper})\) 内,则在 \(\alpha\) 显著性水平下,拒绝 \(H_0\)。
总结:
置信区间是推论统计学中重要的工具,它提供了总体参数的可能取值范围,并量化了估计的不确定性。理解置信区间的概念、构建方法和解释,有助于我们在心理学研究中进行更准确、更可靠的统计推断。
END_OF_CHAPTER
4. chapter 4: 假设检验 (Hypothesis Testing)
4.1 假设检验的基本原理 (Basic Principles of Hypothesis Testing)
假设检验 (Hypothesis Testing) 是推论统计学 (Inferential Statistics) 的核心内容之一,它是一种用于判断样本数据是否支持关于总体 (Population) 的某种假设的统计方法。在心理学研究中,我们常常需要验证一些理论假设,例如,某种心理干预是否有效,或者不同群体在某种心理特质上是否存在差异。假设检验为我们提供了一套严谨的流程和方法,以科学地回答这些问题。
4.1.1 零假设与备择假设 (Null Hypothesis and Alternative Hypothesis)
在假设检验中,我们首先需要提出两个相互对立的假设:零假设 (Null Hypothesis, \(H_0\)) 和备择假设 (Alternative Hypothesis, \(H_1\) 或 \(H_a\))。
① 零假设 (Null Hypothesis, \(H_0\)):
零假设通常是我们想要否定的假设,它常常表述为“没有效应”、“没有差异”或“没有关系”。在心理学研究中,零假设通常代表着我们研究的干预或操作没有产生预期的效果,或者不同组别之间在我们关注的变量上没有显著差异。
例如:
⚝ 研究某种新的认知行为疗法 (Cognitive Behavioral Therapy, CBT) 对抑郁症 (Depression) 的治疗效果。零假设可以是:新的CBT疗法对抑郁症的治疗没有效果,即接受CBT疗法和未接受CBT疗法的人群在抑郁水平上没有差异。
\[ H_0: \mu_{CBT} = \mu_{Control} \]
其中,\(\mu_{CBT}\) 代表接受CBT疗法人群的平均抑郁水平,\(\mu_{Control}\) 代表未接受CBT疗法人群的平均抑郁水平。
② 备择假设 (Alternative Hypothesis, \(H_1\) 或 \(H_a\)):
备择假设是我们希望支持的假设,它通常表述为“存在效应”、“存在差异”或“存在关系”。备择假设与零假设互斥,当零假设被拒绝时,我们会接受备择假设。备择假设可以根据研究的具体目的,分为单侧检验 (One-tailed Test) 和 双侧检验 (Two-tailed Test)。
⚝ 双侧检验 (Two-tailed Test):
双侧检验只关注差异的存在,而不关心差异的方向。备择假设表述为总体参数不等于某个特定值,或者不同组别之间存在差异,但没有明确指出差异的方向。
1
例如,对于上述CBT疗法研究,双侧检验的备择假设可以是:新的CBT疗法对抑郁症的治疗**有效果**,即接受CBT疗法和未接受CBT疗法的人群在抑郁水平上**存在差异**。
2
\[ H_1: \mu_{CBT} \neq \mu_{Control} \]
⚝ 单侧检验 (One-tailed Test):
单侧检验不仅关注差异的存在,还关注差异的方向。备择假设表述为总体参数大于或小于某个特定值,或者不同组别之间存在定向的差异。单侧检验通常在研究者对差异的方向有明确的理论预期或先验知识时使用。
1
例如,如果研究者预期新的CBT疗法**能够降低**抑郁水平,单侧检验的备择假设可以是:新的CBT疗法**能够降低**抑郁水平,即接受CBT疗法人群的平均抑郁水平**低于**未接受CBT疗法人群的平均抑郁水平。
2
\[ H_1: \mu_{CBT} < \mu_{Control} \]
3
或者,如果研究者预期新的CBT疗法**会提高**抑郁水平(这种情况在实际研究中较少见,但作为例子说明单侧检验的方向性),单侧检验的备择假设可以是:新的CBT疗法**会提高**抑郁水平,即接受CBT疗法人群的平均抑郁水平**高于**未接受CBT疗法人群的平均抑郁水平。
4
\[ H_1: \mu_{CBT} > \mu_{Control} \]
总结:
在设定零假设和备择假设时,需要明确研究目的,并根据研究问题选择合适的假设类型(双侧或单侧)。零假设通常是“无效假设”,备择假设则是研究者希望验证的“有效假设”。
4.1.2 显著性水平 (Significance Level)
显著性水平 (Significance Level, \(\alpha\)) 是在假设检验中预先设定的一个概率值,它代表着我们拒绝零假设时,犯 Ⅰ型错误 (Type I Error) 的最大允许概率。换句话说,显著性水平是我们容忍的错误拒绝零假设的风险程度。
① 常用显著性水平:
在心理学研究中,常用的显著性水平通常设置为 \(\alpha = 0.05\)、\(\alpha = 0.01\) 或 \(\alpha = 0.001\)。
⚝ \(\alpha = 0.05\):表示如果零假设实际上为真,我们拒绝零假设的概率为 5%。这意味着,如果我们进行 100 次类似的假设检验,平均会有 5 次会错误地拒绝零假设。
⚝ \(\alpha = 0.01\):表示如果零假设实际上为真,我们拒绝零假设的概率为 1%。
⚝ \(\alpha = 0.001\):表示如果零假设实际上为真,我们拒绝零假设的概率为 0.1%。
② 显著性水平的选择:
显著性水平的选择取决于研究的具体情境和研究者对 Ⅰ型错误 的容忍程度。
⚝ 如果研究结果的错误拒绝零假设会带来严重的后果(例如,错误的药物疗法可能对患者造成伤害),则应该选择更小的显著性水平(如 \(\alpha = 0.01\) 或 \(\alpha = 0.001\),更为保守)。
⚝ 如果研究是探索性的,或者错误拒绝零假设的后果相对较小,则可以选择较大的显著性水平(如 \(\alpha = 0.05\),相对宽松)。
③ \(p\) 值 (p-value):
在进行假设检验后,我们会得到一个 \(p\) 值 (p-value)。\(p\) 值是指,在零假设为真的前提下,观察到当前样本结果或更极端结果的概率。
⚝ 决策规则:
我们将 \(p\) 值与预先设定的显著性水平 \(\alpha\) 进行比较,以决定是否拒绝零假设。
▮▮▮▮ⓐ 如果 \(p \leq \alpha\),则我们拒绝零假设,认为样本数据提供了显著的证据来反对零假设,支持备择假设。我们称结果在 \(\alpha\) 水平上统计显著 (Statistically Significant)。
▮▮▮▮ⓑ 如果 \(p > \alpha\),则我们不拒绝零假设,认为样本数据没有提供充分的证据来反对零假设。这并不意味着零假设一定为真,而只是意味着我们没有足够的证据来拒绝它。
总结:
显著性水平 \(\alpha\) 是预先设定的拒绝零假设的风险阈值,而 \(p\) 值是根据样本数据计算出的实际风险概率。通过比较 \(p\) 值和 \(\alpha\),我们可以做出是否拒绝零假设的决策。
4.1.3 Ⅰ型错误与Ⅱ型错误 (Type I Error and Type II Error)
在假设检验中,我们的决策(拒绝或不拒绝零假设)是基于样本数据做出的,而样本数据本身就存在随机性。因此,无论我们做出何种决策,都可能存在犯错误的风险。在假设检验中,主要存在两种类型的错误: Ⅰ型错误 (Type I Error) 和 Ⅱ型错误 (Type II Error)。
决策结果 | \(H_0\) 实际上为真 (True \(H_0\)) | \(H_0\) 实际上为假 (False \(H_0\)) |
---|---|---|
拒绝 \(H_0\) (Reject \(H_0\)) | Ⅰ型错误 (Type I Error) (False Positive) | 正确决策 (Correct Decision) (True Positive) |
不拒绝 \(H_0\) (Fail to Reject \(H_0\)) | 正确决策 (Correct Decision) (True Negative) | Ⅱ型错误 (Type II Error) (False Negative) |
① Ⅰ型错误 (Type I Error):
Ⅰ型错误,又称为 假阳性错误 (False Positive),是指当 零假设实际上为真 时,我们错误地拒绝了零假设。犯 Ⅰ型错误的概率等于我们预先设定的显著性水平 \(\alpha\)。
⚝ 例子:
在CBT疗法研究中,如果新的CBT疗法实际上没有效果(\(H_0\) 为真),但由于样本的随机性,我们得到的数据恰好显示接受CBT疗法组的抑郁水平显著低于对照组,从而错误地拒绝了零假设,得出“CBT疗法有效”的结论,这就犯了 Ⅰ型错误。
⚝ 控制 Ⅰ型错误:
通过降低显著性水平 \(\alpha\) (例如,从 0.05 降低到 0.01 或 0.001),我们可以减小犯 Ⅰ型错误的概率。但降低 \(\alpha\) 的同时,会增加犯 Ⅱ型错误的概率(见下文)。
② Ⅱ型错误 (Type II Error):
Ⅱ型错误,又称为 假阴性错误 (False Negative),是指当 零假设实际上为假 时(即 备择假设为真),我们错误地没有拒绝零假设。犯 Ⅱ型错误的概率用 \(\beta\) 表示,\(1 - \beta\) 称为 统计功效 (Statistical Power),表示当备择假设为真时,我们正确地拒绝零假设的概率。
⚝ 例子:
在CBT疗法研究中,如果新的CBT疗法实际上是有效的(\(H_0\) 为假,\(H_1\) 为真),但由于样本量不足或效应量较小等原因,我们得到的数据没有显示出显著的差异,从而没有拒绝零假设,得出“CBT疗法无效”的结论,这就犯了 Ⅱ型错误。
⚝ 影响 Ⅱ型错误的因素:
犯 Ⅱ型错误的概率 \(\beta\) 受多种因素影响,主要包括:
▮▮▮▮ⓐ 效应量 (Effect Size):效应量越大,备择假设越“真”,越容易被检验出来,\(\beta\) 越小。
▮▮▮▮ⓑ 样本量 (Sample Size):样本量越大,统计检验的功效越高,越容易发现真实存在的效应,\(\beta\) 越小。
▮▮▮▮ⓒ 显著性水平 \(\alpha\):在其他条件不变的情况下,\(\alpha\) 越大,越容易拒绝零假设,\(\beta\) 越小。但增大 \(\alpha\) 会增加 Ⅰ型错误的风险。
▮▮▮▮ⓓ 总体标准差 (\(\sigma\)):总体标准差越小,数据变异性越小,越容易发现真实效应,\(\beta\) 越小。
⚝ 控制 Ⅱ型错误:
为了减小犯 Ⅱ型错误的概率,我们可以:
▮▮▮▮ⓐ 增大样本量:这是最常用且有效的方法。
▮▮▮▮ⓑ 提高显著性水平 \(\alpha\):但会增加 Ⅰ型错误的风险。
▮▮▮▮ⓒ 提高测量工具的可靠性和效度,控制实验误差,以减小数据变异性。
▮▮▮▮ⓓ 在研究设计阶段进行 功效分析 (Power Analysis),预先估计所需的样本量,以达到一定的统计功效水平(通常希望功效 \(1 - \beta\) 至少达到 0.80)。
总结:
Ⅰ型错误和Ⅱ型错误是假设检验中不可避免的两种错误类型。研究者需要在控制这两种错误之间进行权衡。通常,心理学研究更倾向于控制 Ⅰ型错误,即将显著性水平 \(\alpha\) 设置在一个相对较低的水平(如 0.05),以避免错误地得出“存在效应”的结论。同时,也需要关注统计功效,尽可能增大样本量,减小 Ⅱ型错误的风险,确保能够发现真实存在的效应。
4.2 单样本假设检验 (One-Sample Hypothesis Testing)
单样本假设检验 (One-Sample Hypothesis Testing) 是指检验一个样本所来自的总体参数(如均值)是否等于某个已知的或理论值。常用的单样本假设检验方法包括单样本 z 检验 (One-Sample z-test) 和单样本 t 检验 (One-Sample t-test)。
4.2.1 单样本z检验 (One-Sample z-test)
单样本 z 检验 (One-Sample z-test) 用于检验总体均值 \(\mu\) 是否等于某个已知值 \(\mu_0\)。使用单样本 z 检验需要满足以下条件:
① 数据类型:检验的变量为连续变量 (Continuous Variable)。
② 独立性:样本数据之间相互独立。
③ 正态性:样本数据来自的总体近似服从正态分布 (Normal Distribution)。在样本量较大时(通常 \(n \geq 30\),根据中心极限定理 (Central Limit Theorem)),即使总体分布不是正态分布,样本均值的抽样分布 (Sampling Distribution of the Sample Mean) 也近似服从正态分布,此时也可以使用 z 检验。
④ 总体标准差 \(\sigma\) 已知:这是 z 检验的一个重要前提条件。在实际研究中,总体标准差 \(\sigma\) 通常是未知的,因此 z 检验的应用受到一定的限制。当总体标准差 \(\sigma\) 未知时,通常使用单样本 t 检验(见下一节)。
检验步骤:
① 提出假设:
⚝ 零假设 \(H_0: \mu = \mu_0\) (总体均值等于 \(\mu_0\))
⚝ 备择假设 \(H_1: \mu \neq \mu_0\) (双侧检验) 或 \(H_1: \mu > \mu_0\) 或 \(H_1: \mu < \mu_0\) (单侧检验)
② 计算检验统计量 (Test Statistic):
单样本 z 检验的检验统计量 \(z\) 的计算公式为:
\[ z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \]
其中,\(\bar{X}\) 是样本均值,\(\mu_0\) 是零假设下的总体均值,\(\sigma\) 是总体标准差,\(n\) 是样本量。
1
检验统计量 \(z\) 服从标准正态分布 \(N(0, 1)\)。
③ 确定显著性水平 \(\alpha\):
根据研究的具体情况,设定显著性水平 \(\alpha\)(如 0.05)。
④ 计算 \(p\) 值 (p-value):
根据备择假设的类型(双侧或单侧)和计算出的检验统计量 \(z\),计算 \(p\) 值。
⚝ 双侧检验:\(p = 2 \times P(Z \geq |z|)\) 或 \(p = 2 \times P(Z \leq -|z|)\),其中 \(Z\) 服从标准正态分布。
⚝ 右侧单侧检验 (\(H_1: \mu > \mu_0\)):\(p = P(Z \geq z)\)。
⚝ 左侧单侧检验 (\(H_1: \mu < \mu_0\)):\(p = P(Z \leq z)\)。
1
可以使用统计软件或查阅标准正态分布表来计算 \(p\) 值。
⑤ 做出决策:
比较 \(p\) 值和显著性水平 \(\alpha\)。
⚝ 如果 \(p \leq \alpha\),则拒绝零假设 \(H_0\),接受备择假设 \(H_1\)。
⚝ 如果 \(p > \alpha\),则不拒绝零假设 \(H_0\)。
例子:
假设已知某地区成年人平均智商 (Intelligence Quotient, IQ) 为 \(\mu_0 = 100\),总体标准差 \(\sigma = 15\)。研究者想检验某小学六年级学生的平均 IQ 是否高于该地区成年人平均水平。随机抽取该小学 36 名六年级学生进行 IQ 测试,得到样本平均 IQ 为 \(\bar{X} = 105\)。显著性水平设定为 \(\alpha = 0.05\)。
① 假设:
\(H_0: \mu = 100\) (该小学六年级学生平均 IQ 等于地区成年人平均水平)
\(H_1: \mu > 100\) (该小学六年级学生平均 IQ 高于地区成年人平均水平,右侧单侧检验)
② 检验统计量:
\[ z = \frac{105 - 100}{15 / \sqrt{36}} = \frac{5}{15 / 6} = \frac{5}{2.5} = 2 \]
③ 显著性水平:\(\alpha = 0.05\)
④ \(p\) 值:
右侧单侧检验,\(p = P(Z \geq 2)\)。查标准正态分布表或使用统计软件,得到 \(p \approx 0.0228\)。
⑤ 决策:
由于 \(p = 0.0228 < \alpha = 0.05\),因此拒绝零假设 \(H_0\),接受备择假设 \(H_1\)。结论:该小学六年级学生的平均 IQ 显著高于该地区成年人平均水平(\(z = 2, p < 0.05\),单侧检验)。
总结:
单样本 z 检验适用于总体标准差 \(\sigma\) 已知,且样本数据来自近似正态分布总体的情况。检验步骤包括提出假设、计算检验统计量、确定显著性水平、计算 \(p\) 值和做出决策。
4.2.2 单样本t检验 (One-Sample t-test)
单样本 t 检验 (One-Sample t-test) 用于检验总体均值 \(\mu\) 是否等于某个已知值 \(\mu_0\)。与 z 检验不同的是,t 检验不需要总体标准差 \(\sigma\) 已知,而是使用样本标准差 \(s\) 来估计总体标准差。单样本 t 检验的应用条件与 z 检验类似,但对正态性的要求相对更宽松,尤其是在样本量较大时。
应用条件:
① 数据类型:检验的变量为连续变量 (Continuous Variable)。
② 独立性:样本数据之间相互独立。
③ 正态性:样本数据来自的总体近似服从正态分布 (Normal Distribution)。对于 t 检验,即使总体分布不是严格正态分布,只要没有明显的偏态 (Skewness) 和极端值 (Outliers),t 检验的结果通常也是稳健的。在小样本情况下,正态性假设更为重要。
检验步骤:
① 提出假设:
⚝ 零假设 \(H_0: \mu = \mu_0\) (总体均值等于 \(\mu_0\))
⚝ 备择假设 \(H_1: \mu \neq \mu_0\) (双侧检验) 或 \(H_1: \mu > \mu_0\) 或 \(H_1: \mu < \mu_0\) (单侧检验)
② 计算检验统计量 (Test Statistic):
单样本 t 检验的检验统计量 \(t\) 的计算公式为:
\[ t = \frac{\bar{X} - \mu_0}{s / \sqrt{n}} \]
其中,\(\bar{X}\) 是样本均值,\(\mu_0\) 是零假设下的总体均值,\(s\) 是样本标准差,\(n\) 是样本量。
1
检验统计量 \(t\) 服从自由度 (Degrees of Freedom, \(df\)) 为 \(n-1\) 的 t 分布 (t-distribution)。
③ 确定显著性水平 \(\alpha\):
根据研究的具体情况,设定显著性水平 \(\alpha\)(如 0.05)。
④ 计算 \(p\) 值 (p-value):
根据备择假设的类型(双侧或单侧)、计算出的检验统计量 \(t\) 和自由度 \(df = n-1\),计算 \(p\) 值。
⚝ 双侧检验:\(p = 2 \times P(T_{df} \geq |t|)\) 或 \(p = 2 \times P(T_{df} \leq -|t|)\),其中 \(T_{df}\) 服从自由度为 \(df\) 的 t 分布。
⚝ 右侧单侧检验 (\(H_1: \mu > \mu_0\)):\(p = P(T_{df} \geq t)\)。
⚝ 左侧单侧检验 (\(H_1: \mu < \mu_0\)):\(p = P(T_{df} \leq t)\)。
1
可以使用统计软件或查阅 t 分布表来计算 \(p\) 值。
⑤ 做出决策:
比较 \(p\) 值和显著性水平 \(\alpha\)。
⚝ 如果 \(p \leq \alpha\), 则拒绝零假设 \(H_0\),接受备择假设 \(H_1\)。
⚝ 如果 \(p > \alpha\), 则不拒绝零假设 \(H_0\)。
例子:
研究者想检验某大学生的平均每周学习时间是否不同于全国大学生平均水平 20 小时。随机抽取该大学 25 名大学生,调查其上周学习时间,得到样本平均学习时间 \(\bar{X} = 22\) 小时,样本标准差 \(s = 5\) 小时。显著性水平设定为 \(\alpha = 0.05\)。
① 假设:
\(H_0: \mu = 20\) (该大学大学生平均每周学习时间等于全国大学生平均水平)
\(H_1: \mu \neq 20\) (该大学大学生平均每周学习时间不同于全国大学生平均水平,双侧检验)
② 检验统计量:
\[ t = \frac{22 - 20}{5 / \sqrt{25}} = \frac{2}{5 / 5} = \frac{2}{1} = 2 \]
自由度 \(df = n - 1 = 25 - 1 = 24\)。
③ 显著性水平:\(\alpha = 0.05\)
④ \(p\) 值:
双侧检验,\(p = 2 \times P(T_{24} \geq |2|)\)。查 t 分布表(自由度为 24)或使用统计软件,得到 \(p \approx 0.055\)。
⑤ 决策:
由于 \(p = 0.055 > \alpha = 0.05\),因此不拒绝零假设 \(H_0\)。结论:根据现有样本数据,没有充分证据表明该大学大学生平均每周学习时间显著不同于全国大学生平均水平(\(t(24) = 2, p > 0.05\),双侧检验)。
总结:
单样本 t 检验是心理学研究中最常用的假设检验方法之一,尤其适用于总体标准差 \(\sigma\) 未知,需要用样本标准差 \(s\) 估计的情况。检验步骤与 z 检验类似,但检验统计量服从 t 分布,需要考虑自由度。
4.3 双样本假设检验 (Two-Sample Hypothesis Testing)
双样本假设检验 (Two-Sample Hypothesis Testing) 用于比较两个总体在某个变量上的均值是否存在显著差异。根据样本的来源和性质,双样本假设检验可以分为独立样本 t 检验 (Independent Samples t-test) 和配对样本 t 检验 (Paired Samples t-test)。
4.3.1 独立样本t检验 (Independent Samples t-test)
独立样本 t 检验 (Independent Samples t-test) 用于比较两个独立样本所代表的两个总体的均值是否存在显著差异。 “独立样本” 指的是两个样本的数据分别来自不同的研究对象,彼此之间没有关联。
应用条件:
① 数据类型:检验的变量为连续变量 (Continuous Variable)。
② 独立性:
⚝ 组内独立:每个样本组内的数据之间相互独立。
⚝ 组间独立:两个样本组之间相互独立,即一个组的观测值不影响另一个组的观测值。
③ 正态性:两个样本所代表的总体都近似服从正态分布 (Normal Distribution)。与单样本 t 检验类似,在样本量较大或总体分布没有明显偏态和极端值时,t 检验的结果也是稳健的。
④ 方差齐性 (Homogeneity of Variance):两个总体在检验变量上的方差相等或近似相等。这是独立样本 t 检验的一个重要假设。可以使用 Levene's 方差齐性检验 (Levene's Test for Homogeneity of Variance) 对方差齐性进行检验。如果方差不齐,可以使用 Welch's t 检验 (Welch's t-test),Welch's t 检验在方差不齐时也适用,且在方差齐性时与传统独立样本 t 检验结果相近,因此在实际应用中,Welch's t 检验的应用越来越广泛。
检验步骤:
① 提出假设:
⚝ 零假设 \(H_0: \mu_1 = \mu_2\) (两个总体均值相等,即 \(\mu_1 - \mu_2 = 0\))
⚝ 备择假设 \(H_1: \mu_1 \neq \mu_2\) (双侧检验) 或 \(H_1: \mu_1 > \mu_2\) 或 \(H_1: \mu_1 < \mu_2\) (单侧检验)
② 计算检验统计量 (Test Statistic):
根据是否满足方差齐性假设,独立样本 t 检验的检验统计量 \(t\) 的计算公式有所不同。
1
⚝ **方差齐性时 (Pooled Variance t-test)**:
2
\[ t = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)_0}{s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \]
3
其中,\(\bar{X}_1\) 和 \(\bar{X}_2\) 分别是两个样本的均值,\((\mu_1 - \mu_2)_0\) 是零假设下的均值差(通常为 0),\(n_1\) 和 \(n_2\) 分别是两个样本的样本量。\(s_p\) 是**合并方差 (Pooled Variance)**,用于估计两个总体共同的方差,计算公式为:
4
\[ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \]
5
\(s_1^2\) 和 \(s_2^2\) 分别是两个样本的方差。
6
7
检验统计量 \(t\) 服从自由度 \(df = n_1 + n_2 - 2\) 的 t 分布。
8
9
⚝ **方差不齐时 (Welch's t-test)**:
10
\[ t = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_1 - \mu_2)_0}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]
11
其中,符号含义与方差齐性时相同。
12
13
Welch's t 检验的自由度 \(df\) 的计算公式较为复杂,通常使用 **Welch-Satterthwaite 方程 (Welch-Satterthwaite equation)** 近似计算,统计软件会自动计算 Welch's t 检验的自由度。
③ 确定显著性水平 \(\alpha\):
根据研究的具体情况,设定显著性水平 \(\alpha\)(如 0.05)。
④ 计算 \(p\) 值 (p-value):
根据备择假设的类型(双侧或单侧)、计算出的检验统计量 \(t\) 和自由度 \(df\),计算 \(p\) 值。计算 \(p\) 值的方法与单样本 t 检验类似,只是自由度不同。
⑤ 做出决策:
比较 \(p\) 值和显著性水平 \(\alpha\)。
⚝ 如果 \(p \leq \alpha\), 则拒绝零假设 \(H_0\),接受备择假设 \(H_1\)。
⚝ 如果 \(p > \alpha\), 则不拒绝零假设 \(H_0\)。
例子:
研究者想比较男性和女性在焦虑水平上是否存在差异。随机抽取 20 名男性和 25 名女性,使用焦虑量表进行测量,得到男性组平均焦虑得分 \(\bar{X}_1 = 50\),样本标准差 \(s_1 = 8\),女性组平均焦虑得分 \(\bar{X}_2 = 55\),样本标准差 \(s_2 = 10\)。首先进行 Levene's 方差齐性检验,结果显示方差齐性假设不能被拒绝(假设 \(p > 0.05\),此处省略具体计算过程)。显著性水平设定为 \(\alpha = 0.05\),进行独立样本 t 检验(方差齐性)。
① 假设:
\(H_0: \mu_1 = \mu_2\) (男性和女性总体平均焦虑水平相等)
\(H_1: \mu_1 \neq \mu_2\) (男性和女性总体平均焦虑水平不相等,双侧检验)
② 检验统计量:
首先计算合并方差 \(s_p^2\):
\[ s_p^2 = \frac{(20 - 1) \times 8^2 + (25 - 1) \times 10^2}{20 + 25 - 2} = \frac{19 \times 64 + 24 \times 100}{43} = \frac{1216 + 2400}{43} = \frac{3616}{43} \approx 84.09 \]
合并标准差 \(s_p = \sqrt{84.09} \approx 9.17\)。
1
计算 t 统计量:
2
\[ t = \frac{(50 - 55) - 0}{9.17 \sqrt{\frac{1}{20} + \frac{1}{25}}} = \frac{-5}{9.17 \sqrt{0.05 + 0.04}} = \frac{-5}{9.17 \sqrt{0.09}} = \frac{-5}{9.17 \times 0.3} = \frac{-5}{2.751} \approx -1.82 \]
3
自由度 \(df = n_1 + n_2 - 2 = 20 + 25 - 2 = 43\)。
③ 显著性水平:\(\alpha = 0.05\)
④ \(p\) 值:
双侧检验,\(p = 2 \times P(T_{43} \geq |-1.82|) = 2 \times P(T_{43} \geq 1.82)\)。查 t 分布表(自由度为 43,或近似查 40 或 45)或使用统计软件,得到 \(p \approx 0.075\)。
⑤ 决策:
由于 \(p = 0.075 > \alpha = 0.05\),因此不拒绝零假设 \(H_0\)。结论:根据现有样本数据,没有充分证据表明男性和女性在焦虑水平上存在显著差异(\(t(43) = -1.82, p > 0.05\),双侧检验)。
总结:
独立样本 t 检验是比较两个独立组别均值差异的常用方法。需要注意检验前提条件,特别是方差齐性假设。在方差不齐时,可以使用 Welch's t 检验。
4.3.2 配对样本t检验 (Paired Samples t-test)
配对样本 t 检验 (Paired Samples t-test),也称为 重复测量 t 检验 (Repeated Measures t-test) 或 相关样本 t 检验 (Related Samples t-test),用于比较配对或相关样本在两个不同时间点或条件下的均值是否存在显著差异。 “配对样本” 指的是两个样本的数据之间存在对应关系,通常是同一组研究对象在不同条件下或不同时间点的测量值,或者匹配的研究对象(如夫妻、兄弟姐妹等)。
应用条件:
① 数据类型:检验的变量为连续变量 (Continuous Variable)。
② 相关性:样本数据是配对或相关的。
③ 差值的正态性:配对数据差值 (Difference Score) 的总体近似服从正态分布 (Normal Distribution)。与独立样本 t 检验类似,在样本量较大或差值分布没有明显偏态和极端值时,t 检验的结果也是稳健的。
检验步骤:
① 提出假设:
⚝ 零假设 \(H_0: \mu_D = 0\) (配对差值的总体均值等于 0,即两个相关总体的均值没有差异)
⚝ 备择假设 \(H_1: \mu_D \neq 0\) (双侧检验) 或 \(H_1: \mu_D > 0\) 或 \(H_1: \mu_D < 0\) (单侧检验),其中 \(\mu_D = \mu_{1} - \mu_{2}\) 是配对差值的总体均值。
② 计算差值 (Difference Score):
对于每一对配对数据,计算其差值 \(D_i = X_{1i} - X_{2i}\),其中 \(X_{1i}\) 和 \(X_{2i}\) 是第 \(i\) 对配对数据的两个测量值。
③ 计算差值的样本均值 \(\bar{D}\) 和样本标准差 \(s_D\):
\[ \bar{D} = \frac{\sum_{i=1}^{n} D_i}{n} \]
\[ s_D = \sqrt{\frac{\sum_{i=1}^{n} (D_i - \bar{D})^2}{n-1}} \]
其中,\(n\) 是配对的对数。
④ 计算检验统计量 (Test Statistic):
配对样本 t 检验的检验统计量 \(t\) 的计算公式为:
\[ t = \frac{\bar{D} - \mu_{D0}}{s_D / \sqrt{n}} \]
其中,\(\mu_{D0}\) 是零假设下的配对差值总体均值(通常为 0)。
1
检验统计量 \(t\) 服从自由度 \(df = n - 1\) 的 t 分布。
⑤ 确定显著性水平 \(\alpha\):
根据研究的具体情况,设定显著性水平 \(\alpha\)(如 0.05)。
⑥ 计算 \(p\) 值 (p-value):
根据备择假设的类型(双侧或单侧)、计算出的检验统计量 \(t\) 和自由度 \(df = n-1\),计算 \(p\) 值。计算 \(p\) 值的方法与单样本 t 检验类似。
⑦ 做出决策:
比较 \(p\) 值和显著性水平 \(\alpha\)。
⚝ 如果 \(p \leq \alpha\), 则拒绝零假设 \(H_0\),接受备择假设 \(H_1\)。
⚝ 如果 \(p > \alpha\), 则不拒绝零假设 \(H_0\)。
例子:
研究者想检验某种新的记忆训练方法是否能够提高学生的记忆力。随机抽取 15 名学生,在训练前和训练后分别进行记忆力测试。得到每名学生训练前后的记忆力得分。显著性水平设定为 \(\alpha = 0.05\)。
学生 | 训练前得分 (X1) | 训练后得分 (X2) | 差值 (D = X2 - X1) |
---|---|---|---|
1 | 60 | 65 | 5 |
2 | 65 | 70 | 5 |
3 | 70 | 72 | 2 |
4 | 58 | 63 | 5 |
5 | 72 | 78 | 6 |
6 | 68 | 70 | 2 |
7 | 75 | 80 | 5 |
8 | 62 | 68 | 6 |
9 | 55 | 60 | 5 |
10 | 78 | 82 | 4 |
11 | 66 | 71 | 5 |
12 | 70 | 75 | 5 |
13 | 64 | 68 | 4 |
14 | 59 | 64 | 5 |
15 | 71 | 76 | 5 |
计算差值 \(D\) 的样本均值 \(\bar{D}\) 和样本标准差 \(s_D\):
\[ \bar{D} = \frac{5+5+2+5+6+2+5+6+5+4+5+5+4+5+5}{15} = \frac{74}{15} \approx 4.93 \]
\[ s_D \approx 1.44 \]
① 假设:
\(H_0: \mu_D = 0\) (记忆训练方法对记忆力没有提高效果)
\(H_1: \mu_D > 0\) (记忆训练方法能够提高记忆力,右侧单侧检验)
② 检验统计量:
\[ t = \frac{4.93 - 0}{1.44 / \sqrt{15}} = \frac{4.93}{1.44 / 3.87} = \frac{4.93}{0.37} \approx 13.32 \]
自由度 \(df = n - 1 = 15 - 1 = 14\)。
③ 显著性水平:\(\alpha = 0.05\)
④ \(p\) 值:
右侧单侧检验,\(p = P(T_{14} \geq 13.32)\)。查 t 分布表(自由度为 14)或使用统计软件,得到 \(p < 0.001\)。
⑤ 决策:
由于 \(p < 0.001 < \alpha = 0.05\),因此拒绝零假设 \(H_0\),接受备择假设 \(H_1\)。结论:该记忆训练方法显著提高了学生的记忆力(\(t(14) = 13.32, p < 0.001\),单侧检验)。
总结:
配对样本 t 检验适用于分析配对或相关数据的均值差异。关键在于计算配对差值,并将配对样本 t 检验转化为对差值均值的单样本 t 检验问题。配对设计可以有效地控制个体差异,提高统计检验的功效。
END_OF_CHAPTER
5. chapter 5: 方差分析 (Analysis of Variance, ANOVA)
5.1 方差分析的基本原理 (Basic Principles of ANOVA)
方差分析 (Analysis of Variance, ANOVA) 是一种用于比较两个或多个组均值之间是否存在显著差异的统计方法。与 t 检验主要用于比较两组均值不同,ANOVA 可以处理两个或多个组的均值比较,因此在心理学研究中有着广泛的应用。ANOVA 的核心思想是将总变异分解为不同来源的变异,通过比较组间变异和组内变异的大小,来判断组间均值是否存在显著差异。
5.1.1 方差分解 (Variance Decomposition)
方差分析的基石在于方差分解 (Variance Decomposition)。它将总变异 (total variance) 分解为几个相互独立的组成部分,每个部分对应于一个变异来源。在最简单的单因素方差分析中,总变异被分解为组间变异 (between-group variance) 和 组内变异 (within-group variance)。
① 总变异 (Total Variance):反映了所有观测值之间总体的变异程度。在 ANOVA 中,总变异通常用总平方和 (Sum of Squares Total, SST) 来表示。SST 计算的是每个观测值与总均值之差的平方和。
\[ SST = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{..})^2 \]
其中,\(Y_{ij}\) 是第 \(i\) 组的第 \(j\) 个观测值,\(\bar{Y}_{..}\) 是所有观测值的总均值,\(k\) 是组的数量,\(n_i\) 是第 \(i\) 组的样本量。
② 组间变异 (Between-Group Variance):反映了不同组的均值之间的变异程度。如果组间均值差异很大,组间变异就会较大。在 ANOVA 中,组间变异用组间平方和 (Sum of Squares Between, SSB) 来表示。SSB 计算的是每组的均值与总均值之差的平方和,并乘以该组的样本量。
\[ SSB = \sum_{i=1}^{k} n_i (\bar{Y}_{i.} - \bar{Y}_{..})^2 \]
其中,\(\bar{Y}_{i.}\) 是第 \(i\) 组的均值。
③ 组内变异 (Within-Group Variance):反映了每个组内部观测值之间的变异程度。组内变异也被称为误差变异 (error variance) 或残差变异 (residual variance),因为它代表了无法被组间差异解释的变异。在 ANOVA 中,组内变异用组内平方和 (Sum of Squares Within, SSW) 或 误差平方和 (Sum of Squares Error, SSE) 来表示。SSW 计算的是每个观测值与其所在组的均值之差的平方和。
\[ SSW = SSE = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i.})^2 \]
方差分解的核心公式是:
\[ SST = SSB + SSW \]
总平方和等于组间平方和加上组内平方和。这个公式表明,总变异可以被分解为组间变异和组内变异两部分。
5.1.2 F 统计量 (F Statistic)
为了检验组间均值是否存在显著差异,ANOVA 使用 F 统计量 (F Statistic)。F 统计量是组间方差与组内方差的比值。
① 组间均方 (Mean Square Between, MSB):组间平方和除以组间自由度 (degrees of freedom between, \(df_{between}\))。组间自由度等于组数减 1,即 \(df_{between} = k - 1\)。
\[ MSB = \frac{SSB}{df_{between}} = \frac{SSB}{k-1} \]
MSB 可以看作是组间变异的平均估计。
② 组内均方 (Mean Square Within, MSW):组内平方和除以组内自由度 (degrees of freedom within, \(df_{within}\))。组内自由度等于总样本量减去组数,即 \(df_{within} = N - k\),其中 \(N\) 是总样本量 \(N = \sum_{i=1}^{k} n_i\)。
\[ MSW = \frac{SSW}{df_{within}} = \frac{SSW}{N-k} \]
MSW 可以看作是组内变异的平均估计,它也是总体方差 \(\sigma^2\) 的无偏估计。
③ F 统计量 (F Statistic):F 统计量是组间均方与组内均方的比值。
\[ F = \frac{MSB}{MSW} \]
如果组间均值之间没有显著差异(即零假设成立),那么组间变异应该与组内变异相近,F 统计量的值应该接近 1。如果组间均值之间存在显著差异(即备择假设成立),那么组间变异应该远大于组内变异,F 统计量的值应该远大于 1。
④ F 分布 (F-distribution):在零假设成立的条件下,F 统计量服从 F 分布。F 分布由两个自由度参数决定,分别是分子自由度 \(df_{between} = k-1\) 和分母自由度 \(df_{within} = N-k\)。我们可以根据 F 统计量的值和 F 分布,计算出 p 值 (p-value)。如果 p 值小于预先设定的显著性水平 \(\alpha\)(通常为 0.05),则拒绝零假设,认为组间均值之间存在显著差异。
ANOVA 的基本假设:
在应用 ANOVA 之前,需要满足以下几个基本假设:
⚝ 正态性 (Normality):每个组的数据都应来自正态分布的总体。
⚝ 方差齐性 (Homogeneity of Variance):各组的总体方差应相等。
⚝ 独立性 (Independence):观测值之间应相互独立。
虽然 ANOVA 对正态性的要求相对稳健,尤其是在样本量较大时,但方差齐性是一个更重要的假设。如果方差齐性假设不满足,可能需要进行数据转换或使用非参数方法。
5.2 单因素方差分析 (One-Way ANOVA)
单因素方差分析 (One-Way ANOVA) 是最基本的 ANOVA 类型,用于检验一个因素 (factor) 的不同水平 (levels) 对因变量 (dependent variable) 的影响。这里的“因素”指的是自变量,它可以是实验处理或分组变量;“水平”指的是因素的不同类别或条件。例如,研究不同教学方法(因素)对学生成绩(因变量)的影响,教学方法可以有三种水平:传统教学法、启发式教学法、项目式教学法。
单因素 ANOVA 的步骤通常包括:
① 提出假设 (Hypotheses):
▮▮▮▮⚝ 零假设 \(H_0\): 各组总体均值相等,即 \(\mu_1 = \mu_2 = \cdots = \mu_k\)。
▮▮▮▮⚝ 备择假设 \(H_1\): 各组总体均值不完全相等,即至少有两组均值之间存在差异。
② 计算检验统计量 (Test Statistic):
▮▮▮▮⚝ 计算 SST, SSB, SSW。
▮▮▮▮⚝ 计算 MSB, MSW。
▮▮▮▮⚝ 计算 F 统计量 \(F = \frac{MSB}{MSW}\)。
③ 确定 p 值 (p-value):
▮▮▮▮⚝ 根据 F 统计量的值和 F 分布(自由度为 \(df_{between} = k-1\) 和 \(df_{within} = N-k\)),计算 p 值。
④ 做出决策 (Decision):
▮▮▮▮⚝ 如果 p 值 \(\leq \alpha\),则拒绝零假设 \(H_0\),接受备择假设 \(H_1\),认为因素的不同水平对因变量有显著影响。
▮▮▮▮⚝ 如果 p 值 \(> \alpha\),则不能拒绝零假设 \(H_0\),认为没有足够证据表明因素的不同水平对因变量有显著影响。
5.2.1 事后检验 (Post-hoc Tests)
如果在单因素 ANOVA 中拒绝了零假设,即发现组间均值存在显著差异,但 ANOVA 本身并不能告诉我们具体是哪些组之间存在差异。为了进一步了解哪些组之间存在显著差异,需要进行事后检验 (post-hoc tests)。事后检验是在 ANOVA 检验之后进行的,用于两两比较各组均值,找出具体的差异所在。
常见的事后检验方法包括:
① Tukey's HSD (Honestly Significant Difference) 检验:Tukey's HSD 检验是一种保守的事后检验方法,适用于各组样本量相等的情况,可以有效地控制 Ⅰ型错误 (Type I error) 的概率,即错误地拒绝零假设的概率。Tukey's HSD 检验基于 学生化极差分布 (Studentized range distribution)。
② Bonferroni 校正 (Bonferroni Correction):Bonferroni 校正是一种通用的多重比较校正方法,可以应用于各种事后检验。Bonferroni 校正通过调整显著性水平 \(\alpha\) 来控制整体的 Ⅰ型错误率。如果进行 \(m\) 次两两比较,则将每次比较的显著性水平调整为 \(\alpha' = \frac{\alpha}{m}\)。例如,如果显著性水平 \(\alpha = 0.05\),进行 3 次比较,则每次比较的显著性水平调整为 \(\alpha' = \frac{0.05}{3} \approx 0.0167\)。
③ Scheffé 检验 (Scheffé's Test):Scheffé 检验是一种非常保守的事后检验方法,适用于各种类型的组间比较,包括简单的两两比较和更复杂的线性组合比较。Scheffé 检验的优点是适用范围广,缺点是检验效力 (statistical power) 较低,即不容易检测到真实存在的差异。
④ Fisher's LSD (Least Significant Difference) 检验:Fisher's LSD 检验是最不保守的事后检验方法,本质上就是进行多次 t 检验。Fisher's LSD 检验的优点是检验效力较高,缺点是容易增加 Ⅰ型错误的概率,尤其是在比较次数较多时。因此,Fisher's LSD 检验通常只在事先计划好的少数几个特定比较中使用。
选择哪种事后检验方法取决于研究的具体情况和研究者的偏好。一般来说,如果各组样本量相等且需要进行所有可能的两两比较,Tukey's HSD 检验是一个不错的选择。如果需要进行更复杂类型的比较,或者对 Ⅰ型错误的控制要求非常严格,可以考虑 Scheffé 检验或 Bonferroni 校正。Fisher's LSD 检验则应谨慎使用,通常只在探索性研究或事先计划好的特定比较中使用。
5.3 双因素方差分析 (Two-Way ANOVA)
双因素方差分析 (Two-Way ANOVA) 用于检验两个因素 (factors) 对因变量 (dependent variable) 的主效应 (main effect) 和交互效应 (interaction effect)。与单因素 ANOVA 相比,双因素 ANOVA 可以更全面地分析自变量对因变量的影响,并考察不同自变量之间是否存在相互作用。例如,研究教学方法(因素 A)和学生性别(因素 B)对学生成绩(因变量)的影响,不仅可以考察教学方法和学生性别各自对成绩的影响(主效应),还可以考察教学方法和学生性别是否会共同影响成绩(交互效应)。
在双因素 ANOVA 中,总变异被分解为以下几个部分:
① 因素 A 的主效应 (Main effect of Factor A):因素 A 不同水平之间的变异。
② 因素 B 的主效应 (Main effect of Factor B):因素 B 不同水平之间的变异。
③ 因素 A 和因素 B 的交互效应 (Interaction effect of Factor A and Factor B):因素 A 和因素 B 共同作用产生的变异,即因素 A 的效应是否会因因素 B 的水平不同而不同,反之亦然。
④ 误差变异 (Error variance):无法被因素 A、因素 B 或它们的交互效应解释的变异。
双因素 ANOVA 的模型可以表示为:
\[ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk} \]
其中,\(Y_{ijk}\) 是因素 A 的第 \(i\) 个水平、因素 B 的第 \(j\) 个水平下的第 \(k\) 个观测值,\(\mu\) 是总均值,\(\alpha_i\) 是因素 A 的第 \(i\) 个水平的主效应,\(\beta_j\) 是因素 B 的第 \(j\) 个水平的主效应,\((\alpha\beta)_{ij}\) 是因素 A 的第 \(i\) 个水平和因素 B 的第 \(j\) 个水平的交互效应,\(\epsilon_{ijk}\) 是随机误差项。
5.3.1 主效应与交互效应 (Main Effects and Interaction Effects)
① 主效应 (Main Effect):主效应是指一个因素单独对因变量的影响,忽略其他因素的存在。在双因素 ANOVA 中,我们需要检验因素 A 的主效应和因素 B 的主效应是否显著。
▮▮▮▮⚝ 因素 A 的主效应:检验因素 A 的不同水平的边际均值 (marginal means) 是否存在显著差异。边际均值是指在因素 A 的某个水平下,对因素 B 的所有水平求均值得到的均值。
▮▮▮▮⚝ 因素 B 的主效应:检验因素 B 的不同水平的边际均值是否存在显著差异。边际均值是指在因素 B 的某个水平下,对因素 A 的所有水平求均值得到的均值。
② 交互效应 (Interaction Effect):交互效应是指两个或多个因素共同作用对因变量的影响,即一个因素的效应是否会受到另一个因素水平的影响。在双因素 ANOVA 中,我们需要检验因素 A 和因素 B 的交互效应是否显著。
▮▮▮▮⚝ 交互效应的意义:如果交互效应显著,说明因素 A 的效应在因素 B 的不同水平下是不同的,或者说因素 B 的效应在因素 A 的不同水平下是不同的。此时,主效应的解释需要谨慎,因为主效应可能会被交互效应所掩盖或扭曲。
▮▮▮▮⚝ 交互效应的图形表示:交互效应可以通过交互作用图 (interaction plot) 来直观地展示。交互作用图通常以一个因素的水平为横轴,因变量的均值为纵轴,不同线条代表另一个因素的不同水平。如果不同线条之间不平行,甚至交叉,则表明存在交互效应。
双因素 ANOVA 的假设检验:
双因素 ANOVA 需要进行三个假设检验:
⚝ 因素 A 的主效应检验:零假设 \(H_{0A}\): 因素 A 的所有水平的边际均值相等;备择假设 \(H_{1A}\): 因素 A 的边际均值不完全相等。
⚝ 因素 B 的主效应检验:零假设 \(H_{0B}\): 因素 B 的所有水平的边际均值相等;备择假设 \(H_{1B}\): 因素 B 的边际均值不完全相等。
⚝ 因素 A 和因素 B 的交互效应检验:零假设 \(H_{0AB}\): 因素 A 和因素 B 之间不存在交互效应;备择假设 \(H_{1AB}\): 因素 A 和因素 B 之间存在交互效应。
对于每个假设检验,都可以计算 F 统计量和 p 值,并根据 p 值和显著性水平 \(\alpha\) 做出决策。如果交互效应显著,通常需要进一步分析简单效应 (simple effects),即在一个因素的某个水平下,另一个因素不同水平之间的效应。
5.4 重复测量方差分析 (Repeated Measures ANOVA)
重复测量方差分析 (Repeated Measures ANOVA) 是一种特殊的 ANOVA 类型,用于分析重复测量数据 (repeated measures data)。重复测量数据是指在同一个受试者身上多次测量同一个因变量的数据。例如,研究某种药物对血压的影响,可以在同一批受试者身上分别测量用药前、用药后 1 周、用药后 2 周的血压值。由于数据来自同一个受试者,观测值之间不再是独立的,而是相关的。重复测量 ANOVA 可以有效地处理这种相关性,并提高检验效力。
重复测量 ANOVA 与独立样本 ANOVA 的主要区别在于,重复测量 ANOVA 考虑了受试者内变异 (within-subject variance) 和受试者间变异 (between-subject variance)。受试者内变异是指同一个受试者在不同测量条件下的变异,受试者间变异是指不同受试者之间的变异。重复测量 ANOVA 的核心思想是将总变异分解为受试者间变异、受试者内变异和误差变异。
重复测量 ANOVA 的优点:
① 提高检验效力 (Increased statistical power):由于排除了受试者间变异,重复测量 ANOVA 可以更敏感地检测到处理效应。
② 减少所需样本量 (Reduced sample size):在达到相同检验效力的前提下,重复测量设计通常比独立样本设计需要更少的受试者。
③ 研究个体差异 (Study of individual differences):重复测量设计可以研究个体在不同条件下的变化模式。
重复测量 ANOVA 的类型:
① 单因素重复测量 ANOVA (One-way repeated measures ANOVA):用于检验一个受试者内因素 (within-subject factor) 的不同水平对因变量的影响。例如,研究不同时间点(时间是一个受试者内因素)对血压的影响。
② 双因素重复测量 ANOVA (Two-way repeated measures ANOVA):可以进一步分为两种情况:
▮▮▮▮⚝ 混合设计 ANOVA (Mixed-design ANOVA):包含至少一个受试者内因素和一个受试者间因素 (between-subject factor)。例如,研究不同教学方法(受试者间因素)和不同时间点(受试者内因素)对学生成绩的影响。
▮▮▮▮⚝ 完全重复测量 ANOVA (Fully repeated measures ANOVA):所有因素都是受试者内因素。例如,研究不同情绪类型(因素 A)和不同面孔表情(因素 B)对情绪反应的影响,其中情绪类型和面孔表情都是在同一个受试者身上重复测量的。
重复测量 ANOVA 的假设:
除了 ANOVA 的基本假设(正态性、方差齐性、独立性)外,重复测量 ANOVA 还需要满足球形性假设 (Sphericity Assumption)。球形性假设是指受试者内因素的不同水平之间的差异变量的方差相等。如果球形性假设不满足,可能会导致 F 检验的 Ⅰ型错误率增加。常用的检验球形性假设的方法是 Mauchly's 球形性检验 (Mauchly's Test of Sphericity)。如果球形性假设被拒绝,需要使用校正方法来调整自由度,例如 Greenhouse-Geisser 校正 (Greenhouse-Geisser Correction) 或 Huynh-Feldt 校正 (Huynh-Feldt Correction)。
总结:
方差分析 (ANOVA) 是一种强大的统计工具,用于比较两个或多个组的均值。从基本的单因素 ANOVA 到复杂的双因素和重复测量 ANOVA,ANOVA 提供了丰富的分析框架,可以应对各种心理学研究问题。理解方差分解、F 统计量、主效应、交互效应以及重复测量设计的原理,是掌握心理统计学的关键内容。合理应用 ANOVA,并结合事后检验和效应量分析,可以更深入地理解心理现象,并为心理学研究提供有力的统计支持。
END_OF_CHAPTER
6. chapter 6: 相关与回归分析 (Correlation and Regression Analysis)
6.1 相关分析 (Correlation Analysis)
相关分析 (Correlation Analysis) 是研究两个或多个变量之间线性关系强度和方向的统计方法。在心理学研究中,我们经常需要了解不同心理变量之间的关联程度,例如,焦虑水平与考试成绩之间是否存在关系?人格特质与职业选择之间有何联系?相关分析能够帮助我们量化这些关系,为进一步的理论构建和预测提供依据。
6.1.1 皮尔逊相关系数 (Pearson Correlation Coefficient)
皮尔逊相关系数 (Pearson Correlation Coefficient),通常用 \( r \) 表示,是衡量两个连续变量之间线性关系强度的指标。它反映了当一个变量的值发生变化时,另一个变量的值也随之发生线性变化的程度。
① 计算公式 (Calculation Formula):
皮尔逊相关系数的计算公式有多种形式,常用的公式包括:
\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}} \]
其中,\( x_i \) 和 \( y_i \) 分别是第 \( i \) 个观测对象在变量 \( X \) 和变量 \( Y \) 上的取值,\( \bar{x} \) 和 \( \bar{y} \) 分别是变量 \( X \) 和变量 \( Y \) 的均值,\( n \) 是样本容量。
② 系数解读 (Coefficient Interpretation):
皮尔逊相关系数 \( r \) 的取值范围在 -1 到 +1 之间。
⚝ \( r = 1 \): 完全正相关 (Perfect Positive Correlation)。表示两个变量之间存在完全的线性正相关关系,即一个变量增加时,另一个变量也以相同的比例增加。
⚝ \( r = -1 \): 完全负相关 (Perfect Negative Correlation)。表示两个变量之间存在完全的线性负相关关系,即一个变量增加时,另一个变量以相同的比例减少。
⚝ \( r = 0 \): 零相关 (Zero Correlation)。表示两个变量之间不存在线性关系。
⚝ \( 0 < |r| < 1 \): 存在不同程度的线性相关关系。
▮▮▮▮⚝ \( 0 < |r| < 0.3 \): 弱相关 (Weak Correlation)。
▮▮▮▮⚝ \( 0.3 \leq |r| < 0.5 \): 中等相关 (Moderate Correlation)。
▮▮▮▮⚝ \( 0.5 \leq |r| \): 强相关 (Strong Correlation)。
③ 适用条件 (Conditions of Application):
使用皮尔逊相关系数需要满足以下基本条件:
⚝ 连续变量 (Continuous Variables):变量 \( X \) 和变量 \( Y \) 必须是连续变量。
⚝ 线性关系 (Linear Relationship):变量 \( X \) 和变量 \( Y \) 之间存在线性关系。可以通过散点图 (Scatter Plot) 初步判断。
⚝ 正态分布 (Normal Distribution) (可选,但对于显著性检验很重要):严格来说,进行显著性检验时,假设数据来自二元正态分布总体。但在实际应用中,即使数据略微偏离正态分布,皮尔逊相关系数仍然具有一定的稳健性。
⚝ 无异常值 (No Outliers):异常值 (Outliers) 可能会显著影响相关系数的计算结果。
④ 案例分析 (Case Study):
假设研究者想要了解大学生的焦虑水平与学习时长之间是否存在关系。研究者收集了 50 名大学生的焦虑自评量表得分 (变量 \( X \),得分越高表示焦虑水平越高) 以及每周平均学习时长 (变量 \( Y \),单位:小时)。通过计算,得到皮尔逊相关系数 \( r = -0.45 \)。
结果解读: \( r = -0.45 \) 表明大学生的焦虑水平与学习时长之间存在中等程度的负相关关系。也就是说,焦虑水平较高的大学生,其学习时长相对较短;反之,焦虑水平较低的大学生,其学习时长相对较长。但这并不意味着焦虑水平直接导致学习时长减少,可能存在其他潜在因素,例如时间管理能力、学习效率等。
⑤ 注意事项 (Precautions):
⚝ 相关不等于因果 (Correlation does not equal causation):相关分析只能揭示变量之间是否存在线性关系,但不能推断因果关系。两个变量之间存在相关关系,可能是因为它们之间存在因果关系,也可能是因为存在共同的潜在变量,或者仅仅是巧合。
⚝ 线性关系的局限性 (Limitations of linear relationship):皮尔逊相关系数只能衡量线性关系,如果两个变量之间存在非线性关系(例如曲线关系),皮尔逊相关系数可能接近于零,但并不能说明这两个变量之间没有关系。
⚝ 样本代表性 (Sample Representativeness):相关系数的计算结果受到样本代表性的影响。如果样本不能代表总体,则计算出的相关系数可能无法推广到总体。
6.1.2 斯皮尔曼等级相关系数 (Spearman Rank Correlation Coefficient)
斯皮尔曼等级相关系数 (Spearman Rank Correlation Coefficient),通常用 \( \rho \) 或 \( r_s \) 表示,是衡量两个变量之间单调关系强度的指标。与皮尔逊相关系数不同,斯皮尔曼相关系数不要求变量是连续的,也不要求变量之间是线性关系,它适用于有序分类变量或不满足正态分布假设的连续变量。
① 计算方法 (Calculation Method):
斯皮尔曼等级相关系数的计算步骤如下:
- 排序 (Ranking):分别对变量 \( X \) 和变量 \( Y \) 的观测值进行排序,得到每个观测值在各自变量中的等级 (Rank)。如果存在相同数值,则取平均等级。
- 计算等级差 (Calculating Rank Difference):计算每对观测值在变量 \( X \) 和变量 \( Y \) 上的等级之差 \( d_i = \text{rank}(x_i) - \text{rank}(y_i) \)。
- 计算相关系数 (Calculating Correlation Coefficient):根据等级差 \( d_i \) 计算斯皮尔曼等级相关系数:
\[ \rho = 1 - \frac{6\sum_{i=1}^{n}d_i^2}{n(n^2 - 1)} \]
其中,\( n \) 是样本容量,\( d_i \) 是第 \( i \) 个观测对象的等级差。
② 系数解读 (Coefficient Interpretation):
斯皮尔曼等级相关系数 \( \rho \) 的取值范围也在 -1 到 +1 之间,其解读方式与皮尔逊相关系数类似:
⚝ \( \rho = 1 \): 完全单调正相关 (Perfect Monotonic Positive Correlation)。表示两个变量的等级完全一致,即一个变量的等级增加时,另一个变量的等级也随之增加。
⚝ \( \rho = -1 \): 完全单调负相关 (Perfect Monotonic Negative Correlation)。表示两个变量的等级完全相反,即一个变量的等级增加时,另一个变量的等级随之减少。
⚝ \( \rho = 0 \): 无单调相关 (Zero Monotonic Correlation)。表示两个变量之间不存在单调关系。
⚝ \( 0 < |\rho| < 1 \): 存在不同程度的单调相关关系,强度解读标准与皮尔逊相关系数类似。
③ 适用条件 (Conditions of Application):
⚝ 有序变量或连续变量 (Ordinal or Continuous Variables):变量可以是连续变量或有序分类变量。
⚝ 单调关系 (Monotonic Relationship):适用于描述单调关系,即一个变量增加时,另一个变量趋于增加或趋于减少,但不一定是线性关系。
⚝ 非正态分布数据 (Non-normally Distributed Data):当数据不满足正态分布假设时,斯皮尔曼等级相关系数是比皮尔逊相关系数更稳健的选择。
⚝ 存在异常值 (Presence of Outliers):由于斯皮尔曼相关系数基于等级,因此对异常值不如皮尔逊相关系数敏感。
④ 案例分析 (Case Study):
某研究者想了解学生的课堂参与度与期末考试成绩之间的关系。课堂参与度由教师根据学生在课堂上的提问、回答问题、小组讨论等情况进行等级评定 (分为 低、中、高 三个等级,属于有序分类变量),期末考试成绩为百分制 (连续变量,但可能不完全满足正态分布)。研究者收集了 30 名学生的数据,并计算了斯皮尔曼等级相关系数 \( \rho = 0.62 \)。
结果解读: \( \rho = 0.62 \) 表明学生的课堂参与度与期末考试成绩之间存在中等偏强的单调正相关关系。即课堂参与度等级越高的学生,其期末考试成绩也趋于越高。斯皮尔曼相关系数适用于本例,因为它能够处理有序分类变量 (课堂参与度) 以及可能不满足正态分布假设的期末考试成绩。
⑤ 适用场景对比 (Comparison of Application Scenarios):
特征 (Feature) | 皮尔逊相关系数 (Pearson) | 斯皮尔曼等级相关系数 (Spearman) |
---|---|---|
变量类型 (Variable Type) | 连续变量 (Continuous) | 连续/有序变量 (Continuous/Ordinal) |
关系类型 (Relationship Type) | 线性关系 (Linear) | 单调关系 (Monotonic) |
数据分布 (Data Distribution) | 近似正态分布 (Approx. Normal) | 无要求 (No Requirement) |
异常值敏感性 (Outlier Sensitivity) | 敏感 (Sensitive) | 相对稳健 (Relatively Robust) |
适用场景 (Application Scenario) | 线性关系,连续正态数据 | 单调关系,非正态或有序数据 |
6.2 简单线性回归 (Simple Linear Regression)
简单线性回归 (Simple Linear Regression) 是一种统计方法,用于研究一个自变量 (Independent Variable) \( X \) 对一个因变量 (Dependent Variable) \( Y \) 的线性影响关系。它旨在建立一个线性方程,通过自变量 \( X \) 的值来预测因变量 \( Y \) 的值。
6.2.1 回归方程 (Regression Equation)
简单线性回归的核心是回归方程 (Regression Equation),它描述了因变量 \( Y \) 与自变量 \( X \) 之间的线性关系。
① 方程形式 (Equation Form):
简单线性回归方程的一般形式为:
\[ \hat{Y} = b_0 + b_1X \]
其中:
⚝ \( \hat{Y} \) 是因变量 \( Y \) 的预测值 (Predicted Value)。
⚝ \( X \) 是自变量。
⚝ \( b_0 \) 是截距 (Intercept),表示当自变量 \( X = 0 \) 时,因变量 \( Y \) 的预测值。在实际应用中,截距的解释需要结合具体情境考虑,有时可能没有实际意义。
⚝ \( b_1 \) 是斜率 (Slope),表示自变量 \( X \) 每变化一个单位,因变量 \( Y \) 的预测值平均变化 \( b_1 \) 个单位。斜率的正负号表示关系的方向:正斜率表示正向关系,负斜率表示负向关系。
② 参数估计 (Parameter Estimation):
回归方程中的参数 \( b_0 \) (截距) 和 \( b_1 \) (斜率) 需要通过样本数据进行估计。最常用的估计方法是最小二乘法 (Least Squares Method)。最小二乘法的目标是找到一条直线,使得所有观测点到该直线的垂直距离的平方和 (Sum of Squared Errors, SSE) 最小。
基于最小二乘法,斜率 \( b_1 \) 和截距 \( b_0 \) 的估计公式如下:
\[ b_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \]
\[ b_0 = \bar{y} - b_1\bar{x} \]
其中,\( x_i \) 和 \( y_i \) 是样本数据,\( \bar{x} \) 和 \( \bar{y} \) 分别是自变量 \( X \) 和因变量 \( Y \) 的样本均值。
③ 方程解读 (Equation Interpretation):
回归方程建立后,可以用于:
⚝ 描述关系 (Describing Relationship):斜率 \( b_1 \) 的值和符号描述了自变量 \( X \) 对因变量 \( Y \) 的线性影响方向和强度。
⚝ 预测 (Prediction):给定自变量 \( X \) 的值,可以代入回归方程预测因变量 \( Y \) 的值 \( \hat{Y} \)。
⚝ 解释 (Explanation):在一定程度上,回归方程可以帮助解释因变量 \( Y \) 的变异,即 \( Y \) 的变动有多少可以由自变量 \( X \) 的变动来解释。
④ 案例分析 (Case Study):
研究者想要探究学生的复习时间 (变量 \( X \),单位:小时) 对考试成绩 (变量 \( Y \),百分制) 的影响。收集了 25 名学生的数据,通过简单线性回归分析,得到回归方程为:
\[ \hat{Y} = 60 + 5X \]
结果解读:
⚝ 截距 \( b_0 = 60 \):当复习时间为 0 小时,预测的考试成绩为 60 分。这个截距的实际意义需要根据具体情境判断,在本例中,可能表示学生即使不复习,也可能获得一定的基础分数。
⚝ 斜率 \( b_1 = 5 \):复习时间每增加 1 小时,预测的考试成绩平均增加 5 分。斜率为正,表示复习时间与考试成绩呈正向关系,即复习时间越长,考试成绩越高。
⑤ 适用条件 (Conditions of Application):
简单线性回归模型需要满足以下基本假设:
⚝ 线性性 (Linearity):因变量 \( Y \) 与自变量 \( X \) 之间存在线性关系。
⚝ 独立性 (Independence):观测值之间相互独立。
⚝ 正态性 (Normality):对于任何给定的 \( X \) 值,因变量 \( Y \) 的误差项 \( \epsilon = Y - \hat{Y} \) 服从均值为 0 的正态分布。
⚝ 等方差性 (Homoscedasticity):对于所有 \( X \) 值,误差项 \( \epsilon \) 的方差 \( \sigma^2 \) 保持不变。
这些假设的满足程度会影响回归模型的有效性和可靠性。在实际应用中,需要对这些假设进行检验 (例如,通过残差图分析)。
6.2.2 决定系数 (Coefficient of Determination)
决定系数 (Coefficient of Determination),通常用 \( R^2 \) 表示,是衡量回归模型拟合优度 (Goodness of Fit) 的指标。它表示回归方程所能解释的因变量 \( Y \) 的变异占总变异的比例。
① 计算公式 (Calculation Formula):
决定系数 \( R^2 \) 的计算公式基于方差分解 (Variance Decomposition) 的思想。在回归分析中,因变量 \( Y \) 的总变异 (Total Sum of Squares, SST) 可以分解为两部分:
⚝ 回归平方和 (Regression Sum of Squares, SSR):回归方程能够解释的变异,也称为可解释变异 (Explained Variation)。
⚝ 残差平方和 (Residual Sum of Squares, SSE):回归方程无法解释的变异,也称为不可解释变异 (Unexplained Variation) 或误差平方和 (Error Sum of Squares)。
三者关系为: \( SST = SSR + SSE \)。
决定系数 \( R^2 \) 的计算公式为:
\[ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]
其中:
⚝ \( SST = \sum_{i=1}^{n}(y_i - \bar{y})^2 \) (总平方和)
⚝ \( SSR = \sum_{i=1}^{n}(\hat{y}_i - \bar{y})^2 \) (回归平方和)
⚝ \( SSE = \sum_{i=1}^{n}(y_i - \hat{y}_i)^2 \) (残差平方和)
② 系数解读 (Coefficient Interpretation):
决定系数 \( R^2 \) 的取值范围在 0 到 1 之间。
⚝ \( R^2 = 1 \): 完全拟合 (Perfect Fit)。表示回归方程完美地解释了因变量 \( Y \) 的所有变异,所有观测点都落在回归直线上。
⚝ \( R^2 = 0 \): 完全不拟合 (No Fit)。表示回归方程完全不能解释因变量 \( Y \) 的变异,自变量 \( X \) 对因变量 \( Y \) 没有线性解释力。
⚝ \( 0 < R^2 < 1 \): 回归方程能够解释部分变异。\( R^2 \) 的值越大,表示回归模型的拟合优度越高,自变量 \( X \) 对因变量 \( Y \) 的解释力越强。
③ 与相关系数的关系 (Relationship with Correlation Coefficient):
在简单线性回归中,决定系数 \( R^2 \) 与皮尔逊相关系数 \( r \) 之间存在密切关系: \( R^2 = r^2 \)。也就是说,决定系数等于皮尔逊相关系数的平方。这进一步说明了相关分析和回归分析之间的联系。
④ 案例分析 (Case Study):
在 6.2.1 案例中,研究者计算得到复习时间与考试成绩的简单线性回归方程为 \( \hat{Y} = 60 + 5X \)。假设计算得到该回归模型的决定系数 \( R^2 = 0.64 \)。
结果解读: \( R^2 = 0.64 \) 表明,复习时间 (自变量 \( X \)) 可以解释考试成绩 (因变量 \( Y \)) 64% 的变异。也就是说,考试成绩的 64% 的差异可以归因于复习时间的差异,而剩余的 36% 的变异可能由其他因素 (例如,学习方法、智力水平、考试难度等) 导致。
⑤ 注意事项 (Precautions):
⚝ \( R^2 \) 的局限性 (Limitations of \( R^2 \)): \( R^2 \) 只能衡量线性模型的拟合优度,不能判断模型是否正确或完整。高 \( R^2 \) 值并不一定意味着模型是好的,可能存在其他问题,例如模型假设不满足、遗漏重要变量等。
⚝ \( R^2 \) 会随着自变量数量增加而增大 ( \( R^2 \) increases with more predictors): 在多元线性回归中,随着自变量数量的增加,\( R^2 \) 值通常会增大,即使新增的自变量对因变量的解释力很弱。为了解决这个问题,可以使用调整的决定系数 (Adjusted \( R^2 \)),它考虑了自变量的数量,能够更客观地评价模型的拟合优度。
6.3 多元线性回归 (Multiple Linear Regression)
多元线性回归 (Multiple Linear Regression) 是简单线性回归的扩展,用于研究多个自变量 (Multiple Independent Variables) \( X_1, X_2, ..., X_p \) 对一个因变量 (Dependent Variable) \( Y \) 的线性影响关系。它能够更全面地分析影响因变量的多种因素,并建立更精确的预测模型。
6.3.1 回归系数的解释 (Interpretation of Regression Coefficients)
多元线性回归方程的一般形式为:
\[ \hat{Y} = b_0 + b_1X_1 + b_2X_2 + ... + b_pX_p \]
其中:
⚝ \( \hat{Y} \) 是因变量 \( Y \) 的预测值。
⚝ \( X_1, X_2, ..., X_p \) 是 \( p \) 个自变量。
⚝ \( b_0 \) 是截距。
⚝ \( b_1, b_2, ..., b_p \) 是偏回归系数 (Partial Regression Coefficients),也称为回归权重 (Regression Weights)。
① 偏回归系数的含义 (Meaning of Partial Regression Coefficients):
在多元线性回归中,偏回归系数 \( b_j \) ( \( j = 1, 2, ..., p \) ) 表示在保持其他自变量不变的情况下,自变量 \( X_j \) 每变化一个单位,因变量 \( Y \) 的预测值平均变化 \( b_j \) 个单位。
关键点: “保持其他自变量不变” 是偏回归系数的核心含义。这意味着偏回归系数反映的是自变量 \( X_j \) 对因变量 \( Y \) 的独立贡献 (Unique Contribution)**,排除了其他自变量的影响。
② 与简单线性回归系数的区别 (Difference from Simple Linear Regression Coefficients):
在简单线性回归中,回归系数 \( b_1 \) 直接反映了自变量 \( X \) 对因变量 \( Y \) 的影响。但在多元线性回归中,由于存在多个自变量,自变量之间可能存在共线性 (Multicollinearity),即自变量之间存在较高的相关性。共线性会导致:
⚝ 偏回归系数的估计值不稳定,容易受到样本波动的影响。
⚝ 偏回归系数的符号可能与预期相反。
⚝ 难以准确判断每个自变量的独立贡献。
因此,在多元线性回归中,偏回归系数的解释需要更加谨慎,需要考虑自变量之间的共线性问题。
③ 标准化回归系数 (Standardized Regression Coefficients):
为了比较不同自变量对因变量的相对重要性,可以使用标准化回归系数 (Standardized Regression Coefficients),通常用 \( \beta_j \) 表示。标准化回归系数是通过将所有变量 (包括因变量和自变量) 标准化 (Standardization) 后 (即转换为均值为 0,标准差为 1 的 z 分数) 再进行回归分析得到的回归系数。
标准化回归系数 \( \beta_j \) 的含义是:当自变量 \( X_j \) 变化一个标准差时,在保持其他自变量不变的情况下,因变量 \( Y \) 的预测值平均变化 \( \beta_j \) 个标准差。
标准化回归系数消除了变量量纲的影响,可以直接比较不同自变量对因变量的相对影响大小。\( |\beta_j| \) 值越大,表示自变量 \( X_j \) 对因变量 \( Y \) 的相对重要性越高。
④ 案例分析 (Case Study):
研究者想要探究学生的复习时间 ( \( X_1 \) ,小时) 和 学习态度 ( \( X_2 \) ,自评量表得分) 对 考试成绩 ( \( Y \) ,百分制) 的综合影响。收集数据后,进行多元线性回归分析,得到回归方程为:
\[ \hat{Y} = 40 + 4X_1 + 2X_2 \]
结果解读:
⚝ 截距 \( b_0 = 40 \):当复习时间和学习态度得分均为 0 时,预测的考试成绩为 40 分。
⚝ 复习时间的偏回归系数 \( b_1 = 4 \):在保持学习态度不变的情况下,复习时间每增加 1 小时,预测的考试成绩平均增加 4 分。
⚝ 学习态度的偏回归系数 \( b_2 = 2 \):在保持复习时间不变的情况下,学习态度得分每增加 1 分,预测的考试成绩平均增加 2 分。
假设标准化回归系数为 \( \beta_1 = 0.5, \beta_2 = 0.3 \)。
⚝ 标准化回归系数解读: 复习时间对考试成绩的相对影响大于学习态度,因为 \( |\beta_1| > |\beta_2| \)。当复习时间增加一个标准差时,考试成绩的预测值变化 0.5 个标准差;当学习态度得分增加一个标准差时,考试成绩的预测值变化 0.3 个标准差。
6.3.2 模型拟合与检验 (Model Fitting and Testing)
多元线性回归模型的拟合与检验主要包括以下几个方面:
① 模型假设检验 (Model Assumption Testing):
多元线性回归模型同样需要满足线性性、独立性、正态性、等方差性等假设。这些假设的检验方法与简单线性回归类似,例如可以通过残差图分析、正态概率图检验正态性、Breusch-Pagan 检验等方差性等。
② 整体模型显著性检验 (Overall Model Significance Testing):
整体模型显著性检验旨在检验所有自变量作为一个整体是否对因变量 \( Y \) 有显著的线性影响。常用的检验方法是 F 检验 (F-test)。
⚝ 零假设 (Null Hypothesis) \( H_0 \):所有偏回归系数均为 0,即 \( H_0: b_1 = b_2 = ... = b_p = 0 \)。表示所有自变量作为一个整体对因变量 \( Y \) 没有线性影响。
⚝ 备择假设 (Alternative Hypothesis) \( H_1 \):至少有一个偏回归系数不为 0,即 \( H_1: b_j \neq 0 \) (至少存在一个 \( j \in \{1, 2, ..., p\} \))。表示所有自变量作为一个整体对因变量 \( Y \) 有线性影响。
F 统计量的计算公式基于方差分析的思想,通过比较回归均方 (Mean Square Regression, MSR) 和 残差均方 (Mean Square Error, MSE) 的比值来进行检验。如果 F 统计量的值足够大,且对应的 p 值小于显著性水平 \( \alpha \) (例如 0.05),则拒绝零假设,认为整体回归模型显著。
③ 单个回归系数的显著性检验 (Significance Testing of Individual Regression Coefficients):
单个回归系数的显著性检验旨在检验每个自变量 \( X_j \) 对因变量 \( Y \) 是否有独立的显著线性影响。常用的检验方法是 t 检验 (t-test)。
⚝ 零假设 (Null Hypothesis) \( H_0 \):偏回归系数 \( b_j = 0 \)。表示在控制其他自变量的情况下,自变量 \( X_j \) 对因变量 \( Y \) 没有线性影响。
⚝ 备择假设 (Alternative Hypothesis) \( H_1 \):偏回归系数 \( b_j \neq 0 \)。表示在控制其他自变量的情况下,自变量 \( X_j \) 对因变量 \( Y \) 有线性影响。
t 统计量的计算公式为: \( t = \frac{b_j}{SE(b_j)} \),其中 \( SE(b_j) \) 是偏回归系数 \( b_j \) 的标准误差。如果 t 统计量的绝对值足够大,且对应的 p 值小于显著性水平 \( \alpha \),则拒绝零假设,认为自变量 \( X_j \) 对因变量 \( Y \) 有独立的显著线性影响。
④ 模型评价指标 (Model Evaluation Metrics):
除了显著性检验,还需要使用一些指标来评价模型的拟合优度和复杂程度,常用的指标包括:
⚝ 调整的决定系数 (Adjusted \( R^2 \)): 调整的 \( R^2 \) 考虑了自变量的数量,能够更客观地评价模型的拟合优度,避免因自变量数量增加而虚高 \( R^2 \) 的问题。调整的 \( R^2 \) 值越大,模型拟合优度越高。
⚝ 赤池信息准则 (Akaike Information Criterion, AIC) 和 贝叶斯信息准则 (Bayesian Information Criterion, BIC):AIC 和 BIC 是用于模型选择的信息准则,它们综合考虑了模型的拟合优度和复杂程度。AIC 和 BIC 值越小,模型相对越好。在比较不同模型时,可以选择 AIC 或 BIC 值最小的模型。
⑤ 共线性诊断与处理 (Multicollinearity Diagnosis and Handling):
共线性是多元线性回归中常见的问题,需要进行诊断和处理。常用的共线性诊断指标包括:
⚝ 方差膨胀因子 (Variance Inflation Factor, VIF):VIF 值越大,表示共线性越严重。通常认为 VIF > 10 时存在严重共线性。
⚝ 条件指数 (Condition Index, CI):CI 值越大,表示共线性越严重。通常认为 CI > 30 时存在严重共线性。
如果存在共线性问题,可以采取以下处理方法:
⚝ 移除共线性严重的自变量 (Remove highly collinear predictors):如果某些自变量之间共线性非常严重,可以考虑移除其中一个或多个自变量。
⚝ 增加样本容量 (Increase sample size):增加样本容量可以在一定程度上缓解共线性问题。
⚝ 岭回归 (Ridge Regression) 或 Lasso 回归 (Lasso Regression):岭回归和 Lasso 回归是专门用于处理共线性问题的回归方法,通过对回归系数进行惩罚,降低共线性的影响。
⑥ 模型选择与优化 (Model Selection and Optimization):
在实际应用中,可能需要从多个候选模型中选择最优模型。模型选择的目标是在模型的拟合优度和复杂程度之间取得平衡。常用的模型选择方法包括:
⚝ 逐步回归 (Stepwise Regression):逐步回归是一种自动化的模型选择方法,通过逐步引入或剔除自变量来寻找最优模型。包括向前选择 (Forward Selection)、向后剔除 (Backward Elimination) 和逐步回归 (Stepwise Regression) 三种方法。
⚝ 最佳子集回归 (Best Subset Regression):最佳子集回归尝试所有可能的自变量组合,并选择最优子集。但计算量较大,适用于自变量数量较少的情况。
⚝ 交叉验证 (Cross-Validation):交叉验证是一种评估模型泛化能力的方法,通过将数据划分为训练集和验证集,在训练集上训练模型,在验证集上评估模型性能,选择泛化能力最好的模型。
⑦ 案例分析 (Case Study):
研究者想要构建一个模型,预测学生的大学 GPA (Grade Point Average, \( Y \)),可能的预测变量包括:高中 GPA ( \( X_1 \))、入学考试成绩 ( \( X_2 \))、学习时长 ( \( X_3 \))。收集数据后,进行多元线性回归分析,并进行模型拟合与检验。
分析步骤:
- 模型假设检验: 检验线性性、独立性、正态性、等方差性等假设。
- 整体模型显著性检验: 进行 F 检验,检验所有自变量作为一个整体是否对大学 GPA 有显著影响。
- 单个回归系数的显著性检验: 进行 t 检验,检验每个自变量 (高中 GPA、入学考试成绩、学习时长) 对大学 GPA 是否有独立的显著影响。
- 模型评价: 计算调整的 \( R^2 \)、AIC、BIC 等指标,评价模型拟合优度和复杂程度。
- 共线性诊断: 计算 VIF、CI 等指标,诊断是否存在共线性问题,如果存在,考虑处理方法。
- 模型选择与优化: 如果有多个候选模型,可以使用逐步回归、最佳子集回归或交叉验证等方法进行模型选择和优化。
通过以上步骤,研究者可以构建一个较为完善的多元线性回归模型,用于预测学生的大学 GPA,并解释各个预测变量的相对重要性。
END_OF_CHAPTER
7. chapter 7: 非参数统计方法 (Non-parametric Statistical Methods)
7.1 非参数统计概述 (Overview of Non-parametric Statistical Methods)
7.1.1 参数检验与非参数检验的适用条件 (Conditions for Parametric and Non-parametric Tests)
在统计学中,我们常常需要根据样本数据推断总体特征。为了实现这一目标,统计检验方法应运而生。这些方法可以大致分为两大类:参数检验 (parametric tests) 和非参数检验 (non-parametric tests)。理解这两类检验的区别以及各自的适用条件,对于正确选择统计方法、保证研究结论的有效性至关重要。
① 参数检验 (Parametric Tests):
参数检验是基于对数据总体分布特定参数 (parameter) 的假设而进行的统计检验。这类检验通常假设数据来自特定的分布,最常见的是正态分布 (normal distribution)。参数检验的效力 (power) 较高,即在效应真实存在时,更容易检测到效应。常见的参数检验包括:
⚝ t检验 (t-test):用于检验均值差异,如单样本t检验 (one-sample t-test)、独立样本t检验 (independent samples t-test) 和配对样本t检验 (paired samples t-test)。
⚝ 方差分析 (ANOVA):用于检验多个组别均值之间的差异。
⚝ 皮尔逊相关系数 (Pearson correlation coefficient):用于衡量两个连续变量之间的线性相关关系。
⚝ 回归分析 (regression analysis):用于建立变量之间的关系模型并进行预测。
② 参数检验的适用条件 (Conditions for Parametric Tests):
参数检验的有效性依赖于一些假设条件,当这些条件得到满足时,参数检验的结果才可靠。主要的适用条件包括:
⚝ 正态性假设 (Normality Assumption):数据总体应近似服从正态分布。对于小样本 (small sample size),正态性假设尤为重要。当样本量较大时(例如,根据中心极限定理 (Central Limit Theorem),\(n \ge 30\)),即使总体分布不是完全正态,参数检验通常也具有一定的稳健性 (robustness)。
⚝ 方差齐性假设 (Homogeneity of Variance Assumption):在比较多个组别时(如独立样本t检验和方差分析),各组别的数据方差应相等或近似相等。方差不齐可能会影响检验的准确性,尤其是在组别样本量不均衡时。
⚝ 测量尺度 (Scale of Measurement):数据应至少为区间尺度 (interval scale) 或比率尺度 (ratio scale)。这意味着数据之间可以进行有意义的加减乘除运算,例如温度(摄氏度或华氏度,区间尺度)和身高(厘米或英寸,比率尺度)。
⚝ 独立性假设 (Independence Assumption):观测数据之间应相互独立,即一个个体的数据不应影响另一个个体的数据。
③ 非参数检验 (Non-parametric Tests):
当参数检验的适用条件无法满足,或者数据类型不适合参数检验时,就需要使用非参数检验。非参数检验也被称为分布自由检验 (distribution-free tests),因为它们对数据总体的分布形式不做严格假设,或者只做非常宽松的假设。非参数检验通常适用于以下情况:
⚝ 数据不服从正态分布 (Non-normal Distribution):当数据明显偏离正态分布,且样本量较小时,非参数检验是更稳健的选择。
⚝ 方差不齐 (Heterogeneity of Variance):当各组别方差明显不齐时,非参数检验可以避免参数检验可能产生的偏差。
⚝ 定序数据或定类数据 (Ordinal or Nominal Data):对于定序尺度 (ordinal scale) 数据(例如,等级、评分)和定类尺度 (nominal scale) 数据(例如,性别、颜色),参数检验通常不适用,而非参数检验提供了合适的分析方法。
⚝ 小样本 (Small Sample Size):当样本量非常小时,很难判断数据是否符合正态分布,此时非参数检验通常更为安全可靠。
④ 常见的非参数检验方法 (Common Non-parametric Tests):
⚝ 卡方检验 (Chi-Square Test):用于分析定类数据 (nominal data) 或定序数据 (ordinal data) 的频数分布,包括拟合优度检验 (goodness-of-fit test) 和独立性检验 (test of independence)。
⚝ 秩和检验 (Rank Sum Tests):用于比较两个或多个组别的差异,如曼-惠特尼U检验 (Mann-Whitney U test)(用于独立样本)和威尔coxon符号秩检验 (Wilcoxon signed-rank test)(用于配对样本)。
⚝ 克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test):用于比较三个或更多独立组别的差异,是方差分析 (ANOVA) 的非参数替代方法。
⚝ 斯皮尔曼等级相关系数 (Spearman Rank Correlation Coefficient):用于衡量两个定序变量之间的相关关系。
⑤ 参数检验与非参数检验的选择 (Choosing Between Parametric and Non-parametric Tests):
选择参数检验还是非参数检验,需要综合考虑数据的特点和研究目的。一般来说,如果数据满足参数检验的适用条件,优先选择参数检验,因为参数检验通常具有更高的统计功效。然而,当数据明显不满足参数检验的条件,或者数据类型本身不适合参数检验时,应选择非参数检验以保证结果的可靠性。
适用条件 (Conditions) | 参数检验 (Parametric Tests) | 非参数检验 (Non-parametric Tests) |
---|---|---|
数据分布 (Data Distribution) | 总体近似正态分布 (Population approximately normally distributed) | 对总体分布无严格要求 (Distribution-free) |
方差齐性 (Homogeneity of Variance) | 各组方差相等或近似相等 (Variances are equal or approximately equal) | 对方差齐性要求较低 (Less sensitive to variance heterogeneity) |
测量尺度 (Scale of Measurement) | 区间尺度或比率尺度 (Interval or ratio scale) | 定类尺度、定序尺度、区间尺度或比率尺度 (Nominal, ordinal, interval, or ratio scale) |
样本量 (Sample Size) | 较大样本时稳健性较好 (Robust with larger samples) | 小样本时更适用 (More suitable for small samples) |
统计功效 (Statistical Power) | 通常较高 (Generally higher power) | 通常较低 (Generally lower power) |
理解参数检验和非参数检验的适用条件,有助于研究者在实际研究中做出明智的选择,从而更准确地分析数据,得出可靠的结论。在接下来的章节中,我们将详细介绍几种常用的非参数检验方法,包括卡方检验、秩和检验和克鲁斯卡尔-沃利斯检验。
7.2 卡方检验 (Chi-Square Test)
卡方检验 (Chi-Square Test) 是一种用途广泛的非参数检验方法,主要用于分析定类数据 (nominal data) 或定序数据 (ordinal data) 的频数 (frequency) 分布。卡方检验的核心思想是比较观测频数 (observed frequencies) 与期望频数 (expected frequencies) 之间的差异,从而判断类别变量之间是否存在关联,或者样本的分布是否符合某种理论分布。卡方检验主要包括两种类型:拟合优度检验 (goodness-of-fit test) 和 独立性检验 (test of independence)。
7.2.1 拟合优度检验 (Goodness-of-fit Test)
拟合优度检验 (goodness-of-fit test) 用于检验观测数据的频数分布是否与理论分布(或期望分布)相吻合。其目的是判断样本数据是否来自具有特定分布的总体。
① 基本原理 (Basic Principles):
拟合优度检验通过比较观测频数 \(O_i\) 和期望频数 \(E_i\) 之间的差异来完成。期望频数是基于零假设 (null hypothesis) 下的理论分布计算得到的。如果观测频数与期望频数之间的差异足够小,则接受零假设,认为观测数据与理论分布拟合良好;反之,如果差异过大,则拒绝零假设,认为观测数据不符合理论分布。
② 零假设与备择假设 (Null and Alternative Hypotheses):
⚝ 零假设 ( \(H_0\) ):观测数据的频数分布与指定的理论分布之间没有显著差异,即数据符合理论分布。
⚝ 备择假设 ( \(H_1\) ):观测数据的频数分布与指定的理论分布之间存在显著差异,即数据不符合理论分布。
③ 卡方统计量 (Chi-Square Statistic):
拟合优度检验使用卡方统计量 (\( \chi^2 \)) 来衡量观测频数与期望频数之间的差异程度。卡方统计量的计算公式如下:
\[ \chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \]
其中:
\( \chi^2 \) 为卡方统计量。
\( O_i \) 为第 \(i\) 个类别的观测频数。
\( E_i \) 为第 \(i\) 个类别的期望频数。
\( k \) 为类别的数量。
④ 期望频数的计算 (Calculation of Expected Frequencies):
期望频数的计算取决于零假设所指定的理论分布。常见的理论分布包括均匀分布 (uniform distribution)、二项分布 (binomial distribution)、泊松分布 (Poisson distribution) 等。在最简单的均匀分布情况下,如果各类别的概率相等,则期望频数 \(E_i\) 可以通过以下公式计算:
\[ E_i = \frac{N}{k} \]
其中:
\( N \) 为总样本量。
\( k \) 为类别数量。
对于其他理论分布,期望频数的计算会根据分布的概率密度函数 (probability density function) 或概率质量函数 (probability mass function) 进行。
⑤ 自由度 (Degrees of Freedom, df):
拟合优度检验的自由度 (df) 计算公式为:
\[ df = k - p - 1 \]
其中:
\( k \) 为类别数量。
\( p \) 为估计的总体参数的数量。如果理论分布的所有参数都是已知的,则 \(p = 0\)。例如,在检验是否符合均匀分布时,通常 \(p = 0\)。如果需要根据样本数据估计理论分布的参数(例如,在检验是否符合泊松分布时,需要估计泊松分布的参数 \( \lambda \)),则 \(p\) 为估计参数的数量。
⑥ 决策规则 (Decision Rule):
将计算得到的卡方统计量 \( \chi^2 \) 与在给定显著性水平 \( \alpha \) (significance level) 和自由度 \( df \) 下的卡方分布临界值 \( \chi^2_{\alpha, df} \) 进行比较。
⚝ 如果 \( \chi^2 \ge \chi^2_{\alpha, df} \),则拒绝零假设 \( H_0 \),认为观测数据与理论分布之间存在显著差异。
⚝ 如果 \( \chi^2 < \chi^2_{\alpha, df} \),则接受零假设 \( H_0 \),认为观测数据与理论分布之间没有显著差异,即数据符合理论分布。
⑦ 应用示例 (Application Example):
案例:某研究者想检验掷骰子的结果是否是均匀分布的。他掷了60次骰子,得到的结果如下:
点数 (Outcome) | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
观测频数 (Observed Frequency) \(O_i\) | 8 | 9 | 10 | 12 | 11 | 10 |
步骤 1:提出假设 (State Hypotheses)
⚝ \( H_0 \):骰子的结果服从均匀分布。
⚝ \( H_1 \):骰子的结果不服从均匀分布。
步骤 2:计算期望频数 (Calculate Expected Frequencies)
在均匀分布的零假设下,每个点数出现的概率应相等,即 \(1/6\)。总共掷了60次,因此每个点数的期望频数 \(E_i\) 为:
\[ E_i = \frac{60}{6} = 10 \]
点数 (Outcome) | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
期望频数 (Expected Frequency) \(E_i\) | 10 | 10 | 10 | 10 | 10 | 10 |
步骤 3:计算卡方统计量 (Calculate Chi-Square Statistic)
\[ \begin{aligned} \chi^2 &= \sum_{i=1}^{6} \frac{(O_i - E_i)^2}{E_i} \\ &= \frac{(8-10)^2}{10} + \frac{(9-10)^2}{10} + \frac{(10-10)^2}{10} + \frac{(12-10)^2}{10} + \frac{(11-10)^2}{10} + \frac{(10-10)^2}{10} \\ &= \frac{4}{10} + \frac{1}{10} + \frac{0}{10} + \frac{4}{10} + \frac{1}{10} + \frac{0}{10} \\ &= 1.0 \end{aligned} \]
步骤 4:确定自由度 (Determine Degrees of Freedom)
类别数量 \(k = 6\),没有估计参数 \(p = 0\),所以自由度 \(df = k - p - 1 = 6 - 0 - 1 = 5\)。
步骤 5:查阅临界值并做出决策 (Find Critical Value and Make Decision)
假设显著性水平 \( \alpha = 0.05 \)。查卡方分布表,自由度为5,\( \alpha = 0.05 \) 的临界值 \( \chi^2_{0.05, 5} = 11.070 \)。
由于计算得到的卡方统计量 \( \chi^2 = 1.0 < 11.070 \),因此我们不能拒绝零假设。
结论:在 \( \alpha = 0.05 \) 的显著性水平下,没有足够的证据表明掷骰子的结果不服从均匀分布。可以认为这个骰子是均匀的。
7.2.2 独立性检验 (Test of Independence)
独立性检验 (test of independence) 用于检验两个定类变量 (nominal variables) 或定序变量 (ordinal variables) 之间是否相互独立。其目的是判断两个变量之间是否存在关联或依赖关系。
① 基本原理 (Basic Principles):
独立性检验通过分析列联表 (contingency table) 中的观测频数来实现。列联表展示了两个或多个类别变量的交叉分类频数。独立性检验的零假设是两个变量之间相互独立,即一个变量的类别分布不影响另一个变量的类别分布。如果观测频数与在独立性假设下计算得到的期望频数之间存在显著差异,则拒绝零假设,认为两个变量之间存在关联。
② 零假设与备择假设 (Null and Alternative Hypotheses):
⚝ 零假设 ( \(H_0\) ):两个类别变量之间相互独立,即不存在关联。
⚝ 备择假设 ( \(H_1\) ):两个类别变量之间不相互独立,即存在关联。
③ 列联表 (Contingency Table):
列联表是一个二维表格,用于展示两个类别变量的交叉分类频数。假设变量 A 有 \(r\) 个类别,变量 B 有 \(c\) 个类别,则列联表为一个 \(r \times c\) 的表格。表格的每个单元格 \((i, j)\) 包含观测频数 \(O_{ij}\),表示变量 A 属于第 \(i\) 类且变量 B 属于第 \(j\) 类的观测数量。
变量 B 类别 1 | 变量 B 类别 2 | ... | 变量 B 类别 \(c\) | 行总和 (Row Total) | |
---|---|---|---|---|---|
变量 A 类别 1 | \(O_{11}\) | \(O_{12}\) | ... | \(O_{1c}\) | \(R_1\) |
变量 A 类别 2 | \(O_{21}\) | \(O_{22}\) | ... | \(O_{2c}\) | \(R_2\) |
... | ... | ... | ... | ... | ... |
变量 A 类别 \(r\) | \(O_{r1}\) | \(O_{r2}\) | ... | \(O_{rc}\) | \(R_r\) |
列总和 (Column Total) | \(C_1\) | \(C_2\) | ... | \(C_c\) | \(N\) |
其中:
\( O_{ij} \) 为第 \(i\) 行第 \(j\) 列的观测频数。
\( R_i \) 为第 \(i\) 行的总和,即变量 A 第 \(i\) 类别的总频数。
\( C_j \) 为第 \(j\) 列的总和,即变量 B 第 \(j\) 类别的总频数。
\( N \) 为总样本量,即所有观测频数之和。
④ 期望频数的计算 (Calculation of Expected Frequencies):
在零假设(两个变量相互独立)成立的条件下,列联表中每个单元格的期望频数 \(E_{ij}\) 可以通过以下公式计算:
\[ E_{ij} = \frac{R_i \times C_j}{N} \]
其中:
\( E_{ij} \) 为第 \(i\) 行第 \(j\) 列的期望频数。
\( R_i \) 为第 \(i\) 行的总和。
\( C_j \) 为第 \(j\) 列的总和。
\( N \) 为总样本量。
这个公式基于概率论中独立事件的乘法原理。如果两个变量独立,则它们同时发生的概率等于各自单独发生概率的乘积。
⑤ 卡方统计量 (Chi-Square Statistic):
独立性检验使用的卡方统计量 (\( \chi^2 \)) 的计算公式与拟合优度检验相同,但应用于列联表中的所有单元格:
\[ \chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \]
其中:
\( \chi^2 \) 为卡方统计量。
\( O_{ij} \) 为第 \(i\) 行第 \(j\) 列的观测频数。
\( E_{ij} \) 为第 \(i\) 行第 \(j\) 列的期望频数。
\( r \) 为列联表的行数(变量 A 的类别数)。
\( c \) 为列联表的列数(变量 B 的类别数)。
⑥ 自由度 (Degrees of Freedom, df):
独立性检验的自由度 (df) 计算公式为:
\[ df = (r - 1) \times (c - 1) \]
其中:
\( r \) 为列联表的行数。
\( c \) 为列联表的列数。
⑦ 决策规则 (Decision Rule):
将计算得到的卡方统计量 \( \chi^2 \) 与在给定显著性水平 \( \alpha \) 和自由度 \( df \) 下的卡方分布临界值 \( \chi^2_{\alpha, df} \) 进行比较。
⚝ 如果 \( \chi^2 \ge \chi^2_{\alpha, df} \),则拒绝零假设 \( H_0 \),认为两个变量之间不独立,即存在显著关联。
⚝ 如果 \( \chi^2 < \chi^2_{\alpha, df} \),则接受零假设 \( H_0 \),认为两个变量之间相互独立,即不存在显著关联。
⑧ 应用示例 (Application Example):
案例:某研究者想研究性别 (gender) 与喜欢的颜色 (favorite color) 之间是否存在关联。他随机调查了200人,收集到的数据如下:
喜欢蓝色 (Blue) | 喜欢红色 (Red) | 喜欢绿色 (Green) | 行总和 (Row Total) | |
---|---|---|---|---|
男性 (Male) | 40 | 30 | 20 | 90 |
女性 (Female) | 30 | 50 | 30 | 110 |
列总和 (Column Total) | 70 | 80 | 50 | 200 |
步骤 1:提出假设 (State Hypotheses)
⚝ \( H_0 \):性别与喜欢的颜色之间相互独立。
⚝ \( H_1 \):性别与喜欢的颜色之间不相互独立。
步骤 2:计算期望频数 (Calculate Expected Frequencies)
根据公式 \( E_{ij} = \frac{R_i \times C_j}{N} \),计算每个单元格的期望频数。例如,男性且喜欢蓝色的期望频数 \( E_{11} \) 为:
\[ E_{11} = \frac{R_1 \times C_1}{N} = \frac{90 \times 70}{200} = 31.5 \]
所有期望频数如下表所示:
喜欢蓝色 (Blue) | 喜欢红色 (Red) | 喜欢绿色 (Green) | |
---|---|---|---|
男性 (Male) | 31.5 | 36 | 22.5 |
女性 (Female) | 38.5 | 44 | 27.5 |
步骤 3:计算卡方统计量 (Calculate Chi-Square Statistic)
\[ \begin{aligned} \chi^2 &= \sum_{i=1}^{2} \sum_{j=1}^{3} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \\ &= \frac{(40-31.5)^2}{31.5} + \frac{(30-36)^2}{36} + \frac{(20-22.5)^2}{22.5} \\ &+ \frac{(30-38.5)^2}{38.5} + \frac{(50-44)^2}{44} + \frac{(30-27.5)^2}{27.5} \\ &\approx 2.38 + 1.00 + 0.28 + 1.89 + 0.82 + 0.23 \\ &\approx 6.60 \end{aligned} \]
步骤 4:确定自由度 (Determine Degrees of Freedom)
列联表的行数 \(r = 2\),列数 \(c = 3\),所以自由度 \(df = (r - 1) \times (c - 1) = (2 - 1) \times (3 - 1) = 2\)。
步骤 5:查阅临界值并做出决策 (Find Critical Value and Make Decision)
假设显著性水平 \( \alpha = 0.05 \)。查卡方分布表,自由度为2,\( \alpha = 0.05 \) 的临界值 \( \chi^2_{0.05, 2} = 5.991 \)。
由于计算得到的卡方统计量 \( \chi^2 = 6.60 > 5.991 \),因此我们拒绝零假设。
结论:在 \( \alpha = 0.05 \) 的显著性水平下,有足够的证据表明性别与喜欢的颜色之间不相互独立,即两者之间存在关联。这意味着性别可能会影响人们对颜色的偏好。
7.3 秩和检验 (Rank Sum Test)
秩和检验 (Rank Sum Test) 是一类重要的非参数检验方法,主要用于比较两个或多个组别的分布是否存在差异。与参数检验(如t检验和方差分析)不同,秩和检验不要求数据服从正态分布,适用于定序数据 (ordinal data) 或不满足正态性假设的连续数据 (continuous data)。秩和检验的核心思想是将原始数据转换为秩 (rank),然后基于秩进行统计分析。常用的秩和检验包括曼-惠特尼U检验 (Mann-Whitney U Test) 和 威尔coxon符号秩检验 (Wilcoxon Signed-Rank Test)。
7.3.1 曼-惠特尼U检验 (Mann-Whitney U Test)
曼-惠特尼U检验 (Mann-Whitney U Test),也称为Wilcoxon秩和检验 (Wilcoxon Rank-Sum Test),用于比较两个独立样本的总体分布是否存在显著差异。它是一种非参数替代方法,用于替代独立样本t检验 (independent samples t-test),尤其适用于当数据不满足正态分布假设或为定序数据时。
① 基本原理 (Basic Principles):
曼-惠特尼U检验的基本思想是将两个独立样本的所有观测值混合在一起,并按照从小到大的顺序进行排序 (ranking)。然后,计算每个样本的秩和 (sum of ranks)。如果两个样本来自同一总体或分布相似的总体,则它们的秩和应该相近;如果两个样本来自分布不同的总体,则秩和之间会存在显著差异。
② 零假设与备择假设 (Null and Alternative Hypotheses):
⚝ 零假设 ( \(H_0\) ):两个独立样本的总体分布相同。更精确地说,两个总体的位置参数 (location parameter) 相等,即中位数 (median) 相等。
⚝ 备择假设 ( \(H_1\) ):两个独立样本的总体分布不同。备择假设可以是双侧检验 (two-tailed test)(分布不同)或单侧检验 (one-tailed test)(一个分布的位置参数大于或小于另一个分布)。
③ 数据排序与秩的分配 (Ranking Data and Assigning Ranks):
将两个独立样本的所有观测值混合在一起,并从小到大排序。如果存在 ties (结),即多个观测值相等,则将这些 tied ranks 的平均秩 (average rank) 分配给它们。
示例:假设有两个样本:
样本 1: 10, 12, 15
样本 2: 11, 13, 18
将所有数据混合并排序: 10, 11, 12, 13, 15, 18
分配秩:
数据 (Data) | 10 | 11 | 12 | 13 | 15 | 18 |
---|---|---|---|---|---|---|
秩 (Rank) | 1 | 2 | 3 | 4 | 5 | 6 |
样本 1 的秩为:1, 3, 5
样本 2 的秩为:2, 4, 6
如果存在 ties,例如:
样本 1: 10, 12, 12
样本 2: 12, 13, 18
混合并排序: 10, 12, 12, 12, 13, 18
分配秩(对于 ties,计算平均秩):
数据 (Data) | 10 | 12 | 12 | 12 | 13 | 18 |
---|---|---|---|---|---|---|
秩 (Rank) | 1 | 3 (平均秩) | 3 (平均秩) | 3 (平均秩) | 5 | 6 |
对于三个 12,它们的秩位置原本应该是 2, 3, 4,平均秩为 \( (2+3+4)/3 = 3 \)。
样本 1 的秩为:1, 3, 3
样本 2 的秩为:3, 5, 6
④ U 统计量的计算 (Calculation of U Statistic):
曼-惠特尼U检验有两种U统计量,通常计算 \(U_1\) 或 \(U_2\) 其中一个即可。假设样本 1 的样本量为 \(n_1\),样本 2 的样本量为 \(n_2\)。令 \(R_1\) 为样本 1 的秩和,\(R_2\) 为样本 2 的秩和。U 统计量 \(U_1\) 和 \(U_2\) 的计算公式如下:
\[ U_1 = n_1 n_2 + \frac{n_1(n_1 + 1)}{2} - R_1 \]
\[ U_2 = n_1 n_2 + \frac{n_2(n_2 + 1)}{2} - R_2 \]
或者,更常用的计算公式直接基于秩和:
\[ U_1 = R_1 - \frac{n_1(n_1 + 1)}{2} \]
\[ U_2 = R_2 - \frac{n_2(n_2 + 1)}{2} \]
并且,\(U_1\) 和 \(U_2\) 之间存在以下关系:
\[ U_1 + U_2 = n_1 n_2 \]
通常选择 \(U_1\) 和 \(U_2\) 中较小的值作为检验统计量 \(U\)。
⑤ 决策规则 (Decision Rule):
对于小样本 (small sample size, 例如 \(n_1 \le 20\) 且 \(n_2 \le 20\)),可以查阅曼-惠特尼U检验的临界值表。根据显著性水平 \( \alpha \) 和样本量 \(n_1, n_2\),查表得到临界值 \(U_{\alpha}\)。
⚝ 双侧检验 (Two-tailed test):如果 \(U \le U_{\alpha/2}\),则拒绝零假设 \(H_0\)。
⚝ 单侧检验 (One-tailed test):根据备择假设的方向,如果 \(U \le U_{\alpha}\)(对于单侧检验),则拒绝零假设 \(H_0\)。
对于大样本 (large sample size, 例如 \(n_1 > 20\) 或 \(n_2 > 20\)),U 统计量近似服从正态分布。可以将U统计量转换为z统计量进行检验:
\[ z = \frac{U - \mu_U}{\sigma_U} \]
其中:
\( \mu_U = \frac{n_1 n_2}{2} \) 为U统计量的均值。
\( \sigma_U = \sqrt{\frac{n_1 n_2 (n_1 + n_2 + 1)}{12}} \) 为U统计量的标准差。
然后,将计算得到的z统计量与标准正态分布的临界值 \(z_{\alpha}\) 或 \(z_{\alpha/2}\) 进行比较。
⚝ 双侧检验 (Two-tailed test):如果 \(|z| \ge z_{\alpha/2}\),则拒绝零假设 \(H_0\)。
⚝ 单侧检验 (One-tailed test):根据备择假设的方向,如果 \(z \le -z_{\alpha}\) 或 \(z \ge z_{\alpha}\)(对于单侧检验),则拒绝零假设 \(H_0\)。
⑥ 应用示例 (Application Example):
案例:某研究者想比较两种教学方法对学生成绩的影响。他随机将学生分为两组,分别采用方法 A 和方法 B 进行教学,并记录了学生的考试成绩。
样本 A (方法 A): 75, 80, 82, 88, 90
样本 B (方法 B): 68, 72, 78, 85, 86, 92
步骤 1:提出假设 (State Hypotheses)
⚝ \( H_0 \):两种教学方法对学生成绩的影响没有差异(总体分布相同)。
⚝ \( H_1 \):两种教学方法对学生成绩的影响存在差异(总体分布不同,双侧检验)。
步骤 2:数据排序与秩的分配 (Rank Data)
将所有数据混合并排序: 68, 72, 75, 78, 80, 82, 85, 86, 88, 90, 92
分配秩:
数据 (Data) | 68 | 72 | 75 | 78 | 80 | 82 | 85 | 86 | 88 | 90 | 92 |
---|---|---|---|---|---|---|---|---|---|---|---|
秩 (Rank) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
样本 A 的秩: 3, 5, 6, 9, 10
样本 B 的秩: 1, 2, 4, 7, 8, 11
步骤 3:计算秩和 (Calculate Rank Sums)
样本 A 的秩和 \(R_1 = 3 + 5 + 6 + 9 + 10 = 33\)
样本 B 的秩和 \(R_2 = 1 + 2 + 4 + 7 + 8 + 11 = 33\)
步骤 4:计算 U 统计量 (Calculate U Statistic)
样本量 \(n_1 = 5\),\(n_2 = 6\)。计算 \(U_1\) 和 \(U_2\):
\[ U_1 = R_1 - \frac{n_1(n_1 + 1)}{2} = 33 - \frac{5(5 + 1)}{2} = 33 - 15 = 18 \]
\[ U_2 = R_2 - \frac{n_2(n_2 + 1)}{2} = 33 - \frac{6(6 + 1)}{2} = 33 - 21 = 12 \]
选择较小的值作为 \(U\),所以 \(U = 12\)。
步骤 5:查阅临界值或进行正态近似检验 (Find Critical Value or Perform Normal Approximation)
由于样本量较小,查阅曼-惠特尼U检验临界值表。假设 \( \alpha = 0.05 \) 双侧检验。对于 \(n_1 = 5\),\(n_2 = 6\),\( \alpha/2 = 0.025 \) 的临界值 \(U_{0.025} = 4\)。
由于 \(U = 12 > 4\),因此不能拒绝零假设。
结论:在 \( \alpha = 0.05 \) 的显著性水平下,没有足够的证据表明两种教学方法对学生成绩的影响存在显著差异。
7.3.2 威尔coxon符号秩检验 (Wilcoxon Signed-Rank Test)
威尔coxon符号秩检验 (Wilcoxon Signed-Rank Test) 用于比较配对样本的两个相关组别之间是否存在显著差异。它是配对样本t检验 (paired samples t-test) 的非参数替代方法,适用于当配对数据差值不满足正态分布假设或为定序数据时。
① 基本原理 (Basic Principles):
威尔coxon符号秩检验的基本思想是计算每对观测值之间的差值 (difference),然后对差值的绝对值进行排序 (ranking)。根据差值的符号(正号或负号)分配秩。如果两个相关组别之间没有系统性差异,则正秩和与负秩和应该相近;如果存在显著差异,则正秩和与负秩和之间会存在较大差异。
② 零假设与备择假设 (Null and Alternative Hypotheses):
⚝ 零假设 ( \(H_0\) ):配对样本的两个相关组别之间没有差异。更精确地说,差值的中位数 (median of differences) 为零。
⚝ 备择假设 ( \(H_1\) ):配对样本的两个相关组别之间存在差异。备择假设可以是双侧检验 (two-tailed test)(存在差异)或单侧检验 (one-tailed test)(一个组别的值系统性地大于或小于另一个组别)。
③ 计算差值与排序 (Calculate Differences and Rank):
对于每对配对观测值 \((X_{1i}, X_{2i})\),计算差值 \(D_i = X_{1i} - X_{2i}\)。排除差值为零的配对 (ties in differences)。然后,对非零差值的绝对值 \(|D_i|\) 进行从小到大排序。如果绝对值存在 ties,则将 tied ranks 的平均秩分配给它们。
示例:假设有以下配对数据:
配对 (Pair) | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
组别 1 (Group 1) | 15 | 18 | 20 | 22 | 25 | 28 |
组别 2 (Group 2) | 12 | 19 | 18 | 20 | 26 | 25 |
计算差值 \(D_i = X_{1i} - X_{2i}\): 3, -1, 2, 2, -1, 3
排除差值为零的配对(本例中没有)。计算差值绝对值 \(|D_i|\): 3, 1, 2, 2, 1, 3
排序绝对值并分配秩(对于 ties,计算平均秩):
差值绝对值 \(|D_i|\) | 1 | 1 | 2 | 2 | 3 | 3 |
---|---|---|---|---|---|---|
秩 (Rank) | 1.5 (平均秩) | 1.5 (平均秩) | 3.5 (平均秩) | 3.5 (平均秩) | 5.5 (平均秩) | 5.5 (平均秩) |
根据原始差值的符号分配秩:
配对 (Pair) | 差值 \(D_i\) | 差值绝对值 \(|D_i|\) | 秩 (Rank) | 符号秩 (Signed Rank) |
---|---|---|---|---|
1 | 3 | 3 | 5.5 | +5.5 |
2 | -1 | 1 | 1.5 | -1.5 |
3 | 2 | 2 | 3.5 | +3.5 |
4 | 2 | 2 | 3.5 | +3.5 |
5 | -1 | 1 | 1.5 | -1.5 |
6 | 3 | 3 | 5.5 | +5.5 |
④ 计算秩和 (Calculate Rank Sums):
分别计算正秩和 \(W^+\) 和负秩和 \(W^-\):
正秩和 \(W^+ = 5.5 + 3.5 + 3.5 + 5.5 = 18\)
负秩和 \(W^- = 1.5 + 1.5 = 3\)
威尔coxon符号秩检验统计量 \(W\) 通常取 \(W^+\) 和 \(W^-\) 中较小的值,即 \(W = \min(W^+, W^-)\)。在本例中,\(W = 3\)。
⑤ 决策规则 (Decision Rule):
对于小样本 (small sample size, 例如配对数量 \(n \le 25\)),可以查阅威尔coxon符号秩检验的临界值表。根据显著性水平 \( \alpha \) 和配对数量 \(n\),查表得到临界值 \(W_{\alpha}\)。
⚝ 双侧检验 (Two-tailed test):如果 \(W \le W_{\alpha/2}\),则拒绝零假设 \(H_0\)。
⚝ 单侧检验 (One-tailed test):根据备择假设的方向,如果 \(W \le W_{\alpha}\)(对于单侧检验),则拒绝零假设 \(H_0\)。
对于大样本 (large sample size, 例如配对数量 \(n > 25\)),W 统计量近似服从正态分布。可以将W统计量转换为z统计量进行检验:
\[ z = \frac{W - \mu_W}{\sigma_W} \]
其中:
\( \mu_W = \frac{n(n + 1)}{4} \) 为W统计量的均值。
\( \sigma_W = \sqrt{\frac{n(n + 1)(2n + 1)}{24}} \) 为W统计量的标准差。
然后,将计算得到的z统计量与标准正态分布的临界值 \(z_{\alpha}\) 或 \(z_{\alpha/2}\) 进行比较。
⚝ 双侧检验 (Two-tailed test):如果 \(|z| \ge z_{\alpha/2}\),则拒绝零假设 \(H_0\)。
⚝ 单侧检验 (One-tailed test):根据备择假设的方向,如果 \(z \le -z_{\alpha}\) 或 \(z \ge z_{\alpha}\)(对于单侧检验),则拒绝零假设 \(H_0\)。
⑥ 应用示例 (Application Example):
案例:某研究者想研究某种新型减肥药的效果。他测量了10名志愿者在服用减肥药前后的体重。
志愿者 (Volunteer) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
服药前体重 (Pre-weight) | 85 | 92 | 78 | 88 | 95 | 80 | 75 | 90 | 82 | 86 |
服药后体重 (Post-weight) | 80 | 88 | 75 | 85 | 90 | 78 | 72 | 86 | 79 | 82 |
步骤 1:提出假设 (State Hypotheses)
⚝ \( H_0 \):减肥药没有效果(服药前后体重没有差异)。
⚝ \( H_1 \):减肥药有效果(服药后体重显著降低,单侧检验)。
步骤 2:计算差值与排序 (Calculate Differences and Rank)
计算差值 \(D_i = \text{Pre-weight} - \text{Post-weight}\): 5, 4, 3, 3, 5, 2, 3, 4, 3, 4
计算差值绝对值 \(|D_i|\): 5, 4, 3, 3, 5, 2, 3, 4, 3, 4
排序绝对值并分配秩(对于 ties,计算平均秩):
差值绝对值 \(|D_i|\) | 2 | 3 | 3 | 3 | 3 | 4 | 4 | 4 | 5 | 5 |
---|---|---|---|---|---|---|---|---|---|---|
秩 (Rank) | 1 | 3.5 (平均秩) | 3.5 (平均秩) | 3.5 (平均秩) | 3.5 (平均秩) | 7 | 7 | 7 | 9.5 (平均秩) | 9.5 (平均秩) |
根据原始差值的符号分配秩(所有差值均为正,所以都是正秩):
志愿者 (Volunteer) | 差值 \(D_i\) | 差值绝对值 \(|D_i|\) | 秩 (Rank) | 符号秩 (Signed Rank) |
---|---|---|---|---|
1 | 5 | 5 | 9.5 | +9.5 |
2 | 4 | 4 | 7 | +7 |
3 | 3 | 3 | 3.5 | +3.5 |
4 | 3 | 3 | 3.5 | +3.5 |
5 | 5 | 5 | 9.5 | +9.5 |
6 | 2 | 2 | 1 | +1 |
7 | 3 | 3 | 3.5 | +3.5 |
8 | 4 | 4 | 7 | +7 |
9 | 3 | 3 | 3.5 | +3.5 |
10 | 4 | 4 | 7 | +7 |
步骤 3:计算秩和 (Calculate Rank Sums)
正秩和 \(W^+ = 9.5 + 7 + 3.5 + 3.5 + 9.5 + 1 + 3.5 + 7 + 3.5 + 7 = 55\)
负秩和 \(W^- = 0\) (因为没有负差值)
威尔coxon符号秩检验统计量 \(W = \min(W^+, W^-) = 0\)。
步骤 4:查阅临界值或进行正态近似检验 (Find Critical Value or Perform Normal Approximation)
由于样本量 \(n = 10\) 较小,查阅威尔coxon符号秩检验临界值表。假设 \( \alpha = 0.05 \) 单侧检验。对于 \(n = 10\),\( \alpha = 0.05 \) 的临界值 \(W_{0.05} = 10\)。
由于 \(W = 0 < 10\),因此拒绝零假设。
结论:在 \( \alpha = 0.05 \) 的显著性水平下,有足够的证据表明该减肥药有效,能够显著降低体重。
7.4 克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test)
克鲁斯卡尔-沃利斯检验 (Kruskal-Wallis Test),也称为单因素方差分析的秩和检验 (Kruskal-Wallis one-way analysis of variance by ranks),是用于比较三个或更多独立组别的总体分布是否存在显著差异的非参数检验方法。它是单因素方差分析 (one-way ANOVA) 的非参数替代方法,适用于当数据不满足方差分析的正态性和方差齐性假设,或为定序数据时。
① 基本原理 (Basic Principles):
克鲁斯卡尔-沃利斯检验的基本思想与曼-惠特尼U检验类似,都是基于秩 (rank) 的分析。它将所有组别的观测值混合在一起,并按照从小到大的顺序进行排序。然后,计算每个组别的秩和 (sum of ranks)。如果各组别来自同一总体或分布相似的总体,则它们的秩和应该相近;如果各组别来自分布不同的总体,则秩和之间会存在显著差异。
② 零假设与备择假设 (Null and Alternative Hypotheses):
⚝ 零假设 ( \(H_0\) ):所有组别的总体分布相同。更精确地说,所有总体的中位数 (median) 相等。
⚝ 备择假设 ( \(H_1\) ):至少有两个组别的总体分布不同。注意,克鲁斯卡尔-沃利斯检验是一种 omnibus test (总括检验),只能检验是否存在总体分布差异,但不能指出具体哪些组别之间存在差异。如果拒绝零假设,通常需要进行事后检验 (post-hoc tests) 来进一步分析组别之间的两两比较。
③ 数据排序与秩的分配 (Ranking Data and Assigning Ranks):
将所有组别的所有观测值混合在一起,并从小到大排序。如果存在 ties (结),则将 tied ranks 的平均秩分配给它们。
示例:假设有三个独立样本:
样本 1: 10, 12, 15
样本 2: 11, 13, 18
样本 3: 14, 16, 19
将所有数据混合并排序: 10, 11, 12, 13, 14, 15, 16, 18, 19
分配秩:
数据 (Data) | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 18 | 19 |
---|---|---|---|---|---|---|---|---|---|
秩 (Rank) | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
样本 1 的秩: 1, 3, 6
样本 2 的秩: 2, 4, 8
样本 3 的秩: 5, 7, 9
④ H 统计量的计算 (Calculation of H Statistic):
克鲁斯卡尔-沃利斯检验使用 H 统计量作为检验统计量。假设有 \(k\) 个组别,第 \(j\) 个组别的样本量为 \(n_j\),秩和为 \(R_j\),总样本量为 \(N = \sum_{j=1}^{k} n_j\)。H 统计量的计算公式如下:
\[ H = \frac{12}{N(N + 1)} \sum_{j=1}^{k} \frac{R_j^2}{n_j} - 3(N + 1) \]
如果数据中存在 ties,需要进行 tie correction (结校正) 以提高 H 统计量的准确性。校正后的 H 统计量 \(H_c\) 为:
\[ H_c = \frac{H}{1 - \frac{\sum T}{N^3 - N}} \]
其中,\(T = \sum (t_i^3 - t_i)\),\(t_i\) 是第 \(i\) 组 ties 中 tied scores 的数量。通常,当 ties 数量不多时,tie correction 的影响较小,可以忽略。
⑤ 决策规则 (Decision Rule):
对于小样本 (small sample size),需要查阅克鲁斯卡尔-沃利斯检验的临界值表。但通常情况下,当各组样本量 \(n_j \ge 5\) 且组别数量 \(k \ge 3\) 时,H 统计量近似服从自由度为 \(df = k - 1\) 的卡方分布 (chi-square distribution)。
将计算得到的 H 统计量与在给定显著性水平 \( \alpha \) 和自由度 \( df = k - 1 \) 下的卡方分布临界值 \( \chi^2_{\alpha, df} \) 进行比较。
⚝ 如果 \( H \ge \chi^2_{\alpha, df} \),则拒绝零假设 \( H_0 \),认为至少有两个组别的总体分布不同。
⚝ 如果 \( H < \chi^2_{\alpha, df} \),则接受零假设 \( H_0 \),认为所有组别的总体分布没有显著差异。
⑥ 事后检验 (Post-hoc Tests):
如果克鲁斯卡尔-沃利斯检验拒绝了零假设,表明组别之间存在总体分布差异,但无法确定具体哪些组别之间存在差异。为了进一步分析组别之间的两两比较,需要进行事后检验。常用的事后检验方法包括:
⚝ 曼-惠特尼U检验 (Mann-Whitney U Test):对所有可能的组别对进行两两曼-惠特尼U检验。为了控制多重比较 (multiple comparisons) 带来的Ⅰ型错误 (Type I error) 累积,需要进行 Bonferroni 校正 (Bonferroni correction) 或其他多重比较校正方法,调整显著性水平 \( \alpha \)。例如,如果进行 \(m\) 次两两比较,则将每次比较的显著性水平调整为 \( \alpha' = \alpha / m \)。
⚝ 邓恩检验 (Dunn's Test):一种专门用于克鲁斯卡尔-沃利斯检验的事后检验方法,也需要进行多重比较校正。
⑦ 应用示例 (Application Example):
案例:某研究者想比较三种不同品牌的咖啡对咖啡因含量的影响。他随机抽取了每种品牌咖啡的若干样本,测量了咖啡因含量。
样本 1 (品牌 A): 120, 135, 140, 155
样本 2 (品牌 B): 110, 125, 130, 145, 150
样本 3 (品牌 C): 100, 115, 120, 130
步骤 1:提出假设 (State Hypotheses)
⚝ \( H_0 \):三种品牌咖啡的咖啡因含量总体分布相同。
⚝ \( H_1 \):至少有两种品牌咖啡的咖啡因含量总体分布不同。
步骤 2:数据排序与秩的分配 (Rank Data)
将所有数据混合并排序: 100, 110, 115, 120, 120, 125, 130, 130, 135, 140, 145, 150, 155
分配秩(对于 ties,计算平均秩):
数据 (Data) | 100 | 110 | 115 | 120 | 120 | 125 | 130 | 130 | 135 | 140 | 145 | 150 | 155 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
秩 (Rank) | 1 | 2 | 3 | 4.5 (平均秩) | 4.5 (平均秩) | 6 | 7.5 (平均秩) | 7.5 (平均秩) | 9 | 10 | 11 | 12 | 13 |
样本 1 的秩: 4.5, 9, 10, 13
样本 2 的秩: 2, 6, 7.5, 11, 12
样本 3 的秩: 1, 3, 4.5, 7.5
步骤 3:计算秩和 (Calculate Rank Sums)
样本 1 的秩和 \(R_1 = 4.5 + 9 + 10 + 13 = 36.5\)
样本 2 的秩和 \(R_2 = 2 + 6 + 7.5 + 11 + 12 = 38.5\)
样本 3 的秩和 \(R_3 = 1 + 3 + 4.5 + 7.5 = 16\)
样本量 \(n_1 = 4\),\(n_2 = 5\),\(n_3 = 4\),总样本量 \(N = 4 + 5 + 4 = 13\)。
步骤 4:计算 H 统计量 (Calculate H Statistic)
\[ \begin{aligned} H &= \frac{12}{N(N + 1)} \sum_{j=1}^{3} \frac{R_j^2}{n_j} - 3(N + 1) \\ &= \frac{12}{13(13 + 1)} \left( \frac{36.5^2}{4} + \frac{38.5^2}{5} + \frac{16^2}{4} \right) - 3(13 + 1) \\ &= \frac{12}{182} \left( \frac{1332.25}{4} + \frac{1482.25}{5} + \frac{256}{4} \right) - 42 \\ &\approx 0.0659 \times (333.06 + 296.45 + 64) - 42 \\ &\approx 0.0659 \times 693.51 - 42 \\ &\approx 45.70 - 42 \\ &\approx 3.70 \end{aligned} \]
步骤 5:确定自由度并查阅临界值 (Determine Degrees of Freedom and Find Critical Value)
组别数量 \(k = 3\),自由度 \(df = k - 1 = 3 - 1 = 2\)。假设显著性水平 \( \alpha = 0.05 \)。查卡方分布表,自由度为2,\( \alpha = 0.05 \) 的临界值 \( \chi^2_{0.05, 2} = 5.991 \)。
由于计算得到的 H 统计量 \( H = 3.70 < 5.991 \),因此不能拒绝零假设。
结论:在 \( \alpha = 0.05 \) 的显著性水平下,没有足够的证据表明三种品牌咖啡的咖啡因含量总体分布存在显著差异。
END_OF_CHAPTER
8. chapter 8: 效应量与统计功效 (Effect Size and Statistical Power)
8.1 效应量的概念与重要性 (Concept and Importance of Effect Size)
在心理学研究中,我们经常使用假设检验来判断研究结果是否具有统计学意义。然而,仅仅知道结果“显著” (significant) 往往是不够的。统计显著性 (statistical significance) 仅仅告诉我们观察到的效应不太可能是由于随机因素造成的,但它并没有告诉我们效应的大小 (magnitude) 或实际意义 (practical importance)。 这就是效应量 (effect size) 概念引入的原因。
效应量是一个量化的指标,用于衡量研究中观察到的效应的强度或大小。它独立于样本量,能够更直接地反映研究发现的实际意义。与 \(p\) 值不同,效应量不受样本量的影响,因此,即使在样本量很大的情况下,如果效应量很小,研究结果的实际价值也可能有限。反之,即使在样本量较小的情况下,如果效应量很大,研究结果也可能具有重要的实际意义。
理解效应量的重要性体现在以下几个方面:
① 超越统计显著性 (Going beyond statistical significance): 统计显著性仅仅回答了“是否存在效应”的问题,而效应量则进一步回答了“效应有多大”的问题。在许多情况下,尤其是在样本量较大的研究中,即使是非常小的效应也可能达到统计显著性,但这并不意味着这个效应在实际应用中具有重要价值。效应量帮助我们判断研究发现是否具有临床意义 (clinical significance) 或实践意义 (practical significance)。
② 跨研究比较 (Cross-study comparison): 效应量提供了一个标准化的尺度,使得不同研究之间结果的比较成为可能。即使不同的研究使用了不同的测量工具或样本,只要报告了效应量,我们就可以比较它们发现的效应的相对大小。这对于元分析 (meta-analysis) 尤为重要,元分析旨在综合多个研究的结果,而效应量是元分析的基础。
③ 样本量规划 (Sample size planning): 在研究设计阶段,效应量可以帮助研究者进行功效分析 (power analysis),从而确定达到一定统计功效所需的样本量。研究者通常会根据预期的效应量大小来决定需要收集多少数据,以确保研究有足够的能力检测到真实存在的效应。
④ 结果解释 (Result interpretation): 效应量有助于更全面、更深入地解释研究结果。仅仅报告 \(p\) 值可能会导致对研究结果的误读,而同时报告效应量可以帮助读者更好地理解研究发现的实际意义和价值。例如,一个干预措施可能在统计上显著提高了学生的成绩,但如果效应量很小,那么这种提高在实际教育情境中可能并不重要。
总之,效应量是心理统计学中一个至关重要的概念。它弥补了统计显著性的不足,帮助研究者和读者更全面、更客观地评价研究结果的实际意义和价值。在报告研究结果时,除了 \(p\) 值,效应量也应该成为必不可少的部分。
8.1.1 常见效应量指标 (Common Effect Size Indices)
心理统计学中存在多种效应量指标,不同的统计方法通常有与之对应的效应量指标。选择合适的效应量指标取决于研究设计、数据类型以及所使用的统计分析方法。以下介绍几种常见的效应量指标:
① Cohen's \(d\) (科恩\(d\)值): Cohen's \(d\) 是最常用的效应量指标之一,主要用于独立样本t检验 (independent samples t-test) 和配对样本t检验 (paired samples t-test),用于衡量两个均值之间的标准化差异。
Cohen's \(d\) 的计算公式如下:
\[ d = \frac{\bar{X}_1 - \bar{X}_2}{S_{pooled}} \]
其中,\(\bar{X}_1\) 和 \(\bar{X}_2\) 分别是两组样本的均值,\(S_{pooled}\) 是合并标准差 (pooled standard deviation),计算公式为:
\[ S_{pooled} = \sqrt{\frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}} \]
这里,\(n_1\) 和 \(n_2\) 分别是两组样本的样本量,\(S_1^2\) 和 \(S_2^2\) 分别是两组样本的方差。
Cohen (1988) 提出了 Cohen's \(d\) 的经验法则 (rule of thumb) 来解释效应量的大小:
▮▮▮▮⚝ 小效应 (small effect): \(d = 0.2\)
▮▮▮▮⚝ 中等效应 (medium effect): \(d = 0.5\)
▮▮▮▮⚝ 大效应 (large effect): \(d = 0.8\)
例如,如果一项研究比较了两种教学方法对学生成绩的影响,结果显示使用新教学方法的学生的平均成绩比使用传统教学方法的学生高出 0.5 个标准差,那么 Cohen's \(d = 0.5\),表明存在中等效应。
② \(r\) 相关系数 (Correlation coefficient \(r\)): \(r\) 相关系数,如 皮尔逊相关系数 (Pearson correlation coefficient) 和 斯皮尔曼等级相关系数 (Spearman rank correlation coefficient),用于衡量两个变量之间线性关系的强度和方向。\(r\) 的取值范围在 -1 到 +1 之间,绝对值越大表示相关性越强。
对于皮尔逊相关系数,Cohen (1988) 也提出了经验法则:
▮▮▮▮⚝ 小效应 (small effect): \(r = 0.1\)
▮▮▮▮⚝ 中等效应 (medium effect): \(r = 0.3\)
▮▮▮▮⚝ 大效应 (large effect): \(r = 0.5\)
例如,如果一项研究发现学生的学习时间与考试成绩之间的皮尔逊相关系数为 \(r = 0.4\),表明两者之间存在中等程度的正相关关系。
\(r^2\) (决定系数 (coefficient of determination)) 也是一个常用的效应量指标,表示因变量的变异性能被自变量解释的比例。例如,如果 \(r = 0.4\),则 \(r^2 = 0.16\),意味着学习时间的变异性能解释考试成绩变异性的 16%。
③ \(η^2\) (Eta-squared, Eta方), 偏 \(η^2\) (Partial eta-squared, 偏Eta方), \(ω^2\) (Omega-squared, Omega方): 这些效应量指标主要用于 方差分析 (ANOVA),用于衡量自变量对因变量变异性的解释程度。
▮▮▮▮⚝ \(η^2\) (Eta-squared): 表示总变异中,组间变异所占的比例。计算公式为:
1
\[
η^2 = \frac{SS_{组间}}{SS_{总}}
\]
2
3
其中,\(SS_{组间}\) 是组间平方和,\(SS_{总}\) 是总平方和。
▮▮▮▮⚝ 偏 \(η^2\) (Partial eta-squared): 在多因素方差分析中,偏 \(η^2\) 表示控制了其他自变量后,某个自变量对因变量变异性的独特解释程度。计算公式为:
1
\[
\text{偏} η^2 = \frac{SS_{效应}}{SS_{效应} + SS_{误差}}
\]
2
3
其中,\(SS_{效应}\) 是特定效应的平方和,\(SS_{误差}\) 是误差平方和。
▮▮▮▮⚝ \(ω^2\) (Omega-squared): \(ω^2\) 是对 \(η^2\) 的一种修正,旨在提供对总体效应量的更无偏估计。计算公式较为复杂,但统计软件通常会自动计算。
Cohen (1988) 对 \(η^2\) 和 偏 \(η^2\) 也提出了经验法则:
▮▮▮▮⚝ 小效应 (small effect): \(η^2\) 或 偏 \(η^2\) = 0.01
▮▮▮▮⚝ 中等效应 (medium effect): \(η^2\) 或 偏 \(η^2\) = 0.06
▮▮▮▮⚝ 大效应 (large effect): \(η^2\) 或 偏 \(η^2\) = 0.14
需要注意的是,\(η^2\) 和 偏 \(η^2\) 倾向于高估总体效应量,而 \(ω^2\) 则提供了更保守和更准确的估计。在报告方差分析结果时,建议同时报告 \(η^2\)、偏 \(η^2\) 和 \(ω^2\),并根据研究的具体情境选择合适的指标进行解释。
④ 比值比 (Odds Ratio, OR) 和 相对风险 (Relative Risk, RR): 这两个效应量指标常用于分类数据 (categorical data) 的分析,例如在 卡方检验 (Chi-square test) 中,用于衡量两个分类变量之间关联的强度。
▮▮▮▮⚝ 比值比 (Odds Ratio, OR): 常用于病例对照研究 (case-control study) 和 logistic 回归 (logistic regression)。对于一个 2x2 列联表,比值比定义为:
1
\[
OR = \frac{ad}{bc}
\]
2
3
其中,\(a, b, c, d\) 是列联表中的频数。OR 值大于 1 表示暴露组发生事件的**几率 (odds)** 高于非暴露组,OR 值小于 1 则相反,OR 值等于 1 表示两组几率相等。
▮▮▮▮⚝ 相对风险 (Relative Risk, RR): 常用于队列研究 (cohort study) 和 临床试验 (clinical trial)。相对风险定义为:
1
\[
RR = \frac{P_1}{P_2}
\]
2
3
其中,\(P_1\) 是暴露组发生事件的**概率 (probability)**,\(P_2\) 是非暴露组发生事件的概率。RR 值大于 1 表示暴露组发生事件的风险高于非暴露组,RR 值小于 1 则相反,RR 值等于 1 表示两组风险相等。
对于 OR 和 RR 的解释,没有统一的经验法则,需要根据具体的研究领域和情境来判断效应量的大小。一般来说,OR 或 RR 值离 1 越远,效应量越大。
⑤ Cohen's \(w\) (科恩\(w\)值) 和 Cramer's \(V\) (克莱默\(V\)系数): 这两个效应量指标也用于卡方检验,用于衡量两个分类变量之间关联的强度。
▮▮▮▮⚝ Cohen's \(w\): 用于拟合优度检验 (goodness-of-fit test) 和 独立性检验 (test of independence)。对于独立性检验,Cohen's \(w\) 的计算公式为:
1
\[
w = \sqrt{\sum_{i=1}^{m} \frac{(P_{Oi} - P_{Ei})^2}{P_{Ei}}}
\]
2
3
其中,\(P_{Oi}\) 是观察到的比例,\(P_{Ei}\) 是期望的比例,\(m\) 是类别数。
▮▮▮▮⚝ Cramer's \(V\): 主要用于 \(r \times c\) 列联表的独立性检验,是对 Cohen's \(w\) 的一种标准化。对于 \(r \times c\) 列联表,Cramer's \(V\) 的计算公式为:
1
\[
V = \sqrt{\frac{χ^2}{n \times \min(r-1, c-1)}}
\]
2
3
其中,\(χ^2\) 是卡方统计量,\(n\) 是总样本量,\(r\) 和 \(c\) 分别是列联表的行数和列数,\(\min(r-1, c-1)\) 是 \(r-1\) 和 \(c-1\) 中的最小值。
Cohen (1988) 对 Cohen's \(w\) 和 Cramer's \(V\) 也提出了经验法则:
▮▮▮▮⚝ 小效应 (small effect): \(w\) 或 \(V\) = 0.1
▮▮▮▮⚝ 中等效应 (medium effect): \(w\) 或 \(V\) = 0.3
▮▮▮▮⚝ 大效应 (large effect): \(w\) 或 \(V\) = 0.5
选择合适的效应量指标需要根据研究的具体情况和统计方法来决定。在实际研究中,建议根据研究领域的惯例和研究目的选择最合适的效应量指标,并清晰报告效应量的值及其解释。
8.2 统计功效分析 (Statistical Power Analysis)
统计功效 (statistical power),通常用 \(1 - β\) 表示,是指当备择假设 (alternative hypothesis) 实际上为真时,拒绝零假设 (null hypothesis) 的概率。换句话说,统计功效是指研究能够正确检测到真实效应的能力。统计功效分析 (statistical power analysis) 是一种用于评估和提高研究统计功效的方法。
统计功效的重要性体现在以下几个方面:
① 避免Ⅱ型错误 (Avoiding Type II error): Ⅱ型错误 (Type II error),也称为假阴性错误 (false negative error),是指当备择假设为真时,未能拒绝零假设的错误。高统计功效意味着研究更有可能检测到真实存在的效应,从而降低犯Ⅱ型错误的风险。
② 优化研究设计 (Optimizing research design): 统计功效分析可以帮助研究者在研究设计阶段优化各种研究参数,例如样本量、显著性水平和效应量,以确保研究具有足够的统计功效来检测到预期效应。
③ 结果解释的准确性 (Accuracy of result interpretation): 了解研究的统计功效有助于更准确地解释研究结果。如果一项研究未能发现显著效应,但其统计功效很低,那么我们不能轻易得出“效应不存在”的结论,而应该考虑研究可能由于功效不足而未能检测到真实效应。
④ 伦理责任 (Ethical responsibility): 从伦理角度来看,研究者有责任确保研究设计合理、科学,能够有效地回答研究问题。进行功效分析并确保研究具有足够的统计功效,是研究伦理的重要组成部分,可以避免浪费研究资源和参与者的时间。
影响统计功效的因素主要有四个:效应量 (effect size)、样本量 (sample size)、显著性水平 (significance level, \(α\)) 和 统计功效 (statistical power, \(1 - β\))。这四个因素之间存在密切的关系,通常情况下,给定其中任意三个因素,就可以计算出第四个因素。
8.2.1 功效、样本量、效应量与显著性水平的关系 (Relationship between Power, Sample Size, Effect Size, and Significance Level)
统计功效、样本量、效应量和显著性水平是功效分析的四个核心要素,它们之间的关系可以用以下方式概括:
① 效应量 (Effect Size): 效应量越大,越容易检测到效应,统计功效越高。效应量反映了真实效应的强度,效应越大,信号越强,越容易从噪声中区分出来。
② 样本量 (Sample Size): 样本量越大,统计功效越高。样本量增加可以提高估计的精确度,降低抽样误差,从而更容易检测到真实效应。
③ 显著性水平 (Significance Level, \(α\)): 显著性水平 \(α\) 越高(例如,从 0.05 增加到 0.10),统计功效越高。提高 \(α\) 水平意味着更容易拒绝零假设,但也增加了犯 Ⅰ型错误 (Type I error),即假阳性错误 (false positive error) 的风险。在实际研究中,\(α\) 水平通常保持在 0.05 或更低,以控制Ⅰ型错误率。
④ 统计功效 (Statistical Power, \(1 - β\)): 统计功效是研究的目标,通常希望统计功效达到 0.80 或更高。这意味着当备择假设为真时,研究有 80% 或更高的概率拒绝零假设。
这四个因素之间的关系可以用下图表示 (概念性示意图,非精确数学关系):
1
样本量 (Sample Size) 📈
2
/ / / 效应量 (Effect Size) 📈 ---- 统计功效 (Statistical Power) 📈 ---- 显著性水平 (Significance Level, α) 📈
从图中可以看出,效应量和样本量与统计功效呈正相关关系,而显著性水平与统计功效也呈正相关关系(但同时会增加Ⅰ型错误风险)。在实际研究中,研究者通常会根据预期的效应量大小、可接受的Ⅰ型错误率以及期望的统计功效来确定所需的样本量。
例如,假设研究者计划进行一项独立样本t检验,预期效应量为中等 (\(d = 0.5\)),显著性水平设定为 \(α = 0.05\),期望统计功效为 0.80。通过功效分析,研究者可以计算出达到这些条件所需的样本量。如果计算结果显示每组需要 64 名被试,那么研究者就需要招募总共 128 名被试参与研究。
统计功效分析通常使用专门的统计软件或在线工具进行计算。常用的软件包括 G*Power, R, SPSS 等。这些工具可以根据不同的统计检验类型、效应量指标、显著性水平和期望功效,计算出所需的样本量,或者在给定样本量的情况下,计算出研究的统计功效。
8.2.2 事前功效分析与事后功效分析 (A Priori Power Analysis and Post-hoc Power Analysis)
统计功效分析主要分为两种类型:事前功效分析 (a priori power analysis) 和 事后功效分析 (post-hoc power analysis)。
① 事前功效分析 (A Priori Power Analysis): 事前功效分析在研究开始之前进行,目的是确定达到期望统计功效所需的样本量。这是功效分析最主要和最有价值的应用。
进行事前功效分析的步骤通常包括:
- 确定统计检验类型 (Specify statistical test): 例如,独立样本t检验、方差分析、回归分析等。
- 设定显著性水平 (\(α\)) (Set significance level): 通常设定为 \(α = 0.05\)。
- 估计效应量 (Estimate effect size): 根据以往研究、元分析 (meta-analysis) 结果或pilot study (预实验) 结果,估计预期的效应量大小。如果缺乏先验信息,可以使用 Cohen (1988) 提出的经验法则作为参考(小、中、大效应)。
- 设定期望的统计功效 (Set desired power): 通常设定为 0.80 或更高。
- 计算所需样本量 (Calculate required sample size): 使用功效分析软件或公式,计算在上述条件下达到期望功效所需的样本量。
事前功效分析有助于研究者在研究设计阶段就合理规划样本量,避免样本量过小导致研究功效不足,或者样本量过大造成资源浪费。
② 事后功效分析 (Post-hoc Power Analysis): 事后功效分析在研究完成后进行,目的是在研究结果为不显著 (non-significant) 时,评估研究的统计功效。然而,事后功效分析的价值和意义在统计学界存在争议。
传统的事后功效分析通常基于研究中观察到的效应量和实际使用的样本量,计算研究的观察功效 (observed power)。如果观察功效很低,研究者可能会认为研究未能发现显著效应是因为功效不足。
然而,许多统计学家,例如 Hoenig, Heisey, & Greenland (2001) 和 Gelman (2018),批评了传统的事后功效分析。他们指出,事后功效分析的结果与 \(p\) 值高度相关,实际上并没有提供额外的信息。如果 \(p\) 值不显著,事后功效分析的结果往往也很低,但这只是 \(p\) 值不显著的另一种表达方式,并不能真正解释为什么研究未能发现显著效应。
此外,基于观察到的效应量进行事后功效分析存在循环论证的问题。观察到的效应量本身就受到抽样误差的影响,如果研究结果不显著,观察到的效应量可能偏小,从而导致事后功效分析的结果偏低。
尽管如此,事后功效分析在某些情况下仍然具有一定的参考价值,例如:
▮▮▮▮⚝ 解释不显著结果 (Explaining non-significant results): 当研究结果不显著时,事后功效分析可以作为一个辅助工具,帮助研究者评估研究是否可能由于功效不足而未能检测到真实效应。但需要谨慎解释结果,避免过度解读。
▮▮▮▮⚝ 比较不同研究的功效 (Comparing power across studies): 在比较不同研究的功效时,事后功效分析可以提供一个粗略的参考。但更严谨的方法是进行元分析,综合多个研究的结果。
总的来说,事前功效分析是研究设计阶段必不可少的重要步骤,有助于确保研究具有足够的统计功效。而事后功效分析的价值和意义存在争议,应谨慎使用和解释,避免过度依赖事后功效分析来解释不显著的研究结果。更重要的是关注研究设计、效应量估计和结果的实际意义。
END_OF_CHAPTER
9. chapter 9: 元分析 (Meta-Analysis)
9.1 元分析概述 (Overview of Meta-Analysis)
9.1.1 元分析的目的与步骤 (Purpose and Steps of Meta-Analysis)
元分析 (Meta-Analysis) 是一种定量研究综合方法,它使用统计学技术来系统地整合多个独立研究的结果,以获得关于特定研究问题的更可靠和全面的结论。与传统的文献综述不同,元分析不仅仅是对研究结果进行定性描述,而是通过效应量 (effect size) 的计算和整合,对研究结果进行定量合成。
元分析的主要目的包括:
① 提高统计功效 (statistical power):单个研究的样本量可能有限,导致统计功效不足,难以发现真实存在的效果。元分析通过整合多个研究的样本,有效地增大了总样本量,从而提高了检验效应的统计功效,更容易检测到真实的效果。
② 解决研究结果的不一致性 (resolve inconsistencies in research findings):在特定研究领域,不同的研究可能得出不一致甚至矛盾的结论。元分析可以系统地分析这些研究,找出不一致性的来源,并提供一个整合的、更清晰的结论。例如,通过元分析可以探究不同研究之间方法学差异、样本特征等因素是否导致了结果的差异。
③ 更精确地估计效应量 (more precisely estimate effect size):单个研究对效应量的估计可能受到抽样误差的影响。元分析通过整合多个研究的效应量估计,可以得到更稳定、更精确的总体效应量估计,从而更准确地评估效应的大小和方向。
④ 探索调节变量 (explore moderator variables):元分析可以用来检验某些变量是否会调节研究结果。例如,在心理治疗效果的研究中,元分析可以检验治疗类型、患者特征、研究设计等因素是否会影响治疗效果的大小。这有助于我们更深入地理解效应发生的条件和边界。
元分析通常包括以下几个关键步骤:
① 明确研究问题 (formulate research question):元分析的第一步是明确要研究的具体问题。研究问题应该清晰、具体、可操作,并能够通过现有的研究文献来回答。例如,研究问题可以是“认知行为疗法 (Cognitive Behavioral Therapy, CBT) 对抑郁症 (depression) 的治疗效果如何?”。
② 文献检索 (literature search):系统而全面的文献检索是元分析的基础。研究者需要制定详细的检索策略,使用多个数据库(如PubMed, PsycINFO, Web of Science, CNKI等),并结合手工检索、参考文献追溯等方法,尽可能全面地收集相关研究文献。检索策略应包括关键词、主题词、检索年限、文献类型等。
③ 研究筛选与纳入 (study selection and inclusion):收集到的文献需要根据预先设定的纳入和排除标准进行筛选。纳入标准通常包括研究类型(如随机对照试验、准实验研究)、研究对象、干预措施、结局指标等。排除标准可能包括研究设计缺陷、数据不完整、重复发表等。筛选过程通常由两位或多位研究者独立进行,以保证客观性和一致性。
④ 数据提取 (data extraction):对于纳入的研究,需要系统地提取相关数据。数据提取的内容包括研究的基本信息(如作者、发表年份、研究设计、样本量)、干预措施的详细描述、结局指标的测量方法、以及最重要的——效应量数据。效应量可以是均值差 (mean difference)、标准化均值差 (standardized mean difference, Cohen's d)、相关系数 (correlation coefficient, r)、比值比 (odds ratio, OR) 等。数据提取也应由多位研究者独立进行,并进行一致性检验。
⑤ 效应量计算与整合 (effect size calculation and aggregation):如果原始研究没有直接报告效应量,研究者需要根据原始数据计算效应量。对于不同的研究,可能需要使用不同的效应量指标,并进行适当的转换,以保证效应量指标的可比性。然后,选择合适的统计模型(如固定效应模型或随机效应模型)对提取的效应量进行加权平均,得到总体效应量的估计值。
⑥ 异质性检验与处理 (heterogeneity test and handling):异质性 (heterogeneity) 指的是纳入研究之间效应量差异的程度。元分析需要检验研究之间是否存在显著的异质性。常用的异质性检验方法包括 \(Q\) 检验和 \(I^2\) 统计量。如果存在显著异质性,需要进一步分析异质性的来源,例如通过亚组分析 (subgroup analysis) 或元回归 (meta-regression) 等方法,探索调节变量的影响。
⑦ 发表偏倚检验与处理 (publication bias test and handling):发表偏倚 (publication bias) 是指阳性结果(即发现显著效应的研究)比阴性结果(即未发现显著效应的研究)更容易发表的现象。发表偏倚可能导致元分析结果的偏差。需要使用漏斗图 (funnel plot)、Egger's 检验、Begg's 检验等方法来评估发表偏倚的风险,并采取相应的处理措施,如剪补法 (trim-and-fill method) 等。
⑧ 结果解释与报告 (result interpretation and reporting):元分析的最后一步是对结果进行解释和报告。报告应清晰、完整地描述元分析的研究问题、方法、结果和结论。结果解释应结合效应量的大小、统计显著性、异质性分析、发表偏倚评估等信息,全面评价研究领域的现状,并指出未来研究的方向。报告应遵循PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) 等指南,提高报告的透明度和规范性。
9.2 效应量整合方法 (Methods for Effect Size Aggregation)
9.2.1 固定效应模型 (Fixed-Effect Model)
固定效应模型 (Fixed-Effect Model) 是元分析中最基本的一种效应量整合方法。它假设所有纳入元分析的研究都来自同一个总体,即它们都在估计同一个真实的总体效应量。因此,研究间效应量的差异仅仅是由抽样误差 (sampling error) 造成的。
在固定效应模型中,每个研究的效应量被认为是总体效应量加上抽样误差。模型的目标是估计这个唯一的总体效应量。为了更精确地估计总体效应量,固定效应模型采用加权平均 (weighted average) 的方法,给每个研究的效应量赋予不同的权重。权重通常与研究的精度 (precision) 成正比,精度越高,权重越大。在元分析中,研究的精度通常用效应量估计值的方差 (variance) 的倒数来衡量。方差越小,精度越高,权重越大。
对于第 \(i\) 个研究,假设其效应量为 \(ES_i\),方差为 \(V_i\)。在固定效应模型中,总体效应量 \(ES_{FE}\) 的估计值可以通过以下公式计算:
\[ ES_{FE} = \frac{\sum_{i=1}^{k} w_i ES_i}{\sum_{i=1}^{k} w_i} \]
其中,\(k\) 是纳入元分析的研究数量,\(w_i\) 是第 \(i\) 个研究的权重,通常取为方差的倒数,即 \(w_i = \frac{1}{V_i}\)。
总体效应量 \(ES_{FE}\) 的方差 \(V_{FE}\) 可以通过以下公式计算:
\[ V_{FE} = \frac{1}{\sum_{i=1}^{k} w_i} \]
总体效应量 \(ES_{FE}\) 的标准误 \(SE_{FE}\) 就是方差的平方根:
\[ SE_{FE} = \sqrt{V_{FE}} = \sqrt{\frac{1}{\sum_{i=1}^{k} w_i}} \]
有了总体效应量 \(ES_{FE}\) 和标准误 \(SE_{FE}\),就可以构建总体效应量的置信区间 (confidence interval),并进行显著性检验 (significance test)。例如,95% 置信区间可以近似计算为 \(ES_{FE} \pm 1.96 \times SE_{FE}\)。显著性检验通常使用 \(Z\) 检验,检验统计量为 \(Z = \frac{ES_{FE}}{SE_{FE}}\),并与标准正态分布进行比较。
固定效应模型的优点是计算简单,易于理解和应用。然而,它的局限性在于假设所有研究都来自同一个总体,这在实际研究中往往难以满足。如果研究之间存在真实的异质性(即研究结果的差异不仅仅是抽样误差造成的),使用固定效应模型可能会导致结果的偏差,并可能高估总体效应量的精度。
固定效应模型适用于以下情况:
⚝ 研究之间在方法学、研究对象、干预措施等方面非常相似,预期研究结果的差异主要来源于抽样误差。
⚝ 异质性检验结果表明研究间异质性不显著。
⚝ 研究目的是估计在特定条件下(与纳入研究条件相似)的效应量。
9.2.2 随机效应模型 (Random-Effects Model)
随机效应模型 (Random-Effects Model) 是另一种常用的效应量整合方法,它放宽了固定效应模型的假设,认为纳入元分析的研究来自不同的总体,或者说它们在估计不同的、但又相关的总体效应量。随机效应模型假设研究间的效应量差异不仅来源于抽样误差,还来源于真实的研究间变异 (true between-study variability)。
在随机效应模型中,每个研究的效应量被认为是来自一个总体效应量分布的随机样本。这个分布的均值是我们要估计的总体平均效应量,而分布的方差则反映了研究间真实效应量的变异程度,称为研究间方差 (between-study variance),通常用 \(\tau^2\) (tau-squared) 表示。
随机效应模型的目标是估计总体平均效应量,并考虑研究间方差的影响。与固定效应模型类似,随机效应模型也采用加权平均的方法,但权重的计算方式有所不同。在随机效应模型中,每个研究的权重不仅取决于其自身的抽样方差 \(V_i\),还取决于研究间方差 \(\tau^2\)。
对于第 \(i\) 个研究,其在随机效应模型中的权重 \(w_i^*\) 可以通过以下公式计算:
\[ w_i^* = \frac{1}{V_i + \tau^2} \]
可以看到,随机效应模型的权重 \(w_i^*\) 是抽样方差 \(V_i\) 和研究间方差 \(\tau^2\) 之和的倒数。与固定效应模型相比,随机效应模型的权重考虑了研究间方差,因此通常会更小。当研究间方差 \(\tau^2\) 为零时,随机效应模型退化为固定效应模型。
总体平均效应量 \(ES_{RE}\) 的估计值可以通过以下公式计算:
\[ ES_{RE} = \frac{\sum_{i=1}^{k} w_i^* ES_i}{\sum_{i=1}^{k} w_i^*} \]
总体平均效应量 \(ES_{RE}\) 的方差 \(V_{RE}\) 可以通过以下公式计算:
\[ V_{RE} = \frac{1}{\sum_{i=1}^{k} w_i^*} \]
总体平均效应量 \(ES_{RE}\) 的标准误 \(SE_{RE}\) 就是方差的平方根:
\[ SE_{RE} = \sqrt{V_{RE}} = \sqrt{\frac{1}{\sum_{i=1}^{k} w_i^*}} \]
同样,可以构建总体平均效应量的置信区间,并进行显著性检验。
随机效应模型的关键在于估计研究间方差 \(\tau^2\)。常用的 \(\tau^2\) 估计方法包括DerSimonian-Laird (DL) 估计法、最大似然估计 (Maximum Likelihood, ML) 法、限制性最大似然估计 (Restricted Maximum Likelihood, REML) 法等。不同的估计方法可能会得到略微不同的 \(\tau^2\) 值,进而影响元分析的结果。
随机效应模型的优点是能够更好地处理研究间异质性,得到更稳健的总体平均效应量估计。它的局限性在于模型假设研究间效应量的变异是随机的,这在某些情况下可能不符合实际。此外,随机效应模型的统计功效通常低于固定效应模型,尤其是在研究数量较少时。
随机效应模型适用于以下情况:
⚝ 研究之间在方法学、研究对象、干预措施等方面存在差异,预期研究结果的差异不仅来源于抽样误差,还来源于真实的研究间变异。
⚝ 异质性检验结果表明研究间异质性显著。
⚝ 研究目的是估计在更广泛条件下的总体平均效应量,并考虑研究间变异的影响。
固定效应模型与随机效应模型的选择:
选择固定效应模型还是随机效应模型,需要根据具体的研究问题和数据特点来决定。一般来说,如果研究者认为纳入的研究来自同一个总体,研究间异质性可以忽略不计,或者研究目的仅仅是估计在特定条件下的效应量,可以选择固定效应模型。如果研究者预期研究间存在真实的异质性,或者研究目的是估计在更广泛条件下的总体平均效应量,应该选择随机效应模型。
在实践中,通常建议同时使用固定效应模型和随机效应模型进行元分析,并比较两种模型的结果。如果两种模型的结果差异不大,且异质性检验结果不显著,可以优先选择固定效应模型,因为它更简单且统计功效更高。如果两种模型的结果差异较大,且异质性检验结果显著,应该优先选择随机效应模型,并进一步分析异质性的来源。
9.3 发表偏倚与敏感性分析 (Publication Bias and Sensitivity Analysis)
9.3.1 发表偏倚 (Publication Bias)
发表偏倚 (Publication Bias),也称为选择性发表偏倚 (selective publication bias),是指研究结果的发表概率并非完全随机,而是系统性地受到研究结果性质和显著性的影响。具体来说,阳性结果 (positive results),即发现统计学显著效应的研究,比阴性结果 (negative results),即未发现统计学显著效应的研究,更容易被研究者撰写、投稿,更容易被期刊接受发表,也更容易被索引和检索到。这种系统性的偏倚导致已发表的文献可能不能代表所有已完成的研究,从而影响元分析的结论。
发表偏倚的产生机制是多方面的,可能包括:
① 研究者偏倚 (researcher bias):研究者可能更倾向于撰写和投稿阳性结果的研究,因为阳性结果通常被认为更具有“新闻价值”和学术影响力。而对于阴性结果,研究者可能认为其缺乏创新性,难以发表,或者担心发表阴性结果会影响自己的学术声誉。
② 期刊编辑和审稿人偏倚 (journal editor and reviewer bias):期刊编辑和审稿人可能更倾向于接受发表阳性结果的研究,因为阳性结果通常被认为更符合期刊的“影响力”和“读者兴趣”。而对于阴性结果,期刊可能认为其缺乏理论贡献或实践价值,或者担心发表阴性结果会降低期刊的引用率。
③ 语言偏倚 (language bias):使用英语以外语言发表的研究可能更难被检索到,尤其是在国际性的数据库中。这可能导致元分析中纳入的主要是英语文献,而忽略了其他语言的文献,从而产生语言偏倚。
④ 引文偏倚 (citation bias):阳性结果的研究可能更容易被其他研究者引用,从而在文献检索中更容易被发现。而阴性结果的研究可能较少被引用,从而在文献检索中容易被忽略,导致引文偏倚。
发表偏倚对元分析的威胁是严重的。如果已发表的文献中阳性结果被过度代表,而阴性结果被系统性地遗漏,那么元分析的结果可能会高估 (overestimate) 真实的总体效应量,甚至得出错误的结论。因此,在进行元分析时,必须认真评估发表偏倚的风险,并采取相应的措施来检测和处理发表偏倚。
常用的发表偏倚检测方法包括:
① 漏斗图 (Funnel Plot):漏斗图是一种散点图,以每个研究的效应量为横轴,以研究的精度(通常用标准误的倒数或样本量的平方根表示)为纵轴。在没有发表偏倚的情况下,研究结果应该围绕着总体效应量对称分布,形成一个倒漏斗的形状。如果存在发表偏倚,尤其是小型研究效应 (small-study effects),即小型研究倾向于报告更大的阳性效应,漏斗图可能会呈现不对称的形状,例如底部缺失或偏斜。
② Egger's 检验 (Egger's test):Egger's 检验是一种线性回归检验,用于定量评估漏斗图的不对称性。它以标准化效应量(效应量除以标准误)为因变量,以精度(标准误的倒数)为自变量进行回归分析。如果回归线的截距项显著不为零,则认为存在发表偏倚。Egger's 检验的 \(p\) 值可以用来判断发表偏倚的统计显著性。
③ Begg's 检验 (Begg's test):Begg's 检验是一种秩相关检验,用于评估效应量与方差之间是否存在相关性。它计算效应量与方差之间的Kendall's \(\tau\) 秩相关系数。如果相关系数显著不为零,则认为存在发表偏倚。Begg's 检验的 \(p\) 值可以用来判断发表偏倚的统计显著性。
④ 失安全系数 (Fail-safe N):失安全系数是指为了使元分析的结论不再显著,需要增加多少个均值为零的“零效应”研究。失安全系数越大,说明元分析结果的稳健性越强,受发表偏倚的影响越小。但失安全系数本身并不能直接检测发表偏倚,只能作为辅助参考指标。
如果检测到发表偏倚的风险较高,需要采取相应的处理措施,例如:
⚝ 敏感性分析 (sensitivity analysis):通过排除可能受发表偏倚影响较大的研究(如小型研究、非随机对照试验等),或者使用不同的效应量整合方法,来评估发表偏倚对元分析结果的影响。
⚝ 剪补法 (trim-and-fill method):剪补法是一种统计学方法,用于估计由于发表偏倚而可能缺失的研究,并对元分析结果进行调整。它首先通过漏斗图识别不对称性,然后“剪掉”漏斗图一侧的极端研究,使漏斗图对称,再根据对称性“填补”另一侧可能缺失的研究,最后基于调整后的研究集重新进行元分析。
⚝ 选择模型方法 (selection model methods):选择模型方法是一种更复杂的统计学方法,它直接对发表过程进行建模,并估计发表概率与研究结果之间的关系,从而校正发表偏倚的影响。但选择模型方法的应用较为复杂,需要一定的统计学专业知识。
9.3.2 敏感性分析 (Sensitivity Analysis)
敏感性分析 (Sensitivity Analysis) 是元分析中一个重要的步骤,用于评估元分析结果的稳健性 (robustness),即结果是否容易受到某些假设或方法选择的影响。敏感性分析通过系统地改变元分析的某些关键参数或步骤,观察结果是否发生显著变化,从而判断结果的可靠性。
敏感性分析可以从多个方面进行,例如:
① 研究纳入标准 (study inclusion criteria):可以尝试改变研究的纳入标准,例如放宽或收紧对研究设计、研究对象、干预措施、结局指标等方面的要求,观察元分析结果是否发生显著变化。例如,可以比较只纳入随机对照试验和纳入所有类型的研究(包括准实验研究、观察性研究等)的元分析结果。
② 效应量指标 (effect size metric):对于同一个研究问题,可能可以使用不同的效应量指标来衡量效应大小。可以尝试使用不同的效应量指标(如Cohen's d, Hedges' g, Glass's Δ等),观察元分析结果是否发生显著变化。例如,可以比较使用标准化均值差和比值比的元分析结果。
③ 异质性估计方法 (heterogeneity estimation method):在随机效应模型中,研究间方差 \(\tau^2\) 的估计方法会影响元分析的结果。可以尝试使用不同的 \(\tau^2\) 估计方法(如DL估计法、ML估计法、REML估计法等),观察元分析结果是否发生显著变化。
④ 发表偏倚处理方法 (publication bias handling method):如果检测到发表偏倚的风险较高,可以尝试使用不同的发表偏倚处理方法(如剪补法、选择模型方法等),或者不进行发表偏倚处理,比较元分析结果是否发生显著变化。
⑤ 亚组分析 (subgroup analysis):如果研究间存在显著异质性,可以进行亚组分析,将研究按照某些特征(如研究设计、研究对象、干预措施等)分组,分别进行元分析,观察不同亚组的效应量是否存在差异。亚组分析可以帮助探索异质性的来源,并评估不同亚组结果的稳健性。
⑥ 排除特定研究 (exclusion of specific studies):可以尝试排除某些可能对元分析结果产生过大影响的研究,例如离群研究 (outlier studies) 或高风险偏倚研究 (high risk of bias studies),观察元分析结果是否发生显著变化。一种常用的方法是逐一排除法 (leave-one-out analysis),即每次排除一个研究,重新进行元分析,重复这个过程直到所有研究都被排除过一次,然后比较每次元分析的结果。
敏感性分析的结果可以帮助研究者判断元分析结果的稳健性和可靠性。如果敏感性分析表明,无论如何改变分析方法或参数,元分析的结论都保持不变,那么可以认为元分析结果是稳健的,可靠性较高。反之,如果敏感性分析表明,元分析结果容易受到某些因素的影响而发生显著变化,那么需要谨慎解释元分析的结果,并指出结果的局限性。
在元分析报告中,应该详细描述所进行的敏感性分析,并报告敏感性分析的结果。这有助于提高元分析的透明度和可信度,使读者能够更好地理解元分析结果的稳健性和局限性。
END_OF_CHAPTER
10. chapter 10: 心理统计学伦理与最佳实践 (Ethics and Best Practices in Psychological Statistics)
10.1 数据的诚信与伦理 (Data Integrity and Ethics)
心理统计学研究的基石在于数据的诚信 (integrity) 与伦理 (ethics)。研究者必须以最高的道德标准来对待数据,确保研究过程的公正性、客观性和可靠性。数据的诚信与伦理不仅关乎研究结果的准确性,更直接影响到心理学学科的声誉和公众信任。
10.1.1 数据造假与篡改 (Data Fabrication and Falsification)
数据造假 (data fabrication) 指的是研究者捏造不存在的数据,并将其记录为真实数据。数据篡改 (data falsification) 则是指研究者人为地修改或删除真实数据,以达到预期的研究结果。这两种行为都严重违反了学术伦理,是对科学研究精神的根本背叛。
① 数据造假的危害 (Harms of Data Fabrication):
⚝ 误导科学界:虚假数据会污染科学文献,误导其他研究者的研究方向,浪费科研资源。
⚝ 损害公众信任:一旦数据造假行为被揭露,将严重损害公众对心理学研究乃至整个科学界的信任。
⚝ 伦理道德沦丧:数据造假是严重的学术不端行为,违背了科研人员应有的诚实和客观的职业道德。
② 数据篡改的危害 (Harms of Data Falsification):
⚝ 扭曲研究结论:篡改数据会使研究结论偏离事实真相,导致错误的理论和实践指导。
⚝ 影响研究的可重复性 (reproducibility):篡改后的数据无法被其他研究者重复验证,破坏了科学研究的可重复性原则。
⚝ 损害研究参与者权益:基于篡改数据得出的研究结论,可能会对研究参与者乃至更广泛的群体造成负面影响。
③ 预防数据造假与篡改的措施 (Measures to Prevent Data Fabrication and Falsification):
⚝ 加强伦理教育:在科研人员的培养过程中,必须加强学术伦理教育,提高其对数据诚信重要性的认识。
⚝ 建立健全监管机制:科研机构和学术期刊应建立健全数据监管机制,对研究数据进行审查和核查。
⚝ 推广开放科学 (open science) 实践:鼓励研究者公开研究数据和分析代码,提高研究过程的透明度,接受同行监督。
⚝ 严惩学术不端行为:对于数据造假和篡改等学术不端行为,必须采取零容忍态度,依法依规进行严肃处理。
10.1.2 知情同意与数据保密 (Informed Consent and Data Confidentiality)
在心理统计学研究中,知情同意 (informed consent) 和数据保密 (data confidentiality) 是保护研究参与者权益的两项核心伦理原则。
① 知情同意 (Informed Consent):
⚝ 定义:知情同意是指研究者在研究开始前,必须充分告知研究参与者关于研究目的、程序、风险、益处以及其享有的权利(如退出研究的权利)等信息,并在参与者充分理解的基础上,自愿签署同意书的过程。
⚝ 重要性:
⚝⚝ 尊重自主性 (autonomy):知情同意体现了对研究参与者自主性的尊重,保障了他们自主决定是否参与研究的权利。
⚝⚝ 保护参与者权益:通过充分告知研究信息,使参与者能够评估研究的风险和益处,从而更好地保护自身权益。
⚝⚝ 提升研究质量:获得知情同意的过程,有助于建立研究者与参与者之间的信任关系,提高研究的合作性和有效性。
⚝ 知情同意的关键要素:
▮▮▮▮ⓐ 自愿性 (voluntariness):参与者的参与必须是完全自愿的,不得受到任何形式的强迫或胁迫。
▮▮▮▮ⓑ 充分信息 (full information):研究者必须提供充分、清晰、易懂的研究信息,包括研究目的、程序、预期风险和益处、保密措施、参与者的权利等。
▮▮▮▮ⓒ 理解与同意 (comprehension and consent):研究者应确保参与者真正理解了所提供的信息,并在此基础上做出知情同意的决定。同意的形式可以是书面同意书,也可以是口头同意或其他符合伦理规范的形式。
② 数据保密 (Data Confidentiality):
⚝ 定义:数据保密是指研究者有义务保护研究参与者提供的个人信息和研究数据不被泄露给未经授权的第三方,确保参与者的隐私权得到尊重和保护。
⚝ 重要性:
⚝⚝ 维护参与者信任:数据保密是维护研究参与者对研究者和研究机构信任的重要保障。
⚝⚝ 促进真实数据收集:当参与者确信其个人信息和数据会得到妥善保护时,更可能坦诚地提供真实信息,从而提高研究数据的质量。
⚝⚝ 避免潜在风险:泄露研究参与者的个人信息和数据,可能会给他们带来心理、社会甚至法律风险。
⚝ 数据保密的措施:
▮▮▮▮ⓐ 匿名化处理 (anonymization):在数据分析和报告阶段,尽可能对数据进行匿名化处理,去除能够识别个体身份的信息。
▮▮▮▮ⓑ 数据加密存储 (encrypted storage):对于敏感数据,应采用加密技术进行存储,防止数据泄露。
▮▮▮▮ⓒ 限制数据访问权限 (restricted data access):严格控制研究数据的访问权限,只有经过授权的研究人员才能接触到原始数据。
▮▮▮▮ⓓ 安全的数据传输 (secure data transmission):在数据传输过程中,应采用安全的传输协议和加密技术,防止数据被窃取。
▮▮▮▮ⓔ 销毁敏感数据 (destruction of sensitive data):在研究结束后,对于不再需要的敏感数据,应按照伦理规范进行安全销毁。
10.2 统计报告规范 (Statistical Reporting Standards)
心理统计学研究结果的有效传播和科学积累,离不开规范、清晰、透明的统计报告 (statistical reporting)。遵循统一的统计报告规范,不仅有助于提高研究结果的可读性和可理解性,也便于研究的可重复性 (reproducibility) 和元分析 (meta-analysis)。
10.2.1 APA 格式 (APA Format)
美国心理学会 (American Psychological Association, APA) 发布的 APA 格式 (APA format) 是心理学及相关学科领域最常用的学术写作和统计报告规范。APA 格式对统计结果的呈现方式、符号使用、图表制作等方面都做出了详细规定。
① 统计结果的文本报告 (Textual Reporting of Statistical Results):
⚝ 准确报告统计检验类型、检验统计量、自由度、\(p\) 值和效应量等关键信息。例如,报告 \(t\) 检验的结果时,应包括 \(t\) 值、自由度 \(df\)、\(p\) 值和效应量 \(d\),如:\(t(28) = 2.53, p = .018, d = 0.45\)。
⚝ \(p\) 值应精确到小数点后三位,除非 \(p < .001\),此时报告为 \(p < .001\)。
⚝ 效应量应根据统计方法选择合适的指标,如 Cohen's \(d\)、Pearson's \(r\)、\(η^2\) 等,并解释效应量的大小。
⚝ 均值和标准差应使用 \(M\) 和 \(SD\) 表示,并报告在括号内,如:( \(M = 3.50, SD = 0.86\) )。
⚝ 在报告方差分析结果时,应包括 \(F\) 值、组间自由度、组内自由度、\(p\) 值和效应量 \(η^2\) 或 \(η_p^2\),如:\(F(2, 57) = 4.56, p = .015, η_p^2 = 0.14\)。
⚝ 对于卡方检验,应报告 \(\chi^2\) 值、自由度、样本量 \(N\) 和 \(p\) 值,如:\(\chi^2(2, N = 120) = 7.82, p = .020\)。
⚝ 避免使用模糊的统计术语,如“显著性趋势 (marginal significance)”,应明确报告 \(p\) 值。
⚝ 在报告统计结果时,应结合研究问题和实际背景进行解释,避免过度解读或错误解读统计结果。
② 表格 (Tables):
⚝ 表格应简洁明了,只包含必要的信息。
⚝ 表格应有清晰的标题和列标题,解释表格的内容。
⚝ 表格中应使用标准统计符号和缩写。
⚝ 表格应在文中被引用,并放在靠近首次被引用的位置。
⚝ 避免在表格中过度使用线条,通常只使用水平线分隔标题行、列标题和数据行。
③ 图形 (Figures):
⚝ 图形应清晰、准确地展示数据,避免造成误导。
⚝ 图形应有清晰的标题和坐标轴标签,解释图形的内容。
⚝ 图形应在文中被引用,并放在靠近首次被引用的位置。
⚝ 选择合适的图形类型,如直方图、散点图、箱线图等,根据数据的特点和研究目的选择最合适的图形类型。
⚝ 避免使用花哨的、不必要的图形元素,如图形背景、三维效果等,保持图形的简洁性和专业性。
④ 参考文献 (References):
⚝ 参考文献应列出所有在研究中引用的文献,包括统计方法、软件、量表等的来源。
⚝ 参考文献的格式应符合 APA 格式的要求,包括作者、年份、文章标题、期刊名称、卷号、页码、DOI 等信息。
⚝ 确保参考文献的完整性和准确性,避免遗漏或错误引用。
10.2.2 透明度和可重复性 (Transparency and Reproducibility)
透明度 (transparency) 和可重复性 (reproducibility) 是现代科学研究的重要原则,也是心理统计学研究最佳实践的关键组成部分。
① 透明度 (Transparency):
⚝ 研究过程透明:研究者应尽可能公开研究方案、数据收集方法、数据分析步骤、统计分析代码等信息,使研究过程更加透明。
⚝ 数据透明:在符合伦理规范和数据保密原则的前提下,鼓励研究者公开研究数据,供同行验证和重复使用。
⚝ 分析透明:详细报告统计分析的每一步骤,包括数据预处理、统计模型选择、参数设置、结果解释等,确保分析过程的透明可追溯。
⚝ 材料透明:公开研究中使用的实验材料、问卷、测验等工具,方便其他研究者重复研究或进行拓展研究。
② 可重复性 (Reproducibility):
⚝ 定义:可重复性 指的是其他研究者在获得原始数据和分析代码的情况下,能够独立地重复分析过程,并得到与原始研究一致的结果。
⚝ 重要性:
⚝⚝ 验证研究结果的可靠性:可重复性是检验研究结果是否稳健可靠的重要标准。
⚝⚝ 促进科学知识的积累:可重复的研究结果才能被科学界广泛接受和应用,促进科学知识的有效积累。
⚝⚝ 提高研究效率:可重复性研究可以避免重复犯错,加速科学发现的进程。
⚝ 提高研究可重复性的措施:
▮▮▮▮ⓐ 预注册 (preregistration):在研究开始前,将研究方案、假设、数据分析计划等信息在公开平台上进行预注册,提高研究的透明度和可信度。
▮▮▮▮ⓑ 开放数据 (open data):在伦理许可和数据保密的前提下,公开研究数据,方便其他研究者进行重复分析和验证。
▮▮▮▮ⓒ 开放代码 (open code):公开数据分析代码,详细记录数据处理和统计分析的步骤,使其他研究者能够准确重复分析过程。
▮▮▮▮ⓓ 详细的方法报告 (detailed methods reporting):在研究报告中,详细描述研究方法、数据收集过程、统计分析步骤等,为其他研究者重复研究提供充分的信息。
▮▮▮▮ⓔ 使用版本控制工具 (version control tools):使用 Git 等版本控制工具管理研究代码和数据,确保研究过程的可追溯性和可重复性。
▮▮▮▮ⓕ 采用可重复性研究流程 (reproducible research workflows):采用如 R Markdown、Jupyter Notebook 等工具,将数据分析代码、结果和报告整合在一起,创建可重复性研究流程。
通过遵循 APA 格式等统计报告规范,并积极践行透明度和可重复性原则,心理统计学研究能够更加严谨、可靠、透明,从而更好地服务于心理学学科的发展和人类福祉的提升。
END_OF_CHAPTER
11. chapter 11: 参考文献 (References)
11.1 经典著作 (Classic Works)
⚝ Fisher, R. A. (1925). Statistical Methods for Research Workers. Edinburgh: Oliver and Boyd. (费希尔, R. A. (1925). 研究工作者的统计方法。) - 统计学领域的奠基之作,介绍了方差分析、实验设计等重要概念。
⚝ Neyman, J., & Pearson, E. S. (1933). On the Problem of the Most Efficient Tests of Statistical Hypotheses. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character, 231(694-706), 289-337. (内曼, J. & 皮尔逊, E. S. (1933). 关于统计假设最有效检验的问题。) - 假设检验理论的经典文献,提出了零假设、备择假设、显著性水平等概念。
⚝ Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates. (科恩, J. (1988). 行为科学的统计功效分析 (第二版)。) - 效应量和统计功效分析的权威著作,强调了统计功效在研究设计中的重要性。
⚝ Kirk, R. E. (1995). Experimental Design: Procedures for the Behavioral Sciences (3rd ed.). Belmont, CA: Brooks/Cole Publishing Company. (柯克, R. E. (1995). 实验设计:行为科学的程序 (第三版)。) - 实验设计领域的经典教材,系统介绍了各种实验设计方法和统计分析技术。
⚝ Hays, W. L. (1994). Statistics (5th ed.). Fort Worth, TX: Harcourt Brace College Publishers. (海斯, W. L. (1994). 统计学 (第五版)。) - 一本内容全面的统计学教科书,涵盖了描述统计、推论统计、方差分析、回归分析等内容。
11.2 近期研究 (Recent Studies)
⚝ Psychological Methods (心理学方法) 📰 - 美国心理学会 (American Psychological Association, APA) 出版的期刊,专注于心理学研究方法和统计分析技术的最新进展。
⚝ Behavior Research Methods (行为研究方法) 📰 - 行为研究方法学会 (Psychonomic Society) 出版的期刊,涵盖实验设计、测量、数据分析等方面的研究。
⚝ Multivariate Behavioral Research (多元行为研究) 📰 - 多元行为研究学会 (Society of Multivariate Experimental Psychology) 出版的期刊,关注多元统计方法在行为科学中的应用。
⚝ Advances in Methods and Practices in Psychological Science (心理科学方法与实践进展) 📰 - 开放获取期刊,旨在推动心理科学研究方法和实践的进步,包括统计方法、研究设计、可重复性等主题。
⚝ Journal of Educational and Behavioral Statistics (教育与行为统计学杂志) 📰 - 美国统计协会 (American Statistical Association, ASA) 和美国教育研究协会 (American Educational Research Association, AERA) 合作出版的期刊,关注教育和行为科学领域的统计方法应用。
11.3 网络资源 (Online Resources)
⚝ Coursera and edX 🌐 - 提供众多大学心理统计学和数据科学课程,例如:
▮▮▮▮⚝ "Statistics for Psychology" on Coursera (心理学统计学课程)
▮▮▮▮⚝ "Data Science Specialization" on Coursera (数据科学专业课程)
▮▮▮▮⚝ "MITx Micromasters in Statistics and Data Science" on edX (MIT统计与数据科学微硕士项目)
⚝ Khan Academy (可汗学院) 🌐 - 提供免费的统计学教学视频和练习,涵盖从基础概念到高级主题的内容。
▮▮▮▮⚝ Statistics and probability (统计学与概率) 📚 - https://www.khanacademy.org/math/statistics-probability
⚝ Rice Virtual Lab in Statistics (莱斯大学虚拟统计实验室) 🌐 - 提供在线统计分析工具、模拟和教学资源。
▮▮▮▮⚝ Online Statistics Book (在线统计学书籍) 📖 - https://onlinestatbook.com/
⚝ UCLA Institute for Digital Research and Education (IDRE) UCLA数字研究与教育研究所 🌐 - 提供各种统计软件 (SPSS, R, SAS, Stata, Mplus) 的学习资源和技术支持。
▮▮▮▮⚝ Statistical Consulting (统计咨询) 🧑🏫 - https://idre.ucla.edu/咨询/
⚝ R Project for Statistical Computing (R统计计算项目) 💻 - 开源统计软件 R 的官方网站,提供软件下载、文档、社区支持等。
▮▮▮▮⚝ The Comprehensive R Archive Network (CRAN) (R综合档案网络) 📦 - https://cran.r-project.org/ - R 包 (R packages) 的仓库,包含了丰富的统计分析工具。
END_OF_CHAPTER