000 统计学 (Statistics)知识框架
🌟🌟🌟本文由Gemini 2.0 Flash Thinking Experimental 01-21创作,用来辅助学习知识。🌟🌟🌟
统计学 (Statistics) 知识框架
I. 基础理论 (Foundational Theory)
A. 数学基础 (Mathematical Foundations)
- 1. 微积分 (Calculus):
- 极限与连续性 (Limits and Continuity)
- 导数与微分 (Derivatives and Differentials)
- 积分 (Integration): 定积分、不定积分、多重积分
- 级数 (Series): 无穷级数、泰勒级数、傅里叶级数
- 优化理论 (Optimization Theory): 极值、拉格朗日乘数法
- 2. 线性代数 (Linear Algebra):
- 向量与矩阵 (Vectors and Matrices)
- 线性方程组 (Systems of Linear Equations)
- 特征值与特征向量 (Eigenvalues and Eigenvectors)
- 矩阵分解 (Matrix Decompositions): 特征值分解、奇异值分解 (SVD)、LU 分解、QR 分解
- 向量空间与线性变换 (Vector Spaces and Linear Transformations)
- 3. 概率论 (Probability Theory):
- a. 概率的基本概念 (Basic Concepts of Probability):
- 样本空间与事件 (Sample Space and Events)
- 概率的定义与公理 (Definition and Axioms of Probability)
- 条件概率与独立性 (Conditional Probability and Independence)
- 贝叶斯定理 (Bayes' Theorem)
- b. 随机变量与概率分布 (Random Variables and Probability Distributions):
- 离散型随机变量 (Discrete Random Variables): 伯努利分布、二项分布、泊松分布、几何分布、负二项分布
- 连续型随机变量 (Continuous Random Variables): 均匀分布、指数分布、伽马分布、正态分布、卡方分布、t分布、F分布
- 多维随机变量 (Multivariate Random Variables): 联合分布、边缘分布、条件分布、协方差与相关性
- 随机变量的函数及其分布 (Functions of Random Variables and Their Distributions)
- c. 期望、方差与矩 (Expectation, Variance, and Moments):
- 期望 (Expected Value)
- 方差与标准差 (Variance and Standard Deviation)
- 协方差与相关系数 (Covariance and Correlation Coefficient)
- 矩、中心矩、偏度、峰度 (Moments, Central Moments, Skewness, Kurtosis)
- 矩母函数与特征函数 (Moment Generating Function and Characteristic Function)
- d. 极限定理 (Limit Theorems):
- 大数定律 (Law of Large Numbers): 弱大数定律、强大数定律
- 中心极限定理 (Central Limit Theorem): Lindeberg-Lévy CLT, Lyapunov CLT
- 依概率收敛、依分布收敛、几乎必然收敛 (Convergence in Probability, Convergence in Distribution, Almost Sure Convergence)
- Delta 方法 (Delta Method)
- a. 概率的基本概念 (Basic Concepts of Probability):
- 1. 微积分 (Calculus):
B. 统计推断基础 (Foundations of Statistical Inference)
- 1. 抽样理论 (Sampling Theory):
- 总体与样本 (Population and Sample)
- 随机抽样方法 (Random Sampling Methods): 简单随机抽样、分层抽样、整群抽样、系统抽样
- 抽样分布 (Sampling Distributions): 样本均值、样本方差、样本比例的抽样分布
- 统计量与抽样误差 (Statistics and Sampling Error)
- 2. 参数估计 (Parameter Estimation):
- 点估计 (Point Estimation): 矩估计、最大似然估计 (MLE)、最小二乘估计 (OLS)、贝叶斯估计
- 估计量的评价标准 (Evaluation Criteria for Estimators): 无偏性、有效性、一致性、均方误差 (MSE)
- 区间估计 (Interval Estimation): 置信区间 (Confidence Interval) 的构建方法、置信水平、影响置信区间宽度的因素
- 3. 假设检验 (Hypothesis Testing):
- 假设检验的基本概念 (Basic Concepts of Hypothesis Testing): 原假设与备择假设、检验统计量、p值、显著性水平、第一类错误与第二类错误、功效 (Power)
- 单样本与双样本的假设检验 (Hypothesis Tests for One and Two Samples): 均值检验 (t检验、z检验)、方差检验 (F检验、卡方检验)、比例检验
- 非参数检验 (Nonparametric Tests): 符号检验、秩和检验 (Wilcoxon rank-sum test, Mann-Whitney U test)、符号秩检验 (Wilcoxon signed-rank test)、Kruskal-Wallis 检验、Friedman 检验
- 功效分析与样本量确定 (Power Analysis and Sample Size Determination)
- 1. 抽样理论 (Sampling Theory):
II. 核心方法 (Core Methods)
A. 描述性统计 (Descriptive Statistics)
- 1. 数据类型与变量 (Data Types and Variables):
- 分类变量 (Categorical Variables): 名义变量、有序变量
- 数值变量 (Numerical Variables): 离散变量、连续变量
- 定类数据、定序数据、定距数据、定比数据 (Nominal, Ordinal, Interval, Ratio Data)
- 2. 数据汇总与可视化 (Data Summarization and Visualization):
- 频数分布表与直方图 (Frequency Distribution Table and Histogram)
- 茎叶图、箱线图、散点图 (Stem-and-Leaf Plot, Box Plot, Scatter Plot)
- 条形图、饼图 (Bar Chart, Pie Chart)
- 集中趋势的度量 (Measures of Central Tendency): 均值、中位数、众数
- 离散程度的度量 (Measures of Dispersion): 方差、标准差、四分位距、极差
- 分布形状的度量 (Measures of Distribution Shape): 偏度、峰度
- 数据预处理 (Data Preprocessing): 缺失值处理、异常值处理、数据标准化、数据归一化
- 1. 数据类型与变量 (Data Types and Variables):
B. 回归分析 (Regression Analysis)
- 1. 线性回归 (Linear Regression):
- 简单线性回归 (Simple Linear Regression)
- 多元线性回归 (Multiple Linear Regression)
- 回归系数的估计 (Estimation of Regression Coefficients): 最小二乘法 (OLS)
- 回归模型的假设检验与模型诊断 (Hypothesis Testing and Model Diagnostics for Regression Models): F检验、t检验、残差分析、多重共线性、异方差性、自相关性
- 模型选择与变量选择 (Model Selection and Variable Selection): AIC, BIC, 逐步回归、岭回归、LASSO 回归
- 2. 非线性回归 (Nonlinear Regression):
- 多项式回归 (Polynomial Regression)
- 广义线性模型 (Generalized Linear Models, GLM): Logistic 回归、泊松回归、Gamma 回归
- 非线性模型的估计与检验 (Estimation and Testing of Nonlinear Models)
- 3. 混合效应模型 (Mixed Effects Models):
- 固定效应与随机效应 (Fixed Effects and Random Effects)
- 线性混合效应模型 (Linear Mixed Effects Models)
- 广义线性混合效应模型 (Generalized Linear Mixed Effects Models)
- 纵向数据分析 (Longitudinal Data Analysis)
- 4. 生存分析 (Survival Analysis):
- 生存时间数据 (Survival Time Data)
- Kaplan-Meier 生存曲线 (Kaplan-Meier Survival Curve)
- Cox 比例风险模型 (Cox Proportional Hazards Model)
- 参数生存模型 (Parametric Survival Models): 指数模型、Weibull 模型
- 1. 线性回归 (Linear Regression):
C. 方差分析 (Analysis of Variance, ANOVA)
- 1. 单因素方差分析 (One-Way ANOVA)
- 2. 双因素方差分析 (Two-Way ANOVA)
- 3. 多因素方差分析 (Multi-Way ANOVA)
- 4. 重复测量方差分析 (Repeated Measures ANOVA)
- 5. 协方差分析 (Analysis of Covariance, ANCOVA)
- 6. 非参数方差分析 (Nonparametric ANOVA): Kruskal-Wallis 检验, Friedman 检验
- 7. 事后检验 (Post-Hoc Tests): Tukey's HSD, Bonferroni, Scheffé
D. 分类与聚类分析 (Classification and Clustering Analysis)
- 1. 分类 (Classification):
- 逻辑回归 (Logistic Regression)
- 线性判别分析 (Linear Discriminant Analysis, LDA)
- 二次判别分析 (Quadratic Discriminant Analysis, QDA)
- 支持向量机 (Support Vector Machine, SVM)
- 决策树 (Decision Tree)
- 随机森林 (Random Forest)
- 梯度提升树 (Gradient Boosting Tree)
- 朴素贝叶斯分类器 (Naive Bayes Classifier)
- K-近邻算法 (K-Nearest Neighbors, KNN)
- 模型评估指标 (Model Evaluation Metrics): 准确率、精确率、召回率、F1-score、AUC-ROC 曲线、混淆矩阵
- 2. 聚类 (Clustering):
- K-均值聚类 (K-Means Clustering)
- 层次聚类 (Hierarchical Clustering): 凝聚型聚类、分裂型聚类
- DBSCAN 聚类 (Density-Based Spatial Clustering of Applications with Noise)
- 高斯混合模型 (Gaussian Mixture Model, GMM)
- 聚类评估指标 (Clustering Evaluation Metrics): 轮廓系数、Davies-Bouldin 指数
- 1. 分类 (Classification):
E. 时间序列分析 (Time Series Analysis)
- 1. 时间序列的基本概念 (Basic Concepts of Time Series):
- 平稳性 (Stationarity): 严平稳、弱平稳
- 自相关与偏自相关函数 (Autocorrelation Function, ACF and Partial Autocorrelation Function, PACF)
- 时间序列分解 (Time Series Decomposition): 趋势、季节性、周期性、随机性
- 2. 经典时间序列模型 (Classical Time Series Models):
- 自回归模型 (Autoregressive Model, AR)
- 移动平均模型 (Moving Average Model, MA)
- 自回归移动平均模型 (Autoregressive Moving Average Model, ARMA)
- 差分整合移动平均自回归模型 (Autoregressive Integrated Moving Average Model, ARIMA)
- 季节性 ARIMA 模型 (Seasonal ARIMA Model, SARIMA)
- 3. 预测与模型评估 (Forecasting and Model Evaluation):
- 时间序列预测方法 (Time Series Forecasting Methods)
- 预测误差评估指标 (Forecasting Error Evaluation Metrics): MAE, RMSE, MAPE
- 模型选择与模型检验 (Model Selection and Model Validation)
- 4. 高级时间序列模型 (Advanced Time Series Models):
- 状态空间模型 (State Space Models)
- 卡尔曼滤波 (Kalman Filter)
- GARCH 模型 (Generalized Autoregressive Conditional Heteroskedasticity)
- 向量自回归模型 (Vector Autoregression, VAR)
- 1. 时间序列的基本概念 (Basic Concepts of Time Series):
F. 贝叶斯统计 (Bayesian Statistics)
- 1. 贝叶斯定理的应用 (Application of Bayes' Theorem):
- 先验分布 (Prior Distribution)
- 似然函数 (Likelihood Function)
- 后验分布 (Posterior Distribution)
- 贝叶斯推断 (Bayesian Inference): 参数估计、假设检验、预测
- 2. 共轭先验分布 (Conjugate Prior Distributions)
- 3. 马尔可夫链蒙特卡洛 (Markov Chain Monte Carlo, MCMC) 方法:
- Metropolis-Hastings 算法
- Gibbs 采样
- MCMC 收敛性诊断
- 4. 分层贝叶斯模型 (Hierarchical Bayesian Models)
- 5. 贝叶斯模型选择 (Bayesian Model Selection)
- 1. 贝叶斯定理的应用 (Application of Bayes' Theorem):
G. 非参数统计 (Nonparametric Statistics)
- 1. 符号检验、秩和检验、符号秩检验 (Sign Test, Rank-Sum Test, Signed-Rank Test)
- 2. Spearman 等级相关系数 (Spearman's Rank Correlation Coefficient)
- 3. Kolmogorov-Smirnov 检验 (Kolmogorov-Smirnov Test)
- 4. Wilcoxon 检验 (Wilcoxon Test)
- 5. Friedman 检验 (Friedman Test)
- 6. 引导法 (Bootstrap) 与置换检验 (Permutation Test)
H. 抽样调查与实验设计 (Sampling Survey and Experimental Design)
- 1. 抽样调查 (Sampling Survey):
- 抽样框架 (Sampling Frame)
- 抽样方法 (Sampling Methods): 简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样
- 样本量确定 (Sample Size Determination)
- 估计量与抽样误差 (Estimators and Sampling Error)
- 非抽样误差 (Non-sampling Error): 回答误差、不回应误差、覆盖误差
- 2. 实验设计 (Experimental Design):
- 实验设计的基本原则 (Basic Principles of Experimental Design): 随机化、重复、区组化
- 完全随机设计 (Completely Randomized Design, CRD)
- 随机区组设计 (Randomized Block Design, RBD)
- 拉丁方设计 (Latin Square Design)
- 析因设计 (Factorial Design)
- 响应面方法 (Response Surface Methodology, RSM)
- 田口方法 (Taguchi Methods)
- 1. 抽样调查 (Sampling Survey):
III. 高级主题 (Advanced Topics)
A. 多元统计分析 (Multivariate Statistical Analysis)
- 1. 多元正态分布 (Multivariate Normal Distribution)
- 2. 主成分分析 (Principal Component Analysis, PCA)
- 3. 因子分析 (Factor Analysis)
- 4. 判别分析 (Discriminant Analysis)
- 5. 聚类分析 (Cluster Analysis)
- 6. 典型相关分析 (Canonical Correlation Analysis)
- 7. 多维尺度分析 (Multidimensional Scaling, MDS)
- 8. 结构方程模型 (Structural Equation Modeling, SEM)
B. 因果推断 (Causal Inference)
- 1. 因果关系的基本概念 (Basic Concepts of Causality):
- 潜在结果框架 (Potential Outcomes Framework)
- 干预效应 (Treatment Effect): 平均干预效应 (ATE), 局部平均干预效应 (LATE)
- 混杂因素 (Confounding Factors)
- 2. 随机化实验 (Randomized Controlled Trials, RCTs)
- 3. 观察性研究的因果推断方法 (Causal Inference Methods for Observational Studies):
- 匹配法 (Matching Methods): 倾向得分匹配 (Propensity Score Matching, PSM)
- 工具变量法 (Instrumental Variable, IV)
- 断点回归 (Regression Discontinuity Design, RDD)
- 双重差分法 (Difference-in-Differences, DID)
- 合成控制法 (Synthetic Control Method)
- 因果图模型 (Causal Graph Models): 贝叶斯网络, 结构因果模型 (SCM)
- 1. 因果关系的基本概念 (Basic Concepts of Causality):
C. 空间统计学 (Spatial Statistics)
- 1. 地理空间数据 (Geospatial Data)
- 2. 空间自相关 (Spatial Autocorrelation):
- Moran's I 指数
- Geary's C 指数
- 3. 克里金法 (Kriging):
- 简单克里金 (Simple Kriging)
- 普通克里金 (Ordinary Kriging)
- 泛克里金 (Universal Kriging)
- 4. 点模式分析 (Point Pattern Analysis)
- 5. 空间回归模型 (Spatial Regression Models):
- 空间滞后模型 (Spatial Lag Model)
- 空间误差模型 (Spatial Error Model)
D. 高维数据分析 (High-Dimensional Data Analysis)
- 1. 维度诅咒 (Curse of Dimensionality)
- 2. 降维方法 (Dimensionality Reduction):
- 主成分分析 (PCA)
- 因子分析 (Factor Analysis)
- t-分布邻域嵌入算法 (t-distributed Stochastic Neighbor Embedding, t-SNE)
- 均匀流形逼近与投影 (Uniform Manifold Approximation and Projection, UMAP)
- 3. 高维回归与分类 (High-Dimensional Regression and Classification):
- 岭回归 (Ridge Regression)
- LASSO 回归
- 弹性网络 (Elastic Net)
- 稀疏主成分分析 (Sparse PCA)
E. 缺失数据处理 (Missing Data Handling)
- 1. 缺失数据的类型 (Types of Missing Data):
- 完全随机缺失 (Missing Completely at Random, MCAR)
- 随机缺失 (Missing at Random, MAR)
- 非随机缺失 (Missing Not at Random, MNAR)
- 2. 缺失数据处理方法 (Methods for Handling Missing Data):
- 完全案例分析 (Complete Case Analysis)
- 单值填补 (Single Imputation): 均值填补、中位数填补、回归填补
- 多重填补 (Multiple Imputation, MI)
- 最大似然估计 (Maximum Likelihood Estimation)
- 1. 缺失数据的类型 (Types of Missing Data):
F. 机器学习与统计学习 (Machine Learning and Statistical Learning)
- 1. 监督学习 (Supervised Learning):
- 回归 (Regression)
- 分类 (Classification)
- 2. 无监督学习 (Unsupervised Learning):
- 聚类 (Clustering)
- 降维 (Dimensionality Reduction)
- 关联规则学习 (Association Rule Learning)
- 3. 模型评估与选择 (Model Evaluation and Selection):
- 交叉验证 (Cross-Validation)
- 正则化 (Regularization)
- 集成学习 (Ensemble Learning): 随机森林、梯度提升树、Stacking
- 4. 深度学习基础 (Basics of Deep Learning)
- 神经网络 (Neural Networks)
- 卷积神经网络 (Convolutional Neural Networks, CNN)
- 循环神经网络 (Recurrent Neural Networks, RNN)
- 1. 监督学习 (Supervised Learning):
IV. 统计计算与软件 (Statistical Computing and Software)
- A. 统计软件 (Statistical Software):
- R
- Python (with libraries like NumPy, SciPy, Pandas, Statsmodels, Scikit-learn)
- SAS
- SPSS
- Stata
- MATLAB
- JMP
- Minitab
- B. 编程技能 (Programming Skills):
- 数据处理与清洗 (Data Manipulation and Cleaning)
- 数据可视化 (Data Visualization)
- 统计模型构建与应用 (Statistical Model Building and Application)
- 算法实现 (Algorithm Implementation)
- 高性能计算 (High-Performance Computing)
V. 应用领域 (Applications)
- A. 生物统计学 (Biostatistics)
- 临床试验 (Clinical Trials)
- 流行病学 (Epidemiology)
- 遗传学 (Genetics)
- 药物研发 (Drug Development)
- B. 经济统计学 (Econometrics)
- 时间序列经济学 (Time Series Econometrics)
- 微观计量经济学 (Microeconometrics)
- 宏观计量经济学 (Macroeconometrics)
- 金融计量经济学 (Financial Econometrics)
- C. 社会统计学 (Social Statistics)
- 社会调查 (Social Surveys)
- 人口统计学 (Demography)
- 教育统计学 (Educational Statistics)
- 心理统计学 (Psychometrics)
- D. 商业统计学 (Business Statistics)
- 市场研究 (Market Research)
- 运营管理 (Operations Management)
- 金融分析 (Financial Analysis)
- 风险管理 (Risk Management)
- E. 工程统计学 (Engineering Statistics)
- 质量控制 (Quality Control)
- 可靠性工程 (Reliability Engineering)
- 过程优化 (Process Optimization)
- 实验设计 (Design of Experiments)
- F. 环境统计学 (Environmental Statistics)
- 环境监测 (Environmental Monitoring)
- 环境建模 (Environmental Modeling)
- 生态统计学 (Ecological Statistics)
- G. 计算机科学与数据科学 (Computer Science and Data Science)
- 机器学习 (Machine Learning)
- 数据挖掘 (Data Mining)
- 人工智能 (Artificial Intelligence)
- 大数据分析 (Big Data Analytics)
VI. 统计思维与素养 (Statistical Thinking and Literacy)
- A. 批判性思维 (Critical Thinking):
- 评估统计证据 (Evaluating Statistical Evidence)
- 识别数据偏倚 (Identifying Data Bias)
- 理解统计推断的局限性 (Understanding the Limitations of Statistical Inference)
- B. 数据素养 (Data Literacy):
- 理解不同类型的数据 (Understanding Different Types of Data)
- 解释统计图表 (Interpreting Statistical Charts and Graphs)
- 有效沟通统计结果 (Communicating Statistical Results Effectively)
- C. 伦理考量 (Ethical Considerations):
- 数据隐私与安全 (Data Privacy and Security)
- 负责任的数据使用 (Responsible Data Use)
- 统计结论的公正性 (Fairness in Statistical Conclusions)
总结:
这个框架旨在提供一个全面而深入的统计学知识体系。从基础理论到核心方法,再到高级主题和应用领域,力求涵盖统计学的各个方面。同时,强调统计计算、软件应用以及统计思维的重要性。希望这个框架能够帮助您更好地理解和掌握统计学,并在教学、研究和实践中发挥作用。
作为资深讲师的建议:
- 灵活运用框架: 根据教学目标、学生背景和课程时长,灵活选择框架中的内容,不必面面俱到。
- 强调基础理论: 扎实的数学和概率论基础是理解高级统计方法的关键。
- 注重实践应用: 结合实际案例,使用统计软件进行数据分析,培养学生的实践能力。
- 关注前沿发展: 适时引入机器学习、因果推断等新兴领域的内容,保持课程的时代性。
- 培养统计思维: 不仅仅教授方法,更要培养学生批判性思维和数据素养,使其能正确理解和运用统计学。