024 《计量经济学方法:原理、模型与应用 (Econometric Methods: Principles, Models, and Applications)》
🌟🌟🌟本文案由Gemini 2.0 Flash Thinking Experimental 01-21创作,用来辅助学习知识。🌟🌟🌟
书籍大纲
▮▮▮▮ 1. chapter 1: 导论 (Introduction)
▮▮▮▮▮▮▮ 1.1 什么是计量经济学 (What is Econometrics)
▮▮▮▮▮▮▮ 1.2 计量经济学的研究对象与方法 (Research Objects and Methods of Econometrics)
▮▮▮▮▮▮▮ 1.3 计量经济学在经济研究中的作用 (The Role of Econometrics in Economic Research)
▮▮▮▮▮▮▮ 1.4 计量经济学的学习方法与本书结构 (Learning Methods and Book Structure)
▮▮▮▮ 2. chapter 2: 计量经济学基础:概率与统计回顾 (Foundations of Econometrics: Review of Probability and Statistics)
▮▮▮▮▮▮▮ 2.1 概率论基础 (Basics of Probability Theory)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.1 随机事件与概率 (Random Events and Probability)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.2 随机变量与概率分布 (Random Variables and Probability Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 2.1.3 常用概率分布 (Common Probability Distributions)
▮▮▮▮▮▮▮ 2.2 数理统计基础 (Basics of Mathematical Statistics)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.1 抽样理论与抽样分布 (Sampling Theory and Sampling Distributions)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.2 参数估计 (Parameter Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 2.2.3 假设检验 (Hypothesis Testing)
▮▮▮▮ 3. chapter 3: 线性回归模型:简单线性回归 (Linear Regression Models: Simple Linear Regression)
▮▮▮▮▮▮▮ 3.1 线性回归模型的基本概念 (Basic Concepts of Linear Regression Models)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.1 模型设定 (Model Specification)
▮▮▮▮▮▮▮▮▮▮▮ 3.1.2 总体回归函数与样本回归函数 (Population Regression Function and Sample Regression Function)
▮▮▮▮▮▮▮ 3.2 普通最小二乘法 (OLS) 估计 (Ordinary Least Squares (OLS) Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.1 OLS 估计的原理与推导 (Principles and Derivation of OLS Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 3.2.2 OLS 估计量的性质 (Properties of OLS Estimators)
▮▮▮▮▮▮▮ 3.3 简单线性回归模型的假设检验与置信区间 (Hypothesis Testing and Confidence Intervals in Simple Linear Regression Models)
▮▮▮▮▮▮▮▮▮▮▮ 3.3.1 系数的显著性检验 (Significance Test of Coefficients)
▮▮▮▮▮▮▮▮▮▮▮ 3.3.2 预测与置信区间 (Prediction and Confidence Intervals)
▮▮▮▮ 4. chapter 4: 线性回归模型:多元线性回归 (Linear Regression Models: Multiple Linear Regression)
▮▮▮▮▮▮▮ 4.1 多元线性回归模型 (Multiple Linear Regression Model)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.1 模型设定与解释 (Model Specification and Interpretation)
▮▮▮▮▮▮▮▮▮▮▮ 4.1.2 多元回归中的 OLS 估计 (OLS Estimation in Multiple Regression)
▮▮▮▮▮▮▮ 4.2 多元线性回归模型的假设检验 (Hypothesis Testing in Multiple Linear Regression Models)
▮▮▮▮▮▮▮▮▮▮▮ 4.2.1 模型的显著性检验:F 检验 (Model Significance Test: F-test)
▮▮▮▮▮▮▮▮▮▮▮ 4.2.2 变量的显著性检验:t 检验 (Variable Significance Test: t-test)
▮▮▮▮▮▮▮ 4.3 多元线性回归模型的模型设定与诊断 (Model Specification and Diagnostics in Multiple Linear Regression Models)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.1 遗漏变量偏差 (Omitted Variable Bias)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.2 多重共线性 (Multicollinearity)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.3 异方差性 (Heteroskedasticity)
▮▮▮▮▮▮▮▮▮▮▮ 4.3.4 自相关性 (Autocorrelation)
▮▮▮▮ 5. chapter 5: 扩展的回归模型:广义线性模型 (Extended Regression Models: Generalized Linear Models)
▮▮▮▮▮▮▮ 5.1 广义线性模型 (Generalized Linear Models - GLM) 概述 (Overview of Generalized Linear Models (GLM))
▮▮▮▮▮▮▮▮▮▮▮ 5.1.1 GLM 的基本框架 (Basic Framework of GLM)
▮▮▮▮▮▮▮▮▮▮▮ 5.1.2 链接函数与分布函数 (Link Functions and Distribution Functions)
▮▮▮▮▮▮▮ 5.2 Logistic 回归模型 (Logistic Regression Model)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.1 二元 Logistic 回归 (Binary Logistic Regression)
▮▮▮▮▮▮▮▮▮▮▮ 5.2.2 多元 Logistic 回归 (Multinomial Logistic Regression)
▮▮▮▮▮▮▮ 5.3 Probit 回归模型 (Probit Regression Model)
▮▮▮▮▮▮▮ 5.4 泊松回归模型 (Poisson Regression Model)
▮▮▮▮ 6. chapter 6: 扩展的回归模型:工具变量法 (Extended Regression Models: Instrumental Variables Methods)
▮▮▮▮▮▮▮ 6.1 内生性问题 (Endogeneity Problem)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.1 内生性的来源 (Sources of Endogeneity)
▮▮▮▮▮▮▮▮▮▮▮ 6.1.2 内生性的后果 (Consequences of Endogeneity)
▮▮▮▮▮▮▮ 6.2 工具变量 (Instrumental Variables - IV) 的基本概念 (Basic Concepts of Instrumental Variables (IV))
▮▮▮▮▮▮▮▮▮▮▮ 6.2.1 工具变量的有效性条件 (Validity Conditions of Instrumental Variables)
▮▮▮▮▮▮▮▮▮▮▮ 6.2.2 两阶段最小二乘法 (Two-Stage Least Squares - 2SLS)
▮▮▮▮▮▮▮ 6.3 工具变量法的应用与检验 (Applications and Tests of Instrumental Variables Methods)
▮▮▮▮ 7. chapter 7: 扩展的回归模型:面板数据模型 (Extended Regression Models: Panel Data Models)
▮▮▮▮▮▮▮ 7.1 面板数据模型概述 (Overview of Panel Data Models)
▮▮▮▮▮▮▮▮▮▮▮ 7.1.1 面板数据的优势与特点 (Advantages and Characteristics of Panel Data)
▮▮▮▮▮▮▮▮▮▮▮ 7.1.2 混合 OLS 估计 (Pooled OLS Estimation)
▮▮▮▮▮▮▮ 7.2 固定效应模型 (Fixed Effects Model - FE)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.1 组内估计 (Within-Group Estimation)
▮▮▮▮▮▮▮▮▮▮▮ 7.2.2 去均值变换 (Within Transformation)
▮▮▮▮▮▮▮ 7.3 随机效应模型 (Random Effects Model - RE)
▮▮▮▮▮▮▮▮▮▮▮ 7.3.1 广义最小二乘法 (Generalized Least Squares - GLS) 估计
▮▮▮▮▮▮▮ 7.4 固定效应模型与随机效应模型的选择:Hausman 检验 (Choosing between Fixed Effects and Random Effects Models: Hausman Test)
▮▮▮▮ 8. chapter 8: 时间序列分析:单变量时间序列模型 (Time Series Analysis: Univariate Time Series Models)
▮▮▮▮▮▮▮ 8.1 时间序列数据的基本概念 (Basic Concepts of Time Series Data)
▮▮▮▮▮▮▮▮▮▮▮ 8.1.1 平稳性 (Stationarity)
▮▮▮▮▮▮▮▮▮▮▮ 8.1.2 自相关函数 (Autocorrelation Function - ACF) 和偏自相关函数 (Partial Autocorrelation Function - PACF)
▮▮▮▮▮▮▮ 8.2 自回归模型 (Autoregressive Model - AR)
▮▮▮▮▮▮▮ 8.3 移动平均模型 (Moving Average Model - MA)
▮▮▮▮▮▮▮ 8.4 自回归移动平均模型 (Autoregressive Moving Average Model - ARMA)
▮▮▮▮▮▮▮ 8.5 自回归求和移动平均模型 (Autoregressive Integrated Moving Average Model - ARIMA)
▮▮▮▮ 9. chapter 9: 时间序列分析:多变量时间序列模型 (Time Series Analysis: Multivariate Time Series Models)
▮▮▮▮▮▮▮ 9.1 向量自回归模型 (Vector Autoregressive Model - VAR)
▮▮▮▮▮▮▮▮▮▮▮ 9.1.1 VAR 模型的构建与估计 (Construction and Estimation of VAR Models)
▮▮▮▮▮▮▮▮▮▮▮ 9.1.2 VAR 模型的脉冲响应分析 (Impulse Response Analysis of VAR Models)
▮▮▮▮▮▮▮▮▮▮▮ 9.1.3 VAR 模型的方差分解 (Variance Decomposition of VAR Models)
▮▮▮▮▮▮▮ 9.2 协整与误差修正模型 (Cointegration and Error Correction Model - ECM)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.1 协整的概念与检验 (Concepts and Tests of Cointegration)
▮▮▮▮▮▮▮▮▮▮▮ 9.2.2 误差修正模型 (Error Correction Model - ECM)
▮▮▮▮▮▮▮ 9.3 格兰杰因果关系检验 (Granger Causality Test)
▮▮▮▮ 10. chapter 10: 因果推断:实验设计与准实验设计 (Causal Inference: Experimental and Quasi-Experimental Designs)
▮▮▮▮▮▮▮ 10.1 因果推断的基本问题 (Basic Problems of Causal Inference)
▮▮▮▮▮▮▮▮▮▮▮ 10.1.1 潜在结果框架 (Potential Outcomes Framework)
▮▮▮▮▮▮▮▮▮▮▮ 10.1.2 因果效应的识别挑战 (Challenges in Identifying Causal Effects)
▮▮▮▮▮▮▮ 10.2 随机对照实验 (Randomized Controlled Trials - RCT)
▮▮▮▮▮▮▮ 10.3 自然实验与准实验设计 (Natural Experiments and Quasi-Experimental Designs)
▮▮▮▮▮▮▮▮▮▮▮ 10.3.1 双重差分法 (Difference-in-Differences - DID)
▮▮▮▮▮▮▮▮▮▮▮ 10.3.2 断点回归设计 (Regression Discontinuity Design - RDD)
▮▮▮▮▮▮▮▮▮▮▮ 10.3.3 倾向得分匹配 (Propensity Score Matching - PSM)
▮▮▮▮ 11. chapter 11: 高级专题:机器学习在计量经济学中的应用 (Advanced Topics: Applications of Machine Learning in Econometrics)
▮▮▮▮▮▮▮ 11.1 机器学习与计量经济学的融合 (Integration of Machine Learning and Econometrics)
▮▮▮▮▮▮▮▮▮▮▮ 11.1.1 机器学习在预测中的应用 (Applications of Machine Learning in Prediction)
▮▮▮▮▮▮▮▮▮▮▮ 11.1.2 机器学习在模型选择与变量选择中的应用 (Applications of Machine Learning in Model Selection and Variable Selection)
▮▮▮▮▮▮▮ 11.2 常用机器学习方法简介 (Introduction to Common Machine Learning Methods)
▮▮▮▮▮▮▮▮▮▮▮ 11.2.1 Lasso 和 Ridge 回归 (Lasso and Ridge Regression)
▮▮▮▮▮▮▮▮▮▮▮ 11.2.2 决策树与随机森林 (Decision Trees and Random Forests)
▮▮▮▮▮▮▮▮▮▮▮ 11.2.3 神经网络 (Neural Networks)
▮▮▮▮ 12. chapter 12: 高级专题:贝叶斯计量经济学 (Advanced Topics: Bayesian Econometrics)
▮▮▮▮▮▮▮ 12.1 贝叶斯推断的基本原理 (Basic Principles of Bayesian Inference)
▮▮▮▮▮▮▮▮▮▮▮ 12.1.1 先验分布、似然函数与后验分布 (Prior Distribution, Likelihood Function, and Posterior Distribution)
▮▮▮▮▮▮▮▮▮▮▮ 12.1.2 贝叶斯估计与预测 (Bayesian Estimation and Prediction)
▮▮▮▮▮▮▮ 12.2 贝叶斯线性回归模型 (Bayesian Linear Regression Model)
▮▮▮▮▮▮▮ 12.3 马尔可夫链蒙特卡洛方法 (Markov Chain Monte Carlo - MCMC) 简介 (Introduction to Markov Chain Monte Carlo (MCMC) Methods)
1. chapter 1: 导论 (Introduction)
1.1 什么是计量经济学 (What is Econometrics)
计量经济学 (Econometrics) 是一门利用经济理论、数学和统计学工具来分析经济现象的学科。更精确地说,计量经济学旨在赋予经济理论以实证内容 (to give empirical content to economic theory)。经济理论通常提出定性的关系,例如,价格上涨会导致需求量下降,或者货币供应量增加可能导致通货膨胀。然而,理论本身很少提供这些关系的数值估计 (numerical estimates)。计量经济学则运用统计方法,基于实际的经济数据,来检验这些理论,并量化经济变量之间的关系。
简单来说,计量经济学可以被视为经济学、数学和统计学的交叉学科,如图 1.1 所示。
1
经济学 (Economics)
2
/ / / 数学 (Mathematics) ----- 计量经济学 (Econometrics) ----- 统计学 (Statistics)
3
\ /
4
\ /
5
\ /
6
数据 (Data)
图 1.1: 计量经济学的学科交叉
① 经济学 (Economics) 提供理论框架,指出经济变量之间可能存在的关系,例如供求关系、消费函数、生产函数等。计量经济学以这些理论为基础,构建可供实证检验的模型。
② 数学 (Mathematics) 为计量经济学提供模型构建和推导的工具。经济模型通常用数学方程来表示,而计量经济学需要运用数学方法来处理这些模型,例如线性代数、微积分、概率论等。
③ 统计学 (Statistics) 是计量经济学的核心工具。计量经济学运用统计学的方法,例如概率论、数理统计、假设检验、回归分析等,来分析经济数据,估计模型参数,并对经济关系进行推断。
④ 数据 (Data) 是计量经济学分析的基础。计量经济学需要使用实际的经济数据,例如国内生产总值 (Gross Domestic Product, GDP)、通货膨胀率 (Inflation Rate)、失业率 (Unemployment Rate)、利率 (Interest Rate) 等,来进行实证研究。数据的质量和可靠性直接影响计量经济学分析的有效性。
计量经济学的核心目标可以概括为以下几点:
① 模型设定 (Model Specification):将经济理论转化为可以进行实证分析的计量经济模型。这包括确定模型中包含哪些变量,以及变量之间的函数关系形式。
② 参数估计 (Parameter Estimation):利用经济数据,估计计量经济模型中的未知参数。常用的估计方法包括普通最小二乘法 (Ordinary Least Squares, OLS)、最大似然估计法 (Maximum Likelihood Estimation, MLE)、广义矩估计法 (Generalized Method of Moments, GMM) 等。
③ 假设检验 (Hypothesis Testing):检验经济理论或模型设定的合理性。例如,检验某个经济变量对另一个经济变量的影响是否显著,或者检验模型是否满足某些统计假设。
④ 预测 (Prediction):利用已估计的模型,对未来的经济变量进行预测。计量经济学预测在经济决策和政策制定中具有重要作用。
⑤ 结构分析与政策评估 (Structural Analysis and Policy Evaluation):识别经济关系中的因果效应,并评估经济政策的效果。例如,评估某项财政政策对经济增长的影响,或者评估教育政策对劳动力市场的影响。
总而言之,计量经济学是一门严谨而实用的学科,它连接了经济理论与现实世界,为经济研究和实践提供了强有力的工具。通过学习计量经济学,我们可以更深入地理解经济现象,更科学地进行经济分析和决策。
1.2 计量经济学的研究对象与方法 (Research Objects and Methods of Econometrics)
计量经济学的研究对象非常广泛,几乎涵盖了所有经济学领域。从宏观经济学到微观经济学,从金融学到劳动经济学,从国际贸易到发展经济学,计量经济学都发挥着重要的作用。
常见的计量经济学研究对象包括:
① 宏观经济现象 (Macroeconomic Phenomena):例如,经济增长、通货膨胀、失业、国际收支等宏观经济变量之间的关系,以及宏观经济政策的效果评估。例如,我们可以使用计量经济学方法来研究货币政策对通货膨胀的影响,或者财政政策对经济增长的效应。
② 微观经济行为 (Microeconomic Behaviors):例如,消费者行为、生产者行为、市场均衡等微观经济主体的决策和互动。例如,我们可以研究消费者收入水平对商品需求的影响,或者企业研发投入对生产效率的提升作用。
③ 金融市场 (Financial Markets):例如,股票价格、债券收益率、汇率等金融资产价格的波动规律,以及金融市场的风险管理和资产定价。例如,我们可以使用时间序列计量经济学方法来预测股票市场的波动性,或者研究不同因素对资产收益率的影响。
④ 社会经济问题 (Socio-economic Issues):例如,贫困、收入不平等、教育、健康、犯罪等社会经济问题的成因和影响因素分析,以及相关政策的评估。例如,我们可以研究教育水平对收入差距的影响,或者医疗投入对居民健康水平的改善作用。
计量经济学的研究方法 是一套系统化的流程,通常包括以下几个步骤:
① 问题提出 (Problem Formulation):明确研究问题,确定研究目标。例如,我们想要研究最低工资对就业的影响。
② 理论模型构建 (Theoretical Model Building):基于经济理论,构建解释研究问题的理论模型。例如,基于劳动经济学理论,构建最低工资对劳动力供求影响的模型。
③ 计量模型设定 (Econometric Model Specification):将理论模型转化为可以进行实证分析的计量经济模型。这包括选择合适的模型形式(例如线性模型、非线性模型),确定模型中包含的变量,以及设定模型的随机误差项。例如,我们可以设定一个线性回归模型,将就业水平作为因变量,最低工资、经济增长率等作为自变量。
④ 数据收集与整理 (Data Collection and Preparation):收集研究所需的经济数据,并进行整理和清洗。数据的类型可能包括横截面数据 (cross-sectional data)、时间序列数据 (time series data) 和面板数据 (panel data)。例如,我们需要收集不同地区或不同时间的就业数据、最低工资数据、经济增长率数据等。
⑤ 模型估计 (Model Estimation):选择合适的计量经济学方法,利用收集到的数据,估计计量经济模型的参数。例如,可以使用普通最小二乘法 (OLS) 估计线性回归模型的系数。
⑥ 模型检验与诊断 (Model Testing and Diagnostics):对估计的模型进行检验,评估模型的拟合程度和可靠性,并进行必要的模型诊断。例如,检验模型的显著性、检验模型是否满足基本假设(例如线性性、无偏性、有效性),并检查是否存在多重共线性、异方差性、自相关性等问题。
⑦ 结果解释与应用 (Results Interpretation and Application):解释模型估计结果的经济含义,并将其应用于解决实际问题或为政策制定提供建议。例如,根据模型估计结果,分析最低工资对就业的实际影响程度,并为政府制定最低工资政策提供参考。
在计量经济学研究中,常用的方法和技术非常丰富,包括:
⚝ 回归分析 (Regression Analysis):用于研究变量之间关系的统计方法,包括线性回归、非线性回归、广义线性模型等。回归分析是计量经济学中最核心的方法之一。
⚝ 时间序列分析 (Time Series Analysis):用于分析时间序列数据的统计方法,包括ARIMA模型、VAR模型、协整分析等。时间序列分析在宏观经济预测、金融市场分析等领域应用广泛。
⚝ 面板数据分析 (Panel Data Analysis):用于分析面板数据的统计方法,包括固定效应模型、随机效应模型、动态面板模型等。面板数据分析可以有效地控制个体效应和时间效应,提高估计的准确性。
⚝ 工具变量法 (Instrumental Variables Methods):用于解决内生性问题的计量经济学方法,常用于因果推断研究。
⚝ 因果推断方法 (Causal Inference Methods):用于识别因果效应的计量经济学方法,包括实验设计、准实验设计、双重差分法、断点回归设计、倾向得分匹配等。
⚝ 机器学习方法 (Machine Learning Methods):近年来,机器学习方法在计量经济学中得到越来越多的应用,例如用于模型选择、变量选择、预测等。
⚝ 贝叶斯计量经济学 (Bayesian Econometrics):基于贝叶斯统计理论的计量经济学方法,提供了另一种参数估计和推断的框架。
1.3 计量经济学在经济研究中的作用 (The Role of Econometrics in Economic Research)
计量经济学在现代经济研究中扮演着至关重要的角色。它不仅是经济学研究的重要工具,也是连接经济理论与实际经济现象的桥梁。计量经济学的作用可以从以下几个方面来理解:
① 检验和验证经济理论 (Testing and Verifying Economic Theories):经济理论通常是对现实经济现象的抽象和概括,其正确性需要通过实证检验来验证。计量经济学提供了检验经济理论的有效工具。通过构建计量经济模型,利用实际经济数据进行估计和检验,我们可以判断经济理论是否与现实相符,以及在多大程度上能够解释现实经济现象。
例如,经济学中经典的需求定律 (Law of Demand) 认为,在其他条件不变的情况下,商品价格上涨会导致需求量下降。计量经济学可以通过收集商品的价格和需求量数据,构建回归模型,来检验需求定律是否成立,并估计价格变动对需求量的具体影响程度,即需求价格弹性 (Price Elasticity of Demand)。
② 量化经济关系 (Quantifying Economic Relationships):经济理论通常只给出定性的结论,而计量经济学可以进一步量化经济变量之间的关系。通过参数估计,我们可以获得经济关系的具体数值,例如弹性系数、边际效应等,从而更精确地理解经济现象。
例如,消费函数理论 (Consumption Function Theory) 认为,消费支出与收入水平正相关。计量经济学可以估计消费函数中的边际消费倾向 (Marginal Propensity to Consume, MPC),即收入每增加一单位,消费支出增加多少。这个数值对于宏观经济分析和政策制定都非常重要。
③ 经济预测 (Economic Forecasting):计量经济模型可以用于预测未来的经济变量。基于历史数据和模型估计,我们可以对未来的经济趋势进行预测,例如GDP增长率、通货膨胀率、失业率等。经济预测对于政府、企业和个人进行决策都具有重要参考价值。
例如,时间序列模型 (Time Series Models) 如ARIMA模型和VAR模型,常被用于宏观经济预测和金融市场预测。通过分析历史数据的时间序列特征,可以预测未来一段时间内的经济走势。
④ 政策评估 (Policy Evaluation):计量经济学可以用于评估经济政策的效果。通过构建计量经济模型,分析政策实施前后的经济数据变化,可以评估政策是否达到了预期目标,以及政策的成本和收益。政策评估对于优化政策设计和提高政策有效性至关重要。
例如,双重差分法 (Difference-in-Differences, DID) 是一种常用的政策评估方法。它可以用于评估某项政策(例如最低工资政策、税收政策)对特定群体或地区的影响。通过比较政策实施组和控制组在政策实施前后的变化差异,可以识别政策的因果效应。
⑤ 结构分析 (Structural Analysis):计量经济学可以用于识别经济关系中的结构性参数,理解经济运行的内在机制。结构分析有助于我们更深入地理解经济现象背后的原因,并为更有效的政策干预提供依据。
例如,工具变量法 (Instrumental Variables Methods) 可以用于解决内生性问题,识别因果效应。在研究教育对收入的影响时,教育水平可能与个人能力、家庭背景等因素相关,导致内生性问题。工具变量法可以通过寻找与教育水平相关但与收入不直接相关的工具变量,来克服内生性问题,更准确地估计教育对收入的因果效应。
⑥ 支持经济决策 (Supporting Economic Decision-making):计量经济学分析的结果可以为政府、企业和个人提供决策支持。无论是宏观经济政策的制定,还是企业投资决策,或是个人理财规划,都需要以实证分析为基础。计量经济学提供了科学的分析工具和方法,帮助决策者更好地理解经济环境,评估不同方案的风险和收益,做出更明智的决策。
例如,企业在进行投资决策时,需要预测市场需求、评估投资风险。计量经济学模型可以用于预测市场需求,分析影响投资收益的各种因素,帮助企业进行投资决策。政府在制定宏观经济政策时,需要评估政策对经济增长、就业、通货膨胀等目标的影响。计量经济学模型可以用于政策模拟和评估,帮助政府选择最优的政策组合。
综上所述,计量经济学在经济研究中发挥着不可替代的作用。它不仅是经济学研究的方法论基础 (methodological foundation),也是经济学理论与实践相结合的关键环节。掌握计量经济学方法,对于深入理解经济现象、开展高质量的经济研究、以及进行科学的经济决策都至关重要。
1.4 计量经济学的学习方法与本书结构 (Learning Methods and Book Structure)
计量经济学是一门理论性与实践性都很强的学科。要有效地学习计量经济学,需要掌握正确的学习方法,并充分利用本书的结构特点。
计量经济学的学习方法建议:
① 重视理论基础 (Emphasis on Theoretical Foundation):计量经济学建立在经济理论、数学和统计学的基础之上。学习计量经济学,首先要扎实掌握相关的理论知识。
▮▮▮▮⚝ 经济理论:理解经济学的基本概念、原理和模型,例如供求理论、消费者行为理论、生产理论、宏观经济模型等。
▮▮▮▮⚝ 数学:掌握微积分、线性代数、概率论和数理统计的基本知识。特别是概率论和数理统计,是计量经济学的核心数学工具。
▮▮▮▮⚝ 统计学:系统学习统计学的基本概念、方法和原理,例如描述统计、推断统计、假设检验、回归分析等。
② 注重实践应用 (Focus on Practical Application):计量经济学最终是为了解决实际经济问题。学习计量经济学,要注重理论与实践相结合,多做练习,多分析实际案例。
▮▮▮▮⚝ 案例分析:学习和分析经典的计量经济学案例,理解计量经济学方法在实际研究中的应用。
▮▮▮▮⚝ 数据分析:尝试使用计量经济学软件(例如R, Stata, Python等)进行数据分析,亲手操作,加深理解。
▮▮▮▮⚝ 实证研究:尝试运用计量经济学方法,独立完成一些简单的实证研究项目,例如分析某个经济现象的影响因素,或者评估某项政策的效果。
③ 掌握计量软件 (Mastering Econometric Software):计量经济学分析离不开计量软件的支持。熟练掌握至少一种常用的计量软件,是学习计量经济学的必要条件。
▮▮▮▮⚝ 常用软件:R, Stata, Python, EViews, SAS 等。本书中的案例分析和实证练习,建议使用R或Stata软件进行操作。
▮▮▮▮⚝ 软件学习:通过阅读软件操作手册、在线教程、参加培训课程等方式,系统学习计量软件的使用方法。
▮▮▮▮⚝ 实践操作:在学习计量经济学理论的同时,结合软件操作进行练习,将理论知识应用于实际数据分析中。
④ 培养批判性思维 (Cultivating Critical Thinking):计量经济学分析的结果并非总是完美无缺的。学习计量经济学,要培养批判性思维,学会评估计量分析的有效性和局限性。
▮▮▮▮⚝ 模型假设:理解计量经济模型背后的假设条件,评估这些假设是否合理,以及假设不成立可能带来的影响。
▮▮▮▮⚝ 数据质量:关注数据的来源、质量和适用性,认识到数据问题可能对分析结果产生的影响。
▮▮▮▮⚝ 结果解释:谨慎解释计量分析的结果,避免过度解读或错误解读。认识到计量分析只是提供证据,而非绝对真理。
本书结构 (Book Structure)
本书旨在系统、全面、深入地介绍计量经济学方法,力求覆盖计量经济学的主要内容,并兼顾理论深度和实践应用。本书的结构安排如下:
⚝ 第1章:导论 (Introduction):介绍计量经济学的基本概念、研究对象、方法和作用,以及本书的结构和学习方法。
⚝ 第2章:计量经济学基础:概率与统计回顾 (Foundations of Econometrics: Review of Probability and Statistics):回顾计量经济学所需的概率论和数理统计基础知识,为后续章节的学习打下基础。
⚝ 第3章和第4章:线性回归模型 (Linear Regression Models):详细介绍简单线性回归模型和多元线性回归模型,包括模型设定、OLS估计、假设检验、模型诊断等核心内容。线性回归模型是计量经济学的基础和核心。
⚝ 第5章、第6章和第7章:扩展的回归模型 (Extended Regression Models):介绍广义线性模型 (GLM)、工具变量法 (IV) 和面板数据模型 (Panel Data Models) 等扩展的回归模型,解决线性回归模型无法处理的一些问题,例如非线性关系、内生性问题、个体效应等。
⚝ 第8章和第9章:时间序列分析 (Time Series Analysis):介绍单变量时间序列模型 (ARIMA模型) 和多变量时间序列模型 (VAR模型、协整分析),用于分析时间序列数据,进行经济预测和动态关系分析。
⚝ 第10章:因果推断 (Causal Inference):系统介绍因果推断的基本问题和常用方法,包括实验设计、准实验设计、双重差分法、断点回归设计、倾向得分匹配等,帮助读者理解和应用因果推断方法。
⚝ 第11章和第12章:高级专题 (Advanced Topics):介绍机器学习在计量经济学中的应用和贝叶斯计量经济学,拓展读者的知识视野,了解计量经济学的前沿发展。
本书的章节安排由浅入深,循序渐进。前几章主要介绍计量经济学的基本概念和方法,为后续章节的学习奠定基础。后续章节逐步深入,介绍更高级的模型和方法,并探讨计量经济学的前沿专题。
本书的目标读者包括:
⚝ 经济学、金融学、管理学等专业的本科生和研究生:本书可以作为计量经济学课程的教材或参考书。
⚝ 从事经济研究和实证分析的学者和研究人员:本书可以作为研究工具书,帮助读者系统掌握和应用计量经济学方法。
⚝ 政府部门、金融机构、企业等领域的经济分析人员和决策者:本书可以帮助读者理解和应用计量经济学分析结果,为经济决策提供支持。
希望本书能够帮助读者系统学习计量经济学方法,掌握实证分析技能,并在未来的学习和工作中取得成功。
END_OF_CHAPTER
2. chapter 2: 计量经济学基础:概率与统计回顾 (Foundations of Econometrics: Review of Probability and Statistics)
2.1 概率论基础 (Basics of Probability Theory)
2.1.1 随机事件与概率 (Random Events and Probability)
在计量经济学研究中,我们经常处理不确定性。概率论 (Probability Theory) 是研究随机现象规律的数学工具,为计量经济学模型和方法的构建提供了理论基础。理解随机事件 (Random Events) 和 概率 (Probability) 的基本概念至关重要。
随机事件 (Random Events) 指的是在随机试验 (Random Experiment) 中可能发生也可能不发生的事件。随机试验是指可以在相同条件下重复进行,而每次试验的结果可能不止一个,事先无法确定的试验。
⚝ 样本空间 (Sample Space):随机试验所有可能结果的集合,通常用 \( \Omega \) 或 \( S \) 表示。样本空间中的每个结果称为样本点 (Sample Point) 或基本事件 (Elementary Event)。
⚝ 随机事件 (Random Event):样本空间 \( \Omega \) 的子集。当试验结果落在事件所包含的样本点集合中时,称该事件发生。
概率 (Probability) 是对随机事件发生可能性大小的度量,通常用 \( P(A) \) 表示事件 \( A \) 的概率。概率值介于 0 和 1 之间,0 表示事件不可能发生,1 表示事件必然发生。
概率的公理化定义 (Axiomatic Definition of Probability) 由 Kolmogorov 提出,主要包括以下三个公理:
① 非负性 (Non-negativity):对于任意事件 \( A \),\( P(A) \ge 0 \)。
② 规范性 (Normality):样本空间 \( \Omega \) 的概率为 1,即 \( P(\Omega) = 1 \)。
③ 可加性 (Additivity):对于互斥事件 \( A_1, A_2, \dots, A_n \),即 \( A_i \cap A_j = \emptyset \) (当 \( i \ne j \) 时),有 \( P(\bigcup_{i=1}^{n} A_i) = \sum_{i=1}^{n} P(A_i) \)。对于可数个互斥事件,可加性同样成立。
基于概率的公理化定义,可以推导出许多重要的概率性质,例如:
① 空事件 \( \emptyset \) 的概率为 0,即 \( P(\emptyset) = 0 \)。
② 若 \( A \subseteq B \),则 \( P(A) \le P(B) \)。
③ 对于任意事件 \( A \),\( P(A) \le 1 \)。
④ 概率的加法公式 (Addition Rule of Probability):对于任意两个事件 \( A \) 和 \( B \),有 \( P(A \cup B) = P(A) + P(B) - P(A \cap B) \)。
⑤ 互斥事件的概率加法公式:如果事件 \( A \) 和 \( B \) 互斥,即 \( A \cap B = \emptyset \),则 \( P(A \cup B) = P(A) + P(B) \)。
⑥ 对立事件的概率 (Probability of Complementary Events):对于任意事件 \( A \),其对立事件 \( A^c \) (或 \( \bar{A} \)) 的概率为 \( P(A^c) = 1 - P(A) \)。
条件概率 (Conditional Probability) 是指在已知事件 \( B \) 发生的条件下,事件 \( A \) 发生的概率,记为 \( P(A|B) \)。条件概率的定义公式为:
\[ P(A|B) = \frac{P(A \cap B)}{P(B)}, \quad P(B) > 0 \]
从条件概率的定义公式可以得到乘法公式 (Multiplication Rule of Probability):
\[ P(A \cap B) = P(A|B)P(B) = P(B|A)P(A) \]
对于多个事件 \( A_1, A_2, \dots, A_n \),乘法公式可以推广为:
\[ P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1 \cap A_2) \dots P(A_n|A_1 \cap A_2 \cap \dots \cap A_{n-1}) \]
全概率公式 (Law of Total Probability) 用于计算复杂事件的概率。设 \( B_1, B_2, \dots, B_n \) 是一组完备事件组 (Partition of Sample Space),即 \( B_1, B_2, \dots, B_n \) 互斥且并集为样本空间 \( \Omega \),则对于任意事件 \( A \),全概率公式为:
\[ P(A) = \sum_{i=1}^{n} P(A|B_i)P(B_i) \]
贝叶斯定理 (Bayes' Theorem) 是在已知先验概率和条件概率的情况下,计算后验概率的重要公式。在全概率公式的条件下,贝叶斯定理给出了计算后验概率 (Posterior Probability) \( P(B_i|A) \) 的方法:
\[ P(B_i|A) = \frac{P(A|B_i)P(B_i)}{P(A)} = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n} P(A|B_j)P(B_j)} \]
其中,\( P(B_i) \) 称为先验概率 (Prior Probability),\( P(A|B_i) \) 称为似然函数 (Likelihood Function),\( P(B_i|A) \) 称为后验概率 (Posterior Probability)。贝叶斯定理在贝叶斯计量经济学中具有核心地位,将在本书的后续章节中详细介绍。
2.1.2 随机变量与概率分布 (Random Variables and Probability Distributions)
随机变量 (Random Variable) 是将随机试验的结果数值化的工具,严格来说,是从样本空间 \( \Omega \) 到实数集 \( \mathbb{R} \) 的可测函数。随机变量用大写字母表示,如 \( X, Y, Z \) 等,而具体的取值用小写字母表示,如 \( x, y, z \) 等。根据取值类型的不同,随机变量可以分为离散型随机变量 (Discrete Random Variable) 和 连续型随机变量 (Continuous Random Variable)。
离散型随机变量 (Discrete Random Variable) 指的是取值是有限个或可列个的随机变量。离散型随机变量的概率分布用概率质量函数 (Probability Mass Function, PMF) 描述,记为 \( P(X=x_i) = p_i \),表示随机变量 \( X \) 取值为 \( x_i \) 的概率。概率质量函数需要满足以下条件:
① \( p_i \ge 0 \)
② \( \sum_{i} p_i = 1 \)
连续型随机变量 (Continuous Random Variable) 指的是取值可以充满某个区间或整个实数轴的随机变量。连续型随机变量的概率分布用概率密度函数 (Probability Density Function, PDF) 描述,记为 \( f(x) \)。概率密度函数需要满足以下条件:
① \( f(x) \ge 0 \)
② \( \int_{-\infty}^{\infty} f(x) dx = 1 \)
③ 随机变量 \( X \) 在区间 \( (a, b] \) 内的概率为 \( P(a < X \le b) = \int_{a}^{b} f(x) dx \)
累积分布函数 (Cumulative Distribution Function, CDF) 对于描述任何类型的随机变量(包括离散型和连续型)的概率分布都非常有用。累积分布函数 \( F(x) \) 定义为随机变量 \( X \) 取值小于等于 \( x \) 的概率:
\[ F(x) = P(X \le x) \]
对于离散型随机变量,累积分布函数为:
\[ F(x) = \sum_{x_i \le x} P(X=x_i) = \sum_{x_i \le x} p_i \]
对于连续型随机变量,累积分布函数为:
\[ F(x) = \int_{-\infty}^{x} f(t) dt \]
累积分布函数 \( F(x) \) 具有以下性质:
① \( 0 \le F(x) \le 1 \)
② \( F(x) \) 是单调不减函数
③ \( \lim_{x \to -\infty} F(x) = 0 \),\( \lim_{x \to +\infty} F(x) = 1 \)
④ \( F(x) \) 是右连续函数
随机变量的数字特征 (Numerical Characteristics of Random Variables) 是描述随机变量分布的重要指标,主要包括期望 (Expectation) 和 方差 (Variance)。
期望 (Expectation),也称为均值 (Mean) 或数学期望,表示随机变量取值的平均水平。对于离散型随机变量 \( X \),其期望 \( E(X) \) 定义为:
\[ E(X) = \sum_{i} x_i P(X=x_i) = \sum_{i} x_i p_i \]
对于连续型随机变量 \( X \),其期望 \( E(X) \) 定义为:
\[ E(X) = \int_{-\infty}^{\infty} x f(x) dx \]
期望具有线性性质,即对于常数 \( a, b \) 和随机变量 \( X, Y \),有 \( E(aX + bY) = aE(X) + bE(Y) \)。
方差 (Variance) 是衡量随机变量取值离散程度的指标,表示随机变量取值在其期望周围的波动程度。随机变量 \( X \) 的方差 \( Var(X) \) 定义为:
\[ Var(X) = E[(X - E(X))^2] = E(X^2) - [E(X)]^2 \]
标准差 (Standard Deviation) 是方差的平方根,记为 \( SD(X) = \sqrt{Var(X)} \),与随机变量的单位相同,更便于解释。
2.1.3 常用概率分布 (Common Probability Distributions)
在计量经济学中,常用的概率分布有很多,根据随机变量的类型,可以分为离散型概率分布和连续型概率分布。
离散型概率分布 (Discrete Probability Distributions)
① 伯努利分布 (Bernoulli Distribution):描述单次试验中只有两种可能结果(成功或失败)的随机变量,通常用 \( X \sim Bernoulli(p) \) 表示,其中 \( p \) 是成功的概率。
▮▮▮▮⚝ 概率质量函数:\( P(X=x) = p^x (1-p)^{1-x}, \quad x = 0, 1 \)
▮▮▮▮⚝ 期望:\( E(X) = p \)
▮▮▮▮⚝ 方差:\( Var(X) = p(1-p) \)
▮▮▮▮⚝ 应用场景:例如,事件是否发生(发生=1,不发生=0),顾客是否购买产品(购买=1,不购买=0)等。
② 二项分布 (Binomial Distribution):描述 \( n \) 次独立重复伯努利试验中,成功的次数的随机变量,通常用 \( X \sim Binomial(n, p) \) 表示,其中 \( n \) 是试验次数,\( p \) 是每次试验成功的概率。
▮▮▮▮⚝ 概率质量函数:\( P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \dots, n \)
▮▮▮▮⚝ 期望:\( E(X) = np \)
▮▮▮▮⚝ 方差:\( Var(X) = np(1-p) \)
▮▮▮▮⚝ 应用场景:例如,在抽样调查中,抽取的 \( n \) 个样本中,符合某种特征的样本个数;在产品检验中,检验 \( n \) 个产品,其中不合格品个数等。
③ 泊松分布 (Poisson Distribution):描述在给定时间或空间内,稀有事件发生的次数的随机变量,通常用 \( X \sim Poisson(\lambda) \) 表示,其中 \( \lambda \) 是单位时间或空间内事件发生的平均次数(强度)。
▮▮▮▮⚝ 概率质量函数:\( P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k = 0, 1, 2, \dots \)
▮▮▮▮⚝ 期望:\( E(X) = \lambda \)
▮▮▮▮⚝ 方差:\( Var(X) = \lambda \)
▮▮▮▮⚝ 应用场景:例如,在一定时间内,某服务窗口到达的顾客数;在一定区域内,发生的交通事故次数;在生物学研究中,一定区域内某种细菌的个数等。
连续型概率分布 (Continuous Probability Distributions)
① 均匀分布 (Uniform Distribution):描述在给定区间 \( [a, b] \) 内,取值概率均匀的随机变量,通常用 \( X \sim U(a, b) \) 表示。
▮▮▮▮⚝ 概率密度函数:\( f(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b \\ 0, & \text{otherwise} \end{cases} \)
▮▮▮▮⚝ 累积分布函数:\( F(x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \le x \le b \\ 1, & x > b \end{cases} \)
▮▮▮▮⚝ 期望:\( E(X) = \frac{a+b}{2} \)
▮▮▮▮⚝ 方差:\( Var(X) = \frac{(b-a)^2}{12} \)
▮▮▮▮⚝ 应用场景:例如,随机数生成器产生的随机数;在蒙特卡洛模拟中,作为基础分布使用。
② 正态分布 (Normal Distribution):也称为高斯分布 (Gaussian Distribution),是统计学中最重要和最常用的分布之一,通常用 \( X \sim N(\mu, \sigma^2) \) 表示,其中 \( \mu \) 是均值,\( \sigma^2 \) 是方差。
▮▮▮▮⚝ 概率密度函数:\( f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty \)
▮▮▮▮⚝ 期望:\( E(X) = \mu \)
▮▮▮▮⚝ 方差:\( Var(X) = \sigma^2 \)
▮▮▮▮⚝ 标准正态分布 (Standard Normal Distribution):当 \( \mu = 0, \sigma^2 = 1 \) 时的正态分布,记为 \( Z \sim N(0, 1) \)。其概率密度函数为 \( \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} \),累积分布函数为 \( \Phi(z) = \int_{-\infty}^{z} \phi(t) dt \)。
▮▮▮▮⚝ 应用场景:自然界和社会科学中许多随机现象都近似服从正态分布,例如,身高、体重、考试成绩、股票收益率等。中心极限定理 (Central Limit Theorem) 保证了在一定条件下,多个独立同分布随机变量的和的分布趋近于正态分布,这使得正态分布在统计推断中具有核心地位。
③ 指数分布 (Exponential Distribution):描述独立事件发生的时间间隔的连续型概率分布,通常用 \( X \sim Exponential(\lambda) \) 表示,其中 \( \lambda > 0 \) 是率参数。
▮▮▮▮⚝ 概率密度函数:\( f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \ge 0 \\ 0, & x < 0 \end{cases} \)
▮▮▮▮⚝ 累积分布函数:\( F(x) = \begin{cases} 1 - e^{-\lambda x}, & x \ge 0 \\ 0, & x < 0 \end{cases} \)
▮▮▮▮⚝ 期望:\( E(X) = \frac{1}{\lambda} \)
▮▮▮▮⚝ 方差:\( Var(X) = \frac{1}{\lambda^2} \)
▮▮▮▮⚝ 应用场景:例如,电子元件的寿命;顾客到达服务台的时间间隔;电话呼叫的时间间隔等。指数分布与泊松分布密切相关,如果事件发生次数服从泊松分布,则事件发生的时间间隔服从指数分布。
④ 卡方分布 (Chi-squared Distribution):由 \( k \) 个独立标准正态分布随机变量的平方和构成的分布,通常用 \( \chi^2(k) \) 或 \( \chi^2_k \) 表示,其中 \( k \) 称为自由度 (Degrees of Freedom)。
▮▮▮▮⚝ 概率密度函数:较为复杂,与自由度 \( k \) 有关。
▮▮▮▮⚝ 期望:\( E(X) = k \)
▮▮▮▮⚝ 方差:\( Var(X) = 2k \)
▮▮▮▮⚝ 应用场景:在假设检验中,例如,卡方检验用于检验分类变量的独立性;在区间估计中,用于构建方差的置信区间。
⑤ t 分布 (t-distribution):由标准正态分布随机变量和卡方分布随机变量构建的分布,通常用 \( t(k) \) 或 \( t_k \) 表示,其中 \( k \) 称为自由度。
▮▮▮▮⚝ 概率密度函数:较为复杂,与自由度 \( k \) 有关。t 分布的形状与正态分布类似,但尾部更厚,自由度越小,尾部越厚,当自由度趋于无穷大时,t 分布趋近于标准正态分布。
▮▮▮▮⚝ 期望:当 \( k > 1 \) 时,\( E(X) = 0 \);当 \( k \le 1 \) 时,期望不存在。
▮▮▮▮⚝ 方差:当 \( k > 2 \) 时,\( Var(X) = \frac{k}{k-2} \);当 \( k \le 2 \) 时,方差不存在。
▮▮▮▮⚝ 应用场景:在小样本情况下,当总体方差未知时,t 检验用于检验均值;在回归分析中,用于检验回归系数的显著性。
⑥ F 分布 (F-distribution):由两个独立的卡方分布随机变量的比值构成的分布,通常用 \( F(m, n) \) 或 \( F_{m, n} \) 表示,其中 \( m \) 和 \( n \) 分别是分子和分母的自由度。
▮▮▮▮⚝ 概率密度函数:较为复杂,与自由度 \( m \) 和 \( n \) 有关。
▮▮▮▮⚝ 期望:当 \( n > 2 \) 时,\( E(X) = \frac{n}{n-2} \);当 \( n \le 2 \) 时,期望不存在。
▮▮▮▮⚝ 方差:表达式较为复杂,与自由度 \( m \) 和 \( n \) 有关。
▮▮▮▮⚝ 应用场景:在假设检验中,例如,F 检验用于检验多个均值是否相等(方差分析);在回归分析中,用于检验模型的整体显著性。
2.2 数理统计基础 (Basics of Mathematical Statistics)
数理统计 (Mathematical Statistics) 是研究如何有效地收集、整理、分析和解释随机数据 (Random Data),并对研究对象的性质和规律做出推断的学科。计量经济学方法在很大程度上依赖于数理统计的理论和方法。
2.2.1 抽样理论与抽样分布 (Sampling Theory and Sampling Distributions)
抽样 (Sampling) 是从总体 (Population) 中抽取一部分个体作为样本 (Sample) 的过程。总体 (Population) 是研究对象的全体,样本 (Sample) 是从总体中抽取的一部分个体。在计量经济学研究中,我们通常无法获得总体的全部数据,只能通过分析样本数据来推断总体的特征。
随机抽样 (Random Sampling) 是保证样本代表性的重要方法。常用的随机抽样方法包括:
① 简单随机抽样 (Simple Random Sampling):从总体中随机抽取个体,使得每个个体被抽取的概率相等,且每次抽取之间相互独立。
② 分层抽样 (Stratified Sampling):先将总体划分为若干个层 (Strata),然后在每层内进行简单随机抽样。
③ 整群抽样 (Cluster Sampling):先将总体划分为若干个群 (Clusters),然后随机抽取若干个群,对抽取的群内的所有个体进行调查。
④ 系统抽样 (Systematic Sampling):先将总体中的个体按一定顺序排列,然后按照一定的间隔抽取个体。
抽样分布 (Sampling Distribution) 是指样本统计量的概率分布。样本统计量 (Sample Statistic) 是样本的函数,例如,样本均值 \( \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \),样本方差 \( S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \) 等。由于样本是随机抽取的,样本统计量也是随机变量,具有一定的概率分布,这就是抽样分布。
中心极限定理 (Central Limit Theorem, CLT) 是抽样理论中最重要的定理之一。中心极限定理指出,在一定条件下,当样本容量 \( n \) 足够大时,样本均值 \( \bar{X} \) 的抽样分布近似服从正态分布,而与总体分布的形状无关。更具体地说,设 \( X_1, X_2, \dots, X_n \) 是从均值为 \( \mu \),方差为 \( \sigma^2 \) 的总体中抽取的简单随机样本,则当 \( n \) 足够大时,样本均值 \( \bar{X} \) 近似服从均值为 \( \mu \),方差为 \( \frac{\sigma^2}{n} \) 的正态分布,即 \( \bar{X} \approx N(\mu, \frac{\sigma^2}{n}) \)。更规范的表达是,样本均值的标准化变量 \( Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \) 近似服从标准正态分布 \( N(0, 1) \)。
中心极限定理的意义在于,即使我们不知道总体分布的具体形式,只要样本容量足够大,我们就可以利用正态分布来近似样本均值的抽样分布,从而进行统计推断。在实际应用中,通常认为当样本容量 \( n \ge 30 \) 时,中心极限定理的近似效果就比较好。
常用样本统计量的抽样分布 (Sampling Distributions of Common Sample Statistics)
① 样本均值 \( \bar{X} \) 的抽样分布:
▮▮▮▮⚝ 若总体服从正态分布 \( N(\mu, \sigma^2) \),则样本均值 \( \bar{X} \) 服从正态分布 \( N(\mu, \frac{\sigma^2}{n}) \)。
▮▮▮▮⚝ 若总体分布未知,但样本容量 \( n \) 足够大,根据中心极限定理,样本均值 \( \bar{X} \) 近似服从正态分布 \( N(\mu, \frac{\sigma^2}{n}) \)。
② 样本方差 \( S^2 \) 的抽样分布:
▮▮▮▮⚝ 若总体服从正态分布 \( N(\mu, \sigma^2) \),则 \( \frac{(n-1)S^2}{\sigma^2} \) 服从自由度为 \( n-1 \) 的卡方分布 \( \chi^2(n-1) \)。
③ 两个样本均值之差 \( \bar{X}_1 - \bar{X}_2 \) 的抽样分布:
▮▮▮▮⚝ 若两个总体都服从正态分布,或样本容量都足够大,则样本均值之差 \( \bar{X}_1 - \bar{X}_2 \) 近似服从正态分布。
④ 两个样本方差之比 \( S_1^2 / S_2^2 \) 的抽样分布:
▮▮▮▮⚝ 若两个总体都服从正态分布,则样本方差之比 \( \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \) 服从 F 分布。
2.2.2 参数估计 (Parameter Estimation)
参数估计 (Parameter Estimation) 是利用样本数据,对总体未知参数 (Unknown Parameters) 进行估计的过程。总体参数是描述总体特征的数值,例如,总体均值 \( \mu \),总体方差 \( \sigma^2 \) 等。参数估计分为点估计 (Point Estimation) 和 区间估计 (Interval Estimation)。
点估计 (Point Estimation) 是用样本统计量的一个具体数值来估计总体参数。常用的点估计方法包括矩估计 (Method of Moments, MM) 和 极大似然估计 (Maximum Likelihood Estimation, MLE)。
① 矩估计 (Method of Moments, MM):基于样本矩 (Sample Moments) 估计总体矩 (Population Moments) 的方法。矩估计的基本思想是用样本的 \( k \) 阶原点矩或中心矩来估计总体的 \( k \) 阶原点矩或中心矩,然后解方程组得到参数的估计值。例如,用样本均值 \( \bar{X} \) 估计总体均值 \( \mu \),用样本方差 \( S^2 \) 估计总体方差 \( \sigma^2 \)。
② 极大似然估计 (Maximum Likelihood Estimation, MLE):基于似然函数 (Likelihood Function) 最大化的方法。极大似然估计的基本思想是,选择参数值,使得在给定样本数据下,样本出现的概率最大。似然函数是样本观测值作为参数的函数,表示在给定参数值下,观测到当前样本的概率。极大似然估计通过最大化似然函数(或对数似然函数)来得到参数的估计值。极大似然估计法在计量经济学中应用广泛,具有良好的统计性质。
估计量的性质 (Properties of Estimators) 是评价估计量好坏的标准。常用的估计量性质包括:
① 无偏性 (Unbiasedness):如果估计量 \( \hat{\theta} \) 的期望等于总体参数 \( \theta \),即 \( E(\hat{\theta}) = \theta \),则称 \( \hat{\theta} \) 是 \( \theta \) 的无偏估计量。无偏性意味着估计量的平均取值等于总体参数的真值。
② 有效性 (Efficiency):在所有无偏估计量中,方差最小的估计量称为最有效估计量 (Most Efficient Estimator)。有效性意味着估计量的离散程度最小,估计精度最高。
③ 一致性 (Consistency):当样本容量 \( n \) 趋于无穷大时,估计量 \( \hat{\theta} \) 依概率收敛于总体参数 \( \theta \),即 \( \lim_{n \to \infty} P(|\hat{\theta} - \theta| < \epsilon) = 1 \) 对于任意 \( \epsilon > 0 \) 成立,则称 \( \hat{\theta} \) 是 \( \theta \) 的一致估计量。一致性意味着当样本容量增大时,估计量越来越接近总体参数的真值。
区间估计 (Interval Estimation) 是用样本统计量构造一个区间,使得该区间以一定的概率包含总体参数的真值。这个区间称为置信区间 (Confidence Interval),包含总体参数真值的概率称为置信水平 (Confidence Level),通常用 \( 1-\alpha \) 表示,其中 \( \alpha \) 是显著性水平 (Significance Level),常用的置信水平为 90%, 95%, 99%。
置信区间的构造方法 (Construction of Confidence Intervals) 通常基于抽样分布。以总体均值 \( \mu \) 的置信区间为例,假设总体方差 \( \sigma^2 \) 已知,且总体服从正态分布或样本容量足够大,则样本均值 \( \bar{X} \) 近似服从正态分布 \( N(\mu, \frac{\sigma^2}{n}) \),标准化变量 \( Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \) 近似服从标准正态分布 \( N(0, 1) \)。给定置信水平 \( 1-\alpha \),查标准正态分布表得到临界值 \( z_{\alpha/2} \),使得 \( P(|Z| \le z_{\alpha/2}) = 1-\alpha \),即 \( P(-z_{\alpha/2} \le \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \le z_{\alpha/2}) = 1-\alpha \)。经过变换,得到总体均值 \( \mu \) 的 \( 1-\alpha \) 置信区间为:
\[ (\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}) \]
若总体方差 \( \sigma^2 \) 未知,且总体服从正态分布或样本容量足够大,则用样本标准差 \( S \) 替代总体标准差 \( \sigma \),并用 t 分布的临界值 \( t_{\alpha/2}(n-1) \) 替代标准正态分布的临界值 \( z_{\alpha/2} \),得到总体均值 \( \mu \) 的 \( 1-\alpha \) 置信区间为:
\[ (\bar{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}, \bar{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}) \]
2.2.3 假设检验 (Hypothesis Testing)
假设检验 (Hypothesis Testing) 是利用样本数据,对关于总体参数或总体分布的假设 (Hypothesis) 进行检验,判断假设是否成立的过程。假设检验的基本思想是反证法 (Proof by Contradiction),即先假设原假设 (Null Hypothesis) \( H_0 \) 成立,然后利用样本数据,构造检验统计量 (Test Statistic),计算p 值 (p-value),根据 p 值的大小,判断是否有足够的证据拒绝原假设 \( H_0 \),接受备择假设 (Alternative Hypothesis) \( H_1 \)。
假设检验的基本步骤 (Basic Steps of Hypothesis Testing):
① 提出假设 (Formulate Hypotheses):根据研究问题,提出原假设 \( H_0 \) 和备择假设 \( H_1 \)。原假设通常是研究者想要拒绝的假设,备择假设是研究者想要支持的假设。原假设和备择假设是互斥的。例如,检验总体均值 \( \mu \) 是否等于某个特定值 \( \mu_0 \),可以提出双侧检验 (Two-tailed Test) 的假设:
▮▮▮▮⚝ \( H_0: \mu = \mu_0 \)
▮▮▮▮⚝ \( H_1: \mu \ne \mu_0 \)
也可以提出单侧检验 (One-tailed Test) 的假设:
▮▮▮▮⚝ 左侧检验 (Left-tailed Test):\( H_0: \mu \ge \mu_0 \),\( H_1: \mu < \mu_0 \)
▮▮▮▮⚝ 右侧检验 (Right-tailed Test):\( H_0: \mu \le \mu_0 \),\( H_1: \mu > \mu_0 \)
② 选择检验统计量 (Choose Test Statistic):根据检验假设和样本数据,选择合适的检验统计量。检验统计量是样本的函数,其抽样分布在原假设 \( H_0 \) 成立时是已知的。例如,检验总体均值 \( \mu \) 的假设,如果总体方差 \( \sigma^2 \) 已知,可以使用 Z 统计量 \( Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \);如果总体方差 \( \sigma^2 \) 未知,可以使用 t 统计量 \( t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \)。
③ 确定拒绝域 (Determine Rejection Region):根据显著性水平 \( \alpha \) 和检验类型(单侧或双侧),确定拒绝域。显著性水平 (Significance Level) \( \alpha \) 是预先设定的概率值,表示犯第一类错误 (Type I Error) 的最大概率。第一类错误 (Type I Error) 是指原假设 \( H_0 \) 为真时,拒绝 \( H_0 \) 的错误,也称为弃真错误 (False Positive)。第二类错误 (Type II Error) 是指原假设 \( H_0 \) 为假时,接受 \( H_0 \) 的错误,也称为取伪错误 (False Negative)。通常情况下,显著性水平 \( \alpha \) 取 0.05, 0.01 或 0.10。拒绝域 (Rejection Region) 是指检验统计量取值,使得我们拒绝原假设 \( H_0 \) 的区域。
④ 计算检验统计量的值和 p 值 (Calculate Test Statistic Value and p-value):根据样本数据,计算检验统计量的具体数值。p 值 (p-value) 是指在原假设 \( H_0 \) 成立的条件下,观测到当前样本或更极端样本的概率。p 值越小,拒绝原假设 \( H_0 \) 的证据越强。
⑤ 做出决策 (Make Decision):根据 p 值和显著性水平 \( \alpha \),做出决策。
▮▮▮▮⚝ 拒绝原假设 \( H_0 \):如果 p 值 \( \le \alpha \),则拒绝原假设 \( H_0 \),接受备择假设 \( H_1 \)。这意味着在显著性水平 \( \alpha \) 下,有统计学意义的证据表明原假设 \( H_0 \) 不成立。
▮▮▮▮⚝ 不拒绝原假设 \( H_0 \):如果 p 值 \( > \alpha \),则不拒绝原假设 \( H_0 \)。这并不意味着原假设 \( H_0 \) 一定成立,而是意味着在当前的显著性水平 \( \alpha \) 下,没有足够的统计学意义的证据拒绝原假设 \( H_0 \)。
常用的假设检验 (Common Hypothesis Tests):
① t 检验 (t-test):用于检验总体均值的假设,包括单样本 t 检验、双样本独立 t 检验和配对样本 t 检验。
② F 检验 (F-test):用于检验方差分析中多个总体均值是否相等,以及回归分析中模型的整体显著性。
③ 卡方检验 (Chi-squared test):用于检验分类变量的独立性(独立性检验),以及检验拟合优度(拟合优度检验)。
在计量经济学模型和方法的应用中,假设检验是进行统计推断的重要工具,例如,检验回归系数是否显著异于零,检验模型是否存在异方差性或自相关性等。本书的后续章节将详细介绍各种假设检验的具体应用。
END_OF_CHAPTER
3. chapter 3: 线性回归模型:简单线性回归 (Linear Regression Models: Simple Linear Regression)
3.1 线性回归模型的基本概念 (Basic Concepts of Linear Regression Models)
3.1.1 模型设定 (Model Specification)
线性回归模型 (Linear Regression Model) 是计量经济学中最基础也是最重要的模型之一。它用于研究一个或多个自变量 (independent variable) 如何影响一个因变量 (dependent variable)。在简单线性回归 (Simple Linear Regression) 中,我们只考虑一个自变量 \(X\) 如何影响因变量 \(Y\)。
简单线性回归模型的基本形式可以表示为:
\[ Y = \beta_0 + \beta_1 X + \epsilon \]
其中:
⚝ \(Y\) 是因变量,也被称为被解释变量 (explained variable) 或响应变量 (response variable)。
⚝ \(X\) 是自变量,也被称为解释变量 (explanatory variable) 或预测变量 (predictor variable)。
⚝ \(\beta_0\) 是截距项 (intercept term),表示当 \(X\) 为零时,\(Y\) 的期望值。
⚝ \(\beta_1\) 是斜率系数 (slope coefficient),表示当 \(X\) 变化一个单位时,\(Y\) 的期望值的变化量。
⚝ \(\epsilon\) 是误差项 (error term) 或随机扰动项 (random disturbance term),代表模型中未被包含的其他影响 \(Y\) 的因素,以及随机波动。
模型设定的关键假设 (Key Assumptions of Model Specification):
① 线性性假设 (Linearity Assumption):模型假设因变量 \(Y\) 与自变量 \(X\) 之间存在线性关系。这意味着 \(Y\) 对 \(X\) 的变化率是恒定的,由斜率系数 \(\beta_1\) 决定。虽然模型形式是线性的,但这并不意味着只能处理线性关系的数据。通过对变量进行适当的变换(例如,取对数、平方等),线性回归模型也可以用来近似非线性关系。
② 外生性假设 (Exogeneity Assumption):自变量 \(X\) 是外生的,即 \(X\) 与误差项 \(\epsilon\) 不相关。数学上表示为 \(Cov(X, \epsilon) = 0\) 或 \(E(\epsilon|X) = 0\)。这个假设至关重要,因为它保证了自变量的变化是由模型外部因素驱动的,而不是由误差项中的因素影响,从而避免了内生性 (endogeneity) 问题。如果 \(X\) 与 \(\epsilon\) 相关,OLS 估计量将是有偏且不一致的。
③ 误差项的零均值假设 (Zero Mean Assumption of Error Term):误差项 \(\epsilon\) 的期望值为零,即 \(E(\epsilon) = 0\)。这个假设通常是为了简化模型和估计过程,在大多数情况下,截距项 \(\beta_0\) 的存在已经允许我们放松这个假设,因为任何非零的误差项均值都可以被吸收到截距项中。
④ 同方差性假设 (Homoskedasticity Assumption):误差项 \(\epsilon\) 的方差对于所有观测值是恒定的,即 \(Var(\epsilon|X) = \sigma^2\),其中 \(\sigma^2\) 是一个常数。这意味着误差项的波动性不随自变量 \(X\) 的变化而变化。如果误差项的方差不是常数,则存在异方差性 (heteroskedasticity),这会影响 OLS 估计量的有效性。
⑤ 无自相关性假设 (No Autocorrelation Assumption):误差项 \(\epsilon\) 之间是相互独立的,即对于不同的观测值 \(i\) 和 \(j\) (\(i \neq j\)), \(Cov(\epsilon_i, \epsilon_j) = 0\)。这意味着一个观测值的误差项不应该影响另一个观测值的误差项。在时间序列数据中,自相关性 (autocorrelation) 是一个常见的问题。
⑥ 误差项的正态性假设 (Normality Assumption of Error Term):误差项 \(\epsilon\) 服从正态分布,即 \(\epsilon \sim N(0, \sigma^2)\)。这个假设在进行假设检验和构建置信区间时非常有用,尤其是在小样本情况下。在大样本情况下,即使误差项不严格服从正态分布,由于中心极限定理 (Central Limit Theorem),OLS 估计量仍然具有渐近正态性。
理解和检验这些假设对于正确应用和解释线性回归模型至关重要。在实际应用中,我们通常需要检验这些假设是否成立,并采取相应的措施来处理违反假设的情况。
3.1.2 总体回归函数与样本回归函数 (Population Regression Function and Sample Regression Function)
在计量经济学中,我们需要区分总体回归函数 (Population Regression Function - PRF) 和样本回归函数 (Sample Regression Function - SRF) 这两个密切相关但概念上不同的概念。
① 总体回归函数 (PRF):
总体回归函数描述的是在整个总体中,因变量 \(Y\) 的期望值如何随自变量 \(X\) 变化。它是我们真实想要了解的关系,但通常是未知的。在简单线性回归模型中,PRF 可以表示为:
\[ E(Y|X) = \beta_0 + \beta_1 X \]
⚝ \(E(Y|X)\) 表示在给定 \(X\) 的条件下,\(Y\) 的条件期望 (conditional expectation)。
⚝ \(\beta_0\) 和 \(\beta_1\) 是总体参数 (population parameters),它们是固定的、但通常是未知的。我们的目标是通过样本数据来估计这些参数。
⚝ PRF 代表了 \(X\) 和 \(Y\) 之间在总体层面的真实关系。
② 样本回归函数 (SRF):
样本回归函数是基于样本数据,通过计量方法(如普通最小二乘法 OLS)估计得到的回归方程。它是 PRF 的一个估计或近似。对于一个给定的样本数据集 \((X_i, Y_i)_{i=1}^n\),SRF 可以表示为:
\[ \hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i \]
或
\[ Y_i = \hat{\beta}_0 + \hat{\beta}_1 X_i + \hat{e}_i \]
其中:
⚝ \(\hat{Y}_i\) 是因变量 \(Y_i\) 的拟合值 (fitted value) 或预测值 (predicted value)。
⚝ \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 是样本估计量 (sample estimators),它们是基于样本数据计算得到的 \(\beta_0\) 和 \(\beta_1\) 的估计值。这些估计量是随机变量,因为它们的值会随着样本的不同而变化。
⚝ \(\hat{e}_i = Y_i - \hat{Y}_i\) 是残差 (residual),表示样本观测值 \(Y_i\) 与样本回归函数预测值 \(\hat{Y}_i\) 之间的差异。残差是误差项 \(\epsilon_i\) 的样本对应物,但两者概念不同。误差项 \(\epsilon_i\) 是不可观测的,而残差 \(\hat{e}_i\) 是可以从样本数据中计算出来的。
PRF 与 SRF 的关系:
⚝ PRF 描述的是总体中的真实关系,是我们的目标。SRF 是我们用样本数据去估计和逼近 PRF 的工具。
⚝ 我们可以把 SRF 看作是 PRF 的一个样本实现。如果我们从总体中抽取不同的样本,我们会得到不同的 SRF。
⚝ 理想情况下,我们希望 SRF 能够尽可能地接近 PRF。OLS 估计方法正是为了找到一个“最佳”的 SRF,使其在某种意义上最接近未知的 PRF。
⚝ 计量经济学的核心任务之一就是利用样本信息,通过 SRF 来推断 PRF 的性质,例如估计总体参数 \(\beta_0\) 和 \(\beta_1\),并对这些参数进行统计推断。
图示理解:
可以想象总体回归函数 PRF 是一个在整个数据空间中存在的真实的回归线,而我们通过抽样得到的数据点散落在 PRF 周围。样本回归函数 SRF 则是我们根据这些样本点拟合出来的一条直线,我们希望这条 SRF 尽可能地靠近真实的 PRF。
理解 PRF 和 SRF 的区别与联系,是理解线性回归模型和计量经济学方法论的关键一步。在后续的章节中,我们将学习如何使用 OLS 方法来估计 SRF,并利用 SRF 对 PRF 进行推断。
3.2 普通最小二乘法 (OLS) 估计 (Ordinary Least Squares (OLS) Estimation)
3.2.1 OLS 估计的原理与推导 (Principles and Derivation of OLS Estimation)
普通最小二乘法 (Ordinary Least Squares - OLS) 是估计线性回归模型参数最常用和最基本的方法之一。OLS 的目标是找到一条直线(在简单线性回归中)或超平面(在多元线性回归中),使得样本观测值与回归线之间的垂直距离的平方和最小化。这些垂直距离就是残差 \(\hat{e}_i\)。
OLS 的原理:
OLS 的基本思想是选择参数估计值 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\),使得残差平方和 (Sum of Squared Residuals - SSR) 最小化。残差平方和 SSR 定义为:
\[ SSR = \sum_{i=1}^{n} \hat{e}_i^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i))^2 \]
OLS 估计的目标是找到 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 的值,使得 SSR 达到最小值。这是一个无约束优化问题,可以通过微积分的方法来求解。
OLS 估计的推导:
为了最小化 SSR,我们需要对 SSR 分别关于 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 求偏导数,并令偏导数等于零,得到一阶条件 (First-Order Conditions - FOC)。
① 对 \(\hat{\beta}_0\) 求偏导数:
\[ \frac{\partial SSR}{\partial \hat{\beta}_0} = \frac{\partial}{\partial \hat{\beta}_0} \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 = -2 \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 \]
整理得到:
\[ \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 \]
\[ \sum_{i=1}^{n} Y_i - n\hat{\beta}_0 - \hat{\beta}_1 \sum_{i=1}^{n} X_i = 0 \]
\[ n\hat{\beta}_0 = \sum_{i=1}^{n} Y_i - \hat{\beta}_1 \sum_{i=1}^{n} X_i \]
\[ \hat{\beta}_0 = \frac{1}{n} \sum_{i=1}^{n} Y_i - \hat{\beta}_1 \frac{1}{n} \sum_{i=1}^{n} X_i = \bar{Y} - \hat{\beta}_1 \bar{X} \]
其中,\(\bar{Y} = \frac{1}{n} \sum_{i=1}^{n} Y_i\) 和 \(\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\) 分别是 \(Y\) 和 \(X\) 的样本均值。
② 对 \(\hat{\beta}_1\) 求偏导数:
\[ \frac{\partial SSR}{\partial \hat{\beta}_1} = \frac{\partial}{\partial \hat{\beta}_1} \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i)^2 = -2 \sum_{i=1}^{n} X_i (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 \]
整理得到:
\[ \sum_{i=1}^{n} X_i (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_i) = 0 \]
\[ \sum_{i=1}^{n} X_i Y_i - \hat{\beta}_0 \sum_{i=1}^{n} X_i - \hat{\beta}_1 \sum_{i=1}^{n} X_i^2 = 0 \]
将 \(\hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X}\) 代入上式:
\[ \sum_{i=1}^{n} X_i Y_i - (\bar{Y} - \hat{\beta}_1 \bar{X}) \sum_{i=1}^{n} X_i - \hat{\beta}_1 \sum_{i=1}^{n} X_i^2 = 0 \]
\[ \sum_{i=1}^{n} X_i Y_i - \bar{Y} \sum_{i=1}^{n} X_i + \hat{\beta}_1 \bar{X} \sum_{i=1}^{n} X_i - \hat{\beta}_1 \sum_{i=1}^{n} X_i^2 = 0 \]
\[ \hat{\beta}_1 (\bar{X} \sum_{i=1}^{n} X_i - \sum_{i=1}^{n} X_i^2) = \bar{Y} \sum_{i=1}^{n} X_i - \sum_{i=1}^{n} X_i Y_i \]
\[ \hat{\beta}_1 (\sum_{i=1}^{n} X_i)^2 / n - \sum_{i=1}^{n} X_i^2 = \bar{Y} \sum_{i=1}^{n} X_i - \sum_{i=1}^{n} X_i Y_i \]
为了简化公式,我们使用中心化变量 (centered variable) 的概念。定义 \(x_i = X_i - \bar{X}\) 和 \(y_i = Y_i - \bar{Y}\)。则:
\[ \sum_{i=1}^{n} x_i y_i = \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) = \sum_{i=1}^{n} X_i Y_i - \bar{Y} \sum_{i=1}^{n} X_i - \bar{X} \sum_{i=1}^{n} Y_i + n\bar{X}\bar{Y} = \sum_{i=1}^{n} X_i Y_i - n\bar{X}\bar{Y} \]
\[ \sum_{i=1}^{n} x_i^2 = \sum_{i=1}^{n} (X_i - \bar{X})^2 = \sum_{i=1}^{n} X_i^2 - 2\bar{X} \sum_{i=1}^{n} X_i + n\bar{X}^2 = \sum_{i=1}^{n} X_i^2 - n\bar{X}^2 \]
利用中心化变量,我们可以将 \(\hat{\beta}_1\) 的解简化为:
\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} x_i y_i}{\sum_{i=1}^{n} x_i^2} = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{Cov(X, Y)}{Var(X)} \cdot \frac{n}{n-1} \approx \frac{Cov(X, Y)}{Var(X)} \]
以及
\[ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} \]
为了确保我们找到的是最小值而不是最大值或鞍点,我们需要检验二阶条件 (Second-Order Conditions - SOC)。对于 SSR 最小化问题,二阶条件要求 SSR 对 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 的二阶偏导数矩阵是正定的。可以验证,对于线性回归模型,OLS 得到的解确实是 SSR 的最小值。
因此,简单线性回归模型的 OLS 估计量为:
\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \]
\[ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} \]
这两个公式给出了在给定样本数据下,使得残差平方和最小的 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 的值。
3.2.2 OLS 估计量的性质 (Properties of OLS Estimators)
在一定的假设条件下,OLS 估计量具有良好的统计性质。这些性质可以分为小样本性质 (small sample properties) 和 大样本性质 (large sample properties) (或称渐近性质 (asymptotic properties))。
① 高斯-马尔可夫定理 (Gauss-Markov Theorem) (小样本性质):
在高斯-马尔可夫假设 (Gauss-Markov Assumptions) 成立的条件下,OLS 估计量是最佳线性无偏估计量 (Best Linear Unbiased Estimator - BLUE)。高斯-马尔可夫假设包括:
⚝ 线性性 (Linearity):模型在参数上是线性的。
⚝ 外生性 (Exogeneity):\(E(\epsilon|X) = 0\)。
⚝ 误差项的零均值 (Zero Mean of Error Term):\(E(\epsilon) = 0\)。
⚝ 同方差性 (Homoskedasticity):\(Var(\epsilon|X) = \sigma^2\)。
⚝ 无自相关性 (No Autocorrelation):\(Cov(\epsilon_i, \epsilon_j) = 0\) for \(i \neq j\)。
在这些假设下,“最佳”意味着在所有线性无偏估计量中,OLS 估计量具有最小的方差。换句话说,OLS 估计量是最有效的线性无偏估计量。
⚝ 无偏性 (Unbiasedness):在 Gauss-Markov 假设下,OLS 估计量是无偏的,即 \(E(\hat{\beta}_1) = \beta_1\) 和 \(E(\hat{\beta}_0) = \beta_0\)。这意味着在多次重复抽样中,OLS 估计量的平均值等于总体参数的真实值。
⚝ 线性性 (Linearity):OLS 估计量是因变量 \(Y_i\) 的线性函数。
⚝ 有效性 (Efficiency):在所有线性无偏估计量中,OLS 估计量具有最小的方差。这意味着 OLS 估计量是最精确的线性无偏估计量。
② 大样本性质 (渐近性质):
即使在高斯-马尔可夫假设不完全满足的情况下,只要一些更弱的条件成立,OLS 估计量仍然具有良好的大样本性质。这些性质使得 OLS 方法在实际应用中非常广泛。
⚝ 一致性 (Consistency):在较弱的假设下(例如,只需要外生性和一些关于 \(X\) 和 \(\epsilon\) 的矩条件),OLS 估计量是一致的 (consistent)。这意味着当样本容量 \(n\) 趋于无穷大时,OLS 估计量 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\) 依概率收敛于总体参数的真实值 \(\beta_1\) 和 \(\beta_0\),即 \(plim_{n \to \infty} \hat{\beta}_1 = \beta_1\) 和 \(plim_{n \to \infty} \hat{\beta}_0 = \beta_0\)。一致性是一个非常重要的性质,因为它保证了当样本足够大时,我们可以得到接近真实参数的估计值。
⚝ 渐近正态性 (Asymptotic Normality):在适当的条件下,OLS 估计量 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\) 具有渐近正态分布 (asymptotically normally distributed)。这意味着当样本容量 \(n\) 足够大时,\(\hat{\beta}_1\) 和 \(\hat{\beta}_0\) 的抽样分布近似于正态分布。这个性质使得我们可以进行大样本的假设检验和构建置信区间。具体来说,
\[ \hat{\beta}_1 \xrightarrow{a} N(\beta_1, Var(\hat{\beta}_1)) \]
\[ \hat{\beta}_0 \xrightarrow{a} N(\beta_0, Var(\hat{\beta}_0)) \]
其中,\(Var(\hat{\beta}_1)\) 和 \(Var(\hat{\beta}_0)\) 是 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\) 的渐近方差。
OLS 估计量的方差:
在同方差和无自相关假设下,OLS 估计量 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\) 的方差可以估计为:
\[ Var(\hat{\beta}_1) = \frac{\sigma^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \]
\[ Var(\hat{\beta}_0) = \sigma^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \right) \]
其中,\(\sigma^2 = Var(\epsilon)\) 是误差项的方差,通常是未知的,需要用样本数据进行估计。 \(\sigma^2\) 的无偏估计量是:
\[ \hat{\sigma}^2 = \frac{SSR}{n-2} = \frac{\sum_{i=1}^{n} \hat{e}_i^2}{n-2} \]
分母 \(n-2\) 是自由度 (degrees of freedom),因为在简单线性回归模型中,我们估计了两个参数 \(\beta_0\) 和 \(\beta_1\)。
使用 \(\hat{\sigma}^2\) 代替 \(\sigma^2\),我们可以得到 OLS 估计量方差的估计值:
\[ \widehat{Var}(\hat{\beta}_1) = \frac{\hat{\sigma}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \]
\[ \widehat{Var}(\hat{\beta}_0) = \hat{\sigma}^2 \left( \frac{1}{n} + \frac{\bar{X}^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \right) \]
这些方差的估计值对于进行假设检验和构建置信区间至关重要,我们将在下一节中详细讨论。
3.3 简单线性回归模型的假设检验与置信区间 (Hypothesis Testing and Confidence Intervals in Simple Linear Regression Models)
3.3.1 系数的显著性检验 (Significance Test of Coefficients)
在估计了简单线性回归模型后,我们通常需要检验模型中自变量 \(X\) 对因变量 \(Y\) 是否有显著的影响,即检验斜率系数 \(\beta_1\) 是否显著不为零。这可以通过假设检验 (hypothesis testing) 来实现。
假设检验的步骤:
① 设定原假设和备择假设 (Null Hypothesis and Alternative Hypothesis):
⚝ 原假设 \(H_0\): \(\beta_1 = 0\)。原假设通常是我们想要拒绝的假设,这里表示自变量 \(X\) 对因变量 \(Y\) 没有线性影响。
⚝ 备择假设 \(H_1\): \(\beta_1 \neq 0\)。备择假设是我们想要支持的假设,这里表示自变量 \(X\) 对因变量 \(Y\) 有线性影响。这通常是一个双尾检验 (two-tailed test)。我们也可以进行单尾检验 (one-tailed test),例如 \(H_1\): \(\beta_1 > 0\) 或 \(H_1\): \(\beta_1 < 0\),如果理论上有明确的预期方向。
② 选择检验统计量 (Test Statistic):
在正态性假设 (normality assumption) 下,或者在大样本情况下,我们可以使用 t 统计量 (t-statistic) 来检验 \(\beta_1\)。t 统计量定义为:
\[ t = \frac{\hat{\beta}_1 - \beta_{1,0}}{SE(\hat{\beta}_1)} \]
其中:
⚝ \(\hat{\beta}_1\) 是 \(\beta_1\) 的 OLS 估计量。
⚝ \(\beta_{1,0}\) 是在原假设 \(H_0\) 下 \(\beta_1\) 的值,通常为 0。
⚝ \(SE(\hat{\beta}_1) = \sqrt{\widehat{Var}(\hat{\beta}_1)}\) 是 \(\hat{\beta}_1\) 的标准误差 (standard error),是 \(\hat{\beta}_1\) 方差估计值的平方根。
在原假设 \(H_0: \beta_1 = 0\) 成立的情况下,t 统计量服从自由度为 \(n-2\) 的 t 分布 (t-distribution),即 \(t \sim t(n-2)\)。
③ 确定显著性水平 \(\alpha\) (Significance Level):
显著性水平 \(\alpha\) 是预先设定的拒绝原假设的概率,通常选择 \(\alpha = 0.05\) (5%),也可以选择 \(\alpha = 0.01\) (1%) 或 \(\alpha = 0.10\) (10%)。
④ 计算 p 值 (p-value) 或临界值 (critical value):
⚝ p 值法 (p-value approach):计算在原假设 \(H_0\) 成立的条件下,观察到当前样本结果或更极端结果的概率。对于双尾检验,p 值计算为:
\[ p-value = P(|t| > |t_{obs}|) = 2 \times P(t > |t_{obs}|) \]
其中,\(t_{obs}\) 是根据样本数据计算得到的 t 统计量的观测值。如果 p 值小于或等于显著性水平 \(\alpha\),则拒绝原假设 \(H_0\)。
⚝ 临界值法 (critical value approach):根据选定的显著性水平 \(\alpha\) 和自由度 \(n-2\),查 t 分布表得到临界值 \(t_{\alpha/2, n-2}\) (对于双尾检验)。如果 \(|t_{obs}| > t_{\alpha/2, n-2}\),则拒绝原假设 \(H_0\)。
⑤ 做出决策 (Decision):
⚝ 如果 p 值 \(\leq \alpha\) 或 \(|t_{obs}| > t_{\alpha/2, n-2}\),则在显著性水平 \(\alpha\) 下拒绝原假设 \(H_0\),接受备择假设 \(H_1\)。这意味着我们认为自变量 \(X\) 对因变量 \(Y\) 有统计上显著的影响。
⚝ 如果 p 值 \(> \alpha\) 或 \(|t_{obs}| \leq t_{\alpha/2, n-2}\),则不能拒绝原假设 \(H_0\)。这并不意味着我们接受原假设 \(H_0\) 为真,而是说在当前的显著性水平下,没有足够的证据拒绝原假设。
对截距项 \(\beta_0\) 的显著性检验:
对截距项 \(\beta_0\) 也可以进行类似的显著性检验,检验原假设 \(H_0\): \(\beta_0 = 0\) 对 \(H_1\): \(\beta_0 \neq 0\)。检验统计量为:
\[ t = \frac{\hat{\beta}_0 - 0}{SE(\hat{\beta}_0)} \]
在原假设下,\(t \sim t(n-2)\)。检验步骤与 \(\beta_1\) 的检验相同。
3.3.2 预测与置信区间 (Prediction and Confidence Intervals)
线性回归模型不仅可以用于分析变量之间的关系,还可以用于预测 (prediction) 和构建置信区间 (confidence interval)。
① 预测:
给定自变量 \(X\) 的一个新值 \(X_0\),我们可以使用样本回归函数 SRF 来预测因变量 \(Y\) 的值。有两种类型的预测:
⚝ 均值预测 (Mean Prediction):预测在给定 \(X = X_0\) 条件下,\(Y\) 的条件期望 \(E(Y|X_0)\)。预测值 \(\hat{Y}_0\) 为:
\[ \hat{Y}_0 = \hat{\beta}_0 + \hat{\beta}_1 X_0 \]
⚝ 个体预测 (Individual Prediction):预测对于给定的 \(X = X_0\),\(Y\) 的个体值 \(Y_0\)。预测值 \(\hat{Y}_0\) 仍然是 \(\hat{\beta}_0 + \hat{\beta}_1 X_0\)。
虽然均值预测和个体预测的点估计值相同,但它们的预测区间 (prediction interval) 是不同的。
② 置信区间:
置信区间给出了总体参数或预测值的可能取值范围,并伴随一个置信水平 (confidence level),表示该区间包含真实参数或真实值的概率。
⚝ 系数的置信区间 (Confidence Interval for Coefficients):对于斜率系数 \(\beta_1\),其 \(100(1-\alpha)\%\) 置信区间为:
\[ CI(\beta_1) = [\hat{\beta}_1 - t_{\alpha/2, n-2} \cdot SE(\hat{\beta}_1), \hat{\beta}_1 + t_{\alpha/2, n-2} \cdot SE(\hat{\beta}_1)] \]
对于截距项 \(\beta_0\),其 \(100(1-\alpha)\%\) 置信区间为:
\[ CI(\beta_0) = [\hat{\beta}_0 - t_{\alpha/2, n-2} \cdot SE(\hat{\beta}_0), \hat{\beta}_0 + t_{\alpha/2, n-2} \cdot SE(\hat{\beta}_0)] \]
其中,\(t_{\alpha/2, n-2}\) 是自由度为 \(n-2\) 的 t 分布的 \(\alpha/2\) 上尾分位数。
⚝ 均值预测的置信区间 (Confidence Interval for Mean Prediction):对于给定 \(X_0\),\(Y\) 的条件期望 \(E(Y|X_0)\) 的 \(100(1-\alpha)\%\) 置信区间为:
\[ CI(E(Y|X_0)) = [\hat{Y}_0 - t_{\alpha/2, n-2} \cdot SE(\hat{Y}_0^{mean}), \hat{Y}_0 + t_{\alpha/2, n-2} \cdot SE(\hat{Y}_0^{mean})] \]
其中,\(\hat{Y}_0 = \hat{\beta}_0 + \hat{\beta}_1 X_0\),\(SE(\hat{Y}_0^{mean})\) 是均值预测的标准误差,其计算公式为:
\[ SE(\hat{Y}_0^{mean}) = \hat{\sigma} \sqrt{\frac{1}{n} + \frac{(X_0 - \bar{X})^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}} \]
⚝ 个体预测的预测区间 (Prediction Interval for Individual Prediction):对于给定 \(X_0\),\(Y\) 的个体值 \(Y_0\) 的 \(100(1-\alpha)\%\) 预测区间为:
\[ PI(Y_0) = [\hat{Y}_0 - t_{\alpha/2, n-2} \cdot SE(\hat{Y}_0^{individual}), \hat{Y}_0 + t_{\alpha/2, n-2} \cdot SE(\hat{Y}_0^{individual})] \]
其中,\(\hat{Y}_0 = \hat{\beta}_0 + \hat{\beta}_1 X_0\),\(SE(\hat{Y}_0^{individual})\) 是个体预测的标准误差,其计算公式为:
\[ SE(\hat{Y}_0^{individual}) = \hat{\sigma} \sqrt{1 + \frac{1}{n} + \frac{(X_0 - \bar{X})^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2}} \]
注意,个体预测的预测区间比均值预测的置信区间更宽,因为个体预测不仅包含参数估计的不确定性,还包含误差项 \(\epsilon\) 的随机波动。
通过假设检验和置信区间,我们可以对简单线性回归模型的参数进行统计推断,并利用模型进行预测,从而更好地理解和应用计量经济学方法。
END_OF_CHAPTER
4. chapter 4: 线性回归模型:多元线性回归 (Linear Regression Models: Multiple Linear Regression)
4.1 多元线性回归模型 (Multiple Linear Regression Model)
4.1.1 模型设定与解释 (Model Specification and Interpretation)
在线性回归模型 (Linear Regression Model) 的世界中,简单线性回归模型 (Simple Linear Regression Model) 为我们提供了理解两个变量之间关系的基础框架。然而,现实经济现象往往受到多个因素的共同影响。为了更全面、更准确地刻画经济现象,我们需要扩展简单线性回归模型,引入多元线性回归模型 (Multiple Linear Regression Model)。
多元线性回归模型的核心思想是,被解释变量 \(Y\) 的变化不仅受到一个解释变量 \(X\) 的影响,而是受到多个解释变量 \(X_1, X_2, ..., X_k\) 的共同影响。其模型设定的一般形式如下:
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + ... + \beta_k X_{ki} + \epsilon_i, \quad i = 1, 2, ..., n \]
其中:
⚝ \(Y_i\) 是第 \(i\) 个观测值的被解释变量 (dependent variable)。
⚝ \(X_{1i}, X_{2i}, ..., X_{ki}\) 是第 \(i\) 个观测值的 \(k\) 个解释变量 (independent variables 或 explanatory variables)。
⚝ \(\beta_0\) 是截距项 (intercept term),代表当所有解释变量都为零时,\(Y\) 的期望值。
⚝ \(\beta_1, \beta_2, ..., \beta_k\) 是待估计的回归系数 (regression coefficients),它们衡量了在保持其他解释变量不变的情况下,每一个解释变量对 \(Y\) 的边际影响。具体而言,\(\beta_j\) (j=1, 2, ..., k) 表示当 \(X_j\) 增加一个单位时,\(Y\) 的期望值的变化量。
⚝ \(\epsilon_i\) 是随机误差项 (error term),代表模型中未包含的、影响 \(Y\) 的其他因素,以及随机波动。我们通常假设 \(\epsilon_i\) 服从均值为零,方差为 \(\sigma^2\) 的分布,且 \(\epsilon_i\) 之间相互独立。
⚝ \(n\) 是样本容量 (sample size),即观测值的数量。
模型解释 (Model Interpretation)
多元线性回归模型的解释与简单线性回归模型类似,但需要特别注意“保持其他解释变量不变 (holding other variables constant)”的条件,这体现了偏效应 (partial effect) 的概念。
① 回归系数 \(\beta_j\) 的解释: \(\beta_j\) (j=1, 2, ..., k) 表示在保持其他所有解释变量 \(X\) 不变 的情况下,解释变量 \(X_j\) 每增加一个单位,被解释变量 \(Y\) 的期望值平均变化 \(\beta_j\) 个单位。
② 截距项 \(\beta_0\) 的解释: \(\beta_0\) 表示当所有解释变量 \(X_1, X_2, ..., X_k\) 的取值都为零时,被解释变量 \(Y\) 的期望值。然而,在实际应用中,截距项的经济意义可能并不总是明确或重要,尤其当 \(X\) 的取值不可能同时为零时,截距项更多地起到调整模型位置的作用。
③ 模型设定的重要性: 正确的模型设定是多元线性回归分析的关键。模型设定不仅包括选择哪些解释变量纳入模型,还包括模型函数形式的选择(例如,线性形式、对数线性形式等)。遗漏重要的解释变量 (omitted variable) 或函数形式设定错误 (functional form misspecification) 会导致估计结果产生偏差,影响模型的有效性和可靠性。我们将在 4.3.1 节详细讨论遗漏变量偏差问题。
案例分析 (Case Study)
例如,我们想要研究房价 (house price, \(Y\)) 的决定因素。除了房屋面积 (size, \(X_1\)) 之外,地理位置 (location, \(X_2\))、房屋年龄 (age, \(X_3\))、卧室数量 (number of bedrooms, \(X_4\)) 等因素也可能对房价产生影响。我们可以构建如下多元线性回归模型:
\[ \text{Price}_i = \beta_0 + \beta_1 \text{Size}_i + \beta_2 \text{Location}_i + \beta_3 \text{Age}_i + \beta_4 \text{Bedrooms}_i + \epsilon_i \]
在这个模型中:
⚝ \(\beta_1\) 表示在保持地理位置、房屋年龄和卧室数量不变的情况下,房屋面积每增加一个单位,房价的期望平均变化量。
⚝ \(\beta_2\) 表示在保持房屋面积、房屋年龄和卧室数量不变的情况下,地理位置变化一个单位(例如,从较差位置到较好位置),房价的期望平均变化量。
⚝ 以此类推,\(\beta_3\) 和 \(\beta_4\) 分别解释了房屋年龄和卧室数量对房价的偏效应。
通过估计模型中的系数 \(\beta_0, \beta_1, \beta_2, \beta_3, \beta_4\),我们可以量化各个因素对房价的影响程度,并进行经济解释和预测。
4.1.2 多元回归中的 OLS 估计 (OLS Estimation in Multiple Regression)
与简单线性回归模型类似,多元线性回归模型中的未知参数 \(\beta_0, \beta_1, ..., \beta_k\) 同样可以使用普通最小二乘法 (Ordinary Least Squares - OLS) 进行估计。OLS 估计的核心思想仍然是最小化残差平方和 (minimize the sum of squared residuals)。
对于多元线性回归模型:
\[ Y_i = \beta_0 + \beta_1 X_{1i} + \beta_2 X_{2i} + ... + \beta_k X_{ki} + \epsilon_i, \quad i = 1, 2, ..., n \]
我们的目标是找到一组估计值 \(\hat{\beta}_0, \hat{\beta}_1, ..., \hat{\beta}_k\),使得残差平方和 (Sum of Squared Residuals - SSR) 最小:
\[ SSR = \sum_{i=1}^{n} \hat{\epsilon}_i^2 = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} (Y_i - \hat{\beta}_0 - \hat{\beta}_1 X_{1i} - \hat{\beta}_2 X_{2i} - ... - \hat{\beta}_k X_{ki})^2 \]
其中,\(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_{1i} + \hat{\beta}_2 X_{2i} + ... + \hat{\beta}_k X_{ki}\) 是 \(Y_i\) 的拟合值 (fitted value),\(\hat{\epsilon}_i = Y_i - \hat{Y}_i\) 是残差 (residual)。
为了最小化 SSR,我们需要对 SSR 关于每个未知参数 \(\hat{\beta}_0, \hat{\beta}_1, ..., \hat{\beta}_k\) 求偏导数,并令偏导数等于零,得到正规方程组 (normal equations)。解正规方程组即可得到 OLS 估计量 \(\hat{\beta}_0, \hat{\beta}_1, ..., \hat{\beta}_k\)。
矩阵表示 (Matrix Representation)
为了更简洁地表示和求解多元线性回归模型的 OLS 估计,我们可以使用矩阵代数。
将模型写成矩阵形式:
\[ \mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} \]
其中:
⚝ \(\mathbf{Y} = \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix}\) 是 \(n \times 1\) 的被解释变量向量。
⚝ \(\mathbf{X} = \begin{pmatrix} 1 & X_{11} & X_{21} & \cdots & X_{k1} \\ 1 & X_{12} & X_{22} & \cdots & X_{k2} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & X_{1n} & X_{2n} & \cdots & X_{kn} \end{pmatrix}\) 是 \(n \times (k+1)\) 的解释变量矩阵,第一列为常数项 1。
⚝ \(\boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_k \end{pmatrix}\) 是 \((k+1) \times 1\) 的参数向量。
⚝ \(\boldsymbol{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix}\) 是 \(n \times 1\) 的误差项向量。
残差平方和 SSR 可以表示为:
\[ SSR = \boldsymbol{\epsilon}'\boldsymbol{\epsilon} = (\mathbf{Y} - \mathbf{X}\boldsymbol{\beta})'(\mathbf{Y} - \mathbf{X}\boldsymbol{\beta}) \]
通过矩阵求导,并令导数等于零,可以得到 OLS 估计量 \(\boldsymbol{\hat{\beta}}\) 的解析解 (analytical solution):
\[ \boldsymbol{\hat{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y} \]
其中,\((\mathbf{X}'\mathbf{X})^{-1}\) 是矩阵 \((\mathbf{X}'\mathbf{X})\) 的逆矩阵,要求 \((\mathbf{X}'\mathbf{X})\) 是可逆的,这通常要求解释变量之间不存在完全多重共线性 (perfect multicollinearity),我们将在 4.3.2 节详细讨论多重共线性问题。
OLS 估计量的性质 (Properties of OLS Estimators)
在满足经典线性回归模型假设 (Classical Linear Regression Model - CLRM assumptions) 的条件下,多元线性回归模型的 OLS 估计量 \(\boldsymbol{\hat{\beta}}\) 具有与简单线性回归模型类似的优良性质,包括:
① 线性性 (Linearity): \(\boldsymbol{\hat{\beta}}\) 是被解释变量 \(\mathbf{Y}\) 的线性函数。
② 无偏性 (Unbiasedness): \(E(\boldsymbol{\hat{\beta}}) = \boldsymbol{\beta}\),即 OLS 估计量的期望值等于真实参数值。这意味着在多次重复抽样下,OLS 估计量的平均值会接近真实值。无偏性成立的关键假设包括:
▮▮▮▮ⓑ 零均值假定 (Zero Conditional Mean Assumption): \(E(\epsilon_i | X_{1i}, X_{2i}, ..., X_{ki}) = 0\),即误差项的条件期望为零,这意味着解释变量与误差项不相关。
▮▮▮▮ⓒ 随机抽样假定 (Random Sampling Assumption): 样本是从总体中随机抽取的。
▮▮▮▮ⓓ 解释变量的变异性 (Sample Variation in the Explanatory Variables): 解释变量矩阵 \(\mathbf{X}\) 是满列秩的,即不存在完全多重共线性。
③ 有效性 (Efficiency): 在同方差性 (homoskedasticity) 和无自相关性 (no autocorrelation) 的假定下,OLS 估计量 \(\boldsymbol{\hat{\beta}}\) 是最佳线性无偏估计量 (Best Linear Unbiased Estimator - BLUE),即在所有线性无偏估计量中,OLS 估计量的方差最小。
▮▮▮▮ⓑ 同方差性假定 (Homoskedasticity Assumption): \(Var(\epsilon_i | X_{1i}, X_{2i}, ..., X_{ki}) = \sigma^2\),即误差项的条件方差为常数。
▮▮▮▮ⓒ 无自相关性假定 (No Autocorrelation Assumption): \(Cov(\epsilon_i, \epsilon_j | X_{1i}, X_{2i}, ..., X_{ki}) = 0\) for \(i \neq j\),即不同观测值之间的误差项不相关。
④ 一致性 (Consistency): 在更弱的条件下(例如,即使误差项非正态分布),随着样本容量 \(n\) 趋于无穷大,OLS 估计量 \(\boldsymbol{\hat{\beta}}\) 依概率收敛于真实参数值 \(\boldsymbol{\beta}\),即 \(\text{plim}_{n \to \infty} \boldsymbol{\hat{\beta}} = \boldsymbol{\beta}\)。
⑤ 正态性 (Normality): 如果我们进一步假设误差项服从正态分布 (Normality Assumption): \(\epsilon_i \sim N(0, \sigma^2)\),则 OLS 估计量 \(\boldsymbol{\hat{\beta}}\) 也服从正态分布,这为我们进行假设检验和构建置信区间提供了理论基础。
理解和掌握 OLS 估计在多元线性回归模型中的应用及其性质,是进行计量经济分析的关键步骤。在后续章节中,我们将基于 OLS 估计,进一步讨论模型的假设检验、模型诊断和扩展应用。
4.2 多元线性回归模型的假设检验 (Hypothesis Testing in Multiple Linear Regression Models)
4.2.1 模型的显著性检验:F 检验 (Model Significance Test: F-test)
在多元线性回归模型中,我们不仅关心单个解释变量对被解释变量的影响是否显著,也需要检验模型整体的解释能力是否显著,即模型中所有的解释变量作为一个整体是否对被解释变量有显著的解释作用。模型的显著性检验通常使用 F 检验 (F-test)。
检验假设 (Hypotheses)
模型的显著性检验的原假设 (null hypothesis, \(H_0\)) 和备择假设 (alternative hypothesis, \(H_1\)) 如下:
⚝ \(H_0\): \(\beta_1 = \beta_2 = ... = \beta_k = 0\) (所有解释变量的系数都为零,模型整体不显著)
⚝ \(H_1\): \(\beta_j \neq 0\) for at least one \(j \in \{1, 2, ..., k\}\) (至少有一个解释变量的系数不为零,模型整体显著)
原假设 \(H_0\) 意味着模型中所有的解释变量都对 \(Y\) 没有线性影响,即 \(Y\) 的变化与 \(X_1, X_2, ..., X_k\) 无关,模型整体的解释力为零。备择假设 \(H_1\) 则意味着模型中至少有一个解释变量对 \(Y\) 有线性影响,模型整体具有一定的解释力。
F 统计量 (F-statistic)
F 检验的统计量 F 统计量 基于方差分析 (Analysis of Variance - ANOVA) 的思想构建,它衡量了模型解释的变异 (explained variation) 相对于模型未解释的变异 (unexplained variation) 的程度。
F 统计量的计算公式如下:
\[ F = \frac{SSR_{reg} / k}{SSR_{res} / (n - k - 1)} = \frac{R^2 / k}{(1 - R^2) / (n - k - 1)} \]
其中:
⚝ \(SSR_{reg}\) (回归平方和 (Sum of Squares Regression) 或 解释平方和 (Explained Sum of Squares - ESS)) 是模型解释的变异,反映了模型能够解释的 \(Y\) 的总变异部分。
⚝ \(SSR_{res}\) (残差平方和 (Sum of Squares Residuals) 或 未解释平方和 (Residual Sum of Squares - RSS)) 是模型未解释的变异,反映了模型无法解释的 \(Y\) 的总变异部分。
⚝ \(k\) 是模型中解释变量的个数(不包括截距项)。
⚝ \(n\) 是样本容量。
⚝ \(R^2 = SSR_{reg} / (SSR_{reg} + SSR_{res}) = SSR_{reg} / SST\) 是决定系数 (coefficient of determination),衡量了模型对 \(Y\) 的拟合程度,\(SST = SSR_{reg} + SSR_{res}\) 是总平方和 (Total Sum of Squares),反映了 \(Y\) 的总变异。
F 统计量服从自由度为 \( (k, n - k - 1) \) 的 F 分布 (F-distribution),记为 \(F \sim F(k, n - k - 1)\)。
决策规则 (Decision Rule)
给定显著性水平 \(\alpha\) (通常取 0.05 或 0.01),我们可以查 F 分布表或使用统计软件计算出临界值 \(F_{\alpha}(k, n - k - 1)\) 或 p 值 (p-value)。
⚝ 临界值法 (Critical Value Approach): 如果计算得到的 F 统计量 \(F\) 大于临界值 \(F_{\alpha}(k, n - k - 1)\),即 \(F > F_{\alpha}(k, n - k - 1)\),则拒绝原假设 \(H_0\),认为模型整体显著。
⚝ p 值法 (p-value Approach): 如果计算得到的 F 统计量的 p 值小于显著性水平 \(\alpha\),即 p-value < \(\alpha\),则拒绝原假设 \(H_0\),认为模型整体显著。
经济意义 (Economic Significance)
如果 F 检验结果显著,我们就可以得出结论:模型中至少有一个解释变量对被解释变量 \(Y\) 有显著的线性影响,模型整体具有统计显著性。但这并不意味着模型在经济意义上一定重要,还需要结合 \(R^2\) 的大小、系数的经济意义以及其他模型诊断信息进行综合判断。
4.2.2 变量的显著性检验:t 检验 (Variable Significance Test: t-test)
在模型整体显著性检验的基础上,我们还需要对单个解释变量的系数进行显著性检验,以判断每个解释变量是否对被解释变量 \(Y\) 有独立的、显著的线性影响。变量的显著性检验通常使用 t 检验 (t-test)。
检验假设 (Hypotheses)
对于第 \(j\) 个解释变量 \(X_j\) 的系数 \(\beta_j\),我们要检验的假设如下:
⚝ \(H_0\): \(\beta_j = 0\) (解释变量 \(X_j\) 对 \(Y\) 没有显著的线性影响)
⚝ \(H_1\): \(\beta_j \neq 0\) (解释变量 \(X_j\) 对 \(Y\) 有显著的线性影响)
原假设 \(H_0\) 意味着在控制其他解释变量不变的情况下,\(X_j\) 对 \(Y\) 没有线性影响。备择假设 \(H_1\) 则意味着在控制其他解释变量不变的情况下,\(X_j\) 对 \(Y\) 有显著的线性影响。
t 统计量 (t-statistic)
t 检验的统计量 t 统计量 基于 OLS 估计量 \(\hat{\beta}_j\) 及其标准误 \(SE(\hat{\beta}_j)\) 构建。
t 统计量的计算公式如下:
\[ t = \frac{\hat{\beta}_j - 0}{SE(\hat{\beta}_j)} = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \]
其中:
⚝ \(\hat{\beta}_j\) 是系数 \(\beta_j\) 的 OLS 估计量。
⚝ \(SE(\hat{\beta}_j)\) 是 \(\hat{\beta}_j\) 的标准误 (standard error),衡量了 \(\hat{\beta}_j\) 抽样分布的离散程度,反映了估计的精度。标准误的计算公式涉及到误差项方差 \(\sigma^2\) 的估计 \(\hat{\sigma}^2\) 和解释变量矩阵 \(\mathbf{X}\)。
在经典线性回归模型假设下,t 统计量在原假设 \(H_0\) 成立时,近似服从自由度为 \( (n - k - 1) \) 的 t 分布 (t-distribution),记为 \(t \sim t(n - k - 1)\)。当样本容量 \(n\) 较大时,t 分布近似于标准正态分布。
决策规则 (Decision Rule)
给定显著性水平 \(\alpha\) (通常取 0.05 或 0.01),我们可以查 t 分布表或使用统计软件计算出临界值 \(t_{\alpha/2}(n - k - 1)\) 或 p 值 (p-value)。
⚝ 临界值法 (Critical Value Approach): 如果 t 统计量的绝对值 \(|t|\) 大于临界值 \(t_{\alpha/2}(n - k - 1)\),即 \(|t| > t_{\alpha/2}(n - k - 1)\),则拒绝原假设 \(H_0\),认为解释变量 \(X_j\) 显著。
⚝ p 值法 (p-value Approach): 如果 t 统计量的 p 值小于显著性水平 \(\alpha\),即 p-value < \(\alpha\),则拒绝原假设 \(H_0\),认为解释变量 \(X_j\) 显著。
单边检验与双边检验 (One-tailed Test vs. Two-tailed Test)
上述 t 检验是双边检验 (two-tailed test),检验的是系数 \(\beta_j\) 是否显著不等于零。在某些情况下,我们可能需要进行单边检验 (one-tailed test),例如,当我们有先验知识或理论预期系数 \(\beta_j\) 的符号时。
例如,如果我们预期 \(X_j\) 对 \(Y\) 的影响为正向,我们可以进行右尾检验 (right-tailed test):
⚝ \(H_0\): \(\beta_j \leq 0\)
⚝ \(H_1\): \(\beta_j > 0\)
或者进行左尾检验 (left-tailed test):
⚝ \(H_0\): \(\beta_j \geq 0\)
⚝ \(H_1\): \(\beta_j < 0\)
单边检验的临界值和 p 值计算与双边检验有所不同,需要根据具体的备择假设方向进行调整。
经济意义 (Economic Significance)
变量的显著性检验结果表明,在统计意义上,该解释变量对被解释变量 \(Y\) 有独立的线性影响。然而,统计显著性并不等同于经济意义上的重要性。一个变量的系数可能在统计上显著,但其经济影响可能非常微小,或者在实际应用中并不重要。因此,在进行计量经济分析时,需要综合考虑统计显著性、经济意义和实际背景。
4.3 多元线性回归模型的模型设定与诊断 (Model Specification and Diagnostics in Multiple Linear Regression Models)
4.3.1 遗漏变量偏差 (Omitted Variable Bias)
遗漏变量偏差 (Omitted Variable Bias) 是多元线性回归模型中一个非常重要的问题。当我们在模型设定时,遗漏了一个或多个与被解释变量 \(Y\) 相关,且同时与模型中已包含的解释变量相关的解释变量 时,就会产生遗漏变量偏差。
偏差的产生 (Source of Bias)
假设真实的模型应该是:
\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon \]
其中,\(X_1\) 和 \(X_2\) 都是影响 \(Y\) 的解释变量。但是,如果我们错误地设定模型,遗漏了 \(X_2\),而只用 \(X_1\) 对 \(Y\) 进行回归:
\[ Y = \alpha_0 + \alpha_1 X_1 + u \]
此时,误差项 \(u\) 实际上包含了被遗漏的变量 \(X_2\) 以及原始误差项 \(\epsilon\)。如果遗漏变量 \(X_2\) 与已包含的解释变量 \(X_1\) 相关,即 \(Cov(X_1, X_2) \neq 0\),并且 \(X_2\) 确实影响 \(Y\) (即 \(\beta_2 \neq 0\)),那么 OLS 估计量 \(\hat{\alpha}_1\) 将会是有偏的,即 \(E(\hat{\alpha}_1) \neq \beta_1\)。这种偏差就是遗漏变量偏差。
偏差的方向 (Direction of Bias)
遗漏变量偏差的方向取决于两个因素:
① 遗漏变量 \(X_2\) 对 \(Y\) 的真实影响方向,即 \(\beta_2\) 的符号。
② 遗漏变量 \(X_2\) 与已包含变量 \(X_1\) 之间的相关关系方向,即 \(Cov(X_1, X_2)\) 的符号。
遗漏变量偏差的一般公式可以近似表示为:
\[ E(\hat{\alpha}_1) \approx \beta_1 + \beta_2 \times \delta_{21} \]
其中,\(\delta_{21}\) 是 \(X_2\) 对 \(X_1\) 进行简单线性回归时,\(X_2 = \delta_0 + \delta_{21} X_1 + v\) 得到的系数 \(\delta_{21}\) 的概率极限 (probability limit)。\(\delta_{21}\) 的符号与 \(Cov(X_1, X_2)\) 的符号相同。
因此,遗漏变量偏差的方向可以通过 \(\beta_2 \times \delta_{21}\) 的符号来判断。
⚝ 如果 \(\beta_2 > 0\) 且 \(\delta_{21} > 0\),则遗漏变量偏差为正向偏差,\(\hat{\alpha}_1\) 会高估 \(\beta_1\)。
⚝ 如果 \(\beta_2 < 0\) 且 \(\delta_{21} > 0\),则遗漏变量偏差为负向偏差,\(\hat{\alpha}_1\) 会低估 \(\beta_1\)。
⚝ 如果 \(\beta_2 > 0\) 且 \(\delta_{21} < 0\),则遗漏变量偏差为负向偏差,\(\hat{\alpha}_1\) 会低估 \(\beta_1\)。
⚝ 如果 \(\beta_2 < 0\) 且 \(\delta_{21} < 0\),则遗漏变量偏差为正向偏差,\(\hat{\alpha}_1\) 会高估 \(\beta_1\)。
⚝ 如果 \(\beta_2 = 0\) 或 \(\delta_{21} = 0\),则不存在遗漏变量偏差。
案例分析 (Case Study)
例如,我们研究教育水平 (education, \(X_1\)) 对工资 (wage, \(Y\)) 的影响。一个潜在的遗漏变量是个人能力 (ability, \(X_2\))。能力通常与工资正相关 (\(\beta_2 > 0\)),并且能力也可能与教育水平正相关 (\(\delta_{21} > 0\),能力强的人可能更容易获得更高的教育水平)。如果我们在回归模型中遗漏了能力变量,那么教育水平的系数 \(\hat{\alpha}_1\) 可能会高估教育对工资的真实影响,因为 \(\hat{\alpha}_1\) 不仅反映了教育的直接影响,还间接包含了能力的影响。
应对遗漏变量偏差 (Addressing Omitted Variable Bias)
① 尽可能纳入所有相关的解释变量 (Include as many relevant variables as possible): 这是最直接的方法。基于经济理论、专业知识和文献综述,尽可能识别并纳入所有可能影响被解释变量 \(Y\) 且与已包含变量相关的解释变量。
② 使用工具变量法 (Instrumental Variables - IV method): 当遗漏变量无法直接观测或难以量化时,可以使用工具变量法来解决内生性问题,包括遗漏变量偏差导致的内生性。工具变量法将在 Chapter 6 详细介绍。
③ 使用面板数据模型 (Panel Data Models): 如果我们拥有面板数据,可以使用固定效应模型 (Fixed Effects Model) 或随机效应模型 (Random Effects Model) 来控制个体固定效应,从而在一定程度上缓解遗漏变量偏差。面板数据模型将在 Chapter 7 详细介绍。
④ 控制变量 (Control Variables): 在某些情况下,即使我们无法完全消除遗漏变量偏差,也可以通过加入一些控制变量 (control variables) 来减少偏差。控制变量是指那些我们主要不感兴趣,但可能与被解释变量和主要解释变量都相关的变量。加入控制变量可以帮助我们更精确地估计主要解释变量的效应。
4.3.2 多重共线性 (Multicollinearity)
多重共线性 (Multicollinearity) 是指多元线性回归模型中,两个或多个解释变量之间存在高度相关性 的现象。严格来说,如果解释变量之间存在完全线性相关 (perfect linear correlation),称为完全多重共线性 (perfect multicollinearity);如果解释变量之间存在高度但非完全的线性相关 (high but not perfect linear correlation),称为近似多重共线性 (imperfect multicollinearity)。在实际应用中,我们通常所说的多重共线性指的是近似多重共线性。
完全多重共线性 (Perfect Multicollinearity)
完全多重共线性会导致 OLS 估计无法进行。例如,如果模型中存在两个解释变量 \(X_1\) 和 \(X_2\),且 \(X_2 = c X_1\) (c 是非零常数),则 \(X_1\) 和 \(X_2\) 之间存在完全线性相关。在这种情况下,矩阵 \((\mathbf{X}'\mathbf{X})\) 将是奇异的 (singular),即不可逆,因此无法计算 OLS 估计量 \(\boldsymbol{\hat{\beta}} = (\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{Y}\)。
近似多重共线性 (Imperfect Multicollinearity)
近似多重共线性是更常见的情况。当解释变量之间存在高度相关性时,虽然 \((\mathbf{X}'\mathbf{X})\) 仍然可逆,OLS 估计量仍然可以计算,但会产生以下问题:
① OLS 估计量仍然是无偏的 (Unbiased) 和 一致的 (Consistent)。多重共线性不会导致 OLS 估计量产生偏差或不一致。
② OLS 估计量的方差和标准误增大 (Increased Variance and Standard Errors)。多重共线性会显著增大 OLS 估计量的方差和标准误,降低估计的精度。这意味着系数估计值 \(\hat{\beta}_j\) 的抽样分布更分散,置信区间更宽,t 检验的统计力 (statistical power) 降低,更容易接受原假设 \(H_0\),即更容易得出变量不显著的结论。
③ 系数估计值对样本数据微小变化敏感 (Sensitivity to Small Changes in Data)。由于标准误增大,系数估计值变得不稳定,对样本数据的微小变化非常敏感。当增加或删除少量观测值,或者增加或删除模型中的解释变量时,系数估计值可能会发生剧烈波动。
④ 系数估计值的经济意义可能不合理 (Unreasonable Coefficient Estimates)。在多重共线性严重的情况下,系数估计值的符号或大小可能与经济理论或常识相悖,难以做出合理的经济解释。
检测多重共线性 (Detecting Multicollinearity)
① 相关系数矩阵 (Correlation Matrix): 计算解释变量之间的相关系数 (correlation coefficient)。如果某两个或多个解释变量之间的相关系数较高(例如,绝对值大于 0.8 或 0.9),则可能存在多重共线性。但需要注意的是,低相关系数并不一定意味着不存在多重共线性,因为多个变量之间也可能存在多重共线性,而两两之间的相关系数可能并不高。
② 辅助回归 (Auxiliary Regression): 以模型中的每一个解释变量作为被解释变量,对其他所有解释变量进行回归,计算辅助回归的 \(R^2\)。如果某个辅助回归的 \(R^2\) 很高(例如,接近于 1),则表明该解释变量可以被其他解释变量很好地解释,可能存在多重共线性。
③ 方差膨胀因子 (Variance Inflation Factor - VIF): 对于每个解释变量 \(X_j\),计算其 方差膨胀因子 (VIF):
\[ VIF_j = \frac{1}{1 - R_j^2} \]
其中,\(R_j^2\) 是以 \(X_j\) 为被解释变量,对其他所有解释变量进行辅助回归得到的 \(R^2\)。VIF 值越大,表明多重共线性越严重。通常认为,如果某个解释变量的 VIF 值大于 10,则可能存在严重的多重共线性。
处理多重共线性 (Remedies for Multicollinearity)
① 增加样本容量 (Increase Sample Size): 增加样本容量可以降低 OLS 估计量的方差,从而在一定程度上缓解多重共线性带来的问题。但增加样本容量并不总是可行或有效。
② 剔除多余的解释变量 (Drop Redundant Variables): 如果多重共线性主要是由某些解释变量引起的,可以考虑剔除模型中不太重要的、与其他变量高度相关的解释变量。但剔除变量可能会导致遗漏变量偏差,需要权衡利弊。
③ 变换变量形式 (Transform Variables): 对变量进行变换,例如取对数、差分或比率等,有时可以降低变量之间的相关性,缓解多重共线性。
④ 岭回归 (Ridge Regression) 或 Lasso 回归 (Lasso Regression): 岭回归和 Lasso 回归是有偏估计方法 (biased estimation methods),通过牺牲估计的无偏性来换取更小的方差,从而在一定程度上缓解多重共线性带来的问题。这些方法属于高级专题,将在 Chapter 11 机器学习在计量经济学中的应用中简要介绍。
⑤ 容忍多重共线性 (Tolerate Multicollinearity): 在某些情况下,如果我们的研究目的主要是进行预测 (prediction),而不是精确估计单个系数的效应,或者我们只关心某些变量的联合显著性,而不太关心单个变量的显著性,那么可以容忍一定程度的多重共线性。在这种情况下,我们仍然可以使用 OLS 估计,但需要注意系数估计值的标准误较大,解释时要谨慎。
4.3.3 异方差性 (Heteroskedasticity)
异方差性 (Heteroskedasticity) 是指多元线性回归模型中,误差项的方差不是常数,而是随着解释变量的变化而变化 的现象。与异方差性相对的是同方差性 (Homoskedasticity),即误差项的方差为常数。
异方差性的后果 (Consequences of Heteroskedasticity)
如果存在异方差性,OLS 估计量仍然具有无偏性 (Unbiasedness) 和 一致性 (Consistency),但会产生以下问题:
① OLS 估计量不再是最佳线性无偏估计量 (BLUE)。在异方差性下,OLS 估计量虽然仍然是线性无偏的,但不再是所有线性无偏估计量中方差最小的,即不是有效的 (inefficient)。存在更有效的线性无偏估计方法,例如广义最小二乘法 (Generalized Least Squares - GLS)。
② OLS 估计量的标准误估计有偏 (Biased Standard Errors)。在异方差性下,通常使用的 OLS 标准误计算公式是基于同方差性假定推导出来的,因此会产生偏差,导致假设检验和置信区间构建失效 (Invalid Hypothesis Testing and Confidence Intervals)。例如,如果标准误被低估,t 统计量会被高估,容易拒绝原假设 \(H_0\),导致过度拒绝原假设 (over-rejecting the null hypothesis)。
检验异方差性 (Testing for Heteroskedasticity)
① 图形法 (Graphical Methods):
▮▮▮▮ⓑ 残差图 (Residual Plots): 绘制残差 \(\hat{\epsilon}_i\) 与拟合值 \(\hat{Y}_i\) 或某个解释变量 \(X_j\) 的散点图。如果残差的散点呈现出喇叭口状 (fanning out) 或其他非随机的模式,则可能存在异方差性。
▮▮▮▮ⓒ 绝对值残差图 (Absolute Residual Plots) 或 平方残差图 (Squared Residual Plots): 绘制 \(|\hat{\epsilon}_i|\) 或 \(\hat{\epsilon}_i^2\) 与 \(\hat{Y}_i\) 或 \(X_j\) 的散点图。如果散点图呈现出明显的趋势,例如随着 \(\hat{Y}_i\) 或 \(X_j\) 的增大,\(|\hat{\epsilon}_i|\) 或 \(\hat{\epsilon}_i^2\) 的平均水平也增大,则可能存在异方差性。
② Breusch-Pagan 检验 (Breusch-Pagan Test): Breusch-Pagan 检验是一种常用的参数检验方法 (parametric test),检验误差项方差是否与某些解释变量相关。
▮▮▮▮ⓑ 步骤:
▮▮▮▮▮▮▮▮❸ 对原模型进行 OLS 回归,得到残差 \(\hat{\epsilon}_i\)。
▮▮▮▮▮▮▮▮❹ 计算平方残差 \(\hat{\epsilon}_i^2\)。
▮▮▮▮▮▮▮▮❺ 以 \(\hat{\epsilon}_i^2\) 为被解释变量,对所有解释变量 \(X_1, X_2, ..., X_k\) (或可能导致异方差的变量) 进行辅助回归:
\[ \hat{\epsilon}_i^2 = \gamma_0 + \gamma_1 X_{1i} + \gamma_2 X_{2i} + ... + \gamma_k X_{ki} + v_i \]
▮▮▮▮▮▮▮▮❹ 计算辅助回归的 解释平方和 (Explained Sum of Squares - ESS),记为 \(SSR_{aux}\)。
▮▮▮▮▮▮▮▮❺ Breusch-Pagan 检验统计量 \(LM = \frac{1}{2} SSR_{aux}\) 近似服从自由度为 \(k\) 的 卡方分布 (\(\chi^2\) distribution),即 \(LM \sim \chi^2(k)\)。
▮▮▮▮ⓒ 检验假设:
▮▮▮▮▮▮▮▮⚝ \(H_0\): 同方差性 (Homoskedasticity),即 \(\gamma_1 = \gamma_2 = ... = \gamma_k = 0\)
▮▮▮▮▮▮▮▮⚝ \(H_1\): 异方差性 (Heteroskedasticity),即至少有一个 \(\gamma_j \neq 0\)
▮▮▮▮ⓒ 决策规则: 如果 LM 统计量大于给定显著性水平 \(\alpha\) 的卡方分布临界值 \(\chi^2_{\alpha}(k)\),或 p 值小于 \(\alpha\),则拒绝原假设 \(H_0\),认为存在异方差性。
③ White 检验 (White Test): White 检验是一种更一般的非参数检验方法 (nonparametric test),不需要事先指定异方差的具体形式,可以检验更广泛形式的异方差性。
▮▮▮▮ⓑ 步骤:
▮▮▮▮▮▮▮▮❸ 对原模型进行 OLS 回归,得到残差 \(\hat{\epsilon}_i\)。
▮▮▮▮▮▮▮▮❹ 计算平方残差 \(\hat{\epsilon}_i^2\)。
▮▮▮▮▮▮▮▮❺ 以 \(\hat{\epsilon}_i^2\) 为被解释变量,对所有解释变量 \(X_1, X_2, ..., X_k\)、它们的平方项 \(X_{1i}^2, X_{2i}^2, ..., X_{ki}^2\) 以及交叉乘积项 \(X_{1i}X_{2i}, X_{1i}X_{3i}, ..., X_{(k-1)i}X_{ki}\) 进行辅助回归。辅助回归的解释变量包括原模型的所有解释变量、平方项和交叉乘积项。
▮▮▮▮▮▮▮▮❻ 计算辅助回归的 \(R^2\),记为 \(R_{aux}^2\)。
▮▮▮▮▮▮▮▮❼ White 检验统计量 \(n R_{aux}^2\) 近似服从自由度为辅助回归中不包含常数项的解释变量个数的 卡方分布 (\(\chi^2\) distribution)。
▮▮▮▮ⓗ 检验假设:
▮▮▮▮▮▮▮▮⚝ \(H_0\): 同方差性 (Homoskedasticity)
▮▮▮▮▮▮▮▮⚝ \(H_1\): 异方差性 (Heteroskedasticity)
▮▮▮▮ⓒ 决策规则: 如果 \(n R_{aux}^2\) 统计量大于给定显著性水平 \(\alpha\) 的卡方分布临界值,或 p 值小于 \(\alpha\),则拒绝原假设 \(H_0\),认为存在异方差性。
处理异方差性 (Remedies for Heteroskedasticity)
① 稳健标准误 (Robust Standard Errors): 最常用的方法是使用稳健标准误 (robust standard errors),也称为 White 标准误 (White standard errors) 或 Huber-White 标准误 (Huber-White standard errors)。稳健标准误在计算标准误时,不依赖于同方差性假定,能够提供对异方差性稳健的系数标准误估计,从而进行有效的假设检验和置信区间构建。大多数计量经济软件都提供计算稳健标准误的选项。
② 加权最小二乘法 (Weighted Least Squares - WLS): 如果我们知道或可以合理假设异方差性的具体形式,可以使用加权最小二乘法 (Weighted Least Squares - WLS)。WLS 是一种 广义最小二乘法 (GLS) 的特例。WLS 的基本思想是,对不同观测值赋予不同的权重,对方差较大的观测值赋予较小的权重,对方差较小的观测值赋予较大的权重,从而提高估计效率。WLS 需要事先知道异方差性的形式,实际应用中可能难以准确确定。
③ 变量变换 (Variable Transformation): 在某些情况下,对被解释变量或解释变量进行函数变换 (functional transformation),例如取对数,可以缓解异方差性。例如,如果被解释变量是正值且异方差性与被解释变量的水平相关,取对数变换可能有助于减小异方差性。
④ 模型设定修正 (Model Respecification): 有时异方差性可能是由于模型设定不当引起的,例如遗漏了重要的解释变量或函数形式设定错误。通过重新审视模型设定,加入遗漏变量或修正函数形式,可能在一定程度上缓解异方差性。
4.3.4 自相关性 (Autocorrelation)
自相关性 (Autocorrelation),也称为 序列相关性 (Serial Correlation),通常指的是时间序列数据 (time series data) 中,误差项在不同时期之间存在相关性 的现象,即 \(Cov(\epsilon_t, \epsilon_{t-s}) \neq 0\) for \(s \neq 0\)。虽然本章主要讨论线性回归模型,自相关性更多地出现在时间序列分析中(将在 Chapter 8 和 Chapter 9 详细讨论),但在某些横截面数据 (cross-sectional data) 中,如果数据具有某种空间或排序结构,也可能出现自相关性,例如,空间自相关性 (spatial autocorrelation)。
自相关性的后果 (Consequences of Autocorrelation)
与异方差性类似,如果存在自相关性,OLS 估计量仍然具有无偏性 (Unbiasedness) 和 一致性 (Consistency),但会产生以下问题:
① OLS 估计量不再是最佳线性无偏估计量 (BLUE)。在自相关性下,OLS 估计量虽然仍然是线性无偏的,但不是有效的。存在更有效的线性无偏估计方法,例如 广义最小二乘法 (GLS)。
② OLS 估计量的标准误估计有偏 (Biased Standard Errors)。在自相关性下,通常使用的 OLS 标准误计算公式会产生偏差,导致假设检验和置信区间构建失效 (Invalid Hypothesis Testing and Confidence Intervals)。偏差的方向取决于自相关性的类型和程度。
检验自相关性 (Testing for Autocorrelation)
对于时间序列数据,常用的自相关性检验方法包括:
① 图形法 (Graphical Methods):
▮▮▮▮ⓑ 残差图 (Residual Plots): 绘制残差 \(\hat{\epsilon}_t\) 随时间 \(t\) 变化的折线图。如果残差呈现出明显的趋势性 (trend) 或 周期性 (cyclical pattern),则可能存在自相关性。
▮▮▮▮ⓒ 自相关函数 (Autocorrelation Function - ACF) 图 和 偏自相关函数 (Partial Autocorrelation Function - PACF) 图: ACF 和 PACF 是时间序列分析中常用的工具,可以帮助识别时间序列数据的自相关性模式。我们将在 Chapter 8 详细介绍 ACF 和 PACF。
② Durbin-Watson 检验 (Durbin-Watson Test): Durbin-Watson 检验是一种常用的检验一阶自相关性 (first-order autocorrelation) 的方法,即检验 \(\epsilon_t\) 与 \(\epsilon_{t-1}\) 之间是否存在相关性。
▮▮▮▮ⓑ Durbin-Watson 统计量 (DW statistic) 的计算公式为:
\[ DW = \frac{\sum_{t=2}^{n} (\hat{\epsilon}_t - \hat{\epsilon}_{t-1})^2}{\sum_{t=1}^{n} \hat{\epsilon}_t^2} \]
DW 统计量的取值范围在 0 到 4 之间。在无自相关性的情况下,DW 统计量接近于 2。如果存在正自相关性 (positive autocorrelation),DW 统计量会小于 2;如果存在负自相关性 (negative autocorrelation),DW 统计量会大于 2。
▮▮▮▮ⓑ 检验假设:
▮▮▮▮▮▮▮▮⚝ \(H_0\): 无自相关性 (No Autocorrelation)
▮▮▮▮▮▮▮▮⚝ \(H_1\): 存在正自相关性 (Positive Autocorrelation) 或 存在负自相关性 (Negative Autocorrelation)
▮▮▮▮ⓒ 决策规则: Durbin-Watson 检验需要查 Durbin-Watson 分布表,根据给定的显著性水平 \(\alpha\)、解释变量个数 \(k\) 和样本容量 \(n\),查表得到下临界值 \(d_L\) 和上临界值 \(d_U\)。
▮▮▮▮▮▮▮▮⚝ 如果 \(DW < d_L\),则拒绝原假设 \(H_0\),认为存在正自相关性。
▮▮▮▮▮▮▮▮⚝ 如果 \(DW > 4 - d_L\),则拒绝原假设 \(H_0\),认为存在负自相关性。
▮▮▮▮▮▮▮▮⚝ 如果 \(d_U < DW < 4 - d_U\),则接受原假设 \(H_0\),认为不存在自相关性。
▮▮▮▮▮▮▮▮⚝ 如果 \(d_L \leq DW \leq d_U\) 或 \(4 - d_U \leq DW \leq 4 - d_L\),则检验结果不确定。
③ Breusch-Godfrey 检验 (Breusch-Godfrey Test): Breusch-Godfrey 检验是一种更一般的检验高阶自相关性 (higher-order autocorrelation) 的方法,可以检验误差项是否存在 \(p\) 阶自相关性。
▮▮▮▮ⓑ 步骤:
▮▮▮▮▮▮▮▮❸ 对原模型进行 OLS 回归,得到残差 \(\hat{\epsilon}_t\)。
▮▮▮▮▮▮▮▮❹ 以 \(\hat{\epsilon}_t\) 为被解释变量,对所有解释变量 \(X_{1t}, X_{2t}, ..., X_{kt}\) 以及滞后残差项 \(\hat{\epsilon}_{t-1}, \hat{\epsilon}_{t-2}, ..., \hat{\epsilon}_{t-p}\) 进行辅助回归:
\[ \hat{\epsilon}_t = \rho_1 \hat{\epsilon}_{t-1} + \rho_2 \hat{\epsilon}_{t-2} + ... + \rho_p \hat{\epsilon}_{t-p} + \gamma_0 + \gamma_1 X_{1t} + \gamma_2 X_{2t} + ... + \gamma_k X_{kt} + v_t \]
▮▮▮▮▮▮▮▮❸ 计算辅助回归的 \(R^2\),记为 \(R_{aux}^2\)。
▮▮▮▮▮▮▮▮❹ Breusch-Godfrey 检验统计量 \(n R_{aux}^2\) 近似服从自由度为 \(p\) 的 卡方分布 (\(\chi^2\) distribution),即 \(n R_{aux}^2 \sim \chi^2(p)\)。
▮▮▮▮ⓒ 检验假设:
▮▮▮▮▮▮▮▮⚝ \(H_0\): 无自相关性 (No Autocorrelation),即 \(\rho_1 = \rho_2 = ... = \rho_p = 0\)
▮▮▮▮▮▮▮▮⚝ \(H_1\): 存在自相关性 (Autocorrelation),即至少有一个 \(\rho_j \neq 0\)
▮▮▮▮ⓒ 决策规则: 如果 \(n R_{aux}^2\) 统计量大于给定显著性水平 \(\alpha\) 的卡方分布临界值 \(\chi^2_{\alpha}(p)\),或 p 值小于 \(\alpha\),则拒绝原假设 \(H_0\),认为存在自相关性。
处理自相关性 (Remedies for Autocorrelation)
① 稳健标准误 (Robust Standard Errors): 类似于异方差性,可以使用自相关稳健标准误 (autocorrelation-robust standard errors),也称为 HAC 标准误 (Heteroskedasticity and Autocorrelation Consistent standard errors) 或 Newey-West 标准误 (Newey-West standard errors)。HAC 标准误在计算标准误时,同时考虑了异方差性和自相关性,能够提供对异方差性和自相关性都稳健的系数标准误估计。
② 广义最小二乘法 (Generalized Least Squares - GLS) 或 可行广义最小二乘法 (Feasible Generalized Least Squares - FGLS): 如果我们知道或可以合理假设自相关性的具体形式(例如,一阶自回归 AR(1) 形式),可以使用 GLS 或 FGLS 方法。GLS 是一种更有效的估计方法,可以得到 BLUE 估计量。FGLS 是在自相关性形式未知时,先估计自相关系数,再使用 GLS 进行估计的方法。
③ 动态模型 (Dynamic Models): 如果自相关性是由于模型设定不当引起的,例如遗漏了滞后被解释变量 (lagged dependent variable),可以考虑构建动态模型 (dynamic models),将滞后被解释变量纳入模型作为解释变量,以捕捉时间上的动态效应。动态模型将在 Chapter 8 和 Chapter 9 进一步讨论。
④ 差分变换 (Differencing Transformation): 对于存在单位根 (unit root) 的时间序列数据,可以进行差分变换 (differencing transformation),将原序列转换为平稳序列,从而在一定程度上消除自相关性。差分变换是时间序列分析中常用的预处理方法。
模型设定与诊断是计量经济分析中至关重要的环节。正确地设定模型,并对模型进行全面的诊断检验,可以帮助我们发现模型中存在的问题,并采取相应的措施进行修正,从而提高模型的有效性和可靠性,得到更准确、更可信的计量经济分析结果。
END_OF_CHAPTER
5. chapter 5: 扩展的回归模型:广义线性模型 (Extended Regression Models: Generalized Linear Models)
5.1 广义线性模型 (Generalized Linear Models - GLM) 概述 (Overview of Generalized Linear Models (GLM))
5.1.1 GLM 的基本框架 (Basic Framework of GLM)
广义线性模型 (Generalized Linear Models, GLM) 是经典线性回归模型的扩展,它极大地拓宽了回归模型的应用范围。传统的线性回归模型主要处理因变量 \( y \) 服从正态分布的情况,而 GLM 则允许因变量 \( y \) 服从更广泛的分布,例如二项分布、泊松分布、伽马分布等。这使得 GLM 能够处理各种类型的因变量,包括连续型、离散型、计数型、以及分类数据等,从而在经济学、生物统计学、医学、社会科学等领域得到了广泛应用。
GLM 的核心思想是通过链接函数 (link function) 将因变量的期望值与线性预测变量联系起来。其基本框架可以概括为以下三个组成部分:
① 随机成分 (random component): 指的是因变量 \( y \) 的概率分布。与传统线性回归模型假设因变量服从正态分布不同,GLM 允许因变量 \( y \) 服从指数族分布 (exponential family distribution),例如正态分布 (Normal distribution)、二项分布 (Binomial distribution)、泊松分布 (Poisson distribution)、伽马分布 (Gamma distribution) 等。指数族分布具有良好的数学性质,使得 GLM 的理论推导和应用更加方便。
② 系统成分 (systematic component): 指的是解释变量 \( x_1, x_2, ..., x_k \) 的线性组合,也称为线性预测变量 (linear predictor)。系统成分与传统线性回归模型相同,形式如下:
\[ \eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \]
其中,\( \beta_0, \beta_1, ..., \beta_k \) 是待估计的回归系数,\( x_1, x_2, ..., x_k \) 是解释变量。
③ 链接函数 (link function): 指的是连接随机成分和系统成分的函数。链接函数 \( g(\cdot) \) 将因变量期望值 \( E(y) = \mu \) 与线性预测变量 \( \eta \) 联系起来,即:
\[ g(\mu) = \eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \]
或者反过来表示为:
\[ \mu = g^{-1}(\eta) = g^{-1}(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k) \]
其中,\( g^{-1}(\cdot) \) 称为反链接函数 (inverse link function)。链接函数的作用在于将因变量期望值的取值范围映射到实数域,从而可以使用线性模型进行建模。不同的链接函数和分布函数的组合构成了不同的 GLM 模型,以适应不同类型因变量的分析需求。
GLM 的基本框架可以用下图概括:
1
+---------------------+ Link Function g(.) +-------------------------------------+ Inverse Link Function g^(-1)(.) +---------------------+
2
| Random Component | ------------------------> | Systematic Component (Linear Predictor) | -------------------------------------> | Expected Value E(y) |
3
| Y ~ Exponential | | η = β₀ + β₁x₁ + ... + βₖxₖ | | μ = g^(-1)(η) |
4
| Family Distribution | | | | |
5
+---------------------+ +-------------------------------------+ +---------------------+
GLM 的优势在于其灵活性和广泛适用性。通过选择合适的分布函数和链接函数,GLM 可以处理各种类型的因变量,并且保持了线性模型的可解释性和易用性。例如,当因变量为二元变量时,可以选择二项分布和 Logit 链接函数或 Probit 链接函数,得到 Logistic 回归模型或 Probit 回归模型;当因变量为计数变量时,可以选择泊松分布和 Log 链接函数,得到泊松回归模型。这些模型都是 GLM 框架下的具体应用。
5.1.2 链接函数与分布函数 (Link Functions and Distribution Functions)
在广义线性模型 (GLM) 中,链接函数 (link function) 和 分布函数 (distribution function) 的选择至关重要,它们决定了模型的具体形式和适用范围。
1. 常用链接函数 (Common Link Functions)
链接函数的主要作用是将因变量期望值 \( \mu = E(y) \) 的取值范围映射到整个实数域 \( (-\infty, +\infty) \),以便使用线性预测变量 \( \eta \) 进行建模。常用的链接函数包括:
① 恒等链接函数 (Identity Link Function): \( g(\mu) = \mu \)。
▮▮▮▮⚝ 这是最简单的链接函数,直接将期望值 \( \mu \) 与线性预测变量 \( \eta \) 相等,即 \( \mu = \eta \)。
▮▮▮▮⚝ 适用于因变量期望值的取值范围与线性预测变量一致的情况,例如线性回归模型中,当因变量 \( y \) 服从正态分布时,通常使用恒等链接函数。
② Logit 链接函数 (Logit Link Function): \( g(\mu) = \text{logit}(\mu) = \ln\left(\frac{\mu}{1-\mu}\right) \)。
▮▮▮▮⚝ Logit 链接函数常用于因变量为二元变量或比例数据的情况,其中 \( \mu \) 表示概率或比例,取值范围为 \( (0, 1) \)。
▮▮▮▮⚝ Logit 函数将 \( (0, 1) \) 区间映射到 \( (-\infty, +\infty) \)。
▮▮▮▮⚝ 反链接函数为 Logistic 函数: \( \mu = g^{-1}(\eta) = \frac{e^\eta}{1+e^\eta} = \frac{1}{1+e^{-\eta}} \)。
③ Probit 链接函数 (Probit Link Function): \( g(\mu) = \Phi^{-1}(\mu) \)。
▮▮▮▮⚝ Probit 链接函数也常用于因变量为二元变量或比例数据的情况,其中 \( \Phi^{-1}(\cdot) \) 是标准正态分布的累积分布函数 (CDF) 的反函数。
▮▮▮▮⚝ Probit 函数将 \( (0, 1) \) 区间映射到 \( (-\infty, +\infty) \)。
▮▮▮▮⚝ 反链接函数为标准正态分布的累积分布函数: \( \mu = g^{-1}(\eta) = \Phi(\eta) \)。
④ Log 链接函数 (Log Link Function): \( g(\mu) = \ln(\mu) \)。
▮▮▮▮⚝ Log 链接函数常用于因变量为计数数据或正值数据的情况,其中 \( \mu \) 表示期望计数或期望值,取值范围为 \( (0, +\infty) \)。
▮▮▮▮⚝ Log 函数将 \( (0, +\infty) \) 区间映射到 \( (-\infty, +\infty) \)。
▮▮▮▮⚝ 反链接函数为指数函数: \( \mu = g^{-1}(\eta) = e^\eta \)。
⑤ 倒数链接函数 (Inverse Link Function): \( g(\mu) = \frac{1}{\mu} \)。
▮▮▮▮⚝ 倒数链接函数常用于因变量为正值数据,且期望值与线性预测变量呈倒数关系的情况。
▮▮▮▮⚝ 倒数函数将 \( (0, +\infty) \) 区间映射到 \( (0, +\infty) \) 或 \( (-\infty, 0) \),但通常用于正值期望值的情况。
▮▮▮▮⚝ 反链接函数为倒数函数自身: \( \mu = g^{-1}(\eta) = \frac{1}{\eta} \)。
2. 常用分布函数 (Common Distribution Functions)
GLM 允许因变量 \( y \) 服从指数族分布。常用的分布函数包括:
① 正态分布 (Normal Distribution): 适用于连续型因变量,例如工资、身高、温度等。
▮▮▮▮⚝ 概率密度函数 (PDF): \( f(y; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y-\mu)^2}{2\sigma^2}\right) \)。
▮▮▮▮⚝ 期望值: \( E(y) = \mu \),方差: \( Var(y) = \sigma^2 \)。
▮▮▮▮⚝ 经典线性回归模型假设误差项服从正态分布,等价于假设因变量服从正态分布。
② 二项分布 (Binomial Distribution): 适用于二元或计数型因变量,例如事件发生与否 (0/1)、成功次数等。
▮▮▮▮⚝ 概率质量函数 (PMF): \( P(Y=y) = \binom{n}{y} \mu^y (1-\mu)^{n-y} \),其中 \( y = 0, 1, ..., n \),\( \mu \) 是单次试验成功的概率,\( n \) 是试验次数。
▮▮▮▮⚝ 期望值: \( E(y) = n\mu \),方差: \( Var(y) = n\mu(1-\mu) \)。
▮▮▮▮⚝ Logistic 回归模型和 Probit 回归模型通常假设因变量服从二项分布(当试验次数 \( n=1 \) 时,退化为伯努利分布 (Bernoulli distribution))。
③ 泊松分布 (Poisson Distribution): 适用于计数型因变量,例如单位时间内事件发生的次数、顾客到达数等。
▮▮▮▮⚝ 概率质量函数 (PMF): \( P(Y=y) = \frac{e^{-\mu} \mu^y}{y!} \),其中 \( y = 0, 1, 2, ... \),\( \mu \) 是单位时间或单位空间内事件发生的平均次数。
▮▮▮▮⚝ 期望值: \( E(y) = \mu \),方差: \( Var(y) = \mu \)。
▮▮▮▮⚝ 泊松回归模型通常假设因变量服从泊松分布。
④ 伽马分布 (Gamma Distribution): 适用于正值连续型因变量,例如持续时间、等待时间、收入等。
▮▮▮▮⚝ 概率密度函数 (PDF): \( f(y; \alpha, \beta) = \frac{1}{\Gamma(\alpha) \beta^\alpha} y^{\alpha-1} e^{-y/\beta} \),其中 \( y > 0 \),\( \alpha > 0 \) 是形状参数,\( \beta > 0 \) 是尺度参数,\( \Gamma(\alpha) \) 是伽马函数。
▮▮▮▮⚝ 期望值: \( E(y) = \alpha\beta = \mu \),方差: \( Var(y) = \alpha\beta^2 = \mu\beta \)。
▮▮▮▮⚝ 伽马回归模型可以用于分析正值连续型因变量。
选择合适的链接函数和分布函数需要根据因变量的类型和特点进行判断。一般来说,应选择与因变量取值范围和分布特征相匹配的分布函数,并选择能够合理连接因变量期望值与线性预测变量的链接函数。例如,对于二元因变量,通常选择二项分布和 Logit 或 Probit 链接函数;对于计数型因变量,通常选择泊松分布和 Log 链接函数。
5.2 Logistic 回归模型 (Logistic Regression Model)
Logistic 回归模型 (Logistic Regression Model) 是一种广义线性模型 (GLM),主要用于分析因变量为二元变量 (binary variable) 或分类变量 (categorical variable) 的回归问题。当因变量为二元变量时,称为二元 Logistic 回归 (Binary Logistic Regression);当因变量为多分类变量时,称为多元 Logistic 回归 (Multinomial Logistic Regression)。Logistic 回归模型在经济学、医学、市场营销等领域有着广泛的应用,例如预测客户是否会购买产品、病人是否会患病、学生是否会通过考试等。
5.2.1 二元 Logistic 回归 (Binary Logistic Regression)
1. 模型设定 (Model Specification)
在二元 Logistic 回归模型中,因变量 \( Y \) 是一个二元变量,通常取值为 0 或 1,表示两种互斥的结果,例如“成功”或“失败”、“是”或“否”。我们假设 \( Y \) 服从伯努利分布 (Bernoulli distribution),即:
\[ P(Y=1) = p, \quad P(Y=0) = 1-p \]
其中,\( p \) 表示事件 \( Y=1 \) 发生的概率,\( 0 \le p \le 1 \)。我们的目标是建立概率 \( p \) 与解释变量 \( X = (x_1, x_2, ..., x_k) \) 之间的关系。
Logistic 回归模型使用 Logit 链接函数 将概率 \( p \) 与线性预测变量 \( \eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \) 联系起来:
\[ \text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \]
反链接函数为 Logistic 函数:
\[ p = P(Y=1|X) = \frac{e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k}}{1+e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k}} = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k)}} \]
这个函数将线性预测变量 \( \eta \) 的取值范围 \( (-\infty, +\infty) \) 映射到概率 \( p \) 的取值范围 \( (0, 1) \)。
2. 赔率比 (Odds Ratio) 与系数解释 (Interpretation of Coefficients)
在 Logistic 回归模型中,赔率 (odds) 定义为事件发生的概率与不发生的概率之比,即 \( \text{odds} = \frac{p}{1-p} \)。Logit 链接函数实际上就是对赔率取对数。
考虑一个解释变量 \( x_j \),当 \( x_j \) 增加一个单位,其他解释变量保持不变时,线性预测变量 \( \eta \) 变为 \( \eta + \beta_j \)。相应的赔率变为:
\[ \text{odds}' = e^{\eta + \beta_j} = e^\eta \cdot e^{\beta_j} = \text{odds} \cdot e^{\beta_j} \]
因此,赔率比 (odds ratio) 为:
\[ \frac{\text{odds}'}{\text{odds}} = e^{\beta_j} \]
这意味着,当解释变量 \( x_j \) 增加一个单位,其他变量不变时,事件发生的赔率变为原来的 \( e^{\beta_j} \) 倍。
⚝ 如果 \( \beta_j > 0 \),则 \( e^{\beta_j} > 1 \),\( x_j \) 的增加会增加事件发生的赔率,从而增加事件发生的概率。
⚝ 如果 \( \beta_j < 0 \),则 \( 0 < e^{\beta_j} < 1 \),\( x_j \) 的增加会减少事件发生的赔率,从而减少事件发生的概率。
⚝ 如果 \( \beta_j = 0 \),则 \( e^{\beta_j} = 1 \),\( x_j \) 对事件发生的赔率没有影响。
为了更直观地解释系数,通常计算 边际效应 (marginal effect)。边际效应表示当某个解释变量变化一个单位时,因变量期望值(即概率 \( p \)) 的变化量。对于连续型解释变量 \( x_j \),边际效应为:
\[ \frac{\partial p}{\partial x_j} = \frac{\partial}{\partial x_j} \left(\frac{1}{1+e^{-\eta}}\right) = \frac{e^{-\eta}}{(1+e^{-\eta})^2} \cdot \frac{\partial \eta}{\partial x_j} = p(1-p) \beta_j \]
对于离散型解释变量(例如虚拟变量),边际效应可以通过计算当该变量从 0 变为 1 时,概率 \( p \) 的变化来获得。边际效应的大小取决于 \( p \) 的取值,因此通常在解释边际效应时,需要指定 \( p \) 的取值,例如在均值处计算边际效应。
3. 模型估计 (Model Estimation)
Logistic 回归模型的参数 \( \beta = (\beta_0, \beta_1, ..., \beta_k) \) 通常使用最大似然估计 (Maximum Likelihood Estimation, MLE) 方法进行估计。
对于 \( n \) 个独立观测样本 \( (y_i, x_{i1}, x_{i2}, ..., x_{ik}), i=1, 2, ..., n \),其中 \( y_i \in \{0, 1\} \),\( x_i = (x_{i1}, x_{i2}, ..., x_{ik}) \)。似然函数 (likelihood function) 为:
\[ L(\beta) = \prod_{i=1}^{n} P(Y=y_i|X=x_i) = \prod_{i=1}^{n} p_i^{y_i} (1-p_i)^{1-y_i} \]
其中,\( p_i = \frac{1}{1+e^{-(\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_k x_{ik})}} \)。
对似然函数取对数,得到对数似然函数 (log-likelihood function):
\[ \ln L(\beta) = \sum_{i=1}^{n} [y_i \ln(p_i) + (1-y_i) \ln(1-p_i)] = \sum_{i=1}^{n} \left[y_i \ln\left(\frac{p_i}{1-p_i}\right) + \ln(1-p_i)\right] \]
将 Logit 链接函数代入,得到:
\[ \ln L(\beta) = \sum_{i=1}^{n} \left[y_i (\beta_0 + \beta_1 x_{i1} + ... + \beta_k x_{ik}) - \ln(1+e^{\beta_0 + \beta_1 x_{i1} + ... + \beta_k x_{ik}})\right] \]
最大似然估计的目标是找到参数 \( \beta \) 的估计值 \( \hat{\beta} \),使得对数似然函数 \( \ln L(\beta) \) 最大化。通常使用数值优化算法(例如 Newton-Raphson 算法)求解。
4. 模型检验与评估 (Model Testing and Evaluation)
Logistic 回归模型的检验与评估主要包括:
① 模型显著性检验 (Model Significance Test): 检验模型整体是否显著,即检验所有解释变量的系数是否同时为零。可以使用似然比检验 (Likelihood Ratio Test)、Wald 检验 (Wald Test) 或 Score 检验 (Score Test)。
② 系数显著性检验 (Coefficient Significance Test): 检验单个解释变量的系数是否显著异于零,通常使用 Wald 检验,构造 Wald 统计量进行检验。
③ 拟合优度检验 (Goodness-of-Fit Test): 评估模型的拟合程度。常用的指标包括 伪 \( R^2 \) (Pseudo \( R^2 \)),例如 McFadden \( R^2 \)、Cox-Snell \( R^2 \)、Nagelkerke \( R^2 \) 等。这些伪 \( R^2 \) 指标的解释与线性回归模型中的 \( R^2 \) 略有不同,通常取值范围在 0 到 1 之间,值越大表示模型拟合越好,但其绝对值大小的解释需要谨慎。
④ 分类准确率 (Classification Accuracy): 对于分类问题,可以使用分类准确率、精确率 (precision)、召回率 (recall)、F1 值 (F1-score)、ROC 曲线 (Receiver Operating Characteristic curve) 和 AUC (Area Under Curve) 等指标评估模型的分类性能。
5.2.2 多元 Logistic 回归 (Multinomial Logistic Regression)
1. 模型设定 (Model Specification)
多元 Logistic 回归模型 (Multinomial Logistic Regression) 用于分析因变量 \( Y \) 为多分类变量 (multinomial variable) 的情况,即 \( Y \) 可以取多于两个的类别,例如 \( Y \in \{1, 2, ..., J\} \),其中 \( J \ge 3 \)。与二元 Logistic 回归类似,多元 Logistic 回归也是 GLM 的一种。
在多元 Logistic 回归中,我们需要选择一个参考类别 (reference category),通常选择类别 \( J \) 作为参考类别。对于类别 \( j = 1, 2, ..., J-1 \),我们建立类别 \( j \) 相对于参考类别 \( J \) 的 Logit 模型:
\[ \ln\left(\frac{P(Y=j|X)}{P(Y=J|X)}\right) = \beta_{j0} + \beta_{j1} x_1 + \beta_{j2} x_2 + ... + \beta_{jk} x_k, \quad j = 1, 2, ..., J-1 \]
其中,\( \beta_{j0}, \beta_{j1}, ..., \beta_{jk} \) 是类别 \( j \) 相对于参考类别 \( J \) 的回归系数。
通过上述 \( J-1 \) 个方程,可以推导出每个类别的概率:
\[ P(Y=j|X) = \frac{e^{\beta_{j0} + \beta_{j1} x_1 + ... + \beta_{jk} x_k}}{1 + \sum_{l=1}^{J-1} e^{\beta_{l0} + \beta_{l1} x_1 + ... + \beta_{lk} x_k}}, \quad j = 1, 2, ..., J-1 \]
\[ P(Y=J|X) = \frac{1}{1 + \sum_{l=1}^{J-1} e^{\beta_{l0} + \beta_{l1} x_1 + ... + \beta_{lk} x_k}} \]
为了方便表示,可以令 \( \beta_{J0} = \beta_{J1} = ... = \beta_{Jk} = 0 \),则所有类别的概率可以统一表示为:
\[ P(Y=j|X) = \frac{e^{\beta_{j0} + \beta_{j1} x_1 + ... + \beta_{jk} x_k}}{\sum_{l=1}^{J} e^{\beta_{l0} + \beta_{l1} x_1 + ... + \beta_{lk} x_k}}, \quad j = 1, 2, ..., J \]
2. 系数解释 (Interpretation of Coefficients)
在多元 Logistic 回归模型中,系数 \( \beta_{ji} \) 的解释是相对于参考类别 \( J \) 而言的。\( \beta_{ji} \) 表示当解释变量 \( x_i \) 增加一个单位,其他变量不变时,类别 \( j \) 相对于参考类别 \( J \) 的对数赔率比 (log-odds ratio) 的变化量。
赔率比为:
\[ \frac{P(Y=j|X)}{P(Y=J|X)} = e^{\beta_{j0} + \beta_{j1} x_1 + ... + \beta_{jk} x_k} \]
当 \( x_i \) 增加一个单位,其他变量不变时,类别 \( j \) 相对于类别 \( J \) 的赔率变为原来的 \( e^{\beta_{ji}} \) 倍。
⚝ 如果 \( \beta_{ji} > 0 \),则 \( x_i \) 的增加会增加类别 \( j \) 相对于类别 \( J \) 的赔率,即相对于类别 \( J \),更有可能选择类别 \( j \)。
⚝ 如果 \( \beta_{ji} < 0 \),则 \( x_i \) 的增加会减少类别 \( j \) 相对于类别 \( J \) 的赔率,即相对于类别 \( J \),更不可能选择类别 \( j \)。
⚝ 如果 \( \beta_{ji} = 0 \),则 \( x_i \) 对类别 \( j \) 相对于类别 \( J \) 的赔率没有影响。
与二元 Logistic 回归类似,也可以计算边际效应来更直观地解释系数。对于类别 \( j \) 和连续型解释变量 \( x_i \),边际效应为:
\[ \frac{\partial P(Y=j|X)}{\partial x_i} = P(Y=j|X) \left(\beta_{ji} - \sum_{l=1}^{J} P(Y=l|X) \beta_{li}\right) \]
其中,\( \beta_{Ji} = 0 \)。边际效应的大小取决于所有类别的概率分布,因此解释边际效应时需要谨慎。
3. 模型估计与检验 (Model Estimation and Testing)
多元 Logistic 回归模型的参数 \( \beta_{ji} \) 同样使用最大似然估计 (MLE) 方法进行估计。似然函数和对数似然函数的构建与二元 Logistic 回归类似,但需要考虑多分类的情况。模型检验与评估方法也与二元 Logistic 回归类似,包括模型显著性检验、系数显著性检验、拟合优度检验和分类准确率评估等。
5.3 Probit 回归模型 (Probit Regression Model)
Probit 回归模型 (Probit Regression Model) 是另一种常用于分析二元因变量的广义线性模型 (GLM)。与 Logistic 回归模型类似,Probit 回归模型也适用于因变量 \( Y \) 为二元变量 \( (Y \in \{0, 1\}) \) 的情况。Probit 回归模型与 Logistic 回归模型的主要区别在于链接函数 (link function) 的选择。Probit 回归模型使用 Probit 链接函数,也称为正态累积分布函数链接 (normal CDF link)。
1. 模型设定 (Model Specification)
在 Probit 回归模型中,我们仍然假设因变量 \( Y \) 服从伯努利分布:
\[ P(Y=1) = p, \quad P(Y=0) = 1-p \]
Probit 回归模型使用 Probit 链接函数 将概率 \( p \) 与线性预测变量 \( \eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \) 联系起来:
\[ \text{probit}(p) = \Phi^{-1}(p) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \]
其中,\( \Phi^{-1}(\cdot) \) 是标准正态分布的累积分布函数 (CDF) \( \Phi(\cdot) \) 的反函数。
反链接函数为标准正态分布的累积分布函数:
\[ p = P(Y=1|X) = \Phi(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k) \]
标准正态分布的 CDF 将线性预测变量 \( \eta \) 的取值范围 \( (-\infty, +\infty) \) 映射到概率 \( p \) 的取值范围 \( (0, 1) \)。
2. 系数解释 (Interpretation of Coefficients)
Probit 回归模型的系数 \( \beta_j \) 的直接解释不如 Logistic 回归模型那样直观。在 Probit 模型中,系数 \( \beta_j \) 表示当解释变量 \( x_j \) 增加一个单位,标准正态分布的累积分布函数的自变量 \( \eta \) 的变化量。
为了更直观地解释系数,通常计算 边际效应 (marginal effect)。对于连续型解释变量 \( x_j \),边际效应为:
\[ \frac{\partial p}{\partial x_j} = \frac{\partial}{\partial x_j} \Phi(\eta) = \phi(\eta) \cdot \frac{\partial \eta}{\partial x_j} = \phi(\eta) \beta_j \]
其中,\( \phi(\eta) = \frac{1}{\sqrt{2\pi}} e^{-\frac{\eta^2}{2}} \) 是标准正态分布的概率密度函数 (PDF)。边际效应表示当 \( x_j \) 变化一个单位时,概率 \( p \) 的变化量。边际效应的大小取决于 \( \eta \) 的取值,因此通常在解释边际效应时,需要指定 \( \eta \) 的取值,例如在均值处计算边际效应。
3. 模型估计与检验 (Model Estimation and Testing)
Probit 回归模型的参数 \( \beta = (\beta_0, \beta_1, ..., \beta_k) \) 同样使用最大似然估计 (MLE) 方法进行估计。似然函数和对数似然函数的构建与 Logistic 回归模型类似,只需将 Logistic 函数替换为标准正态分布的 CDF。模型检验与评估方法也与 Logistic 回归模型类似,包括模型显著性检验、系数显著性检验、拟合优度检验和分类准确率评估等。
4. Logistic 回归与 Probit 回归的比较 (Comparison of Logistic and Probit Regression)
Logistic 回归模型和 Probit 回归模型都是分析二元因变量的常用方法,它们在很多方面都非常相似。
⚝ 相似之处:
▮▮▮▮⚝ 都是广义线性模型 (GLM)。
▮▮▮▮⚝ 都适用于二元因变量。
▮▮▮▮⚝ 系数的符号和显著性解释基本一致。
▮▮▮▮⚝ 模型估计和检验方法类似。
▮▮▮▮⚝ 在实际应用中,通常得到相似的结论。
⚝ 不同之处:
▮▮▮▮⚝ 链接函数不同:Logistic 回归使用 Logit 链接函数,Probit 回归使用 Probit 链接函数。
▮▮▮▮⚝ 系数解释略有不同:Logistic 回归的系数可以直接解释为对数赔率比,Probit 回归的系数需要通过边际效应来解释概率变化。
▮▮▮▮⚝ 尾部行为 (tail behavior):Logistic 分布的尾部比正态分布更厚重 (fatter tails),这意味着 Logistic 回归模型对极端值的敏感性相对较低。
在实际应用中,Logistic 回归和 Probit 回归的选择通常取决于具体情况和个人偏好。由于 Logistic 回归的系数解释更直观,因此在经济学和社会科学领域应用更为广泛。Probit 回归在理论上与潜在变量模型 (latent variable model) 联系更紧密,在某些特定领域可能更受欢迎。在大多数情况下,两种模型的结果差异不大,可以根据具体需求选择合适的模型。
5.4 泊松回归模型 (Poisson Regression Model)
泊松回归模型 (Poisson Regression Model) 是一种广义线性模型 (GLM),专门用于分析计数型因变量 (count data)。计数型因变量是指取值为非负整数的变量,例如单位时间内事件发生的次数、顾客到达数、专利申请数等。泊松回归模型假设因变量 \( Y \) 服从泊松分布 (Poisson distribution),并使用 Log 链接函数 将因变量的期望值与线性预测变量联系起来。
1. 模型设定 (Model Specification)
在泊松回归模型中,因变量 \( Y \) 是一个计数变量,假设 \( Y \) 服从泊松分布:
\[ P(Y=y) = \frac{e^{-\mu} \mu^y}{y!}, \quad y = 0, 1, 2, ... \]
其中,\( \mu = E(Y) \) 是泊松分布的均值和方差,表示单位时间或单位空间内事件发生的平均次数。我们的目标是建立期望值 \( \mu \) 与解释变量 \( X = (x_1, x_2, ..., x_k) \) 之间的关系。
泊松回归模型使用 Log 链接函数 将期望值 \( \mu \) 与线性预测变量 \( \eta = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \) 联系起来:
\[ \ln(\mu) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k \]
反链接函数为指数函数:
\[ \mu = E(Y|X) = e^{\beta_0 + \beta_1 x_1 + \beta_2 x_2 + ... + \beta_k x_k} \]
指数函数保证了期望值 \( \mu \) 始终为正值。
2. 发生率比 (Incidence Rate Ratio) 与系数解释 (Interpretation of Coefficients)
在泊松回归模型中,系数 \( \beta_j \) 的解释与 Logistic 回归模型中的赔率比类似,但这里解释为发生率比 (incidence rate ratio)。
考虑一个解释变量 \( x_j \),当 \( x_j \) 增加一个单位,其他解释变量保持不变时,线性预测变量 \( \eta \) 变为 \( \eta + \beta_j \)。相应的期望值 \( \mu \) 变为:
\[ \mu' = e^{\eta + \beta_j} = e^\eta \cdot e^{\beta_j} = \mu \cdot e^{\beta_j} \]
因此,发生率比 (incidence rate ratio) 为:
\[ \frac{\mu'}{\mu} = e^{\beta_j} \]
这意味着,当解释变量 \( x_j \) 增加一个单位,其他变量不变时,事件发生的平均次数变为原来的 \( e^{\beta_j} \) 倍。
⚝ 如果 \( \beta_j > 0 \),则 \( e^{\beta_j} > 1 \),\( x_j \) 的增加会增加事件发生的平均次数。
⚝ 如果 \( \beta_j < 0 \),则 \( 0 < e^{\beta_j} < 1 \),\( x_j \) 的增加会减少事件发生的平均次数。
⚝ 如果 \( \beta_j = 0 \),则 \( e^{\beta_j} = 1 \),\( x_j \) 对事件发生的平均次数没有影响。
3. 模型估计与检验 (Model Estimation and Testing)
泊松回归模型的参数 \( \beta = (\beta_0, \beta_1, ..., \beta_k) \) 同样使用最大似然估计 (MLE) 方法进行估计。对于 \( n \) 个独立观测样本 \( (y_i, x_{i1}, x_{i2}, ..., x_{ik}), i=1, 2, ..., n \),其中 \( y_i \) 是计数变量,\( x_i = (x_{i1}, x_{i2}, ..., x_{ik}) \)。似然函数为:
\[ L(\beta) = \prod_{i=1}^{n} P(Y=y_i|X=x_i) = \prod_{i=1}^{n} \frac{e^{-\mu_i} \mu_i^{y_i}}{y_i!} \]
其中,\( \mu_i = e^{\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_k x_{ik}} \)。
对数似然函数为:
\[ \ln L(\beta) = \sum_{i=1}^{n} \left[-\mu_i + y_i \ln(\mu_i) - \ln(y_i!)\right] = \sum_{i=1}^{n} \left[-e^{\beta_0 + \beta_1 x_{i1} + ... + \beta_k x_{ik}} + y_i (\beta_0 + \beta_1 x_{i1} + ... + \beta_k x_{ik}) - \ln(y_i!)\right] \]
最大似然估计的目标是找到参数 \( \beta \) 的估计值 \( \hat{\beta} \),使得对数似然函数 \( \ln L(\beta) \) 最大化。
模型检验与评估方法与 Logistic 回归和 Probit 回归类似,包括模型显著性检验、系数显著性检验和拟合优度检验等。
4. 过度离散 (Overdispersion) 问题
泊松分布的一个重要特征是均值等于方差 (mean equals variance),即 \( E(Y) = Var(Y) = \mu \)。在实际应用中,计数数据的方差往往大于均值,这种现象称为过度离散 (overdispersion)。过度离散可能是由于遗漏变量、模型设定不当、或数据本身的异质性等原因造成的。
当存在过度离散时,使用标准的泊松回归模型可能会导致系数估计的标准误被低估,从而影响假设检验的有效性。为了解决过度离散问题,可以考虑以下方法:
① 负二项回归模型 (Negative Binomial Regression Model): 负二项分布是泊松分布的推广,允许方差大于均值。负二项回归模型可以有效处理过度离散问题。
② 准泊松模型 (Quasi-Poisson Model): 准泊松模型仍然使用泊松分布的似然函数进行估计,但允许方差与均值之间存在比例关系,即 \( Var(Y) = \phi \mu \),其中 \( \phi \) 是离散参数 (dispersion parameter)。准泊松模型通过调整标准误来修正过度离散的影响。
③ 考虑零膨胀模型 (Zero-Inflated Models): 如果过度离散是由于数据中存在过多的零值造成的,可以考虑使用零膨胀泊松模型 (Zero-Inflated Poisson Model) 或零膨胀负二项模型 (Zero-Inflated Negative Binomial Model)。这些模型可以区分两种类型的零值:结构性零值 (structural zeros) 和抽样零值 (sampling zeros),从而更准确地建模计数数据。
在实际应用中,需要检验是否存在过度离散,并根据具体情况选择合适的模型来处理过度离散问题,以保证模型估计的有效性和可靠性。
END_OF_CHAPTER
6. chapter 6: 扩展的回归模型:工具变量法 (Extended Regression Models: Instrumental Variables Methods)
6.1 内生性问题 (Endogeneity Problem)
在计量经济学建模中,我们常常希望通过回归模型来揭示变量之间的因果关系。然而,当模型中解释变量与误差项相关时,就会出现内生性问题 (Endogeneity Problem)。内生性是计量经济学中一个核心挑战,它会导致使用普通最小二乘法 (Ordinary Least Squares - OLS) 估计得到的参数估计量产生偏差和不一致性,从而使得我们对因果关系的推断变得不可靠。理解内生性的来源及其后果,是掌握高级计量经济学方法,特别是工具变量法 (Instrumental Variables Methods - IV) 的前提。
6.1.1 内生性的来源 (Sources of Endogeneity)
内生性通常来源于以下几个方面:
① 遗漏变量偏差 (Omitted Variable Bias):当模型中遗漏了某些与解释变量和被解释变量都相关的变量时,这些遗漏变量的影响会被纳入到误差项中,导致误差项与模型中的解释变量相关。例如,在研究教育对工资的影响时,如果遗漏了个人能力这个变量,而能力同时影响教育水平和工资收入,那么教育变量就会与误差项相关,产生内生性。
② 联立性或互为因果 (Simultaneity or Reverse Causality):当解释变量和被解释变量之间存在互为因果的关系时,也会产生内生性。例如,在供求模型中,价格和数量互相决定。价格影响需求量和供给量,同时需求量和供给量也共同决定价格。在这种情况下,价格和数量都是内生的,直接使用 OLS 估计会产生偏差。
③ 测量误差 (Measurement Error):当解释变量的测量存在误差时,如果测量误差与真实值不相关,但在回归模型中,观测到的有误差的解释变量会与误差项产生相关性,从而导致内生性。例如,在调查问卷中,受访者对收入的报告可能存在误差,如果使用报告收入作为解释变量,则可能因为测量误差导致内生性。
④ 样本选择偏差 (Sample Selection Bias):当样本不是随机抽取的,而是基于某些与被解释变量或误差项相关的准则选择时,也会导致内生性。例如,研究工作培训项目对工资的影响,如果只有那些认为自己需要培训的人才参加项目,那么参与培训的决定就不是随机的,而是与潜在的工资增长相关的,这就会导致样本选择偏差和内生性。
6.1.2 内生性的后果 (Consequences of Endogeneity)
内生性最主要的后果是导致 OLS 估计量 的 有偏性 (Bias) 和 非一致性 (Inconsistency)。
① 有偏性 (Bias):当解释变量 \(X\) 与误差项 \(u\) 相关时,OLS 估计得到的系数估计值 \( \hat{\beta} \) 的期望值不再等于真实参数 \( \beta \)。这意味着,即使在样本量无限增大的理想情况下,使用 OLS 估计得到的参数估计值的平均值仍然偏离真实值。
② 非一致性 (Inconsistency):OLS 估计量不仅有偏,而且是非一致的。一致性 (Consistency) 是指当样本容量趋于无穷大时,估计量依概率收敛于真实参数。由于内生性导致 OLS 估计量即使在样本量无限增大时,仍然收敛于一个偏离真实参数的值,因此 OLS 估计量是非一致的。
为了更具体地说明内生性的后果,考虑一个简单的线性回归模型:
\[ Y = \beta_0 + \beta_1 X + u \]
其中,\(Y\) 是被解释变量,\(X\) 是解释变量,\(u\) 是误差项,\( \beta_0 \) 和 \( \beta_1 \) 是待估计的参数。如果 \(X\) 与 \(u\) 不相关,即 \(Cov(X, u) = 0\),则 OLS 估计量是无偏且一致的。然而,如果存在内生性,即 \(Cov(X, u) \neq 0\),则 OLS 估计量 \( \hat{\beta}_1 \) 的期望值可以表示为:
\[ E[\hat{\beta}_1] = \beta_1 + \frac{Cov(X, u)}{Var(X)} \]
从上式可以看出,当 \(Cov(X, u) \neq 0\) 时,\(E[\hat{\beta}_1] \neq \beta_1\),即 OLS 估计量 \( \hat{\beta}_1 \) 是有偏的。并且,即使样本容量 \(n \rightarrow \infty\),\( \hat{\beta}_1 \) 仍然会收敛到 \( \beta_1 + \frac{Cov(X, u)}{Var(X)} \),而不是真实的 \( \beta_1 \),因此 OLS 估计量也是非一致的。
内生性的存在严重影响了我们使用回归模型进行因果推断的可靠性。为了解决内生性问题,计量经济学家发展了多种方法,其中 工具变量法 (Instrumental Variables Methods - IV) 是最常用和最重要的方法之一。
6.2 工具变量 (Instrumental Variables - IV) 的基本概念 (Basic Concepts of Instrumental Variables (IV))
工具变量法 (Instrumental Variables Methods - IV) 是一种用于解决内生性问题的计量经济学方法。其核心思想是找到一个或多个 工具变量 (Instrumental Variables - IV),利用工具变量来间接估计内生解释变量对被解释变量的因果效应。
工具变量 (Instrumental Variable - IV),通常记为 \(Z\),是一个与内生解释变量 \(X\) 相关,但与误差项 \(u\) 不相关的变量。通过工具变量,我们可以分离出内生解释变量 \(X\) 中与误差项 \(u\) 无关的部分,从而利用这部分信息来识别和估计因果效应。
6.2.1 工具变量的有效性条件 (Validity Conditions of Instrumental Variables)
一个有效的工具变量 \(Z\) 必须满足以下两个核心条件:
① 相关性 (Relevance):工具变量 \(Z\) 必须与内生解释变量 \(X\) 显著相关。这意味着工具变量 \(Z\) 能够有效地预测或解释内生解释变量 \(X\) 的变动。在数学上,相关性条件可以表示为:
\[ Cov(Z, X) \neq 0 \]
或者,更常用的是在 第一阶段回归 (First-Stage Regression) 中,工具变量 \(Z\) 对内生解释变量 \(X\) 的系数显著不为零。
② 外生性 (Exogeneity):工具变量 \(Z\) 必须与误差项 \(u\) 不相关。这意味着工具变量 \(Z\) 只能通过影响内生解释变量 \(X\),才能间接地影响被解释变量 \(Y\),而不能通过其他任何渠道直接影响 \(Y\)。在数学上,外生性条件可以表示为:
\[ Cov(Z, u) = 0 \]
外生性条件是工具变量法有效性的关键,也是最难验证的条件。因为误差项 \(u\) 是不可观测的,我们无法直接检验 \(Z\) 与 \(u\) 的相关性。外生性通常需要基于经济理论、制度背景和专业知识进行判断和论证。
总结来说,一个有效的工具变量 \(Z\) 必须同时满足 相关性 (Relevance) 和 外生性 (Exogeneity) 两个条件。相关性保证了工具变量能够提供关于内生解释变量 \(X\) 的信息,外生性保证了工具变量提供的信息是外生的,即与误差项无关,从而可以用来识别因果效应。
可以用一个简单的图示来帮助理解工具变量的有效性条件:
1
graph LR
2
Z --> X
3
X --> Y
4
Z -.-> u
5
X --> u
6
u --> Y
7
Z -.-> Y
在这个图中:
⚝ 实线箭头表示存在因果或相关关系。
⚝ 虚线箭头表示不存在直接的因果或相关关系(理想情况下)。
⚝ \(Z\) 是工具变量,\(X\) 是内生解释变量,\(Y\) 是被解释变量,\(u\) 是误差项。
⚝ \(Z \rightarrow X\) 表示 相关性 (Relevance) 条件:\(Z\) 与 \(X\) 相关。
⚝ \(Z \nrightarrow u\) (图中 \(Z -.-> u\)) 表示 外生性 (Exogeneity) 条件:\(Z\) 与 \(u\) 不相关。
⚝ \(X \rightarrow u\) 表示内生性问题:\(X\) 与 \(u\) 相关。
⚝ \(X \rightarrow Y\) 表示我们想要估计的因果效应。
⚝ \(u \rightarrow Y\) 表示误差项对 \(Y\) 的影响。
⚝ \(Z \nrightarrow Y\) (图中 \(Z -.-> Y\)) 表示工具变量只能通过 \(X\) 影响 \(Y\),而不能有其他直接路径(外生性的一个推论,但更强调工具变量的间接影响)。
6.2.2 两阶段最小二乘法 (Two-Stage Least Squares - 2SLS)
两阶段最小二乘法 (Two-Stage Least Squares - 2SLS) 是最常用的工具变量估计方法。当存在一个或多个工具变量时,2SLS 提供了一种估计内生解释变量因果效应的有效方法。2SLS 估计分为两个阶段进行:
第一阶段 (First Stage):将内生解释变量 \(X\) 对所有工具变量 \(Z\) 和所有外生解释变量 \(W\) (如果模型中存在外生解释变量)进行回归。假设模型为:
\[ Y = \beta_0 + \beta_1 X + \beta_2 W + u \]
其中,\(X\) 是内生解释变量,\(W\) 是外生解释变量,\(Z\) 是工具变量。第一阶段回归模型为:
\[ X = \pi_0 + \pi_1 Z + \pi_2 W + v \]
其中,\(v\) 是第一阶段回归的误差项,\( \pi_0, \pi_1, \pi_2 \) 是待估计的参数。通过 OLS 估计第一阶段回归模型,得到内生解释变量 \(X\) 的 拟合值 (Fitted Values) \( \hat{X} \)。拟合值 \( \hat{X} \) 可以表示为:
\[ \hat{X} = \hat{\pi}_0 + \hat{\pi}_1 Z + \hat{\pi}_2 W \]
由于 \( \hat{X} \) 是由工具变量 \(Z\) 和外生变量 \(W\) 线性组合得到的,并且 \(Z\) 和 \(W\) 都与原模型的误差项 \(u\) 不相关(根据工具变量的外生性条件和外生变量的定义),因此 \( \hat{X} \) 与 \(u\) 也是不相关的(在一定条件下)。\( \hat{X} \) 可以被视为 \(X\) 中与误差项 \(u\) 无关的“外生”部分。
第二阶段 (Second Stage):将被解释变量 \(Y\) 对第一阶段得到的内生解释变量的拟合值 \( \hat{X} \) 和所有外生解释变量 \(W\) 进行回归。第二阶段回归模型为:
\[ Y = \beta_0 + \beta_1 \hat{X} + \beta_2 W + e \]
其中,\(e\) 是第二阶段回归的误差项。通过 OLS 估计第二阶段回归模型,得到参数 \( \beta_0, \beta_1, \beta_2 \) 的 2SLS 估计量 \( \hat{\beta}_{0, 2SLS}, \hat{\beta}_{1, 2SLS}, \hat{\beta}_{2, 2SLS} \)。其中,我们最关注的是 \( \hat{\beta}_{1, 2SLS} \),它就是工具变量法估计得到的内生解释变量 \(X\) 对被解释变量 \(Y\) 的因果效应。
2SLS 估计量的性质:在工具变量满足有效性条件(相关性和外生性)以及其他标准回归假设下,2SLS 估计量是 一致的 (Consistent)。这意味着当样本容量趋于无穷大时,2SLS 估计量依概率收敛于真实参数 \( \beta_1 \)。然而,与 OLS 估计量相比,2SLS 估计量通常是 无偏的 (Unbiased) 性质较弱,在小样本下可能存在偏差。此外,2SLS 估计量的方差通常比 OLS 估计量大,这意味着 2SLS 估计的效率相对较低。
总结 2SLS 步骤:
1. 第一阶段回归:用工具变量 \(Z\) 和外生变量 \(W\) 回归内生变量 \(X\),得到 \(X\) 的拟合值 \( \hat{X} \)。
2. 第二阶段回归:用 \( \hat{X} \) 和外生变量 \(W\) 回归被解释变量 \(Y\),得到 2SLS 估计量 \( \hat{\beta}_{2SLS} \)。
通过这两阶段的回归,2SLS 方法利用工具变量 \(Z\) 提供的外生信息,克服了内生性问题,从而得到对因果效应 \( \beta_1 \) 的一致估计。
6.3 工具变量法的应用与检验 (Applications and Tests of Instrumental Variables Methods)
工具变量法在计量经济学和实证经济学研究中有着广泛的应用。从劳动经济学、发展经济学到金融学、政治学等领域,都可以看到工具变量法的身影。
工具变量法的应用:
① 教育回报研究:在研究教育对工资的影响时,教育水平可能是内生的,因为它可能与个人能力、家庭背景等因素相关,而这些因素也可能直接影响工资。研究者可以使用一些工具变量来解决内生性问题,例如,出生季度、义务教育法改革等。出生在年初的人可能比出生在年末的人有更长的入学年龄,从而接受更长时间的教育,而出生季度本身可能与工资的误差项不相关。义务教育法改革强制延长了教育年限,这可以作为教育水平的工具变量。
② 医疗卫生研究:在研究医疗投入对健康结果的影响时,医疗投入也可能是内生的,因为健康状况差的人可能更倾向于寻求医疗服务,从而导致医疗投入与健康状况互为因果。研究者可以使用一些政策变化或医疗资源的可获得性作为工具变量,例如,医院的地理位置、医疗保险政策的改革等。
③ 政治经济学研究:在研究制度或政策对经济增长的影响时,制度或政策的选择也可能是内生的,因为制度或政策的选择可能受到经济发展水平、文化传统等因素的影响。研究者可以使用一些历史事件或自然实验作为工具变量,例如,殖民地起源、地理条件等。
工具变量法的检验:
为了保证工具变量法的有效性,我们需要对工具变量的有效性条件进行检验。主要检验工具变量的 相关性 (Relevance) 和 外生性 (Exogeneity)。
① 相关性检验 (Test of Relevance):相关性条件要求工具变量 \(Z\) 与内生解释变量 \(X\) 显著相关。在 两阶段最小二乘法 (2SLS) 的 第一阶段回归 (First-Stage Regression) 中,我们可以直接检验工具变量 \(Z\) 对内生解释变量 \(X\) 的系数是否显著不为零。常用的检验统计量是 F 统计量 (F-statistic)。如果只有一个工具变量,我们可以直接检验该工具变量的系数的 t 统计量。如果有多个工具变量,我们需要检验工具变量作为一个整体是否与内生解释变量相关,这时需要使用 F 统计量。通常,如果第一阶段回归的 F 统计量大于 10,我们认为工具变量的相关性较强,可以避免 弱工具变量问题 (Weak Instrument Problem)。弱工具变量问题指的是工具变量与内生解释变量的相关性较弱,这会导致 2SLS 估计量仍然存在较大偏差,甚至比 OLS 估计量更差。
② 外生性检验 (Test of Exogeneity):外生性条件要求工具变量 \(Z\) 与误差项 \(u\) 不相关。外生性条件是最难检验的,因为误差项 \(u\) 是不可观测的。
▮▮▮▮⚝ 过度识别检验 (Overidentification Test):当工具变量的数量超过内生解释变量的数量时,模型是 过度识别的 (Overidentified)。在这种情况下,我们可以进行 过度识别检验 (Overidentification Test) 来间接检验工具变量的外生性。常用的过度识别检验包括 Sargan 检验 (Sargan Test) 和 Hansen J 检验 (Hansen J Test)。这些检验的原假设是所有工具变量都是外生的。如果检验结果拒绝原假设,则表明至少有一个工具变量不是外生的,工具变量的有效性受到质疑。然而,即使检验结果不拒绝原假设,也不能完全保证所有工具变量都是外生的,因为检验的功效可能有限。
▮▮▮▮⚝ 经济理论和常识判断:在很多情况下,工具变量的外生性更多地依赖于经济理论、制度背景和常识判断。研究者需要充分论证工具变量的合理性,解释为什么工具变量满足外生性条件。例如,在使用出生季度作为教育水平的工具变量时,需要论证出生季度本身与工资的误差项没有直接关系,仅仅通过影响教育水平间接影响工资。
总结工具变量法的应用与检验要点:
⚝ 工具变量法广泛应用于解决各种经济学研究中的内生性问题。
⚝ 选择合适的工具变量是关键,工具变量必须满足 相关性 (Relevance) 和 外生性 (Exogeneity) 两个条件。
⚝ 相关性可以通过 第一阶段回归的 F 统计量 进行检验。
⚝ 外生性检验较为困难,当模型过度识别时,可以使用 过度识别检验 进行间接检验,但更多时候需要依赖于 经济理论和常识判断 的支持。
⚝ 需要警惕 弱工具变量问题,并尽可能选择相关性强的工具变量。
工具变量法是计量经济学中解决内生性问题的重要工具。掌握工具变量法的基本原理、有效性条件、估计方法和检验方法,对于进行严谨的实证研究至关重要。通过合理运用工具变量法,我们可以更可靠地估计变量之间的因果关系,为经济理论发展和政策制定提供有力的实证依据。
END_OF_CHAPTER
7. chapter 7: 扩展的回归模型:面板数据模型 (Extended Regression Models: Panel Data Models)
7.1 面板数据模型概述 (Overview of Panel Data Models)
面板数据 (Panel Data),也称为纵向数据 (Longitudinal Data) 或重复观测数据 (Repeated Measures Data),是一种特殊的数据类型,它在时间维度上追踪多个个体 (个体可以是个人、家庭、企业、国家等) 的观测值。与传统的横截面数据 (Cross-sectional Data) 和时间序列数据 (Time Series Data) 相比,面板数据结合了二者的特点,能够提供更丰富的信息,从而进行更深入的经济分析。
7.1.1 面板数据的优势与特点 (Advantages and Characteristics of Panel Data)
面板数据之所以在计量经济学中被广泛应用,主要是因为它具有以下几个显著的优势和特点:
① 控制个体异质性 (Controlling for Individual Heterogeneity):面板数据最核心的优势在于能够控制个体异质性 (Individual Heterogeneity)。在经济研究中,很多时候我们感兴趣的个体之间存在着难以观测和量化的差异,这些差异可能与解释变量相关,从而导致遗漏变量偏差 (Omitted Variable Bias)。面板数据通过追踪同一个体在不同时间点的观测值,可以有效地控制那些不随时间变化的个体固定效应 (Time-invariant Individual Fixed Effects)。例如,在研究教育对工资的影响时,个体的能力 (Ability) 是一个重要的但难以直接观测的因素。能力既影响教育水平,也影响工资水平。使用横截面数据进行回归分析时,如果忽略能力这个因素,就会产生内生性问题。而使用面板数据,我们可以通过固定效应模型 (Fixed Effects Model) 来控制个体能力这种不随时间变化的异质性,从而得到更可靠的估计结果。
② 提供更多信息,提高估计效率 (Providing More Information and Improving Estimation Efficiency):面板数据包含了横截面和时间序列两个维度的信息,样本容量大大增加,从而能够提供更多的数据变异,提高估计的精度和效率。例如,假设我们研究政策变化对经济的影响。如果只使用时间序列数据,可能只有一个政策变化的时点,数据信息有限。而如果使用面板数据,我们可以观察多个地区或国家在政策变化前后的经济表现,从而利用更丰富的变异来识别政策效应,提高估计的统计功效 (Statistical Power)。
③ 能够研究动态调整过程 (Studying Dynamic Adjustment Processes):面板数据可以追踪个体在不同时间点的行为,从而能够研究经济现象的动态调整过程。例如,在研究企业投资行为时,面板数据可以帮助我们分析企业投资决策在不同时期的变化,以及投资决策对外部冲击的动态反应。这对于理解经济行为的动态特性至关重要。
④ 更好地识别和估计因果效应 (Better Identification and Estimation of Causal Effects):面板数据结合了横截面和时间序列的优势,在识别因果效应方面具有独特的优势。例如,双重差分法 (Difference-in-Differences - DID) 就是一种常用的面板数据方法,用于评估政策或干预措施的因果效应。通过比较处理组 (Treatment Group) 和控制组 (Control Group) 在政策实施前后的变化,DID 方法可以有效地识别政策的因果效应,并控制时间趋势和个体固定效应的影响。
⑤ 减少多重共线性问题 (Reducing Multicollinearity Problems):由于面板数据包含了时间维度上的变异,解释变量在个体和时间两个维度上都可能存在差异,这有助于减少多重共线性 (Multicollinearity) 问题,提高估计的稳定性。
当然,面板数据也存在一些局限性。例如,面板数据的收集成本通常较高,数据获取难度较大。此外,面板数据分析也可能面临一些特有的问题,例如,序列相关 (Serial Correlation)、横截面相关 (Cross-sectional Correlation)、以及动态面板数据模型中的内生性问题等。
7.1.2 混合 OLS 估计 (Pooled OLS Estimation)
最简单的面板数据分析方法是将面板数据视为普通的混合数据 (Pooled Data),直接使用普通最小二乘法 (Ordinary Least Squares - OLS) 进行估计,这种方法称为混合 OLS 估计 (Pooled OLS Estimation)。
考虑如下面板数据模型:
\[ y_{it} = \beta_0 + \beta_1 x_{it} + \alpha_i + u_{it} \]
其中,\( y_{it} \) 是个体 \( i \) 在时间 \( t \) 的被解释变量,\( x_{it} \) 是解释变量,\( \alpha_i \) 代表个体 \( i \) 的不可观测的个体固定效应,\( u_{it} \) 是随机误差项。\( i = 1, 2, ..., N \),\( t = 1, 2, ..., T \)。
混合 OLS 估计忽略了个体固定效应 \( \alpha_i \) 的存在,直接对混合数据进行 OLS 回归。其模型设定相当于假设个体效应 \( \alpha_i \) 是随机误差项的一部分,或者说,模型中没有明确区分个体效应。
混合 OLS 估计的优点在于方法简单易行,可以直接使用标准的 OLS 回归软件进行估计。
混合 OLS 估计的缺点和适用条件:
① 忽略个体效应,可能导致遗漏变量偏差:如果个体固定效应 \( \alpha_i \) 与解释变量 \( x_{it} \) 相关,那么混合 OLS 估计就会产生遗漏变量偏差,导致估计结果不一致 (Inconsistent)。例如,如果能力 \( \alpha_i \) 既影响教育水平 \( x_{it} \),又影响工资 \( y_{it} \),那么忽略能力这个个体效应,直接用混合 OLS 估计教育对工资的影响,就会得到有偏的估计结果。
② 适用条件:个体效应与解释变量不相关:只有当个体固定效应 \( \alpha_i \) 与所有解释变量 \( x_{it} \) 都不相关时,混合 OLS 估计才是无偏且一致的。然而,在实际经济研究中,个体效应往往与解释变量存在相关性,因此,混合 OLS 估计的应用场景受到限制。
③ 无法有效利用面板数据的优势:混合 OLS 估计没有充分利用面板数据能够控制个体异质性的优势。它将面板数据简单地视为混合数据,损失了面板数据的信息。
总结:混合 OLS 估计是一种简单的面板数据处理方法,但其适用条件较为苛刻。在个体效应与解释变量可能相关的情况下,应谨慎使用混合 OLS 估计,并考虑使用更合适的面板数据模型,例如固定效应模型或随机效应模型。
7.2 固定效应模型 (Fixed Effects Model - FE)
固定效应模型 (Fixed Effects Model - FE) 是一种常用的面板数据模型,旨在控制不随时间变化的个体固定效应 \( \alpha_i \),从而解决由个体异质性引起的内生性问题。固定效应模型的核心思想是将个体固定效应视为需要估计的参数,或者通过转换数据的方式消除个体固定效应。
7.2.1 组内估计 (Within-Group Estimation)
组内估计 (Within-Group Estimation) 是固定效应模型的一种常用估计方法。其基本思想是利用每个个体内部 (within-group) 的时间变异来识别和估计模型参数,从而消除个体固定效应的影响。
考虑如下固定效应模型:
\[ y_{it} = \beta_0 + \beta_1 x_{it} + \alpha_i + u_{it} \]
对上式在时间维度上取平均,得到个体 \( i \) 的均值方程:
\[ \bar{y}_i = \beta_0 + \beta_1 \bar{x}_i + \alpha_i + \bar{u}_i \]
其中,\( \bar{y}_i = \frac{1}{T} \sum_{t=1}^T y_{it} \),\( \bar{x}_i = \frac{1}{T} \sum_{t=1}^T x_{it} \),\( \bar{u}_i = \frac{1}{T} \sum_{t=1}^T u_{it} \)。
将原方程减去均值方程,得到去均值 (demeaned) 后的方程:
\[ y_{it} - \bar{y}_i = \beta_1 (x_{it} - \bar{x}_i) + (u_{it} - \bar{u}_i) \]
令 \( \tilde{y}_{it} = y_{it} - \bar{y}_i \),\( \tilde{x}_{it} = x_{it} - \bar{x}_i \),\( \tilde{u}_{it} = u_{it} - \bar{u}_i \),则去均值后的方程可以简写为:
\[ \tilde{y}_{it} = \beta_1 \tilde{x}_{it} + \tilde{u}_{it} \]
可以看到,去均值变换消除了个体固定效应 \( \alpha_i \),因为 \( \alpha_i \) 是不随时间变化的,所以 \( \bar{\alpha}_i = \alpha_i \),因此 \( \alpha_i - \bar{\alpha}_i = 0 \)。
对去均值后的方程使用 OLS 估计,得到的估计量称为组内估计量 (Within-Group Estimator) 或固定效应估计量 (Fixed Effects Estimator)。组内估计量 \( \hat{\beta}_{FE} \) 的计算公式为:
\[ \hat{\beta}_{FE} = \frac{\sum_{i=1}^N \sum_{t=1}^T (\tilde{x}_{it} - \bar{\tilde{x}}) (\tilde{y}_{it} - \bar{\tilde{y}})}{\sum_{i=1}^N \sum_{t=1}^T (\tilde{x}_{it} - \bar{\tilde{x}})^2} = \frac{\sum_{i=1}^N \sum_{t=1}^T (x_{it} - \bar{x}_i) (y_{it} - \bar{y}_i)}{\sum_{i=1}^N \sum_{t=1}^T (x_{it} - \bar{x}_i)^2} \]
其中,\( \bar{\tilde{x}} \) 和 \( \bar{\tilde{y}} \) 分别是 \( \tilde{x}_{it} \) 和 \( \tilde{y}_{it} \) 的总样本均值。
组内估计的优点:
① 消除个体固定效应:组内估计通过去均值变换,有效地消除了不随时间变化的个体固定效应 \( \alpha_i \),从而解决了由个体异质性引起的内生性问题。即使个体效应 \( \alpha_i \) 与解释变量 \( x_{it} \) 相关,组内估计量仍然是一致的。
② 适用范围广:固定效应模型对个体效应与解释变量之间的相关性没有限制,因此适用范围较广。只要存在不随时间变化的个体异质性,并且这些异质性可能与解释变量相关,就可以考虑使用固定效应模型。
组内估计的缺点:
① 无法估计不随时间变化的变量的效应:由于去均值变换消除了个体固定效应,同时也消除了所有不随时间变化的解释变量 (Time-invariant Regressors)。例如,个体的性别、种族、教育程度 (如果个体在样本期间教育程度不变) 等变量,在固定效应模型中会被自动剔除,无法估计其效应。如果研究者对这些不随时间变化的变量的效应感兴趣,固定效应模型就无法满足需求。
② 可能放大测量误差的影响:去均值变换可能会放大解释变量 \( x_{it} \) 中测量误差的影响。由于组内估计主要利用个体内部的时间变异,如果 \( x_{it} \) 的时间变异较小,而测量误差的比例相对较大,那么去均值后的变量 \( \tilde{x}_{it} \) 的信噪比 (Signal-to-Noise Ratio) 可能会降低,导致估计结果的精度下降。
③ 自由度损失:在固定效应模型中,我们需要估计 \( N \) 个个体固定效应 \( \alpha_i \) (如果将 \( \beta_0 \) 包含在个体效应中)。虽然通常我们并不直接报告个体效应的估计值,但估计个体效应会消耗一定的自由度。当个体数量 \( N \) 较大时,自由度损失可能较为显著。
7.2.2 去均值变换 (Within Transformation)
去均值变换 (Within Transformation) 是实现组内估计的关键步骤。其本质是对原始数据进行线性变换,消除个体固定效应。具体步骤如下:
① 计算个体均值:对于每个个体 \( i \),计算被解释变量 \( y_{it} \) 和解释变量 \( x_{it} \) 在时间维度上的均值 \( \bar{y}_i \) 和 \( \bar{x}_i \)。
② 去均值处理:对于每个观测值 \( (y_{it}, x_{it}) \),减去对应的个体均值 \( (\bar{y}_i, \bar{x}_i) \),得到去均值后的变量 \( \tilde{y}_{it} = y_{it} - \bar{y}_i \) 和 \( \tilde{x}_{it} = x_{it} - \bar{x}_i \)。
③ OLS 回归:对去均值后的变量 \( (\tilde{y}_{it}, \tilde{x}_{it}) \) 进行 OLS 回归,估计模型 \( \tilde{y}_{it} = \beta_1 \tilde{x}_{it} + \tilde{u}_{it} \)。得到的系数估计值 \( \hat{\beta}_1 \) 即为固定效应估计量 \( \hat{\beta}_{FE} \)。
矩阵形式的去均值变换:
可以使用矩阵形式更简洁地表示去均值变换。定义去均值矩阵 (Within-transformation Matrix) \( \mathbf{Q} \) 为:
\[ \mathbf{Q} = \mathbf{I}_N \otimes \mathbf{P}_T = \mathbf{I}_{NT} - \mathbf{I}_N \otimes \mathbf{\bar{J}}_T \]
其中,\( \mathbf{I}_N \) 是 \( N \times N \) 单位矩阵,\( \mathbf{I}_T \) 是 \( T \times T \) 单位矩阵,\( \mathbf{I}_{NT} \) 是 \( NT \times NT \) 单位矩阵,\( \otimes \) 表示 Kronecker 积,\( \mathbf{P}_T = \mathbf{I}_T - \mathbf{\bar{J}}_T \),\( \mathbf{\bar{J}}_T = \frac{1}{T} \mathbf{J}_T \),\( \mathbf{J}_T \) 是元素全为 1 的 \( T \times T \) 矩阵。
对于面板数据模型 \( \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \mathbf{D}\boldsymbol{\alpha} + \mathbf{u} \),其中 \( \mathbf{y} \) 是 \( NT \times 1 \) 的被解释变量向量,\( \mathbf{X} \) 是 \( NT \times k \) 的解释变量矩阵,\( \boldsymbol{\beta} \) 是 \( k \times 1 \) 的系数向量,\( \mathbf{D} \) 是个体虚拟变量矩阵,\( \boldsymbol{\alpha} \) 是 \( N \times 1 \) 的个体效应向量,\( \mathbf{u} \) 是 \( NT \times 1 \) 的误差项向量。
去均值变换后的模型为:
\[ \mathbf{Q}\mathbf{y} = \mathbf{Q}\mathbf{X}\boldsymbol{\beta} + \mathbf{Q}\mathbf{D}\boldsymbol{\alpha} + \mathbf{Q}\mathbf{u} \]
由于 \( \mathbf{Q}\mathbf{D} = \mathbf{0} \),去均值变换消除了个体效应 \( \boldsymbol{\alpha} \)。因此,固定效应模型可以通过对去均值后的数据 \( (\mathbf{Q}\mathbf{y}, \mathbf{Q}\mathbf{X}) \) 进行 OLS 回归得到。
虚拟变量固定效应模型 (Least Squares Dummy Variable - LSDV):
除了组内估计,固定效应模型还可以通过虚拟变量法 (Least Squares Dummy Variable - LSDV) 进行估计。LSDV 方法直接在回归模型中加入个体虚拟变量 (Individual Dummy Variables) 来控制个体固定效应。
模型设定为:
\[ y_{it} = \beta_0 + \beta_1 x_{it} + \alpha_1 D_1 + \alpha_2 D_2 + ... + \alpha_N D_N + u_{it} \]
其中,\( D_i \) 是个体 \( i \) 的虚拟变量,当观测值属于个体 \( i \) 时,\( D_i = 1 \),否则 \( D_i = 0 \)。\( \alpha_i \) 是个体 \( i \) 的固定效应。
使用 OLS 估计上述模型,可以同时得到系数 \( \beta_1 \) 和个体固定效应 \( \alpha_1, \alpha_2, ..., \alpha_N \) 的估计值。LSDV 估计量与组内估计量在系数 \( \beta_1 \) 的估计上是等价的。
LSDV 估计的优点:
① 直接估计个体效应:LSDV 方法可以直接估计出每个个体的固定效应 \( \alpha_i \)。
② 可以处理非线性模型:LSDV 方法可以推广到非线性面板数据模型,例如固定效应 Logistic 回归模型、固定效应泊松回归模型等。
LSDV 估计的缺点:
① 自由度损失:当个体数量 \( N \) 较大时,LSDV 方法需要估计大量的个体虚拟变量,导致自由度损失较大。
② 计算量大:当 \( N \) 很大时,LSDV 方法的计算量会显著增加,尤其是在处理大规模面板数据时。
③ 固定效应的非一致性:在短面板 (Small \( T \)) 的情况下,固定效应 \( \alpha_i \) 的估计量是非一致的 (Inconsistent)。然而,系数 \( \beta_1 \) 的估计量在 \( N \rightarrow \infty \) 时仍然是一致的。
总结:组内估计和 LSDV 估计是固定效应模型的两种常用估计方法。组内估计通过去均值变换消除个体固定效应,而 LSDV 估计通过加入个体虚拟变量控制个体固定效应。两种方法在系数估计上是等价的,但在估计个体效应和计算效率上有所不同。在实际应用中,可以根据具体情况选择合适的估计方法。
7.3 随机效应模型 (Random Effects Model - RE)
随机效应模型 (Random Effects Model - RE) 是另一种常用的面板数据模型,与固定效应模型不同,随机效应模型将个体固定效应 \( \alpha_i \) 视为随机变量,并将其视为随机误差项的一部分。随机效应模型适用于个体效应与解释变量不相关的情况。
7.3.1 广义最小二乘法 (Generalized Least Squares - GLS) 估计
考虑如下随机效应模型:
\[ y_{it} = \beta_0 + \beta_1 x_{it} + \alpha_i + u_{it} \]
与固定效应模型不同,在随机效应模型中,我们假设个体效应 \( \alpha_i \) 是随机的,并且满足以下假设:
① \( E(\alpha_i) = 0 \)
② \( Var(\alpha_i) = \sigma_\alpha^2 \)
③ \( Cov(\alpha_i, x_{jt}) = 0 \),对于所有 \( i, j, t \)
④ \( Cov(\alpha_i, u_{jt}) = 0 \),对于所有 \( i, j, t \)
⑤ \( Cov(u_{it}, u_{js}) = \begin{cases} \sigma_u^2, & \text{if } i=j \text{ and } t=s \\ 0, & \text{otherwise} \end{cases} \)
即,随机效应 \( \alpha_i \) 与解释变量 \( x_{it} \) 和误差项 \( u_{it} \) 均不相关。误差项 \( u_{it} \) 满足标准的独立同分布假设。
随机效应模型可以将模型改写为:
\[ y_{it} = \beta_0 + \beta_1 x_{it} + v_{it} \]
其中,复合误差项 (Composite Error Term) \( v_{it} = \alpha_i + u_{it} \)。
由于个体效应 \( \alpha_i \) 在同一个体内部是不变的,因此,同一个体内部不同时间点的观测值之间存在相关性。具体来说,对于同一个体 \( i \) 的两个不同时间点 \( t \) 和 \( s \) ( \( t \neq s \) ),有:
\[ Cov(v_{it}, v_{is}) = Cov(\alpha_i + u_{it}, \alpha_i + u_{is}) = Var(\alpha_i) + Cov(\alpha_i, u_{is}) + Cov(u_{it}, \alpha_i) + Cov(u_{it}, u_{is}) = \sigma_\alpha^2 \]
而对于不同个体 \( i \) 和 \( j \) ( \( i \neq j \) ),有:
\[ Cov(v_{it}, v_{js}) = Cov(\alpha_i + u_{it}, \alpha_j + u_{js}) = Cov(\alpha_i, \alpha_j) + Cov(\alpha_i, u_{js}) + Cov(u_{it}, \alpha_j) + Cov(u_{it}, u_{js}) = 0 \]
假设个体之间随机效应不相关,误差项也不相关。
因此,复合误差项 \( v_{it} \) 存在组内序列相关 (Within-group Serial Correlation) 和同方差性 (Homoskedasticity),但不满足 OLS 回归的误差项独立同分布假设。在这种情况下,OLS 估计量仍然是无偏且一致的,但不是最有效的 (Not Efficient)。为了得到更有效的估计量,应该使用广义最小二乘法 (Generalized Least Squares - GLS) 进行估计。
GLS 估计的基本思想是对模型进行适当的变换,使得变换后的误差项满足独立同分布假设,然后对变换后的模型使用 OLS 估计。
在随机效应模型中,误差项的方差-协方差矩阵 \( \mathbf{\Omega} \) 具有特殊的结构,称为组内相关结构 (Within-group Correlation Structure) 或方差分量结构 (Variance Components Structure)。GLS 估计的关键是估计出 \( \mathbf{\Omega} \) 的结构,然后进行相应的变换。
随机效应 GLS 估计的步骤:
① 估计方差分量:首先需要估计个体效应方差 \( \sigma_\alpha^2 \) 和误差项方差 \( \sigma_u^2 \)。常用的估计方法包括:
▮▮▮▮⚝ OLS 残差法:先用混合 OLS 估计模型,得到残差 \( \hat{v}_{it} \)。然后利用残差估计 \( \sigma_v^2 = \sigma_\alpha^2 + \sigma_u^2 \) 和组内协方差 \( Cov(v_{it}, v_{is}) = \sigma_\alpha^2 \)。进而可以估计出 \( \sigma_\alpha^2 \) 和 \( \sigma_u^2 \)。
▮▮▮▮⚝ 组内和组间估计法:利用组内估计和组间估计的残差平方和 (Residual Sum of Squares - RSS) 来估计方差分量。
② 构造 GLS 变换:根据估计的方差分量 \( \hat{\sigma}_\alpha^2 \) 和 \( \hat{\sigma}_u^2 \),构造 GLS 变换矩阵 \( \mathbf{P} \),使得变换后的误差项 \( \mathbf{P}\mathbf{v} \) 的方差-协方差矩阵为单位矩阵。常用的 GLS 变换形式为:
\[ y_{it}^* = \theta \bar{y}_i + (1-\theta) y_{it} \]
\[ x_{it}^* = \theta \bar{x}_i + (1-\theta) x_{it} \]
其中,\( \theta = 1 - \sqrt{\frac{\sigma_u^2}{\sigma_u^2 + T\sigma_\alpha^2}} \)。当 \( \sigma_\alpha^2 = 0 \) 时,\( \theta = 0 \),随机效应 GLS 估计退化为混合 OLS 估计。当 \( \sigma_u^2 = 0 \) 时,\( \theta = 1 \),随机效应 GLS 估计接近于组间估计 (Between-group Estimation)。
③ OLS 回归:对变换后的数据 \( (y_{it}^*, x_{it}^*) \) 进行 OLS 回归,得到随机效应 GLS 估计量 \( \hat{\beta}_{RE} \)。
随机效应模型的优点:
① 估计效率更高:在随机效应模型假设成立 (个体效应与解释变量不相关) 的情况下,随机效应 GLS 估计量比固定效应估计量更有效率 (更小的方差)。
② 可以估计不随时间变化的变量的效应:随机效应模型可以估计不随时间变化的解释变量的效应,因为随机效应模型没有进行去均值变换,保留了不随时间变化的变量的信息。
随机效应模型的缺点和适用条件:
① 内生性问题:随机效应模型的核心假设是个体效应 \( \alpha_i \) 与解释变量 \( x_{it} \) 不相关。如果这个假设不成立,即存在内生性问题,随机效应 GLS 估计量将是不一致的。
② 适用条件苛刻:随机效应模型要求个体效应与解释变量不相关,这个条件在实际经济研究中往往难以满足。如果个体效应与解释变量相关,使用随机效应模型会产生严重的偏差。
总结:随机效应模型是一种更有效率的面板数据模型,但其适用条件较为苛刻。随机效应模型适用于个体效应与解释变量不相关的情况。如果个体效应与解释变量可能相关,应谨慎使用随机效应模型,并考虑使用固定效应模型。
7.4 固定效应模型与随机效应模型的选择:Hausman 检验 (Choosing between Fixed Effects and Random Effects Models: Hausman Test)
在实际应用中,如何选择固定效应模型 (FE) 还是随机效应模型 (RE) 是一个关键问题。Hausman 检验 (Hausman Test) 提供了一种常用的统计检验方法,用于判断应该使用固定效应模型还是随机效应模型。
Hausman 检验的基本思想:
Hausman 检验基于这样一个事实:在随机效应模型假设成立 (个体效应与解释变量不相关) 的情况下,固定效应估计量 \( \hat{\beta}_{FE} \) 和随机效应估计量 \( \hat{\beta}_{RE} \) 都是一致的,但随机效应估计量更有效率。而在随机效应模型假设不成立 (个体效应与解释变量相关) 的情况下,固定效应估计量 \( \hat{\beta}_{FE} \) 仍然是一致的,但随机效应估计量 \( \hat{\beta}_{RE} \) 是不一致的。
因此,Hausman 检验的原假设 (Null Hypothesis) 是随机效应模型假设成立,即个体效应与解释变量不相关:
\[ H_0: Cov(\alpha_i, x_{it}) = 0 \]
备择假设 (Alternative Hypothesis) 是随机效应模型假设不成立,即个体效应与解释变量相关:
\[ H_1: Cov(\alpha_i, x_{it}) \neq 0 \]
Hausman 检验的统计量:
Hausman 检验统计量 \( H \) 的构造基于固定效应估计量 \( \hat{\beta}_{FE} \) 和随机效应估计量 \( \hat{\beta}_{RE} \) 之间的差异。如果原假设 \( H_0 \) 成立,则 \( \hat{\beta}_{FE} \) 和 \( \hat{\beta}_{RE} \) 应该接近,差异较小。如果原假设 \( H_0 \) 不成立,则 \( \hat{\beta}_{FE} \) 和 \( \hat{\beta}_{RE} \) 之间可能存在显著差异。
Hausman 检验统计量 \( H \) 的计算公式为:
\[ H = (\hat{\boldsymbol{\beta}}_{FE} - \hat{\boldsymbol{\beta}}_{RE})' [\widehat{Var}(\hat{\boldsymbol{\beta}}_{FE}) - \widehat{Var}(\hat{\boldsymbol{\beta}}_{RE})]^{-1} (\hat{\boldsymbol{\beta}}_{FE} - \hat{\boldsymbol{\beta}}_{RE}) \]
其中,\( \hat{\boldsymbol{\beta}}_{FE} \) 和 \( \hat{\boldsymbol{\beta}}_{RE} \) 分别是固定效应和随机效应模型的系数向量估计量,\( \widehat{Var}(\hat{\boldsymbol{\beta}}_{FE}) \) 和 \( \widehat{Var}(\hat{\boldsymbol{\beta}}_{RE}) \) 分别是它们的方差-协方差矩阵的估计量。
在原假设 \( H_0 \) 成立的条件下,Hausman 检验统计量 \( H \) 近似服从自由度为 \( k \) 的卡方分布 (Chi-squared Distribution),其中 \( k \) 是模型中解释变量的个数 (不包括常数项)。
Hausman 检验的决策规则:
① 计算 Hausman 检验统计量 \( H \)。
② 确定显著性水平 \( \alpha \) (通常为 0.05 或 0.01)。
③ 查找卡方分布临界值:根据自由度 \( k \) 和显著性水平 \( \alpha \),查找卡方分布的临界值 \( \chi^2_{k, \alpha} \)。
④ 比较检验统计量与临界值:
▮▮▮▮⚝ 如果 \( H > \chi^2_{k, \alpha} \),则拒绝原假设 \( H_0 \),接受备择假设 \( H_1 \)。结论是随机效应模型假设不成立,个体效应与解释变量相关,应该使用固定效应模型。
▮▮▮▮⚝ 如果 \( H \leq \chi^2_{k, \alpha} \),则不拒绝原假设 \( H_0 \)。结论是随机效应模型假设可能成立,个体效应与解释变量不相关,可以使用随机效应模型。但为了稳健性,也可以选择使用固定效应模型,因为固定效应模型在个体效应与解释变量相关或不相关的情况下都是一致的。
Hausman 检验的注意事项:
① 检验的有效性:Hausman 检验的有效性依赖于固定效应模型在原假设和备择假设下都是一致的。如果固定效应模型本身存在问题 (例如,遗漏变量、测量误差等),Hausman 检验的结果可能不可靠。
② 负的 Hausman 统计量:在某些情况下,计算得到的 Hausman 统计量可能是负值。这通常是由于抽样波动或方差矩阵估计不精确造成的。当出现负的 Hausman 统计量时,通常将其视为 0。
③ 检验的局限性:Hausman 检验只能判断应该使用固定效应模型还是随机效应模型,但不能提供关于个体效应与解释变量相关性的具体信息。此外,Hausman 检验的效力 (Power) 可能不高,尤其是在样本容量较小或模型设定不合理的情况下。
④ 模型选择的稳健性:即使 Hausman 检验结果支持随机效应模型,为了稳健性考虑,许多研究者仍然倾向于使用固定效应模型,因为固定效应模型对个体效应与解释变量之间的相关性不敏感,具有更强的稳健性。
总结:Hausman 检验是一种常用的面板数据模型选择方法,用于判断应该使用固定效应模型还是随机效应模型。Hausman 检验基于比较固定效应估计量和随机效应估计量之间的差异,检验随机效应模型的核心假设是否成立。根据 Hausman 检验的结果,研究者可以选择更合适的面板数据模型进行分析。然而,Hausman 检验并非完美无缺,模型选择还需要结合理论分析、数据特点和研究目的进行综合考虑。
参考文献
⚝ Baltagi, B. H. (2021). Econometric analysis of panel data. John Wiley & Sons.
⚝ Wooldridge, J. M. (2010). Econometric analysis of cross section and panel data. MIT press.
⚝ Arellano, M. (2003). Panel data econometrics. Oxford University Press.
⚝ Hsiao, C. (2014). Analysis of panel data. Cambridge university press.
END_OF_CHAPTER
8. chapter 8: 时间序列分析:单变量时间序列模型 (Time Series Analysis: Univariate Time Series Models)
8.1 时间序列数据的基本概念 (Basic Concepts of Time Series Data)
时间序列数据 (Time series data) 是指在不同时间点上收集到的、按时间顺序排列的数据序列。与截面数据 (Cross-sectional data) 不同,时间序列数据关注的是同一主体在不同时间点的观测值,例如,一个国家多年的 GDP 数据,或者某股票每日的收盘价。时间序列分析 (Time series analysis) 的目标是从这些按时间顺序排列的数据中提取有意义的统计信息和特征,进而理解数据的动态结构和演变规律,并进行预测。
8.1.1 平稳性 (Stationarity)
平稳性 (Stationarity) 是时间序列分析中一个至关重要的概念。一个时间序列被认为是平稳的,如果其统计特性,如均值 (mean)、方差 (variance) 和自相关性 (autocorrelation),不随时间变化而变化。更严格地说,我们区分严平稳 (Strict Stationarity) 和 弱平稳 (Weak Stationarity) (也称为协方差平稳 (Covariance Stationarity) 或二阶平稳 (Second-order Stationarity))。
① 严平稳 (Strict Stationarity):一个时间序列 \(\{y_t\}\) 被称为严平稳,如果对于任何时间点 \(t_1, t_2, ..., t_k\) 和任何时间滞后 \(h\),联合分布 \( (y_{t_1}, y_{t_2}, ..., y_{t_k}) \) 与 \( (y_{t_1+h}, y_{t_2+h}, ..., y_{t_k+h}) \) 相同。这意味着时间序列的概率结构在时间平移下是不变的。
② 弱平稳 (Weak Stationarity):一个时间序列 \(\{y_t\}\) 被称为弱平稳,如果满足以下两个条件:
▮▮▮▮ⓑ 均值 (Mean) 为常数:\(E(y_t) = \mu\),对于所有时间 \(t\)。
▮▮▮▮ⓒ 自协方差函数 (Autocovariance function) 只依赖于时间间隔 \(h = j-k\),而不依赖于具体的时间点 \(j\) 和 \(k\):\(Cov(y_j, y_k) = \gamma(j-k) = \gamma(h)\)。
在实际应用中,弱平稳性是更常用的概念,因为它更容易检验和满足,并且对于许多计量经济学模型来说已经足够。非平稳时间序列 (Non-stationary time series) 的统计特性会随时间变化,这使得传统的回归分析方法可能失效,并导致虚假回归 (spurious regression) 问题。因此,在进行时间序列分析之前,通常需要检验时间序列的平稳性,并对非平稳序列进行平稳化处理。常用的平稳性检验方法包括 ADF 检验 (Augmented Dickey-Fuller test) 和 KPSS 检验 (Kwiatkowski-Phillips-Schmidt-Shin test) 等。平稳化处理方法包括差分 (differencing) 和去趋势 (detrending) 等。
8.1.2 自相关函数 (Autocorrelation Function - ACF) 和偏自相关函数 (Partial Autocorrelation Function - PACF)
自相关函数 (Autocorrelation Function - ACF) 和偏自相关函数 (Partial Autocorrelation Function - PACF) 是分析时间序列数据自相关性的重要工具。它们可以帮助我们识别时间序列的模式,并为模型选择提供依据。
① 自相关函数 (ACF):自相关函数 \(\rho(h)\) 衡量的是时间序列 \(y_t\) 与其滞后 \(h\) 阶的值 \(y_{t-h}\) 之间的线性相关程度。对于平稳时间序列,ACF 定义为:
\[ \rho(h) = \frac{Cov(y_t, y_{t-h})}{\sqrt{Var(y_t)Var(y_{t-h})}} = \frac{E[(y_t - \mu)(y_{t-h} - \mu)]}{\gamma(0)} \]
其中,\(\mu = E(y_t)\) 是时间序列的均值,\(\gamma(0) = Var(y_t)\) 是时间序列的方差。由于平稳性假设,\(\rho(h)\) 只依赖于滞后阶数 \(h\)。样本自相关函数 (Sample Autocorrelation Function - SACF) 可以通过样本数据估计得到,通常记为 \(\hat{\rho}(h)\)。ACF 图 (ACF plot) 是将 \(\hat{\rho}(h)\) 对滞后阶数 \(h\) 作图,常用于初步判断时间序列的自相关性。
② 偏自相关函数 (PACF):偏自相关函数 \(\phi_{hh}\) 衡量的是在给定中间滞后阶数 \(1, 2, ..., h-1\) 的条件下,时间序列 \(y_t\) 与其滞后 \(h\) 阶的值 \(y_{t-h}\) 之间的条件线性相关程度。更具体地说,\(\phi_{hh}\) 是在回归模型
\[ y_t = \phi_{h1}y_{t-1} + \phi_{h2}y_{t-2} + ... + \phi_{h,h-1}y_{t-h+1} + \phi_{hh}y_{t-h} + e_t \]
中,系数 \(\phi_{hh}\) 的值。样本偏自相关函数 (Sample Partial Autocorrelation Function - SPACF) 可以通过样本数据估计得到,通常记为 \(\hat{\phi}_{hh}\)。PACF 图 (PACF plot) 是将 \(\hat{\phi}_{hh}\) 对滞后阶数 \(h\) 作图,常用于识别自回归模型 (AR model) 的阶数。
ACF 和 PACF 图的形状对于识别时间序列模型的类型至关重要。例如,对于自回归模型 (AR model),PACF 在某个滞后阶数后截尾 (cut off),而 ACF 则拖尾 (tail off)。对于移动平均模型 (MA model),ACF 在某个滞后阶数后截尾,而 PACF 则拖尾。对于混合模型,如 ARMA 模型,ACF 和 PACF 都拖尾。
8.2 自回归模型 (Autoregressive Model - AR)
自回归模型 (Autoregressive Model - AR) 是一种常用的时间序列模型,它假设当前时刻的值 \(y_t\) 与过去时刻的值 \(y_{t-1}, y_{t-2}, ..., y_{t-p}\) 之间存在线性关系。一个 \(p\) 阶自回归模型,记为 AR(p),可以表示为:
\[ y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + ... + \phi_p y_{t-p} + \epsilon_t \]
其中,\(c\) 是常数项,\(\phi_1, \phi_2, ..., \phi_p\) 是自回归系数,\(\epsilon_t\) 是白噪声 (white noise) 过程,即 \(\epsilon_t \sim i.i.d.(0, \sigma^2)\)。
AR 模型的性质:
① 平稳性条件 (Stationarity Condition):为了保证 AR(p) 模型是平稳的,自回归系数 \(\phi_1, \phi_2, ..., \phi_p\) 需要满足一定的条件。对于 AR(p) 模型,平稳性条件可以用特征方程 (characteristic equation) 来表示。AR(p) 模型的特征方程为:
\[ 1 - \phi_1 L - \phi_2 L^2 - ... - \phi_p L^p = 0 \]
其中,\(L\) 是滞后算子 (lag operator),\(L^k y_t = y_{t-k}\)。AR(p) 模型平稳的充要条件是特征方程的所有根 (在复平面上) 的模都大于 1,或者等价地说,所有根的倒数都位于单位圆内。对于 AR(1) 模型 \(y_t = c + \phi_1 y_{t-1} + \epsilon_t\),平稳性条件简化为 \(|\phi_1| < 1\)。
② ACF 和 PACF:AR(p) 模型的 ACF 呈现拖尾 (tailing off) 的特点,即 ACF 值随着滞后阶数 \(h\) 的增加而逐渐衰减,但不截尾。PACF 在滞后阶数 \(p\) 之后截尾 (cutting off),即对于 \(h > p\),\(\phi_{hh} \approx 0\)。这个性质可以用来识别 AR 模型的阶数 \(p\)。
AR 模型的估计与检验:
AR 模型的参数 \(c, \phi_1, \phi_2, ..., \phi_p\) 可以使用普通最小二乘法 (Ordinary Least Squares - OLS) 进行估计。在平稳性假设下,OLS 估计量是相合且渐近正态分布的。模型阶数 \(p\) 的选择可以使用信息准则 (Information Criteria),如 AIC (Akaike Information Criterion) 和 BIC (Bayesian Information Criterion)。模型拟合后,需要进行残差检验,以确保残差是白噪声,模型设定合理。常用的残差检验包括 Ljung-Box 检验 (Ljung-Box test)。
8.3 移动平均模型 (Moving Average Model - MA)
移动平均模型 (Moving Average Model - MA) 是另一种常用的时间序列模型,它假设当前时刻的值 \(y_t\) 与过去时刻的白噪声项 \(\epsilon_{t-1}, \epsilon_{t-2}, ..., \epsilon_{t-q}\) 之间存在线性关系。一个 \(q\) 阶移动平均模型,记为 MA(q),可以表示为:
\[ y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + ... + \theta_q \epsilon_{t-q} \]
其中,\(\mu\) 是常数项 (通常表示时间序列的均值),\(\theta_1, \theta_2, ..., \theta_q\) 是移动平均系数,\(\epsilon_t\) 是白噪声过程,即 \(\epsilon_t \sim i.i.d.(0, \sigma^2)\)。
MA 模型的性质:
① 平稳性 (Stationarity):MA 模型总是平稳的,无论移动平均系数 \(\theta_1, \theta_2, ..., \theta_q\) 取何值。这是因为 MA 模型是白噪声的线性组合,而白噪声是平稳的。
② 可逆性 (Invertibility):为了保证 MA 模型的参数估计和预测的有效性,通常需要 MA 模型是可逆的。可逆性条件类似于 AR 模型的平稳性条件,也用特征方程来表示。MA(q) 模型的特征方程为:
\[ 1 + \theta_1 L + \theta_2 L^2 + ... + \theta_q L^q = 0 \]
MA(q) 模型可逆的充要条件是特征方程的所有根 (在复平面上) 的模都大于 1,或者等价地说,所有根的倒数都位于单位圆内。对于 MA(1) 模型 \(y_t = \mu + \epsilon_t + \theta_1 \epsilon_{t-1}\),可逆性条件简化为 \(|\theta_1| < 1\)。
③ ACF 和 PACF:MA(q) 模型的 ACF 在滞后阶数 \(q\) 之后截尾 (cutting off),即对于 \(h > q\),\(\rho(h) \approx 0\)。PACF 呈现拖尾 (tailing off) 的特点。这个性质可以用来识别 MA 模型的阶数 \(q\)。
MA 模型的估计与检验:
MA 模型的参数 \(\mu, \theta_1, \theta_2, ..., \theta_q\) 的估计方法比 AR 模型复杂,因为 MA 模型不是线性回归模型。常用的估计方法包括 矩估计 (Method of Moments) 和 最大似然估计 (Maximum Likelihood Estimation - MLE)。模型阶数 \(q\) 的选择也可以使用信息准则 AIC 和 BIC。模型拟合后,同样需要进行残差检验,如 Ljung-Box 检验。
8.4 自回归移动平均模型 (Autoregressive Moving Average Model - ARMA)
自回归移动平均模型 (Autoregressive Moving Average Model - ARMA) 结合了自回归模型 (AR) 和移动平均模型 (MA) 的特点,可以更灵活地拟合时间序列数据。一个 ARMA(p, q) 模型包含 \(p\) 阶自回归项和 \(q\) 阶移动平均项,可以表示为:
\[ y_t = c + \phi_1 y_{t-1} + \phi_2 y_{t-2} + ... + \phi_p y_{t-p} + \epsilon_t + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + ... + \theta_q \epsilon_{t-q} \]
其中,\(c\) 是常数项,\(\phi_1, ..., \phi_p\) 是自回归系数,\(\theta_1, ..., \theta_q\) 是移动平均系数,\(\epsilon_t\) 是白噪声过程。
ARMA 模型的性质:
① 平稳性条件 (Stationarity Condition):ARMA(p, q) 模型的平稳性条件与 AR(p) 模型相同,只取决于自回归部分。即特征方程 \(1 - \phi_1 L - \phi_2 L^2 - ... - \phi_p L^p = 0\) 的所有根的模都必须大于 1。
② 可逆性条件 (Invertibility Condition):ARMA(p, q) 模型的可逆性条件与 MA(q) 模型相同,只取决于移动平均部分。即特征方程 \(1 + \theta_1 L + \theta_2 L^2 + ... + \theta_q L^q = 0\) 的所有根的模都必须大于 1。
③ ACF 和 PACF:ARMA(p, q) 模型的 ACF 和 PACF 都呈现拖尾 (tailing off) 的特点。具体来说,ACF 从 \(q\) 阶之后开始拖尾,PACF 从 \(p\) 阶之后开始拖尾。当 \(p\) 和 \(q\) 都大于 0 时,ACF 和 PACF 的截尾特征不再明显,需要结合 AIC、BIC 等信息准则来选择合适的模型阶数。
ARMA 模型的识别、估计与检验:
ARMA 模型的识别 (模型阶数 \(p\) 和 \(q\) 的选择) 通常结合 ACF 和 PACF 图的形状以及信息准则 (AIC, BIC) 进行。模型参数的估计通常使用最大似然估计 (MLE) 方法。模型拟合后,需要进行残差检验,如 Ljung-Box 检验,以确保残差是白噪声。
模型选择策略 (Model Selection Strategy):
在实际应用中,选择合适的 ARMA 模型阶数 \(p\) 和 \(q\) 是一个关键步骤。常用的模型选择策略包括:
① 观察 ACF 和 PACF 图:初步判断 AR 和 MA 部分的阶数。
② 使用信息准则 (AIC, BIC):计算不同阶数组合的 ARMA 模型的 AIC 和 BIC 值,选择信息准则值最小的模型。
③ 模型诊断检验:对选定的模型进行残差检验,确保残差是白噪声。
8.5 自回归求和移动平均模型 (Autoregressive Integrated Moving Average Model - ARIMA)
自回归求和移动平均模型 (Autoregressive Integrated Moving Average Model - ARIMA) 是用于拟合非平稳时间序列数据的模型。ARIMA 模型的核心思想是将非平稳时间序列通过差分 (differencing) 转化为平稳时间序列,然后对平稳序列建立 ARMA 模型。一个 ARIMA(p, d, q) 模型包含三个参数:
⚝ \(p\): 自回归阶数 (AR order)
⚝ \(d\): 差分阶数 (Integrated order)
⚝ \(q\): 移动平均阶数 (MA order)
ARIMA(p, d, q) 模型的建模步骤如下:
① 平稳性检验:首先检验时间序列 \(y_t\) 的平稳性。如果序列是非平稳的,通常需要进行差分处理。
② 差分 (Differencing):对非平稳时间序列 \(y_t\) 进行 \(d\) 阶差分,得到差分后的序列 \(w_t = \Delta^d y_t\)。其中,\(\Delta\) 是一阶差分算子,\(\Delta y_t = y_t - y_{t-1}\),\(\Delta^d\) 表示 \(d\) 阶差分。选择合适的差分阶数 \(d\),使得差分后的序列 \(w_t\) 变为平稳序列。常用的方法是通过观察 ACF 图和进行单位根检验 (Unit Root Test),如 ADF 检验,来确定合适的差分阶数。
③ ARMA 模型识别与估计:对平稳序列 \(w_t\) 建立 ARMA(p, q) 模型。模型阶数 \(p\) 和 \(q\) 的选择可以使用 ACF 和 PACF 图以及信息准则 (AIC, BIC)。模型参数的估计可以使用最大似然估计 (MLE) 方法。
④ 模型检验:对拟合的 ARIMA(p, d, q) 模型进行残差检验,确保残差是白噪声。
⑤ 预测 (Forecasting):使用拟合的 ARIMA 模型进行未来值的预测。预测时需要注意将差分还原,得到原始时间序列的预测值。
季节性 ARIMA 模型 (Seasonal ARIMA - SARIMA):
对于具有季节性 (seasonality) 的时间序列数据,可以使用季节性 ARIMA 模型 (SARIMA)。SARIMA 模型在 ARIMA 模型的基础上,考虑了季节性成分。一个 SARIMA(p, d, q)(P, D, Q)\(_S\) 模型包含季节性和非季节性两部分,其中 (p, d, q) 是非季节性部分的阶数,(P, D, Q)\(_S\) 是季节性部分的阶数,\(S\) 是季节周期长度。SARIMA 模型的建模和分析方法与 ARIMA 模型类似,但需要考虑季节性成分的影响。
总结:
单变量时间序列模型,如 AR, MA, ARMA 和 ARIMA 模型,是时间序列分析的基础。理解这些模型的基本概念、性质、识别、估计和检验方法,对于进行时间序列建模和预测至关重要。在实际应用中,需要根据数据的特点和分析目标,选择合适的模型,并进行充分的模型诊断检验,以确保模型的有效性和可靠性。
参考文献 (References):
⚝ Hamilton, J. D. (1994). Time series analysis. Princeton university press.
⚝ Lütkepohl, H. (2005). New introduction to multiple time series analysis. Springer Science & Business Media.
⚝ Enders, W. (2018). Applied econometric time series. John Wiley & Sons.
⚝ Box, G. E. P., Jenkins, G. M., Reinsel, G. C., & Ljung, G. M. (2015). Time series analysis: forecasting and control. John Wiley & Sons.
END_OF_CHAPTER
9. chapter 9: 时间序列分析:多变量时间序列模型 (Time Series Analysis: Multivariate Time Series Models)
9.1 向量自回归模型 (Vector Autoregressive Model - VAR)
向量自回归模型 (Vector Autoregressive Model, VAR) 是用于分析多个时间序列变量之间动态关系的常用模型。与单变量时间序列模型不同,VAR 模型能够捕捉多个变量之间的相互影响,从而更全面地揭示时间序列数据的复杂结构。
9.1.1 VAR 模型的构建与估计 (Construction and Estimation of VAR Models)
VAR 模型将系统中每个内生变量作为系统中所有内生变量滞后值的函数进行建模。一个 \(p\) 阶的 VAR 模型,简记为 VAR(p),可以表示为:
\[ \mathbf{y}_t = \mathbf{c} + \mathbf{\Phi}_1 \mathbf{y}_{t-1} + \mathbf{\Phi}_2 \mathbf{y}_{t-2} + \cdots + \mathbf{\Phi}_p \mathbf{y}_{t-p} + \mathbf{\epsilon}_t \]
其中,
⚝ \(\mathbf{y}_t\) 是一个 \(K \times 1\) 的内生变量向量,表示在时间 \(t\) 的观测值,\(K\) 是内生变量的数量。例如,如果研究 GDP 和通货膨胀率之间的关系,则 \(\mathbf{y}_t = \begin{pmatrix} GDP_t \\ Inflation_t \end{pmatrix}\)。
⚝ \(\mathbf{c}\) 是一个 \(K \times 1\) 的常数向量,表示模型的截距项。
⚝ \(\mathbf{\Phi}_i\) 是一个 \(K \times K\) 的系数矩阵,表示第 \(i\) 阶滞后项的系数。这些矩阵捕捉了变量之间的动态关系。
⚝ \(\mathbf{\epsilon}_t\) 是一个 \(K \times 1\) 的误差项向量,表示在时间 \(t\) 的随机扰动。假设 \(\mathbf{\epsilon}_t\) 是白噪声过程,即 \(E(\mathbf{\epsilon}_t) = \mathbf{0}\),\(E(\mathbf{\epsilon}_t \mathbf{\epsilon}_t') = \mathbf{\Sigma}\) (协方差矩阵为 \(\mathbf{\Sigma}\),正定矩阵),且 \(E(\mathbf{\epsilon}_t \mathbf{\epsilon}_s') = \mathbf{0}\) 对于 \(t \neq s\)。
VAR 模型的构建步骤:
① 确定内生变量:首先需要确定要包含在 VAR 模型中的内生变量。这些变量应该是研究关注的、相互影响的时间序列变量。理论经济学知识和研究目的是选择内生变量的关键。
② 确定滞后阶数 \(p\):选择合适的滞后阶数 \(p\) 是 VAR 模型构建的重要一步。滞后阶数决定了模型中包含的过去信息的长度。常用的方法包括:
⚝ 信息准则 (Information Criteria):例如,赤池信息准则 (Akaike Information Criterion, AIC)、贝叶斯信息准则 (Bayesian Information Criterion, BIC) 和汉南-奎因信息准则 (Hannan-Quinn Information Criterion, HQIC)。这些准则通过权衡模型的拟合优度和模型的复杂程度来选择最优滞后阶数。通常选择使信息准则值最小的滞后阶数。
⚝ 似然比检验 (Likelihood Ratio Test):可以进行似然比检验来比较不同滞后阶数模型的拟合效果。
⚝ 自相关和偏自相关函数 (Autocorrelation Function, ACF and Partial Autocorrelation Function, PACF):虽然 ACF 和 PACF 主要用于单变量时间序列模型,但在 VAR 模型构建的初步阶段,可以作为参考。
③ 估计模型参数:在确定内生变量和滞后阶数后,需要估计 VAR 模型的参数,即常数向量 \(\mathbf{c}\) 和系数矩阵 \(\mathbf{\Phi}_1, \mathbf{\Phi}_2, \cdots, \mathbf{\Phi}_p\)。常用的估计方法是普通最小二乘法 (Ordinary Least Squares, OLS)。由于 VAR 模型可以看作是方程组,对每个方程分别应用 OLS 估计即可得到一致且有效的参数估计。
VAR 模型的估计方法:
对于 VAR(p) 模型,可以将其视为一组联立方程模型,其中每个方程对应一个内生变量。例如,对于一个二元 VAR(1) 模型:
\[ \begin{aligned} y_{1,t} &= c_1 + \phi_{11}^{(1)} y_{1,t-1} + \phi_{12}^{(1)} y_{2,t-1} + \epsilon_{1,t} \\ y_{2,t} &= c_2 + \phi_{21}^{(1)} y_{1,t-1} + \phi_{22}^{(1)} y_{2,t-1} + \epsilon_{2,t} \end{aligned} \]
可以使用 OLS 方法分别估计这两个方程。对于第一个方程,将 \(y_{1,t}\) 作为被解释变量,\(1, y_{1,t-1}, y_{2,t-1}\) 作为解释变量进行回归;对于第二个方程,将 \(y_{2,t}\) 作为被解释变量,\(1, y_{1,t-1}, y_{2,t-1}\) 作为解释变量进行回归。由于每个方程的解释变量相同,因此方程组的 OLS 估计等价于对每个方程单独进行 OLS 估计。
VAR 模型的稳定性条件:
为了保证 VAR 模型分析的有效性,需要模型是稳定的 (stable)。VAR 模型的稳定性条件可以通过考察其特征方程的根来判断。VAR(p) 模型的稳定性条件是,其伴随矩阵 (companion matrix) 的所有特征根 (eigenvalues) 的模都小于 1。如果 VAR 模型不稳定,则脉冲响应分析和方差分解的结果可能不可靠。
9.1.2 VAR 模型的脉冲响应分析 (Impulse Response Analysis of VAR Models)
脉冲响应分析 (Impulse Response Analysis, IRA) 是 VAR 模型分析的重要工具,用于考察当一个内生变量受到一个冲击 (shock) 时,系统内所有内生变量在未来一段时间内的动态响应路径。脉冲响应分析可以帮助理解变量之间的动态因果关系和冲击的传递机制。
脉冲响应函数的推导:
为了进行脉冲响应分析,通常将 VAR 模型转化为向量移动平均 (Vector Moving Average, VMA) 表示。VAR(p) 模型可以表示为 VMA(\(\infty\)) 模型:
\[ \mathbf{y}_t = \mathbf{\mu} + \mathbf{\Theta}_0 \mathbf{\epsilon}_t + \mathbf{\Theta}_1 \mathbf{\epsilon}_{t-1} + \mathbf{\Theta}_2 \mathbf{\epsilon}_{t-2} + \cdots = \mathbf{\mu} + \sum_{i=0}^{\infty} \mathbf{\Theta}_i \mathbf{\epsilon}_{t-i} \]
其中,\(\mathbf{\mu} = (\mathbf{I} - \mathbf{\Phi}_1 - \cdots - \mathbf{\Phi}_p)^{-1} \mathbf{c}\) 是均值向量,\(\mathbf{\Theta}_0 = \mathbf{I}\) 是单位矩阵,系数矩阵 \(\mathbf{\Theta}_i\) 可以通过 VAR 模型的系数矩阵 \(\mathbf{\Phi}_j\) 递归计算得到。
脉冲响应函数 \(\mathbf{\Theta}_i\) 的元素 \(\Theta_{jk, i}\) 表示当在时间 \(t\) 给第 \(k\) 个变量 \((y_{k,t})\) 的误差项 \(\epsilon_{k,t}\) 一个单位正向冲击时,第 \(j\) 个变量 \((y_{j,t+i})\) 在第 \(i\) 期的响应。
脉冲响应分析的步骤:
① 选择冲击变量和响应变量:确定要分析的冲击变量和响应变量。例如,想考察货币政策冲击对 GDP 和通货膨胀率的影响,则冲击变量可以是货币政策工具 (如利率),响应变量可以是 GDP 和通货膨胀率。
② 选择冲击类型:常用的冲击类型包括:
⚝ 正交化冲击 (Orthogonalized Impulse):由于 VAR 模型误差项 \(\mathbf{\epsilon}_t\) 的协方差矩阵 \(\mathbf{\Sigma}\) 可能非对角,即误差项之间可能存在相关性,为了识别独立的结构性冲击,通常需要对误差项进行正交化处理。常用的方法是 Cholesky 分解。通过 Cholesky 分解,将 \(\mathbf{\Sigma} = \mathbf{P} \mathbf{P}'\),其中 \(\mathbf{P}\) 是下三角矩阵。定义结构性冲击 \(\mathbf{u}_t = \mathbf{P}^{-1} \mathbf{\epsilon}_t\),则 \(\mathbf{\epsilon}_t = \mathbf{P} \mathbf{u}_t\),且 \(E(\mathbf{u}_t \mathbf{u}_t') = \mathbf{P}^{-1} E(\mathbf{\epsilon}_t \mathbf{\epsilon}_t') (\mathbf{P}^{-1})' = \mathbf{P}^{-1} \mathbf{\Sigma} (\mathbf{P}')^{-1} = \mathbf{P}^{-1} \mathbf{P} \mathbf{P}' (\mathbf{P}')^{-1} = \mathbf{I}\)。结构性 VAR 模型可以表示为:
\[ \mathbf{y}_t = \mathbf{c} + \mathbf{\Phi}_1 \mathbf{y}_{t-1} + \cdots + \mathbf{\Phi}_p \mathbf{y}_{t-p} + \mathbf{P} \mathbf{u}_t \]
相应的 VMA 表示为:
\[ \mathbf{y}_t = \mathbf{\mu} + \sum_{i=0}^{\infty} \mathbf{\Theta}_i \mathbf{P} \mathbf{u}_{t-i} = \mathbf{\mu} + \sum_{i=0}^{\infty} \mathbf{\Theta}_i^* \mathbf{u}_{t-i} \]
其中,\(\mathbf{\Theta}_i^* = \mathbf{\Theta}_i \mathbf{P}\) 是正交化脉冲响应函数。
⚝ 结构性冲击 (Structural Impulse):在结构性 VAR 模型 (Structural VAR, SVAR) 中,通过经济理论施加约束,直接识别结构性冲击。例如,AB 模型和递归模型。
③ 计算和绘制脉冲响应函数:根据选择的冲击类型,计算脉冲响应函数 \(\mathbf{\Theta}_i\) 或 \(\mathbf{\Theta}_i^*\)。通常绘制脉冲响应函数图,横轴表示冲击发生后的期数,纵轴表示响应变量的响应程度。同时,可以计算脉冲响应函数的置信区间,以评估估计的可靠性。
脉冲响应分析的解释:
脉冲响应函数图可以直观地展示变量之间的动态关系。例如,如果一个正向货币政策冲击导致 GDP 在短期内上升,长期内下降,则可以推断货币政策对经济活动存在动态影响。脉冲响应分析的结果需要结合经济理论进行解释。
9.1.3 VAR 模型的方差分解 (Variance Decomposition of VAR Models)
方差分解 (Variance Decomposition, VD) 是另一种 VAR 模型分析的重要工具,用于评估系统中每个结构性冲击对内生变量预测方差的贡献度。方差分解可以帮助理解不同冲击在解释变量波动中的相对重要性。
方差分解的推导:
基于 VMA 表示,内生变量 \(\mathbf{y}_t\) 可以表示为结构性冲击 \(\mathbf{u}_t, \mathbf{u}_{t-1}, \cdots\) 的线性组合:
\[ \mathbf{y}_t = \mathbf{\mu} + \sum_{i=0}^{\infty} \mathbf{\Theta}_i^* \mathbf{u}_{t-i} \]
对于第 \(j\) 个变量 \(y_{j,t}\) 的 \(h\) 步预测误差方差,可以分解为各个结构性冲击的贡献之和。第 \(k\) 个结构性冲击 \(u_{k,t}\) 对 \(y_{j,t}\) 的 \(h\) 步预测误差方差的贡献度为:
\[ \text{VD}_{jk}(h) = \frac{\sum_{i=0}^{h-1} (\Theta_{jk, i}^*)^2}{\text{MSE}(y_{j,t+h}| \mathcal{I}_t)} \]
其中,\(\Theta_{jk, i}^*\) 是正交化脉冲响应函数矩阵 \(\mathbf{\Theta}_i^*\) 的第 \(j\) 行第 \(k\) 列元素,表示第 \(k\) 个冲击对第 \(j\) 个变量在第 \(i\) 期的响应。\(\text{MSE}(y_{j,t+h}| \mathcal{I}_t)\) 是在信息集 \(\mathcal{I}_t\) 条件下,\(y_{j,t}\) 的 \(h\) 步预测的均方误差 (Mean Squared Error, MSE)。
方差分解的步骤:
① 进行脉冲响应分析:首先需要进行脉冲响应分析,得到正交化脉冲响应函数 \(\mathbf{\Theta}_i^*\)。
② 计算预测误差方差:计算每个内生变量的 \(h\) 步预测误差方差。
③ 计算方差分解贡献度:根据公式计算每个结构性冲击对每个内生变量预测误差方差的贡献度。通常计算不同预测期数 \(h\) 的方差分解结果,并绘制方差分解图。
方差分解的解释:
方差分解结果以百分比的形式表示,展示了在不同预测期数,每个结构性冲击对内生变量波动性的解释程度。例如,如果对 GDP 波动性的方差分解结果显示,货币政策冲击在短期内贡献较小,而技术冲击贡献较大,则可以推断技术冲击是 GDP 波动的主要来源。方差分解结果同样需要结合经济理论进行解释。
9.2 协整与误差修正模型 (Cointegration and Error Correction Model - ECM)
协整 (Cointegration) 和误差修正模型 (Error Correction Model, ECM) 是用于分析具有长期均衡关系的非平稳时间序列变量的重要工具。当多个时间序列变量都是非平稳的,但它们的线性组合可能是平稳的,这时就存在协整关系。ECM 能够捕捉变量之间的长期均衡关系和短期动态调整过程。
9.2.1 协整的概念与检验 (Concepts and Tests of Cointegration)
协整的概念:
如果两个或多个非平稳时间序列变量 \(y_{1,t}, y_{2,t}, \cdots, y_{k,t}\) (通常为同阶单整过程,如 I(1) 过程) 存在一个或多个线性组合 \(z_t = \mathbf{\beta}' \mathbf{y}_t = \beta_1 y_{1,t} + \beta_2 y_{2,t} + \cdots + \beta_k y_{k,t}\) 是平稳的 (I(0) 过程),则称这些变量之间存在协整关系,\(\mathbf{\beta} = (\beta_1, \beta_2, \cdots, \beta_k)'\) 称为协整向量 (cointegrating vector)。协整关系意味着这些变量之间存在长期稳定的均衡关系,即使在短期内可能偏离均衡,但长期来看会趋向于回到均衡状态。
协整检验:
常用的协整检验方法包括:
① Engle-Granger 两步法 (Engle-Granger Two-Step Method):适用于检验两个变量之间的协整关系。
⚝ 第一步:协整回归 (Cointegrating Regression):对非平稳变量 \(y_{1,t}\) 和 \(y_{2,t}\) 进行 OLS 回归:
\[ y_{1,t} = \alpha + \beta y_{2,t} + e_t \]
得到残差 \(\hat{e}_t = y_{1,t} - \hat{\alpha} - \hat{\beta} y_{2,t}\)。
⚝ 第二步:残差平稳性检验:对残差序列 \(\hat{e}_t\) 进行单位根检验 (Unit Root Test),例如 ADF 检验 (Augmented Dickey-Fuller Test)。如果残差序列是平稳的,则拒绝原假设 (不存在协整关系),认为 \(y_{1,t}\) 和 \(y_{2,t}\) 之间存在协整关系。
② Johansen 检验 (Johansen Test):适用于检验多个变量之间的协整关系,可以同时检验协整向量的个数。Johansen 检验基于向量自回归模型 (VAR)。
⚝ 构建 VAR 模型:对变量向量 \(\mathbf{y}_t = (y_{1,t}, y_{2,t}, \cdots, y_{k,t})'\) 构建 VAR(p) 模型:
\[ \mathbf{y}_t = \mathbf{c} + \mathbf{\Phi}_1 \mathbf{y}_{t-1} + \cdots + \mathbf{\Phi}_p \mathbf{y}_{t-p} + \mathbf{\epsilon}_t \]
⚝ 检验秩 (Rank) 矩阵 \(\mathbf{\Pi}\):将 VAR 模型表示为向量误差修正模型 (Vector Error Correction Model, VECM) 形式:
\[ \Delta \mathbf{y}_t = \mathbf{c} + \mathbf{\Pi} \mathbf{y}_{t-1} + \mathbf{\Gamma}_1 \Delta \mathbf{y}_{t-1} + \cdots + \mathbf{\Gamma}_{p-1} \Delta \mathbf{y}_{t-p+1} + \mathbf{\epsilon}_t \]
其中,\(\mathbf{\Pi} = \sum_{i=1}^{p} \mathbf{\Phi}_i - \mathbf{I} = \mathbf{\alpha} \mathbf{\beta}'\),\(\mathbf{\Gamma}_i = - \sum_{j=i+1}^{p} \mathbf{\Phi}_j\)。矩阵 \(\mathbf{\Pi}\) 包含了长期关系的信息。Johansen 检验通过检验矩阵 \(\mathbf{\Pi}\) 的秩 \(r\) 来确定协整向量的个数。
▮▮▮▮⚝ 如果 \(\text{rank}(\mathbf{\Pi}) = 0\),则不存在协整关系。
▮▮▮▮⚝ 如果 \(0 < \text{rank}(\mathbf{\Pi}) = r < k\),则存在 \(r\) 个协整关系。
▮▮▮▮⚝ 如果 \(\text{rank}(\mathbf{\Pi}) = k\),则所有变量都是平稳的 (这种情况通常不考虑协整)。
⚝ 特征值检验统计量:Johansen 检验使用两个检验统计量:迹检验 (trace test) 和最大特征值检验 (maximum eigenvalue test)。
▮▮▮▮⚝ 迹检验:检验原假设 \(H_0: \text{rank}(\mathbf{\Pi}) \leq r\) 对备择假设 \(H_1: \text{rank}(\mathbf{\Pi}) > r\)。
▮▮▮▮⚝ 最大特征值检验:检验原假设 \(H_0: \text{rank}(\mathbf{\Pi}) = r\) 对备择假设 \(H_1: \text{rank}(\mathbf{\Pi}) = r+1\)。
9.2.2 误差修正模型 (Error Correction Model - ECM)
如果变量之间存在协整关系,则可以使用误差修正模型 (Error Correction Model, ECM) 来描述变量之间的长期均衡关系和短期动态调整过程。ECM 将变量的短期波动与长期均衡偏差联系起来。
ECM 的形式:
对于两个协整变量 \(y_{1,t}\) 和 \(y_{2,t}\),假设存在协整关系 \(y_{1,t} - \beta y_{2,t} = u_t\),其中 \(u_t\) 是平稳的均衡误差。ECM 的一般形式为:
\[ \begin{aligned} \Delta y_{1,t} &= \alpha_1 (y_{1,t-1} - \beta y_{2,t-1}) + \sum_{i=1}^{p-1} \gamma_{1i} \Delta y_{1,t-i} + \sum_{i=1}^{p-1} \delta_{1i} \Delta y_{2,t-i} + \epsilon_{1,t} \\ \Delta y_{2,t} &= \alpha_2 (y_{1,t-1} - \beta y_{2,t-1}) + \sum_{i=1}^{p-1} \gamma_{2i} \Delta y_{1,t-i} + \sum_{i=1}^{p-1} \delta_{2i} \Delta y_{2,t-i} + \epsilon_{2,t} \end{aligned} \]
其中,
⚝ \((y_{1,t-1} - \beta y_{2,t-1})\) 是误差修正项 (error correction term),表示上一期的均衡偏差。
⚝ \(\alpha_1\) 和 \(\alpha_2\) 是调整系数 (adjustment coefficients),表示变量偏离长期均衡后,向均衡状态调整的速度。如果 \(\alpha_1 < 0\) 且 \(\alpha_2 > 0\),则表示当 \(y_{1,t-1} > \beta y_{2,t-1}\) 时,\(\Delta y_{1,t}\) 倾向于减小,\(\Delta y_{2,t}\) 倾向于增大,从而使均衡误差减小。
⚝ \(\sum_{i=1}^{p-1} \gamma_{ji} \Delta y_{1,t-i}\) 和 \(\sum_{i=1}^{p-1} \delta_{ji} \Delta y_{2,t-i}\) 是短期动态项,捕捉变量的短期波动。
ECM 的估计与解释:
① 确定协整关系:首先需要通过协整检验确定变量之间是否存在协整关系,并估计协整向量 \(\mathbf{\beta}\)。在 Engle-Granger 两步法中,协整向量 \(\beta\) 在协整回归的第一步中已估计得到。在 Johansen 检验中,协整向量是矩阵 \(\mathbf{\Pi}\) 的特征向量。
② 构建 ECM 模型:根据协整关系,构建 ECM 模型。误差修正项可以使用估计得到的协整关系残差。
③ 估计 ECM 参数:使用 OLS 方法估计 ECM 模型的参数,包括调整系数、短期动态项系数等。
④ 解释 ECM 结果:
⚝ 调整系数:调整系数 \(\alpha_1\) 和 \(\alpha_2\) 的符号和大小反映了变量向长期均衡调整的方向和速度。显著的调整系数表明变量具有误差修正机制。
⚝ 短期动态项:短期动态项系数反映了变量之间的短期动态关系。
⚝ 长期均衡关系:协整向量 \(\mathbf{\beta}\) 刻画了变量之间的长期均衡关系。
VECM (Vector Error Correction Model):
对于多个协整变量,可以使用向量误差修正模型 (Vector Error Correction Model, VECM)。VECM 是 VAR 模型在存在协整关系时的形式。如果 Johansen 检验表明存在 \(r\) 个协整关系,则 VECM 模型包含 \(r\) 个误差修正项。VECM 的形式为:
\[ \Delta \mathbf{y}_t = \mathbf{c} + \mathbf{\alpha} \mathbf{\beta}' \mathbf{y}_{t-1} + \mathbf{\Gamma}_1 \Delta \mathbf{y}_{t-1} + \cdots + \mathbf{\Gamma}_{p-1} \Delta \mathbf{y}_{t-p+1} + \mathbf{\epsilon}_t \]
其中,\(\mathbf{\alpha}\) 是 \(k \times r\) 的调整系数矩阵,\(\mathbf{\beta}\) 是 \(k \times r\) 的协整向量矩阵,\(\mathbf{\beta}' \mathbf{y}_{t-1}\) 是 \(r \times 1\) 的误差修正项向量。
9.3 格兰杰因果关系检验 (Granger Causality Test)
格兰杰因果关系检验 (Granger Causality Test) 是用于检验时间序列变量之间是否存在因果关系的统计方法。需要注意的是,格兰杰因果关系并非真正的因果关系,而是一种基于时间先后顺序的预测关系。如果变量 \(X\) 的滞后值有助于预测变量 \(Y\) 的当前值,则称 \(X\) 是 \(Y\) 的格兰杰原因。
格兰杰因果关系检验的原理:
格兰杰因果关系检验基于以下思想:如果 \(X\) 是 \(Y\) 的格兰杰原因,则在包含 \(Y\) 的过去信息的基础上,加入 \(X\) 的过去信息能够显著提高对 \(Y\) 当前值的预测精度。
格兰杰因果关系检验的模型:
对于两个时间序列变量 \(X_t\) 和 \(Y_t\),检验 \(X\) 是否是 \(Y\) 的格兰杰原因,可以构建如下回归模型:
\[ Y_t = \alpha_0 + \alpha_1 Y_{t-1} + \cdots + \alpha_p Y_{t-p} + \beta_1 X_{t-1} + \cdots + \beta_p X_{t-p} + \epsilon_t \]
原假设 \(H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0\) ( \(X\) 不是 \(Y\) 的格兰杰原因)。备择假设 \(H_1: \beta_1, \beta_2, \cdots, \beta_p\) 中至少有一个不为零 ( \(X\) 是 \(Y\) 的格兰杰原因)。
格兰杰因果关系检验的步骤:
① 确定滞后阶数 \(p\):选择合适的滞后阶数 \(p\)。可以使用信息准则 (AIC, BIC, HQIC) 或似然比检验来选择最优滞后阶数。
② 估计受约束模型和非约束模型:
⚝ 受约束模型 (Restricted Model):在原假设 \(H_0\) 下,即 \(\beta_1 = \beta_2 = \cdots = \beta_p = 0\),模型变为:
\[ Y_t = \alpha_0 + \alpha_1 Y_{t-1} + \cdots + \alpha_p Y_{t-p} + \epsilon_t \]
估计受约束模型,得到残差平方和 \(RSS_R\)。
⚝ 非约束模型 (Unrestricted Model):在备择假设 \(H_1\) 下,即模型为:
\[ Y_t = \alpha_0 + \alpha_1 Y_{t-1} + \cdots + \alpha_p Y_{t-p} + \beta_1 X_{t-1} + \cdots + \beta_p X_{t-p} + \epsilon_t \]
估计非约束模型,得到残差平方和 \(RSS_U\)。
③ 计算 F 统计量:计算 F 统计量:
\[ F = \frac{(RSS_R - RSS_U)/p}{RSS_U/(T - 2p - 1)} \]
其中,\(p\) 是约束条件个数 (即 \(X\) 的滞后阶数),\(T\) 是样本容量。F 统计量服从自由度为 \((p, T - 2p - 1)\) 的 F 分布。
④ 进行假设检验:给定显著性水平 \(\alpha\),查 F 分布表或计算 p 值。如果 F 统计量大于临界值或 p 值小于 \(\alpha\),则拒绝原假设 \(H_0\),认为 \(X\) 是 \(Y\) 的格兰杰原因。
格兰杰因果关系检验的注意事项:
① 平稳性:进行格兰杰因果关系检验的前提是时间序列变量是平稳的。如果变量是非平稳的,需要先进行差分处理,使其平稳,或者使用协整和 VECM 框架进行检验。
② 滞后阶数:滞后阶数 \(p\) 的选择对检验结果有重要影响。选择过小的滞后阶数可能导致遗漏重要的动态信息,选择过大的滞后阶数可能降低检验的有效性。
③ 双向因果关系:格兰杰因果关系检验可以检验 \(X\) 是否是 \(Y\) 的格兰杰原因,也可以检验 \(Y\) 是否是 \(X\) 的格兰杰原因。可能存在 \(X\) 是 \(Y\) 的格兰杰原因,同时 \(Y\) 也是 \(X\) 的格兰杰原因,即双向因果关系。
④ 预测关系而非真正因果关系:格兰杰因果关系检验本质上是检验变量之间的预测关系,而不是真正的因果关系。即使检验结果表明 \(X\) 是 \(Y\) 的格兰杰原因,也不能断定 \(X\) 真正引起了 \(Y\) 的变化,可能存在其他共同因素导致 \(X\) 和 \(Y\) 之间存在预测关系。因果关系的确定还需要结合经济理论和实际背景进行分析。
总结
本章深入探讨了多变量时间序列模型,包括向量自回归模型 (VAR)、协整与误差修正模型 (ECM) 以及格兰杰因果关系检验。VAR 模型为分析多个时间序列变量之间的动态关系提供了有效工具,脉冲响应分析和方差分解能够进一步揭示变量之间的动态影响和波动来源。协整和 ECM 适用于分析具有长期均衡关系的非平稳时间序列变量,能够捕捉变量的长期均衡关系和短期动态调整过程。格兰杰因果关系检验则用于检验变量之间是否存在基于时间先后顺序的预测关系。掌握这些多变量时间序列分析方法,能够更全面、深入地理解经济现象和变量之间的复杂关系。
参考文献
⚝ Hamilton, J. D. (1994). Time series analysis. Princeton university press.
⚝ Lütkepohl, H. (2005). New introduction to multiple time series analysis. Springer Science & Business Media.
⚝ Enders, W. (2018). Applied econometric time series. John Wiley & Sons.
⚝ Stock, J. H., & Watson, M. W. (2015). Introduction to econometrics. Pearson Education.
END_OF_CHAPTER
10. chapter 10: 因果推断:实验设计与准实验设计 (Causal Inference: Experimental and Quasi-Experimental Designs)
10.1 因果推断的基本问题 (Basic Problems of Causal Inference)
在计量经济学研究中,我们经常希望了解不同变量之间的因果关系。例如,教育水平的提高是否真的能导致收入的增加?一项新的经济政策是否有效地降低了失业率?回答这些问题需要进行因果推断 (causal inference)。然而,确定因果关系并非易事,因为相关性并不等同于因果性。本节将介绍因果推断的基本问题,并引入潜在结果框架 (potential outcomes framework),讨论因果效应识别所面临的挑战。
10.1.1 潜在结果框架 (Potential Outcomes Framework)
潜在结果框架 (potential outcomes framework),也称为 Rubin 因果模型 (Rubin causal model),是理解和定义因果效应的有力工具。该框架的核心思想是,对于每一个个体,我们都考虑两种潜在的结果:
① 处理组的潜在结果 (potential outcome under treatment):如果个体接受了某种处理(treatment),将会产生的结果,记为 \(Y_{1i}\)。
② 控制组的潜在结果 (potential outcome under control):如果个体没有接受该处理,将会产生的结果,记为 \(Y_{0i}\)。
这里的“处理”可以是任何干预、政策或特征,例如,一项职业培训计划、一项税收政策的调整,或者仅仅是受教育年限的增加。对于个体 \(i\) 而言,个体因果效应 (individual causal effect) 被定义为处理组和控制组潜在结果之差:
\[ \tau_i = Y_{1i} - Y_{0i} \]
然而,根本性评估问题 (fundamental problem of causal inference) 在于,对于任何一个个体 \(i\),我们只能观察到 \(Y_{1i}\) 和 \(Y_{0i}\) 中的一个,而无法同时观察到两者。个体要么接受了处理,我们观察到 \(Y_{1i}\),但无法观察到如果他不接受处理的结果 \(Y_{0i}\);要么他没有接受处理,我们观察到 \(Y_{0i}\),但无法观察到如果他接受处理的结果 \(Y_{1i}\)。 这就像一个反事实 (counterfactual) 的问题:我们永远无法知道“如果历史可以重来,结果会怎样”。
由于我们无法直接观察到个体因果效应 \(\tau_i\),因此在实践中,我们通常关注平均处理效应 (Average Treatment Effect - ATE),即总体或特定人群中个体因果效应的平均值:
\[ ATE = E[\tau_i] = E[Y_{1i} - Y_{0i}] = E[Y_{1i}] - E[Y_{0i}] \]
ATE 代表了处理组和控制组潜在结果的平均差异,它衡量了处理在总体上的平均效果。
为了更清晰地理解潜在结果框架,我们考虑一个简单的例子:评估一项新的在线教育项目对学生考试成绩的影响。
⚝ 处理 (treatment):参加在线教育项目(\(D_i = 1\) 表示参加,\(D_i = 0\) 表示未参加)。
⚝ 结果 (outcome):考试成绩 \(Y_i\)。
⚝ 潜在结果:
▮▮▮▮⚝ \(Y_{1i}\):学生 \(i\) 参加在线教育项目后的考试成绩。
▮▮▮▮⚝ \(Y_{0i}\):学生 \(i\) 未参加在线教育项目后的考试成绩。
⚝ 个体因果效应:\(\tau_i = Y_{1i} - Y_{0i}\)。
⚝ 平均处理效应:\(ATE = E[Y_{1i} - Y_{0i}] = E[Y_{1i}] - E[Y_{0i}]\)。
我们的目标是估计 \(ATE\),即在线教育项目对学生考试成绩的平均影响。
10.1.2 因果效应的识别挑战 (Challenges in Identifying Causal Effects)
虽然潜在结果框架为定义因果效应提供了清晰的概念,但识别 (identification) 因果效应,即从可观测数据中准确估计因果效应,仍然面临诸多挑战。最核心的挑战在于如何解决选择偏差 (selection bias) 和混淆因素 (confounding factors) 的问题。
① 选择偏差 (selection bias):当处理组和控制组的个体在接受处理之前就存在系统性差异时,就会出现选择偏差。例如,在评估在线教育项目时,如果自愿参加该项目的学生本身就更积极主动、学习能力更强,那么他们即使不参加项目,考试成绩也可能更高。在这种情况下,简单地比较参加项目和未参加项目的学生的平均成绩,就无法准确估计项目的因果效应,因为观察到的成绩差异可能部分或全部来自于学生自身素质的差异,而非项目本身的效果。
用数学公式表示,如果处理分配 \(D_i\) 与潜在结果 \(Y_{0i}\) 相关,即 \(E[Y_{0i} | D_i = 1] \neq E[Y_{0i} | D_i = 0]\),则存在选择偏差。在这种情况下,简单地比较处理组和控制组的观测结果均值:
\[ E[Y_i | D_i = 1] - E[Y_i | D_i = 0] = E[Y_{1i} | D_i = 1] - E[Y_{0i} | D_i = 0] \]
这个差异不仅包含了我们关心的平均处理效应 \(ATE = E[Y_{1i} - Y_{0i}]\),还包含了选择偏差:
\[ E[Y_i | D_i = 1] - E[Y_i | D_i = 0] = ATE + (E[Y_{0i} | D_i = 1] - E[Y_{0i} | D_i = 0]) \]
其中,\(E[Y_{0i} | D_i = 1] - E[Y_{0i} | D_i = 0]\) 就是选择偏差。如果选择偏差不为零,则直接比较观测结果均值会得到有偏的因果效应估计。
② 混淆因素 (confounding factors):混淆因素 (confounder) 是指同时影响处理分配和结果变量的因素。如果存在混淆因素,我们就无法区分处理效应和混淆因素的影响。例如,在研究教育水平对收入的影响时,个人能力可能是一个混淆因素。能力强的人更有可能接受更高的教育,同时也更有可能获得更高的收入。如果我们不考虑能力这个混淆因素,就可能高估教育对收入的因果效应。
为了解决选择偏差和混淆因素带来的识别挑战,计量经济学家发展了多种因果推断方法,包括实验设计 (experimental design) 和准实验设计 (quasi-experimental design)。接下来的章节将详细介绍这些方法。
10.2 随机对照实验 (Randomized Controlled Trials - RCT)
随机对照实验 (Randomized Controlled Trials - RCT) 被认为是因果推断的“黄金标准”。RCT 的核心思想是随机分配 (random assignment) 处理。具体来说,在 RCT 中,研究者随机地将参与者分配到处理组或控制组。随机分配确保了在平均意义上,处理组和控制组在接受处理之前是相同的,即两组在所有可观测和不可观测的特征上都具有相似的分布。
在随机分配的条件下,处理分配 \(D_i\) 与潜在结果 \(Y_{0i}\) 和 \(Y_{1i}\) 相互独立,即:
\[ D_i \perp Y_{0i}, D_i \perp Y_{1i} \]
这意味着,处理组和控制组的潜在结果的期望值是相同的,即使在没有接受各自组别处理的情况下也是如此:
\[ E[Y_{0i} | D_i = 1] = E[Y_{0i} | D_i = 0] = E[Y_{0i}] \]
\[ E[Y_{1i} | D_i = 1] = E[Y_{1i} | D_i = 0] = E[Y_{1i}] \]
因此,选择偏差消失了,我们可以通过简单地比较处理组和控制组的观测结果均值,来无偏地估计平均处理效应 (ATE):
\[ E[Y_i | D_i = 1] - E[Y_i | D_i = 0] = E[Y_{1i} | D_i = 1] - E[Y_{0i} | D_i = 0] = E[Y_{1i}] - E[Y_{0i}] = ATE \]
在 RCT 中,我们通常使用独立同分布 (Independent and Identically Distributed - IID) 的样本数据,并利用均值差异估计量 (difference-in-means estimator) 来估计 ATE:
\[ \widehat{ATE}_{RCT} = \bar{Y}_{treatment} - \bar{Y}_{control} = \frac{1}{N_{treatment}} \sum_{i: D_i=1} Y_i - \frac{1}{N_{control}} \sum_{i: D_i=0} Y_i \]
其中,\(\bar{Y}_{treatment}\) 和 \(\bar{Y}_{control}\) 分别是处理组和控制组的样本均值,\(N_{treatment}\) 和 \(N_{control}\) 分别是处理组和控制组的样本量。
RCT 的优势在于其能够有效地消除选择偏差和混淆因素,从而提供可靠的因果效应估计。然而,RCT 也存在一些局限性:
① 伦理问题 (ethical concerns):在某些情况下,随机分配处理可能涉及伦理问题。例如,在医学研究中,将患者随机分配到接受或不接受某种治疗,可能引发伦理争议。
② 实施难度 (implementation challenges):RCT 的实施可能成本高昂且耗时,尤其是在大规模社会实验中。此外,在某些现实场景中,随机分配处理可能在实践中不可行或不现实。
③ 外部有效性 (external validity):RCT 的结果可能只适用于特定的实验环境和参与者,难以推广到更广泛的人群或情境中。
尽管存在这些局限性,RCT 仍然是因果推断的重要工具,尤其是在医学、公共卫生、教育等领域。
10.3 自然实验与准实验设计 (Natural Experiments and Quasi-Experimental Designs)
在许多情况下,我们无法进行理想的 RCT。这时,自然实验 (natural experiments) 和 准实验设计 (quasi-experimental designs) 提供了在非实验环境中进行因果推断的替代方法。这些方法利用现实世界中发生的、类似于随机实验的事件或政策变化,来识别因果效应。
自然实验 (natural experiment) 是指由于自然、政策或制度等外生因素的变化,使得某些个体或群体“偶然地”被分配到处理组,而另一些个体或群体则成为控制组。这种分配过程并非研究者主动控制的随机分配,但它在一定程度上类似于随机实验,可以被视为“自然的随机化”。
准实验设计 (quasi-experimental design) 是一类模仿实验设计的非随机研究方法。准实验设计试图通过各种统计方法,来控制或减少选择偏差和混淆因素的影响,从而更可靠地估计因果效应。
常见的准实验设计方法包括双重差分法 (Difference-in-Differences - DID)、断点回归设计 (Regression Discontinuity Design - RDD) 和 倾向得分匹配 (Propensity Score Matching - PSM) 等。
10.3.1 双重差分法 (Difference-in-Differences - DID)
双重差分法 (Difference-in-Differences - DID) 是一种广泛应用于政策评估的准实验设计方法。DID 方法适用于当存在一个政策干预(treatment)在某个时间点影响了部分群体(处理组),而另一部分群体未受影响(控制组)的情况。DID 的核心思想是通过比较处理组和控制组在政策实施前后的变化差异,来估计政策的因果效应。
DID 方法的基本假设是,在没有政策干预的情况下,处理组和控制组的结果变量会呈现相似的趋势(平行趋势假设 (parallel trends assumption))。如果平行趋势假设成立,那么处理组在政策实施后与控制组的差异,就可以归因于政策干预的效果。
DID 估计量的计算通常基于以下回归模型:
\[ Y_{it} = \beta_0 + \beta_1 \cdot Treat_i + \beta_2 \cdot Post_t + \beta_3 \cdot (Treat_i \times Post_t) + \epsilon_{it} \]
其中:
⚝ \(Y_{it}\) 是个体 \(i\) 在时间 \(t\) 的结果变量。
⚝ \(Treat_i\) 是处理组虚拟变量,如果个体 \(i\) 属于处理组,则 \(Treat_i = 1\),否则 \(Treat_i = 0\)。
⚝ \(Post_t\) 是时间虚拟变量,如果时间 \(t\) 在政策实施之后,则 \(Post_t = 1\),否则 \(Post_t = 0\)。
⚝ \(Treat_i \times Post_t\) 是处理组虚拟变量和时间虚拟变量的交互项。
⚝ \(\epsilon_{it}\) 是误差项。
在上述模型中,系数 \(\beta_3\) 是 DID 估计量 (DID estimator),它衡量了政策干预的平均因果效应。 \(\beta_1\) 反映了处理组和控制组在政策实施前的固定差异,\(\beta_2\) 反映了政策实施前后所有组别共同的时间趋势。
DID 估计量的计算过程可以分解为“双重差分”:
① 第一次差分 (first difference):计算处理组和控制组在政策实施前后的结果变量变化:
\[ \Delta \bar{Y}_{treatment} = \bar{Y}_{treatment, post} - \bar{Y}_{treatment, pre} \]
\[ \Delta \bar{Y}_{control} = \bar{Y}_{control, post} - \bar{Y}_{control, pre} \]
② 第二次差分 (second difference):计算处理组和控制组的变化差异,得到 DID 估计量:
\[ \widehat{ATE}_{DID} = (\bar{Y}_{treatment, post} - \bar{Y}_{treatment, pre}) - (\bar{Y}_{control, post} - \bar{Y}_{control, pre}) = \Delta \bar{Y}_{treatment} - \Delta \bar{Y}_{control} \]
DID 方法的有效性关键在于平行趋势假设是否成立。为了检验平行趋势假设,通常需要考察政策实施前处理组和控制组的结果变量趋势是否相似。如果政策实施前两组趋势不平行,则 DID 估计量可能受到时间趋势差异的干扰,导致因果效应估计有偏。
10.3.2 断点回归设计 (Regression Discontinuity Design - RDD)
断点回归设计 (Regression Discontinuity Design - RDD) 是一种利用政策或项目分配的断点 (cutoff) 来识别因果效应的准实验设计方法。RDD 适用于当处理的分配完全基于某个可观测的分配变量 (assignment variable) 超过或低于某个预设的断点时。在断点附近,分配变量的微小变化会导致处理状态的突变,这种突变类似于随机分配。
RDD 分为两种主要类型:
① 精确断点回归 (Sharp RDD):当处理的分配完全由分配变量是否超过断点决定时,称为精确断点回归。例如,奖学金的获得完全取决于考试成绩是否达到某个分数线。
② 模糊断点回归 (Fuzzy RDD):当分配变量超过断点会显著提高接受处理的概率,但并非完全决定处理状态时,称为模糊断点回归。例如,年龄超过退休年龄会增加退休的可能性,但并非强制退休。
以精确断点回归为例,假设处理 \(D_i\) 的分配规则如下:
\[ D_i = \begin{cases} 1, & \text{if } X_i \geq c \\ 0, & \text{if } X_i < c \end{cases} \]
其中,\(X_i\) 是分配变量,\(c\) 是断点。在断点 \(c\) 附近,我们可以比较分配变量略高于断点(处理组)和略低于断点(控制组)的个体的结果变量差异,来估计处理的因果效应。
RDD 的核心思想是,在断点附近,分配变量的微小变化是“准随机的”,因为影响个体分配变量值的因素不太可能在断点处发生突变。因此,我们可以将断点附近的个体视为近似随机分配到处理组或控制组。
RDD 估计量通常通过以下回归模型来估计:
\[ Y_i = \beta_0 + \beta_1 \cdot f(X_i - c) + \beta_2 \cdot D_i + \epsilon_i \]
其中:
⚝ \(Y_i\) 是结果变量。
⚝ \(X_i\) 是分配变量。
⚝ \(c\) 是断点。
⚝ \(D_i\) 是处理虚拟变量,\(D_i = 1\) 如果 \(X_i \geq c\),\(D_i = 0\) 如果 \(X_i < c\)。
⚝ \(f(X_i - c)\) 是分配变量与断点距离的控制函数,通常使用线性或多项式函数。
⚝ \(\beta_2\) 是 RDD 估计量,衡量了在断点处的因果效应。
RDD 估计量 \(\beta_2\) 可以解释为在断点 \(c\) 处,处理组和控制组结果变量的跳跃 (jump) 或不连续 (discontinuity)。
RDD 的有效性依赖于以下假设:
① 局部随机分配假设 (local random assignment):在断点附近,分配变量的微小变化是近似随机的。
② 连续性假设 (continuity assumption):在没有处理的情况下,结果变量与分配变量的关系是连续的,即潜在结果函数 \(E[Y_{0i} | X_i = x]\) 和 \(E[Y_{1i} | X_i = x]\) 在断点 \(c\) 处是连续的。
为了验证 RDD 的有效性,通常需要进行以下检验:
① 断点附近的密度检验 (density test around the cutoff):检验分配变量在断点附近是否存在人为操纵,导致断点两侧密度不连续。
② 协变量平衡性检验 (covariate balance test):检验在断点附近,处理组和控制组在其他协变量上是否平衡。
③ 稳健性检验 (robustness check):尝试使用不同的控制函数 \(f(X_i - c)\) 和带宽 (bandwidth) 来估计 RDD 效应,检验结果的稳健性。
10.3.3 倾向得分匹配 (Propensity Score Matching - PSM)
倾向得分匹配 (Propensity Score Matching - PSM) 是一种用于减少选择偏差的准实验设计方法。PSM 主要用于处理由于可观测混淆因素导致的选择偏差。PSM 的核心思想是,通过匹配 (matching) 处理组和控制组的个体,使得匹配后的两组在可观测协变量上尽可能相似,从而模拟随机实验的条件。
倾向得分 (propensity score) 是指在给定可观测协变量 \(X_i\) 的条件下,个体 \(i\) 接受处理的概率,记为 \(P(X_i) = P(D_i = 1 | X_i) = E[D_i | X_i]\)。倾向得分概括了所有可观测协变量的信息,可以将高维协变量简化为一个一维的得分值。
PSM 的基本步骤如下:
① 估计倾向得分 (estimate propensity scores):通常使用 Logistic 回归模型,以处理虚拟变量 \(D_i\) 为因变量,可观测协变量 \(X_i\) 为自变量,估计每个个体的倾向得分 \(\widehat{P}(X_i)\)。
② 匹配 (matching):根据倾向得分,为每个处理组个体找到一个或多个倾向得分相近的控制组个体进行匹配。常用的匹配方法包括:
▮▮▮▮ⓑ 最近邻匹配 (nearest neighbor matching):为每个处理组个体找到倾向得分最接近的控制组个体。
▮▮▮▮ⓒ 卡尺匹配 (caliper matching):为每个处理组个体找到倾向得分在一定卡尺范围内的控制组个体。
▮▮▮▮ⓓ 核匹配 (kernel matching) 和 局部线性匹配 (local linear matching):使用核函数或局部线性回归,利用所有控制组个体的信息,根据倾向得分的距离加权平均计算处理效应。
③ 估计平均处理效应 (estimate average treatment effect):在匹配后的样本中,计算处理组和控制组结果变量的均值差异,作为平均处理效应的估计量。例如,使用最近邻匹配时,ATE 估计量为:
\[ \widehat{ATE}_{PSM} = \frac{1}{N_{treatment}} \sum_{i: D_i=1} (Y_i - Y_{m(i)}) \]
其中,\(Y_{m(i)}\) 是与处理组个体 \(i\) 匹配的控制组个体的结果变量。
PSM 的有效性依赖于 条件独立性假设 (conditional independence assumption),也称为 可忽略性假设 (ignorability assumption) 或 无混淆假设 (unconfoundedness assumption)。该假设认为,在给定可观测协变量 \(X_i\) 的条件下,处理分配 \(D_i\) 与潜在结果 \(Y_{0i}\) 和 \(Y_{1i}\) 条件独立:
\[ (Y_{0i}, Y_{1i}) \perp D_i | X_i \]
这意味着,在控制了可观测协变量 \(X_i\) 后,处理分配可以被视为“随机的”。如果条件独立性假设成立,并且匹配过程有效地平衡了处理组和控制组在可观测协变量上的分布,那么 PSM 可以减少或消除由可观测混淆因素导致的选择偏差,提供更可靠的因果效应估计。
然而,PSM 只能解决由可观测混淆因素导致的选择偏差,而无法解决由不可观测混淆因素 (unobservable confounders) 导致的选择偏差。如果存在不可观测的混淆因素同时影响处理分配和结果变量,PSM 估计量仍然可能是有偏的。因此,在使用 PSM 时,需要尽可能收集和控制所有重要的可观测协变量,并谨慎评估不可观测混淆因素可能带来的影响。
END_OF_CHAPTER
11. chapter 11: 高级专题:机器学习在计量经济学中的应用 (Advanced Topics: Applications of Machine Learning in Econometrics)
11.1 机器学习与计量经济学的融合 (Integration of Machine Learning and Econometrics)
在传统认知中,计量经济学与机器学习似乎是两个相对独立的领域。计量经济学 (Econometrics) 侧重于因果推断 (causal inference) 和结构模型 (structural model) 的构建与分析,旨在理解经济现象背后的因果机制,并进行参数估计 (parameter estimation) 和假设检验 (hypothesis testing)。而机器学习 (Machine Learning) 则更多关注于预测 (prediction) 和模式识别 (pattern recognition),通过算法从数据中学习,以实现对新数据的准确预测和分类。
然而,随着数据科学 (Data Science) 的兴起和大数据 (Big Data) 时代的到来,计量经济学与机器学习之间的界限逐渐模糊,融合趋势日益明显。这种融合并非简单的技术叠加,而是方法论和思维方式的相互借鉴与补充,旨在更好地利用数据解决经济和社会问题。
计量经济学为机器学习提供了统计推断 (statistical inference) 的理论基础和严谨性,帮助机器学习模型更好地理解数据生成过程,评估模型的不确定性,并提高结果的可解释性。另一方面,机器学习则为计量经济学带来了处理高维数据、非线性关系和复杂模型的新工具,拓展了计量经济学的研究范围和应用领域。
11.1.1 机器学习在预测中的应用 (Applications of Machine Learning in Prediction)
传统的计量经济学模型,如线性回归模型 (Linear Regression Model),在预测方面也具有一定的能力。但当面对非线性关系 (non-linear relationship)、高维数据 (high-dimensional data) 或复杂交互效应 (complex interaction effects) 时,传统模型的预测精度往往受到限制。机器学习方法,凭借其强大的非线性建模能力 (non-linear modeling capability) 和高维数据处理能力 (high-dimensional data processing capability),在预测领域展现出巨大的潜力。
① 提高预测精度:机器学习算法,如支持向量机 (Support Vector Machine - SVM)、神经网络 (Neural Networks)、随机森林 (Random Forest) 等,能够捕捉数据中复杂的非线性关系和交互效应,从而在许多情况下实现比传统计量经济学模型更高的预测精度。例如,在宏观经济预测 (macroeconomic forecasting)、金融市场预测 (financial market forecasting)、需求预测 (demand forecasting) 等领域,机器学习模型已被证明能够有效提高预测准确性。
② 处理高维数据:在经济研究中,我们经常面临高维数据,例如包含大量控制变量 (control variables) 的数据集,或者文本数据 (text data)、图像数据 (image data) 等非结构化数据。传统的计量经济学方法在高维数据处理方面面临挑战,而机器学习方法,如 Lasso 回归 (Lasso Regression)、岭回归 (Ridge Regression)、降维算法 (dimensionality reduction algorithms) 等,能够有效地处理高维数据,进行特征选择 (feature selection) 和特征提取 (feature extraction),从而提高预测模型的性能和可解释性。
③ 非参数预测:传统的计量经济学预测方法通常基于参数模型 (parametric model),需要预先设定模型的函数形式。而许多机器学习方法属于非参数方法 (non-parametric methods) 或半参数方法 (semi-parametric methods),不依赖于特定的函数形式假设,能够更灵活地适应数据的复杂结构,进行数据驱动的预测 (data-driven prediction)。例如,核回归 (Kernel Regression)、K近邻算法 (K-Nearest Neighbors - KNN) 等方法,能够直接从数据中学习预测函数,无需人为设定模型形式。
11.1.2 机器学习在模型选择与变量选择中的应用 (Applications of Machine Learning in Model Selection and Variable Selection)
在计量经济学建模过程中,模型选择 (model selection) 和变量选择 (variable selection) 是至关重要的环节。传统的模型选择方法,如 AIC (Akaike Information Criterion)、BIC (Bayesian Information Criterion) 等,以及变量选择方法,如逐步回归 (stepwise regression)、向前选择 (forward selection)、向后消除 (backward elimination) 等,在模型复杂度较高或变量维度较大时,可能面临计算量大、容易过拟合 (overfitting) 等问题。机器学习方法为模型选择和变量选择提供了新的思路和工具。
① 正则化方法 (Regularization Methods):Lasso 回归 (Lasso Regression) 和 Ridge 回归 (Ridge Regression) 等正则化方法,通过在损失函数中加入惩罚项 (penalty term),可以同时进行参数估计和变量选择。Lasso 回归具有稀疏性 (sparsity) 特性,能够将不重要变量的系数压缩为零,实现自动变量选择。Ridge 回归则通过缩小系数的幅度,降低模型的多重共线性 (multicollinearity) 问题,提高模型的稳定性和泛化能力 (generalization ability)。这些方法在处理高维数据和进行模型简化时非常有效。
② 树模型 (Tree Models) 与 集成学习 (Ensemble Learning):决策树 (Decision Tree) 和 随机森林 (Random Forest) 等树模型,以及 梯度提升树 (Gradient Boosting Tree - GBT) 等集成学习方法,不仅可以用于预测,还可以用于变量选择和特征重要性评估。树模型通过信息增益 (information gain) 或 基尼系数 (Gini impurity) 等指标,选择最优的特征进行节点分裂,从而在模型构建过程中实现变量选择。随机森林和梯度提升树等集成学习方法,通过集成多个树模型的预测结果,可以提高预测精度和模型的鲁棒性,同时提供更可靠的变量重要性排序。
③ 交叉验证 (Cross-Validation) 与 网格搜索 (Grid Search):机器学习中常用的 交叉验证 (cross-validation) 方法,如 k折交叉验证 (k-fold cross-validation),可以用于评估不同模型的预测性能,选择最优的模型参数和模型结构。网格搜索 (grid search) 等参数调优方法,可以系统地搜索模型参数空间,找到最优的参数组合,提高模型的预测效果。这些方法可以与传统的模型选择准则相结合,更全面地评估和选择计量经济学模型。
11.2 常用机器学习方法简介 (Introduction to Common Machine Learning Methods)
本节将简要介绍几种在计量经济学中常用的机器学习方法,包括 Lasso 和 Ridge 回归、决策树与随机森林、以及神经网络。这些方法各有特点,适用于不同的数据类型和研究问题。
11.2.1 Lasso 和 Ridge 回归 (Lasso and Ridge Regression)
Lasso 回归 (Least Absolute Shrinkage and Selection Operator Regression) 和 Ridge 回归 (Ridge Regression) 都是线性回归的正则化版本,通过在 普通最小二乘法 (Ordinary Least Squares - OLS) 的损失函数中加入惩罚项,来约束模型参数,防止过拟合,并实现变量选择或提高模型稳定性。
① Lasso 回归:Lasso 回归的损失函数为:
\[ L_{Lasso}(\beta) = \sum_{i=1}^{n} (y_i - x_i'\beta)^2 + \lambda \sum_{j=1}^{p} |\beta_j| \]
其中,\( \lambda \ge 0 \) 是正则化参数,控制惩罚的强度;\( \sum_{j=1}^{p} |\beta_j| \) 是 \( L_1 \) 惩罚项,即系数向量 \( \beta \) 的 \( L_1 \) 范数。\( L_1 \) 惩罚项具有稀疏性,倾向于将某些系数压缩为零,从而实现变量选择。当 \( \lambda \) 增大时,模型系数的绝对值会整体缩小,更多的系数会被压缩为零,模型变得更加稀疏。
② Ridge 回归:Ridge 回归的损失函数为:
\[ L_{Ridge}(\beta) = \sum_{i=1}^{n} (y_i - x_i'\beta)^2 + \lambda \sum_{j=1}^{p} \beta_j^2 \]
其中,\( \lambda \ge 0 \) 是正则化参数;\( \sum_{j=1}^{p} \beta_j^2 \) 是 \( L_2 \) 惩罚项,即系数向量 \( \beta \) 的 \( L_2 \) 范数的平方。\( L_2 \) 惩罚项倾向于缩小系数的幅度,但不会将系数压缩为零。Ridge 回归主要用于解决多重共线性问题,提高模型的稳定性。当 \( \lambda \) 增大时,模型系数的幅度会整体缩小,模型的方差 (variance) 降低,但偏差 (bias) 会略微增加。
③ 应用场景:
⚝ Lasso 回归:适用于需要进行变量选择的场景,例如在高维数据中筛选出对因变量 (dependent variable) 影响显著的自变量 (independent variable)。在经济学研究中,可以用于识别影响经济增长的关键因素、预测股票价格的有效指标等。
⚝ Ridge 回归:适用于存在多重共线性的场景,例如在宏观经济模型中,多个宏观经济变量之间可能存在高度相关性。Ridge 回归可以缓解多重共线性问题,提高参数估计的稳定性和预测的准确性。
11.2.2 决策树与随机森林 (Decision Trees and Random Forests)
决策树 (Decision Tree) 是一种基本的分类 (classification) 和回归 (regression) 模型,通过树状结构进行决策。随机森林 (Random Forest) 是一种集成学习方法,通过集成多个决策树的预测结果,提高模型的预测精度和鲁棒性。
① 决策树:决策树模型由节点 (node) 和分支 (branch) 组成。每个内部节点表示一个特征 (feature) 的测试条件,每个分支代表测试结果,每个叶节点 (leaf node) 代表一个预测值或类别。决策树的构建过程是一个递归分割 (recursive partitioning) 的过程,目标是根据特征将数据集划分为不同的区域,使得每个区域内的目标变量 (target variable) 尽可能同质。常用的决策树算法包括 ID3、C4.5、CART 等。
② 随机森林:随机森林是一种基于自助抽样 (bootstrap sampling) 和随机特征选择 (random feature selection) 的集成学习方法。它通过以下步骤构建:
▮▮▮▮ⓑ 从原始训练集中有放回地随机抽取 (bootstrap sampling) \( N \) 个样本,构建 \( N \) 个自助样本集。
▮▮▮▮ⓒ 对于每个自助样本集,随机选择 \( m \) 个特征 (通常 \( m < p \),其中 \( p \) 是总特征数),使用这些特征构建一个决策树。在树的每个节点分裂时,从这 \( m \) 个特征中选择最优的特征进行分裂。
▮▮▮▮ⓓ 重复步骤 ⓐ 和 ⓑ \( K \) 次,构建 \( K \) 个决策树,形成随机森林。
▮▮▮▮ⓔ 对于新的预测样本,将样本输入到每个决策树中,得到 \( K \) 个预测结果。对于回归问题,取 \( K \) 个预测结果的平均值作为最终预测结果;对于分类问题,采用投票法 (voting) 或平均概率法 (averaging probabilities) 确定最终类别。
③ 应用场景:
⚝ 决策树:适用于数据结构简单、特征维度不高、需要模型具有良好可解释性的场景。在经济学研究中,可以用于分析消费者行为、信用风险评估等。决策树模型易于理解和可视化,可以直观地展示特征与目标变量之间的关系。
⚝ 随机森林:适用于数据结构复杂、特征维度较高、对预测精度要求较高的场景。随机森林具有较高的预测精度和鲁棒性,不易过拟合,并且能够提供变量重要性评估,帮助研究者理解哪些特征对预测结果影响最大。在经济学研究中,可以用于高频金融数据分析、宏观经济预测、政策效果评估等。
11.2.3 神经网络 (Neural Networks)
神经网络 (Neural Networks) 是一种模拟人脑神经元网络结构的计算模型 (computational model),由大量的神经元 (neuron) 相互连接而成。神经网络具有强大的非线性建模能力,能够学习和表示复杂的数据模式,在图像识别 (image recognition)、自然语言处理 (natural language processing)、语音识别 (speech recognition) 等领域取得了巨大成功。近年来,神经网络在计量经济学领域也得到了越来越多的应用。
① 基本结构:一个典型的前馈神经网络 (feedforward neural network) 包括输入层 (input layer)、隐藏层 (hidden layer) 和输出层 (output layer)。
▮▮▮▮ⓑ 输入层:接收输入特征向量 \( x \)。
▮▮▮▮ⓒ 隐藏层:由多个神经元 (neuron) 组成,每个神经元接收来自上一层神经元的输入,通过激活函数 (activation function) 进行非线性变换,并将输出传递给下一层神经元。常用的激活函数包括 Sigmoid 函数、ReLU 函数 (Rectified Linear Unit)、Tanh 函数 等。
▮▮▮▮ⓓ 输出层:输出最终的预测结果 \( \hat{y} \)。对于回归问题,输出层通常只有一个神经元,激活函数可以是线性函数;对于分类问题,输出层神经元的数量等于类别数,激活函数可以是 Softmax 函数。
神经元之间的连接具有权重 (weight) \( w \) 和偏置 (bias) \( b \)。神经网络的学习过程就是通过反向传播算法 (backpropagation algorithm) 不断调整权重和偏置,使得网络的输出尽可能接近真实值,从而最小化损失函数 (loss function)。常用的损失函数包括均方误差 (Mean Squared Error - MSE) (用于回归问题)、交叉熵损失 (Cross-Entropy Loss) (用于分类问题) 等。
② 深度学习 (Deep Learning):深度神经网络 (Deep Neural Networks - DNN) 是指具有多个隐藏层的神经网络。深度学习模型能够学习更抽象、更深层次的数据特征,在处理复杂数据和解决复杂问题方面具有更强的能力。常用的深度学习模型包括 卷积神经网络 (Convolutional Neural Network - CNN) (用于图像处理)、循环神经网络 (Recurrent Neural Network - RNN) (用于序列数据处理) 等。
③ 应用场景:
⚝ 非线性建模:神经网络适用于数据中存在复杂非线性关系,传统线性模型难以有效捕捉的场景。在计量经济学研究中,可以用于分析非线性需求函数、预测金融市场波动、建模复杂经济系统等。
⚝ 高维数据处理:深度神经网络可以处理高维数据,例如文本数据、图像数据、时间序列数据等。在经济学研究中,可以用于分析新闻文本对股票市场的影响、利用卫星图像进行经济发展评估、预测高频金融时间序列等。
⚝ 复杂模式识别:神经网络可以学习和识别数据中复杂的模式,例如异常检测、欺诈识别、市场分割等。在金融领域,可以用于信用评分、反欺诈检测、高频交易策略开发等。
总结:机器学习方法为计量经济学研究提供了新的工具和视角,拓展了计量经济学的应用范围。Lasso 和 Ridge 回归适用于变量选择和模型简化;决策树和随机森林适用于分类和回归问题,并能提供变量重要性评估;神经网络适用于非线性建模和复杂模式识别。在实际应用中,应根据具体的研究问题和数据特点,选择合适的机器学习方法,并结合计量经济学的理论和方法,进行深入分析和解释。
参考文献
⚝ Hastie, T., Tibshirani, R., & Friedman, J. (2009). The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media.
⚝ James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning. New York: springer.
⚝ Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
⚝ Athey, S. (2018). The Impact of Machine Learning on Economics. The Economics of Artificial Intelligence: An Agenda, 507-547.
⚝ Mullainathan, S., & Spiess, J. (2017). Machine learning: an applied econometric approach. Journal of Economic Perspectives, 31(2), 87-106.
END_OF_CHAPTER
12. chapter 12: 高级专题:贝叶斯计量经济学 (Advanced Topics: Bayesian Econometrics)
12.1 贝叶斯推断的基本原理 (Basic Principles of Bayesian Inference)
12.1.1 先验分布、似然函数与后验分布 (Prior Distribution, Likelihood Function, and Posterior Distribution)
贝叶斯计量经济学 (Bayesian Econometrics) 提供了一种与传统频率学派 (Frequentist) 计量经济学截然不同的统计推断框架。其核心思想在于利用贝叶斯定理 (Bayes' Theorem),将先验信息 (prior information) 与样本数据 (sample data) 相结合,从而获得关于未知参数的后验分布 (posterior distribution)。理解贝叶斯推断 (Bayesian Inference) 的关键在于掌握先验分布 (prior distribution)、似然函数 (likelihood function) 和 后验分布 (posterior distribution) 这三个核心概念。
① 先验分布 (Prior Distribution):在进行任何数据分析之前,我们通常对于感兴趣的参数会存在一些先验的认识或信念。这种先验认识可能来源于过去的经验、领域知识、或者主观判断。在贝叶斯框架下,我们用先验分布 (prior distribution) 来数学化地表达这种先验信息。先验分布描述了在观察到任何数据之前,参数可能取值的概率分布。
⚝ 例如,在研究某个国家的失业率时,我们可能基于历史数据或经济理论,认为失业率不太可能超过 20%,并且最有可能在 5% 到 10% 之间。这种先验信念就可以通过一个合适的先验分布来表示,例如 Beta 分布或截断正态分布。
② 似然函数 (Likelihood Function):似然函数 (likelihood function) 衡量了在给定参数值的情况下,观察到现有样本数据的可能性大小。它来源于我们所选择的统计模型,并基于样本数据计算得出。对于给定的样本数据 \(Y\),和模型参数 \(\theta\),似然函数 \(L(\theta|Y)\) 正比于在参数为 \(\theta\) 时,观测到数据 \(Y\) 的概率 \(P(Y|\theta)\)。
⚝ 假设我们使用一个正态分布模型来描述某个变量 \(y\),参数为均值 \(\mu\) 和方差 \(\sigma^2\)。如果我们观测到一组样本数据 \(y_1, y_2, ..., y_n\),那么似然函数就是这些样本点在给定参数 \(\mu\) 和 \(\sigma^2\) 下的联合概率密度函数。
③ 后验分布 (Posterior Distribution):后验分布 (posterior distribution) 是贝叶斯推断的核心结果。它通过贝叶斯定理,将先验分布和似然函数结合起来,反映了在观察到样本数据之后,我们对于参数的更新后的认识。贝叶斯定理的数学表达式如下:
\[ P(\theta|Y) = \frac{P(Y|\theta) P(\theta)}{P(Y)} \]
其中:
⚝ \(P(\theta|Y)\) 是后验分布 (posterior distribution),表示在给定数据 \(Y\) 的条件下,参数 \(\theta\) 的条件概率分布。这是我们最终想要获得的关于参数 \(\theta\) 的信息。
⚝ \(P(Y|\theta)\) 是似然函数 (likelihood function),表示在给定参数 \(\theta\) 的条件下,观测到数据 \(Y\) 的概率。
⚝ \(P(\theta)\) 是先验分布 (prior distribution),表示在观察到数据 \(Y\) 之前,参数 \(\theta\) 的边缘概率分布。
⚝ \(P(Y)\) 是证据 (evidence) 或边际似然 (marginal likelihood),表示观测到数据 \(Y\) 的总概率。它可以看作是一个归一化常数,确保后验分布 \(P(\theta|Y)\) 是一个有效的概率分布,即积分值为 1。在实际应用中,\(P(Y)\) 通常可以忽略,因为在参数估计和预测中,我们主要关注后验分布的相对形状,而不是绝对值。因此,贝叶斯定理通常可以简化为正比于 (proportional to) 的形式:
\[ P(\theta|Y) \propto P(Y|\theta) P(\theta) \]
这意味着后验分布 (posterior distribution) 正比于 先验分布 (prior distribution) 乘以 似然函数 (likelihood function)。贝叶斯推断的过程可以形象地理解为:我们从先验信念出发,然后利用样本数据提供的证据(似然函数)来更新我们的信念,最终得到后验信念(后验分布)。
理解贝叶斯推断的关键在于认识到,它将参数视为随机变量 (random variable),而不是像频率学派那样视为固定的未知常数。因此,我们可以对参数的概率分布进行推断,并利用后验分布来回答各种关于参数的不确定性问题,例如参数的置信区间(在贝叶斯框架下称为可信区间 (credible interval))和假设检验(在贝叶斯框架下称为贝叶斯因子 (Bayes factor))。
12.1.2 贝叶斯估计与预测 (Bayesian Estimation and Prediction)
获得后验分布 (posterior distribution) \(P(\theta|Y)\) 是贝叶斯推断的第一步,接下来我们需要利用后验分布进行参数估计 (parameter estimation) 和 预测 (prediction)。与频率学派的点估计 (point estimation) 不同,贝叶斯推断天然地提供参数的分布估计 (distribution estimation),即后验分布本身就包含了关于参数的所有信息。然而,在实际应用中,我们仍然需要从后验分布中提取一些概括性的统计量,例如点估计量 (point estimator) 和 区间估计量 (interval estimator)。
① 贝叶斯点估计 (Bayesian Point Estimation):贝叶斯点估计旨在从后验分布中选择一个最优 (optimal) 的值来代表参数 \(\theta\)。常用的贝叶斯点估计量包括:
▮▮▮▮ⓐ 后验均值 (Posterior Mean):后验均值 (posterior mean) 是后验分布的期望值,计算公式如下:
\[ \hat{\theta}_{mean} = E[\theta|Y] = \int \theta P(\theta|Y) d\theta \]
后验均值在平方误差损失函数 (squared error loss function) 下是最优的,即它最小化了参数估计值与真实值之间平方误差的期望值。后验均值具有良好的数学性质,并且在许多情况下易于计算或近似计算。
▮▮▮▮ⓑ 后验中位数 (Posterior Median):后验中位数 (posterior median) 是后验分布的中位数,即将后验分布概率密度函数 (probability density function, PDF) 积分面积平分为二的值。后验中位数在绝对误差损失函数 (absolute error loss function) 下是最优的,即它最小化了参数估计值与真实值之间绝对误差的期望值。后验中位数对于后验分布的偏斜 (skewness) 不敏感,因此在后验分布不对称时,后验中位数可能比后验均值更具有代表性。
▮▮▮▮ⓒ 后验众数 (Posterior Mode):后验众数 (posterior mode) 是后验分布的峰值,即后验分布概率密度函数取最大值时对应的参数值。后验众数也被称为最大后验估计 (Maximum a Posteriori Estimation, MAP)。在先验分布是均匀分布 (uniform distribution) 或近似均匀分布的情况下,后验众数接近于最大似然估计 (Maximum Likelihood Estimation, MLE)。后验众数在某些情况下易于计算,并且具有直观的解释。
选择哪种点估计量取决于具体的应用场景和损失函数。在实际应用中,后验均值和后验中位数是最常用的贝叶斯点估计量。
② 贝叶斯区间估计 (Bayesian Interval Estimation):贝叶斯区间估计旨在从后验分布中构建一个区间,该区间以一定的概率包含参数的真实值。贝叶斯区间估计在贝叶斯框架下被称为可信区间 (credible interval) 或 后验概率区间 (posterior probability interval),与频率学派的置信区间 (confidence interval) 概念有所不同。可信区间直接描述了参数落在某个区间的后验概率,例如,一个 95% 的可信区间表示参数有 95% 的概率落在该区间内。常用的可信区间包括:
▮▮▮▮ⓐ 等尾可信区间 (Equal-Tailed Credible Interval):等尾可信区间 (equal-tailed credible interval) 是指区间两端尾部概率相等的区间。对于给定的后验分布和置信水平 \(1-\alpha\),等尾可信区间 \([L, U]\) 满足:
\[ P(\theta < L|Y) = P(\theta > U|Y) = \frac{\alpha}{2} \]
等尾可信区间是最常用的可信区间类型,易于计算和理解。
▮▮▮▮ⓑ 最高后验密度区间 (Highest Posterior Density Interval, HPDI):最高后验密度区间 (HPDI) 是指在给定置信水平下,后验概率密度最高的区间。对于给定的后验分布和置信水平 \(1-\alpha\),HPDI 区间 \([L, U]\) 满足:
⚝ \(P(\theta \in [L, U]|Y) = 1-\alpha\)
⚝ 对于任何 \(\theta_1 \in [L, U]\) 和 \(\theta_2 \notin [L, U]\),都有 \(P(\theta_1|Y) \ge P(\theta_2|Y)\)
HPDI 区间保证了区间内的任何点的后验密度都高于区间外的任何点,因此在某种意义上是最优的可信区间。然而,HPDI 区间的计算通常比等尾可信区间更复杂。
③ 贝叶斯预测 (Bayesian Prediction):贝叶斯预测旨在利用后验分布对未来的观测值进行预测。假设我们已经观测到数据 \(Y\),并希望预测未来的观测值 \(Y_{new}\)。在贝叶斯框架下,预测分布 (predictive distribution) \(P(Y_{new}|Y)\) 可以通过对参数 \(\theta\) 进行积分得到:
\[ P(Y_{new}|Y) = \int P(Y_{new}|\theta) P(\theta|Y) d\theta \]
其中,\(P(Y_{new}|\theta)\) 是在给定参数 \(\theta\) 下,未来观测值 \(Y_{new}\) 的条件分布(通常与似然函数的形式相同),\(P(\theta|Y)\) 是参数 \(\theta\) 的后验分布。预测分布 \(P(Y_{new}|Y)\) 综合考虑了参数的不确定性和未来观测值的随机性,提供了对未来观测值最全面的预测信息。
贝叶斯预测可以用于点预测和区间预测。贝叶斯点预测 (Bayesian point prediction) 通常使用预测分布的均值或中位数作为预测值。贝叶斯区间预测 (Bayesian interval prediction) 则可以构建预测区间 (prediction interval),例如,一个 95% 的预测区间表示未来观测值有 95% 的概率落在该区间内。
总而言之,贝叶斯估计与预测的核心思想是利用后验分布。后验分布包含了关于参数的所有信息,我们可以从中提取点估计量、区间估计量和预测分布,从而完成统计推断任务。
12.2 贝叶斯线性回归模型 (Bayesian Linear Regression Model)
贝叶斯线性回归模型 (Bayesian Linear Regression Model) 是将贝叶斯推断 (Bayesian Inference) 应用于线性回归模型 (linear regression model) 的结果。考虑标准的多元线性回归模型:
\[ y = X\beta + \epsilon \]
其中,\(y\) 是 \(n \times 1\) 的被解释变量向量,\(X\) 是 \(n \times k\) 的解释变量矩阵,\(\beta\) 是 \(k \times 1\) 的回归系数向量,\(\epsilon\) 是 \(n \times 1\) 的误差项向量。在频率学派的线性回归模型中,我们通常假设误差项 \(\epsilon\) 服从均值为 0,方差为 \(\sigma^2\) 的正态分布,即 \(\epsilon \sim N(0, \sigma^2 I_n)\)。在贝叶斯线性回归模型中,我们同样可以采用这个假设,并进一步为回归系数 \(\beta\) 和误差项方差 \(\sigma^2\) 设定先验分布。
① 模型设定 (Model Specification):贝叶斯线性回归模型的完整设定包括以下几个部分:
▮▮▮▮ⓐ 似然函数 (Likelihood Function):假设误差项 \(\epsilon\) 服从正态分布,则给定回归系数 \(\beta\) 和方差 \(\sigma^2\),以及解释变量矩阵 \(X\),被解释变量 \(y\) 的条件分布为:
\[ y|X, \beta, \sigma^2 \sim N(X\beta, \sigma^2 I_n) \]
相应的似然函数为:
\[ L(\beta, \sigma^2|y, X) = p(y|X, \beta, \sigma^2) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2} (y - X\beta)'(y - X\beta)\right) \]
▮▮▮▮ⓑ 先验分布 (Prior Distribution):为了完成贝叶斯推断,我们需要为参数 \(\beta\) 和 \(\sigma^2\) 设定先验分布。常用的先验分布选择包括:
⚝ 共轭先验 (Conjugate Prior):共轭先验 (conjugate prior) 是指先验分布和似然函数结合后,后验分布与先验分布属于同一分布族。共轭先验的选择可以大大简化后验分布的计算。对于正态线性回归模型,回归系数 \(\beta\) 的共轭先验是正态分布 (normal distribution),误差项方差 \(\sigma^2\) 的共轭先验是逆伽玛分布 (inverse-gamma distribution)。一种常用的共轭先验设定是:
\[ \beta \sim N(\mu_0, \Sigma_0) \]
\[ \sigma^2 \sim Inv-Gamma(a_0, b_0) \]
其中,\(\mu_0\), \(\Sigma_0\), \(a_0\), \(b_0\) 是超参数 (hyperparameters),需要根据先验信息或经验进行设定。例如,如果对回归系数 \(\beta\) 没有明确的先验信息,可以设定一个均值为 0,方差较大的正态先验,表示无信息先验 (non-informative prior)。对于方差 \(\sigma^2\),可以设定一个参数较小的逆伽玛先验,也表示无信息先验。
⚝ 非共轭先验 (Non-Conjugate Prior):在实际应用中,有时共轭先验可能不够灵活,无法充分表达先验信息。此时可以考虑使用非共轭先验 (non-conjugate prior)。例如,可以为回归系数 \(\beta\) 选择 t 分布 (t-distribution) 或 Laplace 分布 (Laplace distribution) 等重尾分布作为先验,以增强模型的稳健性。然而,使用非共轭先验通常会导致后验分布的计算更加复杂,可能需要借助马尔可夫链蒙特卡洛方法 (Markov Chain Monte Carlo, MCMC) 等数值计算方法。
② 后验分布 (Posterior Distribution):在给定似然函数和先验分布后,我们可以利用贝叶斯定理计算后验分布 \(p(\beta, \sigma^2|y, X)\)。当使用共轭先验时,后验分布也具有解析形式。例如,在上述共轭先验设定下,回归系数 \(\beta\) 的后验分布仍然是正态分布,误差项方差 \(\sigma^2\) 的后验分布仍然是逆伽玛分布,只是参数会根据样本数据进行更新。具体的后验分布形式和参数更新公式可以参考计量经济学教材或贝叶斯统计学教材。
③ 贝叶斯推断 (Bayesian Inference):获得后验分布 \(p(\beta, \sigma^2|y, X)\) 后,我们可以进行贝叶斯推断,包括参数估计、区间估计和预测。
⚝ 参数估计 (Parameter Estimation):可以使用后验均值、后验中位数或后验众数作为回归系数 \(\beta\) 和方差 \(\sigma^2\) 的点估计。例如,后验均值估计为:
\[ \hat{\beta}_{Bayes} = E[\beta|y, X] = \int \beta p(\beta|y, X) d\beta \]
\[ \hat{\sigma}^2_{Bayes} = E[\sigma^2|y, X] = \int \sigma^2 p(\sigma^2|y, X) d\sigma^2 \]
⚝ 区间估计 (Interval Estimation):可以构建回归系数 \(\beta\) 和方差 \(\sigma^2\) 的可信区间,例如 95% 的等尾可信区间或 HPDI 区间。可信区间直接给出了参数落在某个区间的后验概率,提供了关于参数不确定性的度量。
⚝ 预测 (Prediction):对于新的解释变量 \(X_{new}\),可以利用后验预测分布 \(p(y_{new}|X_{new}, y, X)\) 进行预测。预测分布考虑了参数的不确定性,提供了更可靠的预测结果。
贝叶斯线性回归模型提供了一种灵活且全面的线性回归分析框架。它不仅可以利用先验信息,还可以自然地处理参数的不确定性,并提供预测分布等丰富的推断结果。在实际应用中,贝叶斯线性回归模型被广泛应用于经济预测、政策评估、风险管理等领域。
12.3 马尔可夫链蒙特卡洛方法 (Markov Chain Monte Carlo - MCMC) 简介 (Introduction to Markov Chain Monte Carlo (MCMC) Methods)
马尔可夫链蒙特卡洛方法 (Markov Chain Monte Carlo, MCMC) 是一类用于从复杂概率分布中抽样 (sampling) 的算法。在贝叶斯计量经济学 (Bayesian Econometrics) 中,我们通常需要计算后验分布 (posterior distribution),但很多时候后验分布的形式非常复杂,难以直接计算或抽样。MCMC 方法 提供了一种有效的途径来近似后验分布,并从中抽取样本,从而进行贝叶斯推断。
① MCMC 的基本思想 (Basic Idea of MCMC):MCMC 的基本思想是构造一个马尔可夫链 (Markov Chain),使其平稳分布 (stationary distribution) 就是我们想要抽样的目标分布(例如后验分布)。然后,我们从马尔可夫链的任意初始状态出发,迭代运行足够长的时间,当马尔可夫链达到平稳状态时,我们就可以从马尔可夫链的状态序列中抽取样本,这些样本就可以近似看作是从目标分布中抽取的样本。
⚝ 马尔可夫链 (Markov Chain):马尔可夫链是一种随机过程,其未来状态的条件概率分布仅依赖于当前状态,而与过去状态无关。马尔可夫链可以用转移核 (transition kernel) 或 转移概率矩阵 (transition probability matrix) 来描述状态之间的转移规律。
⚝ 平稳分布 (Stationary Distribution):如果一个概率分布 \(\pi(\theta)\) 满足:当马尔可夫链的状态按照 \(\pi(\theta)\) 分布时,下一步状态的分布仍然是 \(\pi(\theta)\),则称 \(\pi(\theta)\) 为马尔可夫链的平稳分布。MCMC 方法的目标就是构造一个以目标分布为平稳分布的马尔可夫链。
② 常用的 MCMC 算法 (Common MCMC Algorithms):
▮▮▮▮ⓐ Metropolis-Hastings 算法 (Metropolis-Hastings Algorithm):Metropolis-Hastings 算法 (Metropolis-Hastings Algorithm) 是一种通用的 MCMC 算法,可以用于从任意概率分布中抽样。其基本步骤如下:
▮▮▮▮▮▮▮▮❶ 初始化:选择参数的初始值 \(\theta^{(0)}\)。
▮▮▮▮▮▮▮▮❷ 迭代:对于 \(t = 1, 2, ...\):
⚝ 提议 (Proposal):从一个提议分布 (proposal distribution) \(q(\theta|\theta^{(t-1)})\) 中抽取一个候选值 \(\theta^*\)。
⚝ 接受或拒绝 (Accept or Reject):计算接受概率 \(\alpha(\theta^{(t-1)}, \theta^*)\):
\[ \alpha(\theta^{(t-1)}, \theta^*) = \min\left\{1, \frac{\pi(\theta^*)q(\theta^{(t-1)}|\theta^*)}{\pi(\theta^{(t-1)})q(\theta^*|\theta^{(t-1)})}\right\} \]
其中,\(\pi(\theta)\) 是目标分布(例如后验分布)。
⚝ 从均匀分布 \(U(0, 1)\) 中抽取一个随机数 \(u\)。
⚝ 如果 \(u \le \alpha(\theta^{(t-1)}, \theta^*)\),则接受提议,令 \(\theta^{(t)} = \theta^*\)。
⚝ 否则,拒绝提议,令 \(\theta^{(t)} = \theta^{(t-1)}\)。
▮▮▮▮▮▮▮▮❸ 输出:迭代足够次数后,得到马尔可夫链的状态序列 \(\{\theta^{(t)}\}_{t=1}^T\)。在预热期 (burn-in period) 之后的样本可以近似看作是从目标分布 \(\pi(\theta)\) 中抽取的样本。
Metropolis-Hastings 算法的关键在于选择合适的提议分布 \(q(\theta|\theta')\)。常用的提议分布包括随机游走 Metropolis 算法 (Random Walk Metropolis) 和 独立 Metropolis 算法 (Independent Metropolis)。
▮▮▮▮ⓑ Gibbs 抽样 (Gibbs Sampling):Gibbs 抽样 (Gibbs Sampling) 是一种特殊的 MCMC 算法,适用于目标分布是多元分布 (multivariate distribution) 且条件分布 (conditional distribution) 容易抽样的情况。其基本思想是轮流从每个参数的全条件分布 (full conditional distribution) 中抽样,从而得到联合分布的样本。对于参数 \(\theta = (\theta_1, \theta_2, ..., \theta_k)\),Gibbs 抽样的基本步骤如下:
▮▮▮▮▮▮▮▮❶ 初始化:选择参数的初始值 \(\theta^{(0)} = (\theta_1^{(0)}, \theta_2^{(0)}, ..., \theta_k^{(0)})\)。
▮▮▮▮▮▮▮▮❷ 迭代:对于 \(t = 1, 2, ...\):
⚝ 从全条件分布 \(p(\theta_1|\theta_2^{(t-1)}, \theta_3^{(t-1)}, ..., \theta_k^{(t-1)}, Y)\) 中抽取 \(\theta_1^{(t)}\)。
⚝ 从全条件分布 \(p(\theta_2|\theta_1^{(t)}, \theta_3^{(t-1)}, ..., \theta_k^{(t-1)}, Y)\) 中抽取 \(\theta_2^{(t)}\)。
⚝ ...
⚝ 从全条件分布 \(p(\theta_k|\theta_1^{(t)}, \theta_2^{(t)}, ..., \theta_{k-1}^{(t)}, Y)\) 中抽取 \(\theta_k^{(t)}\)。
▮▮▮▮▮▮▮▮❸ 输出:迭代足够次数后,得到马尔可夫链的状态序列 \(\{\theta^{(t)}\}_{t=1}^T\)。在预热期之后的样本可以近似看作是从目标分布 \(p(\theta|Y)\) 中抽取的样本。
Gibbs 抽样在全条件分布容易抽样的情况下非常有效,并且不需要调整提议分布,因此在贝叶斯计量经济学中被广泛应用。
③ MCMC 的应用与诊断 (Applications and Diagnostics of MCMC):MCMC 方法为贝叶斯推断提供了强大的工具,可以应用于各种复杂的计量经济模型中。然而,MCMC 方法也存在一些挑战,例如:
⚝ 收敛性诊断 (Convergence Diagnostics):如何判断马尔可夫链是否已经达到平稳分布是一个重要的问题。常用的收敛性诊断方法包括迹图 (trace plot)、自相关函数图 (autocorrelation function plot)、Gelman-Rubin 诊断 (Gelman-Rubin diagnostic) 等。
⚝ 计算效率 (Computational Efficiency):MCMC 方法通常需要大量的迭代才能达到收敛,计算量较大。如何提高 MCMC 的计算效率,例如使用更高效的 MCMC 算法、并行计算等,是一个重要的研究方向。
⚝ 模型评估与选择 (Model Evaluation and Selection):在贝叶斯框架下,可以使用贝叶斯因子 (Bayes factor)、Deviance Information Criterion (DIC)、WAIC (Widely Applicable Information Criterion) 等指标进行模型评估与选择。
总而言之,MCMC 方法是贝叶斯计量经济学的核心工具之一。它使得我们能够对复杂的计量经济模型进行贝叶斯推断,并获得关于参数和预测的后验分布信息。随着计算技术的不断发展,MCMC 方法在计量经济学中的应用将越来越广泛。
END_OF_CHAPTER