因果推断与运筹优化 李胜利、邱韫哲
因果推断部分
概率论及回归分析基础
计量经济学介绍
- 是运用概率统计方法对经济变量之间的因果关系进行定量分析的科学
何为经济变量?
- 政府降息1%对GDP增长的效应是什么?——是
- 大学学位对一个人的收入有什么影响?——是
- 减少班级规模对学生成绩的影响如何?——是
- 古代出进士的数量对一个地区高考成绩的影响?——是
- 接种流感疫苗对于死亡率的影响?——是
- ——Economics as a Socail Science
计量经济学常不足以确定经济变量间的因果关系(由于实验数据的缺乏),多数实证分析正是要确定变量间的因果关系(X是否导致Y),而非相关关系
计量分析须建立在经济理论基础上,但即使有理论,因果关系依然不好分辨。
- 首先,可能存在“逆向因果” 例如 FDI促进地区增长,但FDI也可能
- 其次,可能是被遗漏变量Z对(X,Y)同时起作用
经济数据的划分:
- 横截面数据
- 时间序列数据
- 面板数据
一元线性回归
线性回归
简单线性回归,一元线性回归,其一般形式为:
假设从总体随机抽取n位个体,……
OLS估计量的推导
定义残差:
“普通最小二乘法”(Ordinary Least Squares,OLS):
拟合优度
离差平方和分解公式:
- SST=SSR+SSE
- SSR代表模型中可解释的部分,SSE代表模型中不可解释的部分
多元线性回归
- 一元回归可能遗漏了其它因素
多元线性回归OLS推导
经典模型假设
- 假定1:
- 假定2:
- 假定3:
- 假定4:条件均值为0
- ……
- 假定5:同方差性
- ……
- 假定6:正态性
- ……
假定1-6称为经典线性模型假定
- ……
小样本条件下的统计判断
自由度
计算t检验的p值
H_0成立的前提下,观测到……
给定t_j,则P值……
- ……
此例中P值
对线性假设的F检验,检验以下原假设:
……
如果H_0被拒绝
教育回报的例子……
大样本条件下的统计判断
小样本的假设过强,因此人们提出了大样本理论
“大样本理论”,也称“渐进理论”,研究当样本容量n趋向无穷大时统计量的性质。
定理:OLS的一致性:
- ……
假定1:线性假定
假定2:随机抽样
假定3:严格共线性
- 共线性可以通过VIF(方差膨胀因子)来进行检验
假定4:严格外生性
- 尽管严格外生性不满足,但研究自变量与因变量之间的相关关系是可以的
假定5:同方差
- 异方差是非常普遍存在的问题,因此需要特别小心
假定6:正态性
- 大样本条件下,由于大数定理和中心极限定理,认为正态性是满足的
对经典线性模型假定的讨论
在异方差的情况下,OLS估计量依然是一致的,但违反了高斯-马尔可夫定理。此时,OLS不再是最佳线性无偏估计。
异方差问题的检验:
- 统计方法:
- ……
- 统计方法:
异方差问题的处理:
- 最常见的方法是“OLS+稳健标准误”
- 只要样本容量较大,即使在异方差的情况下,只要使用稳健标准误,则所有参数估计,假设检验均可照常进行。
- 事实上,即使同方差也可以使用稳健标准误
- 因此,很多文献直接就使用文件标准误进行估计
论文阅读
交互项的引入和调节效应
某个自变量取不同值时,因变量和另一个自变量之间的关系也发生了变化,一般地我们称这种现象为交互效应。
- ……
计算偏效应
也即……
这种交互效应在社会科学领域往往被称为调节效应
假设
论文阅读
中介效应的分析
……
……
逐步检验中介效应
- 第一步:检验方程(1)的系数c(即检验 H_0:c=0)
- 第二步:依次检验方程(2)的系数a(即检验H_0:a=0)
- 第三步:
论文阅读
实证研究的一般过程
一、选题
二、确定数据的可得性
三、收集整理数据
四、建立分析模型
五、分析结果
六、稳健性检验
七、论文写作
稳健性检验:
- 研究结果是否是由于采用了特定的数据或特定的方法?
- 需要确定研究结果是可扩展的,也就是在不同环境下都能得到相同的结果
- 变量替换
- 剔除特殊样本
- 变换研究样本
- 换用替代模型
Influence of Social Network Integration on Online Review Helpfulness
SNI 社交网络整合
模型设置与数据
遗漏变量
多余解释变量
建模策略:“由小到大” vs. “由大到小”
对函数形式的检验
多重共线性
极端数据
虚拟变量
变量单位的选择
离散变量
二值选择模型
- 如果被解释y离散,称为“离散选择模型”(discrete choice model)
- ……
- 最简单的建模方法为“线性概率模型”(LPM)
- ……
- 二值选择模型常用的方法:
- ……
- 定义连接函数:
其它离散选择模型
- 二值选择模型文献阅读
计数变量
计数模型介绍
泊松回归
- 泊松分布的期望和方差都等于泊松率
负二项回归
- 比泊松回归的局限在于泊松分布的期望和方差必须……
OLS稳健性检验
面板数据分析
面板数据的结构
- 面板数据,指在一段时间内跟踪同一组个体的数据。它既有横截面维度,又有时间(T个)
- ……
面板数据的信息来源
面板数据分类
面板数据主要优点
示例:
面板数据估计方法
面板数据的估计策略
- 混合回归(pooled regression)
