当前位置:首页 >> 政史地 >> 计量经济学-(西南财大)庞皓-博导

计量经济学-(西南财大)庞皓-博导


经济学类各专业核心课程

计量经济学
1

课程性质与要求


课程性质

教育部经济学学科教学指导委员会规定: 计量经济学为经济学类各专业必修的核心课程


教学的目的要求

▲掌握计量经济学的基本理论和方法 ▲能应用计量经

济方法进行初步的经济分析与预测 ▲能运用EViews软件作一般性经济计量分析
2

应具备的预备知识
●《经济学》理论
宏观经济学与微观经济学

●《概率论与数理统计》基础
如随机变量、概率分布、期望、方差、协方差、点估计、 区间估计、假设检验、方差分析、正态分布、t 分布、F分 布等概念和性质

●《线性代数》基础
矩阵及运算、线性方程组等

●《经济统计学》知识
经济数据的收集、处理和应用
3

配套教材
科学出版社出版
国家精品课程主干教材
教育部统计专业教学指导分 委员会推荐用书 普通高等教育”十一五”国家级 规划教材

《计量经济学》
出版时间:2006年1月
4

计量经济学

第一章 导 论

5

第一章
●什么是计量经济学

导 论

对《计量经济学》的概略认识
●计量经济学的研究方法

●计量经济学中最基本的概念
——— 变量、参数、数据与模型

6

第一节 什么是计量经济学
本节基本内容:
●计量经济学的产生与发展 ●计量经济学的性质 ●计量经济学与其他学科的关系

7

一、计量经济学的产生与发展
产生的历史:
起因:对经济问题的定量研究

名词:1926年弗瑞希仿造出
“Biometrics” “Econometrics”

标志:1930年成立计量经济学会
说明: “计量经济学” “经济计量学”
8

特点
计量经济学的重要特点是它自身并没有固定的 经济理论,计量经济学中的各种计量方法和技 术,大多来自数学和统计学。

计量经济学产生的意义
从定性研究到定量分析的发展,是经济学更精 密、更科学的表现,是现代经济学的重要特征
9

计量经济学的发展
●计算机应用 ●模型的变量和方程 由少到多,又趋向较少,多个模型归并为整体模 型 ●应用领域的拓展

宏观、微观经济领域应用 ,由预测为主转向更
多地对经济理论假设和政策假设的检验

10

●理论与方法的新突破
除了经典线性计量经济学模型以外,出现 非线 性模型、合理预期模型、非参数、半参数模型、 动态模型、时间序列模型、协整理论、Panel Data数据模型、贝叶斯方法、小样本理论等

新的研究领域

11

二、计量经济学的性质
若干代表性表述:
●“计量经济学是统计学、经济学和数学的结合。” (弗瑞希) ●“计量经济学是用数学语言来表达经济理论,以便通 过统计方法来论述这些理论的一门经济学分支。” (美国现代经济词典) ●“计量经济学可定义为:根据理论和观测的事实,运 用合适的推理方法使之联系起来同时推导,对实际经 济现象进行的数量分析。” (萨谬尔逊等)

各种表述的共性:
计量经济学与经济理论、统计学、数学都有关系
12

一般性定义
计量经济学是以经济理论和经济数据的事实为 依据,运用数学和统计学的方法,通过建立数 学模型来研究经济数量关系和规律的一门经济 学科。 研究的主体(出发点、归宿、核心):
经济现象及数量变化规律

研究的工具(手段):
模型 数学和统计方法

必须明确:
方法手段要服从研究对象的本质特征(与数学不同), 方法是为经济问题服务
13

注意:计量经济研究的三个方面
理论:即说明所研究对象经济行为的经济理论 ——计量经济研究的基础 数据:对所研究对象经济行为观测所得到的信息 ——计量经济研究的原料或依据 方法:模型的方法与估计、检验、分析的方法 ——计量经济研究的工具与手段

三者缺一不可
14

计量经济学研究的基本概述:
经济 理论
数量化

经济 模型 统计 数据

经济计量 模型 加工的 数据 经济计 量方法

根据数据 运用方法 对模型估 计、检验

结构分析 经济预测 政策评价

事实

反映为

数理 统计

补充改造

准备阶段

计量过程

运用阶段

15

计量经济学的学科类型
●理论计量经济学 研究经济计量的理论和方法 ●应用计量经济学 应用计量经济方法研究某些领域的具体经济问题

16

三、计量经济学与其他学科的关系
1、计量经济学与经济学的关系
联系: ●计量经济学研究的主体—经济现象和经济关 系的数量规律 ●计量经济学必须以经济学提供的理论原则和经

济运行规律为依据
●经济计量分析的结果:对经济理论确定的原则 加以验证、充实、完善
17

区别:

●经济理论重在定性分析,并不对经济关系提
供数量上的具体度量

●计量经济学对经济关系要作出定量的估计,
对经济理论提出经验的内容

18

2、计量经济学与经济统计学的关系
联系:
●经济统计侧重于对社会经济现象的描述性计量
●经济统计提供的数据是计量经济学据以估计参

数、验证经济理论的基本依据
●经济现象不能作实验,只能被动地观测客观经 济现象变动的既成事实,只能依赖于经济统计 数据
19

区别:
●经济统计学主要用统计指标和统计分析方法对 经济现象进行描述和计量 ●计量经济学主要利用数理统计方法对经济变量 间的关系进行计量

20

3、计量经济学与数理统计学的关系
联系: ●数理统计学是计量经济学的方法论基础

区别:
●数理统计学是在标准假定条件下抽象地研究一 般的随机变量的统计规律性; ●计量经济学是从经济模型出发,研究模型参数 的估计和推断,参数有特定的经济意义,标准

假定条件经常不能满足,需要建立一些专门的
经济计量方法
21

第二节 计量经济学的研究方法
需要做的工作
选择变量和数学关系式 —— 模型设定
确定变量间的数量关系 —— 估计参数

检验所得结论的可靠性 —— 模型检验
作经济分析和经济预测 —— 模型应用

22

一、模型设定
经济模型及设定
模型:对经济现象或过程的一种数学模拟 设定(Specification):

▲模型只能抓主要因素和主要特征,不得不舍 弃某些因素
▲对所研究经济变量之间的关系选用适当的数 学关系式近似地、简化地表达出来 ▲模型的设计和形式的取舍具有一定主观性
23

构成计量经济模型的基本要素
经济变量
不同时间、不同空间的表现不同,取值不同, 是可以观测的因素。是模型的研究对象或影 响因素。

经济参数
表现经济变量相互依存程度的、决定经济结 构和特征的、相对稳定的因素,通常不能直 接观测。
24

设定计量经济模型的基本要求
●要有科学的理论依据 ●选择适当的数学形式
类型: 单一方程、联立方程 线性形式、非线性形式

● 模型要兼顾真实性和实用性
两种不好的模型: 太过复杂—真实但不实用 过分简单—不真实

● 包含随机误差项
经济模型与计量经济模型的重要区别

● 方程中的变量要具有可观测性
25

二、估计参数
为什么要对参数作估计?
一般来说参数是未知的,又是不可直接观测的。 由于随机项的存在,参数也不能通过变量值去 精确计算。只能通过变量样本观测值选择适当 方法去估计。

(如何通过变量样本观测值去科学地估计总体模
型的参数是计量经济学的核心内容)
26

两个概念
参数的估计值:所估计参数的具体数值 参数的估计式:估计参数数值的公式 参数估计的常用方法 普通最小二乘、广义最小二乘、极大似然估计、 二段最小二乘、三段最小二乘、其它估计方法

27

三、模型检验
为什么要检验?
● 建模的理论依据可能不充分 ● 统计数据或其他信息可能不可靠

● 样本可能较小,结论只是抽样的某种偶然
结果 ● 可能违反计量经济方法的某些基本假定 对模型检验什么? 对模型和所估计的参数加以评判,判定在理

论上是否有意义,在统计上是否可靠
28

对计量经济模型检验的方式
?经济意义检验
所估计的模型与经济理论是否相符

?统计推断检验
检验参数估计值是否抽样的偶然结果

?计量经济学检验
是否符合计量经济方法的基本假定

?预测检验
将模型预测的结果与经济运行的实际对比
29

四、模型应用
? 经济结构分析
分析变量之间的数量比例关系(如: 边际分析、 弹性分析、乘数分析) 例:分析消费增加对GDP的拉动作用

? 经济预测
由预先测定的解释变量去预测应变量在样本以 外的数据 (动态预测、空间预测)
30

例:预测股票市场价格的走势

?政策评价
用模型对政策方案作模拟测算,对政策方案作 评价把计量经济模型作为经济活动的实验室) 例:分析道路收费政策对汽车市场的影响

31

计量经济学的研究过程
经济理论
设定计量模型
实际经济活动

参数估计
修订模型 不符合 是否符合标准 符合 模型应用 模型检验

搜集统计数据

结构分析

经济预测

政策评价
32

第三节 变量、参数、数据与模型
本节基本内容:
●计量经济模型中的变量 ●参数的估计方法 ●计量经济学中应用的数据 ●计量经济模型的建立

33

一、计量经济模型中的变量
从变量的因果关系区分:
被解释变量(应变量)——要分析研究的变量 解释变量(自变量)—说明应变量变动主要原 因的变量(非主要原因归入随机误差项)

34

从变量的性质区分
内生变量—其数值由模型所决定的变量,是

模型求解的结果
外生变量—其数值由模型以外决定的变量

(相关概念:前定内生变量、前定变量)
注意:

外生变量数值的变化能够影响内生变量的变化,
内生变量却不能反过来影响外生变量
35

二、参数的估计方法
单一方程模型 最常用的是普通最小二乘法、极大似然估计 法等

联立方程模型
常用二段最小二乘法和三段最小二乘法等

准则:
参数估计值应符合“尽可能地接近总体参数真 实值”的准则”。
36

三、计量经济学中应用的数据
数据的来源:
各种经济统计数据 专门调查取得的数据 人工制造的数据

数据类型:
时间数列数据(同一空间、不同时间) 截面数据(同一时间、不同空间) 混合数据(面板数据 Panel Data) 虚拟变量数据

数据的要求:
真实性、完整性、可比性
37

四、计量经济模型的建立
经济模型是对实际经济现象或过程的一种数学模
拟,是对复杂经济现象的简化与抽象 特点:只能在一定假定前提下 忽略次要因素,突出主要因素

38

可利用来建立计量经济模型的关系:
行为关系(如生产、投资、消费)

生产技术关系 (如投入产出关系)
制度关系(如税率) 定义关系 计量经济模型的数学形式: 线性模型:如 非线性模型:如
Yi ? ?1 ? ? 2 X 2i ? ?3 X 3i ? ui
Yi ? ?1 ? ? 2 ln X 2i ? ?3 X 32i ? ui
39

本章学习要点
1. 计量经济学的性质
2. 计量经济学与相关学科的联系与区别 3. 学习计量经济学的必要性

4. 计量经济学研究的基本思路和步骤
5. 模型的设定、参数估计、模型检验的要求 6. 模型中的变量及其类型 7. 计量经济研究中数据的类型 8. 参数估计的方法类型

9. 建立计量经济模型的依据
40

第一章结束了!

41

计量经济学

第 二 章 简单线性回归模型

引子: 中国旅游业总收入将超过3000 亿美元吗?
从2004中国国际旅游交易会上获悉,到2020年,中国旅 游业总收入将超过3000亿美元,相当于国内生产总值的 8%至11%。(资料来源:国际金融报2004年11月25日 第二版) ◆是什么决定性的因素能使中国旅游业总收入到2020年达到 3000亿美元?

◆旅游业的发展与这种决定性因素的数量关系究竟是什么?
◆怎样具体测定旅游业发展与这种决定性因素的数量关系?

43

第二章 简单线性回归模型
本章主要讨论:
●回归分析与回归函数 ●简单线性回归模型参数的估计 ●拟合优度的度量 ●回归系数的区间估计和假设检验 ●回归模型预测

44

第一节 回归分析与回归方程
本节基本内容:
●回归与相关 ●总体回归函数 ●随机扰动项 ●样本回归函数

45

一、回归与相关
(对统计学的回顾)

1. 经济变量间的相互关系
◆确定性的函数关系

Y ? f (X )
(ε为随机变量)

◆不确定性的统计关系—相关关系

Y ? f (X ) ??
◆没有关系

46

2.相关关系
◆ 相关关系的描述 相关关系最直观的描述方式——坐标图(散布图)

Y
? ? ? ? ? ? ? ?

? ?

X
47

◆相关关系的类型

● 从涉及的变量数量看 简单相关 多重相关(复相关) ● 从变量相关关系的表现形式看 线性相关——散布图接近一条 直线 非线性相关——散布图接近
48

3.相关程度的度量—相关系数
总体线性相关系数: Cov( X , Y ) ?? Var( X )Var(Y )

其中:X , Y ) Cov( 差;
Var( X )

——X 的方 ——Y的方差
Var(Y )
__ __ i i __ 2 __ 2 i i



? XY ?

? ( X ? X )(Y ? Y )——X和Y的协方 ? ( X ? X ) ? (Y ? Y )
X X
Y Y
49

X i Yi 样本线性相关系数: __ X Y

使用相关系数时应注意
● X 和 Y都是相互对称的随机变量 ● 线性相关系数只反映变量间的线性相关程度,不 能说明非 线性相关关系 ● 样本相关系数是总体相关系数的样本估计值,由 于抽样波动,样本相关系数是个随机变量,其统 计显著性有待检验 ● 相关系数只能反映线性相关程度,不能确定因果 关系,不能说明相关关系具体接近哪条直线 计量经济学关心:变量间的因果关系及隐藏在随 机性后面的统计规律性,这有赖于回归分析方法
50

4. 回归分析
回归的古典意义: 高尔顿遗传学的回归概念 ( 父母身高与子女身高的关系) 回归的现代意义: 一个应变量对若干解释变量 依存关系 的研究 回归的目的(实质): 由固定的解释变量去 估计应变量的平均值
51

注意几个概念


Y 的条件分布 当解释变量 X 取某固定值时(条件),Y 的值不 确定,Y 的不同取值形成一定的分布,即 Y 的条
件分布。



Y 的条件期望
对 Y 所形成的分布确 定其期望或均值,称 为 Y 的条件期望或条 件均值 E(Y X i )

Y

对于X 的每一个取值,

Xi
52

X

回归线与回归函数
●回归线:
对于每一个 X 的取值,

都有 Y 的条件期望
E(Y X i ) 与之对应, 代表这些 Y 的条件期

Y

望的点的轨迹所形成 的直线或曲线,称为

回归线。

Xi

X

53

回归线与回归函数
回归函数:应变量 Y 的条件期望 E(Y X i ) 随解 释变量 X 的的变化而有规律的变化,如果把 Y 的条件期望 E(Y X i ) 表现为 X 的某种函数

E(Y X i ) ? f ( X i )
这个函数称为回归函数。 回归函数分为:总体回归函数和样本回归函数 举例:假如已知100个家庭构成的总体。
54

例:100个家庭构成的总体
1000 820 888 932 960 1500 962 1024 1121 1210 1259 1324 2000 1108 1201 1264 1310 1340 1400 1448 2500 1329 1365 1410 1432 1520 1615 1650 3000 1632 1726 1786 1835 1885 1943 2037 3500 1842 1874 1906 1068 2066 2185 2210

(单位:元)

每 月 家 庭 可 支 配 收 入 X
4000 2037 2110 2225 2319 2321 2365 2398 4500 2275 2388 2426 2488 2587 2650 2789 5000 2464 2589 2790 2856 2900 3021 3064 5500 2824 3038 3150 3201 3288 3399

每 月 家 庭 消 费 支 出

1489 1538
1600 1702

1712 1778
1841 1886

2078 2179
2298 2316

2289 2313
2398 2423

2487 2513
2538 2567

2853 2934
3110

3142 3274

Y

1900
2012 900 1150 1400 1650

2387
2498 2589 1900

2453
2487 2586 2150

2610
2710 2400 2650 2900 3150 55

E(Y X i )

二、总体回归函数(PRF)
1. 总体回归函数的概念
前提:假如已知所研究的经济现象的总体应变 量 Y 和解释变量 X 的每个观测值, 可以计算出总体 应变量 Y 的条件均值 E(Y X i ) ,并将其表现为解释 变量 X 的某种函数

E(Y X i ) = f ( X i )
这个函数称为总体回归函数(PRF)
56

2.总体回归函数的表现形式
(1)条件均值表现形式

Y 假如

E(Y X ) 的条件均值
i

Y
E (Y X i )
i

是解 ?

ui 释变量 f ( X的线性函数,可表示为: E(Y X ) ? )?? ?? X ? Y
i i i 1 2 i

X

(2)个别值表现形式 Xi Y

Yi Yi
i

Xi

X

对于一定的 E(Y X )
E(Y X i )



i

, u

的各个别值 u
i


57

Yi ? ?1 ? ? 2 X i ? ui

ui ? Yi ? E(Yi X i ) ? Yi ? ?1 ? ? 2 X i

3.如何理解总体回归函数
●实际的经济研究中总体回归函数通常是未知的, 只能根据经济理论和实践经验去设定。“计量” 的目的就是寻求PRF。 ●总体回归函数中 Y 的关系可是线性的,也可是 与 X 非线性的。 对线性回归模型的“线性”有两种解释

就变量而言是线性的
—— Y 的条件均值是 X 的线性函数 就参数而言是线性的 —— Y 的条件均值是参数 ? 的线性函数

58

“线性”的判断
E(Yi X i ) ? ?1 ? ? 2 X i
E(Yi X i ) ? ?1 ? ? 2 X 2i 性” E(Yi X i ) ? ?1 ? ? 2 X i
性” 计量经济学中: 线性回归模型主要指就参数而言是“线性”,因 为只要对参数而言是线性的,都可以用类似的方法估计 59 变量、参数均为“线性” 参数“线性”,变量”非线

变量“线性”,参数”非线

三、随机扰动项
◆概念: 各个 Yi 值与条件均值
E(Y X i ) 的偏差 ui 代表

u

Y
?
?

u

排除在模型以外的所有 因素对 Y 的影响。

Xi

X

◆性质:ui 是期望为0有一定分布的随机变量 重要性:随机扰动项的性质决定着计量经济方 法的选择
60

引入随机扰动项的原因

● ● ● ● ●

未知影响因素的代表
无法取得数据的已知影响因素的代表 众多细小影响因素的综合代表 模型的设定误差 变量的观测误差 变量内在随机性

61

四、样本回归函数(SRF)
样本回归线: 对于 X 的一定值,取得 Y 的样本观测值,可计算其条 件均值,样本观测值条件均值的轨迹称为样本回归线。

样本回归函数: 如果把应变量Y 的样本条件均值表示为解释变量 的某 种函数,这个函数称为样本回归函数(SRF)。
Y
? ? ? ?

?

X

62

SRF 的特点
●每次抽样都能获得一个样本,就可以拟合一条

样本回 归线,所以样本回归线随抽样波动而变 化,可以有许多条(SRF不唯一)。
Y

SRF1 SRF2
X
63

●样本回归函数的函数形式应与设定的总体回归 函数的函数形式一致。
●样本回归线还不是总体回归线,至多只是未知 总体回归线的近似表现。

64

样本回归函数的表现形式
样本回归函数如果为线性函数,可表示为 ? ? ? Y ?? ?? X
i 1 2 i

? 其中: Yi 是与 X i 相对应的 Y 的样本条件均值 ? ? ?1 和? 2 分别是样本回归函数的参数
应变量 Y 的实际观测值Yi 不完全等于样本条件 均值,二者之差用 ei 表示, ei 称为剩余项或残差项: 或者

? ei ? Yi ? Y i ? ? Yi ? ?1 ? ? 2 X i ? ei

65

对样本回归的理解
? ? Yi ? ?1 ? ? 2 X i ? ei
? ? 如果能够获得 ?1 和 ? 2 的数值,显然:
? ? ● ?1 和 ? 2 是对总体回归函数参数 ?1 和 ? 2 的估计
? ● Yi 是对总体条件期望 E(Y X i ) 的估计 ● ei 在概念上类似总体回归函数中的 ui ,可

视为对 ui 的估计。

66

样本回归函数与总体回归函数的关系
Y
Yi
? Yi
E (Yi X i )

?

Yi ei

SRF PRF

ui
A

Xi

X
67

回归分析的目的
用样本回归函数SRF去估计总体回归函数PRF。 由于样本对总体总是存在代表性误差,SRF 总会过

高或过低估计PRF。
要解决的问题:

? ? 寻求一种规则和方法,使得到的SRF的参数 ?1和 ? 2 ? 尽可能“接近”总体回归函数中的参数 1 和 2 。 ?
这样的“规则和方法”有多种,最常用的是最小二
乘法
68

第二节 简单线性回归模型的最小二乘估计
本节基本内容:
● 简单线性回归的基本假定

● 普通最小二乘法
● OLS回归线的性质

● 参数估计式的统计性质

69

一、简单线性回归的基本假定
1. 为什么要作基本假定?
●模型中有随机扰动,估计的参数是随机变量,
只有对随机扰动的分布作出假定,才能确定 所估计参数的分布性质,也才可能进行假设 检验和区间估计

●只有具备一定的假定条件,所作出的估计才
具有较好的统计性质。
70

2、基本假定的内容
(1)对模型和变量的假定


Yi ? ?1 ? ? 2 X i ? ui

假定解释变量 X是非随机的,或者虽然是随机的,但与扰动



u是不相关的

假定解释变量 X 在重复抽样中为固定值

假定变量和模型无设定误差

71

(2)对随机扰动项 u 的假定
又称高斯假定、古典假定

假定1:零均值假定
在给定 X 的条件下 , u
i

ui

的条件期望为零

E(ui X i ) ? 0

假定2:同方差假定 在给定 X 的条件下, i 的条件方差为某个常数 ? 2 u

ui

Var(ui X i ) ? E[ui ? E(ui X i )]2 ? ? 2
72

假定3:无自相关假定 随机扰动项

u i 的逐次值互不相关
(i ? j )

Cov(ui , u j ) ? E[ui ? E (ui )][u j ? E (u j )]

? E (ui u j ) ? 0

假定4:随机扰动

u i 与解释变量

X 不相关

Cov(ui , X i ) ? E[ui ? E (ui )][ X i ? E ( X i )] ? 0

73

假定5:对随机扰动项分布的正态性假定

即假定 u i 服从均值为零、方差为 ? 的正态分布
2

ui ? N (0, ? 2 )
(说明:正态性假定不影响对参数的点估计,但对 确定所估计参数的分布性质是需要的。且根据中心

u 极限定理,当样本容量趋于无穷大时,u ii 的分布会
趋近于正态分布。所以正态性假定是合理的)
74

Y 的分布性质
由于

Yi ? ?1 ? ? 2 X i ? ui

u i 的分布性质决定了 Yi 的分布性质。 对 u i 的一些假定可以等价地表示为对Yi 的假定:
假定1:零均值假定 假定2:同方差假定

E(Yi X i ) ? ?1 ? ? 2 X i
Var(Y X i ) ? ? 2

假定3:无自相关假定 Cov(Yi , Y j ) ? 0 假定5:正态性假定

(i ? j )
2

Yi ? N ( ?1 ? ? 2 X i , ? )
75

二、普通最小二乘法
(Ordinary Least Squares )

◆OLS的基本思想
? ?1 ●不同的估计方法可得到不同的样本回归参数

Yi 与 Y?i 的差即剩余 ei ●理想的估计方法应使
越小越好
●因



? ?2

,所估计的

? Yi

也不同。

ei



? ? min(? ei2 ) ? min(Yi ? ?1 ? ? 2 X i )2
76

可正可负,所以可以取

ei2 ?

最小

正规方程和估计式
取偏导数为0,得正规方程

? Y ? n?? ? ?? ? X ? X Y ? ?? ? X ? ?? ? X
i 1 2 i i i 1 i 2

2 i

用克莱姆法则求解得观测值形式的OLS估计式:
?2 ?
?1 ?
^

^

n ? X iYi ? ? X i ? Yi n ? X ? (? X i )
2 i 2

X i2 ? Yi ? ? X i ? X iYi ? n ? X ? (? X i )
2 i 2
77

用离差表现的OLS估计式
为表达得更简洁,或者用离差形式OLS估计式:

?2
^

^

? ( X ? X )(Y ? Y ) ? ? x y ? ?x ?(X ? X )
i i __ i 2 i 2 i
__

__

__

i

? ? 1 ? Y ? ?2 X

注意其中: xi ? X i ? X

y i ? Yi ? Y

而且样本回归函数可写为

? ? yi ? ? i xi
78

三、OLS回归线的性质
可以证明: ●回归线通过样本均值
? ? Y ? ?1 ? ? 2 X

Y
Y

? ●估计值 Yi 的均值等于实 际观测值 Y i 的均值

? Y?i
n

?Y

X

X

79

e ●剩余项 i

的均值为零
i

?e e?
n

?0

? ●应变量估计值 Yi 与剩余项
? Cov(Yi , ei ) ? 0
●解释变量 X i 与剩余项

e i 不相关

e i 不相关
80

Cov( X i , ei ) ? 0

四、参数估计式的统计性质
(一)参数估计式的评价标准 1. 无偏性
前提:重复抽样中估计方法固定、样本数不变、经

重复抽样的观测值,可得一系列参数估计值 ? ? 参数估计值 ? 的分布称为 ? 的抽样分布,密度函
? 数记为 f ( ? ) ? ? 如果 E( ? ) ? ? ,称 ? 是参数 ? 的无偏估计式,否 ? ? 则称 ? 是有偏的,其偏倚为 E( ? ) ? ?

(见图1.2)
81

图1.2

概 率 密 度

? f (? )

f (? * )

?

偏倚 E ( ? )
*

?

估计值
82

2. 最小方差性
前提:样本相同、用不同的方法估计参数,

可以找到若干个不同的估计式
目标:努力寻求其抽样分布具有最小方差的 估计式—— 最小方差准则,或称最佳 性准则(见图1.3) 既是无偏的同时又具有最小方差的估计式,称为

最佳无偏估计式。
83

图1.3

概 率 密 度

? f (? )

f (? * )

?

?

估计值
84

4. 渐近性质(大样本性质)
思想:当样本容量较小时,有时很难找到

最佳无偏估计,需要考虑样本扩大后 ? 的性质 ?
一致性:
? lim P( ? ? ? ? ? ) ? 1
? ?

?

当样本容量 n 趋于无穷大时,如果估 计式 依概率收敛于总体参数的真实 值,就称这个估计式 是 的一致估
n??
85

? P lim( ? ) ? ?

图1.4
? f ( ? )100 ? f ( ? )80
概 率 密 度

? f ( ? ) 40
? f ( ? ) 20

?

?

估计值
86

(二) OLS估计式的统计性质
● 由OLS估计式可以看出
? ?2 ? n ? X iYi ? ? X i ? Yi n? X ? (? X i )
2 i 2

? ?1 ?

X i2 ? Yi ? ? X i ? X iYi ? n ? X ? (? X i )
2 i 2

? ? k 由可观测的样本值 X i 和 Yi 唯一表示。 ? ● 因存在抽样波动,OLS估计 ? k 是随机变量
● OLS估计式是点估计式

87

OLS估计式的统计性质——高斯定理
1. 线性特征
?2 ?
^

? ? k 是 Y 的线性函数
? X)
2

? ( X i ? X )(Yi ? Y ) ?(X
i

?

? xi y i ?x
2 i

? ? k i yi

xi ki ? xi2 ?

2. 无偏特性 ? E (? k ) ? ? k

(证明见教材P37

录2· 1)

3. 最小方差特性

? ?k (证明见教材P68
88 具有最小方差

在所有的线性无偏估计中,OLS估计

第三节 拟合优度的度量
本节基本内容: ●什么是拟合优度 ●总变差的分解 ●可决系数

89

一、什么是拟合优度?
概念:
Y
?

样本回归线是对样本数据 ? ? 的一种拟合,不同估计方 ? ? ? ? 法可拟合出不同的回归线, ? ? 拟合的回归线与样本观测 值总有偏离。 样本回归线对样本观测数据拟合的优劣程度 ——拟合优度 拟合优度的度量建立在对总变差分解的基础上

X

90

二、总变差的分解
分析Y 的观测值、估计值与平均值的关系

Yi ? Y ? (Yi ? Y ) ? (Yi ? Yi )
将上式两边平方加总,可证得

^

^

? (Y ? Y ) ? ? ( Y ? Y ) ? ? (Y ? Y )
2 2 i i i i

^

^

2

(TSS) (ESS)

(RSS)

91

总变差

2 y i(TSS):应变量Y的观测值与其平均 ?

值的离差平方和(总平方和)

解释了的变差 ? y i (ESS):应变量Y的估计值与 其平均值的离差平方和(回归平方和) 剩余平方和 ? ei2(RSS):应变量观测值与估计 值之差的平方和(未解释的平方和)

^2

92

变差分解的图示
Yi ?

Y
(Y i - Y ) ? 总变差
^

ei 来自残差

SRF
(Y i - Y ) ? 来自回归
^

Y

Xi

X
93

三、可决系数
以TSS同除总变差等式两边: y 2 ? ei2 ?? ? TSS ESS RSS 或 1? ? ? yi2 ? yi2 ? TSS TSS TSS 定义:回归平方和(解释了的变差ESS) yi2 在总变 ?? 差(TSS) y i2 中所占的比重称为可决系数,用 r 2 表 ? 示:
r
2

? ?y ? ?y

2 2 i



r2 ? 1?

y i2 ?
94

ei2 ?

可决系数的作用和特点
作用:可决系数越大,说明在总变差中由模型作出

了解释的部分占的比重越大,模型拟合优度越好。
反之可决系数小,说明模型对样本观测值的拟合 程度越差。 特点:●可决系数取值范围:0 ? r 2 ? 1 ●随抽样波动,样本可决系数 而变动的随机变量 ●可决系数是非负的统计
95

r

2 是随抽样

可决系数与相关系数的关系
(1)联系
数值上,可决系数等于应变量与解释变量之间 简单相关系数的平方:
R2 ? yi2 ??

?x y ? (? x )(? y
i i 2 i

?y

2 i

?

? ? 22 ? xi2

?y
)

2 i

?

(? xi yi ) 2 (? x )
2 2 i

?

yi2 ?

xi2 ?

2 i

? r2

96

可决系数与相关系数的关系
(2)区别
可决系数 相关系数

就模型而言 说明解释变量对应变量 的解释程度 度量不对称的因果关系
取值:[0,1]

就两个变量而言 度量两个变量线性依存 程度。 度量不含因果关系的对 称相关关系 取值:[-1,1]
97

运用可决系数时应注意
● 可决系数只是说明列入模型的所有解释变量对 因变量的联合的影响程度,不说明模型中每个 解释变量的影响程度(在多元中)

● 回归的主要目的如果是经济结构分析,不能只
追求高的可决系数,而是要得到总体回归系数 可信的估计量,可决系数高并不表示每个回归

系数都可信任
● 如果建模的目的只是为了预测因变量值,不是

为了正确估计回归系数,一般可考虑有较高的
可决系数
98

第四节 回归系数的区间估计和假设检验
本节基本内容:

●OLS估计的分布性质 ●回归系数的区间估计 ●回归系数的假设检验

99

问题的提出
为什么要作区间估计?
OLS估计只是通过样本得到的点估计,不一定等于 真实参数,还需要找到真实参数的可能范围,并

说明其可靠性

为什么要作假设检验?
OLS 估计只是用样本估计的结果,是否可靠? 是否抽样的偶然结果?还有待统计检验。
区间估计和假设检验都是建立在确定参数估计值 概率分布性质的基础上。
100

一、OLS估计的分布性质
基本思想
? ? k 是随机变量,必须确定其分布性质才可能
进行区间估计和假设检验
决定了 Yi 也 是服从正态分布的随机变量, ? k 是 Yi 的线性 Yi ? ?也是服从正态分布的随机变量, 函数,决定了 ? k ? ? 只要确定 的期望和方差,即可确定 ?k ?k

u i 是服从正态分布的随机变量,

的分布性质
101

? β


的期望和方差
(无偏估计)

? ? ? 的期望: E( ? k ) ? ? k

? ● ? 的方差和标准误差
? Var( ? 2 ) ?

(标准误差是方差的算术平方根) 2
xi2 ?
2

?

? SE( ? 2 ) ?

?

xi2 ?
N? x X i2 ?
2 i

? Var( ?1 ) ? ?

N? x

X i2 ?
2 i

? SE( ?1 ) ? ?

?

2
102

? 2 的估计 对随机扰动项方差

可以证明(见教材P70附录2.2)

?2

的无偏估计为

? ?

2

?e ?

2 i

n?2

(n-2为自由度,即可自由变化的样本观测值个数)
103


^

? ?

作标准化变换
? 1 ? ?1 ?
^
^

●在 ? 2 已知时
z1 ?

? 1 ? ?1
SE( ? 1 )
^
^

?

n? xi2

X i2 ?

~ N (0,1)

z2 ?

? 2 ? ?2
SE( ? 2 )
^

? 2 ? ?2 ? ~ N (0,1) ?

?x

2 i
104

? 2 未知时 ●当
(1)当样本为大样本时,用估计的参数标准误差对
? ? 作标准化变换,所得Z 统计量仍可视为标准正

态变量(根据中心极限定理)

? (2)当样本为小样本时,可用 ? 2 代替 ? 2 , 去估
? 计参数的标准误差,用估计的参数标准误差对 ?

作标准化变换,所得的 t 统计量不再服从正态分布
(这时分母也是随机变量),而是服从 t 分布:

t?

? ?k ? ?k
^

? SE ( ? k )

~ t (n ? 2)
105

二、回归系数的区间估计
概念:
对参数作出的点估计是随机变量,虽然是无偏估 计,但还不能说明估计的可靠性和精确性,需要找 到包含真实参数的一个范围,并确定这个范围包含 参数真实值的可靠程度。 在确定参数估计式概率分布性质的基础上,可找到 1 两个正数δ和α( 0 ? ? ?),使得区间 ? ? ( ? k ? ? , ? k ? ? ) 包含真实 ? k 的概率为 1 ? ? ,即

? ? P( ? k ? ? ? ? k ? ? k ? ? ) ? 1 ? ?
这样的区间称为所估计参数的置信区间。
106

回归系数区间估计的方法
一般情况下, 总体方差 ? 2 未知,用无偏估计 ? 2 ? 去代替 ,由于样本容量较小,统计量 t 不再服

从正态分布,而服从 t 分布。可用 t 分布去建立
参数估计的置信区间。

t ?
*

? ?2 ? ?2 ? SE ( ?2 )
^

~ t (n ? 2)

107

选定α,查 t 分布表得显著性水平为 ? 2 ,自 由度为 n ? 2 的临界值 ,则有
P[?t? ?
2

? 2 ? ?2
SE( ? 2 )
^ ^

^

? t? ] ? 1 ? ?
2


P[ ? 2 ? t? SE( ? 2 ) ? ? 2 ? ? 2 ? t? SE( ? 2 )] ? 1 ? ?
2 2 ^ ^ ^ ^ ^ ^

108

三、回归系数的假设检验
1. 假设检验的基本思想
为什么要作假设检验? ? ? ?2 所估计的回归系数 ?1 、? 2 和方差 ? 都是通过 样本估计的,都是随抽样而变动的随机变量, 它们是否可靠?是否抽样的偶然结果呢?还需 要加以检验。

109

对回归系数假设检验的方式
计量经济学中,主要是针对变量的参数真值是否为

零来进行显著性检验的。
目的:对简单线性回归,判断解释变量 X 是否是被 解释变量 Y 的显著影响因素。在一元线性模型中, 就是要判断 X 是否对 Y 具有显著的线性影响。这 就需要进行变量的显著性检验。

110

2. 回归系数的检验方法
? 2 未知,只能用 ? 2 去 一般情况下,总体方差 ?
代替,可利用 t 分布作 t 检验 ? ? ?2 ? ?2 ?2 t* ? ^ ? ^ ~ t (n ? 2) ? ? SE (?2 ) SE ( ?2 )

给定 α , 查 t 分布表得 t α 2 (n - 2) ▼如果 t * ? ?t? 2 (n ? 2) 或者 t * ? ?t? 2 (n ? 2) 则拒绝原假 设 H 0 : ? 2 ? 0 ,而接受备择假设 H1 : ? 2 ? 0 ▼如果 -tα 2(n - 2)≤ t * ≤ tα 2(n - 2) 则接受原假设 H 0 : ? 2 ? 0
111

用 P 值判断参数的显著性
假设检验的 p 值:
p 值是基于既定的样本数据所计算的统计量,是拒绝 原假设的最低显著性水平。 统计分析软件中通常都给出了检验的 p 值
相对于显著性水平

? 的临界值: t? 或 t? 2
t*

由样本计算的统计量为:

t? 2 与
t*

? 相对应

?
P

与 P 相对应

注意: t检验是比较

t *和 t? 2

P值检验是比较

?和p

?t

*

?t?

2

t? 2 t *

统计量 t
112

用 P 值判断参数的显著性
假设检验的 p 值:

p 值是根据既定的样本数据所计算的统计量,
拒绝原假设的最小显著性水平。

统计分析软件中通常都给出了检验的 p 值。

113

用 P 值判断参数的显著性的方法
p ? 方法:将给定的显著性水平 ? α/2 > p



值比较: H : β =0
0 k

X X

Y

?若

α/2 ≤ p

H0 : βk = 0

值,则在显著性水平
Y p

?

p < α/2 下拒绝原假设

H0

,即认为


114

有显著影响

第五节 回归模型预测
本节主要内容: ●回归分析结果的报告 ●被解释变量平均值预测 ●被解释变量个别值预测

115

一、回归分析结果的报告
经过模型的估计、检验,得到一系列重要的数 据,为了简明、清晰、规范地表述这些数据,计 量经济学通常采用了以下规范化的方式: 例如:回归结果为

? Yi ? 352.00 ? 0.5300 X i
(76.5826) (0.0216)

t ? (4.5963) (24.5902)
r 2 ? 0.9869 df ? 8

标准误差SE t 统计量 可决系数和自
116

二、被解释变量平均值预测
1.基本思想

●运用计量经济模型作预测:指利用所估计的样本回 归函数,用解释变量的已知值或预测值,对预测期 或样本以外的被解释变量数值作出定量的估计。 ●计量经济预测是一种条件预测:
条件:◆模型设定的关系式不变 ◆所估计的参数不变 ◆ 解释变量在预测期的取值已作出预测 对应变量的预测分为平均值预测和个别值预测 对应变量的预测又分为点预测和区间预测

117

预测值、平均值、个别值的相互关系
Y
点预测值

SRF
PRF
?

Y?F

真实平均值 E(Y F X F ) 个别值

YF

eF

uF

XF

X

Y?F 是真实平均值的点估计,也是对个别值的点估计
118

2 .Y 平均值的点预测
将解释变量预测值直接代入估计的方程

? ? ? YF ? ?1 ? ? 2 X F
? 这样计算的 YF 是一个点估计值

119

3. Y 平均值的区间预测
基本思想:
?

? 由于存在抽样波动,预测的平均值 YF 不一定等于 真实平均值 E(YF X F ) ,还需要对 E(YF X F ) 作区 间估计。
为对Y 作区间预测,必须确定平均值预测值的抽 ? 样分布, 必须找出与 YF 和 E(YF X F ) 都有关的 统计量

?

120

具体作法 (从 Y F 的分布分析)
已知
可以证明
? E (YF ) ? E (YF X F ) ? ?1 ? ? 2 X F
1 ( X F ? X )2 ? Var (YF ) ? ? 2 [ ? ] 2 n ? xi

^

1 ( X F ? X )2 ? SE (YF ) ? ? ? n xi2 ?
^

YF

? 当 未知时,只得用 ? Y ? E (Y X ) t? ~ t (n ? 2) 代替,这时有 服从正态分布,将其标准化,
2
F F F

? ? 2 ? ? ei2 (n ? 2)

1 ( X F ? X )2 ? ? ? n xi2 ?

121

构建平均值的预测区间
显然这样的 t 统计量与 Y F 和 E (YF X F ) 界值 t? 2 (n ? 2)
P(?t? 2 ? t ?
^ ^ ^

^

都有关。

给定显著性水平α,查t分布表,得自由度n-2的临 则有
? YF ? E (YF X F ) ? SE(YF )
^

? t? 2 ) ? 1 ? ?
^ ^ ^

p{[Y F ? t? 2 SE(Y F )] ? E(YF X F ) ? [Y F ? t? 2 SE(Y F )]} ? 1 ? ?

Y平均值的置信度为 1 ? ? 的预测区间为
[Y F ? t? 2 ?
^ ^ ^ 1 ( X F ? X )2 ^ ? , Y F ? t? 2 ? 2 n ? xi

1 ( X F ? X )2 ? ] 2 n ? xi

122

三、应变量个别值预测
基本思想:
? ◆ YF 既是对Y 平均值的点预测,也是对 Y 个别值 的点预测

◆由于存在随机扰动 u i 的影响,Y 的平均值并不
等于 Y 的个别值 YF

◆为了对 Y 的个别值 YF 作区间预测,需要寻找与
? 预测值 YF 和个别值 YF 有关的统计量,并要明

确其概率分布
123

具体作法:
已知剩余项 e F ? YF ? Y F 是与预测值 Y F 及个别值 YF 都有关的变量,并且已知 e F 服从正态分布,且可证 明 E(eF ) ? 0
1 ( X F ? X )2 Var (eF ) ? E (YF ? Y F ) 2 ? ? 2 [1 ? ? ] 2 n ? xi
^

^

^

? 2 ? ? ei2 (n ? 2) 代替 ? 2 时,对 e F 标准化的变量 当用 ?

t为

t?

eF ? E ( e F ) SE(eF)
^

? ? ? 1?

YF ? Y F 1 (X F ? X ) ? n xi2 ?
2

^

~ t (n ? 2)

124

构建个别值的预测区间
给定显著性水平 ? ,查 t 分布表得自由度为 n ? 2

的临界值 t? 2 (n ? 2)
^

,则有
^

? ? P{[YF ? t? 2 SE (eF )] ? YF ? [YF ? t? 2 SE (eF )]} ? 1 ? ?
1 因此,一元回归时 Y 的个别值的置信度为 ? ? 的 预测区间上下限为 1 ( X F ? X )2 ? ? YF ? YF ? t? 2? 1 ? ? n xi2 ?
125

应变量Y 区间预测的特点
1、Y 平均值的预测值与真实平均值有误差,主要是 受抽样波动影响
YF ? Y F ? t? 2 ?
^ ^

1 ( X F ? X )2 ? n xi2 ?

Y 个别值的预测值与真实个别值的差异,不仅受抽
样波动影响,而且还受随机扰动项的影响
1 ( X F ? X )2 ? ? YF ? YF ? t? 2? 1 ? ? n xi2 ?
126

2、平均值和个别值预测区间都不是常数,是随
X F的变化而变化的

3、预测区间上下限与样本容量有关,当样本容 量 n ?? 时个别值的预测误差只决定于随机 扰动的方差

127

各种预测值的关系
Y

SR Y均值的置信区间 F
Y的个别值的置信区间

X

XF

X
128

当X F ? X时,置信区间最小

第六节 案例分析
居民的消费水平也不断增长。但全国各地区经济发展
速度不同,居民消费水平也有明显差异。为了分析什

提出问题:改革开放以来随着中国经济的快速发展,

么是影响各地区居民消费支出有明显差异的最主要因
素,并分析影响因素与消费水平的数量关系,可以建 立相应的计量经济模型去研究。

研究范围:全国各省市2002年城市居民家庭平均
每人每年消费截面数据模型。
129

理论分析:影响各地区城市居民人均消费支出的因
素有多种,但从理论和经验分析,最主要的影响因 素应是居民收入。从理论上说可支配收入越高,居 民消费越多,但边际消费倾向大于0,小于1。

建立模型: Yi = β1 + β 2 X i +u
其中:Y—城市居民家庭平均每人每年消费支出(元) X—城市居民人均年可支配收入(元)
130

数据:从2002年《中国统计年鉴》中
地 区

得到

城市居民家庭平均每人每年消费支出 (元) Y 10284.60 7191.96 5069.28 4710.96 4859.88 5342.64 4973.88 4462.08 10464.00 6042.60 8713.08 4736.52 6631.68 4549.32 5596.32 4504.68 5608.92

城市居民人均年可支配收入(元)

X

北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北

12463.92 9337.56 6679.68 5234.35 6051.06 6524.52 6260.16 6100.56 13249.80 8177.64 11715.60 6032.40 9189.36 6334.64 7614.36 6245.40 6788.52
131

(接上页数据表)
地 区 城市居民家庭平均每 人每年消费支出(元) 城市居民人均年可支 配收入(元)

Y
湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 5574.72 8988.48 5413.44 5459.64 6360.24 5413.08 4598.28 5827.92 6952.44 5278.04 5064.24 5042.52 6104.92 5636.40

X
6958.56 11137.20 7315.32 6822.72 7238.04 6610.80 5944.08 7240.56 8079.12 6330.84 6151.44 6170.52 6067.44 6899.64

132

估计参数
假定模型中随机扰动满足基本假定,可用OLS法。 具体操作:使用EViews 软件包。估计结果:

133

表示为

Yi ? 282.2434 ? 0.758511X i
(287.2649) (0.036928) t ? (0.982520) (20.54026)
r 2 ? 0.935685 F ? 421.9023 df ? 29

^

134

模型检验
1. 可决系数:
r 2 = 0.935685

模型整体上
α = 0.05
t0.025 (29) = 2.045

拟合好。 分布表,

t0.025 (29) 2. 系数显著性检验:给定 ? 2.045

,查 t

在自由度为n-2=29时临界值为 α = 0.05

因为

t = 20.44023 >
135

4. 经济意义检验: 估计的解释变量的系数为0· 758511,说明城镇

居民人均可支配收入每增加1元,人均年消费支
出平均将增加0· 758511元。这符合经济理论对

边际消费倾向的界定。

136

经济预测
点预测: 西部地区的城市居民人均年可支配收入第一步争 取达到1000美元(按现有汇率即人民币8270元), 代入估计的模型得
? Yf1 ? 282.2434 ? 0.758511? 8270 ? 6555.132

第二步再争取达到1500美元(即人民币12405元), 利用所估计的模型可预测这时城市居民可能达到 的人均年消费支出水平
? Yf2 ? 282.2434 ? 0.758511?12405 ? 9691.577
137

区间预测

平均值区间预测上下限:
X f1 ? 8270时

1 (X F - X )2 YF = Y F ? tα 2 ζ + n xi2 ?
^ ^

1 569985.74 Yf1 ? 6555.13 ? 2.045 ? 413.1593 ? ? 31 125176492.59 ? 6555.13 ? 162.10
X f 2 ? 12405时

1 23911845.72 Y f 2 ? 9691.58 ? 2.045 ? 413.1593 ? ? 31 125176492.59

? 9691.58 ? 499.25
138

即是说:

平均值置信度95%的预测区间为 (6393.03,6717.23)元。
X f2 ? 12405时,

X f1 ? 8270时,

平均值置信度95%的预测区间为 (9292.33,10090.83)元。 个别值区间预测(略)
139

第二章 小 结
1、变量间的关系: 函数关系——相关关系
相关系数——对变量间线性相关程度的度量

2、现代意义的回归:一个被解释变量对若干个
解释变量依存关系的研究 实质:由固定的解释变量去估计被解释变量的 平均值

140

3、总体回归函数(PRF):将总体被解释变量Y 的条件均值表现为解释变量X 的某种函数 样本回归函数(SRF):将被解释变量Y 的样 本条件均值表示为解释变量X 的某种函数。 总体回归函数与样本回归函数的区别与联系 4、随机扰动项:被解释变量实际值与条件均值的 偏差,代表排除在模型以外的所有因素对Y的影 响。
141

5、简单线性回归的基本假定: 对模型和变量的假定
E (Yi ) ? ?1 ? ? 2 X i

对随机扰动项u的假定
零均值假定:
E (ui ) ? 0

同方差假定:

Var(ui ) ? Var(Yi ) ? ? 2

无自相关假定: Cov(ui , u j ) ? E (ui u j ) ? 0 随机扰动与解释变量不相关假定: Cov(ui , X i ) ? 0 正态性假定:
ui ~ N (0,? 2 )
142

6、普通最小二乘法(OLS)估计参数的基本思 想及估计式;
? ?1

? X ?Y ? ? X ? X Y ? N ? X ? (? X )
2 i i i 2 i 2 i

i i

? ? N ? X iYi ? ? X i ? Yi ?2 ? 2 2 N ? X i ? (? X i )

?x y ?x
i 2 i

i

? ? ?1 ? Y ? ? 2 X
143

OLS 估计式的分布性质

? E (?k ) ? ?k 期望:
? )? ? Var 方差: (? 2
2 2 i

?x
?

? Var ( ?1 ) ? ? 2

N ? xi2
X i2 ?

X i2 ?

SE ( 标准差:??2 ) ?

?x

2 i

? SE ( ?1 ) ? ?

N ? xi2

OLS估计式是最佳线性无偏估计式。
144

7、 ? 2 的无偏估计

?2 ?

^

ei2 ? n?2

8、对回归系数区间估计的思想和方法

? ? ? ? P[ ? 2 ? t? SE ( ? 2 ) ? ? 2 ? ? 2 ? t? SE ( ? 2 )] ? 1 ? ?
2 2

^

^

145

9、拟合优度:样本回归线对样本观测数据拟合

的优劣程度,
可决系数:在总变差分解基础上确定的,模

型解释了的变差在总变差中的比重
可决系数的计算方法、特点与作用。

?y 1? ?y

^ 2 2 i

?e ? ?y

2 i 2 i

r

2

?y ? ?y

^ 2

2 i

r2 ? 1?

?y

ei2 ?
2 i

146

10、对回归系数的假设检验 假设检验的基本思想 对回归系数 t 检验的思想与方法
t* ? ? ?2 ? ?2 ? SE (?2 )
^

?

? ?2 ? SE ( ?2 )
^

~ t (n ? 2)

用 P 值判断参数的显著性

147

11、对被解释变量的预测

被解释变量平均值预测与个别值预测的关系
被解释变量平均值的点预测和区间预测的方法
1 ( X F ? X )2 ? 1 ( X F ? X )2 ? ? ? [YF ? t? 2? ? , YF ? t? 2? ? ] 2 2 n n ? xi ? xi

148

被解释变量个别值区间预测的方法

1 ( X F ? X )2 ? ? YF ? YF ? t? 2? 1 ? ? 2 n ? xi
12、运用EViews软件对简单的线性回归模型进行 估计和检验

149

第 二 章 结 束 了!

150

计量经济学

第三章 多元线性回归模型
151

引子:

中国汽车的保有量会达到1.4亿辆吗 ?
中国经济的快速发展,使居民收入不断增加,数以百万 计的中国人开始得以实现拥有汽车的梦想,中国也成为世界

上成长最快的汽车市场。
中国交通部副部长在中国交通可持续发展论坛上做出预 测 :“2020年,中国的民用汽车保有量将比2003年的数字 增长6倍,达到1.4亿辆左右”。 是什么因素导致中国汽车数量的增长? 影响中国汽车行业发展的因素并不是单一的,经济增长、 消费趋势、市场行情、业界心态、能源价格、道路发展、内 外环境,都会使中国汽车行业面临机遇和挑战。
152

怎样分析多种因素的影响?
分析中国汽车行业未来的趋势,应具体分析这样一些问题: 中国汽车市场发展的状况如何?(用销售量观测) 影响中国汽车销量的主要因素是什么?
(如收入、价格、费用、道路状况、能源、政策环境等)

各种因素对汽车销量影响的性质怎样?(正、负) 各种因素影响汽车销量的具体数量关系是什么? 所得到的数量结论是否可靠? 中国汽车行业今后的发展前景怎样?应当如何制定汽车的 产业政策? 很明显,只用一个解释变量已很难分析汽车产业的发展, 还需要寻求有更多个解释变量情况的回归分析方法。 153

第三章 多元线性回归模型
本章主要讨论:
●多元线性回归模型及古典假定 ●多元线性回归模型的估计 ●多元线性回归模型的检验 ●多元线性回归模型的预测

154

第一节 多元线性回归模型及古典假定
本节基本内容:
一、多元线性回归模型的意义 二、多元线性回归模型的矩阵表示 三、多元线性回归中的基本假定

155

一、多元线性回归模型的意义
例如:有两个解释变量的电力消费模型

Yi ? ?1 ? ?2 X 2 ? ?3 X 3 ? ui
其中: Yi 为各地区电力消费量;
X 2为各地区国内生产总值(GDP);

X 3为各地区电力价格变动。

模型中参数的意义是什么呢?

156

多元线性回归模型的一般形式
一般形式:对于有 k 个解释变量的线性回归模型

Yi ? ?1 ? ? 2 X 2i ? ?3 X 3i ? ... ? ? k X ki ? ui
模型中参数 ? j ( j ? 1, 2,..., k ) 是偏回归系数,样本容量



n

偏回归系数:控制其它解释量不变的条件下,第

j 个解释变量的单位变动对应变量平均值的影响。

157

多元线性回归
指对各个回归系数而言是“线性”的,对变量则 可是线性的,也可是非线性的 例如:生产函数

Y ? AL K u
取自然对数

?

?

ln Y ? ln A ? ? ln L ? ? ln K ? ln u

158

多元总体回归函数
Y 的总体条件均值表示为多个解释变量的函数
E(Yi X 2i , X 3i ,..., X ki ) ? ?1 ? ? 2 X 2i ? ?3 X 3i ? ... ? ? k X ki

总体回归函数也可表示为:

Yi ? ?1 ? ?2 X 2i ? ?3 X 3i ? ... ? ?k X ki ? ui

159

多元样本回归函数
Y 的样本条件均值表示为多个解释变量的函数
? ? ? ? ? Yi ? ?1 ? ?2 X 2i ? ?3 X 3i ? ... ? ? k X ki


? ? ? ? Yi ? ?1 ? ? 2 X 2i ? ?3 X 3i ? ... ? ? k X ki ? ei

其中

i ? 1,2,?, n

回归剩余(残差):

? ei ? Yi - Yi

160

二、多元线性回归模型的矩阵表 示
k 个解释变量的多元线性回归模型的 n个观测
样本,可表示为

Y1 ? ?1 ? ?2 X 21 ? ?3 X 31 ? ... ? ? k X k1 ? u1
Y2 ? ?1 ? ?2 X 22 ? ?3 X 32 ? ... ? ?k X k 2 ? u2

Yn ? ?1 ? ?2 X 2n ? ?3 X 3n ? ... ? ?k X kn ? un

?

161

用矩阵表示
? Y1 ? ?1 X 21 ? X k1 ? ? β1 ? ? u1 ? ?Y ? ?1 X ? X k 2 ? ? β2 ? ?u2Y? 22 ? 2? ? ? ?? ??? ? ? ? ? ?? ? ? ?? ? ? ? ? ? ? ? ? ?? ? ? ? ?Yn ? ?1 X 2 n ? X kn ? ? βk ? ?un ?

Y
n?1

X
n? k

β
k ?1

u
n ?1

162

总体回归函数

E(Y) = Xβ

或 Y = Xβ + u

样本回归函数

或 Y = Xβ + e ? ? ? = Xβ Y ? 其中:Y,Y,u,e 都是有 n 个元素的列向量

? β, β 是有 k 个元素的列向量
X 是第一列为1的 n ? k 阶解释变量
数据矩阵 (截距项可视为解释变量 取值为1)
163

三、多元线性回归中的基本假 定
假定1:零均值假定 E(ui ) ? 0 ( i ? 1,2,?, n) 或

E (u) = 0

假定2和假定3:同方差和无自相关假定

Cov(ui , u j ) ? E[(ui - Eui )(u j - Eu j )] ? E(uiu j ) ?
假定4:随机扰动项与解释变量不相关

?2 i= j
0 (i ? j )

Cov( X ji , ui ) ? 0

j ? 2,3,?, k
164

假定5:无多重共线性假定

(多元中)

假定各解释变量之间不存在线性关系,或各个

解释变量观测值之间线性无关。或解释变量观
测值矩阵X 列满秩( k 列)。

Rank ( X ) ? k
即 X ?X 可逆 假定6:正态性假定

Rank ( X ?X ) ? K

ui ~ N (0, ζ )
2
165

第二节 多元线性回归模型的估计
本节基本内容:
● 普通最小二乘法(OLS) ● OLS估计式的性质 ● OLS估计的分布性质 ● 随机扰动项方差? 2的估计 ● 回归系数的区间估计

166

一、普通最小二乘法(OLS)
最小二乘原则
? )2 剩余平方和最小: min ? e ? ? (Yi - Yi
2 i

? ? ? ? min ? ei2 ? ? [Yi - ( ?1 ? ? 2 X 2i ? ?3 X 3i ? ... ? ? k X ki )]2
求偏导,令其为0:

? (? ei2 ) ?0 ? ??
j

167

即 ? ? ? ? -2? ?Yi - ( ?1 ? ? 2 X 2i ? ?3 X 3i ? ... ? ? ki X ki ) ? ? 0 ? ?
? ? ? ? -2? X 2i ?Yi - ( ?1 ? ? 2 X 2i ? ?3 X 3i ? ... ? ? ki X ki ) ? ? 0 ? ?

?e ? 0 ?X e ?0
i 2i i

? ? ? ? -2? X ki ?Yi - ( ?1 ? ? 2 X 2i ? ?3 X 3i ? ... ? ? ki X ki ) ? ? 0 ? ?

?

?X
?

?
ki i

e ?0

注意到 ? ? ? ? ? Yi - ( ?1 ? ? 2 X 2i ? ? 3 X 3i ? ... ? ? ki X ki ) ? ? ei

?

168

用矩阵表示
? ? ei ? ? 1 ? ? X 2i ei ? ? X 21 ?? =? ? ... ? ? ? ? ? ? ? ? X ki ei ? ? X k1 ? ? 1 X 22 ? Xk2 1 ? ? e1 ? ?0 ? ?0 ? ? X 2 n ? ?e2 ? ? ? ? = X ?e = ? ? ?? ? ? ?? ? ? ?? ? ? ? ? X kn ? ?en ? ?0 ? ?

因为样本回归函数为 ? X ?Y = X ?Xβ + 两边乘 X ? 有: 因为 X ?e = 0 ,则正规方程为:

e X? ? Y = Xβ + e

X ?e

? X ?Xβ = X ?Y

169

OLS估计式
? 由正规方程 X ?Xβ = X ?Y
( X ?X )k ?k 是满秩矩阵, 其逆存在

β = (X ?X)-1 X ?Y 多元回归中 ?
二元回归中

? ? ? ?1 ? Y - β2 X 2 - β3 X 3
? ?2 ?
? ?3 ?
2 (? yi x2i )(? x3i ) - (? yi x3i )(? x2i x3i ) 2 2 (? x2i )(? x3i ) - (? x2i x3i ) 2

2 (? yi x3i )(? x2i ) - (? yi x2i )(? x2i x3i ) 2 2 (? x2i )(? x3i ) - (? x2i x3i ) 2

注意:

x

和 y为 X,Y 的离差
170

二、OLS估计式的性质
OLS估计式
? 1.线性特征: β = (X ?X)-1 X ?Y ? 是 Y 的线性函数,因 ( X ?X)-1 X ?是非随机 β

或取固定值的矩阵

? 2.无偏特性: E( βk ) ? βk

171

3. 最小方差特性
? 在 βk 所有的线性无偏估计中,OLS估计 βk 具有

最小方差 结论:在古典假定下,多元线性回归的 OLS估计 式是最佳线性无偏估计式(BLUE)

172

三、OLS估计的分布性质
基本思想 ? ● βi 是随机变量,必须确定其分布性质才可能 进行区间估计和假设检验 ● u i是服从正态分布的随机变量, 决定了 Yi 也 是服从正态分布的随机变量
? ? ● βi 是 Yi 的线性函数,决定了 βi 也是服从正态 分布的随机变量
173

? ? 的期望 E(β) ?β β

(由无偏性)

? β 的方差和标准误差: ? 可以证明β 的方差-协方差矩阵为
? ) ? ζ 2 ( X ?X )-1 Var - Cov( β ? ? Var( β j ) ? ζ 2 c jj SE( β j ) ? ζ c jj
这里是 c jj 矩阵( X ?X )-1 中第 j 行第 j 列的元素
? 故有: β j ~ N ( β j , ζ 2c jj ) j ? 1, 2,..., k
174

四、随机扰动项方差? 的估计
2

多元回归中ζ 2 的无偏估计为:
? ζ ?
2

ei2 ? n-k

? 或表示为 ζ ?
2

e ?e
n-k

? 将 βk 作标准化变换:

? ? β k - β k β k - βk zk ? ? ~ N (0,1) ? SE( βk ) ζ c jj

175

? ? 因? 2 是未知的,可用 ? 2代替 ? 2 去估计参数 β 的标

准误差:
? ● 当为大样本时,用估计的参数标准误差对 β 作标 准化变换,所得Z统计量仍可视为服从正态分布 ? ●当为小样本时,用估计的参数标准误差对 β 作标

准化变换,所得的t统计量服从t分布: ? βk - βk t? ~ t (n - k ) ^ ? SE( βk )
176

五、回归系数的区间估计
由于
t* = ? βj - βj ? SE( β j )
^

=

? βj - βj ? ζ c jj

~ t (n - k )

给定 ? ,查t分布表的自由度为 n ? k的临界值 t? 2 (n - k )
? SE( β j ) ^ ^ ? ? ? ? P[ β j - tα SE ( β j ) ? β j ? β j ? tα SE ( β j )] ? 1- α P[-tα 2 (n - k ) ? t * ? ? βj - βj
^

? tα 2 (n - k )] ? 1- α

( j ? 1,..., k )

或:

2

2

? ? ? ? P[ β j - tα ζ c jj ? β j ? β j ? tα ζ c jj ] ? 1- α
2 2

? ? ? ? 或表示为: β j ? ( β j - t? 2( n-k ) ζ c jj , β j ? t? 2( n -k ) ζ c jj )

177

第三节 多元线性回归模型的检验
本节基本内容:
●多元回归的拟合优度检验 ●回归方程的显著性检验(F检验) ●各回归系数的显著性检验(t检验)

178

一、多元回归的拟合优度检验
多重可决系数:在多元回归模型中,由各个解释变量联合 解释了的 Y 的变差,在 Y 的总变差中占的比重,用 R 2 表 示 ? 与简单线性回归中可决系数 R 2 的区别只是 Yi 不同,多元 回归中

? ? ? ? ? Y i = β1+ β2 X 2i + β 3 X 3i +...+ β k X ki

多重可决系数也可表示为

ESS R ? ? TSS
2

TSS - RSS ? ? 12 (Yi - Y ) TSS yi2 ? ?
179

(Yi - Y ) 2 ? ?

ei2 ?

多重可决系数的矩阵表示
TSS ? Y ?Y ? nY
2

? ESS ? β X ?Y - nY

2

? X ?Y - nY 2 ESS β 2 R ? ? 2 TSS Y ?Y - nY
可以证明:R 2 ? ? ? ? β 2 ? x2i yi ? β 3 ? x3i yi ? ... ? β k ? xki yi yi2 ?

特点:

多重可决系数是模型中解释变量个数的不减函数, 这给对比不同模型的多重可决系数带来缺陷,所以 需要修正。
180

修正的可决系数
思想
可决系数只涉及变差,没有考虑自由度。如果用 自由度去校正所计算的变差,可纠正解释变量个 数不同引起的对比困难。

自由度
统计量的自由度指可自由变化的样本观测值个数, 它等于所用样本观测值的个数减去对观测值的约 束个数。
181

可决系数的修正方法
总变差 TSS ?

(Yi ? Y ) 2 ? ? Yi 2 ?
i ?1 i ?1

n

n

自由度为 n - 1

? (Y i - Y )2=? yi2 自由度为 k - 1 ? 2 ? 2 剩余平方和 RSS ? ? (Yi - Y i ) ? ? ei 自由度为 n - k
解释了的变差 ESS ? 修正的可决系数为

ei2 n -1 ? R ? 1? 12 yi (n -1) n - k ? yi2 ?
2
182

ei2 (n - k ) ?

修正的可决系数 R 2与可决系数 R 2的关系:

n -1 R ? 1- (1- R ) n-k
2 2

特点 可决系数 R 2必定非负,但修正的可决系数 R 2 可能为负值,这时规定 R 2 ? 0

183

二、回归方程显著性检验(F检 验)
基本思想
在多元回归中有多个解释变量,需要说明所有解 释变量联合起来对应变量影响的总显著性,或整个 方程总的联合显著性。对方程总显著性检验需要 在方差分析的基础上进行F检验。

184

方差分析表
总变差
TSS ? ? (Yi - Y ) 2 ? ? yi2

自由度

? 模型解释了的变差 RSS ? ? (Yi - Y i )2
剩余变差
变差来源

n -1

自由度 k - 1 自由度 n - k
方差

? ESS ? ? (Y i - Y )2
平方和 自由度

归于回归模型 归于剩余 总变差

? ESS ? ? (Y i - Y )2

n -1
k -1

? RSS ? ? (Yi - Y i )2
TSS ? ? (Yi - Y )2

TSS/n-1 ESS/ k -1
RSS/ n - k
185

n-k

F检验
原假设 H0 : β2 = β3 = ...= βk = 0 备择假设 H1 : β j ( j = 1, 2,...,k ) 不全为0 建立统计量(可以证明): ESS (k -1) F? ~ F(k -1, n - k ) RSS (n - k )

给定显著性水平 ? ,查F分布表得临界值 F? (k -1, n - k ) 并通过样本观测值计算 F 值

186

▼如果 F ? F? (k -1, n - k )

(小概率事件发生了)

则拒绝 H0 : β2 = β3 = ...= βk = 0 ,说明回归模型 有显著意义,即所有解释变量联合起来对

Y 有显著影响。
▼如果 F < F? (k -1, n - k ) (大概率事件发生了) 则接受 H0 : β2 = β3 = ...= βk = 0 ,说明回归模型 没有显著意义,即所有解释变量联合起来对

Y 没有显著影响。
187

可决系数与F检验
由方差分析可以看出,F检验与可决系数有密切联系,二者 都建立在对应变量变差分解的基础上。F统计量也可通过可 决系数计算:

R 2 (k -1) F? 2 (1- R ) ( n - k ) 可看出:当 R2 ? 0 时, = 0 F R 2 越大,F 值也越大 当 R2 ? 1 时, ? ? F
结论:对方程联合显著性检验的F检验,实际上也是对 R 2 的 显著性检验。
188

三、各回归系数的显著性检验 (t 检验)
目的: 在多元回归中,分别检验当其他解释变量保持不 变时,各个解释变量 X 对应变量 Y 是否有显著影 响。 方法: H0 : β j ? 0 j = 1,2,...,k 原假设 备择假设 H1 : β j ? 0 ? ? 统计量为: * β j - β j βj t ? ? ~ t (n - k ) ^ ? ? SE( β j ) ? c jj
189

t检验的方法
给定显著性水平 ?,查自由度为 n - k 时t分布表的 临界值为 t? 2 (n - k ) 如果 -t? 2 (n - k ) ? t * ? t? 2 (n - k ) 就不拒绝 H0 : β j ? 0 而拒绝 H1 : β j ? 0 即认为 β j 所对应的解释变量 X j 对应变量 Y 的影 响不显著。
190

如果 t * ? -t? 2 (n - k )或t * ? t? 2 (n - k )

就拒绝 H 0而不拒绝 H1 : β j ≠ 0
即认为 β j所对应的解释变量 X j对应变量 Y 的影响

是显著的。
在多元回归中,可分别对每个回归系数逐个地进

行t检验。
注意:在一元回归中F检验与t检验等价,且 F ? t 2 但在多元回归中F检验与t检验作用不同。
191

第四节 多元线性回归模型的预 测
本节基本内容:
●应变量平均值预测 ●应变量个别值预测

192

一、应变量平均值预测
1. Y 平均值的点预测 将解释变量预测值代入估计的方程: 多元回归时:

? ? ? ? ? YF ? β1 ? β2 X F 2 ? β3 X F 3 ? ... ? βk X Fk

? ? 或 YF ? X F β
注意:预测期的 X F 是第一个元素为1的行向量, 不是矩阵,也不是列向量
193

2.

Y 平均值的区间预测

基本思想: ? 由于存在抽样波动,预测的平均值 YF 不一定

等于真实平均值 E(YF X F ) ,还需要对 E(YF X F )
作区间估计。
? Y 作区间预测,必须确定平均值预测值 YF

为对

? 的抽样分布。必须找出与 YF 和 E(YF X F ) 都有 关的统计量 。
194

具体作法 (回顾一元回归)
一元中已知
? E(YF ) ? E(YF X F ) ? β1 ? β2 X F
1 ( X F - X )2 ? Var(YF ) ? ζ 2 [ ? ] 2 n ? xi
? SE(YF ) ? ζ
2

1 ( X F - X )2 ? n xi2 ?

? 2 ? ? ei2 (n - 2) 代替, 当 ? 未知 时,只得用 ? 这时 ? 1 ( X F - X )2 ? ? ? Var(YF ) ? ζ 2 ? ? ? 2 ?n ? xi ? ? ?
195

? 多元回归时,与 YF 和 E(YF X F ) 都有关的是偏差 wF

? wF ? YF - E(YF X F )

wF 从正态分布,可证明
? E( wF ) ? 0 Var( wF ) ? ζ 2 X F (X ?X)-1 X F
? 用 ? 2 ? ? ei2 (n - k ) 代替 ζ 2 ,可构造t统计量
^

t ?
*

wF - E( wF )
^

?

YF - E(YF X F ) ? ? ? X F (X ?X)-1 X F

~ t (n - k )

SE( wF )

196

则给定显著性水平 ? ,查t分布表,得自由度 n - k 的临界值 t? 2 (n ? k ) ,则
? ? ? ? P{[(YF - t? 2 SE(YF )] ? E(YF ) ? [(YF ? t? 2 SE(YF )]}
^ ^

? 1- ?


? - t ζ X (X`X)-1 X ? ] ? E(Y ) P{[YF ? 2 ? F F F ? ? ? ? [YF ? t? 2ζ X F (X`X)-1 X F ]} ? 1 ? ?
197

二、应变量个别值预测
基本思想:
? ● YF 既是对 Y 平均值的点预测,也是对 Y 个别值 的点预测。

●由于存在随机扰动 u i 的影响, Y 的平均值并不 等于 Y 的个别值
? ●为了对 YF 的个别值 YF作区间预测,需要寻找与 预测值 YF和个别值 Y 有关的统计量,并要明确其

概率分布
198

具体作法
? 已知剩余项 eF 是与预测值 YF 和个别值 YF 都有关的 变量,并且已知 eF 服从正态分布,且可证明
E(eF ) ? 0

? Var(eF ) ? ζ 2 [1 ? X F (X ?X)-1 X F ]

ζ 2 ? ? ei2 (n - k ) 代替 ζ 2 时,对 eF 标准化的变 当用 ?

量为:

t?

eF - E(eF )
^

?

? YF - YF ? ? ζ 1 ? X F (X ?X)-1 X F

~ t (n - k )

SE(eF )

199

给定显著性水平 ? ,查 t 分布表得自由度为 n - k 的

临界值 t? 2 (n - k )
^


^

? ? P({[YF - t? 2 SE(eF )] ? YF ? [YF ? t? 2 SE(eF )]} ? 1- ?

因此,多元回归时 Y 的个别值的置信度 1 ? ? 的预
测区间的上下限为:

? ? ? YF ? YF ? t? 2 ζ 1 ? X F (X ?X)-1 X F
200

第五节 案例分析
案例:中国税收增长的分析
提出问题 改革开放以来,随着经济体制改革的深化和经济 的快速增长,中国的财政收支状况发生很大变化, 为了研究影响中国税收收入增长的主要原因,分 析中央和地方税收收入的增长规律,预测中国税 收未来的增长趋势,需要建立计量经济模型。

201

理论分析 影响中国税收收入增长的主要因素可能有: (1)从宏观经济看,经济整体增长是税收增长的 基本源泉。 (2)社会经济的发展和社会保障等都对公共财政 提出要求,公共财政的需求对当年的税收收入可 能会有一定的影响。 (3)物价水平。中国的税制结构以流转税为主, 以现行价格计算的GDP和经营者的收入水平都与 物价水平有关。 (4)税收政策因素。
202

建立模型
以各项税收收入Y 作为被解释变量

以GDP表示经济整体增长水平
以财政支出表示公共财政的需求

以商品零售价格指数表示物价水平
税收政策因素较难用数量表示,暂时不予考虑

203

模型设定为:

Yt ? β1 ? β2 X 2t ? β2 X 3t ? β3 X 4t ? ut
其中:

Y — 各项税收收入(亿元) X 2 — 国内生产总值(亿元) X 3 — 财政支出(亿元) X 4 — 商品零售价格指数(%)
204

数据收集

数据来源:
Y
X2 X3 X4 其中:
205

《中国统计年鉴》

——各项税

参数估计
假定模型中随机项满足基本假定,可用OLS法估计 其参数。具体操作:用EViews软件,估计结果为:

206

模型估计的结果可表示为
? Yi ? -2582.791 ? 0.022067 X 2 ? 0.702104 X 3 ? 23.98541X 4
(940.6128) (0.0056) t= (-2.7459) (3.9566) (0.0332) (21.1247) (8.7363) (2.7449)

R2 ? 0.9974

R 2 ? 0.9971

F ? 2717.238

df = 21

模型检验:
拟合优度:可决系数 R2 ? 0.9974 较高, R 2 ? 0.9971 修正的可决系数 也较高, 表明模型拟合较好。
207

显著性检验
F检验: 针对 H0 : β2 ? ,取β4 ? 0 β3 ?

? ? 0.05
。 F? (3, 21)

查自由度为 k -1=3 和

的临界值 n - k =21

由于 F ? 2717.238 ? F (3,21) ? 3.075 ,应拒绝 , H0 ? 说明回归方程显著,即“国内生产总值”、“财政 支出”、“商品零售物价指数”等变量联合起来确

实对“税收收入”有显著影响。

208

t检验:给定 ? ? 0.05,查t分布表,在自由度为

n-3 = 25-4 = 21 时临界值为 t0.025 (21) ? 2.080 ,因为

X 2 , X 3 , X 4 的参数对应的t统计量均大于2.080, 这
说明在5%的显著性水平下,斜率系数均显著不

为零,表明国内生产总值、财政支出、商品零售
价格指数对财政收入分别都有显著影响。

209

经济意义检验
? ? ? 本模型中 β 2 ? 0.022067, β3 ? 0.702104, β4 ? 23.98541 所估计的参数的符号与经济理论分析一致,说明

在其他因素不变的情况下,国内生产总值每增加1 亿元,平均说来财政收入将增加220.67万元;财

政支出每增加1亿元,平均说来财政收入将增加
7021.04万元;商品零售物价指数每增加1%,平均说 来财政收入将增加23.98541亿元。

210

第三章 小结
1.多元线性回归模型是将总体回归函数描述为一 个被解释变量与多个解释变量之间线性关系的 模型。 Yi ? β0 ? β1 X1i ? β2 X 2i ? ... ? β p X pi ? ui

通常多元线性回归模型可以用矩阵形式表示:

Y = Xβ + u
2.多元线性回归模型中对随机扰动项u的假定:零 均值假定、同方差假定、无自相关假定、随机 扰动与解释变量不相关假定、正态性假定、无 多重共线性假定。

211

3.多元线性回归模型参数的最小二乘估计式及期 望、方差和标准误差:
? β = (X ?X)-1 X ?Y
? ? Var( β j ) ? ζ 2C jj ? (
?

? E( β ) = β
ei2 ? n-k )C jj
? SE( β j ) ? ζ C jj

4.在基本假定满足的条件下,多元线性回归模型 最小二乘估计式是最佳线性无偏估计式。

212

5. 多元线性回归模型中参数区间估计的方法。 6. 多重可决系数的意义和计算方法:
? ? ? ? P[ β j - tα ζ c jj ? β j ? β j ? tα ζ c jj ] ? 1- ?
2 2

修正可决系数的作用和方法:
RSS ? 1TSS (Yi - Y ) 2 ? 2 ei2 (n - k ) n -1 ? ei ? R 2 ? 1? 12 (Yi - Y ) (n -1) n - k ? (Yi - Y ) 2 ? R 2 ? 1213

ei2 ?

7. F检验是对多元线性回归模型中所有解释变量联 合显著性的检验,F检验是在方差分析基础上进 行的。 ESS (k -1) F? ~ F (k -1, n - k ) RSS (n - k )

214

8. 多元回归分析中,为了分别检验当其它解释变 量不变时,各个解释变量是否对被解释变量有 显著影响,需要分别对所估计的各个回归系数 作t检验。
t* ? ? βj - βj ? SE( β j )
^

?

? βj - βj ? ζ c jj

~ t (n - k )

215

9.利用多元线性回归模型作被解释变量平均值预 测与个别值预测的方法。

? 点预测:?f ? X F β Y 平均值:

? - t ζ X (X ?X)-1 X ? ? E(Y ) ? Y ? t ζ X (X ?X)-1 X ? ? YF ? 2 ? F F F F ? 2? F F
个别值:

? ? ? ? ? YF - t? 2ζ 1 ? X F (X ?X)-1 X F ? YF ? YF ? t? 2ζ 1 ? XF (X?X)-1 X?F
216

第 三 章 结 束 了!

217

计量经济学

第四章 多重共线性
218

引子: 发展农业和建筑业会减少财政收入吗?
为了分析各主要因素对财政收入的影响,建立财政收 入模型: CSi ? ? 0 ? ?1 NZi ? ? 2GZ i ? ? 3 JZZ i
? ? 4TPOPi ? ? 5CUM i ? ? 6 SZM i ? ui
其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2003年(资料来源:《中国统计年鉴 2004》,中国统计出版社2004年版)

采用普通最小二乘法得到以下估计结果
219

财政收入模型的EViews估计结果
Variable 农业增加值NZ 工业增加值GZ Coefficient -1.535090 0.898788 Std. Error 0.129778 0.245466 t-Statistic -11.82861 3.661558 Prob. 0.0000 0.0017

建筑业增加值JZZ
总人口TPOP 最终消费CUM 受灾面积SZM

-1.527089
0.151160 0.101514 -0.036836

1.206242
0.033759 0.105329 0.018460

-1.265989
4.477646 0.963783 -1.995382

0.2208
0.0003 0.3473 0.0605

截距项
R-squared Adjusted R-squared S.E. of regression Sum squared resid

-11793.34
0.995015 0.993441 481.5380 4405699.

3191.096
Mean dependent var S.D. dependent var

-3.695704

0.0015
5897.824 5945.854 15.41665 15.75537

Akaike info criterion Schwarz criterion

Log likelihood
Durbin-Watson stat

-193.4165
1.873809

F-statistic
Prob(F-statistic)

632.0999
0.000000
220

模型估计与检验结果分析
●可决系数为0.995,校正的可决系数为0.993,模型 拟合很好。模型对财政收入的解释程度高达99.5%。 ●F统计量为632.10,说明0.05水平下回归方程整体 上显著。 ● t 检验结果表明,除了工业增加值和总人口以外, 其他因素对财政收入的影响均不显著。 ●农业增加值和建筑业增加值的回归系数是负数。 农业和建筑业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?
221

第四章 多重共线性
本章讨论四个问题:
●什么是多重共线性

●多重共线性产生的后果
●多重共线性的检验 ●多重共线性的补救措施
222

第一节 什么是多重共线性
本节基本内容:
●多重共线性的含义 ●产生多重共线性的背景

223

一、多重共线性的含义
在计量经济学中所谓的多重共线性(MultiCollinearity),不仅包括完全的多重共线性,还 包括不完全的多重共线性。 对于解释变量 X 2 , X 3 ,? , X k ,如果存在不全为0的 λ 数 λ 1 , 2 ,...λ k ,使得

?1 ? ?2 X 2i ? ?3 X 3i ? ... ? ?k X ki ? 0

i ? 1, 2,..., n

则称解释变量 X 2 , X 3 ,? X k 之间存在着完全的多重 共线性。
224

当 Rank ( X ) ? k 时,表明在数据矩阵 X 中,至少 有一个列向量可以用其余的列向量线性表示,则 说明存在完全的多重共线性。

225

不完全的多重共线性
实际中,常见的情形是解释变量之间存在不完 全的多重共线性。 对于解释变量 X 2 , X 3 ,? X k,存在不全为0的数 ?1 , ?2 ,? ?k,使得

?1 ? ?2 X 2i ? ?3 X 3i ? ... ? ?k X ki ? ui ? 0

i ? 1, 2,..., n

其中, u i 为随机变量。这表明解释变量 X 2 , X 3 ,? X k 只是一种近似的线性关系。

226

回归模型中解释变量的关系
可能表现为三种情形: (1) rx x ? 0 ,解释变量间毫无线性关系,变量间相
i j

互正交。这时已不需要作多元回归,每个参数?j都可 以通过Y 对 Xj 的一元回归来估计。

(2) rxi x j ? 1 ,解释变量间完全共线性。此时模型参 数将无法确定。

1 (3) 0<rxi x j < ,解释变量间存在一定程度的线性关 系。实际中常遇到的情形。
227

二、产生多重共线性的背景
多重共线性产生的经济背景主要有几种情形:
1.经济变量之间具有共同变化趋势。

2.模型中包含滞后变量。
3.利用截面数据建立模型也可能出现多重共线性。

4.样本数据自身的原因。

228

第二节 多重共线性产生的后果
本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果

229

一、完全多重共线性产生的后果
1.参数的估计值不确定
当解释变量完全线性相关时 ——OLS 估计式不确定

▲ 从偏回归系数意义看:在 X 2 和 X 3 完全共线性时,无法保
持 X 3 不变,去单独考虑 X 2 对Y 的影响( X 2 和 X 3 的影响 不可区分)
0 ? β2 = ▲ 从OLS估计式看:可以证明此时 0

2.参数估计值的方差无限大
OLS估计式的方差成为无穷大: Var( ? ) ? ? ? 2
230

二、不完全多重共线性产生的后果
如果模型中存在不完全的多重共线性,可以得到 参数的估计值,但是对计量经济分析可能会产生 一系列的影响。

1.参数估计值的方差增大
1 ? ) = ζ2 Var( β 2 = 2 2 ? x2i (1- r23 )


ζ2 1 2 2 x2 i (1- r23 ) ?

r23

增大时 Var( ? 2 ) 也增大
231

^

2.对参数区间估计时,置信区间趋于变大
3.假设检验容易作出错误的判断 4.可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系 数符号相反,得出完全错误的结论。

232

第三节 多重共线性的检验
本节基本内容:
● 简单相关系数检验法
● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法

233

一、简单相关系数检验法
含义:简单相关系数检验法是利用解释变量之间
的线性相关程度去判断是否存在严重多重共线性 的一种简便方法。 判断规则:一般而言,如果每两个解释变量的简 单相关系数(零阶相关系数)比较高,例如大于0.8, 则可认为存在着较严重的多重共线性。

234

注意:
较高的简单相关系数只是多重共线性存在的充分 条件,而不是必要条件。特别是在多于两个解释 变量的回归模型中,有时较低的简单相关系数也 可能存在多重共线性。因此并不能简单地依据相

关系数进行多重共线性的准确判断。

235

二、方差扩大(膨胀)因子法
? 统计上可以证明,解释变量 X j 的参数估计式 β j 的方差可表示为

ζ2 1 ζ2 ? Var( β j ) = ? = ? VIFj 2 2 2 ? x j 1- R j ? x j
其中的 VIFj 是变量 X j 的方差扩大因子
1 (Variance Inflation Factor),即 VIFj = 1- R 2 ? ? j

其中 R 2 是多个解释变量辅助回归的可决系数 j
236

经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 性越严重。反过来,方差膨胀因子越接近于1,

多重共线性越弱。
●经验表明,方差膨胀因子≥10时,说明解释变量

与其余解释变量之间有严重的多重共线性,且这
种多重共线性可能会过度地影响最小二乘估计。

237

三、直观判断法
1. 当增加或剔除一个解释变量,或者改变一个观 测值时,回归参数的估计值发生较大变化,回归

方程可能存在严重的多重共线性。
2. 从定性分析认为,一些重要的解释变量的回归

系数的标准误差较大,在回归方程中没有通过显
著性检验时,可初步判断可能存在严重的多重共

线性。

238

3. 有些解释变量的回归系数所带正负号与定性分
析结果违背时,很可能存在多重共线性。 4. 解释变量的相关矩阵中,自变量之间的相关系 数较大时,可能会存在多重共线性问题。

239

四、逐步回归检测法
逐步回归的基本思想
将变量逐个的引入模型,每引入一个解释变量后, 都要进行F检验,并对已经选入的解释变量逐个进行 t 检验,当原来引入的解释变量由于后面解释变量的 引入而变得不再显著时,则将其剔除。以确保每次引

入新的变量之前回归方程中只包含显著的变量。
在逐步回归中,高度相关的解释变量,在引入时会 被剔除。因而也是一种检测多重共线性的有效方法。
240

第四节 多重共线性的补救措施
本节基本内容:
●修正多重共线性的经验方法 ●逐步回归法

241

一、修正多重共线性的经验方法
1. 剔除变量法
把方差扩大因子最大者所对应的自变量首先 剔除再重新建立回归方程,直至回归方程中 不再存在严重的多重共线性。 注意: 若剔除了重要变量,可能引起模型的设 定误差。
242

2. 增大样本容量
如果样本容量增加,会减小回归参数的方差, 标准误差也同样会减小。因此尽可能地收集足 够多的样本数据可以改进模型参数的估计。 问题:增加样本数据在实际计量分析中常面临 许多困难。

243

3. 变换模型形式
一般而言,差分后变量之间的相关性要比差分

前弱得多,所以差分后的模型可能降低出现共
线性的可能性,此时可直接估计差分方程。

问题:差分会丢失一些信息,差分模型的误差
项可能存在序列相关,可能会违背经典线性回 归模型的相关假设,在具体运用时要慎重。
244

4. 利用非样本先验信息
通过经济理论分析能够得到某些参数之间的关 系,可以将这种关系作为约束条件,将此约束 条件和样本信息结合起来进行约束最小二乘估 计。

245

5. 横截面数据与时序数据并用
首先利用横截面数据估计出部分参数,再利用
时序数据估计出另外的部分参数,最后得到整

个方程参数的估计。
注意:这里包含着假设,即参数的横截面估计和 从纯粹时间序列分析中得到的估计是一样的。

246

6. 变量变换
变量变换的主要方法:

(1)计算相对指标
(2)将名义数据转换为实际数据

(3)将小类指标合并成大类指标
变量数据的变换有时可得到较好的结果,但无 法保证一定可以得到很好的结果。
247

二、逐步回归法
(1)用被解释变量对每一个所考虑的解释变量做简
单回归。

(2)以对被解释变量贡献最大的解释变量所对应的
回归方程为基础,按对被解释变量贡献大小的顺

序逐个引入其余的解释变量。
若新变量的引入改进了 R 2 和 F 检验,且回归参

数的t 检验在统计上也是显著的,则在模型中保
留该变量。
248

若新变量的引入未能改进 R 2 和 F 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 R 2 和 F 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。
249

第五节 案例分析
一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。

二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游 人数 X 2,城镇居民人均旅游支出 X 3,农村居民人均

旅游支出 X 4 ,并以公路里程次 X 5 和铁路里程
X 6 作为相关基础设施的代表

理论模型的设定

Yt ? ?1 ? ? 2 X 2t ? ?3 X 3t ? ? 4 X 4t ? ?5 X 5t ? ?6 X 6t ? ut
其中 : Yt ——第 t 年全国国内旅游收入
250

数据的收集与处理
年 份 国内旅游 收入Y(亿元) 国内旅 游人数X2 (万人次) 城镇居民人 均旅游支出X3 (元) 农村居民人 均旅游支出 X4 (元) 公路里 程 X5( 万公里) 铁路里 程X6( 万公里)

1994
1995 1996 1997 1998 1999 2000

1023.5
1375.7 1638.4 2112.7 2391.2 2831.9 3175.5

52400
62900 63900 64400 69450 71900 74400

414.7
464.0 534.1 599.8 607.0 614.8 678.6

54.9
61.5 70.5 145.7 197.0 249.5 226.6

111.78
115.70 118.58 122.64 127.85 135.17 140.27

5.90
5.97 6.49 6.60 6.64 6.74 6.87

2001
2002 2003

3522.4
3878.4 3442.3

78400
87800 87000

708.3
739.7 684.9

212.7
209.1 200.0

169.80
176.52 180.98

7.01
7.19 7.30

数据来源:《中国统计年鉴2004》

251

OLS 法估计的结果
2 该模型 R ? 0.9954

R 2 ? 0.9897

可决系数很高,F检验值 , 173.3525,明显显著。 但是当 ? ? 0.05 时
t? 2 (n ? k ) ? t0.025 (10 ? 6) ? 2.776

X 不仅 X 2 、 6 系数的t检验 、

不显著,而且 X 6 系数的 符号与预期的相反,这 表明很可能存在严重的 多重共线性。
252

计算各解释变量的相关系数

表明各解释变量间确实存在严重的多重共线性

253

三、消除多重共线性
采用逐步回归法检验和解决多重供线性问题。 分别作Y 对X2、X3、X4、X5、X6的一元回归
变量 参数估计值 t 统计量

X2
0.0842 8.6659 0.9037

X3
9.0523 13.1598 0.9558

X4
5.1967 0.7715

X5
6.4675 0.8394

X6
8.7487 0.9054

11.6673 34.3324 2014.146

R2

R 2 的大小排序为:X3、X6、X2、X5、X4。
以X3为基础,顺次加入其他变量逐步回归,过程从略 (见教材)
254

四、回归结果的解释与分析
最后消除多重共线性的结果
? Yt ? ?2442.386 ? 4.2196 X 3 ? 13.6279 X 5 ? 3.2160 X 4
t =(-8.2537) (3.9502) (4.6945) (3.0633) DW=1.9520

R2 ? 0.9915

R 2 ? 0.98718

F=231.7958

这说明,在其他因素不变的情况下,当城镇居民人均旅游支出
X 3 和农村居民人均旅游支出 X 4 分别增长1元时,国内旅游收入

Yt 将分别增长4.21亿元和3.22 亿元。在其他因素不变的情况下,

作为旅游设施的代表,公路里程 X 5 每增加1万公里时, 国内旅游 收入 Yt 将增长13.63亿元。
255

第四章 小结
1.多重共线性是指各个解释变量之间有准确或近似

准确的线性关系。
2.多重共线性的后果:

如果各个解释变量之间有完全的共线性,则它们的
回归系数是不确定的,并且它们的方差会无穷大。 如果共线性是高度的但不完全的,回归系数可估计, 但有较大的标准误差。回归系数不能准确地估计。
256

3.诊断共线性的经验方法: (1) 表现为可决系数异常高而回归系数的t 检验不 显著。 (2) 变量之间的零阶或简单相关系数。多个解释变

量时,较低的零阶相关也可能出现多重共线性,需
2 要检查偏相关系数。 R

(4)如果 能的。

高而偏相关系数低,则多重共线性是可

(5) 用解释变量间辅助回归的可决系数判断。
257

4.降低多重共线性的经验方法: (1)利用外部或先验信息;

(2)横截面与时间序列数据并用;
(3)剔除高度共线性的变量(如逐步回归);

(4)数据转换;
(5)获取补充数据或新数据;

(6)选择有偏估计量(如岭回归)。
经验方法的效果取决于数据的性质和共线性的严 重程度。
258

第 四 章 结 束 了!

259

计量经济学

第五章

异方差性
260

引子:更为接近真实的结论是什么?
根据四川省2000年21个地市州医疗机构数与人口数 资料,分析医疗机构与人口数量的关系,建立卫生 医疗机构数与人口数的回归模型。对模型估计的结 果如下:

? Yi ? -563.0548 ? 5.3735 X i
(291.5778) (0.644284) t ? (-1.931062) (8.340265)

R2 ? 0.785456 R 2 ? 0.774146

F ? 69.56003

式中 Y 表示卫生医疗机构数(个), X 表示人口 数量(万人)。
261

模型显示的结果和问题

●人口数量对应参数的标准误差较小; ● t统计量远大于临界值,可决系数和修正的可决系 数结果较好,F检验结果明显显著; 表明该模型的估计效果不错,可以认为人口数量 每增加1万人,平均说来医疗机构将增加5.3735人。 然而,这里得出的结论可能是不可靠的,平均说来 每增加1万人口可能并不需要增加这样多的医疗机构, 所得结论并不符合真实情况。 有什么充分的理由说明这一回归结果不可靠呢?更 为接近真实的结论又是什么呢?
262

第五章 异 方 差 性
本章讨论四个问题:

●异方差的实质和产生的原因 ●异方差产生的后果 ●异方差的检测方法 ●异方差的补救

263

第一节 异方差性的概念
本节基本内容:
●异方差性的实质 ●异方差产生的原因

264

一、异方差性的实质
同方差的含义
i (i ? 1,2,..., 同方差性:对所有的 n) 2
Var(ui ) = ζ
i

有:

E(Y ) ?? (5.1) ?1 ? ?2 X 2i ? ?3 X 3i ? ... ? ?k X ki

Y

因为方差是度量被解释变量 测值围绕回归线

的观
265

异方差性的含义
设模型为
Yi ? ?1 ? ?2 X 2i ? ?3 X 3i ? ... ? ?k X ki ? ui i ? 1, 2,..., n

如果对于模型中随机误差项 u i 有:

Var(ui ) ? ? i2 , i ? 1, 2,3,..., n (5.3) 则称具有异方差性。进一步,把异方差看成是由于某 个解释变量的变化而引起的,则
Var(ui ) ? ? i2 ? ? 2 f ( X i )

(5.4)
266

图形表示
概 率 密 度

Y

X

267

二、产生异方差的原因
(一)模型中省略了某些重要的解释变量
假设正确的计量模型是: Yi ? ?1 ? ? 2 X 2i ? ?3 X 3i ? ui
假如略去 X 3i ,而采用
Yi ? ?1 ? ? 2 X 2i ? ui*
X 3i

当被略去的 X 3i 与 X 2i 有呈同方向或反方向变 化的趋势时,随 X 2i 的有规律变化会体现在(5.5) 式的 ui* 中。
268

(5.5)
u i*

(二)模型的设定误差
模型的设定主要包括变量的选择和模型数学形式的确定。模 型中略去了重要解释变量常常导致异方差,实际就是模型设

定问题。除此而外,模型的函数形式不正确,如把变量间本 X 3i
u i* 来为非线性的关系设定为线性,也可能导致异方差。

(三)数据的测量误差
样本数据的观测误差有可能随研究范围的扩大 而增加,或随时间的推移逐步积累,也可能随 着观测技术的提高而逐步减小。
269

(四)截面数据中总体各单位的差异
通常认为,截面数据较时间序列数据更容易产生
异方差。这是因为同一时点不同对象的差异,一 般说来会大于同一对象不同时间的差异。不过, 在时间序列数据发生较大变化的情况下,也可能 出现比截面数据更严重的异方差。

270

第二节 异方差性的后果
本节基本内容:
●对参数估计统计特性的影响 ●对参数显著性检验的影响 ●对预测的影响

271

一、对参数估计统计特性的影响
(一)参数估计的无偏性仍然成立 参数估计的无偏性仅依赖于基本假定中的零均值 假定(即 E(ui ) ? 0 )。所以异方差的存在对无偏性 的成立没有影响。 (二)参数估计的方差不再是最小的 同方差假定是OLS估计方差最小的前提条件,所 以随机误差项是异方差时,将不能再保证最小二 乘估计的方差最小。
272

二、对参数显著性检验的影响
由于异方差的影响,使得无法正确 估计参数的标准误差,导致参数估

计的 t 统计量的值不能正确确定,
所以,如果仍用 t 统计量进行参数 的显著性检验将失去意义。
273

三、对预测的影响
尽管参数的OLS估计量仍然无偏,
并且基于此的预测也是无偏的,但 是由于参数估计量不是有效的,从

而对Y的预测也将不是有效的。

274

第三节 异方差性的检验
常用检验方法:
●图示检验法 ● Goldfeld-Quanadt检验 ● White检验 ● ARCH检验

275

一、图示检验法
(一)相关图形分析
方差描述的是随机变量取值的(与其均值的)离散
程度。因为被解释变量 Y 与随机误差项

u 有相同的

方差,所以利用分析 Y 与 X 的相关图形,可以初略
地看到 Y 的离散程度与 X 之间是否有相关关系。 如果随着 X 的增加, 的离散程度为逐渐增大(或 Y 减小)的变化趋势,则认为存在递增型(或递减型) 的异方差。
276

图形举例
用1998年四川省各地市州农村居民家庭消费支出与家庭纯 收入的数据,绘制出消费支出对纯收入的散点图,其中用 X Y1 表示农村家庭消费支出, 1 表示家庭纯收入。

277

(二)残差图形分析
设一元线性回归模型为: Yi ? β1 ? β2 X i ? ui

运用OLS法估计,得样本回归模型为: ? ? ? Yi = β1 + β2 X i
由上两式得残差:
? ei ? Yi - Yi

绘制出 ei2 对 X i的散点图 ◆如果 ui 不随 X i 而变化,则表明不存在异方差; ◆如果 ui 随 X i 而变化,则表明存在异方差。
278

二、Goldfeld-Quanadt检验
作用:检验递增性(或递减性)异方差。
基本思想:将样本分为两部分,然后分别对两个样 本进行回归,并计算两个子样的残差平方和所构成 的比,以此为统计量来判断是否存在异方差。

(一) 检验的前提条件
1、要求检验使用的为大样本容量。 2、除了同方差假定不成立外,其它假定均满足。

279

(二)检验的具体做法
1.排序

将解释变量的取值按从小到大排序。
2.数据分组 将排列在中间的约1/4的观察值删除掉,记 为

c,再将剩余的分为两个部分,每部分观察

值的个数为 (n - c) / 2 。 3.提出假设
H0 : ζi2 = ζ 2 , i = 1, 2,..., n;
2 2 H1 : ζ12 ? ζ 2 ? ... ? ζ n
280

4.构造F统计量

分别对上述两个部分的观察值求回归模型,由此
2 2 得到的两个部分的残差平方为 ? e1i 和 ? e2i 。

? e 为前一部分样本回归产生的残差平方和,
2 1i 2 e2i为后一部分样本回归产生的残差平方和。它 ?

们的自由度均为 [(n - c) / 2] - k ,k 为参数的个数。

281

在原假设成立的条件下,因 ? e1i 和 ? e2i 自由度均 χ 2 分布,可导出: 为 [(n - c) / 2] - k ,
2 2

2 e2i ? n -c n -c F* = = ? 2 ~ F( - k, - k) 2 2 2 n -c e1i / [ - k ] ? e1i ? 2

2 n -c e2i / [ - k] 2

(5.13)

282

5.判断 给定显著性水平 ? ,查 F分布表得临界值 F n-c n-c (? ) 计算统计量 F * 。
( 2 -k , 2 -k )

如果

F ? F n-c
*

n-c ( -k , -k ) 2 2

(? )

则拒绝原假设,接受备择假设,即模型中的 随机误差存在异方差。
283

(三)检验的特点
●要求大样本 ●异方差的表现既可为递增型,也可为递减型

c

●检验结果与选择数据删除的个数

的大小有关

●只能判断异方差是否存在,在多个解释变量的 情下,对哪一个变量引起异方差的判断存在局限。

284

三、White检验
(一)基本思想:
不需要关于异方差的任何先验信息,只需要在大 样本的情况下,将OLS估计后的残差平方对常数、 解释变量、解释变量的平方及其交叉乘积等所构 成一个辅助回归,利用辅助回归建立相应的检验 统计量来判断异方差性。

285

(二)检验的特点
要求变量的取值为大样本
不仅能够检验异方差的存在性,同时在多变量的

情况下,还能判断出是哪一个变量引起的异方差。

286

(三)检验的基本步骤:
以一个二元线性回归模型为例,设模型为: Yt = β1 + β2 X 2t + β3 X 3t +ut
并且,设异方差与 X 2t , X 3t 的一般关系为
2 ζt2 = α1 +α2 X 2t +α3 X 3t +α4 X 2t +α5 X 32t +α6 X 2t X 3t +vt

其中 vt为随机误差项。

287

et2 1.求回归估计式并计算

et2 用OLS估计式(5.14),计算残 差 ,并求残差的平方 。
et2
ζ t2
2t 3t 2 2t 2 3t 2t 3t

? et ? Yt - Yt

2.求辅助函数 X ,X ,X ,X ,X X 用残差平方3 X 3t +α4 X 22t +α5 X 32t +α6 X 2t X 3t 的估计, 作为异方差 ? ? ? ? ? ? ? et2 = α1 +α2 X 2t +α (5.15) 并建立 的辅助回归,
288

3.计算

利用求回归估计式(5.15)得到辅 nR n 助回归函数的可决系数 , 为 样本容量。0, H1 : ?(j=2,,3,...,6)不全为零 H0 : ? 2 = ...= ? 6 = j
2

4.提出假设
289

5.检验

在零假设成立下,有 χ 渐进服从 ? 2 2 nR 2 ? χ? (5)分布。给定显著 χ? (5) 自由度为5的 性水平 ,查 分布表得临界 值 ,如果 ,则拒绝 原假设,表明模型中随机误差存在 异方差 。
2
290

nR2

χ2

四、ARCH检验
(一)ARCH 过程
设ARCH 过程为
2 2 ζt2 = ? 0 + ?1ζt-1 +...+ ? p ζt- p +vt

? 0 > 0,?i > 0

i = 1, 2,..., p

p 为ARCH过程的阶数,并且 vt 为随机误差。

(二)检验的基本思想
在时间序列数据中,可认为存在的异方差性为ARCH过程, 并通过检验这一过程是否成立去判断时间序列是否存在异方

差。
291

(三)ARCH 检验的基本步骤
1.提出原假设
H0 : ?1 = ? 2 = ... = ? p = 0 ; H1 : ? j不全为零

2.参数估计并计算
et2 , et2-1 ,..., et2- p
2 t 2 t -1 2 t- p

et

对原模型作OLS估计,求出残差 ζ ,ζ ,...,ζ 并计算
残差平方序列
292



,以分

3.求辅助回归 (5.17)
(n - p) R 2

? ? ? ? et2 ? ? 0 ? ?1et2-1 ? ... ? ? p et2- p

R2

n? p

4.检验 χ 2 χ 2 ( p) ? 计算辅助回归的可决系数 与 2 (n - p ) R 2 ? χ α 2 ( p) χ? ( p) 的乘积 。在 成立时,基于大样本
293

H0

(n - p) R 2

(四)检验的特点
●变量的样本值为大样本 ●数据是时间序列数据

●只能判断模型中是否存在异方差, 而不能诊断出哪一个变量引起的异

方差。
294

五、Glejser检验
(一)检验的基本思想
由OLS法得到残差,取得绝对值,然后将对某个 解释变量回归,根据回归模型的显著性和拟合优 度来判断是否存在异方差。

(二)检验的特点
不仅能对异方差的存在进行判断,而且还能对异

方差随某个解释变量变化的函数形式
该检验要求变量的观测值为大样本。

进行诊断。
295

(三)检验的步骤
1.建立模型并求 ei 根据样本数据建立回归模型,并求残差序列
? ei = Yi - Yi

2.寻找 ei 与 X 的最佳函数形式

用残差绝对值 ei 对 X i 进行回归,用各种函数
形式去试,寻找最佳的函数形式。
296

3.判断 根据选择的函数形式作 X 对 ei 的回归, i 2 作为 e 的替代变量,对所选函数形式回归。用回归所得 到的 β、 t 、 F 等信息判断,若参数 即认为存在异方差性。 显著不为零, β

297

第四节 异方差性的补救措施
主要方法:
●模型变换法 ● 加权最小二乘法 ● 模型的对数变换

298

一、模型变换法
以一元线性回归模型为例: Yi ? ?1 ? ? 2 X i ? ui 经检验 u i 存在异方差,且

var(ui ) ? ? i2 ? ? 2 f ( X i )
其中 ζ 2是常数,f ( X i ) 是 X i 的某种函数。

299

变换模型时,用
Yi f(X i ) =
Yi f (Xi )

f (Xi )

除以模型的两端得:
Xi f(X i )
Xi

β1 f(X i )
* i

+ β2

+

ui f(X i )
?1
f (Xi ) ; vi ? ui f (Xi )

记 Yi ?
*

;X ?

f (Xi )

;? ?
* 1

则有:

Yi* ? ?1* ? ? 2 X i* ? vi

300

vi 随机误差项
var(vi ) ? var(

ui

的方差为
)?
vi = ui

f (Xi )

1 var(ui ) ? ? 2 f (Xi )
f(X i )

经变换的模型的随机误差项 var(u ) v var(? ) 函数形式 已是同方差, X ? X ? u X ? ? X X 常见的设定形式及对应的 u X 情 ? (a ? a X ) ? ( a ? a X ) u (a ? a X ) 况
i i i

f (Xi )

vi

2

2 2

i

i

i

i

2

2

2

i

i

i

i

2

2

2

2

0

1

i

0

1

i

i

0

1

i

301

二、加权最小二乘法
以一元线性回归模型为例:

Yi ? ?1 ? ? 2 X i ? ui
经检验 u i 存在异方差,且:

var(ui ) ? ? i2 ? ? 2 f ( X i )
其中 ? 2 是常数, f ( X i ) 是 X i 的某种函数。

302

(一)基本思路
区别对待不同的 ζ i2。对较小的 ei2, 给予较大的权

数,对较大的 ei2 给予较小的权数,从而使 ? ei2 更
ζ i2 对残差平方和的影响。 好地反映

303

(二)具体做法
w1.选取权数并求出加权的残差平方 i ? i2 wi ? 1 ? i2 (i ? 1, 2,..., n) 和 w wi ? i2 i

通常取权数 当 越小 ? w (Y ? ? * ? ? * X )2 wi ei2 ? i i ? 1 2 i 时, 越大。当 越大时, 小。将权数与




304

2.求使满足 的 w根据最小二乘原理,若使得加权残差 i ? ? β =Y - β X 平方和最小, ? = ? w ( X - X )(Y - Y ) β 则: ? w (X - X )
* 1 * 2 * * 2 * * * i i i * 2 i i

min ? wi ei2

?i*

X

*

?w X = ?w
i i

i

,Y

*

? wY = ?w
i

i i

305

三、模型的对数变换
在经济意义成立的情况下,如果对模型: Yi = b1 +b2 X i +ui 作对数变换,其变量 Yi 和 X i 分别用 lnYi 和 lnX i 代替,即: lnYi = b1 +b2lnX i +ui 对数变换后的模型通常可以降低异方差性的影响: ◆运用对数变换能使测定变量值的尺度缩小。
◆经过对数变换后的线性模型,其残差表示相对误差往往 比绝对误差有较小的差异。

注意:对变量取对数虽然能够减少异方差对模型的 影响,但应注意取对数后变量的经济意义。
306

第五节 案例分析
一、问题的提出和模型设定
为了给制定医疗机构的规划提供依据,分析比 较医疗机构与人口数量的关系,建立卫生医疗 机构数与人口数的回归模型。 假定医疗机构数与人口数之间满足线性约束, 则理论模型设定为: Yi Yi = b1 +b2 X i +ui 其中 Yi表示卫生医疗机构数, X i 表示人口数。

307

四川省2000年各地区医疗机构数与人口数
地区
成都 自贡 攀枝 花 泸州 德阳 绵阳 广元 遂宁 内江

人口数(万人)医疗机构数 (个) Y X 1013.3 6304
315 103 463.7 379.3 518.4 302.6 371 419.9 911 934 1297 1085 1616 1021 1375 1212

地区
眉山 宜宾 广安 达州 雅安 巴中 资阳 阿坝 甘孜

人口数(万人)医疗机构数 (个) Y X 339.9 827
508.5 438.6 620.1 149.8 346.7 488.4 82.9 88.9 1530 1589 2403 866 1223 1361 536 594

乐山
南充

345.9
709.2

1132
4064

凉山

402.4

1471

二、参数估计

? 估计结果为: Yi ? -563.0548 ? 5.3735 X i (-1.9311) (8.3403) F ? 69.56
309

R 2 ? 0.7855, se ? 508.2665,

三、检验模型的异方差
(一)图形法

1. EViews软件操作
由路径:Quick/Qstimate Equation,进入 Equation Specification窗口,键入 y c x , 点“ok”,得样本回归估计结果,见教材表5.2。

310

(1)生成残差平方序列。
在得到表5.2估计结果后,用生成命令生成序列, 记为 。 2生 成 过 程 如 下 , 先 按 路 径 : e Procs/Generate Series , 进 入 Generate Series by Equation 对 话 框 , 键 入 下 式 并 点 “OK”即可:

e2 ? resid ^ 2

311

生成序列图示
ei2

312

et2 (2)绘制
e2

Xt



X 的散点图。选

择变量名 与 。(注意选择变量的顺序,先 选的变量将在 图形中表示横轴, 后选的变量表示 纵轴),进入数
313

2.判断
ei2 由图可以看出,残差平方
X对解释

变量 2 e
i

的散点图主要分布在图形中 X
i

的下三角部分,大致看出残差平方



的变动呈增大的趋势,因此,

模型很可能存在异方差。但是否确

实存在异方差还应通过更进一步的
314

(二)Goldfeld-Quanadt检验
1. EViews软件操作
(1)对变量取值排序(按递增或递减)。在Procs菜单里选 Sort Current Page/Sort Workfile Series命令,出现排 序对话框,键入 ,如果以递增型排序,选“Ascenging”, X 如果以递减型排序,则应选“Descending”,点ok。本例 选递增型排序,这时变量 与 将以 按递增型排序。 Y X X (2)构造子样本区间,建立回归模型。在本例中,样本容 量 n ? 21 ,删除中间1/4的观测值,即大约5个观测值,余下部 分平分得两个样本区间:1—8和14—21,它们的样本个数均 是8个,即

n1 ? n2 ? 8
315

在Sample菜单里,将区间定义为1— 8,然后用OLS方法 求得如下结果 (表1)

316

在Sample菜单里,将区间定义为 14—21,再用OLS方法求得如下结 果(表2)

317

(3)求F统计量值。基于表1和表2 中残差平方和的 144958.9 ?e = ? e 734355.8 数据,即Sum= squared resid的值。由 表1计算得到 2 e2i 734355.8 ? ? 的残差平方和为 ? 5.066 ,由表2计算 F? 2 ? e1i 144958.9 得到的 残差平方和为 。 根据Goldfeld-Quanadt检验,F统计
2 1i

2 2i

318

(4)判断 在 ? ? 0.05 下,式中分子、分母的自由度均 为6, 查F分布表得临界值为: 0.05 (6,6) ? 4.28 F 因为 F ? 5.066 ? F0.05 (6,6) ? 4.28 ,所以拒绝原假设, 表明模型确实存在异方差。

319

(三)White检验
由表5.2估计结果,按路径view/residual tests/white heteroskedasticity(no cross terms or cross terms),进入White检验。 根据White检验中辅助函数的构造,最后一项为变 量的交叉乘积项,因为本例为一元函数,故无交叉 乘积项,因此应选no cross terms,则辅助函数 为: 2 2 ? t ? ? 0 ? ?1 xt ? ? 2 xt ? vt
经估计出现White检验结果,见表5.5。
320

表5.5
从表5.5可以看出
nR 2 ? 18.0694

由White检验知, 在 ? ? 0.05 下,查 分布表得临界值 2 ? 0.05 (2) ? 5.9915 因为

?2

2 nR 2 ? 18.0694 ? ?0.05 (2) ? 5.9915

所以拒绝原假设,不拒绝备 择假设,表明模型存在异方 差。
321

四、异方差的修正
加权最小二乘法(WLS)
分别选用权数:
1 1 1 w1t ? , w2t ? 2 , w3t ? Xt Xt Xt

生成权数: 在Genr/Enter equation中分别键入:
w1 ? 1/ X

w2 ? 1/ X ^ 2

w3 ? 1/ sqrt( X )

经估计检验发现用权数 w2t 较好,下面只给出用权
数 w2t 的结果。
322

方法:在Estimate equation 中输入“y


c x

”,

option,在对话框中点 weighted LS,在weighted w2 中输入“ ”再点ok ,即出现加权最小二乘结果。

323

表 5.7
估计结果:
? Yi ? 368.6090 ? 2.9530 X i (4.3794) (3.5894) R 2 ? 0.9387, DW ? 1.7060, se ? 276.0493, F ? 12.8838

结论: 运用加权小二乘法消
除了异方差性后,参数的t检验 均显著,可决系数大幅提高, F检验也显著,并说明人口数 量每增加1万人,平均说来将 增加2.953个卫生医疗机构,而 不是引子中得出的增加5.3735 个医疗机构。
324

第五章 小 结
1.异方差性是指模型中随机误差项的方差不是常量,
而且它的变化与解释变量的变动有关。

2.产生异方差性的主要原因有:模型中略去的变量
随解释变量的变化而呈规律性的变化、变量的设 定问题、截面数据的使用,利用平均数作为样本 数据等。 3.存在异方差性时对模型的OLS估计仍然具有无偏

性,但最小方差性不成立,从而导致参数的显著
性检验失效和预测的精度降低。
325

4.检验异方差性的方法有多种,常用的有图形法、 Goldfeld-Qunandt检验、White检验、ARCH 检验以及Glejser检验,运用这些检验方法时要 注意它们的假设条件。 5.异方差性的主要方法是加权最小二乘法,也可以 用变量变换法和对数变换法。变量变换法与加 权最小二乘法实际是等价的。

326

第 五 章 结 束 了!

327

计量经济学

第六章

自 相 关
328

引子:t检验和F检验一定就可靠吗?
研究居民储蓄存款 Y 与居民收入X 的关系:
Yt = ?1 + ?2 X t + ut

用普通最小二乘法估计其参数,结果为
? Yt = 27.9123 + 0.3524 X t

(1.8690) (0.0055)
t

= (14.9343) (64.2069)

R2 ? 0.9966 F ? 4122.531

329

检验结果表明:回归系数的标准误差非常小,t 统 计量较大,说明居民收入 X 对居民储蓄存款 Y

的影响非常显著。同时可决系数也非常高,F统计
量为4122.531,也表明模型异常的显著。

但此估计结果可能是虚假的,t统计量和F统计量
都被虚假地夸大,因此所得结果是不可信的。为

什么?
330

第六章 自相关
本章讨论四个问题:
●什么是自相关 ●自相关的后果 ●自相关的检验 ●自相关性的补救

331

第一节 什么是自相关
本节基本内容:

●什么是自相关
●自相关产生的原因 ●自相关的表现形式

332

第一节 什么是自相关
一、自相关的概念
自相关(auto correlation),又称序列相关( serial correlation)是指总体回归模型的随机误 差项之间存在相关关系。即不同观测点上的误 差项彼此相关。

333

一阶自相关系数
自相关系数 ? 的定义与普通相关系的公式形式相同
??

?u u
t= 2

n

t t -1

ut2 ?
t ?2

n

ut2?1 ?
t ?2

n

(6.1)

? 的取值范围为 -1 ? ? ? 1
式(6.1)中 ut -1 是ut 滞后一期的随机误差项。 因此,将式(6.1)计算的自相关系数 ? 称为一阶 自相关系数。
334

二、自相关产生的原因
自 相 关 产 生 的 原 因
经济系统的惯性 经济活动的滞后效应 数据处理造成的相关 蛛网现象

模型设定偏误
335

原因1-经济系统的惯性
自相关现象大多出现在时间序列数据中, 而经济系统的经济行为都具有时间上的惯 性。 如GDP、价格、就业等经济指标都会随经 济系统的周期而波动。例如,在经济高涨 时期,较高的经济增长率会持续一段时间, 而在经济衰退期,较高的失业率也会持续 一段时间,这种现象就会表现为经济指标 的自相关现象。
336

原因2- 经济活动的滞后效应
滞后效应是指某一指标对另一指标的影响不仅 限于当期而是延续若干期。由此带来变量的自 相关。 例如,居民当期可支配收入的增加,不会使居 民的消费水平在当期就达到应有水平,而是要 经过若干期才能达到。因为人的消费观念的改 变客观上存在自适应期。

337

原因3-数据处理造成的相关
因为某些原因对数据进行了修整和内插处 理,在这样的数据序列中就会有自相关。

例如,将月度数据调整为季度数据,由于 采用了加合处理,修匀了月度数据的波动, 使季度数据具有平滑性,这种平滑性产生 自相关。对缺失的历史资料,采用特定统 计方法进行内插处理,使得数据前后期相 关,产生了自相关。
338

原因4-蛛网现象
许多农产品的供给呈现为 蛛网现象,供给对价格的 反应要滞后一段时间,因 为供给需要经过一定的时 间才能实现。如果时期 t 的价格 P 低于上一期的 t 价格 P ,农民就会减少 t -1 时期 t ? 1 的生产量。如 此则形成蛛网现象,此时 的供给模型为: 蛛网现象是微观经济学中的 一个概念。它表示某种商品 的供给量受前一期价格影响 而表现出来的某种规律性, 即呈蛛网状收敛或发散于供 需的均衡点。

St ? ?1 ? ?2 Pt ?1 ? ut
339

原因5-模型设定偏误
如果模型中省略了某些重要的解释变量或者模型 函数形式不正确,都会产生系统误差,这种误差 存在于随机误差项中,从而带来了自相关。由于 该现象是由于设定失误造成的自相关,因此,也 称其为虚假自相关。

340

例如,应该用两个解释变量,即:

Yt = ?1 + ?2 X 2t + ?3 X 3t + ut
而建立模型时,模型设定为: Yt = ?1 + ? 2 X 2t + ut 则 X 3t 对 Y 的影响便归入随机误差项 ut 中,由 t 于 ut 在不同观测点上是相关的,这就造成了 在不同观测点是相关的,呈现出系统模式,此 时 ut 是自相关的。
341

模型形式设定偏误也会导致自相关现象。如将 形成本曲线设定为线性成本曲线,则必定会导致

自相关。由设定偏误产生的自相关是一种虚假自
相关,可通过改变模型设定予以消除。

自相关关系主要存在于时间序列数据中,但是在
横截面数据中,也可能会出现自相关,通常称其

为空间自相关(Spatial auto correlation)。
342

例如,在消费行为中,一个家庭、一个地区的消 费行为可能会影响另外一些家庭和另外一些地 区,就是说不同观测点的随机误差项可能是相 关的。 多数经济时间序列在较长时间内都表现为上升或 下降的超势,因此大多表现为正自相关。但就 自相关本身而言是可以为正相关也可以为负相 关。
343

三、自相关的表现形式
自相关的性质可以用自相关系数的符号判断

即 ? ? 0 为负相关,

? ? 0 为正相 关。
当 | ? | 接近1时,表示相关的程度很高。
自相关是

u1 ,u2 ,...,un 序列自身的相关,因随机误差

项的关联形式不同而具有不同的自相关形式。 自相关多出现在时间序列数据中。
344

自相关的形式
对于样本观测期为 n 的时间序列数据,可得到总 体回归模型(PRF)的随机项为 u1 , u2 ,..., un ,
如果自相关形式为

ut = ? ut -1 + vt - 1< ? < 1 其中 ? 为自相关系数, v 为经典误差项,即
t

E(vt ) ? 0 , Var(vt ) ? ? , Cov(vt , vt+s ) ? 0 , s ? 0
2

则此式称为一阶自回归模式,记为 AR (1) 。因为

模型中 ut -1是 ut 滞后一期的值,因此称为一阶。
此式中的 ?? 也称为一阶自相关系数。
345

如果式中的随机误差项 vt 不是经典误差项,即
其中包含有 ut 的成份,如包含有 ut ? 2 则需将 vt 显含在回归模型中,其为

ut = ?1ut -1 + ?2ut -2 + vt?
其中,?1 为一阶自相关系数, ? 2为二阶自相关系
数,vt是经典误差项。此式称为二阶自回归模式, ?

记为

。 AR(2)
346

一般地,如果 u1 ,u2 ,...,ut 之间的关系为

ut = ?1ut -1 + ?2ut -2 +... + ?mut-m + vt
其中, vt 为经典误差项。则称此式为 m阶自回 归模式,记为 AR(m)。 在经济计量分析中,通常采用一阶自回归形式, 即假定自回归形式为一阶自回归 AR(1)。

347

第二节 自相关的后果
本节基本内容:

●一阶自回归形式的性质 ●自相关对参数估计的影响 ●自相关对模型检验的影响 ●自相关对模型预测的影响
348

一、一阶自回归形式的性质
对于一元线性回归模型:

Y = ?1 + ? 2 X + u
假定随机误差项 u 存在一阶自相关:

ut = ? ut -1 + vt
其中, t 为现期随机误差, t -1为前期随机误差。 u u

vt 是经典误差项,满足零均值 E(vt ) = 0 ,同方
差 Var(vt ) = ? v2 ,无自相关 E(vt vs ) ? 0 (t ? s) 的 假定。
349

将随机误差项

ut -1 = ? ut -2 + vt -1 , ut -2 = ? ut -3 + vt -2 , ...
逐次代入可得: ∞ 2 r ut = vt + ? vt -1 + ? vt -2 + ... = ? ? vt -r
这表明随机误差项 ut 可表示为独立同分布的随 机误差序列 v , v , v , ??? 的加权和,权 t t ?1 t ?2 数分别为 1 , ? , ? 2 , ??? 。当 0 ? ? ? 1时, 这些权数是随时间推移而呈几何衰减的; 而当 ?1 ? ? ? 0 时,这些权数是随时间推移而 350 交错振荡衰减的。
r =0

ut 的各期滞后值:

可以推得:

E(ut ) = ? ? r E(vt -r ) = 0
r =0



ζv 2 2 Var(vt ) = ? ? 2 n Var(vt -r ) = = ?u 1- ? 2 r =0



表明,在 ut 为一阶自回归的相关形式时,随机 误差 ut 依然是零均值、同方差的误差项。
351

由于现期的随机误差项 vt 并不影响回归模型中 随机误差项 ut 的以前各期值 ut-k (k ? 0) ,所

以 vt 与 ut-k 不相关,即有 E(vt ut-k ) ? 0 。因此, ut 可得随机误差项 与其以前各期 的协方差 ut-k 分别为:

?? v2 Cov(ut , ut-1 ) ? E(ut ut-1 ) ? 1- ? 2 2 2 Cov(ut , ut -2 ) ? E(ut ut -2 ) ? ? ? v 1- ? 2
352

以此类推,可得 :

? k? v2 Cov(ut , ut-k ) = ? k Var(ut-k ) = 1- ? 2
这些协方差分别称为随机误差项 ut 的一阶自

协方差、二阶自协方差和 k

阶自协方差

353

二、对参数估计的影响
在有自相关的条件下,仍然使用普通最小二乘 ? ? 法将低估估计量 ? 2 的方差 Var(?2 )

?e 并且 ? ? 将低估真实的 ? 2 ? n-k
2 2 i

354

对于一元线性回归模型,当 u 为经典误差项时, ? 普通最小二乘估计量 ? 2 的方差为:
ζ2 ? Var( ? 2 ) = = 2 (X - X ) x2 ? ?

?2

随机误差项 u 有自相关时, ? 依然是无偏的, ?2 ? 即 E( ? ) = β ,这一点在普通最小二乘法无偏
2 2

性证明中可以看到。因为,无偏性证明并不需 要 u 满足无自相关的假定。那么,最小二乘估 ? 计量 ? 是否是有效呢?下面我们将说明。
2
355

例如,一元回归中

? ) = E( ? - ? ) 2 = E ? Σxt ut ? ? Var( ? 2 ? 2 ? 2 2 ? Σxt ?
=

? = Σxt yt = ? + Σxt ut ?2 2 2 Σxt Σxt2

2

?
n t =1

2 u

xt2 ?

(1+ 2 ?

?x x
t =1 n t =1

n -1

t t +1

xt2 ?

+ 2?

2 t =1

?x x
n t =1

n -2

t t +2

xt2 ?

+ ... + 2 ?

n -1

x1 xn xt2 ?
t =1 n

)

356

当存在自相关时,普通最小二乘估计量不再是最 佳线性无估计量,即它在线性无偏估计量中不是

方差最小的。在实际经济系统中,通常存在正的
自相关,即 ? >0 ,同时 X序列自身也呈正相关, 因此式(6.18)右边括号内的值通常大于0。因此, 在有自相关的条件下,仍然使用普通最小二乘法 将低估估计量
? 的方差 。? Var( ? 2 ) ?2 ? ? 2 ? ?ei2 (n - k ) 将低估真实的 ? 2。
357

三、对模型检验的影响
考虑自相关时的检 验

对模型检验的影响

忽视自相关时的检

358

考虑自相关时的检验
由于 Var(? ) 并不是所有线性无偏估计量中最小的, ? 2 使用t检验判断回归系数的显著性时就可能得到 错误的结论。
? ?2 估计值 t检验统计量为: t ? 估计量的标准误 ? se( ? ) ? 2

? 由于 SE( ? 2 ) 的错误夸大,得到的 t统计量就可 能小于临界值 t?,从而得到参数 不显著的结 ? /2
论。而这一结论可能是不正确的。
359

忽视自相关时的检验
如果我们忽视自相关问题依然假设经典假定成 ? 2 ,将会导致错误结果。 ? 立,使用 Var( ? 2 ) = 2 当 ? >0 ,即有正相关时,对所有 j的有 ? >0。
j

Σxt

另外回归模型中的解释变量在不同时期通常是 正相关的,对于 X t 和 X 来说 t? j

?X X
t

t+ j

是大于0的。

360

? 因此,普通最小二乘法的方差 Var( ? 2 ) = ? 2 Σxt2 ? 通常会低估 ? 2 的真实方差。当 ? 较大和 X t 有

较强的正自相关时,普通最小二乘估计量的方
差会有很大偏差,这会夸大估计量的估计精度,

即得到较小的标准误。
因此在有自相关时,普通最小二乘估计 ? 的标 ? 2 准误就不可靠了。

361

一个被低估了的标准误意味着一个较大的t统计 量。因此,当 ? ? 0 时,通常t统计量都很大。 这种有偏的t统计量不能用来判断回归系数的显 著性。 综上所述,在自相关情形下,无论考虑自相关, 还是忽视自相关,通常的回归系统显著性的t检 验都将是无效的。 类似地,由于自相关的存在,参数的最小二乘估 计量是无效的,使得F检验和t检验不再可靠。
362

四、对模型预测的影响
模型预测的精度决定于抽样误差和总体误差项的

? 方差 ? 2 。抽样误差来自于对 ? j 的估计,在自相 ? 关情形下, ? j 的方差的最小二乘估计变得不可
靠,由此必定加大抽样误差。同时,在自相关情
形下,对 ? 2 的估计 ? 2 ? ?e2 / n - k也会不可靠 ? i 。由此可看出,影响预测精度的两大因素都会因 自相关的存在而加大不确定性,使预测的置信区 间不可靠,从而降低预测的精度。
363

第三节 自相关的检验
本节基本内容:

● 图示检验法 ● DW检验法

364

一、图示检验法
图示法是一种直观的诊断方法,它是把给定的
回归模直接用普通最小二乘法估计参数,求出

残差项 et ,et 作为 ut 随机项的真实估计值,
再描绘 et的散点图,根据散点图来判断 et 的 相关性。残差 et的散点图通常有两种绘制方 式 。

365

图 6.1 绘制

et 与 et ?1 的关系
(et -1 , et ) (t ? 1,2,..., n)

et -1 , et

的散点图。用

作为散布点绘图,如果大部分点落在第Ⅰ、Ⅲ象限,表明 随机误差项 ut 存在着正自相关。
366

et

et

et-1?1 et

图 6.2

et与et-1的关系

如果大部分点落在第Ⅱ、Ⅳ象限,那么随机误 差项 ut 存在着负自相关。

367

et

t
二、对模型检验的影响

按照时间顺序绘制回归残差项 et 的图形。如果 et (t ? 1, 2, ???, n) 随着 t 的变化逐次有规律地变化, et呈现锯齿形或循环形状的变化,就可断言 et存在相关, et 的变化逐次变化并 表明存在着自相关;如果 随着 t ut 不断地改变符号,那么随机误差项 存在负自相关
368

et

t

图 6.4

et 的分布

如果 et 随着 t的变化逐次变化并不频繁地改变符号,而是 几个正的 et后面跟着几个负的,则表明随机误差项 ut 存 在正自相关。 369

二、DW检验法
DW 检验是J.Durbin(杜宾)和G.S.Watson(沃特森) 于1951年提出的一种适用于小样本的检验方法。

DW检验只能用于检验随机误差项具有一阶自回
归形式的自相关问题。这种检验方法是建立经

济计量模型中最常用的方法,一般的计算机软
件都可以计算出DW 值。

370

随机误差项的一阶自回归形式为:

ut = ?ut -1 + vt
为了检验序列的相关性,构造的原假设是:

H0 : ? ? 0
为了检验上述假设,构造DW统计量首先要求出 回归估计式的残差 et定义DW统计量为 :
(et - et -1 ) 2 ? DW =
t =2 n

et2 ?
t =1

n

371

et2 + ? et2-1 - 2? et et -1 ? DW =
t =2 t =2 t =2 n 2 t

n

n

n

?e
t =1

(由? et2 ≈
t =2

n

et2-1 ≈ ?
t =2

n

et2) ?
t =1

n

? ? ? ? et et -1 ? ? ≈ 2 ?1- t =2n ? et2 ? ? ? ? t =1 ? ? ? =(1-?) 2
n

? (由? ≈

?e e
t =2 n t =1

n

t t -1

et2 ?



372

由 DW ? 2(1 ? ?) ? ? 可得DW 值与 ? 的对应关系如表所示。

? ? -1 (-1,0) 0 (0,1) 1

DW 4 (2,4) 2 (0,2) 0

373

由上述讨论可知DW的取值范围为: 0≤DW≤4

根据样本容量 n 和解释变量的数目 k (不包括常
数项)查DW分布表,得临界值 L d 的自相关状态。 和 dU ,然后

依下列准则考察计算得到的DW值,以决定模型

374

DW检验决策规则

0 ? DW ? d L
d L ? DW ? dU

误差项 u1, u2 ,..., un 间存在 正相关 不能判定是否有自相关 误差项 u1, u2 ,..., un 间 无自相关

dU ? DW ? 4 - dU
4 - dU ? DW ? 4 - d L

不能判定是否有自相关 误差项 u1, u2 ,..., un 间存在 负相关 375

4 - d L ? DW ? 4

用坐标图更直观表示DW检验规则:
f (DW)

正 自 相 关d

L

不 能 确 定d

U

无 自 相 关 2

4 ? dU

不 能 确 定4 ? d

L

负 自 相 关 4

DW
376

DW检验的缺点和局限性



DW检验有两个不能确定的区域,一旦DW值落在这

两个区域,就无法判断。这时,只有增大样本容量或选 取其他方法



DW统计量的上、下界表要求

n ? 15

,这是因为样本

如果再小,利用残差就很难对自相关的存在性做出比较 正确的诊断




DW检验不适应随机误差项具有高阶序列相关的检

●只适用于有常数项的回归模型并且解释变量中不能

377

第四节 自相关的补救
本节基本内容:

●广义差分法
●科克伦-奥克特迭代法 ●其他方法简介

378

一、广义差分法
对于自相关的结构已知的情形可采用广义差分 法解决。 由于随机误差项 ut是不可观测的,通常我们假 定 u 为一阶自回归形式,即 ut ? ?u t ?1 ? vt t (6.25) 其中,| ? |? 1 , vt 为经典误差项。 当自相关系数为已知时,使用广义差分法,自 相关问题就可彻底解决。我们以一元线性回归 模型为例说明广义差分法的应用。
379

对于一元线性回归模型

Yt = ?1 + ?2 X t + ut

(6.26)

将模型(6.26)滞后一期可得

Yt -1 = ?1 + β2 Xt -1 + ut -1


(6.27)

? 乘式(6.27)两边,得
?Yt -1 = ??1 + ?? 2 X t + ? ut -1
380

两式相减,可得

Yt - ?Yt -1 = ?1 (1- ? ) + ? 2 ( X t - ? X t -1 ) + ut - ?ut -1
式中, ut - ? ut -1 = vt 是经典误差项。因此,模 型已经是经典线性回归。令:
* Yt* = Yt - ?Yt -1 , X t* = X t - ? X t -1 , β1 = ?1 (1- ? )

则上式可以表示为:
* Yt* = ?1* + ? 2 X t* + vt

(6.30)
381

对模型(6.30)使用普通最小二乘估计就会得

到参数估计的最佳线性无偏估计量。
这称为广义差分方程,因为被解释变量与解释 变量均为现期值减去前期值的一部分,由此而 得名。

382

在进行广义差分时,解释变量 X 与被解释变量 Y 均以差分形式出现,因而样本容量由 n 减少 为 n ? 1,即丢失了第一个观测值。如果样本容 量较大,减少一个观测值对估计结果影响不大。 但是,如果样本容量较小,则对估计精度产生 较大的影响。此时,可采用普莱斯-温斯滕 (Prais-Winsten)变换,将第一个观测值变换 为: Y1 1- ? 2 和X 1 1- ? 2 补充到差分序列 Yt * , X t*中,再使用普通最小二 乘法估计参数。 383

二、Cochrane - Orcutt迭代法
在实际应用中,自相关系数 ? 往往是未知的,? 必须通过一定的方法估计。最简单的方法是据 。由DW 与 ? 的关系可知 : DW统计量估计 ? DW ? ? ? 12 但是,式(6.31)得到的是一个粗略的结果,? 是对 ? ? 精度不高的估计。其根本原因在于我们对有 自相关的回归模型使用了普通最小二乘法。为 ? 了得到 ? 的精确的估计值 ? ,人们通常采用科 克伦-奥克特(Cochrane-Orcutt)迭代法。
384

该方法利用残差 u去估计未知的 ?。对于一元线 t 性回归模型

Yt = ?1 + ? 2 X t + ut
假定

ut为一阶自回归形式,即

:

ut = ?ut -1 + vt

385

科克伦-奥克特迭代法估计

?的步骤如下:

1.使用普遍最小二乘法估计模型

Yt = ?1 + ? 2 X t + ut
并获得残差: t(1) e

2.利用残差 et(1)做如下的回归

? et(1) = ? (1) et(1) + vt -1

386

3. 利用 ? (1) ,对模型进行广义差分,即 ?

? (1)Yt -1 = ?1 (1- ? (1) ) + ? 2 ( X t - ? (1) X t -1 ) + ut - ? (1)ut -1 ? ? ? Yt - ?
? 令 Yt* = Yt - ? (1)Yt -1
? ??? = ?1 (1- ? (1) )

? X t* = X t - ? (1) X t -1

使用普通最小二乘法,可得样本回归函数为:

? ?* ? Yt* = ?1* + ? 2 X t* + et(2)
387

? 4. 因为 ? (1) 并不是对 ? 的最佳估计,进一步 迭代,寻求最佳估计。由前一步估计的结果有:


? ? ? ? ? * (1- ? (1) ) 和 ? ? ? * ? ? ?1 代入原回归方程,求得新的残差如下: 2 2 1
? ? ?1 , ? 2

et(3) ? Yt - ?1 - ? 2 X t

388

5. 利用残差

e

(3) 做如下的回归 t

e

?(2)就是 ? 的第二轮估计值 这里得到的 ?
我们并不能确认 ? (2)是否是 ? 的最佳估计值, ? 还要继续估计 ? 的第三轮估计值 ? (3) 。当估计 ?

(3) t

? (2) et(3) + vt =? -1

的 ? ( k ) 与 ? ( k ?1) 相差很小时,就找到了 ? 的最佳 ? ? 估计值。
389

三、其它方法简介
(一)一阶差分法

Yt = ?1 + ? 2 X t + ut 式中,ut为一阶自回归AR(1)。将模型变换为 :

?Yt = ? 2 ?X t + ut - ut -1 如果原模型存在完全一阶正自相关,即 ? ? 1 则 ut = ut -1 + vt
其中,v 为经典误差项。则随机误差项为经典误 差项,无自相关问题。使用普通最小二乘法估计 参数,可得到最佳线性无偏估计量。
390

t

(二)德宾两步法
当自相关系数未知时,也可采用德宾提出的两 步法,消除自相关。将广义差分方程表示为:

Yt = ?1 (1- ? ) + ? 2 X t - ?? 2 X t -1 + ?Yt -1 + vt

391

第一步,把上式作为一个多元回归模型,使用 普通最小二乘法估计参数。把 Yt ?1 的回归系数

? ? 看作 ? 的一个估计值



? 第二步,求得 ?后,使用 ? 进行广义差分, ?
求得序列:Yt* = Yt - ?Yt -1 和 X t* = X t - ? X t -1 ? ? 然后使用普通最小二乘法对广义差分方程估计 参数,求得最佳线性无偏估计量。
392

第五节 案例分析
研究范围:中国农村居民收入-消费模型 (1985~2003) 研究目的:消费模型是研究居民消费行为的工 具和手段。通过消费模型的分析可判断居民消 费边际消费倾向,而边际消费倾向是宏观经济 系统中的重要参数。 建立模型 Yt = ?1 + ? 2 X t + ut Yt-居民消费, t-居民收入,-随机误差项。 ut X 数据收集:1985~2003年农村居民人均收入和消 费 (见表6.3)
393

表6.3 1985-2003年农村居民人均收入和消费
单位:元
年份 全年人均 纯收入 (现价) 1985 1986 1987 1988 1989 397.60 423.80 462.60 544.90 601.50 人均实际纯 全年人均消 消费价格 指数 费性支出 收入 (现价) (1985=100) (1985可比价) 317.42 357.00 398.30 476.70 535.40 100.0 106.1 112.7 132.4 157.9 397.60 399.43 410.47 411.56 380.94 人均实际消费 性支出 (1985可比价) 317.40 336.48 353.42 360.05 339.08

1990
1991 1992 1993

686.30
708.60 784.00 921.60

584.63
619.80 659.80 769.70

165.1
168.9 176.8 201.0

415.69
419.54 443.44 458.51

354.11
366.96 373.19 382.94
394

续表
年份 全年人均 纯收入 (现价) 全年人均消 费性支出 (现价) 消费价格 指数 (1985=100) 人均实际纯 人均实际消 收入 费性支出 (1985可比价) (1985可比价)

1994

1221.00

1016.81

248.0

492.34

410.00

1995
1996 1997 1998 1999 2000 2001 2002 2003

1577.70
1923.10 2090.10 2162.00 2214.30 2253.40 2366.40 2475.60 2622.24

1310.36
1572.10 1617.15 1590.33 1577.42 1670.00 1741.00 1834.00 1943.30

291.4
314.4 322.3 319.1 314.3 314.0 316.5 315.2 320.2

541.42
611.67 648.50 677.53 704.52 717.64 747.68 785.41 818.86

449.69
500.03 501.77 498.28 501.75 531.85 550.08 581.85
395 606.81

模型的建立、估计与检验
据表6.3的数据使用普通最小二乘法估计消费模 型得: ? Yt = 106.7528 + 0.5998 X t
R 2 = 0.9788 , F = 786.0548 , df = 17 , DW = 0.7706

该回归方程可决系数较高,回归系数均显著。 对样本量为19、一个解释变量的模型、5%显著 水平,查DW统计表可 d L ? 1.18 , dU ? 1.40 知, DW ? d L ,模型中 , 显然消费模型中有自相关。这也可从残差图中 看出,点击EViews方程输出窗口的按钮Resids可
396

图6.6残差图
397

自相关问题的处理
使用科克伦-奥克特的两步法解决自相关问题: 由模型可得残差序列 et ,在EViews中,每次回 归的残差存放在resid序列中,为了对残差进行 回归分析,需生成命名为 et的残差序列。在主菜 单选择Quick/Generate Series 或点击工作文件 窗口工具栏中的Procs/Generate Series,在弹出 的对话框中输入? resid ,点击OK得到残差 e et 序列 。使用 进行滞后一期的自回归,在 EViews 命今栏中输入ls e e(-1)可得回归方程 : et ? 0.4960et -1
398

可知 ? ? 0.4960,对原模型进行广义差分,得到 ? 广义差分方程:
Yt - 0.4960Yt -1 = ?1 (1- 0.4960) + ?2 ( X t - 0.4960 X t -1 ) + ut

对广义差分方程进行回归,在EViews命令栏中输 入 LS Y ? 0.4960*Y (?1) c X ? 0.4960* X (?1) 回车后可得方程输出结果如表6.4。

399

表6.4

广义差分方程输出结果

Dependent Variable: Y-0.496014*Y(-1) Method: Least Squares Date: 03/26/05 Time: 12:32 Sample(adjusted): 1986 2003

Included observations: 18 after adjusting endpoints
Variable C X-0.496014*X(-1) R-squared Adjusted Rsquared S.E. of regression Sum squared resid Coefficien t 60.44431 0.583287 0.960914 0.958472 10.05584 1617.919 Std. Error 8.964957 0.029410 t-Statistic 6.742287 19.83325 Prob. 0.0000 0.0000 231.9218 49.34525 7.558623 7.657554

Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion

Log likelihood
Durbin-Watson stat

-66.02761
1.397928

F-statistic
Prob(F-statistic)

393.3577
0.000000 400

由表6.4可得回归方程为:
? Yt* = 60.4443 + 0.5833 X t*
R 2 ? 0.9609 df ? 16 F ? 393.3577 DW ? 1.3979

由于使用了广义差分数据,样本容量减少了1个, 为18个。查5%显著水平的DW统计表可知

d L ? 1.16 , dU ? 1.39 , 模型中 DW ? 1.3979 ? dU ,说 明广义差分模型中已无自相关。同时,可决系数 R2 , t, F 统计量均达到理想水平。
401

对比模型,很明显普通最小二乘法低估了回归
? 系数的标准误。原模型中 SE (?2 ) ? 0.0214,广 ? 义差分模型中为 SE (?2 ) ? 0.0294。

X 1 1- 0.4960 2

Y1 1- 0.4960 2

得到普莱斯-温斯腾变换的广义差分模型为:

Y = 60.4443 + 0.5833 X

* t

* t

402

可发现两者的参数估计值和各检验统计量的差别很

微小,说明在本例中使用普莱斯-温斯腾变换与直
接使用科克伦-奥克特两步法的估计结果无显著差

异,这是因为本例中的样本还不算太小。如果实际
应用中样本较小,则两者的差异就会较大。

通常对于小样本,应采用普莱斯-温斯腾变换补充
第一个观测值。
403

最终模型结果
由差分方程可知:

? ? 60.4443 ? 119.9292 ?1 1- 0.4960 由此,我们得到最终的中国农村居民消费模型:

Yt ? 119.9292 ? 0.5833 X t
由模型(6.49)的中国农村居民消费模型可知,中 国农村居民的边际消费倾向为0.5833,即中国农 民每增加收入1元,将平均增加消费支出0.5833 元。
404

本章小结
1.当总体回归模型的随机误差项在不同观测点 上彼此相关时就产生了自相关问题。

2.自相关的出现有多种原因。时间序列的惯性、
模型设定错误、数据的处理等等。 3.在出现自相关时,普通最小二乘估计量依然 是无偏、一致的,但不再是有效的。通常的t 检 验和F 检验都不能有效地使用。
405

4.为了研究问题的方便和考虑实际问题的代表意
义,我们通常将自相关设定为一阶自相关即AR(1)

模式。用一阶自相关系数
它模式。

? 表示自相关的程度

与方向。当然,实际问题也存在AR(m)模式或其

ut 是不可观测的,通常我们使用 ut 的 估计量 et 判断 ut 的特性。我们可通过 et 的图 形判断自相关的存在,也可使用依据 et 计算的
5.由于
DW 统计量判断自相关的存在。
406

6.如果自相关系数 ? 是已知的,我们可以使用
广义差分法消除序列相关。 7.如果自相关系数是 ? 未知的,我们可采用科 克伦-奥克特迭代法求得 ? 的估计值,然后用 广义差分法消除序列相关。

407

第六章 结 束 了!

408

计量经济学

第 七 章
分布滞后模型与自回归模型

409

引子: 货币政策效应的时滞
货币供给的变化对经济影响很大,货币政策总是 备受关注。

货币政策的影响效应存在着时间上的滞后。在货币政策的传
导过程中,货币扩张首先促使利率降低,或者一般价格水平 的上升,这需要一段时间。

这些因素对以GDP为代表的经济增长的影响,更是需要一
段时间才能显示出来。只有经过一段时间以后,支出对利率 的反应增强,投资、进出口和消费才会不断上升,货币政 策才最终促使GDP增加。通常,货币扩张对GDP影响的最 高点可能是在政策实施以后的一到两年间达到。
410

思考
在现实经济活动中,滞后现象是普遍存在的,这

就要求我们在做经济分析时应该考虑时滞的影响。
怎样才能把这类时间上滞后的经济关系纳入计量

经济模型呢?

411

第 七 章 分布滞后模型与自回归模型
本章主要讨论:
●滞后效应与滞后变量模型 ●分布之后模型的估计 ●自回归模型的构建 ●自回归模型的估计

412

第一节 滞后效应与滞后变量模型
本节基本内容:
●经济活动中的滞后现象 ●滞后效应产生的原因 ●滞后变量模型

413

一、经济活动中的滞后现象
解释变量与被解释变量的因果联系不可能在短时间内完成, 在这一过程中通常都存在时间滞后,也就是说解释变量需 要通过一段时间才能完全作用于被解释变量。

此外,由于经济活动的惯性,一个经济指标以前的变化态
势往往会延续到本期,从而形成被解释变量的当期变化同 自身过去取值水平相关的情形。 这种被解释变量受自身或其它经济变量过去值影响的现象 称为滞后效应。
414

二、滞后效应产生的原因
?心理预期因素 ?技术因素 ?制度因素

415

三、滞后变量模型
滞后变量:是指过去时期的、对当前被解释变量 产生影响的变量。滞后变量分为滞后解释变量与 滞后被解释变量。 把滞后变量引入回归模型,这种回归模型称为滞 后变量模型。

416

滞后变量模型的一般形式为

Yt ? ? ? ?0 X t ? ?1 X t ?1 ? ? 2 X t ?2 ? ? ? ? s X t ? s ? ? 1Yt ?1 ? ? 2Yt ?2 ? ? ? ? qYt ?q ? ut
其中 s, q 分别为滞后解释变量和滞后被解释变 量的滞后期长度。

417

1.分布滞后模型
被解释变量受解释变量的影响分布在解释变量 不同时期的滞后值上,即模型形如

Yt ? ? ? ?0 X t ? ?1 X t ?1 ? ?2 X t ?2 ? ? ? ?s X t ?s ? ut
具有这种滞后分布结构的模型称为分布滞后模型, 其中 为滞后长度。根据滞后长度 取为有限 s s 和无限,模型分别称为有限分布滞后模型和无 限分布滞后模型。

418

在分布滞后模型中,各系数体现了解释变量的各个滞 后值对被解释变量的不同影响程度,即通常所说的乘 数效应: β0 :称为短期乘数或即期乘数,表示本期 X 变 动一个单位对 值的平均影响大小; βi :称为延迟乘数或动态乘数,表示过去各时期 X变动一个单位对 Y 值的平均影响大小;

? β :称为长期乘数或总分布乘数,表示 X 变动一
i

s

个单位时,由于滞后效应而形成的对 Y 总的影响大 小。
419

i= 0

2. 自回归模型
如果滞后变量模型的解释变量仅包括自变量 X 的当期值和被解释变量的若干期滞后值,即模 型形如

Yt ? ? ? ?0 X t ? ? 1Yt ?1 ? ? 2Yt ?2 ? ? ? ? qYt ?q ? ut
则称这类模型为自回归模型,其中 q 称为自回 归模型的阶数。

420

第二节 分布滞后模型的估计
本节基本内容:
●分布滞后模型估计的困难 ●经验加权估计法 ●阿尔蒙法

421

一、分布滞后模型估计的困难
? 自由度问题
? 多重共线性问题 ? 滞后长度难于确定的问题

422

处理方法:
对于有限分布滞后模型,其基本思想是设法有目 的地减少需要直接估计的模型参数个数,以缓解 多重共线性,保证自由度。 对于无限分布滞后模型,主要是通过适当的模型 变换,使其转化为只需估计有限个参数的自回归 模型。

423

二、经验加权估计法
所谓经验加权估计法,是根据实际经济问 题的特点及经验判断,对滞后变量赋予一 定的权数,利用这些权数构成各滞后变量 的线性组合,以形成新的变量,再应用最 小二乘法进行估计。

常见的滞后结构类型:
递减滞后结构 不变滞后结构

?型滞后结构
424

图7.1 常见的滞后结构类型

w

w
t

w

0

(a )

0

(b)

t

0

( c)

t

425

优点:简单易行、不损失自由度、避免多重共 线性干扰及参数估计具有一致性。
缺点:设置权数的主观随意性较大,要求分析 者对实际问题的特征有比较透彻的了解。通常 的做法是,依据先验信息,多选几组权数分别 估计多个模型,然后根据可决系数、F检验值、 t检验值、估计标准误以及DW值,从中选出最 佳估计方程。

426

【例7.3】 已知1955—1974年期间美国制造业 库存量 和销售额 的统计资料如表7.1 X Y (金额单位:亿美元)。设定有限分布滞后模 型为: 运用经验加权法,选择下列三组权数: (1)1,1/2,1/4,1/8 (2)1/4,1/2,2/3,1/4 (3)1/4,1/4,1/4,1/4 分别估计上述模型,并从中选择最佳的方程。 (数据见教材表7.1)
427

记新的线性组合变量分别为:

由上述公式生成线性组合变量 z1 ,z2 ,z3 的数据。 然后分别估计如下经验加权模型。
428

1 1 1 Z1 ? X t ? X t ?1 ? X t ?2 ? X t ?3 2 4 8 1 1 2 1 Z 2 ? X t ? X t ?1 ? X t ?2 ? X t ?3 4 2 3 4 1 1 1 1 Z3 ? X t ? X t ?1 ? X t ?2 ? X t ?3 4 4 4 4
z1, , z2 , z3

回归分析结果整理如下 ? 模型一: Yt ? ?66.60404 ? 1.071502 Z1t
(?3.6633) R 2 ? 0.994248 (50.9191) DW ? 1.440858

F ? 2592
? 模型二: Yt = -133.1988 +1.3667 Z 2t (-5.029) R 2 = 0.989367 (37.35852) DW = 1.042935

F = 1396
429

模型三:

? Yt ? ?121.7394 ? 2.23973 Z 3t ( ?4.8131) R 2 ? 0.990077 (38.68578) DW ? 1.15853

F ? 1496

从上述回归分析结果可以看出,模型一的扰动 项无一阶自相关,模型二、模型三扰动项存在一 阶正自相关;再综合判断可决系数、F 检验值、 t 检验值,可以认为:最佳的方程是模型一,即 权数为(1,1/2,1/4,1/8)的分布滞后模 型。
430

三、阿尔蒙法
目的:消除多重共线性的影响。 基本原理:在有限分布滞后模型滞后长度 s 已
知的情况下,滞后项系数有一取值结构,把它 看成是相应滞后期 i 的函数。在以滞后期 i 为 横轴、滞后系数取值为纵轴的坐标系中,如果 这些滞后系数落在一条光滑曲线上,或近似落 在一条光滑曲线上,则可以由一个关于 i 的次 数较低的 m次多项式很好地逼近,即

431

?i ? ? 0 ? ?1i ? ? 2i ? ? ? ? mi
2

m

i ? 0,1, 2,? , s ;

m?s

此式称为阿尔蒙多项式变换(图7.2)。

432

将阿尔蒙多项式变换代入分布滞后模型并整理, 模型变为如下形式

Yt ? ? ? ?0 Z0t ? ?1Z1t ? ? 2 Z2t ? ? ? ? m Zmt ? ut
其中
Z 0t ? X t ? X t ?1 ? X t ? 2 ? ? ? X t ? s Z1t ? X t ?1 ? 2 X t ? 2 ? 3 X t ?3 ? ? sX t ? s Z 2t ? X t ?1 ? 22 X t ? 2 ? 32 X t ?3 ? ? s 2 X t ? s ... Z mt ? X t ?1 ? 2m X t ? 2 ? 3m X t ?3 ? ? s m X t ? s

(7 .5)

433

对于模型(7.5),在满足古典假定的条件下, 可用最小二乘法进行估计。将估计的参数代入阿 尔蒙多项式,就可求出原分布滞后模型参数的估 计值。 在实际应用中,阿尔蒙多项式的次数m 通常取得 较低,一般取2或3,很少超过4。

434

第三节 自回归模型的构建
本节基本内容:
●库伊克模型 ●自适应预期模型 ●局部调整模型

435

一、库伊克模型
无限分布滞后模型中滞后项无限多,而样本观测 总是有限的,因此不可能对其直接进行估计。要 使模型估计能够顺利进行,必须施加一些约束或 假定条件,将模型的结构作某种转化。
库伊克(Koyck)变换就是其中较具代表性的方 法。

436

库伊克假定:
对于如下无限分布滞后模型:

Yt = α+ β0 X t + β1 X t-1 + β2 X t-2 +?+ut
可以假定滞后解释变量 X t-i

响随着滞后期 i 的增加而按几何级数衰减。即滞 后系数的衰减服从某种公比小于1的几何级数:
βi = β0 λi , 0 ? λ ? 1 , i ? 0,1, 2,?

(7. 对被解释变量 Y 的影 6)

其中:β0

(7. 为常数,公比 λ 为待估参数。 7)
437

通常称为分布滞后衰减率,值越接近零,衰减 速度越快(如图7.3)。
βi

λ =1 2 λ =1 4

图7.3

按几何级数衰减的滞后结构(库伊克)
438

i

将库伊克假定(7.7)式代入(7.6)式,得

Yt = α + β0 ? λ i X t -i + ut
i= 0



将(7.8)滞后一期,有

(7. 8)
(7.9)

Yt -1 = α + β0 ? λi-1 X t -i + ut -1
i=1



439

对(7.9)式两边同乘 λ 并与(7.8)式相减得:
Yt - λYt-1 = (α + β0 ? λi X t-i +ut ) - ( λα + β0 ? λi X t-i + λut-1 )
i=0 i=1







= α (1- λ) + β0 X t + (ut - λut-1 )

Yt = α(1- λ) + β0 X t + λYt -1 + (ut - λut -1 )

这就是库伊克模型。上述变换过程也叫库伊克 变换。

440



α = (1- λ)α
*

, β = β0
* 0

β1* = λ

, ut* = ut - λut -1

则库伊克模型(7.10)式变为
* * * Yt = α* + β0 X t + β1 Yt -1 +ut

这是一个一阶自回归模型。

(7.1 2)

441

库伊克变换的优点
1.以一个滞后被解释变量代替了大量的滞后解 释变量,使模型结构得到极大简化,最大限度

地保证了自由度,解决了滞后长度难以确定的
问题;

2.滞后一期的被解释变量与 X t 的线性相关程
度将低于 X 的各滞后值之间的相关程度,从而

在很大程度上缓解了多重共线性。
442

库伊克变换的缺陷
1.它假定无限滞后分布呈几何递减滞后结构。 这种假定对某些经济变量可能不适用,如固定资

产投资对总产出影响的滞后结构就不是这种类型。
2.库伊克模型的随机扰动项形如

ut* = ut - λut-1
说明新模型的随机扰动项存在一阶自相关,且与 解释变量相关。

443

3.将随机变量作为解释变量引入了模型,不一 定符合基本假定。
4.库伊克变换是纯粹的数学运算结果,缺乏经 济理论依据。 这些缺陷,特别是第二个缺陷,将给模型的参 数估计带来定困难。

444

二、自适应预期模型
某些经济变量的变化会或多或少地受到另一些经济 变量预期值的影响。为了处理这种经济现象,可以 将解释变量预期值引入模型建立“期望模型”。

例如,包含一个预期解释变量的“期望模型”可以 表现为如下形式:

Yt = α + βX t* +ut
其中, 为被解释变量, X t* 为解释变量预期值, Yt ut 为随机扰动项。
445

难点
预期是对未来的判断,在大多数情况下,预期值
是不可观测的。因此,实际应用中需要对预期的

形成机理作出某种假定。自适应预期假定就是其
中之一,具有一定代表性。

446

自适应预期假定:
经济活动主体对某经济变量的预期,是通过一种 简单的学习过程而形成的,其机理是,经济活动 主体会根据自己过去在作预期时所犯错误的程 度,来修正他们以后每一时期的预期,即按照过 去预测偏差的某一比例对当前期望进行修正,使 其适应新的经济环境。
447

用数学式子表示就是
X t* = X t*-1 + γ( X t - X t*-1 )

其中参数为调节系数,也称为适应系数。这一调

整过程叫做自适应过程。
通常,将解释变量预期值满足自适应调整过

程的的期望模型,称为自适应预期模型
(Adaptive expectation model)。
448

根据自适应预期假定,自适应预期模型可转化为 一阶自回归形式:
* * Yt = α* + β0 X t + β1 Yt -1 +u* t

其中

α* = γα,
* β1 = 1- γ,

* β0 = γβ

ut* = ut - (1- γ )ut -1

如果能得到参数的估计值,可得到自适应预期 模型的参数估计值。

449

三、局部调整模型
在经济活动中,会遇到为了适应解释变量的变化,

被解释变量有一个预期的最佳值与之对应的现象。
例如,企业为了确保生产或供应,必须保持一定 的原材料储备,对应于一定的产量或销售量,存 在着预期最佳库存量;为了确保一国经济健康发 展,中央银行必须保持一定的货币供应,对应于 一定的经济总量水平,应该有一个预期的最佳货 币供应量。
450

也就是说,解释变量的现值影响着被解释变量的 预期值,即存在如下关系
Yt* = α + βX t + ut

其中, Yt*

(7.2 为被解释变量的预期最佳值, X 2)

t

为解

释变量的现值。

451

由于技术、制度、市场以及管理等各方面的限 制,被解释变量的预期水平在单一周期内一般 不会完全实现,而只能得到部分的调整。局部 ? 调整假设认为,被解释变量的实际变化仅仅是 预期变化的一部分,即
其中, 近1,表明调整到预期最佳水平的速度越快。

(7.2 ? 为调整系数,它代表调整速度。 越接 3) ?
452

Yt - Yt -1 = δ (Yt* - Yt -1 )

满足局部调整假设的模型(7.22),称为局部

调整模型(Partial adjustment model)。在
局部调整假设下,经过变形,局部调整模型可转 化为一阶自回归模型: 其中, * α* = δα, β0 = δβ, β1* = 1- δ, ut* = δut

Yt = α + β X t + β Y +u
* * 0 * 1 t -1

* t

453

评价
1.相同点
库伊克模型 、自适应预期模型与局部调整模的 最终形式都是一阶自回归模型,这样,对这三类 模型的估计就转化为对相应一阶自回归模型的估 计。

454

2.区别
●导出模型的经济背景与思想不同,库伊克 模型是在无限分布滞后模型的基础上根据库伊克 几何分布滞后假定而导出的;自适应预期模型是 由解释变量的自适应过程而得到的;局部调整模 型则是对被解释变量的局部调整而得到的。 ●由于模型的形成机理不同而导致随机误差项的 结构有所不同,这一区别将对模型的估计带来一定 影响。
455

第四节 自回归模型的估计
本节基本内容:
●自回归模型估计的困难 ●工具变量法 ●德宾h检验

456

一、自回归模型估计的困难
库伊克模型 、自适应预期模型与局部调整模型, 在模型结构上最终都可表示为一阶自回归形式:
* * Yt = α* + β0 X t + β1 Yt -1 +ut* 因此,对这三个模型的估计就转化为对一阶自回

归模型的估计。
但是,上述一阶自回归模型的解释变量中含有滞 后被解释变量 , 是随机变量,它可能与随 Yt -1 Yt -1 机扰动项相关;而且随机扰动项还可能自相关。 模型可能违背古典假定,从而给模型的估计带来 一定困难。
457

库伊克模型:

ut* = ut - λut -1

自适应预期模型: ut* = ut - (1- γ)ut -1 ut* = δut 局部调整模型: 假定原模型中随机扰动项满足古典假定,即

E(ut ) = 0
Var(ut ) =σ 2 Cov(ui ,u j ) = 0

i≠ j

458

(1) 对于库伊克模型,有

cov(u ,u ) = E(ut - λut-1 )(ut-1 - λut-2 )
* t * t-1 2 = E(ut ut-1 ) - λEut-1 - λE(ut ut-2 ) + λ 2 E(ut-1ut-2 )

= -λEut2-1 = -λζ 2 ≠ 0

cov(Yt -1 , ut* ) = cov(Yt -1 , ut - λut -1 ) = cov(Yt -1 , ut ) - λcov(Yt -1 , ut -1 ) = - λcov(Yt -1 , ut -1 ) ≠ 0
459

(2)对于自适应预期模型

cov(u , u ) ? 0
* t * t ?1

cov(Yt ?1 , u ) ? 0
* t

(3)对于局部调整模型,有

cov(ut* , ut*?1 ) ? E(? ut )(? ut ?1 ) ? ? 2 E(ut ut ?1 ) ? 0

cov(Yt ?1 , ut* ) ? cov(Yt ?1 , ? ut ) ? ? cov(Yt ?1 , ut ) ? 0

460

自回归模型的估计存在的主要问题
●出现了随机解释变量 Yt -1 ,而 Yt -1 可能与 u t 关; ●随机扰动项可能自相关,库伊克模型和自适应预

期模型的随机扰动项都会导致自相关,只有局部调
整模型的随机扰动无自相关。 如果用最小二乘法直接估计自回归模型,则估计可能 是有偏的,而且不是一致估计。 估计自回归模型需要解决两个问题:

设法消除 Yt -1 与 u t 的相关性; 检验 u t 是否存在自相关。
461

二、工具变量法
所谓工具变量法,就是在进行参数估计的过程中

选择适当的工具变量,代替回归模型中同随机扰
动项存在相关性的解释变量。工具变量的选择应 满足如下条件: (1)与所代替的解释变量高度相关; (2)与随机扰动项不相关; (3)与其它解释变量不相关,以免出现多重共 线性。
462

三、德宾h-检验
DW检验法不适合于方程含有滞后被解释变量的
场合.在自回归模型中,滞后被解释变量是随机 变量,已有研究表明,如果用DW检验法,则d 统计量值总是趋近于2。也就是说,在一阶自回 归中,当随机扰动项存在自相关时,DW检验却

倾向于得出非自相关的结论。
德宾提出了检验一阶自相关的h统计量检验法。

463

h统计量定义为

(7. 其中,ρ 为随机扰动项一阶自相关系数 ? 32) 的估计 ?
? 量,d 为DW统计量, 为样本容量, Var( β1* ) 为滞后 n

? h= ρ

d n = (1- ) ?*) ? 2 1 - nVar( β1* ) 1 - nVar( β1

n

被解释变量 Yt -1 的回归系数的估计方差。
在 ρ = 0 的假定下,h统计量的极限分布为标准 正态分布。因此,在大样本情况下,可以用h统计 量值判断随机扰动项是否存在一阶自相关。
464

具体作法如下
* (1)对一阶自回归方程 Yt = α* + β0 X t + β1*Yt-1 +ut*

? 直接进行最小二乘估计,得到 Var( β1* )

及 d 值。
? (2)将 Var( β1* ) 、 d 及样本容量 n 代入(7.32)

式计算h统计量值。

465

(3)给定显著性水平 ? ,查标准正态分布表
得临界值 h? 。若 h > h?,则拒绝原假 设ρ=0 ,说明自回归模型存在一阶自相关; 若
h < h? ,则接受原假设

ρ,说明自 =0

回归模型不存在一阶自相关。

466

值得注意的是,该检验法可适用任意阶的自回归 模型,对应的h统计量的计算式(7.32)仍然成 立,即只用到回归系数的估计方差; 此外,该检验法是针对大样本的,用于小样本效 果较差。

467

第五节 案例分析
【案例7.1】为了研究1955—1974年期间美国 制造业库存量 X和销售额 的关系,我们在 Y 例7.3中采用了经验加权法估计分布滞后模型。 下面用阿尔蒙法估计如下有限分布滞后模型: 将系数用二次多项式近似,即 t-2 + β3 X t-3 +ut Yt = α + β0 X t + β1 X t-1 + β2 X
β0 = α0
β1 = α0 + α1 + α2 β2 = α0 + 2α1 + 4α2

β3 = α0 + 3α1 + 9α2

468

则原模型可变为
其中
Yt ? ? ? ? 0 Z0t ? ?1Z1t ? ? 2 Z 2t ? ut
Z 0t ? X t ? X t ?1 ? X t ? 2 ? X t ?3 Z1t ? X t ?1 ? 2 X t ? 2 ? 3 X t ?3 Z 2t ? X t ?1 ? 4 X t ? 2 ? 9 X t ?3

估计如下回归方程形式
Yt ? ? ? ? 0 Z0t ? ?1Z1t ? ? 2 Z 2t ? ut
469

回归结果见表7.2
表7.2

470

表中 z1, z2 ,z3 对应的系数分别为 ? 0、?1、? 2
? ? ? 的估计值 ? 0、?1、? 2 。将它们代入分布滞后系数

? ? ? ? 的阿尔蒙多项式中,可计算出 ?0、?1、?2、?3

的估计值,分布滞后模型的最终估计式为:

Yt ? ?6.419601 ? 0.630281X t ? 1.15686 X t ?1 + 0.76178 X t ?2 ? 0.55495 X t ?3
471

在实际应用中,EViews提供了多项式分布滞 后指令“PDL”用于估计分布滞后模型。在 EViews中输入 Y 和 X的数据,进入Equation Specification 对话栏,键入方程形式:

Y C PDL( X ,3, 2)

472

其中,“PDL指令”表示进行阿尔蒙多项式分
布滞后模型的估计,括号中的3表示 X Estimation Settings栏中选择Least Squares(最小二乘法),点击OK,屏幕将显示 回归分析结果(见表7.3)。 的分布滞

后长度,2表示阿尔蒙多项式的阶数。在

473

表7.3

474

需要指出的是,用“PDL”估计分布滞后模型时,
EViews所采用的滞后系数多项式变换不是形如 (7.4)式的阿尔蒙多项式,而是阿尔蒙多项式的

派生形式。
因此,输出结果中 PDL01 、 PDL02 、 PDL03 对应的估计系数不是阿尔蒙多项式系数 ? 0、?1、? 2 的估计。但同前面分步计算的结果相比,最终的 ? ? ? ? 分布滞后估计系数式 ? 、? 、? 、? 是相同的。
0 1 2 3
475

【案例7.2】 货币主义学派认为,产生通货膨胀 的必要条件是货币的超量供应。物价变动与货币

供应量的变化有着较为密切的联系,但是二者之
间的关系不是瞬时的,货币供应量的变化对物价 的影响存在一定时滞。在中国,大家普遍认同货 币供给的变化对物价具有滞后影响,但滞后期究 竟有多长,还存在不同的认识。下面采集1996-

2005年全国广义货币供应量和物价指数的月度数
据(见教材表7.4)对这一问题进行研究。
476

为了考察货币供应量的变化对物价的影响,我们
用广义货币M2的月增长量 M2Z作为解释变量, 以居民消费价格月度同比指数 TBZS 为被解释变 量进行研究。首先估计如下回归模型:

TBZSt ? ? ? ?0 M2Zt ? ut
得如下回归结果(表7.5)。

477

表7.5

478

从回归结果来看,M2Z 的t统计量值不显著,表
明当期货币供应量的变化对当期物价水平的影响 在统计意义上不明显。为了分析货币供应量变化 影响物价的滞后性,我们做滞后6个月的分布滞 后模型的估计,结果见表7.6。

479

表7.6

480

从回归结果来看, M2Z 各滞后期的系数逐步增 加,表明当期货币供应量的变化对物价水平的 影响要经过一段时间才能逐步显现。但各滞后 期的系数的t统计量值不显著,因此还不能据此 判断滞后期究竟有多长。为此,我们做滞后12 个月的分布滞后模型的估计,结果见表7.7。

481

表7.7

482

表7.7显示,从 M2Z 到 M2Z(-11) , 回归系数 都不显著异于零,而 M2Z(-12) 的回归系数t 统计量值为3.016798,在5%显著性水平下拒 绝系数为零的原假设。这一结果表明,当期货

币供应量变化对物价水平的影响在经过12个月
(即一年)后明显地显现出来。为了考察货币 供应量变化对物价水平影响的持续期,我们做

滞后18个月的分布滞后模型的估计,结果见表
7.8。
483

表7.8

484

结果表明,从滞后12个月开始t统计量值显著,一 直到滞后16个月为止,从滞后第17个月开始t值变 得不显著;再从回归系数来看,从滞后11个月开 始,货币供应量变化对物价水平的影响明显增加, 再滞后14个月时达到最大,然后逐步下降。 通过上述一系列分析,我们可以做出这样的判断: 在我国,货币供应量变化对物价水平的影响具有明 显的滞后性,滞后期大约为一年,而且滞后影响具 有持续性,持续的长度大约为半年,其影响力度先 递增然后递减,滞后结构为 ?型。
485

当然,从上述回归结果也可以看出,回归方程的 不高,DW值也偏低,表明除了货币供应量外, 还有其他因素影响物价变化;同时,过多的滞后 变量也可能引起多重共线性问题。

486

如果我们分析的重点是货币供应量变化对物价影 响的滞后性,上述结果已能说明问题。如果要提 高模型的预测精度,则可以考虑对模型进行改进。 根据前面的分析可知,分布滞后模型可以用子回 归模型来代替,因此我们估计如下自回归模型:

TBZSt = α + βTBZSt -1 + ut 估计结果见表7.9。

487

表7.9

488

第 七 章 结 束 了!

489

计量经济学

第八章

虚拟变量回归
490

引子:男女大学生消费真有差异吗?
在对在校学生的消费行为进行的调查中,发现在校

生的消费行为呈现多元化的结构。人际交往消费、
手机类消费、衣着类消费、化妆品类消费、电脑类 消费、旅游类消费占有较大的比例;而食品类消费、 学习用品类消费不突显。 显然,男女生在消费上存在差异。为了了解男、女

生的消费支出结构差异,应当如何建立模型?
面临的问题:如何把男女生这样的非数量变量引

入方程?
491

问题的一般性描述
在实际建模中,一些定性变量具有不可忽视的重要

影响。例如,研究某个企业的销售水平,产业属性
(制造业、零售业)、所有制(私营、非私营)、

地理位置(东、中、西部)、管理者的素质、不同
的收入水平等是值得考虑的重要影响因素,但这些 因素共同的特征是定性描述的。 如何对非定量因素进行回归分析? 采用“虚拟变量”对定性变量进行量化一种思路。
492

第八章 虚拟变量回归
本章主要讨论:
●虚拟变量
●虚拟解释变量的回归

●虚拟被解释变量的回归(选讲,不包括)

493

第一节 虚拟变量
本节基本内容:
●基本概念 ●虚拟变量设臵规则

494

一、基本概念
定量因素:可直接测度、数值性的因素。 定性因素:属性因素,表征某种属性存在与否的 非数值性的因素。

基本思想:
直接在回归模型中加入定性因素存在诸多的困难 (那些困难?),是否可将这些定性因素进行量 化,以达到定性因素能与定量因素有着相同作用 之目的。
495

虚拟变量的定义
计量经济学中,将取值为0和1的人工变量称为虚 拟变量。虚拟变量也称:哑元变量、定性变量等 等。通常用字母D或DUM加以表示(英文中虚拟 或者哑元Dummy的缩写)。 对定性变量的量化可采用虚拟变量的方式实现。

496

二、虚拟变量设置规则
虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 2.属性(状态、水平)因素与设置虚拟变量 数量的关系 3.虚拟变量在回归分析中的角色以及作用等 方面的问题

497

“0”和“1”选取原则
? 虚拟变量取“1”或“0”的原则,应从分析问 题的目的出发予以界定。
? 从理论上讲,虚拟变量取“0”值通常代表比较 的基础类型;而虚拟变量取“1”值通常代表被 比较的类型。

“0”代表基期(比较的基础,参照物);
“1”代表报告期(被比较的效应)。
498

例如,比较收入时考察性别的作用。当研究男性收入是否 高于女性时,是将女性作为比较的基础(参照物),故有 男性为“1”,女性为“0”。

例1
(1)

?1 男 D=? ?0 女

?1 改革开放以后 (2) D = ? ?0 改革开放以前
?1 天气雨 ( ) D2 = ? 4 他 ?0 其 他

?1 (3) D1 = ? ?0

天气阴 其

问题: 为何只选0、1,选2、3、4行吗?为什么?
499

属性的状态(水平)数与虚拟变量 数量的关系
定性因素的属性既可能为两种状态,也可能为多种 状态。例如,性别(男、女两种)、季节(4种状 态),地理位置(东、中、西部),行业归属,所 有制,收入的分组等。

?(1,0) 天气阴 ? 如:(D1 ,D2)= ? (0,1) 天气雨 ? (0,0) 其 他 ?

500

虚拟变量数量的设置规则
1.若定性因素具有 m 个 (m ? 2) 相互排斥属性(或 几个水平),当回归模型有截距项时,只能引入

m -1个虚拟变量;
2.当回归模型无截距项时,则可引入 m 个虚拟变 量;否则,就会陷入“虚拟变量陷阱”。(为什 么?)

501

一个例子(虚拟变量陷阱)
研究居民住房消费支出 Yi 和居民可支配收入 X i 之间的 数量关系。回归模型的设定为:Yi = ? 0 + ?1 X i + ui () 1
现在要考虑城镇居民和农村居民之间的差异,如何办?

为了对 “城镇居民”、“农村居民”进行区分,分析
各自在住房消费支出 Y 上的差异,设 D1i = 1 为城镇; i D1i = 0 为农村,则模型为

Yi = ? 0 + ?1 X i + ?1D1 + ui (2) (模型有截距,“居民属性”定性变量只有两个相互排斥 的属性状态( m ? 2 ),故只设定一个虚拟变量。)
502

若对两个相互排斥的属性 “居民属性” ,仍然 引入 m ? 2 个虚拟变量,则有
?1 城镇居民 D1i = ? ?0 农村居民
?1 农村居民 D2i = ? ?0 城镇居民

则模型(1)为 Yi ? ? 0 ? ?1 X i ? ?1D1 ? ? 2 D2 ? ui (3) 则对任一家庭都有: D1 + D2 = 1 D1 + D2 - 1 = 0 , 即产生完全共线,陷入了“虚拟变量陷阱”。 “虚拟变量陷阱”的实质是:完全多重共线性。
503

虚拟变量在回归模型中的角色
虚拟变量既可作为被解释变量,也可作为解释 虚拟被解释变量的研究是当前计量经济学研究的

变量,分别称其为虚拟被解释变量和虚拟解释变量。 前沿领域,如MacFadden、Heckmen等人的微观计
本课程只是讨论虚拟解释变量的问题

量经济学研究,大量涉及到虚拟被解释变量的分析。

504

第二节 虚拟解释变量的回归
本节基本内容:
●加法类型
●乘法类型
●虚拟解释变量综合应用

505

在计量经济学中,通常引入虚拟变量的方式分为 加法方式和乘法方式两种:即

Yt ? ? 0 ? ? X t ? ut ??1D Yt ? ? ? ?1 X t ? ut ? ? 2 X t D
原模型:

Yi = ? + βX i + ui

加法方式引入 ? = ? 0 + ?1D 乘法方式引入 ? = ?1 + ? 2 D

实质:加法方式引入虚拟变量改变的是截距;
乘法方式引入虚拟变量改变的是斜率。
506

一、加法类型
以加法方式引入虚拟变量时,主要考虑的问 题是定性因素的属性和引入虚拟变量的个数。

分为四种情形讨论:
(1)解释变量只有一个定性变量而无定量变量, 而且定性变量为两种相互排斥的属性; (2)解释变量分别为一个定性变量(两种属性)

和一个定量解释变量;
507

(3)解释变量分别为一个定性变量(两种以上属 性)和一个定量解释变量; (4)解释变量分别为两个定性变量(各自分别是 两种属性)和一个定量解释变量;

思考:
四种加法方式引入虚拟变量会产生什么效应?

508

(1)一个两种属性定性解释变量而 无定量变量的情形
模型形式:Yi ? f ( Di ) ? ?i ? ? ? ? 0 ? ?1Di 例如:Yi ? ? 0 ? ?1Di ? ?i
?1 其中:Di=? ?0 城市 农村 (比较的基础:农村)

那么: E ?Yi | Di = 1? = ? 0 + ?1) ( E ?Yi | Di = 0 ? = ? 0

Yi ? ? 0 ? ?1) ?i ( ? Yi ? ? 0 ? ?i

城市

农村
509

(2) 一个定性解释变量(两种属性) 和一个定量解释变量的情形
模型形式 Yi = f(Di,X i )+ μi ? ? ? ? 0 ? ?1Di 例如:Yi = ? 0 ? ?1Di + ? X i + μi ?1 城市 其中: Y-支出;X -收入; Di ? ? ?0 农村

E ?Yi | X i , Di ? 1? ? ? 0 ? ?1) ? X i ( ? E ?Yi | X i , Di ? 0 ? ? ? 0) ? X i ( ?
Yi = ? 0 + ?1 + ? X i + μi 城市 ( ) 农村 Yi = ? 0 + ? X i + μi
510

Y

X

共同的特征:截距发生改变(?)
511

(3)一个定性解释变量(两种以上 属性)和一个定量解释变量的情形
模型形式 Yi = f ( X i,1, 2, ) + μi D D ... (如:民族有56种特性;季度有4种特性) 例如: 啤酒售量Y、人均收入X 、季度D ; Yi ? ? 0 ? ?1D1 ? ? 2 D2 ? ? 3 D3 ? ? X i ? ?i ? 1 一季度 ?1 其中: D1 ? ? D2 ? ? 其 它 ?0 ?0 ? 1 三季度 D3 ? ? 其 它 ?0 二季度 其 它

512

一季度:E ?Yi | X1, D1 ? 1, D2 ? D3 ? 0 ? ? ? 0 ? ?1)? ? X i ( 二季度:E ?Yi | X1, D2 ? 1, D1 ? D3 ? 0 ? ? (? 0 ? ? 2 ) ? ? X i 三季度:E ?Yi | X1, D3 ? 1, D1 ? D2 ? 0 ? ? (? 0 ? ? 3 ) ? ? X i 四季度:E ?Yi | X1, D1 ? D2 ? D3 ? 0 ? ? ? 0 ? ? X i

? 基准:四季度?

513

(4)两个定性解释变量(均为两种 属性)和一个定量解释变量的情形

514

夏季、城市居民

E ?Yi | X i , D1 ? 1, D2 ? 1? ? ?0 ? ?1 ? ? 2) ? X i ( ?

夏季、农村居民 E ?Yi | X i ,D1 = 1, D2 = 0 ? = ?0 + ?1) ? X i ( +

冬季、城市居民 E ?Yi | X i , D1 ? 0, D2 ? 1? ? (? 0 ? ? 2 )+? X i

冬季、农村居民

E ?Yi | X i , D1 ? 0, D2 ? 0 ? ? ?0 ? ? X i
515

D1 ? 1, D2 ? 1

Y

D1 ? 1, D2 ? 0
D1 ? 0, D2 ? 1

D1 ? 0, D2 ? 0

X
上述图形的前提条件是什么?
516

运用OLS得到回归结果,再用t检验讨论因素

是否对模型有影响。
加法方式引入虚拟变量的一般表达式:

Yt ? ?0 ? ?1D1t ? ?2 D2t ? ... ? ?k Dkt ? ? X t ? ut
基本分析方法: 条件期望。

E(Yt / D1t , D2t ,..., Dkt ) ? ?0 ? ?1D1t ? ? 2 D2t ? ... ? ? k Dkt ? ? X t

517

加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程

截距;
2.在没有定量解释变量的情形下,主要用于方

差分析。

518

二、乘法类型
基本思想
以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟 Xi 解释变量与其它解释变量的乘积,作为新的解释变量出现在
模型中,以达到其调整设定模型斜率系数的目的。或者将模 型斜率系数表示为虚拟变量的函数,以达到相同的目的。

乘法引入方式:
(1)截距不变;
(2)截距和斜率均发生变化;

分析手段:仍然是条件期望。
519

(1)截距不变的情形
模型形式: Yt = f ? X t , Dt X t ? ? ut ? ? ? ? , ? ? ?1 ? ? 2 D 例:研究消费支出 Y 受收入 X 、年份状况 D 的影响 Yt ? ? ? ?1 X t ? ? 2 ( Dt X t ) ? ?t
?1 反常年份 其中: Y ? 消费支出;X ? 收入; Dt ? ? ?0 正常年份 反常年份 E ?Yt | X t , Dt ? 1? ? ? ? ( ?1 ? ? 2 ) X t 正常年份 E ?Yt | X t , Dt ? 0 ? ? ? ? ?1 X t 在正常年份的基础上进行比较,(只有斜率系数发生改变)。
520

(2)截距和斜率均发生变化
模型形式:
Yi ? f ? X t , Dt , Dt X t ? ? ? ? ? 0 ? ?1D, ? ? ?1 ? ? 2 D

例,同样研究消费支出 Y 、收入 X 、年份状况 D 间的影 响关系。 Yt ? ? 0 ? ?1 X t ? ?1Dt ? ? 2 ( Dt X t ) ? ?t
?1 反常年份 其中: Y ? 消费支出;X ? 收入; Dt ? ? ?0 正常年份 反常年份 E ?Yt | X t , Dt ? 1? ? ?? 0 ? ?1 ? ? ( ?1 ? ? 2 ) X t 正常年份 E ?Yt | X t , Dt ? 0 ? ? ? ? ?1 X t 在正常年份基础上比较,截距和斜率系数都改变,为什么?
521

不同截距、斜率的组合图形

重合回归:截距斜率均相同

平行回归:截距不同斜率相同

共点回归:截距相同斜率不同

交叉(不同)回归:截距斜率均不同
522

三、虚拟解释变量综合应用
所谓综合应用是指将引入虚拟解释变量的加法方 式、乘法方式进行综合使用。 基本分析方式仍然是条件期望分析。 本课主要讨论

(1)结构变化分析;
(2)交互效应分析;

(3)分段回归分析

523

(1)结构变化分析
结构变化的实质是检验所设定的模型在样本期内 是否为同一模型。显然,平行回归、共点回归、 不同的回归三个模型均不是同一模型。 平行回归模型的假定是斜率保持不变(加法类型, 包括方差分析); 共点回归模型的假定是截距保持不变(乘法类型, 又被称为协方差分析); 不同的回归的模型的假定是截距、斜率均为变动 的(加法、乘法类型的组合)。
524

例:比较改革开放前、后我国居民(平均)“储 蓄—收入”总量关系是否发生了变化?

模型的设定形式为 :
Yt ? ?1 ? ? 2 Dt ? ?1 X t ? ? 2 ( Dt X t ) ? ut ?1? 其中 : Yt 为储蓄总额,X t 为收入总额。 ?1 改革开放后 D?? ?0 改革开放前
525

回归方程:
改革开放后 E ?Yt | X t , D ? 1? ? ?1 ? ? 2)(?1 ? ? 2)X t ( ? 改革开放前 E ?Yt | X t , D ? 0 ? ? ?1 ? ?1 X t

? 2?
(3)

显然,只要 ? 2 、 2不同时为零,上述模型就能刻画 ? 改革开放前后我国居民储蓄收入模型结构是否发生 变化。

526

问题:
1.本例中,平行、共点回归、不同的回归三模型 的经济学背景解释是什么? 2.如何进行结构变化判断? 3.是否可对(2)、(3)分别进行 OLS 估计?为什么? 4.若分别对(2)、(3)进行 OLS 估计应注意什么?

527

(2)交互效应分析
交互作用: 一个解释变量的边际效应有时可能要依赖于另一 个解释变量。为此,Klein和Morgen(1951)提出了 有关收入和财产在决定消费模式上相互作用的假 设。他们认为消费的边际倾向不仅依赖于收入, 而且也依赖于财产的多少 ——较富有的人可能会 有不同的消费倾向。

528

为了捕获该影响,设 C ? ? ? ? Y ? u 。假设边际 消费倾向 ? 依赖于财产 Z 。一个简单的表示方法 就是 ? ? ?1 ? ?2 Z 。代入消费函数,有:
C ? ? ? ?1Y ? ?2YZ ? u

由于 YZ 捕获了收入和财产之间的相互作用而被称 为交互作用项。 显然,刻画交互作用的方法,在变量为数量(定量) 变量时, 是以乘法方式引入虚拟变量的。
529

例: 是否发展油菜籽生产与是否发展养蜂生产的 差异对农副产品总收益的影响研究。 模型设定为:
Yi ? ?1 ? ? 2 D2i ? ? 3 D3i ? ? X i ? ui () 1 其中:Yi (农副产品收益);X(农副产品投入) i ?1 发展养蜂生产 ?1 发展油菜籽生产 D2 ? ? ; D3 ? ? ?0 其他 ?0 其他

(1)式中, 以加法形式引入虚拟变量暗含何假设?
530

(1)式以加法形式引入,暗含的假设为: 菜籽生产和养蜂生产是分别独立地影响农副品生产 总收益。但是,在发展油菜籽生产时,同时也发展 养蜂生产,所取得的农副产品生产总收益,可能会 高于不发展养蜂生产的情况。即在是否发展油菜籽

生产与养蜂生产的虚拟变量 D2i 和 D3i 间,很可能
存在着一定的交互作用,且这种交互影响对被解释

变量农副产品生产收益会有影响。
531

问题:如何刻画同时发展油菜籽生产和养蜂生产的 交互作用?

基本思想:在模型中引入相关的两个变量的乘积。
区别之处在于,上页定义中的交互效应是针对数量 变量,而现在是定性变量,又应当如何处理?

532

为了反映交互效应,将(1)变为:

Yi ? ?1 ? ? 2 D2i ? ? 3 D3i ? ? 4 D2i D3i ? ? X i ? ui
同时发展油菜籽和 养蜂生产:
发展油菜籽生产: 发展养蜂生产:
Yi ? ?1 ? ? 2 ? ?3 ? ? 4) ? X i ? ui ( ?

Yi ? ?1 ? ? 2) ? X i ? ui ( ?
Yi ? ?1 ? ? 3) ? X i ? ui ( ?
Yi ? ?1 ? ? X i ? ui
533

基础类型:

如何检验交互效应是否存在? 看 ? D2i D3i ? 系数? 4对应的t值:
?H 0:? 4 ? 0 即检验: ? ? H1:? 4 ? 0

若拒绝原假设,即交互效应对 Y 产生了影响(应 该引入模型)。

534

(3)分段回归分析
作用: 提高模型的描述精度。 虚拟变量也可以用来代表数量因素的不同阶段。 分段线性回归就是类似情形中常见的一种。 一个例子: 出 研究不同时段我国居民的消费行为。 实际数据表明,1979年以前,我国居民的消费支 Yt 呈缓慢上升的趋势;从1979年开始,居民消 费支出为快速上升趋势。

如何刻画我国居民在不同时段的消费行为?

535

基本思路:采用乘法方式引入虚拟变量的手段。
显然,1979年是一个转折点,可考虑在这个转折
点作为虚拟变量设定的依据。若设 X * =1979, 当 t < X * 时可引入虚拟变量。(为什么选择1979 作为转折点?)

536

依据上述思路,有如下描述我国居民在不同时段 消费行为模型:

Yt ? ?0 ? ?1t ? ? 2 (t ? X ) D ? ut
*
?1 ? 其中: D ? ? ?0 ? t ? X t? t? X t?

(t=1955,1956,…,2004)

居民消费趋势方程:

1979年以前: Yt ? ?0 ? ?1t ? ut
1979年以后: Yt ? ?0 ? ? 2 X * ? ( ?1 ? ? 2 )t ? ut
537

分析
1979年之前,回归模型的斜率为 ? ; 1 1979年之前,回归模型的斜率为 ?1 ? ?2 ;
Y


?2

?1
X*

X

若统计检验表明,? 2 显著不为零,则我国居民的消 费行为在1979年前后发生了明显改变。
538

第三节 案例分析
为了考察改革开放以来中国居民的储蓄存款与收 入的关系是否已发生变化,以城乡居民人民币储 蓄存款年底余额代表居民储蓄( Y ),以国民总

收入GNI代表城乡居民收入,分析居民收入对储
蓄存款影响的数量关系,并建立相应的计量经济

学模型 。

539

表8.1

国民总收入与居民储蓄存款
城乡居民 人民币储 年 蓄存款增 份 加额( )

单位:亿元
城乡居民 人民币储 蓄存款增 额 (YY) 2121.8 2517.8 3444.1 6315.3 8143.5 8858.5

年 份

城乡居民 国民总收 人民币储 蓄存款年 入 (GNI) 底余额 ( Y) 3624.1 4038.2 4517.8 4860.3 5301.8 5957.4 210.6 281 399.5 532.7 675.4 892.5

YY
NA 70.4 118.5 124.2 151.7 217.1 1991 1992 1993 1994 1995 1996

城乡居民人 民币储蓄存 国民总收 款年底余额 入 (GNI) (Y ) 21662.5 26651.9 34560.5 46670 57494.9 66850.5 9241.6 11759.4 15203.5 21518.8 29662.3 38520.8

1978 1979 1980 1981 1982 1983

数据来源:《中国统计年鉴2004》,
540

表8.1

国民总收入与居民储蓄存款 (续)
城乡居 民人民 币储蓄 存款增 加额 (YY ) 322.2 407.9 615 835.7 728.2 1374.2 1923.4

单位:亿元
城乡居民人 民币储蓄存 款年底余额 (Y ) 城乡居民人 民币储蓄存 款增加额 (YY)

年 份

城乡居 民人民 国民总收 币储蓄 入 (GNI) 存款年 底余额 (Y ) 7206.7 8989.1 10201.4 11954.5 14922.3 16917.8 18598.4 1214.7 1622.6 2237.6 3073.3 3801.5 5146.9 7119.8

年 份

国民总收入 (GNI)

1984 1985 1986 1987 1988 1989 1990

1997 1998 1999 2000 2001 2002 2003

73142.7 76967.2 80579.4 88254 95727.9 103935.3 116603.2

46279.8 53407.5 59621.8 64332.4 73762.4 86910.6 103617.7

7759 7615.4 6253 4976.7 9457.6 13233.2 16631.9

541

为了研究1978—2003年期间城乡居民储蓄存款随收入的 变化规律是否有变化,考证城乡居民储蓄存款、国民总收 入随时间的变化情况,如下图所示:

542

从上图中,尚无法得到居民的储蓄行为发生明显改变 的详尽信息。若取居民储蓄的增量( YY),并作时序 图(见左下图):

543

从居民储蓄增量图(上页左图)可以看出,城乡居 民的储蓄行为表现出了明显的阶段特征:在 1996年和2000年有两个明显的转折点。再从城 乡居民储蓄存款增量与国民总收入之间关系的散 布图看(见上页右图),也呈现出了相同的阶段 性特征。

544

为了分析居民储蓄行为在1996年前后和2000年前后三个阶段 的数量关系,引入虚拟变量 D 和 D 。
1

2

并设定了如下以加法和乘法两种方式同时引入虚拟变量的的 模型:

D1 和 D2的选择,是以1996、2000年两个转折点作为依据,

YYt ? ?1 ? ?2GNIt ? ?3 ? GNIt ? 66850.50? D1t ? ?4 ? GNIt ? 88254.00? D2t ? ut

其中:
?1 t ? 2000年以后 ?1 t ? 1996年以后 D2t ? ? D1t ? ? ?0 t ? 2000年及以前 ?0 t ? 1996年及以前
545

对上式进行回归后,有:

546

即有: YYt ? -830.4045 ? 0.1445GNIt - 0.2914 ? GNIt - 66850.50 ? D1t
se ? 172.1626 t ? se ? t ? - 4.8234 0.0057 25.1700 0.0401 13.9581 0.0272 -10.7192

? 0.5602 ? GNIt -88254.00 ? D2t

由于各个系数的t检验均大于2,表明各解释变量的 系数显著地不等于0,居民人民币储蓄存款年增加 额的回归模型分别为:
547

? YYt ? - 830.4045 ? 0.1445GNIt ? ?1t t ? 1996 ? YYt ? ? YYt ? 18649.8312 - 0.1469GNIt ? ? 2t 1996 ? t ? 2000 ? YY ? - 30790.0596 ? 0.4133GNI ? ? t ? 2000 t 3t ? t

这表明三个时期居民储蓄增加额的回归方程在统计 意义上确实是不相同的。1996年以前收入每增加1 亿元,居民储蓄存款的平均增加0.1445亿元;在 2000年以后,则为0.4133亿元,已发生了很大变化。

548

上述模型与城乡居民储蓄存款与国民总收入之间 的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考
虑通货膨胀因素。

549

第八章 小 结
1.虚拟变量是人工构造的取值为0和1的作为属性

变量代表的变量。
2.虚拟变量个数的设置有一定规则:在有截距项 的模型中,若定性因素有 m个相互排斥的类型, 只能引入 个虚拟变量,否则会陷入所谓 m-1 “虚拟变量陷阱”,产生完全的多重共线性。

550

3.在计量经济模型中,加入虚拟解释变量的途径

有两种基本类型:一是加法类型;二是乘法类
型。以加法方式引入虚拟变量改变的是模型的 截距;以乘法方式引入虚拟变量改变的是模型 的斜率。 4.解释变量只有一个分为两种相互排斥类型的定 性变量而无定量变量的回归,称为方差分析模 型。
551

5.解释变量包含一个分为两种类型定性变量的回
归时,只使用了一个虚拟变量;解释变量包含

一个两种以上类型的定性变量的回归时,定性
变量有 m 种类型,依据虚拟变量设置规则引入 了 m ? 1个虚拟变量。 6.解释变量包含两个(或 k 个)定性变量的回归 中,可选用了两个(或 k 个)虚拟变量去表示, 这并不会出现“虚拟变量陷阱”。
552

7.以乘法形式引入虚拟解释变量的主要作用在于: 对回归模型结构变化的检验;定性因素间交互

作用的影响分析;分段线性回归等。

553

第八章 结 束 了!

554

计量经济学

第 九 章 设定误差与测量误差
555

引子:简单一定胜于复杂吗?
西方国家盛行“Occam`s razor”原则,意思是 “简单优于复杂”的节约性原则。经济模型永远 无法完全把握现实,在建立模型中一定的抽象和 简化是不可避免的。 在研究进口与国内生产总值的关系时,考虑到时 间趋势,建立并估计了以下模型
IM = -172.42 + 0.271GDP - 949.12T + 160.73T 2 - 10.18T 3

t ? (-0.177) (5.67) (-2.22) (2.20)

(-2.74)

R2 ? 0.991

F ? 272.95

DW ? 1.97
556

有人根据“简单优于复杂”原则,得到以下方程:
IM ? -217.186 ? 0.173GDP

t ? (-0.5) (16.94)

(2)

R2 ? 0.960 F ? 286.95

DW ? 0.735

进行比较:
两个方程的检验结果都较理想;
方程(2)GDP的t检验值似乎优于方程(1); 方程(2)函数形式也更为简单; 然而,能否根据“Occam’s razor”原则,判断方程(2)比 方程(1)好?
557

对模型的设定是计量经济研究的重要环节。 前面各章除了对随机扰动项 外,还强调: 分布的基本假定以 ui

假定设定的模型对变量和函数形式的设定是
正确地描述被解释变量与解释变量之间的真实关

系,假定模型中的变量没有测量误差。
但是在实际的建模实践中,对模型的设定不一定

能够完全满足这样的要求,从而会使模型出现设
定误差。
558

第九章 设定误差与测量误差
本章主要讨论:
●设定误差 ●设定误差的检验 ●测量误差

559

第一节 设定误差
本节基本内容:
●设定误差及类型 ●变量设定误差的后果

560

一、设定误差及类型
计量经济模型是对变量间经济关系因果性的设想, 若所设定的回归模型是“正确”的,主要任务是所 选模型参数的估计和假设检验。但是如果对计量模 型的各种诊断或检验总不能令人满意,这时应把注 意力集中到模型的设定方面: 考虑所建模型是否遗漏了重要的变量? 是否包含了多余的变量? 所选模型的函数形式是否正确? 随机扰动项的设定是否合理? 变量的数据收集是否有误差? 所有这些,计量经济学中被统称为设定误差。 561

设定误差的类型
从误差来源看,设定误差主要包括: (1)变量的设定误差,包括相关变量的遗漏 (欠拟合)、无关变量的误选(过拟合); (2)变量数据的测量误差; (3)模型函数形式的设定误差; (4)随机扰动项设定误差。 本章主要讨论的两类变量设定误差:

(1)相关变量的遗漏(欠拟合); (2)无关变量的误选(过拟合)。
562

1. 相关变量的遗漏
(Omitting Relevant Variables)
例如,如果“正确”的模型为

Yi ? ?1 ? ?2 X 2i ? ?3 X 3i ? ?i
而我们将模型设定为

Yi ? ?1 ? ? 2 X 2i ?? i
即设定模型时漏掉了一个相关的解释变量。 这类错误称为遗漏相关变量(“欠拟合”)。

563

2. 无关变量的误选
(Including Irrevelant Variables)
例如,如果“真实模型”为:

Yi ? ?1 ? ?2 X 2i ? ?3 X 3i ? ?i
但我们却将模型设定为

Yi ? ?1 ? ? 2 X 2i ? ?3 X 3i ? ? 4 X 4i ?? i
即设定模型时,多选了一个无关解释变量。这类
错误称为无关变量的误选(“过拟合”)。
564

设定误差的原因
●数据来源渠道可能不畅。例如,数据很难取得被

迫将具有重要的经济意义变量排斥在模型之外。
●不知道变量应当以什么确切的函数形式出现在回

归模型中。
●事先并不知道所研究的实证数据中所隐含的真实

模型究竟是什么。
设定误差在建模中较容易出现。设定误差的存在

可能会对模型形成不良的后果。
565

二、变量设定误差的后果
当模型设定出现误差时,模型估计结果也会与

“实际”有偏误;
偏误的性质与程度与模型设定误差的类型密切相

关。
从实质上看,变量设定误差的主要后果,是一个

或多个解释变量与随机扰动项之间存在着相关性,
进而影响参数估计的统计特性。
566

1. 遗漏相关变量(欠拟合)偏误
采用遗漏了重要解释变量的模型进行估计而带来 的偏误,称为遗漏相关变量偏误。

设正确的模型为:

Yi ? ?1 ? ? 2 X 2i ? ?3i X 3i ? ui
正确模型离差形式为:

yi ? ?2 x2i ? ?2 x3i ? (ui - u )
567

却对方程 Yi ? ?1 ? ? 2 X 2i ?? i 进行回归,得:
? ? 2 ? ? 2 ? ?3

取期望

?x x ?x

2 i 3i 2 2i

? x (u - u ) ? ?x
2i i 2 2i

? ? x2i x3i ? ? x2i (ui - u ) ? ? E ?? 2 ? ? E ? ? 2 ? ? 3 ? 2 2 ? ? x2i ? x2i ? ? ?

568

遗漏变量设定误差的后果
由此可以看出,X 3 的遗漏将产生如下后果。 两边取概率极限,有:
Cov ? X 2i , X 3i ? Cov ? X 2i , ui ? ? p lim ? 2 ? ? 2 ? ?3 ? Var ? X 2i ? Var ? X 2i ? n ??

569

1. 如果漏掉的 X 3 X 2相关,则分别在小样本下求 与
期望、在大样本下求概率极限,有:

? E(?1 ) ? ?1 ? 且 p lim(?1 ) ? ?1
n ??

? E(? 2 ) ? ? 2 ? p lim(? 2 ) ? ? 2
n ??

2.

如果 ? 与
2

X3

X2

不相关,则

?2

的估
570

计满足无偏性与一致

? 3. ? 2 的方差是 ? 2 方差的有偏估计: ?

Y = β1 + β2 X 2 + β3 X 3 + u 由 Y = ?1 + ? 2 x2 + v

?2 ? Var(? 2 ) ? 2 x2i ?



? Var( ? 2 ) ?



?x x ? x (1- x x ? ?
2 2i 2 i 3i 2 2i

?2

2 3i

)

?2 ? 2 2 x2i (1- r23 ) ?



571

? ? 如果 X 3 与 X 2 相关,显然有 Var(? 2 ) ? Var( ? 2 )

? 如果 X 3与 X 2不相关,也有 Var(? 2 ) ? Var( ? 2 ) ?
4. 遗漏变量 X 3 ,式中的随机扰动项 vi的方差估计 量将是有偏的,即: ? ? v2 ? RSSv (n - 2)
2 ? E ?? v2 ? ? ? u

5. 与方差相关的检验,包括假设检验、区间估计,

在关于参数的统计显著性方面,都容易导出错误的
结论。
572

2 ? ? (1) 若 X 3与X 2相关,r23 ? 0,显然,Var ?? 2 ? ? Var ? 2 ? ? 似乎有:Var ?? ? ? Var ? ;
2

? ?
2

? ?

但实际情形并不完全如此。 可以注意到残差平方和RSS的计算

? ? ??2 ? RSSv (n ? 2) ? RSSu (n ? 3) ? ? u2 ;
因此,有可能:

RSSv (n ? 2) ? RSSu (n ? 3);
573

(2)若 X 3与X 2 不相关,有
2 r23 ? 0和 ? x2i x3i 2 x2i ? 0; ?

似乎分别有: ? E ?? 2 ? ? ? 2

? ? Var( ? 2 ) ? Var(? 2 );

若这两个等式成立,意味着尽管变量 X 3 ,在 理论上分析是有关的变量,但从所选模型中略 去似乎也不会导致什么危害。这种认识实际也 不正确。
574

因为
? ? v2 RSSv n - 2 ? u2 ? ) ? ? ? RSSu n - 3 ? ? ? Var(? 2 ) ? ? 是Var( ? 2 2 2 2 2 x2i x2i x2i x2i ? ? ? ?

的有偏估计,即使 X 3与X 2 不相关,也有
? ? ? ? Var( ? 2 ) ? Var(? ),

致使假设检验程序很有可能是可疑的。
必须清楚,一旦根据相关理论把模型建立起来,

再从中遗漏变量需要充分地谨慎。
575

2. 包含无关变量偏误
定义:模型中包括了不重要的解释变量,即采用误 选了无关解释变量的模型进行估计而带来的偏误, 称为包含无关变量偏误 设正确模型 Y = β + β X + μ (1) 1 2 2 但却估计了 Y ? α ? α X ? α X ? v (2) 1 2 2 3 3 如果 ? 3 ? 0,则(2)与(1)相同,因此,可将(1)式 视为以 ?3 ? 0 为约束的(2)式的特殊形式。 采用OLS 法对(2)进行估计,有:
576

? ?2

?x y ? x -? x y ? x x ? ? x ? x - (? x ? x )
2i i 2 2i 2 3i 2 3i 3i i 2i 3i
2 3i

2 i 3i 2

将(1)式的离差形式代入, yi ? ?2 x2i ? (ui ? u ) 整理得:

? ? 2 ? ?2 ?

(? x )(? x2i (ui - u )) - (? x2i x3i )(? x3i (ui - u )) x22i ? x32i - (? x2i ? x3i ) 2 ?
2 2 x2i (1- r23 ) ?
577

? E( ? 期望和方差: ? 2 ) ? ? 2 Var(? 2 ) ?

? v2

无关变量的设定误差的后果
1. 可以证明,(2)式参数的OLS估计量是无偏, 且为一致性的。即:

? ? E(?1 ) ? ?1 , E(?3 ) ? ?3 ? 0
同理,可证明:
? E(? 2 ) ? ? 2 ? p lim ? 2 ? ? 2

? p lim ?1 ? ?1
n ??

? p lim ? 3 ? ? 3 ? 0
n ??
578

n ??

2.

? ? 2 不是有效估计量:

? Var(? 2 ) 1 ? 2 ? Var( ? 2 ) (1- r23 )

? 此结论对 ?1 也成立。
3. 随机误差项的方差的估计仍为无偏估计。 4. 通常的区间估计和假设检验程序依然有效,但 方差增大,接受错误假设的概率会较

更多相关文档:

庞皓:西南财经大学出版社-计量经济学(第2版)数据

庞皓:西南财经大学出版社-计量经济学(第2版)数据 计量经济学2版 各章数据计量经济学2版 各章数据隐藏>> P22-表 2.1 家庭收入和消费支出 -每月家庭可支配收入...

西南财经大学计量经济学期末考试试题

西南财经大学计量经济学期末考试试题_经济学_高等教育_教育专区。密卷西南...计量经济学(西南财大) 42页 免费 计量经济学(第二版) 庞皓... 7页 2下载...

计量经济学习题与解答4.

计量经济学 (第二版)庞皓 ... 12页 免费 计量经济学习题与解答2. 20页 免费...9页 2财富值 计量经济学题库(西南财大)... 9页 2财富值如要投诉违规内容...

计量经济学(庞皓)第三版课后答案

计量经济学(庞皓)第三版课后答案_经济学_高等教育_教育专区 暂无评价|0人阅读|0次下载|举报文档 计量经济学(庞皓)第三版课后答案_经济学_高等教育_教育专区。...

计量经济学(庞皓)第二章习题讲解

庞皓第二版计量经济学答案庞皓第二版计量经济学答案隐藏>> 第二章习题答案练习...(26.10376) r 2 =0.977058 F=681.4064 2)斜率系数的经济意义:地方生产总值...

计量经济学-庞皓-第三版课后案

计量经济学-庞皓-第三版课后案_经济学_高等教育_教育专区。第二章 简单线性回归模型 2.1 (1) ①首先分析人均寿命与人均 GDP 的数量关系,用 Eviews 分析: ...

计量经济学庞皓第二版第四章答案

计量经济学庞皓第二版第四章答案_经济学_高等教育_教育专区。第二版计量经济学部分课后答案4.1 ? ? ? ? (1) 存在 α 2 = β 2 且γ 3 = β 3 。 ...

西南财经大学

国家发展计划委员会正式批复同意将西南财经大 学列入...庞皓、何泽荣、郭复初、郑景骥、刘邦驰、蒋明新等...学校首批校聘博导有王永锡、丁任重、张 合金、刘锡良...

西南财经大学

西南财经大学天府之国,钟灵毓秀;巴山蜀水,俊采星驰...庞皓、何泽荣、郭复 初、郑景骥、刘邦驰、蒋明新等...学校首批校聘博导有王永锡、丁任重、张合金、刘锡良...

计量经济学(庞皓版)期末考试复习题(2)答案

计量经济学(庞皓版)期末考试复习题(2)答案 隐藏>> 复习题 (2) 一、 单项选择...自相关是一种随机误差现象; 自相关产生的原因有经济变量的惯性作用; 检验自相...
更多相关标签:
计量经济学 西南财大 | 计量经济学庞皓第三版 | 计量经济学 庞皓 | 计量经济学答案 庞皓 | 计量经济学 庞皓 pdf | 计量经济学庞皓思考题 | 计量经济学庞皓视频 | 计量经济学庞皓百度云 |
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com