当前位置:首页 >> 数学 >> z-CH8系统抽样-第1、2节 (1)

z-CH8系统抽样-第1、2节 (1)


CH7小结
?

理论掌握:
?

?
?

CL的做法和特点/优缺点/实施理由 分群的原则 CL的deff因子 群大小相等时的均值估计和比例估计推断 群大小不等时的估计(一般总值估计更有意义)
? ?

?

计算掌握:
? ?<

br />
Srs抽样,比率估计 PPS抽样,HH估计

?

理解:
? ? ?

CL是单阶段抽样向多阶段抽样的过渡 CL与st的关系 群大小不等的整群抽样
?

?

方法体系,各方法的特点和适用性 基本思路:改变抽样方法或改变估计方法
统计学专业必修课3学分 1

2013-7-4

CH8 系统抽样
Sy:Systematic Sampling 4-6课时

2013-7-4

统计学专业必修课3学分

2

sy在抽样方法体系中的地位
? ?

?

Sy在实践中被广泛采用 理由: ? 1、sy简便易行,甚至比srs更容易操作 ? 2、在了解总体特征的前提下,有效地应用sy可以 得到很高的精度 Sy可看作一种特殊的cl,又可以看出是一种特殊的st

?

学习和应用sy时有一些特殊问题需要注意: ? 1、对总体特征的了解非常重要,否则会影响sy样 本的代表性 ? 2、sy方差估计较为复杂,一般很难得到抽样设计 意义下的理论方差的无偏估计
统计学专业必修课3学分 3

2013-7-4

什么是系统抽样
? ?

?

?

等距抽样是典型的Sy Sy:将总体的N个单元按某种顺序排列,首先从总体 中srs地抽取第一个样本点(即随机起点),然后按某种 确定的规则选取其他样本单元 Sy的两个突出特点: ? 1、抽样之前要先将N个总体单元排序 ? 2、第一个单元的抽取是随机的,其余(n-1)个单元 的选取是按照某种确定的规则来取,不具有随机性 所以,随机起点一经确定,整个样本就确定了,这种 “牵一发而动全身”的整体性正是通常所谓“系统” 的特点,所以称为系统抽样
统计学专业必修课3学分 4

2013-7-4

Sy的优点
1、简便易行
? ?

sy至少能达到srs的效果,但比srs容易实施 主要表现在:
? ?

抽样框简单,甚至可以不需要抽样框 非专业人士很容易操作

2、样本单元在总体中的分布比较均匀,因而一般具有较好 的代表性
?

特别是当总体有适合的辅助变量的信息可以利用时,可以 采用有序系统抽样,有利于提高估计精度
统计学专业必修课3学分 5

2013-7-4

Sy的一些最直观的案例
? ?

?

?

?

?

街道两旁树木病虫害的研究,从某棵树开始(起点), 每隔20棵树抽一棵进行检测 生产企业为了检查产品的质量,每隔2小时抽选若干产 品进行质量检查 有一叠发票,想要估计它的总金额以及某一类商品的 发票在总发票中占的比例,如果发票多,全面计量比 较麻烦,可以采取每隔10张抽1张进行观察的方法 农业上为估计农作物产量或病虫害危害情况,对一大 片农田每隔一定距离(例如纵横各10米)抽取一小块(例 如1/4m2)进行实际测量或调查 图书馆对图书借阅情况进行调查,在一堆按书名字母 排列的图书目录卡片中,每隔一定厚度(例如2cm)或 一定张数抽取一张卡片 ……
统计学专业必修课3学分 6

2013-7-4

Sy的缺点

(应用sy应注意的问题)

1、sy的效果依赖于调查者对总体特征的了解 ? 如果单元的排列存在周期性变化,而抽样者对此 缺乏了解或缺乏处理的经验,抽出的样本的代表 性就可能很差 2、方差估计比较复杂 ? 原因:一般Sy的方差没有抽样设计意义下的无偏 估计量,在很多实践中都不是严格的概率抽样— —伪随机

2013-7-4

统计学专业必修课3学分

7

CH8内容体系
§8.1 抽样方式——理论知识掌握的重点 ? 介绍sy的基本思想、sy样本抽选的基本方式、总体单 元的排序、有序排列(线性排列)下的sy ? 拓展:sy与cl和st的比较 §8.2 等概率sy估计量及其方差 ? 估计量的定义及其性质,介绍估计量方差的几种表现 形式,各表现形式中具体涉及到的方差不同 §8.3 估计量方差的样本估计 ? 介绍6种估计量方差的样本估计方法 §8.4 进一步讨论的问题 ? 掌握一个基本结论:对于周期性变化的趋势总体如何 确定抽样间隔
2013-7-4 统计学专业必修课3学分 8

CH8两个特点
1、sy样本的抽选方法非常丰富 ? 要区分不同特征的总体,进行不同的sy抽样 2、方差估计的内容丰富 ? 方差估计的方法比较多

2013-7-4

统计学专业必修课3学分

9

§8.1 抽样方式
? Sy的样本抽选方式 ? 基本方式 ?线性sy ?圆圈sy ? 有序排列下的sy样本抽选方式 ?中心sy ?对称sy
? Sethi的对称sy ? Sighn的对称sy

2013-7-4

统计学专业必修课3学分

10

一、sy的基本思想
?

(P169)

?

?

Sy的基本思想体现了实施sy的三个步骤: ? 1、排序 ? 2、随机抽取起始单元,即确定随机起点 ? 3、按某种确定的规则/规律抽取其他样本单元 引申出三个问题: ? 1、如何排序? ? 2、怎样确定起始单元? ? 3、按怎样的规则抽取其他样本单元? 对以上三个问题的不同回答给出不同的sy方法
2013-7-4 统计学专业必修课3学分 11

二、sy的基本方式
(一)线性sy (二)圆圈sy

2013-7-4

统计学专业必修课3学分

12

学习Sy抽选方式要注意方法间的继起关系
1、这种方法要解决什么问题? 2、基本做法 ? 如何排序 ? 怎样抽取起始单元 ? 按何种规则抽取其他样本单元 3、这种方法存在什么问题? 4、解决的思路 →新的抽选方法

2013-7-4

统计学专业必修课3学分

13

(一)线性sy/等距sy/直线等距sy
N—总体单元数,n—样本单元数 1、前提:N=nk,(k为整数) 2、方法 r r+k r+2k r+(n-1)k ? 排序、编号 N=nk 1 k 2k 3k …… ? 计算抽样间隔(sampling interval)k:k=N/n,(k为整数), 按k将N个单元划分为n段,每段包含k个单元 ? 随机抽取第一个样本单元:在[1,k]中确定随机数r
?

?

等间隔地抽取其他(n-1)样本单元:r+k,r+2k,……,r+(n-1)k

问题:①等距Sy的随机性体现在哪儿? N能被n整除时, 等距抽样是严 ——第一个单元的抽选 格意义下的等 ②这样可能得到的样本有多少个? 概率抽样 ——k个,每个样本中含有n个单元 ——各可能样本被抽中的概率均相同
2013-7-4 统计学专业必修课3学分 14

线性sy(续)
3、存在的问题 ? 如果N不能被n整除,即N≠nk,(k为整数)时,k一般 取N/n的整数部分[N/n],会造成什么后果呢? ? 这样导致k个可能样本的单元数不同 n个或n+1个 ? 后果:导致偏差,此时的估计量不是无偏估计量

2013-7-4

统计学专业必修课3学分

15

举例说明:
?

?
?

N=10,n=3,取k=3,则可能样本有3个,分别为: ①Y1,Y4,Y7,Y10 1 y1 ? (Y1 ? Y4 ? Y7 ? Y10 ) ②Y2,Y5,Y8 4 ③Y3,Y6,Y9 1 y2 ? (Y2 ? Y5 ? Y8 ) 其样本均值分别为: 3 所有可能样本均值 1 y3 ? (Y3 ? Y6 ? Y9 ) 的数学期望为 3
1 E ( y ) ? ( y1 ? y2 ? y3 ) ? Y 3

2013-7-4

统计学专业必修课3学分

16

4、改进的思路
?

为了使样本均值成为总体均值的无偏估计量,可采用 两种思路: ? 改变样本的抽选方法 ①圆形sy/循环等距sy ②修正的线性等距sy ? 修正估计量的形式

2013-7-4

统计学专业必修课3学分

17

(二)圆圈sy/循环等距sy
1952年,拉希里提出的 1、目的:解决因N不能为n整除而导致的样本均值非总体均值的 无偏估计的问题 2、做法: ? 排序:将N个单元排成首尾相接的圆 ? 取k=[N/n]或四舍五入 ? 在[1,N]中,确定一个随机起点r ? 沿着圆圈走向,每k个单元取一个,直到抽足n个为止 ? 这样获得的样本 ? 其包含的单元数 ——均为n ? 样本可能数目 ——有N个 ——N个可能样本被抽中的概率相等 ? 估计量无偏 3、缺陷:比较麻烦
?

2013-7-4

统计学专业必修课3学分

18

举例: 圆圈sy的所有可能样本及样本均值的期望
①Y1,Y4,Y7 ②Y2,Y5,Y8 ③Y3,Y6,Y9 ④Y4,Y7,Y10 ⑤Y5,Y8 ,Y1 ⑥Y6,Y9 ,Y2 ⑦Y7,Y10,Y3 ⑧Y8 ,Y1,Y4 ⑨Y9,Y2,Y5 ⑩Y10,Y3,Y6
2013-7-4

1 E( y ) ? ( y1 ? y2 ? ...? y10 ) 10 10 1 ? ( 3 ? ? Yi ) ? Y 30 i ?1

统计学专业必修课3学分

19

实践中
?

?

?

实践中,n通常比较大(n≥50),N则更大,所以,多 一个少一个无关紧要,因此通常不考虑N/n是不是整 数的问题。为了处理方便,一律假定N能被n整除 实践中也常用一种简单的处理办法,就是,把不能整 除多余出来的部分直接“扔掉”,这会使总体规模略 微缩减,但通常对估计效果的影响不大 所以,从这个角度也可以理解:
?

实践中的sy通常不是典型意义下的概率抽样,它有主观 性

2013-7-4

统计学专业必修课3学分

20

前面知识归纳
?

?

?

?

什么是sy?sy的三个核心点/步骤是什么? ? 排序 Sy样本 ? 确定起始单元 抽选方式 ? 按某种规则抽取其他样本单元 Sy的优点 ? 简便易行,表现在:抽样框简单,甚至不需要抽样框;非 专业人士极易操作,甚至比srs还容易操作 ? 样本单元在总体中的分布比较均匀,sy样本一般都具有较 好的代表性,尤其是在了解总体特征、有合适的辅助变量 的信息可以利用时,采用有序sy,可得到较高的估计精度 Sy的两个特殊问题/缺点 ? sy的效果依赖于调查者对总体特征的了解 ? 方差估计比较复杂(§8.3估计量方差的样本估计) Sy样本抽选的基本方式 ? 直线sy和圆圈sy

三、总体单元的排序
——回答“如何排序”的问题
总体各单元的排列顺序,与sy的结果有着密切的关系 ? 几种常见的排序情况: 1、总体单元随机排序——按无关标志排序/无序sy ? 即各单元的排序与所研究的目标量无关,比如 ? 城市住户调查中,按住户的登记顺序或姓氏笔画或门牌号 码等排序 ? 农产量调查中,总体单元按地理区域排序 ? 对学生的调查按学号排序等 ? 注意两点: ? 所谓“无关”:没有必然联系,即没有直接关系或关系很 小 ? 采用无关标志排序的总体实际上是一个随机总体,这时的 sy等同于srs ? 确定估计量形式和计算抽样误差时都可视同srs
?

2013-7-4

统计学专业必修课3学分

22

2、总体单元的排序与其目标量大小有关
——按有关标志排序/有序Sy
?

?

?

即排序标志与目标量有着密切的关系。比如: ? 农产量调查中,选择历史产量或历史产量的平均数为排序 标志 优点: ? 可充分利用总体的有关信息,使抽取的样本更具代表性, 减少抽样误差,提高抽样效率 ? 同时,可行性/可操作性也很强,因为我国现行的统计制 度可以提供各种有关标志排序的抽样框 两种主要类型: ? (1)周期性排序 ? (2)线性趋势排序
2013-7-4 统计学专业必修课3学分 23

(1)周期性排序
——呈周期性变化的总体的sy
? ? ?

?

?

即总体各单元的排序与目标量值有某种周期性的关系 此时,总体呈周期性波动态势,比如正余弦曲线的态势 如果不了解这种波动规律,而恰好选择的抽样间隔即周 期的长度,就会出现样本各单元的标志值都是各周期同 一相位上的数字,这个数字相同或比较接近 ? 比如,在对某商场日销售额进行sy估计时,如果抽样 间隔设定为7天,就会出现样本日销售额正好都是某 一天的情况 后果: ? 此时的sy样本对总体的代表性很差 处理方式: ? 抽样间隔选择半周期或半周期的奇数倍 ? 一些统计学家甚至认为:当怀疑某种现象的变动有周 期性的趋势时,不宜采用线性sy的方式
统计学专业必修课3学分 24

2013-7-4

(2)线性趋势排序
——呈线性趋势变化的总体的sy
?

?

?

当总体各单元的排序按某相关标志排序后呈现一种线性 趋势时,采用线性sy,已经证明: ? 其抽样估计精度虽优于srs,但不如st 原因: ? 对线性趋势总体,采用线性sy,可能会使所抽样本产 生一种“趋向性”偏差 处理方法: ? 在总体呈现这种“线性趋势”或“单调上升或单调下 降趋势”时,采用中心位置sy或对称sy,可以大大 改善sy的估计精度 nk
… 1 k 2k

2013-7-4

统计学专业必修课3学分

25

4、总体单元按某种“负相关”的趋势排序
——使线性sy估计精度最高的排序方式
?

具体有两种情况:
? ?

一种是总体各单位按某相关标志对奇数层顺排列而偶数层 反排列 一种是总体中前一半单位顺排列而后一半单位反排列

?

?

实际上,这种排列方式,会使得线性sy的估计精度 最高 后面将证明:对于这种负相关趋势排列总体采用线 性sy的效果与对线性趋势总体采用对称sy的效果完 全相同

2013-7-4

统计学专业必修课3学分

26

负相关排序举例
——从小到大排列时sy的效果
?

?

设某总体有N=32个单元,希望产生n=4的sy样本, k=N/n=8 第一种排列:总体单元的排列呈稳定上升的趋势—线性排列
sy样本编号 1 1 7 17 27
13

层/间隔 Ⅰ Ⅱ Ⅲ Ⅳ 平均
2013-7-4

总平均=17.34375 4 3 11 20 31 5 4 12 24 34 6 5 14 24 34
19.25

2 1 8 18 28
13.75

3 3 8 20 30

7 6 16 25 36
20.75

8 7 16 27 38
22
27

15.25 16.25 18.5
统计学专业必修课3学分

负相关排序举例
——奇数层顺排列而偶数层反排列
? ?

设某总体有N=32个单元,希望产生n=4的sy样本,k=8 第二种排列:奇数层顺排列而偶数层反排列
层 Ⅰ Ⅱ Ⅲ Ⅳ 平均 sy样本编号 1 1 16 17 38
18

总平均=17.34375 4 3 12 20 34 5 4 11 24 31 6 5 8 24 30
16.75

2 1 16 18 36
17.75

3 3 14 20 34

7 6 8 25 28
16.75

8 7 7 27 27
17

17.75 17.25 17.5

2013-7-4

统计学专业必修课3学分

28

负相关排序举例
——前一半顺排列而后一半反排列
? ?

设某总体有N=32个单元,前一半顺排列而后一半反排列 希望产生一个n=4的sy样本
层 sy样本编号 1 2 3 4 总平均=17.34375 5 6 7 8


Ⅱ Ⅲ Ⅳ 平均

1
7 27 38
18.25

1
8 25 36
17.5

3
8 24 34
17.25

3
11 24 34
18

4
12 20 31
16.75

5
14 20 30
17.25

6
16 18 28
17

7
16 17 27
16.75
29

2013-7-4

统计学专业必修课3学分

结论
? 直观的结论: ? 负相关排序后进行线性sy的效果要明显优于对线性趋势 总体直接进行线性sy的效果 ? 后面会进一步说明: ? 对线性趋势总体直接实施线性sy,效果优于srs但不如st ? 区分奇数偶数层的负相关排序方式的效果等同于Sethi的 对称sy,效果要好于st ? 区分前后部分的负相关排序方式的效果等同于Singn的对 称sy,效果优于st,与Sethi的效果相近 ? 负相关排序的举例给我们启示: 2 ? Sy的精度不仅取决于总体各单元的差异(S ),更取决于 总体的性质以及总体单元的排序方式。不同的单元排列 顺序会产生不同的估计量的方差 ? 社会实践中,变量取值呈线性趋势波动的现象尤其多 ? 所以,专门对线性趋势总体下的sy或称为有序排列下的sy进 行研究非常重要
2013-7-4 30

统计学专业必修课3学分

四、有序排列下的sy
(线性趋势总体下的sy)
?

研究的问题:
?

对线性趋势总体如何改进sy的效果

2013-7-4

统计学专业必修课3学分

31

对线性趋势总体的sy法的改进思路
?

改进的思路:
?

?

改进抽样方法 ? (二)中心位置sy法 ? (三)对称sy法 ? Sethi的对称sy ? Singn的对称sy 改进估计方法 ? (一)首尾校正法 ? Yates法 ? Bellhouse&Rao法
统计学专业必修课3学分 32

2013-7-4

(一)首尾校正法
?

?

是通过改进估计方法,以达到校正对线性趋 势总体直接进行线性sy的估计效果的目的 做法:
?

对首尾两个样本单元赋予不同于其他单元的权数, 从而降低线性趋势总体sy抽样估计的偏倚 ? Yates法(1948)主要用于N能被n整除的情形 ? Bellhouse & Rao法(1975)应用于N不能被n 整除的情形

2013-7-4

统计学专业必修课3学分

36

Yates首尾校正法
?

?

前提: ? N=nk,(k为整数) ? 线性排序,线性sy 假设起始单元编号为r,则 ? 首样本单元的权数 ? 尾样本单元的权数 ? 其他n-2个样本单元的 权数 yr ? 均值估计量为

1 2r ? k ? 1 ?1 ? ? n 2( n ? 1 )k
1 2r ? k ? 1 ?n ? ? n 2( n ? 1 )k
1 ωj ? (j ? 2,...,n? 1 ) n

? ? ? j yrj
j ?1
37

n

2013-7-4

统计学专业必修课3学分

Bellhouse & Rao首尾校正法
? ? ?

N≠nk,(k为整数) 用圆圈sy保证n为常数 做法:
?

?1 ?

1 2r ? (n - 1)k ? ( N ? 1 ) ? n 2( n ? 1 )k

?

如果起始单元编号r比较小, 满足r+(n-1)k≤N,则 ? 首样本单元的权数 ? 尾样本单元的权数 ? 其他n-2个单元的权数 ? 均值估计量为
2013-7-4

按总体单元原有顺序确定首 尾单元,对其赋予不同于其 ?n ? 1 ? 2r ? (n - 1)k ? ( N ? 1 ) 他单元的权数 n 2( n ? 1 )k

1 ωj ? (j ? 2,...,n? 1 ) n

yr ? ? ? j yrj
j ?1
38

n

统计学专业必修课3学分

Bellhouse & Rao法(续)
?

?

N 如果起始单元编号r比较 2r ? (n - 1)k ? ( N ? 1 ) ? 2n2 1 n 大,导致r+(n-1)k>N, 1 ? ? ? n 2( N ? k ) 则有样本单元越过单元 N抽取 N 假设越过N号单元抽取 2r ? (n - 1)k ? ( N ? 1 ) ? 2n2 1 n 的样本单元数为n2个, ?n ? ? n 2( N ? k ) 相应的权数设置为 ? 首样本单元的权数 1 ωj ? (j ? 2,...,n? 1 ) ? 尾样本单元的权数 n ? 其他n-2个样本单元 n 的权数 yr ? ? j yrj ? 均值估计量为

?
j ?1

2013-7-4

统计学专业必修课3学分

39

nk

(二)中心sy法
1
?

… k 2k

?

?

对线性趋势总体,起始单元的位置会直接影响整个样本的代 表性 为提高抽样效率,Madow(1953)建议用中心sy法 ? 初始单元不是随机抽选,而是直接取第一段k个单元中处 于中间位置的单元 ? 而后依次取各组中心位置所在的单元入样 ? 这样取到的样本称为中心系统样本 评价: ? 对线性趋势总体,中心sy优于线性sy,确实可提高精度 ? 但是,这样的sy样本失去了随机性 ? 因为对于按一定顺序排列的总体,中心系统样本是确 定的、唯一的,彻底失去了随机性
统计学专业必修课3学分 40

2013-7-4

(三)对称sy法
?

? ?

包括: ? Sethi对称sy:平衡sy法/分组对称sy法 ? Singn对称sy:修正sy法/总体对称sy法 两种方法的做法不同,效果也有差异 对线性趋势总体,对称sy有助于提高sy的代表性,其 效果优于线性sy和圆圈sy

2013-7-4

统计学专业必修课3学分

41

1、Sethi对称sy法
平衡sy法/分组对称sy法
? ?

Sethi(1965)提出的,是组内对称sy 讨论前提: ? N=nk,(k为整数) ? 分n为偶数和n为奇数两种情况讨论: ? n为偶数,将总体分为n/2段,每段含2k个单元,在 各段内随机选择与两端等距的两个单元为样本单元
1
?

2k

4k

6k

8k

nk

n为奇数,按以上操作后,再增加靠近终端的一个单 元
2k 4k 6k 8k (n-1)k nk

1

2013-7-4

统计学专业必修课3学分

42

2、Singn对称sy法
修正sy法/总体对称sy法
? ?

Singn(1968)提出的,是总体对称系统抽样 讨论前提: ? N=nk,(k为整数) ? 分n为偶数和n为奇数两种情况 ? n为偶数,每2个单元都与总体两端等距
1 k 2k
?

nk

n为奇数,每2个单元都与总体两端等距,再增 加靠近中间的一个单元
1 k nk

2013-7-4

统计学专业必修课3学分

43

总结:
无明显的线性趋势 N=nk (k为整数)

线性Sy,简单估计
中心Sy,简单估计

有明显的线性趋势 大样本

线性Sy,Yates估计

同N=nk(k为整数)处理 无明显的线性趋势

N≠nk (k为整数)

小样本

圆圈Sy,简单估计 有明显的线性趋势 圆圈Sy,Bellhouse&Rao估计

2013-7-4

统计学专业必修课3学分

44

§8.1小结
? ? ? ?

?

Sy的含义、优缺点 Sy样本抽选的基本方式 Sy总体单元的排序方法 线性趋势总体sy的改进: ? 首尾校正法 ? 中心sy法 ? 对称sy法 思考:sy与cl和st的关系

2013-7-4

统计学专业必修课3学分

45

拓展——Sy、CL、st的关系
一、相似或有联系之处
?

1、基本做法上有些相似的地方,比如都需要首先 对总体进行处理,sy需要先排序,cl需要先分群, st需要先分层。这些排序、分群、分层都要依据某 一辅助变量 2、Sy可以看作将总体分k群,从中随机抽取1群的 特殊的cl;也可看作将总体分n层,每层的同一个 位置上取一个样本单元的特殊的st 3、三者都有组织实施便利的优点
46

?

?

2013-7-4

统计学专业必修课3学分

Sy、CL、st的关系(续)
二、有差异之处 1、排序原则、分群原则、分层原则上有差异,从而辅助变 量的选取也有差异。相比较而言,sy排序标志选择 起来比较灵活,而cl、st辅助变量的选择就需慎重 2、实际应用的时候,三种方法看重的优势不同
?

? ?

?

Sy主要看重其简单易行、通常样本代表性也比较高(至 少能达到srs的效果)的优势 cl主要看重其抽样框编制简单,组织实施便利的优势 st主要看重其能有效提高估计精度的优势,便于子总 体的估计等 从精度上来说,st、sy一般都要优于srs,但cl往往比 srs差
统计学专业必修课3学分 47

2013-7-4

Sy、CL、st的关系(续)
三、特殊的效果 ? 1、对一些特殊结构的群体,如性别比例、职称结构、职务结构、 年龄结构等问题,以户或单位为抽样单元进行cl效果更好,在这些 问题上,户或单位对总体比个人代表性更高 ? 2、St应用于总体单元标志值离散度较大的情形更有效 ? 3、Sy更多地应用于非专业人士组织的调查 四、在需要避免的问题上也有差异 ? 1、Sy只有N能被n整除时,采用直线等距sy获得的才是严格的等概 率sy,这在现实中很难做到,所以,sy的方差估计比较复杂,没有 抽样设计意义下的方差的无偏估计 ? 2、另外,Sy更需要多关注总体的特征,比如对于线性趋势总体, 不能简单的用直线等距抽样、简单估计,更应考虑中心位置sy或对 称sy,或者考虑首尾校正估计法;对周期性波动总体,要尽量掌握 周期的规律性,避免选择的抽样间距与周期的长度或周期的偶数倍 相吻合,应尽量选择半周期或半周期的奇数倍为抽样间隔。因此, sy抽样方法体系更为丰富,除了一般的抽选方法外,还针对特征不 同的总体有不同的sy样本抽选方法 ? ……
§8.1结束
2013-7-4 统计学专业必修课3学分 48

§8.2 等概率sy:估计量及其性质
本节讨论的是最简单的Sy: ?N=nk , (k为整数) ?实施线性sy ?在此前提下,Sy是一种严格意义下的概率抽样, 而且是等概率抽样
?

2013-7-4

统计学专业必修课3学分

49

§8.2的内容体系
? ?

一、估计量 二、估计量的方差 ? 估计量方差的不同表示形式 ? 理论公式 ? 把握估计量方差的理论公式 ? 三种具体公式

2013-7-4

统计学专业必修课3学分

50

符号说明
?

总体有N=nk个单元,按线性sy法抽取n个单元形成样本, 共有k个可能样本(每行是一个可能样本)
j r 1 2 … r … k
2013-7-4

1 Y11 Y21 … Yr1

2 Y12 Y21 … Yr2

… … … …

j Y1j Y2j Yrj



n Y1n Y2n Yrn

Yk1

Yk2

Ykj
统计学专业必修课3学分

Ykn
51

方差与相关系数
?

总体方差S2

1 k n S2 ? (Yrj ? Y ) 2 ?? N ? 1 r ?1 j ?1

?

Sy样本(群)内方差Swsy2
2 S wsy k n 1 1 k 1 n ? ( yrj ? yr ) 2 ? ?[ ( yrj ? yr ) 2 ] ?? ? k (n ? 1) r ?1 j ?1 k r ?1 n ? 1 j ?1

?

Sy样本(群)内相关系数

? wsy ?
2013-7-4

E (Yrj ? Y )(Yru ? Y ) E (Yrj ? Y ) 2
52

统计学专业必修课3学分

方差与相关系数(续)
? ?

层内方差Swst2 上表中每列是一个层

2 S wst

k n 1 ? ( yrj ? y. j ) 2 ?? n(k ? 1) r ?1 j ?1

1 n 1 k ? ?[ ( yrj ? y. j )2 ] ? n j ?1 k ? 1 r ?1

?

同一Sy样本内对层均值离差的相关系数

? wst ?
2013-7-4

E (Yrj ? Y. j )(Yru ? Y. j ) E (Yrj ? Y. j ) 2
统计学专业必修课3学分 53

一、估计量
?

?

假设起始样本单元为r,即选中 了第r个可能样本(表中第r行) 则系统样本的样本平均数 (即表中的行均值) 取Sy样本平均数为总体均值的估 计量

1 n yr ? ? yrj n j ?1

?

1 n ??y ?y ? Y ? yrj sy r n j ?1
54

2013-7-4

统计学专业必修课3学分

估计量的无偏性
?

1 n yr ? ? yrj n j ?1

当N=nk,(k为整数)时, yr 是无偏估计量

1 k n 1 k E ( yr ) ? ? yr ? ?? yrj ? Y kn r ?1 j ?1 k r ?1
?

当N≠nk,(k为整数)时, yr 是有偏估计量 ? 当N和n都比较大时,其偏倚不会太大,可忽略不计 ? 如果采用圆圈sy,估计量是无偏的 ? 还可以修正估计量形式使其达到无偏 nr

k y ? N
* sy

?y
j ?1

rj

2013-7-4

统计学专业必修课3学分

55

二、估计量的方差
?

?

讨论本问题的目的不在于进行Sy方差的计算,而 在于讨论Sy与srs、str相比的效果 讨论的前提: ? N=nk,(k为整数) ? 实施线性sy ? 以Sy样本平均数作为总体均值的无偏估计量

1 n ysy ? yr ? ? yrj n j ?1
2013-7-4

E( ysy ) ? Y
56

统计学专业必修课3学分

方差的理论公式
?

1 k 2 V ( ysy ) ? ? ( yr ? Y ) k r ?1
1 k ? ? ( yr ? Y ) 2 k r ?1

V ( ysy ) ? E[ ysy ? E( ysy )]2 ? E( yr ? Y )2

?

?

这是方差的定义,是对所有可能样本的均值对总体均值的离差平 方取平均 注:这是方差的理论公式,不能用它计算估计量的方差。理由: ? 实际抽样只是抽到了k个可能样本中的一个 ? 总体均值未知 理论公式的意义: ? 在已知总体背景的前提下,借助理论公式可以计算出sy的抽 样误差 ? 由理论公式还可导出三种不同的方差表示形式,由此可对Sy 的效果进行分析说明
2013-7-4 统计学专业必修课3学分 57

方差表示形式1

(P177 8.18) ——用样本(群)内方差Swsy2表示的形式
N ? 1 2 k (n ? 1) 2 S ? S wsy N N

V ( y sy ) ?

1 k n S ? (Yrj ? Y ) 2 ?? N ? 1 r ?1 j ?1
2

S
? ? ?

2 wsy

k n 1 ? ( yrj ? yr ) 2 ?? k (n ? 1) r ?1 j ?1

直观上理解:总体方差-样本内方差=样本间方差 这正是Sy估计量方差理论上的含义 此公式的导出与总离差平方和的分解密切相关
2013-7-4 统计学专业必修课3学分 58

方差表示形式1的推导
( N ? 1) S ? ?? ( yrj ? Y )
2 r ?1 j ?1 k n 2

? ??[( yrj ? yr ) ? ( yr ? Y )]2
r ?1 j ?1

k

n

? ?? ( yrj ? yr ) ? ?? ( yr ? Y ) ? 2?? ( yrj ? yr )( yr ? Y )
2 2 r ?1 j ?1 r ?1 j ?1 r ?1 j ?1

k

n

k

n

k

n

? k (n ? 1)S

2 wsy

? n? ( yr ? Y ) ? 2? ( yrj ? yr )[? ( yr ? Y )]
2 r ?1 r ?1 j ?1

k

k

n

移项 变形

? k (n ?1)S

2 wsy

? nkV( ysy )
2 S wsy k n 1 ? ( yrj ? yr ) 2 ?? k (n ? 1) r ?1 j ?1

V ( y sy ) ?
2013-7-4

N ? 1 2 k (n ? 1) 2 S ? S wsy N N

统计学专业必修课3学分

59

用方差表示形式1进行效果分析
N ? 1 2 k (n ? 1) 2 V ( ysy ) ? S ? S wsy N N n ?1 2 V ( ysrs ) ? V ( y sy ) ? ( S wsy ? S 2 ) 1? f 2 1 1 2 n V ( ysrs ) ? S ? ( ? )S n n N ? 当Swsy2 > S2时,Sy优于srs 2 2 ? 当Swsy < S 时,Sy不如srs ? 当Swsy2 = S2时,Sy与srs效果相同 2 ? 对于同一研究对象,S 是参数,唯一确定,所以, Swsy2越大,Sy精度越高 ? 所以,为了提高Sy的精度,总体单元的排序应尽 可能的提高样本内方差Swsy2 ——有序Sy
2013-7-4 统计学专业必修课3学分 60

方差表示形式2
——用样本(群)内相关系数ρ
S 2 N ?1 V ( ysy ) ? [1 ? (n ? 1) ? wsy ] n N
?

P178
wsy表示的形式

? wsy ?

E (Yrj ? Y )(Yru ? Y ) E (Yrj ? Y ) 2

?

将Sy看作特殊的CL,总体分为k个群,每群包含n个单元, srs抽取1个群进行CL抽样 1? f 2 群规模相等的均值估计量的方差 V ( y ) ? nM S [ 1 ? ( M ? 1 )? ]
1 ? f AM ? 1 2 V ( y) ? S [1 ? ( M ? 1) ? ] 2 n M ( A ? 1)

n=1,A=k

ysy

n N

n N

S 2 N ?1 V ( ysy ) ? [1 ? (n ? 1) ? wsy ] n N

2013-7-4

统计学专业必修课3学分

61

用方差表示形式2的效果分析
S 2 N ?1 V ( ysy ) ? [1 ? (n ? 1) ? wsy ] n N 1? f 2 N ? n 2 V ( ysrs ) ? S ? S n nN
?

V ( ysy ) V ( ysrs )

? 1 ? (n ? 1) ? wsy

n足够大

?

特殊点的讨论: ? 当ρ =1,Deff=n,Sy不如srs ? 当ρ >0,1<Deff<n,Sy不如srs ? 当ρ =0,Deff=1,Sy与srs等效 ? 当-1/(n-1)<ρ <0,0<Deff<1,Sy优于srs Sy样本内单元间有较小的负相关,Sy效果较好
统计学专业必修课3学分 62

2013-7-4

方差表示形式3
——用层内方差Swst2和同一Sy样本内对层均值离 差的相关系数ρ wst表示的形式
2 S wst N ? n 1? f 2 V ( ysy ) ? [1 ? (n ? 1) ? wst ] ? S wst [1 ? (n ? 1) ? wst ] n N n
k n 1 ? ?? ( yrj ? y. j )2 n(k ? 1) r ?1 j ?1

S
? ?

2 wst

? wst ?

E (Yrj ? Y. j )(Yru ? Y. j ) E (Yrj ? Y. j ) 2

?

将Sy看作特殊的st,总体N个单元分为n层,每层包含k个 单元,在每层的固定位置上抽1个单元 特殊点的讨论: ? 当0<ρ wst<1,1<Deff<n,Sy不如str ? 当ρ wst=0,Deff=1,Sy与str等效 ? 当-1/(n-1)<ρ wst<0,0<Deff<1,Sy优于str 希望同一Sy样本内各单元对层均值的相关系数为负
2013-7-4 统计学专业必修课3学分 63

补例1
?

设某总体有N=32个单元。要产生一个n=4的线性sy样本, 将总体单元排列成下表
等距样本编号
1 1 2 1 3 3 4 3 5 4 6 5 7 6 8 7 3.75

层 号


层均值


Ⅲ Ⅳ ∑ 均值
? ? ?

7
17 27 52
13

8
18 28 55
13.75

8
20 30 61
15.25

11
20 31 65
16.25

12
24 34 74
18.5

14
24 34 77
19.25

16
25 36 83
20.75

16
27 38 88
22

11.5
21.875 32.25 555
17.34375

总体单元排列有稳定的上升趋势 每行是一层,可以计算层均值 n=4,k=8,每一列都是一个线性sy样本,共8个,可以计 算各样本均值

层 号


等距样本编号
1 1 2 1 3 3 4 3 5 4 6 5 7 6 8 7

层均值
3.75


Ⅲ Ⅳ ∑ 均值
? ?

7
17 27 52
13

8
18 28 55
13.75

8
20 30 61
15.25

11
20 31 65
16.25

12
24 34 74
18.5

14
24 34 77
19.25

16
25 36 83
20.75

16
27 38 88
22

11.5
21.875 32.25 555
17.34375

?

这是一个典型的直线等距抽样的模式 排序增加了样本内方差,所以sy必然优于srs 层内有正相关。因为,每层前4个单元观测值与层均 值的离差都是负数,后4个单元与各层均值的离差都 是正数,每个可能样本的6个离差乘积都为正(ρ wst 的分子为正),所以,ρ wst>0,此时,sy精度低于 str

层 号 Ⅰ Ⅱ Ⅲ Ⅳ ∑ 均值

等距样本编号 1 1 7 17 27 52 13 2 1 8 18 28 55 13.75 3 3 8 20 30 61 15.25 4 3 11 20 31 65 16.25 5 4 12 24 34 74 18.5 6 5 14 24 34 77 19.25 7 6 16 25 36 83 20.75 8 7 16 27 38 88 22

层均值 3.75 11.5 21.875 32.25 555 17.34375

1 k V ( ysy ) ? E ( ysy ? Y ) ? ? ( yr ? Y ) 2 ? 9.452 k r ?1 1? f 2 N ? n 2 N ? n 4 N ?n 1 4 2 2 V ( yst ) ? Sw ? Sw ? ?Wh Sh ? Nn ? 4 ? Sh n Nn Nn h?1 h ?1 N ?n 1 4 1 k 32 ? 4 2 ? ? ?( ? (Yrj ? Y? j ) ) ? 32? 4 ?11.5 ? 2.516 Nn 4 h?1 k ? 1 j ?1
2

1? f 2 N ? n 2 V ( ysrs ) ? S ? S n Nn N ?n 1 k n 32 ? 4 ? (Yrj ? Y ) 2 ? ?129.5232? 28.333 ?? Nn N ? 1 r ?1 j ?1 32? 4

补例2
?

Sethi的 对称sy
等距样本编号 层均值 6 5 7 6 8 7 3.75

还是补例1的数据,将第2层和第4层的观测值逆序排列

层 号 Ⅰ

1 1

2 1

3 3

4 3

5 4


Ⅲ Ⅳ ∑ 均值
? ?

16
17 38 72
18

16
18 36 71
17.75

14
20 34 71
17.75

12
20 34 69
17.2 5

11
24 31 70
17. 5

8
24 30 67
16.75

8
25 28 67
16.75

7
27 27 68
17

11.5
21.875 32.25 555
17.34375

8个可能样本均值的离散度明显低于补例1,sy的效果肯定优于前 者 各等距样本内数据与层均值的离差有正有负,而且6个离差中大约 有4个为负,基本可以确定离差乘积和为负,所以, ρ wst<0 ,此时, sy优于str

层 号 Ⅰ Ⅱ Ⅲ Ⅳ ∑ 均值

等距样本编号 1 1 7 17 27 52 13 2 1 8 18 28 55 13.75 3 3 8 20 30 61 15.25 4 3 11 20 31 65 16.25 5 4 12 24 34 74 18.5 6 5 14 24 34 77 19.25 7 6 16 25 36 83 20.75 8 7 16 27 38 88 22

层均值 3.75 11.5 21.875 32.25 555 17.34375

1 k V ( ysy ) ? E ( ysy ? Y ) ? ? ( yr ? Y ) 2 ? 0.202 <<9.452 k r ?1 1? f 2 N ? n 2 N ? n 4 N ?n 1 4 2 2 V ( yst ) ? Sw ? Sw ? ?Wh Sh ? Nn ? 4 ? Sh n Nn Nn h?1 h ?1 N ?n 1 4 1 k 32 ? 4 2 ? ? ?( ? (Yrj ? Y? j ) ) ? 32? 4 ?11.5 ? 2.516 Nn 4 h?1 k ? 1 j ?1
2

1? f 2 N ? n 2 V ( ysrs ) ? S ? S n Nn N ?n 1 k n 32 ? 4 ? (Yrj ? Y ) 2 ? ?129.5232? 28.333 ?? Nn N ? 1 r ?1 j ?1 32? 4

补例的说明
?

?

这两个例子说明了总体单元排序对于Sy抽样结果的影 响 这是一个近似线性趋势总体
? ?

补例1是按从小到大的顺序排列 补例2实际上是Sethi的对称Sy
?

对线性趋势总体,这种方法可有效地改进sy样本对总体的代表 性

?

结论:相对于str和srs来说,sy的效率在很大程度上 取决于总体性质。即使是相同的总体数据,对于不同 的单元排列顺序,就会有不同的样本(群)内方差或相 关系数,从而sy估计量的方差就会不同。因此,要有 效地应用sy,必须对总体的性质有所了解
统计学专业必修课3学分 70

2013-7-4

作业
? ? ?

思考:P179 8.1、8.3、8.4、8.5 作业:P214 8.2 补充题:
?

?

?

假设某总体,相应标志值排列顺序为1,2,3,4, 5,6,7,8,9,10,11,12,13,14,15. (1)考虑n=3的线性sy,计算sy的实际方差,与样 本量相同的srs进行比较 (2)若要求抽样间隔k=4,样本均值是否是总体均 值的无偏估计?它在何时有偏?何时无偏?
§8.2结束

2013-7-4

统计学专业必修课3学分

71


更多相关文档:

高中数学:第一章1.2.2分层抽样和系统抽样 课时训练 (北...

高中数学:第一1.2.2分层抽样和系统抽样 课时训练 (北师大必修3))_高中...甲厂 8 台,乙厂 5 台 C、甲厂 10 台,乙厂 4 台 D、甲厂 8 台,乙...

...版必修三)第二章 2.1.1 简单随机抽样和系统抽样(含...

高中数学课时训练(人教版必修三)第二2.1.1 简单随机抽样和系统抽样(含答案)_数学_高中教育_教育专区。高中数学人教A版必修三课时训练(含答案) ...

(人教b版)数学必修三练习:2.1.2系统抽样(含答案)

(人教b版)数学必修三练习:2.1.2系统抽样(含答案)_数学_高中教育_教育专区。...[答案] 8 [解析] 抽样距为 4,第一个号码为 004,故 001~100 中是 4 ...

必修3同步练习题1.2.2分层抽样与系统抽样(含答案)

必修3同步练习题1.2.2分层抽样与系统抽样(含答案)...写出抽取过程. [解析] 第一步:分层:按城区分为四...1~160 编号,按编号顺序平均分 成 20 组(1~8 ...

【优化设计】2015-2016学年高中数学 2.1.2系统抽样课后...

系统抽样知,每段中有 8 人,第 16 段应为从 121 到 128 这 8 个号码...21,27,33,39,45,51,57 7.高三(1)班共有 56 人,学号依次为 1,2,3,?...

...必修3高中数学《2.1.2 系统抽样》教案(精品)

2016-2017学年新人教A版 必修3高中数学《2.1.2 系统抽样》教案(精品)_高二...随机抽样的方法,从第一组 5 名学生中 抽出一名学生, 不妨设编号为 k(1≤k...

2017版高考数学一轮复习 第十章 统计、概率 第1讲 随机...

2 解析 (1)由题意知,样本容量为(3 500+4 500...采用系统抽样的方法从中 抽取 150 袋检查,若第一...z 解析 依题意我们知道二年级的女生有 380 人, ...

第十章第1讲随机抽样

抽签法和随机数法. 2.系统抽样 (1)步骤:①先将...n n ③在第 1 段用简单随机抽样确定第一个个体编号...z 解析:由题意可知 x=1 000×0.12=120, 所以...

...1.2.2 分层抽样与系统抽样课后作业 北师大版必修3

系统抽样方法抽取,则抽样距为( A.10 C.1 000 答案:C 4.要从已经编号(1 ...43 C.1,2,3,4,5 D.2,4,8,26,32 解析:由已知得抽样距为 k==10,再...

反应原理第1,2节测试题

反应原理第1,2节测试题_理化生_高中教育_教育专区...和空间运输系统.实验测得 101kPa 时, 1 molH2 ...无法确定—1 ) 8.如图所示装置中,通电后可观察到...
更多相关标签:
系统抽样 | 系统抽样法 | 系统随机抽样 | 系统抽样ppt | 系统抽样的优缺点 | 贸易信贷抽样调查系统 | 分层抽样和系统抽样 | 系统抽样教案 |
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com