Professional Documents
Culture Documents
第7章 其它抽样方法
第7章 其它抽样方法
第一节 样本轮换
第二节 双重抽样
第三节 随机化装置
问题提出
时间序列数据以及随后出现的面板
数据都是经济统计分析和计量分析中非常重
要的数据类型。当我们在研究应该应用什么
统计和计量的方法去分析既定的时间序列数
据时,是否考虑过以下几个问题?
时间序列数据是如何产生的?
所产生的时间序列数据是否准确?
如何让时间序列数据更加准确?
随着社会经济现象的不断变化和发展,很
多调查对象的总体也在不断变化和发展。为了能够
及时反映调查总体的这种变化和发展,调查部门就
需要对同一总体在不同时间上进行连续性抽样调查
(Successive Sampling Survey ) ,并定期公布调查结
果,形成一系列时序统计数据。因此,社会经济抽
样调查一般都应该是连续性的定期调查。
一次性抽样调查与截面数据
连续性抽样调查与时间序列数据及面板数据
第一节 样本轮换
抽样调查除了对总体的一次性抽样以外,很多重要
的调查是隔一段时间重复进行的 , 对于这种经常性的抽样
问题,就必须重视其样本轮换问题的研究。
对于样本轮换问题,我们至少应考虑以下问题:每次
调查的样本如何组成?是采用固定样本还是采用全新的样
本,或者是部分保留部分替换,即样本轮换;在估计后期
的总量或均值时,是否需要利用前期的信息来改进现期的
估计,以及如何利用;如果采用样本轮换的方法,如何确
定最优的保留比例或替换比例。
连续性抽样设计方法
按抽取样本的不同划分
二、样本轮换的最优比例
第一个时期采用有放回简单随机抽样方式抽出样本量为 n
的样本;在第二个时期采用有放回简单随机抽样方式选出
样本量为 nq 的旧有样本点以便替换掉,即保留的样本量
为 np ,保留样本的比例为 p ,同时独立地依有放回简单
随机样本方式补充新的 nq 个新样本点,这里 p+q=1 ,这
样第二个时期的样本量仍旧为 n 。设:
第一节 样本轮换
x 为第一个时期与第二个时期相同的 np 个单元在第一
个时期的均值。
x 为第一个时期 nq 个单元在第一个时期的均值。
x
y 为 np 个单元在第二个时期的样本均值。
y 为 nq 个补充单元在第二个时期的样本均值。
ρ为 x y
和 之间的相关系数。
如果希望估计第二个时期的样本均值并充分利用第一个
时期的信息,令该估计量为 yw ,那么它应该是充分利用前后
期中保留样本、不保留样本和后期新补充样本的加权平均数。
第一节 样本轮换
yw
设我们希望得到的估计量 是两期估计量的线性函数,
即
yw x x y y
= a +b +c + d ( 7.1 )
要求估计其参数 a , b , c , dy。
x x X y Y
yw E (
因为 )X
=E ( )Y= yw
,E( )Y
=E ( )= ,
所以 E ( ) = ( a+b ) + ( c+d ) 。要使 成为 的
无偏估计量,需 a+b=0 , c+d=1 ,也即 b=-a , d=1-c 。代入
yw
( 7.1 ),有
x x y y
第一节 样本轮换
该估计量的方差可以求得为:
c (1 c) 2ac x y
2 2
2 1 1
2 2 x
2
y y
V ( yw ) a ( ) .
x
. .
q p n p n q n p n
2
2
其中 x 是第一个时期的方差, y 是第二个时期的方差。我
们要求出 a 和 c ,使得V ( yw ) 达到最小,就要以上公式分别对
a 和 c 求偏微分并使之等于 0 ,即可求出 a 和 c 的最优值分别为:
第一节 样本轮换
该估计量的方差可以求得为:
pq y
a .
1 q x
2 2
第一节 样本轮换
y pq p q (1 q )
2
( x x) y y
x
yw
x 1 q
2 2
1 q
2 2
1 q 2 2
该估计量的方差为 :
1 2q
2
y
V ( yw )
n 1 q
2 2
第一节 样本轮换
如果不利用前期信息,只根据第二期的结果来估
计均值,那么 :
y py qy
其方差为 :
2
y
V (y)
n
第一节 样本轮换
故利用前期信息后的设计效果为 :
V ( yw ) 1 2q
x
V (y) 1 2q2
从上式可以看出,当 ρ 的值比较大时,利用上期信
yw
息可以较大地提高 的效率。表 7.1 给出了不同的
q ,Vρ
( y值时
w) V (y) 的值。
第一节 样本轮换
表 7.1 V ( yw ) V ( y )
不同的 q , ρ 值时 的值
x
若对上式关于 q 求偏导,并使之等于 0 ,那么便
可得到最优轮换比:
第一节 样本轮换
三、样本轮换方法
(一) 随机轮换法
x
在进行轮换时按确定的轮换单位数目或比例,从原有样本
中随机抽出若干单位不再调查,而从其余未包括在样本中的总
体单位中抽取同样数目的单位来代替。
第一节 样本轮换
(二) 等距轮换法
在总体抽样框中确定出各个等距抽样的样本,在各次的调
x
查中,按相应位置的等距样本单位进行轮换。我国农村住户调
查就是采用这种轮换方式。
(三) 子样本轮换法
从总体中抽出若干套子样本,每次调查一定数量的子
样本,逐次轮换其中的部分子样本。
第一节 样本轮换
子样本轮换实际上就是每次采用交叉子样本,而交叉子
x
样本不仅能有效地减少和控制估计偏差,而且由于每个交叉
子样本都能代表总体,即使有的子样本资料搜集不到,我们
也可以用其他的子样本甚至一个子样本来观察和推断总体。
此外,用交叉子样本还可以考察非抽样误差发生的程度。因
此,一般来说,子样本轮换方法是以上三种样本轮换方法中
最好的。
第一节 样本轮换
五、案例介绍
美国人口现状调查( current population survey ,
x
CPS )是国际上最著名的抽样调查项目之一,已经成为美国以
及许多国家进行居民调查的参考模型,其实施是在每个月包含
19 号的那一周进行,调查的问题涉及受访者此前一周内的活动。
调查氛围覆盖全美 50 个州和哥伦比亚地区。 CPS 采用的就是样
本轮换的方法,即每位受访者连续 4 个月接受访问,然后退出
样本, 8 个月后再进入样本,连续 4 个月接受访问,最后永久
地退出样本。
第一节 样本轮换
CPS 在 1995 年 7 月的抽样设计方案中样本轮换的特征:
1 . 在任意一个月内,都有 1/8 的住户单元第一次接受调查,
1/8 的住户单元第二次接受调查,依次类推。
2 .每个月都由新的样本组代替从样本中永久退出的老样本
x
组。
3 . 每个月都有一个样本组在闲置 8 个月后重新接受调查,
以此代替刚刚进入闲置期的样本组。
4 .通过轮换设计,保证每个样本单元在 2 个年份的 4 个相
同 月份里接受调查。
5. 在连续的 2 个月内,有 3/4 的样本点是相同的;在连续的
2 年内,有 1/2 的样本点是相同的。
4 2 ~ 81 二维平衡单水平轮换模式的轮换过程
轮换样本 1 2 3 4
轮换组 g 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2
第t月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+1 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+2 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+3 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+4 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+5 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+6 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+7 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+8 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+9 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+10 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+11 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ②
t+12 月 ⑧ ⑦ ⑥ ⑤ ④ ③
t+13 月 ⑧ ⑦ ⑥ ⑤ ④
……
4 2 ~ 81 二维平衡单水平轮换模式的轮换过程
轮换组 g
调查月份
1 2 3 4 5 6 7 8
第t月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+1 月 ① ⑧ ⑦ ⑥ ⑤ ④ ③ ②
t+2 月 ② ① ⑧ ⑦ ⑥ ⑤ ④ ③
t+3 月 ③ ② ① ⑧ ⑦ ⑥ ⑤ ④
t+4 月 ④ ③ ② ① ⑧ ⑦ ⑥ ⑤
t+5 月 ⑤ ④ ③ ② ① ⑧ ⑦ ⑥
t+6 月 ⑥ ⑤ ④ ③ ② ① ⑧ ⑦
t+7 月 ⑦ ⑥ ⑤ ④ ③ ② ① ⑧
t+8 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+9 月 ① ⑧ ⑦ ⑥ ⑤ ④ ③ ②
t+10 月 ② ① ⑧ ⑦ ⑥ ⑤ ④ ③
t+11 月 ③ ② ① ⑧ ⑦ ⑥ ⑤ ④
t+12 月 ④ ③ ② ① ⑧ ⑦ ⑥ ⑤
t+13 月 ⑤ ④ ③ ② ① ⑧ ⑦ ⑥
……
第二节 双重抽样
我们可以先从总体中抽取一个大的初始样本,从
x
而获得总体的辅助信息,然后再从初始样本或从总体
中再抽一个子样本,这种方法就是双重抽样。
第二节 双重抽样
一、定义
双重抽样( double sampling ),也称二相抽样或二重抽
x
二、双重抽样与两阶段抽样的区别
(一)两阶段抽样( two-stage sampling )是先从总体 N 个单
x
(二)两阶段抽样的第二阶段抽样单元和第一阶段
抽样单元往往是不同的;双重抽样要有一份最终单元
x
三、双重抽样的作用
(一)有助于筛选主调查对象,如对高血压病人
的调查、银行对储户存款的调查等;
x
(二)提高抽样效率,因为第二重抽样可利用第
一重样本的信息进行分层和比率估计;
(四)可用于研究样本轮换中的某些问题;
(五)降低无回答偏差,对无回答层进行第二重
抽样并对其推断。
第二节 双重抽样
四、双重抽样的应用
(一)为分层的双重抽样
x
分层抽样如果事先无法知道总体的层权,可以采用双
重抽样。具体实施过程如下:
第一步:利用简单随机抽样,从总体的 N 个单元中随机抽取第
一重样本,样本单元数为n ;根据已知的分层标志将第一重样
nh W
本分层,令 wh n (h 1, 2, , L),则 wh是总体层权 的无偏估
h
计。
第二节 双重抽样
第二步:利用分层随机抽样,从第一重样本中抽取出第二重
l
nh n , nh
样本,样本单元数为 n ,第 h 层样本单元数为 。
h 1
采用双重分层抽样,对总体均值 Y 的无偏估计量为:
L
ystD h yh
w
h 1
V ( ystD ) 的样本估计量为:
L
1 1 2 2 1 1 L
v( ystD ) ( ) wh sh ( ) wh ( yh ystD )
x
2
h 1 nh nh n N h 1
上式可简化为 :
L 2
2
wh sh 1 L
v( ystD ) wh ( yh ystD ) 2
h 1 nh n h 1
第二节 双重抽样
(二)为比率估计的双重抽样
在实际工作中,如果辅助变量的信息未知,可以利用双重
x
抽样进行比率估计。具体实施过程如下:
第一步:从总体的 N 个单元中随机抽取第一重样本,样本
n
单元数为 ;对于第一重样本,仅观测辅助变量信息,用辅
1 n
x xi
助变量的样本均值 估计总体均值X 。
n i 1
第二节 双重抽样
第二步:从第一重样本中随机抽取出第二重样本,样本单
元数为 n ;对于第二重样本,观测目标变量与辅助变量,并用
ˆ y x
获得的 和 R
,计算 ,构造比率估计。
x
y
双重抽样对总体均值 Y 的比率估计: yRD x
x
双重抽样比率估计的方差为:
1 2 1 1
V ( y RD) S y ( )( R 2 S x2 2 RS yx )
n n n
第二节 双重抽样
双重抽样比率估计方差的样本估计: x
1 2 1 1 ˆ2 2 ˆ
v( yRD ) s y ( ' )( R sx 2 Rs y x )
n n n
第二节 双重抽样
(三)为回归估计的二重抽样
与比率估计相似,在辅助信息未知时可以采用二重抽
x
样进行回归估计。具体实施过程如下:
第一步:从总体的 N 个单元中随机抽取第一重样本,样本单
元数为n ;对于第一重样本,仅观测辅助变量信息i x '
,用辅
1 n
助变量的样本均值x xi 估计其总体均值X 。
'
n i 1
第二节 双重抽样
第二步:从第一重样本中随机抽取出第二重样本,样本单元
数为 n ;对于第二重样本,观测目标变量yi 与辅助变量 xi ,并
x
计算 、 和回归系数 b ,构造回归估计。
双重抽样对总体均值的回归估计: ylrD y b( x x )
双重抽样回归估计的方差为:
式中 :
1 1 2 1 1
V2 ( ylrD) ( ' )se' ( ' )(1 ) s y' , se' (1 ) s y '
'2 2 2 '2 2
n n n n x
为第一重样本残差方差,其均值近似等于总体残差方差 :
S (1 ) S
2
e
2 2
y
(四)二重抽样在无回答调整中的应用
在出现无回答时,可使用二重抽样对无回答样本进行
x
二次抽样调查,并对无回答层进行推断。如果无回答样本得到
了完全回答,则基本上可以消除无回答偏差。
具体可见本书 10.3 节。
第三节 随机化装置
一、敏感性问题调查
所谓敏感性问题 (sensitive question) 是指所调查的内容
涉及私人机密,受访者不愿或不便于向外界透露的问题。
x
对于这类敏感性问题,必须采取经过特别设计的装置与方
法,以消除受访者的顾虑,能够如实回答问题,避免调查出现
严重偏误。这种为敏感性问题调查特别设计的技术,称随机化
回答技术 (Randomized Response Technique) 。
第三节 随机化装置
敏感性问题按总体的特征可分为属性特征和数量
特征问题两类。属性特征的敏感性问题是指受访者是
x
否具有敏感性问题的特征,一般是估计具有敏感性特
征的单位在总体中所占的比例,因此又可称作敏感性
比例问题。数量特征的敏感性问题是指受访者具有敏
感性问题数额的多少的特征,一般是估计敏感性数额
的均值或总和,也可称作敏感性均值问题。
第三节 随机化装置
二、沃纳随机化回答模型
使 用 随 机 化 回 答 技 术 的 第 一 个 模 型 是 由 沃 纳 (S.L.
Warner) 首先提出的 。
例如,某大学欲调查学生考试的作弊问题,随机抽取 n
个学生进行调查,对每位学生显示两个相反的问题,问题可以
写在外形完全相同的 m 张卡片上,其中 m1 个卡片写上“我曾
在考试中作过弊”,另外 m-m1 个卡片写上“我不曾在考试中
作过弊”。然后把这 m 个卡片折叠好,放在一个盒子里。其中:
A 问题:我曾在考试中作过弊。
B 问题:我不曾在考试中作过弊。
第三节 随机化装置
调查时将 m 种外形完全一致的卡片像洗牌一样充分混合
后,由受访者依简单随机抽样中的抽签方式随机抽取一张卡片,
对照自己的情况回答“是”或“否”,然后放回盒子中。
设卡片 A 的比例是 P ,则卡片 B 的比例就是 1-P 。由古
典概率可知,在大规模的调查中,抽中卡片的概率为
P ( A ) =P ,抽中卡片的概率为 P ( B ) =1-P 。若样本量为
n ,回答“是”的人数为 m ,则 ( 是 ) 的估计值为 m/n 。我们
知道,回答“是”的人有两种情况:一种是抽中了卡片 A, 而
这些人作过弊;另一种是抽中了卡片 B ,而这些人没有作过弊。
利用全概公式,得:
P P P
r r r
( 是 )=P(A)· ( 是 |A)+P(B)· ( 是 |B)
沃纳( Warner )随机化回答模型
A
是
A
P 卡片 A 1 A 不是
被调查者
A
不是
卡片 B
1-P 1 A
是
第三节 随机化装置
不管是抽到卡片 A 还是抽到卡片 B ,作过弊的概率是相
等的,假设这一比例为
,即Pr ( 是 |A)=
, 则抽到卡片 B ,
回答“是”的概率为 1-
,即 P( 是 |B)=1- 。代入上述
公式,得 ˆ
的一个估计 满足 :
m
Pˆ (1 P )(1 ˆ )
n
1 1 m
因此当 P 时,有 : ˆ (1 P )
2 2P 1 n
(1 ) P (1 P )
其方差为: V (ˆ )
n n(2 P 1) 2
第三节 随机化装置
V (ˆ ) 的一个无偏估计为:
m m
(1 ) ˆ yw
n n (1 ˆ ) P (1 P )
v(ˆ )
n 1 n 1 (n 1)(2 P 1) 2
当 n 很大时,
m(1 m) ˆ (1 ˆ ) P (1 P )
v(ˆ )
n 3
n n(2 P 1) 2
第三节 随机化装置
问题。因此西蒙斯模型也称为无关问题的随机化回答模型。
仍假设敏感性问题的卡片比例为 P ,无关问题的卡片比例
为 1-P 。对于敏感性问题回答“是”的比例为 A ,是我们所
要调查的比例,对无关问题回答“是”的比例B 要求是已知
的,则根据全概率公式,得 :
Pr( 是 )=P A +(1-P) B
西蒙斯模型
改进的方式是引入一个无关的问题。
卡片 A :“我有漏税行为”
卡片 B :“我是上半年出生的”
是
A
P 卡片 A 1 A 不是
被调查者
B
不是
卡片 B
1-P 1 B
是
第三节 随机化装置
Pr
当样本量为 n ,回答“是”的人数为 m ,则 ( 是 ) 的估计
A
值为 m/n ,因此 ˆ A
的估计值 m
满足:
Pˆ A (1 P ) B
n
1 m
ˆ
解此方程得 : A (1 P )
P n
B
它的方差为(若忽略 fpc ):
A (1 A ) (1 P) 2 B (1 B ) P(1 P)( A B 2 A B )
V (ˆ A ) 2
2
(10.27)
n nP nP
1 m m
V (ˆ A )的一个无偏估计为:v (ˆ A ) ( n 1) p n
2
( )(1
n
)
第三节 随机化装置
【例 10.1 】 某大学对本校大学生考风情况进行调查。利用
西蒙斯模型,对每个受访者准备了一套同样的 (40 张 ) 卡片,
卡片 A 和卡片 B 各 20 张,比例各占 1/2 。
卡片上 A 的问题是:最近学期期末考试你有过作弊行为吗?
卡片上 B 的问题是:你的阳历生日日期为奇数吗 ?
B, 为生日日期为奇数的人
解: n=800 , m=135 , P=0.5
数比例。在大规模调查的情况下,可以看作生日为奇数和偶数
的各占一半,因此 B =0.5 。根据公式得:
1 m
A (1 P ) B = 2 115 0.5 0.5 0.075
ˆ
Pn 400
1 m m
v (ˆ A ) ( )(1 ) =0.002054 v (ˆ A ) 0.0453
( n 1) p n
2
n
四、随机截尾模型
现实中我们也经常需要调查定量的敏感性问题,例如调查
y
银行存款数额,学生考试作弊的平均次数,在职人员的工资外
w
a, a t
设反映敏感性问题的特征量为 X ,取值范围是 ,密
f ( x)
度函数为 x
, X 的数学期望为 ,即我们所要估计的值。
a, a t
又设 Y 是一个服从 上的均匀分布的随机变量。
i , i=1 , 2 ,… n ,即:
设样本容量为 n ,得到的调查数据是
1, X i Yi
i = ,因此
0, X i Yi
a t a t
f ( x) x a
E ( i ) P ( i 1) P ( X i Yi )
a y
t
dxdy
t
第三节 随机化装置
1 n
以样本均值 = n i 代替
E ( i ) ,得到 x 的一个无偏估
i 1
计为:
ˆ X t a
( x a )(t x a )
估计量的方差为: V ( ˆ x ) t V (ˆ ) 2
( a)(t x a) t (1 )
ˆ ˆ 2
V ( ˆ x ) 的一个估计为: v( ˆ x ) x
n 1 n 1
第三节 随机化装置
五、采用随机化回答技术应注意的问题
( 一 ) 注意在受访者正式抽取并回答问题前,清楚介绍这种做
yw
法的原理,让受访者充分理解这种方法的特点,以彻底消除受
访者的顾虑,明白自己究竟回答哪个问题别人是不知道的,使
其相信这种设计是建立在科学的基础上,不是哄骗人的。
( 二 ) 所提问题必须简单明了,防止因有歧义而出现理解不同。
对涉及问题的解释必须在抽卡片以前进行,否则就暴露了抽到
的是哪类卡片,也就失去了随机化回答的意义。
第三节 随机化装置
( 三 ) 在应用西蒙斯模型时,无关问题的选择特别重要,一
定要隐蔽性强的,使受访者在回答无关问题时不会暴露正在回
y w
答哪个问题。例如“你是男生吗 ?” 这类问题就很不妥,因为采
用随机化回答技术需要当面解释,受访者的性别不可能保密,
这样也就失去了无关问题本来应具有的保护作用。
( 四 ) 做好调查者的培训工作,使他们能够正确理解随机化
回答技术的实质并加以运用,这样才能更好地向受访者解释清
楚,消除受访者的顾虑,以对调查的问题给予正确回答。