You are on page 1of 59

第7章 其它抽样方法

第一节 样本轮换

第二节 双重抽样

第三节 随机化装置
问题提出

时间序列数据以及随后出现的面板
数据都是经济统计分析和计量分析中非常重
要的数据类型。当我们在研究应该应用什么
统计和计量的方法去分析既定的时间序列数
据时,是否考虑过以下几个问题?
 时间序列数据是如何产生的?
 所产生的时间序列数据是否准确?
 如何让时间序列数据更加准确?
随着社会经济现象的不断变化和发展,很
多调查对象的总体也在不断变化和发展。为了能够
及时反映调查总体的这种变化和发展,调查部门就
需要对同一总体在不同时间上进行连续性抽样调查
(Successive Sampling Survey ) ,并定期公布调查结
果,形成一系列时序统计数据。因此,社会经济抽
样调查一般都应该是连续性的定期调查。

 一次性抽样调查与截面数据
 连续性抽样调查与时间序列数据及面板数据
第一节 样本轮换
抽样调查除了对总体的一次性抽样以外,很多重要
的调查是隔一段时间重复进行的 , 对于这种经常性的抽样
问题,就必须重视其样本轮换问题的研究。
对于样本轮换问题,我们至少应考虑以下问题:每次
调查的样本如何组成?是采用固定样本还是采用全新的样
本,或者是部分保留部分替换,即样本轮换;在估计后期
的总量或均值时,是否需要利用前期的信息来改进现期的
估计,以及如何利用;如果采用样本轮换的方法,如何确
定最优的保留比例或替换比例。
连续性抽样设计方法

按抽取样本的不同划分

重复样本 轮换样本 固定样本

单水平轮换 不完全的单水平轮换 多水平轮换


轮换模式应用举例
 加拿大劳动力调查( LFS )使用 6~0 单水平
轮换模式
 美国现时人口调查( CPS )使用 4~8~4 不完
全单水平轮换模式
 美国消费者支出的季度调查( CEQ )便采用
4~0 三水平轮换模式
中国城市住户抽样调查
 中国规模以下工业企业抽样调查
 中国农产量抽样调查
第一节 样本轮换
一、样本轮换的原因
如果是单纯地估计现值的情况,当然最好每次重新抽取
新样本,这样必然会增加费用;
如果要逐期地与上期比较,则采用固定样本的方法为好,
固定样本可以消除样本的因素而只观察动态的变化。
然而,样本长期不变,随着时间的推移,固定样本会显
露它的弊端,既难以反映总体的变化,而且受访者也会产生厌
烦心理,出现不合作或回答质量下降等问题,从而影响调查质
量。另外,无论是采用固定样本还是全新样本都难以正确地反
映总体在各个不同时间上的水平及变化,因此,一种广泛采用
的方法是样本轮换,即每隔一定时间(一个月、一季或一年)
更换一定比例的单元,保留其余单元。
与传统的一次性抽样调查相比,
轮换的抽样调查具有以下特有的优势:
 节省调查费用和调查资源
 在一定程度上减轻被调查者回答负担
 利用前后各期之间的相关关系提高估计精

我国抽样调查制度与方法改革的
方向
 我国 1996 年新修订的《统计法》第十条明确规定:
“统计调查应当以周期性普查为基础,以经常性抽
样调查为主体,以必要的统计报表、重点调查、综
合分析等为补充,搜集、整理基本统计资料。”
 因此,在今后我国政府统计部门开展的统计调查制
度与方法改革的过程中,最重要的就是围绕如何更
好地发挥经常性抽样调查的主体作用,研究并应用
更加符合我国国情的经常性抽样调查方法,以此得
出更加准确的统计数据,为我国政府部门、研究机
构以及各类企事业单位等社会各界服务。
第一节 样本轮换

二、样本轮换的最优比例
第一个时期采用有放回简单随机抽样方式抽出样本量为 n
的样本;在第二个时期采用有放回简单随机抽样方式选出
样本量为 nq 的旧有样本点以便替换掉,即保留的样本量
为 np ,保留样本的比例为 p ,同时独立地依有放回简单
随机样本方式补充新的 nq 个新样本点,这里 p+q=1 ,这
样第二个时期的样本量仍旧为 n 。设:
第一节 样本轮换

x 为第一个时期与第二个时期相同的 np 个单元在第一
个时期的均值。
x 为第一个时期 nq 个单元在第一个时期的均值。
x

y 为 np 个单元在第二个时期的样本均值。
y 为 nq 个补充单元在第二个时期的样本均值。
ρ为 x y
和 之间的相关系数。
如果希望估计第二个时期的样本均值并充分利用第一个
时期的信息,令该估计量为 yw ,那么它应该是充分利用前后
期中保留样本、不保留样本和后期新补充样本的加权平均数。
第一节 样本轮换

yw
设我们希望得到的估计量 是两期估计量的线性函数,

yw x x y y
= a +b +c + d ( 7.1 )

要求估计其参数 a , b , c , dy。
x x X y Y
yw E (
因为 )X
=E ( )Y= yw
,E( )Y
=E ( )= ,
所以 E ( ) = ( a+b ) + ( c+d ) 。要使 成为 的
无偏估计量,需 a+b=0 , c+d=1 ,也即 b=-a , d=1-c 。代入
yw
( 7.1 ),有
x  x  y y
第一节 样本轮换

该估计量的方差可以求得为:

c  (1  c)  2ac  x y
2 2
2 1 1 
2 2 x
2
y y
V ( yw )  a (  )  . 
x
.  .
q p n p n q n p n
 2
 2
其中 x 是第一个时期的方差, y 是第二个时期的方差。我
们要求出 a 和 c ,使得V ( yw ) 达到最小,就要以上公式分别对
a 和 c 求偏微分并使之等于 0 ,即可求出 a 和 c 的最优值分别为:
第一节 样本轮换

该估计量的方差可以求得为:

 pq  y
a .
1 q   x
2 2
第一节 样本轮换

将其代入公式( 7.1 ),就得到

 y  pq p q (1  q  )
2
( x  x)  y  y
x

yw 
 x 1 q 
2 2
1 q 
2 2
1 q 2 2

该估计量的方差为 :
 1   2q
2
y
V ( yw ) 
n 1 q 
2 2
第一节 样本轮换

如果不利用前期信息,只根据第二期的结果来估
计均值,那么 :

y  py   qy 
其方差为 :
 2
y
V (y) 
n
第一节 样本轮换

故利用前期信息后的设计效果为 :

V ( yw ) 1   2q

x

V (y) 1   2q2

从上式可以看出,当 ρ 的值比较大时,利用上期信
yw
息可以较大地提高 的效率。表 7.1 给出了不同的
q ,Vρ
( y值时
w) V (y) 的值。
第一节 样本轮换

表 7.1 V ( yw ) V ( y )
不同的 q , ρ 值时 的值
x
若对上式关于 q 求偏导,并使之等于 0 ,那么便
可得到最优轮换比:
第一节 样本轮换

三、样本轮换方法

(一) 随机轮换法
x

在进行轮换时按确定的轮换单位数目或比例,从原有样本
中随机抽出若干单位不再调查,而从其余未包括在样本中的总
体单位中抽取同样数目的单位来代替。
第一节 样本轮换

(二) 等距轮换法

在总体抽样框中确定出各个等距抽样的样本,在各次的调
x

查中,按相应位置的等距样本单位进行轮换。我国农村住户调
查就是采用这种轮换方式。

(三) 子样本轮换法

从总体中抽出若干套子样本,每次调查一定数量的子
样本,逐次轮换其中的部分子样本。
第一节 样本轮换

子样本轮换实际上就是每次采用交叉子样本,而交叉子
x
样本不仅能有效地减少和控制估计偏差,而且由于每个交叉
子样本都能代表总体,即使有的子样本资料搜集不到,我们
也可以用其他的子样本甚至一个子样本来观察和推断总体。
此外,用交叉子样本还可以考察非抽样误差发生的程度。因
此,一般来说,子样本轮换方法是以上三种样本轮换方法中
最好的。
第一节 样本轮换

五、案例介绍
美国人口现状调查( current population survey ,
x
CPS )是国际上最著名的抽样调查项目之一,已经成为美国以
及许多国家进行居民调查的参考模型,其实施是在每个月包含
19 号的那一周进行,调查的问题涉及受访者此前一周内的活动。
调查氛围覆盖全美 50 个州和哥伦比亚地区。 CPS 采用的就是样
本轮换的方法,即每位受访者连续 4 个月接受访问,然后退出
样本, 8 个月后再进入样本,连续 4 个月接受访问,最后永久
地退出样本。
第一节 样本轮换
CPS 在 1995 年 7 月的抽样设计方案中样本轮换的特征:
1 . 在任意一个月内,都有 1/8 的住户单元第一次接受调查,
1/8 的住户单元第二次接受调查,依次类推。
2 .每个月都由新的样本组代替从样本中永久退出的老样本
x

组。
3 . 每个月都有一个样本组在闲置 8 个月后重新接受调查,
以此代替刚刚进入闲置期的样本组。
4 .通过轮换设计,保证每个样本单元在 2 个年份的 4 个相
同 月份里接受调查。
5. 在连续的 2 个月内,有 3/4 的样本点是相同的;在连续的
2 年内,有 1/2 的样本点是相同的。
4 2 ~ 81 二维平衡单水平轮换模式的轮换过程

轮换样本  1 2 3 4
轮换组 g 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2
第t月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+1 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+2 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+3 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+4 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+5 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+6 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+7 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+8 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+9 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+10 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+11 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ②
t+12 月 ⑧ ⑦ ⑥ ⑤ ④ ③
t+13 月 ⑧ ⑦ ⑥ ⑤ ④
……
4 2 ~ 81 二维平衡单水平轮换模式的轮换过程

轮换组 g
调查月份
1 2 3 4 5 6 7 8
第t月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+1 月 ① ⑧ ⑦ ⑥ ⑤ ④ ③ ②
t+2 月 ② ① ⑧ ⑦ ⑥ ⑤ ④ ③
t+3 月 ③ ② ① ⑧ ⑦ ⑥ ⑤ ④
t+4 月 ④ ③ ② ① ⑧ ⑦ ⑥ ⑤
t+5 月 ⑤ ④ ③ ② ① ⑧ ⑦ ⑥
t+6 月 ⑥ ⑤ ④ ③ ② ① ⑧ ⑦
t+7 月 ⑦ ⑥ ⑤ ④ ③ ② ① ⑧
t+8 月 ⑧ ⑦ ⑥ ⑤ ④ ③ ② ①
t+9 月 ① ⑧ ⑦ ⑥ ⑤ ④ ③ ②
t+10 月 ② ① ⑧ ⑦ ⑥ ⑤ ④ ③
t+11 月 ③ ② ① ⑧ ⑦ ⑥ ⑤ ④
t+12 月 ④ ③ ② ① ⑧ ⑦ ⑥ ⑤
t+13 月 ⑤ ④ ③ ② ① ⑧ ⑦ ⑥
……
第二节 双重抽样

我们可以先从总体中抽取一个大的初始样本,从
x

而获得总体的辅助信息,然后再从初始样本或从总体

中再抽一个子样本,这种方法就是双重抽样。
第二节 双重抽样

一、定义
双重抽样( double sampling ),也称二相抽样或二重抽
x

样 (two-phase sampling) ,是指在抽样时分两步抽取样本。一


般情况下,先从总体 N 中抽取一个较大的样本,称为第一重
( 相 ) 样本 (the first phase sample) ,对之进行调查以获取
总体的某些辅助信息,为下一步的抽样估计提供条件;然后进
行第二重抽样 (the second phase sampling) 。第二重抽样所
抽的样本 n 相对较小,但是第二重抽样调查才是主调查。
第二节 双重抽样

二、双重抽样与两阶段抽样的区别
(一)两阶段抽样( two-stage sampling )是先从总体 N 个单
x

元 ( 初级单元 ) 中抽出 n 个样本单元,却并不对这 n 个样本单


元中的所有小单元 ( 二级单元 ) 都进行调查,而是在其中再抽
出若干个二级单元进行调查;双重抽样则不同,要对第一重
( 相 ) 样本进行调查以获取总体的某些辅助信息,并且要利用
这些辅助信息进行排序、分层、抽样或估计等。
第二节 双重抽样

(二)两阶段抽样的第二阶段抽样单元和第一阶段
抽样单元往往是不同的;双重抽样要有一份最终单元
x

的完整名册 ( 总体所有单元的抽样框 ) ,而两阶段抽


样只是需要第一阶段单元 ( 初级单元 ) 名册,然后在
中选的初级单元中构造第二阶段抽样的抽样框。
第二节 双重抽样

三、双重抽样的作用
(一)有助于筛选主调查对象,如对高血压病人
的调查、银行对储户存款的调查等;
x

(二)提高抽样效率,因为第二重抽样可利用第
一重样本的信息进行分层和比率估计;
(四)可用于研究样本轮换中的某些问题;
(五)降低无回答偏差,对无回答层进行第二重
抽样并对其推断。
第二节 双重抽样

四、双重抽样的应用
(一)为分层的双重抽样
x

分层抽样如果事先无法知道总体的层权,可以采用双
重抽样。具体实施过程如下:
第一步:利用简单随机抽样,从总体的 N 个单元中随机抽取第
一重样本,样本单元数为n ;根据已知的分层标志将第一重样
 nh  W
本分层,令 wh  n (h  1, 2, , L),则 wh是总体层权 的无偏估
h

计。
第二节 双重抽样

第二步:利用分层随机抽样,从第一重样本中抽取出第二重
l

nh n , nh
样本,样本单元数为 n ,第 h 层样本单元数为 。
h 1

采用双重分层抽样,对总体均值 Y 的无偏估计量为:
L
ystD   h yh
w 
h 1

ystD 的方差为:V ( ystD )  (  ) S 2   Wh Sh ) ( 1  1)


L
1 1
n N h 1 n f hD
第二节 双重抽样

V ( ystD ) 的样本估计量为:

L
1 1 2 2 1 1 L 
v( ystD )   (  ) wh sh  (  ) wh ( yh  ystD )
x
2

h 1 nh nh n N h 1

上式可简化为 :
L 2
 2
wh sh 1 L
v( ystD )     wh ( yh  ystD ) 2

h 1 nh n h 1
第二节 双重抽样

(二)为比率估计的双重抽样
在实际工作中,如果辅助变量的信息未知,可以利用双重
x

抽样进行比率估计。具体实施过程如下:

第一步:从总体的 N 个单元中随机抽取第一重样本,样本
n
单元数为 ;对于第一重样本,仅观测辅助变量信息,用辅
1 n 
x   xi
助变量的样本均值 估计总体均值X 。
n i 1
第二节 双重抽样

第二步:从第一重样本中随机抽取出第二重样本,样本单
元数为 n ;对于第二重样本,观测目标变量与辅助变量,并用
ˆ y x

获得的 和 R
,计算 ,构造比率估计。
x
y
双重抽样对总体均值 Y 的比率估计: yRD  x
x
双重抽样比率估计的方差为:
1 2 1 1
V ( y RD) S y  (  )( R 2 S x2  2 RS yx )
n n n
第二节 双重抽样

双重抽样比率估计方差的样本估计: x

1 2 1 1 ˆ2 2 ˆ
v( yRD )  s y  (  ' )( R sx  2 Rs y x )
n n n
第二节 双重抽样

(三)为回归估计的二重抽样

与比率估计相似,在辅助信息未知时可以采用二重抽
x

样进行回归估计。具体实施过程如下:

第一步:从总体的 N 个单元中随机抽取第一重样本,样本单

元数为n ;对于第一重样本,仅观测辅助变量信息i x '
,用辅
1 n 
助变量的样本均值x   xi 估计其总体均值X 。
'

n i 1
第二节 双重抽样

第二步:从第一重样本中随机抽取出第二重样本,样本单元
数为 n ;对于第二重样本,观测目标变量yi 与辅助变量 xi ,并
x

计算 、 和回归系数 b ,构造回归估计。

双重抽样对总体均值的回归估计: ylrD  y  b( x  x )
双重抽样回归估计的方差为:

V ( ylrD) V1[ E2 ( ylrD )]  E1[V2 ( ylrD )]


第二节 双重抽样

式中 :
1 1 2 1 1
V2 ( ylrD) (  ' )se'  (  ' )(1   ) s y' , se'  (1   ) s y '
'2 2 2 '2 2

n n n n x

为第一重样本残差方差,其均值近似等于总体残差方差 :

S  (1   ) S
2
e
2 2
y

因此双 重抽样回 归估计 S y2


1 1 2 2
v( ylrD)=  (  ' )r s y
方差的样本估计: n n n
第二节 双重抽样

(四)二重抽样在无回答调整中的应用

在出现无回答时,可使用二重抽样对无回答样本进行
x

二次抽样调查,并对无回答层进行推断。如果无回答样本得到
了完全回答,则基本上可以消除无回答偏差。

具体可见本书 10.3 节。
第三节 随机化装置
一、敏感性问题调查
所谓敏感性问题 (sensitive question) 是指所调查的内容
涉及私人机密,受访者不愿或不便于向外界透露的问题。
x

对于这类敏感性问题,必须采取经过特别设计的装置与方
法,以消除受访者的顾虑,能够如实回答问题,避免调查出现
严重偏误。这种为敏感性问题调查特别设计的技术,称随机化
回答技术 (Randomized Response Technique) 。
第三节 随机化装置

敏感性问题按总体的特征可分为属性特征和数量
特征问题两类。属性特征的敏感性问题是指受访者是
x

否具有敏感性问题的特征,一般是估计具有敏感性特
征的单位在总体中所占的比例,因此又可称作敏感性
比例问题。数量特征的敏感性问题是指受访者具有敏
感性问题数额的多少的特征,一般是估计敏感性数额
的均值或总和,也可称作敏感性均值问题。
第三节 随机化装置
二、沃纳随机化回答模型
使 用 随 机 化 回 答 技 术 的 第 一 个 模 型 是 由 沃 纳 (S.L.
Warner) 首先提出的 。
例如,某大学欲调查学生考试的作弊问题,随机抽取 n
个学生进行调查,对每位学生显示两个相反的问题,问题可以
写在外形完全相同的 m 张卡片上,其中 m1 个卡片写上“我曾
在考试中作过弊”,另外 m-m1 个卡片写上“我不曾在考试中
作过弊”。然后把这 m 个卡片折叠好,放在一个盒子里。其中:
A 问题:我曾在考试中作过弊。
B 问题:我不曾在考试中作过弊。
第三节 随机化装置
调查时将 m 种外形完全一致的卡片像洗牌一样充分混合
后,由受访者依简单随机抽样中的抽签方式随机抽取一张卡片,
对照自己的情况回答“是”或“否”,然后放回盒子中。
设卡片 A 的比例是 P ,则卡片 B 的比例就是 1-P 。由古
典概率可知,在大规模的调查中,抽中卡片的概率为
P ( A ) =P ,抽中卡片的概率为 P ( B ) =1-P 。若样本量为
n ,回答“是”的人数为 m ,则 ( 是 ) 的估计值为 m/n 。我们
知道,回答“是”的人有两种情况:一种是抽中了卡片 A, 而
这些人作过弊;另一种是抽中了卡片 B ,而这些人没有作过弊。
利用全概公式,得:
P P P
r r r
( 是 )=P(A)· ( 是 |A)+P(B)· ( 是 |B)
沃纳( Warner )随机化回答模型

A


A

P 卡片 A 1   A 不是

被调查者
A
不是
卡片 B
1-P 1  A

第三节 随机化装置
不管是抽到卡片 A 还是抽到卡片 B ,作过弊的概率是相
等的,假设这一比例为 
,即Pr ( 是 |A)= 
, 则抽到卡片 B ,
回答“是”的概率为 1- 
,即 P( 是 |B)=1- 。代入上述
 公式,得 ˆ
的一个估计 满足 :
m
 Pˆ  (1  P )(1  ˆ )
n
1 1 m 
因此当 P  时,有 : ˆ    (1  P ) 
2 2P 1  n 
 (1   ) P (1  P )
其方差为: V (ˆ )  
n n(2 P  1) 2
第三节 随机化装置

V (ˆ ) 的一个无偏估计为:

m m
(1  ) ˆ yw

n n  (1  ˆ ) P (1  P )
v(ˆ )   
n 1 n 1 (n  1)(2 P  1) 2

当 n 很大时,

m(1  m) ˆ (1  ˆ ) P (1  P )
v(ˆ )   
n 3
n n(2 P  1) 2
第三节 随机化装置

三、西蒙斯 (Simmons) 随机化回答模型


西蒙斯在沃纳模型基础上作了改进,他将其中一张卡片上
的问题改为与所调查的敏感性问题完全无关的另一个非敏感性
y w

问题。因此西蒙斯模型也称为无关问题的随机化回答模型。

仍假设敏感性问题的卡片比例为 P ,无关问题的卡片比例
为 1-P 。对于敏感性问题回答“是”的比例为 A ,是我们所
要调查的比例,对无关问题回答“是”的比例B 要求是已知
的,则根据全概率公式,得 :
Pr( 是 )=P A +(1-P) B
西蒙斯模型
 改进的方式是引入一个无关的问题。
 卡片 A :“我有漏税行为”
 卡片 B :“我是上半年出生的”


A

P 卡片 A 1   A 不是

被调查者
B
不是
卡片 B
1-P 1  B

第三节 随机化装置

Pr
当样本量为 n ,回答“是”的人数为 m ,则 ( 是 ) 的估计
A
值为 m/n ,因此 ˆ A
的估计值 m
满足:
 Pˆ A  (1  P ) B
n
1 m 
ˆ
解此方程得 : A   (1  P )
P  n
B

它的方差为(若忽略 fpc ):
 A (1   A ) (1  P) 2  B (1   B ) P(1  P)( A   B  2 A B )
V (ˆ A )   2
 2
(10.27)
n nP nP
1 m m
V (ˆ A )的一个无偏估计为:v (ˆ A )  ( n  1) p n
2
( )(1 
n
)
第三节 随机化装置

【例 10.1 】 某大学对本校大学生考风情况进行调查。利用
西蒙斯模型,对每个受访者准备了一套同样的 (40 张 ) 卡片,
卡片 A 和卡片 B 各 20 张,比例各占 1/2 。
卡片上 A 的问题是:最近学期期末考试你有过作弊行为吗?
卡片上 B 的问题是:你的阳历生日日期为奇数吗 ?

假如对依简单随机抽样方式抽出的 400 个人进行调查,在


n=400 人中总共有 m=115 人的答案为“是”,试估计该校大学
A
生考试作弊的比例 并给出 90% 的置信区间。
第三节 随机化装置

 B, 为生日日期为奇数的人
解: n=800 , m=135 , P=0.5
数比例。在大规模调查的情况下,可以看作生日为奇数和偶数
的各占一半,因此 B =0.5 。根据公式得:

1 m 
 A    (1  P ) B = 2  115  0.5  0.5   0.075
ˆ
Pn   400 
1 m m
v (ˆ A )  ( )(1  ) =0.002054 v (ˆ A )  0.0453
( n  1) p n
2
n

故  A的 90% 置信区间约为:( 0.075±1.64×0.0453 ),即


:  0.07%,14.93% 
第三节 随机化装置

四、随机截尾模型
现实中我们也经常需要调查定量的敏感性问题,例如调查
y
银行存款数额,学生考试作弊的平均次数,在职人员的工资外
w

收入等。 Greenberg 等人针对这类问题提出了几种随机化调查


方法,但是,这些方法都要求受访者根据自己的实际情况回答
敏感性问题或非敏感性问题的具体数值,给受访者 / 受查者造
成了一定的困扰。
近年来提出了所谓随机截尾模型,把对于具体数值的调查
转化为对于属性的调查,避免了直接回答,使得受访者心理上
比较容易接受。
第三节 随机化装置

 a, a  t 
设反映敏感性问题的特征量为 X ,取值范围是 ,密
f ( x)
度函数为 x
, X 的数学期望为 ,即我们所要估计的值。
 a, a  t 
又设 Y 是一个服从 上的均匀分布的随机变量。
 i , i=1 , 2 ,… n ,即:
设样本容量为 n ,得到的调查数据是

1, X i  Yi
i =  ,因此
0, X i  Yi
a t a t
f ( x) x  a
E ( i )  P ( i  1)  P ( X i  Yi )  
a y
t
dxdy 
t
第三节 随机化装置
1 n
以样本均值  = n   i 代替
E ( i ) ,得到 x 的一个无偏估
i 1
计为:
ˆ X  t  a

(  x  a )(t   x  a )
估计量的方差为: V ( ˆ x )  t V (ˆ )  2

(   a)(t   x  a) t  (1   )
ˆ ˆ 2
V ( ˆ x ) 的一个估计为: v( ˆ x )  x 
n 1 n 1
第三节 随机化装置

五、采用随机化回答技术应注意的问题

( 一 ) 注意在受访者正式抽取并回答问题前,清楚介绍这种做
yw
法的原理,让受访者充分理解这种方法的特点,以彻底消除受
访者的顾虑,明白自己究竟回答哪个问题别人是不知道的,使
其相信这种设计是建立在科学的基础上,不是哄骗人的。

( 二 ) 所提问题必须简单明了,防止因有歧义而出现理解不同。
对涉及问题的解释必须在抽卡片以前进行,否则就暴露了抽到
的是哪类卡片,也就失去了随机化回答的意义。
第三节 随机化装置

( 三 ) 在应用西蒙斯模型时,无关问题的选择特别重要,一
定要隐蔽性强的,使受访者在回答无关问题时不会暴露正在回
y w

答哪个问题。例如“你是男生吗 ?” 这类问题就很不妥,因为采
用随机化回答技术需要当面解释,受访者的性别不可能保密,
这样也就失去了无关问题本来应具有的保护作用。

( 四 ) 做好调查者的培训工作,使他们能够正确理解随机化
回答技术的实质并加以运用,这样才能更好地向受访者解释清
楚,消除受访者的顾虑,以对调查的问题给予正确回答。

You might also like