You are on page 1of 1

商贸纵横 管理视窗

中国工业企业数据库以及海关贸易数据库合并方法概述
张学立
摘 要: 随着国际贸易理论的发展以及微观计量经济学的引入,越来越多的研究关注到了微观企业行为在国际贸易中起到的作用,中
国经济学者越来越重视微观数据的开发和使用。其中,中国工业企业数据库和海关贸易数据库成为国内外学者研究中国企业在国际贸易中
行为和绩效的主要数据库。但是,将企业层面的生产数据和产品层面的贸易数据合并会面临一定的技术问题。两组数据库的编码系统完全
不同,企业数据库中企业编号为 9 位,而贸易数据库中企业编号为 10 位,将两个数据库匹配起来是有困难的。本文介绍了将两个数据库合
并的几种方法,并给出了各种方法匹配出来的效果。
关键词: 中国工业企业数据库; 海关贸易数据库; 合并

一、中国工业企业数据库和海关贸易数据库使用概况 的样本。用此种方法合并,最后得到 2000 - 2005 年的企业数量分别为


在经验研究中,企业级和产品级的微观数据正在受到越来越多的重 22631,26038,30629,37103,42259,44136 家。合并后的数据库企业
视。数据是经验研究的根本,因此数据质量的好坏直接决定了经验研究 出口额达到了原海关数据中出口额的 60% 。这样,合并后的数据就近包
的质量。其中,中国工业企业数据库和海关贸易数据库成为国内外学者 括有出口行为的工业企业的进出口和企业的投入产出信息。
研究中国企业在国际贸易中行为和绩效的主要数据库。他们的研究成果 两篇文章匹配出的结果一样。
广泛的发表在国内著名学术期刊上,包括 《经济研究》、 《管理世界》、 ( 二) 使用邮政编码和电话号码对企业进行识别
《经济学 ( 季刊) 》、《世界经济》 等。 通过企业的邮政编码和最后 7 位电话号码进行匹配,因为在每一个
杨汝岱在 《区位地理与企业出口产品价格差异研究》 中用两个数 邮政地区中,企业的号码不同。 《加工贸易、企业生产率和关税减免
据库从区位地理的角度解释中国出口产品的价格差异,越偏远的地方, ———来自中 国 产 品 面 的 数 据 》 一 文 采 用 此 种 方 法。 筛 选 之 后, 有
企业出口产品的价格相对越低,初步反映出我国出口产业的梯度分工模 218024 家企业的产品贸易数据 ( 海关贸易数据) 保持有效,占到了全
式。余淼杰在 《企业出口强度与进口中间品贸易自由化: 来自中国企业 部 640352 个企业样本中的 34% 。同理,对企业数据集,剔除掉其中邮
的实证研究》 一文中,使用中国制造企业数据和贸易数据,发现企业面 政编码或电话号码无效的样本后,剩余的企业样本数为 973207。继续按
临的中间品关税的下降显著提高了企业的出口强度,即出口占销售的比 照先前的标准进行筛选,则还剩下 433273 个企业样本,占到了 973207
例。戴觅在 《中国出口企业生产率之谜: 加工贸易的作用》 一文中,通过 家企业中的 44. 5% 。在此基础上,文章将产品贸易数据和企业生产数
2000—2006 年企业—海关数据的分析表明,中国存在 “出口企业生产率之 据归并整合起来。
谜”完全是由中国大量的加工贸易企业导致。除此之外,还有一系列研究运 ( 三) 采用企业名称以及邮政编码和电话号码两种方法匹配,然后
用中国工业企业数据库和海关贸易数据库得出了很好的结论。 取并集
但是,将企业层面的生产数据和产品层面的贸易数据合并会面临一 《企业出口强度与进口中间品贸易自由化: 来自中国企业的实证研
定的技术问题。两组数据库的编码系统完全不同,企业数据库中企业编 究》 一文首先根据企业的姓名和年份匹配,在同一年的两套数据中有相
号为 9 位,而贸易数据库中企业编号为 10 位,将两个数据库匹配起来 同的名字则认为是同一个企业。这样如果使用原始的工业企业数据,我
是有困难的。并且,两个数据库原始数据存在很多问题,如样本匹配混 们可以匹配到 83679 家企业。如果使用筛选 ( 根据 “通用会计 准 则”
乱、指标缺失、变量大小异常、侧度误差明显和变量定义模糊等严重问 ( GAPP) 中的规定) 过后的,我们可以匹配到 69623 家企业。第二种方
题。本文介绍了将两个数据库合并的几种方法,并给出如何整理数据, 法通过企业的邮政编码和最后 7 位电话号码进行匹配。
剔除异常值的步骤和建议。 一些企业有可能在工业库或海关库中没有汇报企业名称,同样,其
文章余下部分安排如下: 第二部分简要介绍了两个数据库的特征; 邮编和电话号码也可能只出现在一套数据中。为了保证能匹配到更多的
第三部分介绍了两个数据库的并方法; 第四部分是结论和建议。 企业,将两种方法得到的数据取并集。如此,用原始工业企业数据成功
二、两个数据库基本介绍 匹配的企业数有 90558 个。筛选 ( 根据 “通用会计准则” ( GAPP) 中
( 一) 中国工业企业数据库的基本介绍 的规定) 后的有 76823 个。
中国制造业企业数据库由国家统计局建立,它的数据主要来自于样 ( 四) 将企业名称拆分成若干词段,用这些词段去搜寻匹配
本企业提交给当地统计局的季报和年报汇总。包括 2000 年到 2006 年每 在数据匹配上,首先按每家企业的企业名称完全匹配,接下来将不
年约 230000 个制造业企业的生产信息。这套数据包括了 3 张会计报表: 能完全匹配上的海关库企业中,按贸易额大小排序,将每家企业的企业
损益表,资产负债表和现金流量表,共 100 多个会计变量。这套数据每 名称拆分成若干词段,用这些词段去和工业库企业名称搜寻匹配,如果
年涵盖的企业生产总值占中国总工业生产总值约 95% ,实际上 《中国 每个词段都能匹配上,赋值匹配类型为 “1 ”,如果只有部分词段匹配
统计年鉴》 中的加总的工业数据就是从这套数据加总而来。数据包括两 上,按匹配要求的精度可逐步赋值。
大类型企业,所有国有企业以及年销售额在 500 万元以上的非国有企 四、小结和建议
业。企业数目从 2000 年的 162885 家增长到了 2006 年的 301961 家。 从现有文献来看,合并两个数据库的主要方法有: 1. 通过企业名
( 二) 海关贸易数据库的基本介绍 称和年份进行匹配; 2. 邮政编码和最后 7 位电话号码进行匹配; 3. 将
海关数据库包括了 2000 - 2006 年产品层面交易的月度数据。每个 企业名称分为若干词段来匹配; 4. 代码表转换。由于第三种方法要求
产品都是在 HS8 位码上,产品数量从 2000 年 1 月的 78 种增加到 2006 匹配的精度不好确定,以及第四种方法代码表转换不全面,不建议使
年 12 月的 230 种,每年平均的观测值数目由 2000 年的 1000 万增加到 用。建议使用第一种和第二种方法匹配所得到的数据取并集。 ( 作者单
2006 年的 1600 万,最终这 7 年的观测值总数约为 118333831 个,大约 位: 武汉大学)
有 286819 家企业参与了国际贸易。 参考文献:
三、两个数据库合并的方法 [1] 钱学锋,王胜,陈勇兵. 中国的多产品出口企业及其产品范围:
( 一) 按企业名称对接两个数据库 事实与解释 [J]. 管理世界,2013 ( 01) : 9 - 27.
根据企业的姓名和年份匹配,在同一年的两套数据中有相同的名字则认 [2] 杨汝岱,李艳. 区位地理与企业出口产品价格差异研究 [J] 管
为是同一个企业。年份这一变量对于匹配是重要的,因为一些企业在不同年 理世界,2013 ( 07) : 21 - 30.
份企业名称可能不同,并且新进入的企业有可能采用他们原来的名称。 [3] 戴 觅,余 淼 杰. 中 国 出 口 企 业 生 产 率 之 谜: 加 工 贸 易 的 作 用
《中国的多产品出口企业及其产品范围: 事实与解释》 采用此种方 [J]. 经济学: 季刊,2014,13 ( 02) .
法,目的是为了剔除中间商。同时出现在海关数据库和工业企业数据库 [4] 陈勇兵,李燕,周世民. 中国企业出口持续时间及其决定因素
中的企业必然不是纯粹的中间商,因此留下来的样本就是剔除了中间商 [J]. 经济研究,2012 ( 07) : 48 - 61.

作者简介: 张学立 ( 1990 - ) ,男,汉族,湖北荆州人。硕士,武汉大学,研究方向: 国际贸易。

Business
!
· 99 ·

You might also like