当前位置: 首页 > 常见问题 > 缺失值

Q&A

来源:时间:2022-05-12 02:43阅读:

Q:为什么将2012和2010年少儿库连接后有很多样本匹配不上?

A:有三个原因造成部分样本匹配不上:1)2012年新进成员在2010年没有观测;2)2010年13周岁以上

成员在2012年成人库中;3)2012年约15%左右的少儿样本流失。

 

Q:请问在2018年成人数据库中(文件名:cfps2018person_201911),关于变量符号为

qi301_s_1,标签为参保项目1的值为-8(不适用)是为什么?

A:qi301_s_1代表受访者在这道题选择的是第一个参保项目,-8是因为部分受访者没有跳入这道题。可以

通过仔细阅读调查问卷的相关模块发现,以下{}涉及到的部分受访者都没有跳入这道题。

问卷跳转

I 部分 退休与养老

【CAPI】按照以下规则跳转:

{#1 若 age<16,跳至 F 部分;}

#2 若 16<=age <45,跳至 I3 部分;

#3 若 age>=45 且 retire =1,跳至 I2 部分。

#4 其他情况,继续提问 I1 部分。

I202 QI202”税后领退休金数额(元/月)”包括各种补贴在内,您现在税后每月共领取多

少“【CAPI】加载离退休金”及“【CAPI】加载各类养老保险”?________1..100,000 元/月

【CAPI】{#1 若 I202=“不知道”或拒绝回答,继续提问 I203;否则,跳至 F 部分。}

 

Q:关于互联网使用这部分的数据有大量的“不适用”,请问这是因为这部分人没有参加关于互联网部分

查,还是需要从前几轮互联网相关调查的数据进行补充呢?

A:关于互联网使用和职业编码的-8,建议您仔细阅读我们的调查问卷,关注相关逻辑跳转。譬如问卷

中的下列内容说明只有U201=1或 U202=1的受访者才会回答后续的互联网使用情况这一模块。

问卷跳转

【CAPI】U201=1 或 U202=1,继续提问 U700;否则,跳至 U8。

U700 QU700"互联网使用情况引语"以下我们将了解“【CAPI】加载您/你”一般情况下使用互联网的

率。

 

Q:您好,请问2016数据取值出现-9代表什么含义?

A:-9是不属于系统跳转(-8)、受访户拒绝回答(-2)或者不知道(-1)之类的其他缺失原因的缺失,

有可能是访问系统的一些问题造成(譬如受访者本应回答这一道题,但由于各种原因没有跳到这道题)。

一般来说涉及到-9的样本量较小。

 

Q:数据库中存在大量的“不适用”,比如:2018年成人库中工作单位性质一列,存在大量的“不适用”,

是我查看原始问卷发现,针对这一问题有1-9个选项,那“不适用”是怎么造成的?怎么调整呢?

A:有关数据集中的“不适用”,请先阅读我们微信公众号“中国家庭追踪调查”中有关缺失数据的相关说

明,如还有进一步问题再与我们联系。http://www.isss.pku.edu.cn/cfps/cjwt/cfpsxkt/1295293.htm

 

Q:在问卷初始加载是否为党员题(party),后续有是否为党员题(qn4001),其中qn4001中的

【不适用】为2560,而在party题中【是】为2560,该题的设计可否理解成,2560为调查初始的党员

数,最终党员数为qn4001中回答【是】的人加上2560?

A:涉及到-8的数据一般关系到问卷中设计的逻辑跳转,请仔细阅读问卷。

问卷内容

【CAPI】 #1 party=1,跳至 N4004;#2 age<18,跳至 N4002;#3 其他情况,继续提问 N4001。

N4001 QN4001 "是否是党员"“【CAPI】加载你/您”是否是中国共产党党员?

前面的【CAPI】部分是指如果受访者在往轮调查中已经汇报为党员、以及不满18岁,则不会被提问这道

题目。想综合得出哪些个体是党员可以结合当期回答和加载变量(party),尽量不要直接使用-8,因为

-8的来源可能多样。

 

Q:CFPS2018公开数据变量iintervy的label是“最近一次调查个人自答长卷完访年”。我看了下变量值,

怎么从2010年到2017年都有。其中,2016年最多,有23479条记录。调查说明上说目标样本规模为

16000户,即使全部是2+1家庭,两万多的记录也太少了。

A:iintervy是一个加载变量,记录了受访者最近一次接受调查的年份,正如你所看见的,在2010-2017年

都有,大部分受访者是在最近一个调查年份我们成功采访到的,其他是最近一个年份没有采访到但更早的

年份采访到的。这个数目是否合理需要考虑几个因素:1. 16000户是2010年基线调查的目标家户样本数,

实际样本数没有达到这个数目,在2018年调查时我们成功访问的家庭在14000户左右;2. 成功访问的家

庭中包括成人和孩子,个人自答样本中不包括10岁以下的只有家长代答的个体样本。

 

Q:CFPS中关于民族问题的信息采集,如果在2016年未回答该问题,会在CFPS中的qa701题显示新增回

答,往年回答显示为【不适用】;我查看了2016年cfps的民族问题回答,显示的也是新增回答,这样是

否意味着要获得2018年的人口民族信息,需要不断从往年回答中合并相同ID?最后,想请问您那里是否

有2018的人口民族汇总信息?如果有,能否烦请提供?

A:对于2018年之前采集的民族信息,你可以去2016年跨年核心变量库crossyearid中去提取,我们已经

帮用户整理好了历年采集的信息。当然,你也可以自己根据所有之前的数据自行整理。

 

Q: 想问一下为什么2016年关于个人收入的数据中存在大量不适用,只有1/4的有效啊?其他年份似乎没

有这个问题,我是否应该以income变量作为判断标准呢?

A:有关2016年个人收入变量的说明,请参考项目网站上2016年清理报告的第6页:

http://www.isss.pku.edu.cn/cfps/docs/20181229160348287861.pdf

 

Q: 2012年家庭数据中ff4(是否领取养老金)与ff6(几人拿工资)这些数据只有几十个数据,其余是

空值。2010201420162018年家庭数据不存在此类问题,请问2012年以上数据为什么是空置?

A: 这两个问题为2012年家庭问卷电访部分问题,只对参与电访的受访家庭适用。电访部分本来涉及的

观测就少,12年家庭库面访13196条观测,电访119条。相应的面访部分题目请参考调查问卷。

 

Q: 我正在采用贵数据库,做一项关于家庭储蓄的实证分析,但是发现数据中存在很多为零的情况,这

似乎并不符合常理,而且分析的时候也影响很大,所以想询问一下这些零所代表的意义是家庭没有任

何现金及存款还是受访者拒绝透露等其他原因?

A: 访员是按照问卷内容读出的问题,按字面意思来理解,在14年询问的是存款,16-18年询问的是现

金和存款,所以16-18年该题的非0的概率要高于14年。但受访者在回答此类敏感问题时,很可能存在

一定的低报。

 

Q: I am using the marriage data from 2010 to 2016 waves. However, I was confused

about the data on eeb202y ("When did your marriage with E200 end?") in the 2014

wave. There are over 60% of responses for this question and most of the responses

were 2014, which indicated that over 60% of the participants had a divorce in 2014. I

don't think this is likely to be the case in reality.  I checked the answers to the same

question on eeb202y in the 2016 wave and found that only around 1% of participants

had a divorce response. Data on previous waves also show that divorce is not a status

for the majority of participants. I therefore wonder if this unusually large number of

divorce responses on eeb202y in the 2014 wave is an error, and wonder if there are

any ways to fix this issue.

A:The skip patterns for 2014 and 2016 are different, as you may find out from the

questionnaires. In CFPS2016, this question was asked to only the divorcees, but in

CFPS2014, it was asked to both the divorcees and non-divorcees. The English translation

for this question in CFPS2014 is a bit confusing, it should be "Till when does this marriage

last?” If it is ongoing, eeb202c would be 1, and eeb202y records the time of the interview.

We will update our English questionaire. Sorry about the confusion.

 

Q: 想请教下2018年个人自答数据中,所有工作总收入income变量,其中有8260个样本不适用。一部

分是全日制学生,另一部分是什么情况呢?

A: 确认缺失值是否合理需要查看调查问卷。Income的值是否缺失跟jobclass这个变量相关,只有满足

特定类别才会进入工资性收入的提问。详情请查看2018年调查问卷。有关个人收入的一些典型问题,可

以查看我们的“中国家庭追踪调查”

微信公众号上文章:https://mp.weixin.qq.com/s/Ok3uAmIIpU0_uug3Zx4S7Q

 

Q:想请问您,调查问卷中加载项的变量为什么查找不到呢?我在2018个人自答问卷的“I部分 退休与养

老”中想要获取I202题的各类养老保险数据,结果未能发现变量。请问是怎么一回事呢?

A:请注意问卷前面的CAPI描述的加载条件:

【CAPI】

#1 若 I200=1,I202、I203 题干中加载“离退休金”;否则,不加载。

#2 若 I2001=1,I202、I203 题干中加载“各类养老保险”;否则,不加载。

这段CAPI的意思是说,如果I200=1,题干显示为“包括各种补贴在内,您现在税后每月共领取多少离退

休金?”如果I2001=1,题干显示为“包括各种补贴在内,您现在税后每月共领取多少各类养老保险?”

如果二者都为1,则显示为“包括各种补贴在内,您现在税后每月共领取多少离退休金及各种养老保险?”

 

Q:在对CFPS2016,2018年数据进行整理时,发现『最终受教育阶段为高中,年龄44岁以下』的3000多

数据中,关于『具体高中受教育类型』的数据仅有30多个,想咨询是什么原因导致的?

A:由于你没有提供具体的变量名,我们根据你提供的基本信息进行了确认:2018年最高学历为

“高中/中专/技校/职高”且年龄小于44周岁的共有3000左右样本,这些样本中约有600多样本有高中类

信息(根据kw501_b_1变量得出)。请注意问卷中kw501这道题的跳转条件(2018年问卷“教育史”模

第94、95页),是与kw1(离校阶段)相关的,所有不满足跳转条件的均没有回答这道题。如需知道这

些样的高中类型,可尝试从其他年份获取。

 

Q:为什么2016年CFPS 的幸福感数据(qm2014)有95%的“不适用”呢?

A:在调查问卷中M1M模块的前面有一段关于问卷跳转的文字如下。

【CAPI】如果(CFPS_M1M=0 或 CFPS2014_interv=0)且 CFPS_age≤23 岁,继续提问 M1M;

否则跳至 M6。

这里面列举了会跳转到qm2014的条件,这些条件决定了一大批受访者在2016年不会回答这道问题。

 

Q:想问一下父母的ISEI变量是根据2010年家庭关系库的填写情况转换成的(tb_a_f),还是根据后来的、

整合过的SES变量(foccup)转换来的?如果是前者的话,是否意味想要获得缺失值更少、更精确的父

母ISEI变量需要自行用stata包对foccup进行转换?

A:2010年家庭关系库中:父母的ISEI变量TB5_ISEI_A_F是根据TB5_CODE_A_F算的,不是根据后来整

合过的SES变量(foccup)转换来的。想要算出SES变量相对应的ISEI变量需要自行转换。可以参考官网”

数据文档“中的”职业转换Stata do file (仅适用于CFPS2010)“。

 

Q:第二个问题是关于父母egp变量的生成,CFPS没有直接转换给出,想问一下数据库中有没有对应的父

母的雇佣/管理状态变量,让使用者可以自行转换呢?

A:2010年,在家庭成员库中,我们并没有采集父母的雇佣/管理状态变量。

 

Q: 研究中,根据我们关注的变量,筛选出个人数据库中的样本9652人,我们的研究需要找出这

9652人父亲的学历/政治身份。于是我们用cfps2018famconf_202008.dta(2018年CFPS家庭

关系数据库)中相应样本的"pid_a_f"匹配"cfps2018person_202012.dta"(2018年CFPS个

人库)中的“pid”,但只有3665个样本的父亲匹配成功。在这9652个样本中,有大约1400个

样本没有对应的"pid_a_f";另有约4500个样本有相应的pid_a_f,但却无法在个人库当中找

到相应的pid。请问为什么CFPS的家庭关系数据库中的"pid_a_f"变量会有缺失?"pid_a_f"具

体是什么代码,为何有大量的“pid_a_f”在"cfps2018person_202012.dta"(2018年CFPS

个人库)中无法找到可匹配的“pid”呢?

A: 有关父母基本信息变量的整理,

请您参考如下技术报告:http://www.isss.pku.edu.cn/cfps/docs/20201031184248073860.pdf

另外2020年个人问卷中增补了童年回忆模块,数据测试版已经发布,您可以使用此数据集看能不能

再补充一些。

 

Q: 请问,在题项qu701-qu705以及qu301-qu305中的缺失值是如何产生的?是否是由于用户

在题项qu201以及qu202中选择“否”后问卷系统自动将这几题跳过,默认认为受访者不进行

移动和电脑上网则没有与互联网相关的行为活动?

A: 您的理解正确。您可以在相应年份的调查问卷上查找相关问题涉及到的跳转条件语句,一般在该

题前面的部分红字,用[CAPI]字样表示。

 

Q: cfps2010儿童数据库中,有如下两个变量:co_f,tb6_a_f, 表示父亲是否居住在家中。

其中tb6_a_f中的缺失值比较多,请问这两个变量有什么区别吗?如果我想识别父亲是否住在

家中,应该使用哪一个变量?

A: co_f代表父亲是否是CFPS界定的家庭成员(以是否和受访家庭存在经济联系为标准来判断),

tb6_a_f代表父亲是否物理上居住在受访家庭地址上。在2010年数据集中,tb6_a_f只针对co_f=1

(也即经济上同属于一家人)的样本才赋值了有效数值。您可以根据研究需要进行数据处理。

问卷阅读的相关培训视频】:http://www.isss.pku.edu.cn/cfps/download/index#/literature

 

Q:请问您2012年的codebook中,变量qg418est_a_1, qg418est_a_2, qg418est_a_3,

qg418est_a_4, sg418est 的频数都在500以下,这是什么原因呢?

A:阅读项目网站上的调查问卷可知,G418这道题是只有在G417拒绝回答或不知道时才会跳转

到,如果G417存在有效值,G418会被直接跳过。

 

Q:2018年问卷中 qg1203 的含义是“过去12个月从所有工作中获得的工资性收入、奖金、现

金福利、食物补贴”,这和income是不是重复了?

A:您可以阅读调查问卷中的【CAPI】部分,会提示您相关跳转信息:qg1203是对income的校

验。qg1202-qg1203,是对所有工作的总收入校验,incomea和incomeb同时有值的时候,才

会提问。qg1202回答”高了“或者”低了“,会继续提问qg1203。

 

Q:2018年问卷中GD部分第一份工作,开头部分的[CAPI]中#3firstjob 及 mainjob 均有值,且

firstjob=mainjob,跳至 GE 主要工作模块。我的理解是第一份工作和主要工作都有值时,就不

询问GD模块跳至GE模块,因为数据中没有firstjob和mainjob这两个指标,请问我如何区分出

firstjob=mainjob这部分样本呢?我需要收集所有第一份工作胜任岗位教育程度的信息,包括GD

部分有信息的样本和firstjob=mainjob时GE部分的样本,请问要如何操作?

A:根据问卷中第一份工作模块的相关跳转条件,jobstartn≥1的情况下,会生成firstjob。根据GD

入口的跳转条件,排除掉其他五个条件(即:进入GD模块(可根据GD0,GD02,GD01是否有值进

行判断),以及firstj_last=1或gene=0的样本);剩余的就是符合条件3的“#3 firstjob及mainjob

均有值,且firstjob=mainjob”样本。胜任工作的教育程度涉及到两个题目:KGD2和KG1302,GE

部分的样本是否回答KG1302可根据模块内的跳转条件来进行判断。

 

Q:CFPS职业代码分类中,有“无职业者分类及代码”这一项。我发现被记为“无职业者分类”的个人

观测,在“工作状态”中有相当一部分人被记为“在业”。应如何理解“个人有工作,但是无职业”?

换句话说,“无职业者分类及代码”在现实中具体对应什么情况,可否举一两个具体例子帮助我理解?

A:您可以通过调查问卷看到在业的定义(employ=1),不仅是当前有工作,还有其他一些情况(譬如农

闲、生意淡季等)。

 

Q:您好!请问cfps2018年中个人主要工作收入或者个人一般工作收入缺失的情况下如何计算出个人总

收入,又是怎么计算出家庭收入的?

A:工作收入缺失的最主要原因是因为个人没有受雇类型的工作。您可以看个人的状态来计算总收入,譬

如养老金等。经营性收入2018年只在家庭层面采集了,需要通过家庭库查看哪些家庭成员参与了,然后

分割到个人层面。您也可以参考一下如下页面的“综合变量查询表”。

http://www.isss.pku.edu.cn/cfps/wdzx/sjwd/1357481.htm

 

Q:我在使用2020年数据过程中,遇到疑问,特向你们请教变量“kg1302”为什么75.77%的观测值取值

为-8(不适用)?

A:跳转条件需要通过阅读问卷来了解,jobclass=4且工作开始时间在2018年受访之后的才会跳入相关问

题。您也可以借助项目网站上发布的问卷逻辑流程图来理解。

http://www.isss.pku.edu.cn/cfps/wdzx/sjwd/1357482.htm

上一篇: 下面没有链接了

下一篇: CFPS小课堂 | 请不要问我,我“不知道”,我“拒绝回答”......