[中文 | Chinese] 缺失值插补 | Notes of Data Imputation

缺失值插补 | Data Imputation
Original article: Rosenthal, S. (2017). Data Imputation. In The International Encyclopedia of Communication Research Methods (eds J. Matthes, C.S. Davis and R.F. Potter). https://doi.org/10.1002/9781118901731.iecrm0058

缺失值分类

  • 完全随机缺失 (Missing completely at random, MCAR)
    • 数据缺失完全随机,与观察到的和没有观察到的变量都无关
    • 这种缺失情况是可以忽视的
  • 随机缺失 (Missing at random, MAR)
    • 缺失值与未观测到的数据无关,可以和观察到的变量有关
  • 非随机缺失(Missing not at random, NMAR)
    • 缺失值与没有观察到的变量有关
    • 这种缺失情况不可忽视

删除法(case deletion)

  • 最简单的处理方法
  • 整列删除(listwise)
    • 将数据中所有含缺失值的case全部删除
  • 成对删除(pairwise)
    • 如果分析中要用的数据没有缺失就全部用上,有缺失就删掉
    • 比如两变量相关,Web没有缺失,TV没有缺失,NP(Newspaper)有两个缺失。那么计算Web和TV的相关性的时候,用上所有20个样本;计算Web和NP相关性的时候,删掉有缺失的两个,用剩下的18个样本计算。
    • 如果不是完全随机缺失,两种删除方法都会造成偏误,并且样本量会减少。所以需要插补缺失值。

基础插补方法

  • 均值插补
    • 顾名思义,用平均值插补
  • 项目均值取代(Item mean substitution)
    • 用变量的均值取代缺失值
    • 三个问题
      1. 插补的值不能准确代表缺失的个体的情况
      2. 如果缺失值跟观察值的差别很大,那么均值会造成偏误
      3. 用均值插补减少了变异性
  • 个体均值取代(person mean substitution)
    • 用同一个样本概念上相近的几个变量的均值取代缺失值。比如K号个体报纸(NP)的缺失用Web和TV使用的均值取代
    • 但是所谓概念相近的假设可能是错误的
  • 回归插补(regression imputation)
    • 也称conditional mean imputation
    • 两步:
      1. 估计出回归方程:需要插补的变量是因变量,用其他变量作为自变量,先用listwise处理。比如NP需要插补,那么用Web和TV作为自变量预测缺失的NP,估计出回归方程。
      2. 将缺失的那个样本的Web和TV数据带入这个回归方程,求出需要预测的缺失的NP,替换缺失值
  • 问题:会减少数据原本的误差部分,同时增加了Type I error
  • 热卡插补(hot-deck imputation)
    • 利用相似个体的值去补全缺失的变量。
    • 比如A和B的性别和教育相似,那么用B报纸使用的值(NP)去替换A报纸的缺失值。
    • 比较适合类别变量。
    • 这几种方法中,热卡插补是最准确的。在缺失值不超过10%的情况下很好,但是如果非随机缺失超过了10%,需要用更高级的插补方法。

高级插补方法

  • 期望最大算法(Expectation maximization,EM)
    • 一种迭代的算法,先用那些完整的数据算期望(E-step),然后再最大似然估计(M-step),再算期望……最后迭代得到插补的值
    • 可以得到一个完整的数据集,可用于许多统计的分析方法。
    • 问题是使用了观察值计算的参数,可能减少了测量误差,增加了Type I error的概率。
    • SPSS有这个功能
  • 完全信息最大似然法(Full information maximum likelihood,FIML)
    • 比EM的偏误更少,使用了所有获得的数据(full information)
    • 本质上其实不是插补缺失值的方法,而是使用所有能获得的信息分析数据的方法。
    • 在使用信息这一点上有点像pairwise,但是pairwise把数据删了,这个没删。
  • 多重插补法(Multiple imputation,MI)
    • 顾名思义,使用多种插补方法插补缺失值,所以会得到好多个数据集,然后用特殊的公式去整合。
    • 但是这个方法计算量特别大。如果是完全随机缺失,并且单个item的缺失值少于10%,5次就足够了。如果缺失值特别多(比如超过50%),可能要40次。

限制还是兼容?

  • Restrictive versus inclusive methods [这里按照自己理解翻译的,没去查]
  • 可以发现很多插补方法都是利用模型估计插补的,利用模型估计就需要选择使用哪些变量去估计缺失值。
  • restrictive的方法就是选择一部分变量作为自变量去估计,选择的自变量是跟需要估计的变量相关。
  • inclusive的方法就是再使用辅助变量估计参数,不管自变量与需要估计的变量有没有关系。这种方法更好,因为避免了遗漏变量的问题(放入无关变量不会有什么损失)。

计划中缺失(Planned missingness)

  • 有时问卷调查中会使用有计划缺失的研究设计,比如split-ballot, matrix sampling和three-form design。这样的研究设计中,被调查者只回答一部分问题,剩下的问题不回答,所以产生了计划中的缺失。
  • 如果受访者完整的回答了他们需要回答的那些问题,这时数据缺失属于完全随机缺失,很多数据插补的方法都可以使用。
  • 但是很多时候我们遇到的都是非计划内的缺失,此时完全随机缺失未必满足,这时就需要用一些比较稳健的插补方法,比如EM,FIML和MI这样的,以减少偏误。有时一些计划中的缺失的研究设计也会导致类似问题(不是完全随机缺失),这时也要用到这些比较稳健的插补方法。

不合理值以及取整 (Implausible values and rounding)

  • 插补后的数据有时会有一些不合理值,比如原本的测量是1-7的Likert scale,但是插补完之后出现不在这个范围之内的(e.g., 负值)。SPSS的MI功能可以让我们限制缺失值插补的范围,但是这样的限制可能会带来偏误。一般来说,当缺失值插补产生了一些不合理值的时候,不需要调整这些被插补的值。
  • 同样,被插补的值很多时候都有小数点,可能跟原来的量表也不符合,有时可能会想要把这些小数去掉,但是这样做也会带来不必要的变异,对测量的信度造成损害。

Leave a comment