You are on page 1of 15

IEEE Transactions on ingeniería de software, vol. 27, NO.

11, noviembre de 2001 999

El análisis de conjuntos de datos con datos faltantes: Una


evaluación empírica de los métodos de imputación
y métodos de probabilidad Basado
Ingunn Myrtveit, Erik Stensrud, Miembro, IEEE, y Ulf H. Olsson

Resumen datos ÐMissing se encuentran a menudo en los conjuntos de datos utilizados para construir modelos de predicción de esfuerzo. Hasta ahora, la práctica común ha sido ignorar las
observaciones con los datos que faltan. Esto puede resultar en modelos de predicción sesgados. En este trabajo se ha valorado cuatro técnicas que faltan datos (EMD) en el contexto del
coste de modelado de software: la eliminación por lista (LD), asignación de valores medios (MI), imputación patrón de respuesta similar (SRPI), y la información completa de máxima
verosimilitud (FIML). Aplicamos los EMD a un conjunto de datos de ERP, y después construir modelos de predicción basada en regresión utilizando los conjuntos de datos resultantes. La
evaluación sugiere que sólo FIML es apropiado cuando los datos no están perdidos completamente al azar (MCAR). A diferencia de FIML, modelos de predicción construidos el LD, MI y
SRPI conjuntos de datos se hará con preferencia a menos que los datos son MCAR. Además, en comparación con LD,

Términos del Índice ÐSoftware predicción esfuerzo, estimación de costos, los datos que faltan, métodos de imputación, eliminación por lista, significa imputación, similar imputación patrón de

respuesta, la información completa de máxima verosimilitud, ERP log-log de regresión,.

1 I INTRODUCCIÓN
Otra razón de los valores que faltan es que algunos valores son los llamados
METRO
conjuntos de datos niería que se utilizan para construir modelos de
ISSING los datos se encuentran a menudo en el software de inge- valores silvestres. Un valor salvaje es un valor que sabemos que es falso. Por
predicción esfuerzo [37], [13]. La base de datos del software de Benchmarking ejemplo, si un esfuerzo reportado es negativo, sabemos que debe ser falso.
Standards Group Internacional (ISBSG) no es una excepción. Tiene una gran fracción Típicamente, un valor salvaje es debido a un error de punzonado. También, puede
de los datos que faltan, en algunas variables más de 40 por ciento [4], [16]. el ERP 1 conjunto
ser debido a que alguien que no sabía cómo medir e informar de esa variable
de datos presentados en este documento también incluye varias observaciones con correctamente. Un procedimiento de selección de datos común es reemplazar valores
los datos que faltan en una o más variables. silvestres mediante ªmissingº de este modo la creación de valores que faltan
adicionales. Se debe observar que un valor salvaje no es sinónimo de un valor
Hay varias razones por las observaciones pueden tener valores que faltan. atípico, una observación periféricas.
Alto costo de recolección de datos puede hacer que los valores que faltan. El
costo de la recopilación y notificación de datos de proyectos de software es no Sin embargo, otra razón por la que las observaciones pueden tener valores que faltan es que

algunos de los encuestados simplemente no informan de algunas de las variables por alguna
despreciable. DeMarco estima que constituiría un 5 a 10 por ciento del costo total
razón.
[11]. A partir de nuestra experiencia personal como director del proyecto ERP,
Básicamente, hay tres maneras de manejar los datos faltantes. Una opción es
sabemos que algunos datos de hecho cuestan más para recoger. Por ejemplo,
eliminar por observaciones incompletas eliminación por lista (LD). Alternativamente, se
es más difícil, y, por lo tanto, costoso para recoger datos sobre las interfaces y el
puede rellenar los agujeros de algunos imputación método. Una tercera opción es utilizar
esfuerzo que en usuarios, sitios y módulos. Por lo tanto, lo que esperábamos, y un método modelbased. En los dos primeros casos, completa de los casos métodos de
sí encontró, que hay valores que faltan en más Interfaces y esfuerzo que en los análisis se pueden aplicar a los datos completos resultantes establecidos mientras que
usuarios, sitios, y los módulos (ver Tabla 1). una modelo- método basado como la información completa método de máxima
verosimilitud (FIML) es capaz de analizar conjuntos de datos incompletos directamente.
Es decir, se trata de una en método de análisis CompleteCase.

1. En realidad, la reingeniería paquete habilitado (PER) proyectos aplicar la planificación de recursos


empresariales (ERP) Los sistemas. Por lo tanto, la projectº ªPER término es más apropiado que el término
Hasta ahora, la práctica común cuando los modelos de predicción de esfuerzo
project.º ªERP Sin embargo, hemos optado por utilizar este último ya que el término ERP recientemente
se ha convertido en un término establecido en la comunidad de investigación con el abril de 2000, vol. 43, construcción de tipo de regresión ha sido aplicar un procedimiento de dos etapas, que
no. 4, número de la Comunicaciones de la ACM. consiste en ignorar los datos que faltan (usando LD) antes de aplicar el análisis de
regresión para construir el modelo de predicción de esfuerzo. LD se utiliza de forma
rutinaria ya que la mayoría de paquetes estadísticos utilizan LD por defecto. Además,

. Los autores son con la Escuela Noruega de Administración, PO Box 580, N-1301 Sandvika, algunos modelos de predicción basados ​en el esfuerzo de aprendizaje automático el uso
Noruega. LD por defecto. Un ejemplo es la estimación por analogía como se aplica en Angel [34].
E-mail: {ingunn.myrtveit, erik.stensrud, ulf.olsson}@bi.no. Manuscrito recibido el 01 de enero de 2001;

revisado 01 mayo de 2001; Aceptado 01 de agosto


2001.
Por desgracia, LD tiene varios inconvenientes. La desventaja más obvia es
Recomendado para la aceptación por S. Pfleeger.
Para obtener información sobre cómo obtener reimpresiones de este artículo, por favor envíe un correo electrónico a:
que se descarta una cantidad considerable de información. Esto es
tse@computer.org, y referencia IEEECS Entrar Número 114703. especialmente desafortunado en empírica

0098-5589 / 01 / $ 10.00 ß IEEE 2001


1000 IEEE Transactions on ingeniería de software, vol. 27, NO. 11, noviembre de 2001

ingeniería necesita adquirir un mayor conocimiento de los métodos y técnicas


TABLA 1
Estadística descriptiva para el conjunto de datos de ERP
que pueden ser aplicables [1]. En concreto, es necesario entender las
limitaciones de la aparentemente inocente y ampliamente utilizado y abusado,
LD.
Evaluamos una selección de EMD ampliamente aplicadas. Los EMD hemos
investigado son la eliminación por lista (LD), la media de imputación (MI), patrón
de respuesta similar imputación (SRPI) y el método de máxima verosimilitud
información completa (FIML). La motivación para la selección de MI es que se
trata de un recurso rápido y probablemente el más ampliamente utilizado MDT
(excepto LD, por supuesto). SRPI ha sido seleccionada porque es reciente y
debido a que el método de identificación de observaciones similares tiene un
atractivo intuitivo para los investigadores y profesionales de ingeniería de
software en comparación con,

por ejemplo, los más avanzados múltiples técnicas de imputación. Además,


parece simple de aplicar. FIML se ha elegido porque es basado en modelos. Se
debe observar que FIML es un MDT, así como una técnica de análisis de
ingeniería de software debido a que los conjuntos de datos por lo general son pequeños (es
regresión al mismo tiempo. A diferencia de FIML, que es basado en el modelo,
decir, N << 100). La eliminación de las observaciones de los pequeños conjuntos de datos los
todos los otros EMD están basadas en el muestreo.
hace aún más pequeña, en algunos casos tan pequeño que deja de tener sentido para
construir un modelo de predicción basado en el esfuerzo de regresión de los datos restantes.
La pregunta de investigación general se investiga es si cualquiera de los EMD agregar
En tal caso, el modelo de predicción esfuerzo no inspira mucha confianza.
valor en comparación con discapacidad de aprendizaje y en el caso, bajo qué
circunstancias se pueden agregar valor. En otras palabras, ¿hay alguna razón en absoluto
Por último, pero no menos importante, además de la evidente pérdida de
por qué los investigadores y profesionales de ingeniería de software no pueden seguir
información, puede introducir un LD parcialidad en los datos. Esto ocurre si las
utilizando ªthe mismo procedimiento como de costumbre, es decir, º, LD y no preocuparse
observaciones completas no son una submuestra aleatoria de la muestra original (e
de los datos y los EMD falta?
incompleto). Creemos que es necesario hacer hincapié en este punto. El LD
aparentemente inocente no trata correctamente con los conjuntos de datos
En el contexto de la construcción de modelos de predicción de esfuerzo software
incompletos cuando los valores son no perdidos completamente al azar. La implicación
usando datos históricos, se debe observar que somos dependientes de los conjuntos de
de la construcción de un modelo de predicción en un esfuerzo conjunto de datos
datos que son representativos de la población real. Sólo en la medida en que el conjunto
sesgados debido a un uso inadecuado de LD es que el modelo de predicción será
de datos que nos ocupa, la muestra, refleja la población conjunto de datos (es decir, el
parcial y, por lo tanto, engañosa. Se puede estar sesgada de forma peligrosa. Por
conjunto de datos que comprende todas pasado, así como todos los proyectos futuros)
ejemplo, el modelo puede ser sesgada por lo que aparentemente funciona
podemos confiar en los resultados derivados de ella. En la ingeniería de software en
extremadamente bien en términos de precisión, demasiado bien, por lo tanto seducir
general, y los proyectos de ERP, en particular, la cierto modelo de predicción esfuerzo
al usuario para que las expectativas poco realistas respecto precisión de la predicción.
casi nunca se sabe. Sin embargo, si varias muestras confirman todos el mismo modelo,
creemos que el modelo de la muestra es una buena aproximación del verdadero modelo
de población. Esta es una manera de validar el modelo. Además, es probable que estas
muestras son verdaderos submuestras de la población. Por lo tanto, un propósito de
Hay, por lo tanto, varias razones para tomar el buen cuidado de todos los datos
EMD aplican es obtener conjuntos de datos que se espera sean muestras más
y no sólo eliminar observaciones incompletas. Por lo tanto, el interés en técnicas
representativas
alternativas datos que faltan (EMD) que desperdician menos información que LD y
es de esperar son más robustos que LD contra el sesgo causado por los datos que
faltan no aleatorias.
de la población real. Los modelos de predicción basados ​en la muestra serán
entonces más representativa de la cierto modelo de predicción lo que significa
Intuitivamente, la imputación o basado en equipos multidisciplinarios basados ​en
que las cifras de precisión nos proporcionarán expectativas realistas en lugar
modelos parecen ser las opciones más atractivas que LD que simplemente descarta
de seducirnos a creer en un falso alto (o bajo) la precisión.
observaciones incompletas. También debe observarse que los EMD se aplican
ampliamente en otras disciplinas como las ciencias sociales.
La pregunta general de investigación, es decir, si alguno de los EMD agregar valor en
comparación con discapacidad de aprendizaje, se ha traducido en una serie de preguntas de
A nuestro entender, esta es la primera vez que una evaluación crítica de muestreo-
investigación más específicas. Las preguntas de la investigación sobre los EMD en el contexto
basado (por ejemplo, y LD a base de imputación), así como modelo- EMD base se
de la construcción de modelos de predicción basados ​en el esfuerzo de regresión son los
informa en el contexto de la construcción de modelos de predicción de esfuerzo,
siguientes:
haciendo hincapié en las ventajas, las consecuencias y peligros de los diferentes
equipos multidisciplinarios. Hasta donde sabemos, no existen estudios empíricos de . ¿Alguno de los EMD (incluyendo LD) robusta contra el sesgo causado por
FIML con datos reales. los datos que faltan no aleatorias?
. Puede ser cualquiera de los EMD (incluyendo LD) en realidad
La principal contribución de este trabajo es examinar si o no los EMD introducir un sesgo (que no existía antes de la aplicación del MDT)?
cumplen lo que prometen y sus ventajas y desventajas. Esta es una pieza Se trata de una propiedad indeseable de un MDT si se introduce un
necesaria del conocimiento con el fin de realizar estudios empíricos en sesgo.
ingeniería de software correctamente. En general, los investigadores en el . En qué medida lo hacen los EMD evitar la pérdida de información? Por
software empírica ejemplo, si la aplicación de los resultados de LD en
MYRTVEIT ET AL .: DATOS análisis de conjuntos de datos faltantes: una evaluación empírica de los métodos de imputación Y ... 1001

un conjunto de datos que es demasiado pequeño y, por lo tanto, inadecuado estadística descriptiva, donde se proyectarán los proyectos activos a menos que estuvieran
para el análisis de regresión, pueden cualquier otro EMD evitar la pérdida de tan cerca de la terminación que reportaron valores podrían ser tratados como actuales para
información en la medida que el conjunto de datos se convierte en utilizable y se nuestro propósito.)
presta a un análisis de regresión? En la Tabla 1, también observar que el esfuerzo tiene valores más que faltan ( norte ?? 77)
lo cual no es sorprendente. Más sorprendente, EDI (Intercambio Electrónico de Datos),
. Son los datos del ERP perdidos completamente al azar? Si no es así, que los también, tiene muchos valores que faltan ( norte ?? 64). Probablemente, EDI no falta
EMD son apropiadas, si las hay? Además, nos dirigimos a algunas preguntas de completamente al azar (es decir, no-MCAR). Tenemos la sospecha de que algunos de los

investigación en relación con los modelos de predicción del esfuerzo de manera más valores del IDE que faltan están en ceros hecho, pero no todos. Por lo tanto, sería un error

directa. para reemplazar todos los valores del IDE perdidos con ª0.º Además, un conjunto de datos
que requiere MDT MCAR pueden no ser apropiados para imputar EDI.
. Es la especificación del modelo (en términos de la elección de las
variables y la elección de un modelo no lineal) correcta? Dado que no
existe un "verdadero" modelo para la predicción esfuerzo de proyectos de Creemos que las otras variables son propensos MCAR. No tenemos
ERP, que de alguna manera hay que validar la especificación del modelo. ninguna razón para sospechar que los datos que faltan en estas variables
Un método de validación es investigar si diferentes métodos convergen. aleatorias. La principal razón de los muchos valores que faltan en las interfaces,
En nuestro caso, se investiga si los modelos de regresión construidos conversiones, modificaciones y Reports es que hemos incluido proyectos activos
sobre los diversos conjuntos de datos convergen. En general, esta es una en este estudio. proyectos activos, naturalmente, no tienen datos reales para
buena idea en la ingeniería de software, ya que no sabemos cuál es el todas las variables como algunos de ellos no se conocen hasta la finalización
verdadero modelo es similar. No tenemos modelos basados ​en una base del proyecto. Otra razón potencial para los valores que faltan es que se necesita
teórica sólida. Por el contrario, nuestros modelos son más exploratorio, más esfuerzo para contar estas variables que recoger el recuento de usuarios,
más comparados a hipótesis sobre la naturaleza de los proyectos de sitios, plantas y módulos. Sin embargo creemos que ello representa muy pocos

software.
valores que faltan.

Las medidas de tamaño para el tamaño de este tipo de proyectos de ERP es el


. Dada una especificación del modelo correcto y un conjunto de datos
estándar intraorganizacional. Está más allá del alcance de este documento para
representativo, qué grado de exactitud podemos esperar realmente? En
explicar estas medidas de tamaño. Los lectores interesados ​pueden a [36] para la
otras palabras, ¿cuál es la exactitud del modelo de predicción menor
definición de las medidas.
esfuerzo sesgada,
Los datos fueron recogidos desde 1990 hasta 1998 en una organización
es decir, del modelo más cercano al modelo verdadero (o población)?
consultora multinacional (Accenture, anteriormente Andersen Consulting) con
70.000 empleados. Los proyectos abarcan muchos sectores y países en todas
Nuestra evaluación general sugiere que el modelo de predicción basado en el esfuerzo
las regiones del mundo.
FIML es el menos sesgada para el conjunto de datos de ERP. En segundo lugar viene el
modelo de regresión construido en el conjunto de datos LD. En nuestro caso, el conjunto de
Los datos han sido reportados por los directores de proyectos que a su vez
datos LD era suficientemente grande como para permitir la construcción de un buen modelo
utilicen la base de datos para planificar y estimar los proyectos futuros. La empresa
de predicción de tipo de regresión. Sin embargo, los otros EMD pueden ser buenas opciones
cuenta con una metodología estándar de ERP. Por lo tanto, los datos presuntamente
cuando los resultados LD en un muy pequeño conjunto de datos. El patrón de missingness y se ha informado de una manera consistente. Ver también [35], [27] para una
la fracción de los datos que faltan son consideraciones importantes al momento de decidir evaluación de la calidad de los datos.
entre MI y SRPI.

3 M ISSING re ATA T (ECHNIQUES MDT S)


2 ERP D ATA
técnicas de datos que faltan (EMD) pueden ser más o menos agrupados en:
El conjunto de datos consta de 176 proyectos de ERP activos y terminados.
Todos los proyectos de ERP en la muestra implementan sistemas ERP de un solo
proveedor de ERP: SAP. Ciento setenta proyectos han implementado la versión 1. técnicas haciendo caso omiso de observaciones incompletas,

cliente-servidor (R / 3) de SAP. Seis proyectos han puesto en marcha la versión 2. las técnicas basadas en la imputación,

del mainframe (R / 2). Por lo tanto, se trata de un conjunto de datos homogénea. 3. técnicas de ponderación, y
Las variables incluyen diez medidas del tamaño del ERP (variables predictoras) y 4. Las técnicas basadas en modelo [22]. técnicas de ponderación no se

esfuerzo total como variable de respuesta. La estadística descriptiva para el presentan en este documento. La técnica más simple es ignorar observaciones
conjunto de datos se proporcionan en la Tabla 1. (ª norte º significa ª norte missing.º) incompletas mediante la aplicación de eliminación por lista (LD). LD es fácil de llevar
Todos los valores que faltan son realmente falta. No tenemos ninguna respuestas a cabo y se implementa por defecto en la mayoría de los paquetes estadísticos.
ªdon't knowº. Observamos que los proyectos van desde 102 a 111,420 días de Puede ser satisfactoria con pequeñas cantidades de datos que faltan. El
trabajo días de trabajo. inconveniente es que su aplicación puede resultar en demasiado pequeños
conjuntos de datos si la fracción de los valores que faltan es alta. Otro inconveniente
serio con LD es que puede conducir a graves sesgos si los datos no están perdidos
No hemos eliminado los proyectos activos ya que existen datos reales para al azar.
muchas de las variables predictoras y se presentan al principio del proyecto. Por
ejemplo, usuarios, sitios, plantas, empresas, y módulos forman parte del alcance Imputación basada métodos de reemplazar los valores perdidos por estimaciones
del proyecto (y, así, el contrato) y por lo tanto se conocen después de un análisis adecuadas. Esto permite de datos completa métodos estadísticos estándar como el
inicial. (En una versión anterior conferencia [28], proporcionamos análisis de mínimos cuadrados ordinarios (OLS) de regresión que se aplicarán al
conjunto de datos imputada.
1002 IEEE Transactions on ingeniería de software, vol. 27, NO. 11, noviembre de 2001

Hay varios métodos de imputación. Un recurso simple y común es asignación de ocurrirán dos casos. 1) Hay un solo proyecto segundo que minimiza (1). En este caso, y
valores medios ( MI) [22], [23]. Otro, técnica más reciente es la imputación imputación
ka se sustituye con y kb. 2) Hay norte proyectos que reduzcan al mínimo todos los (1). dejar

patrón de respuesta similar ( SRPI) propuesto por Jùreskog y Sùrbom [18]. El que su los valores de y ser
inconveniente con los EMD a base de imputación es que los valores artificiales y k 1; . . . y kn. En este caso, y ka se sustituye con la media de
se sustituyen por los valores que faltan causando potencialmente un sesgo. y k 1; . . . y kn, y k MEDIA. A diferencia de la mayoría de otros EMD como, por ejemplo, MI,
Este conjunto de datos potencialmente sesgado se trata después como real en funciones SRPI con continua, así como con variables ordinales [20]. También
el subsiguiente análisis de datos, lo que conduce a resultados sesgados. debe observarse que una característica de SRPI es que no culpa de un valor si
la distancia entre el juego y la meta caso es demasiado grande. En otras
palabras, SRPI nos protege hasta cierto punto de conseguir observaciones
basado en modelos ( o) los métodos basados ​en la verosimilitud no eliminan ni extrañas durante la imputación.
observaciones incompletas ni reemplazar los valores perdidos por la imputación. Más
bien, estas EMD definen un modelo para las inferencias de datos y de base La información completa de máxima verosimilitud (FIML). FIML es una modelo-
parcialmente que faltan en la probabilidad de conformidad con ese modelo, con método basado en contraposición a MI y que son SRPI muestreo- basado. FIML
parámetros estimados por métodos tales como de máxima verosimilitud. los información se basa en el principio de maximizar el logaritmo de la verosimilitud. La máxima
completa de máxima verosimilitud ( método FIML) es basado en modelos. Una ventaja verosimilitud o ML-estimador es bien conocida en la literatura por su eficiencia y
de este enfoque es que los supuestos del modelo pueden ser evaluados en se aplica en la mayoría de software estadístico para el tratamiento de análisis
comparación con hoc métodos de imputación basada en la toma de muestras de multivariante con completar conjuntos de datos. Hasta hace poco, ML estimación
anuncios como MI y SRPI donde no hay supuestos del modelo que pueden ser de incompleto conjuntos de datos no ha sido una opción en los paquetes de
evaluados [22]. software debido al esfuerzo computacional. Software como LISREL [17], Amos
[6], y Mx [29] ofrece la FIML-estimador cuando estén presentes los datos que
En este trabajo, se evalúa y se discute la LD, MI, SRPI y enfoques FIML y faltan.
comparar los tres últimos contra LD. LD, por lo tanto, sirve como una línea de
base.
FIML asume que los datos provienen de una distribución normal
3.1 MI, SRPI y FIML multivariante y maximiza la probabilidad de que el modelo teórico dado los
Asignación de valores medios (MI). Un método común de imputación de datos datos observados. estimación de máxima verosimilitud de los datos
faltantes es la sustitución de la media aritmética. Anderson et al. [2] incompletos se ha abordado por varios autores incluyendo Anderson [1],
proporcionar la siguiente justificación; ªIn el caso de distribución normal, la Browne [8], Little y Rubin, [22], [23], Muthen et al. [26], Arbucle [5], y Neal [29].
media de la muestra proporciona una estimación óptima de la valueº más
probable (p. 425). Aunque uno puede imputar todos los valores que faltan de X yo,
la varianza de X yo se reducirá, ya que todos los valores de X yo que se añaden En comparación con los métodos basados ​en el muestreo como MI y SRPI, la
contribuirá en nada a la varianza. El uso de MI afectará a la correlación entre ventaja de los métodos basados ​en la verosimilitud como FIML es que los
la variable imputada y cualquier otra por la disminución de su variabilidad. resultados no estarán sesgados incluso si los datos no están perdidos
Además, si un gran número de valores se imputa usando la media, la completamente al azar. (Ver más sobre esto en la sección ªMAR y MCAR.º) FIML
distribución de frecuencias de la variable imputada puede ser engañoso también es robusto a los datos que no cumplen completamente con el requisito de
porque demasiados valores céntricos crean un más leptocúrticas (slim o de distribución normal multivariante [7]. El inconveniente con métodos de máxima
cola larga) de distribución [30]. verosimilitud es que requieren relativamente grandes conjuntos de datos. Estudios
de simulación para completar conjuntos de datos han demostrado que el estimador
de chi-cuadrado ?? norte ÿ 1 ?? F ML es inexacta para muestras bajo 100 [7], [3]. Por lo
Similar imputación patrón de respuesta (SRPI). En el presente trabajo, hemos tanto, es razonable suponer que se requiere un tamaño de muestra similar para
utilizado el SRPI método de imputación tal como se aplica en la herramienta FIML (es decir, las muestras con cerca de 100 observaciones completas y más de
estadística PRELIS 2,3 [19]. La idea detrás de la técnica SRPI es identificar el 100 cuando se incluyen observaciones incompletas). Por lo tanto, puede ser un
proyecto más similar sin las observaciones perdidas y copiar los valores de este problema para aplicar FIML en ingeniería de software donde los conjuntos de datos
proyecto para rellenar los agujeros en el proyecto con los valores que faltan. los menos a menudo son demasiado pequeños (es decir, ?? N << 100). El procedimiento FIML
criterio de los cuadrados en el espacio normalizado se usa como la medida de se presenta en el Apéndice procedure.º ªFIML
similitud. El conjunto de variables utilizado para definir el espacio multidimensional se
llama pareo variables. Formalmente, el método se establece de la siguiente manera.

3.2 Otras técnicas de imputación


Dejar y 1; . . . y pag ser las variables que han de estudiarse, y dejar
X 1; . . . X q ser las variables características determinadas. Dejar z 1; . . . z q ser los valores Regresión imputación (RI) ( también llamada condicional asignación de valores

estandarizados de X 1; . . . X q. Por otra parte, dejar y k ser la variable cuyos valores perdidosmedios). Un método alternativo sería estimar los valores que faltan mediante el uso
se debe ser imputado. deje proyecto una ser un proyecto donde y k no se encuentra y de análisis de regresión. Este método sustituye los valores perdidos por los valores

que es completa en las variables coincidentes X 1; . . . X q. Encontrar todos los proyectos previstos de una regresión del artículo que falta en artículos observados ser la

que ya estén fabricados en las variables coincidentes unidad. Sin embargo, no se consideró este enfoque en este documento como
estamos aplicando análisis de regresión para el conjunto de datos imputados.

X 1; . . . X q así como en y k y que minimicen

X norte imputación de cubierta caliente (IDH). imputación de cubierta caliente reemplaza los
?? z bj ÿ z aj ?? 2: ?? 1 ??
valores que faltan mediante la elaboración de una estimado
j ?? 1
distribución para cada valor faltante. Es común el uso de la
MYRTVEIT ET AL .: DATOS análisis de conjuntos de datos faltantes: una evaluación empírica de los métodos de imputación Y ... 1003

muestra distribución de las unidades que responden como la distribución (o cubierta) significa que la probabilidad de que Interfaces = 3 no se encuentra es igual a la
para aprovechar. El uso de un método simple de la cubierta caliente como un ejemplo, probabilidad de que Interfaces = 4 no se encuentra y, así, en para cualquier valor de
en la Tabla 17 el valor que falta para la observación 6 en la variable X 9 podría ser Interfaces.
imputada con uno de los valores observados en X 9 ( es decir, 10, 20, 30, 40, o 50). ¿Qué MAR. Sea X la variable aleatoria en estudio, y sea Z un conjunto de
valor que realmente se escogió de X 9 en las observaciones 1-5 depende de las variables predictoras. Si P (X | x falta, Z) = P (X | X observó, Z), a continuación,
características específicas del método de la cubierta caliente. Un método HDI sencilla las características de distribución de X es condicional en un conjunto de
sería la de asignar la misma probabilidad a todos los valores observados en X 9 ( es decir, variables predictoras. Es decir, la distribución de X no se ve afectada por los
que cada valor observado en X 9 valores que faltan para X 2 Z. En otras palabras, la probabilidad de que las
interfaces no se encuentra (o se observa) depende del número de usuarios, (o
tiene una oportunidad en cinco para ser recogido) y luego usar un generador de Sitios, módulos, o esfuerzo), pero es independiente del número de interfaces.
números aleatorios para seleccionar uno de los cinco valores observados. Por ejemplo, si hay más valores que faltan para las interfaces en proyectos
Observación 6, variables X 9, sería entonces ser imputado con el valor seleccionado. con pocos usuarios que en proyectos con muchos usuarios, los datos son
Debe observarse que SRPI pertenece a la clase de cubierta caliente. A diferencia todavía MAR, pero ya no MCAR. Por lo tanto, la condición MAR es más débil
del ejemplo anterior simple, SRPI recoge el vecino más cercano en lugar de dibujo que la condición MCAR.
de la muestra al azar.

La imputación múltiple. La imputación múltiple significa que uno imputa varias veces métodos basados ​en el muestreo, tales como MI y SRPI asumen que los datos
la creación de varios conjuntos de datos completos, imputados. Por ejemplo, podríamos son MCAR mientras que los métodos basados ​en modelos como FIML solamente
utilizar el sencillo procedimiento de la cubierta caliente descrito anteriormente para asumir los datos son MAR [22]. Los estudios de Muthen et al. [26] y Little y Rubin [23]
imputar el valor que falta para la observación 6 en X 9 es decir, recogiendo uno de los también sugieren que el uso de FIML reducirá el sesgo incluso si la condición no es
números estrictamente MAR reunió. Es decir, las estimaciones son consistentes FIML y
10, 20, 30, 40, o 50. Digamos que tomamos el valor 50. De manera similar, eficiente incluso si la condición no es estrictamente MAR reunió. Por desgracia, no hay
tendríamos asimismo imputar el resto de valores de la Tabla 17 que faltan para formas fáciles de encontrar a cabo empíricamente
obtener un conjunto completo de datos. Llamarlo conjunto de datos 1. Hasta ahora, es
la imputación sencilla. Ahora, la imputación múltiple es repetir este procedimiento si una distribución de la muestra es MCAR, MAR, falta o no al azar. Un
varias crear conjuntos de datos completos. Supongamos que la próxima vez nos conocimiento a priori tanto, es necesario con el fin de decidir sobre este
acercamos al azar para llenar en la observación de 6 X 9 escogemos el valor 10 asunto. Por ejemplo, si muchos de los proyectos que no implementan ningún
(diferente de 50 en el conjunto de datos 1). Es habitual para crear Edis no se molestan en informar EDI = 0, no podemos prever todas las
pruebas que ayuden a descubrir esta anomalía. Más bien, tenemos que saber
METRO ?? 3 o METRO ?? 5 datos completos establece cuando se utiliza la que Edis no faltan al azar.
imputación múltiple. métodos estándar de datos completa se utilizan para analizar
cada conjunto de datos. Cuando los M conjuntos de imputaciones se repiten al azar
dibuja bajo un modelo para la falta de respuesta, las inferencias de datos completa M
4 M ÉTODO DE UNA ENFOQUE
se pueden combinar para formar una inferencia que refleja correctamente
incertidumbre debido a la falta de respuesta en virtud de ese modelo. Para obtener El método de enfoque generalmente es un procedimiento de dos etapas. En primer lugar,
más detalles sobre cómo y ecuaciones para formar una inferencia a partir de los un MDT se aplica a los datos originales establecidos de los datos faltantes que resulta en
conjuntos de datos M ver Rubin [31]. Se debe observar que la imputación múltiple un conjunto de datos completa de los casos. A continuación, un modelo de predicción de
requiere que el método de imputación básica dibuja valores a ser imputadas al azar esfuerzo se construye sobre los diversos conjuntos de datos mediante la aplicación de
de una distribución. Por lo tanto, SRPI no se puede combinar con la imputación mínimos cuadrados ordinarios (OLS) análisis de regresión. Los conjuntos de datos se
múltiple, ya que recogería el mismo valor cada vez por un valor que falta dado. denominan de LD, OLS MI, y SRPI, respectivamente, y los modelos de predicción se
denominan LD, MI OLS, y OLS SRPI, respectivamente. A diferencia de LD, MI, y SRPI,
FIML es un procedimiento de una etapa donde el modelo se construye directamente sobre
el conjunto de datos existente, original sin modificar de cualquier manera primero. Por lo
Hay algunos métodos adicionales que parecían menos aplicable a nuestro tanto, el término FIML se aplica al conjunto de datos, así como al modelo.
caso. Los lectores interesados ​se denominan [22].

3.3 MAR y MCAR


Si los datos que faltan son no falta al azar, el análisis de datos puede conducir Especificación 4.1 Modelo
a resultados sesgados a menos que el método de análisis es capaz de corregir Se determinó el modelo, es decir, el subconjunto de variables de predicción,
el sesgo causado por los datos que faltan no aleatorias. El pequeño y Rubin antes de aplicar el LD, métodos MI, SRPI y FIML. El subconjunto de variables
[22] distinguir entre dos tipos de datos que faltan al azar, perdidos predictoras consideradas más importante fue determinado principalmente por
completamente al azar (MCAR) y perdidos al azar (MAR). el conocimiento experto. (Uno de los autores es un jefe de proyecto ERP con
experiencia.) Puesto que nadie sabe el modelo ªtrueº, también se aplica mejor
MCAR. Sea X la variable aleatoria en estudio. Si P (X | x que falta) = P (X | X regresión subconjunto para confirmar el modelo sugerido por el experto. Mejor
observado), entonces la distribución de X no es afectado por los valores que faltan. regresión subconjunto se aplicó a todos los datos originales, disponibles.
En otras palabras, la probabilidad de que, por ejemplo, las interfaces no se
encuentra (o se observa) es el mismo para todos los proyectos,
independientemente del número de interfaces o el número de usuarios, sitios, Como alternativa, podríamos haber aplicado mejor regresión subconjunto de cada
módulos, y esfuerzo. En este caso los valores observados de Interfaces forman una conjunto de datos después de haber aplicado el MDT (LD, MI, SRPI) en lugar de a los
submuestra aleatoria de los valores muestreados de interfaces. Esta datos originales establecidos para seleccionar el modelo.
1004 IEEE Transactions on ingeniería de software, vol. 27, NO. 11, noviembre de 2001

Cada alternativa tiene sus ventajas y desventajas. En el primer caso, el mismo Los usuarios en el conjunto de datos de LD es similar (en términos de media y
modelo se utiliza en todos los conjuntos de datos imputados. En el otro caso, se desviación estándar) para la distribución en el conjunto de datos original, inferimos
podría potencialmente obtener diferentes modelos para cada conjunto de datos. que la MDT (en este caso LD) no ha introducido un sesgo en el conjunto de datos LD.
Esto podría ser interesante para un profesional ya que el practicante no es ese Seguro
que ha encontrado el mejor modelo. Por lo tanto, esto podría ayudar al profesional El grado de prevención de pérdida de información se evaluó comparando el
en su análisis exploratorio de datos con el objetivo de encontrar el modelo con el número de casos completos para cada conjunto de datos con el número total de
mayor poder explicativo. Por desgracia, esto haría que la comparación de las casos (incompleto) en el conjunto de datos original.
técnicas de imputación, que es el foco de este trabajo, menos significativa ya que
no habría muchos factores de confusión. Para evaluar si los datos de ERP están perdidos completamente al azar o no, nos
basamos en el conocimiento experto. Véase la Sección 2. Un conocimiento a priori es
necesario con el fin de decidir sobre este asunto. Véase también la sección 3.3.

4.2 Método MDT


Aplicamos LD de la manera habitual. Es decir, hemos eliminado todos los casos 4.4 Selección de los análisis de casos de regresión
incompletos. Utilizamos todos los casos completos disponibles en cada uno de los datos
Para MI, aplicamos ªnaõ Èveº imputación, así como la imputación
imputados establecidos para el análisis de regresión. Es decir, se aplicó el análisis
donde se restringió la fracción de valores imputados por variable a 10 por de regresión para todos los casos completos en el LD, MI, y los conjuntos de datos
ciento de las variables observadas. por ªnaõ Èveº
SRPI. Para FIML, no es un problema si los casos son completa o incompleta,
imputación, queremos decir que no impuso ningún límite superior del tamaño
porque no hay filas se quitan y no hay valores artificiales se imputan.
de una fracción a imputar para cada variable. La razón para elegir este doble
enfoque es demostrar mejor algunos de los problemas relacionados con la MI.
Esto implica que los OLS LD, OLS MI, y modelos de regresión SRPI MCO se
Nos parece útil hacer esto porque MI es tan ampliamente aplicada y, por lo
construyeron en conjuntos de datos de tamaño desigual. Esto reduce la precisión de
tentador usar, y el abuso, debido a su simplicidad. (Se discuten MI más en la
métricas como R2 que requieren muestras de igual tamaño para ser totalmente
sección 7).
fiable. Sin embargo, R2 es todavía informativo, siempre y cuando uno es consciente
de una precisión algo reducida.
Para SRPI, se impuso la restricción de que no hay casos tienen más de un valor
que falta con el fin de ser conservador en el uso de SRPI. En la aplicación de SRPI,
utilizamos cuatro de las cinco variables totales (usuarios, sitios, interfaces, módulos, 4.5 Modelo de Regresión
Esfuerzo) como variables coincidentes para imputar el quinto y desaparecidos,
Se utilizó el análisis de regresión de mínimos cuadrados ordinarios (OLS) para
variable. Por ejemplo, cuando la imputación de Interfaces, utilizamos usuarios, sitios,
construir modelos en el LD, MI, y los conjuntos de datos SRPI. Llamamos a estos
módulos, y el esfuerzo como variables coincidentes. Nosotros no rellene todos los
modelos OLS OLS LD, MI, y OLS SRPI, respectivamente. Se aplicó un modelo
valores imputados hasta que todas las variables fueron imputados a fin de no utilizar
log-log en lugar de una regresión lineal porque el modelo log-log mejor cumplió con
un caso con un valor imputado como un caso a juego.
los supuestos de regresión, en particular el supuesto de homocedasticidad. Al
transformar a la modelo log-log, añadimos primera ª1º a todas las variables que
tengan un valor mínimo igual a ª0.º
En cuanto a FIML, el tema de la cumplimentación de los valores artificiales en los orificios de datos

es irrelevante.
Se realizó el análisis residual y detección de las demás para identificar mejor los

4.3 Criterios de Evaluación MDT valores silvestres. En teoría, los valores silvestres deben ser reemplazados con

los robustez se determinó al sesgo (grado de datos que faltan no aleatorias) del ªmissingº antes de hacer cualquier otra cosa con los datos, tales como la imputación. En

MDT basado en hallazgos en los estudios anteriores en la literatura estadística. la práctica, sin embargo, puede ser difícil decidir si un valor es salvaje o no. análisis de
residuos y la detección de valores atípicos pueden ayudar a decidir si usted piensa que

Para investigar si el MDT introduce un sesgo, se comparó la mediana, es un valor salvaje o no. En consecuencia, esta parte de la tarea de selección de datos

media y desviación estándar de cada variable en los datos originales se se llevó a cabo tanto antes como después de la aplicación de los EMD.

establece con los conjuntos de datos resultantes de la aplicación de un MDT.


Por ejemplo, se comparó la distribución de los Usuarios variables en los datos
de LD con la misma variable en el conjunto de datos originales, los datos de MI
4.6 Predicción Modelo de Evaluación Métrica
con el original, y los datos SRPI con el original. Para FIML, esta comparación no
es relevante. Como métricas de evaluación para el modelo de predicción esfuerzo se aplicaron los
siguientes métricas.

Utilizamos dos colas, de dos muestras, pruebas t para comparar la media de los -valores t ( o alternativamente los valores de p) de predictor se utilizaron

dos y dos distribuciones a la vez. Esta prueba de la prueba t de si dos coeficientes variables para medir la eficiencia del modelo (es decir, cómo de
distribuciones tienen una media igual o no. cerca el modelo de muestra es el modelo verdadero) y el efecto de cada variable
Se utilizó una prueba de chi-cuadrado para comparar la desviación estándar predictor en la variable de respuesta.
de dos distribuciones [21]. Esta prueba, las pruebas de la diferencia entre una
varianza de la muestra y una varianza de la población asumido. El conjunto de R 2 se utilizó para evaluar la bondad general de ajuste. Debe observarse
datos original se supone que es la población. La prueba supone una distribución que R 2 no es ideal para comparar modelos construidos en muestras de
normal. diferente tamaño, ya que requiere muestras de igual tamaño. Sin embargo,
A pesar de que estas pruebas pueden parecer simplista, es un procedimiento todavía es útil para utilizarlo para confirmar que los modelos convergen. Si el R 2
común en muchos estudios estadísticos sobre los EMD. Véase, por ejemplo, [9]. La los valores son similares, es una valiosa pieza de información, incluso si
idea es la siguiente: Si la distribución de
MYRTVEIT ET AL .: DATOS análisis de conjuntos de datos faltantes: una evaluación empírica de los métodos de imputación Y ... 1005

no se puede inferir que un modelo con R 2 ?? 0: 7 es mejor que un modelo con R 2 ?? 0: cualquier resumen estadístico de los datos. Esto es vital para evaluar el grado de
6. confianza que se puede tener en los resultados finales. No sabemos si una
La precisión de themodels se evaluó usando themean magnitud de error pequeña o una gran fracción de los datos que faltaban en el conjunto de datos
relativo, MMRE, el estándar de facto en ingeniería de software para la evaluación original y en la que las variables de los datos eran verdaderamente desaparecida.
de los sistemas de predicción. MRE Cuando se utiliza un MDT, es vital para informar a un mínimo el número de los
se define como sigue [10]: (z = real, y = estimación) valores observados y que faltan para cada variable más el patrón de missingness
el fin de evaluar si el MDT es apropiado.
MRE ?? z
z ÿ y: EmamandBirk han imputado la variable dependiente (la medida de

Desde se aplicó un modelo de regresión log-log, se utilizó la siguiente rendimiento) que se recogió a través de un cuestionario. Esta variable

fórmula para calcular MRE. dependiente es ordinal. (Los valores son ªExcellent, º ªGood, º ªFair, º ªPoor, º
ªDon't Know.º) respuestas El ªDon't knowº fueron tratados como valores que
faltan y, en consecuencia imputados. Parece cuestionable si es correcto para
MRE ?? 1 ÿ mi ÿ residual:
el tratamiento de una respuesta ªdon't knowº como una falta de respuesta que
faltan al azar en su caso. Además, parece que no han hecho una distinción
La derivación de esta fórmula se proporciona en el Apéndice B
entre los valores de verdad que faltan y las respuestas ªdon't knowº. Por
desgracia, no está claro a partir de la lectura del documento si había algún
5 R EXALTADO W TRABAJO valores perdidos. Intuitivamente, podríamos suponer que podría haber algún
sesgo en las respuestas del ªdon't knowº. En nuestra experiencia, es más
Hasta donde sabemos, sólo hay dos trabajos que han evaluado empíricamente
probable que un rendimiento bajo (ªPoorº) se niegan a responder a los
el enfoque SRPI, ninguno de ellos aplicado a la ingeniería de software. Hasta
volantes altas de éxito (ªExcellentº). Si no knowwhetheryouperformedwell o
donde sabemos, no hay papel en cualquier disciplina incluyendo la ciencia
estadística ha aplicado ni empíricamente evaluado el enfoque FIML en datos ªdon't badlyandreport sabe, º, es poco probable que usted es un ejecutante alto

reales. ªExcellentº porque cuanto mejor sea, más se sabe, incluyendo su propio
rendimiento. Por lo tanto echamos de menos un debate sobre qué puede estar

En la ingeniería de software, dos documentos han sido publicados en los EMD justificado para tratar ªdon't knowº como igual a un valor de verdad que faltan

[13], [37]. Ambos de estos estudios se han aplicado basado en el muestreo, tipo de al azar.

cubierta caliente, técnicas de imputación. Uno de estos estudios combinados cubierta


caliente con la imputación múltiple. No hay trabajos han aplicado basado en modelos falta
de datos como técnicas FIML en ingeniería de software. Nuestro estudio, por lo tanto,
complementa los otros dos estudios sobre los EMD en la ingeniería de software Huelga et al. [37] evaluaron varios EMD en el contexto de la predicción
mediante la investigación de los EMD distintos de la cubierta caliente y múltiples esfuerzo software. Los EMD evaluados fueron LD,
métodos de imputación. Los dos estudios de ingeniería de software se presentan al MI, y ocho diferentes tipos de imputación hot-deck. Se simularon diversos patrones de

final de esta sección. valores perdidos en un conjunto de datos existentes establecidos mediante la sustitución
de algunos valores con los valores que faltan. Esta es una excelente idea, ya que
entonces sabe la verdadera respuesta. Los EMD se evaluaron mediante la medición de la

Brown [9] evaluó la eficacia de los cinco métodos imputar en el contexto de exactitud de los modelos de predicción esfuerzo diferentes con respecto a la precisión del

modelos de ecuaciones estructurales. Los métodos evaluados fueron LD, eliminación modelo verdadero. Sus resultados indican que todos los EMD funcionan bien y que el

de pares, MI, cubierta caliente imputación, y SRPI. Él encontró que SRPI siempre y más simple MDT, LD, es una elección razonable.

cuando el menor sesgo.


Oro y Bentler [14] compararon cuatro métodos imputar, la RBHDI
(imputación-cubierta caliente a base de semejanza, que es similar a SRPI), el
6 R RESULTADOS
ISRI (estocástica iterativo imputación de regresión). El tercer y cuarto métodos
6.1 Resultados MDT
son métodos de máxima verosimilitud basados ​en casos basados ​en diferentes
supuestos del modelo de generación de datos. Los métodos de máxima A partir de la Tabla 2, se observa que los desechos LD más información. Esto es
verosimilitud parecen ser superior cuando se cumplen las suposiciones de la como se esperaba. El número de casos se reduce de 176 a 87. Sin embargo, el
distribución de la población y el tamaño de la muestra es suficientemente número de casos completos es suficiente para el análisis de regresión. Como
grande. Oro y Bentler concluyen que para muestras pequeñas y de moderada a regla general, cuando se utiliza el modelo de regresión, uno debe tener n> 10 k
gran parte de los datos que faltan del SRPI supera a los métodos de máxima
probabilidad basada. dónde norte es el número de proyectos y k es el número de variables predictoras. Por lo
tanto, para los datos del ERP fijan con cuatro variables predictoras los datos establecidos
con LD norte ?? 87 ?? 87> 10 4 ??

Browne [8] estudió LD, PD, MI, y FIML por simulaciones de Montecarlo en es suficiente.
el contexto analítico factor. Él encontró que FIML fue superior a la LD, PD, y la NAO Ève MI no pierde la información, de forma natural. Observamos que
MI. los desechos SRPI menos información que ªMI 10 percent.º Es decir, mediante la
Emam y Birk [13] aplica cubierta caliente imputación múltiple restricción SRPI para imputar los casos con un máximo de un valor por caso
para analizar los datos de rendimiento de procesos de software. Han perdido, y de manera similar, la restricción de MI para imputar los valores
argumentado bien para aplicar múltiples en lugar de la simple imputación. No máximos de 10 por ciento que faltan por variable. FIML no pierde ninguna
sabemos, sin embargo, si el MDT cubierta caliente particular es un MDT información tampoco. Sin embargo, utilizando el número de casos completos
apropiada en su caso, ya que la información vital no ha sido reportado. No como criterio no es aplicable en el caso de FIML.
informaron
1006 IEEE Transactions on ingeniería de software, vol. 27, NO. 11, noviembre de 2001

TABLA 2 TABLA 4
Número de casos completos por MDT Valores de p de 2-t-muestra las pruebas de Set LD Data

En cuanto a LD, la gran reducción se debe principalmente a los valores que faltan en media y desviación estándar que confirmó la observación. (No reportado).
la variable de respuesta, esfuerzo. La estadística descriptiva para el conjunto de datos Para las interfaces, se imputaron 11 casos,
LD se dan en la Tabla 3. es decir, << 10%. Por el esfuerzo, se imputaron 38 casos, es decir, cerca de 20 por ciento. Aún
medias y desviaciones estándar Comparando, los resultados indican que el así, la media, la mediana y la desviación estándar de Esfuerzos para el conjunto de datos SRPI
conjunto de datos LD es una submuestra aleatoria de la muestra total. Véase la Tabla 4 es muy similar a la del conjunto de datos original.
y la Tabla 5. El p-valores En la Tabla 4 es compatible con este hallazgo inicial (todo p>
doce y diez). Similar para el 2- valores en la Tabla 5 (todo A diferencia de los métodos de imputación basada en muestreo MI y SRPI, la
2< 107, el valor crítico
FIML basado en el modelo no introduce ningún sesgo, ya no hay valores artificiales
cuando norte ?? 87). se introducen en, ni retirados de, el conjunto de datos.
El método MIº ª10 ciento no introduce un sesgo significativo en los datos.
La comparación de la Tabla 1 y la Tabla 6, se observa que la media, la
mediana y la desviación estándar son similares para Esfuerzo. También se 6.2 Resultados de la regresión

realizó pruebas formales para la media y la desviación estándar para todas las OLS LD. Después de análisis residual que resulta en la eliminación de seis casos,
variables que confirmaron la observación. (No reportado). los OLS LD es como dan en la Tabla 9. Análisis residual después de la eliminación
de los valores atípicos confirmó que los residuos se distribuyen normalmente ( p-valor
el ªnaõ método Ève MIº introduce un sesgo grave. ?? 0: 5 de la prueba de normalidad Anderson-Darling) y que todos los residuos
Comparando la Tabla 1 y en la Tabla 7, se observa que la media de esfuerzo estandarizados están a menos de 2. Además, no hay multicolinealidad significativa ( VIF
es el mismo, de forma natural. La mediana y la desviación estándar para el 2). ( Para la prueba de Anderson-Darling y la prueba de varianza-Inflar Factor (VIF),
esfuerzo, sin embargo, han cambiado significativamente. (Prueba de la véase [25], [33] y [25], [15], respectivamente). Todas las variables predictoras tienen
importancia de la desviación estándar, encontramos j t j ?? 4:68 dónde t ?? 1:96 al un efecto significativo en el esfuerzo ( p <0:01). Los residuos son razonablemente
nivel de significación del 5 por ciento). Sobre todo, se observa que la media y la homoscedastic. (Parcela de residuos contra ataques. No se ha notificado.)
mediana Esfuerzo han convertido idéntico en la NAO

conjunto de datos Ève MI. Esto sucede cuando se imputa una gran fracción de
los valores. Probablemente, la observación más importante es que la desviación 10 por ciento MI MCO. Después de análisis residual que resulta en la eliminación
estándar disminuye. Especialmente, se observa esto para Esfuerzo donde ha sido de cinco casos, el ª10 ciento ecuación de regresión MI OLSº es como se da en la
imputada una gran fracción de los valores (41 por ciento imputada). Esto es como Tabla 10. Análisis residual después de la eliminación de los valores atípicos confirmó
se esperaba ya que distorsiona la distribución MI poniendo todos los valores que los residuos se distribuyen normalmente p-valor ?? doce y treinta y seis de la
imputados en la media. la NAO prueba de normalidad Anderson-Darling) y que todos los residuos estandarizados
conjunto de datos Ève MI muestra una están a menos de 2. Además, no hay multicolinealidad significativa ( VIF 2). Los
pronunciado pico en la media en un histograma de la variable esfuerzo. (El residuos son razonablemente homoscedastic. (Parcela de residuos contra ataques.
histograma no se informó). Por lo tanto, parece razonable para restringir la No se ha notificado.) El variables predictoras LN (Usuarios), LN (Interfaces), y LN
fracción de valores imputados por variable como lo hemos hecho a, por ejemplo, (Módulos) tienen un efecto significativo en el esfuerzo ( p <0:04).
10 por ciento.
El método SRPI no introduce ningún sesgo observable en los datos en
comparación con los datos originales. Mediante la comparación de la Tabla 1 y la NaõÈve MI MCO. Después de análisis residual que resulta en la eliminación de
Tabla 8, se observa que la media, la mediana y la desviación estándar son todas nueve casos, la OAN Ève regresión OLS MI
similares para los conjuntos de datos originales y SRPI. También se realizó pruebas ecuación es como se da en la Tabla 11. Análisis residual después
formales para la

TABLA 5
2- valores para el conjunto de datos LD
TABLA 3
Estadísticas descriptivas de LD conjunto de datos
MYRTVEIT ET AL .: DATOS análisis de conjuntos de datos faltantes: una evaluación empírica de los métodos de imputación Y ... 1007

TABLA 6 TABLA 8
Estadísticas descriptivas del 10 por ciento del conjunto de datos MI Estadísticas descriptivas de SRPI conjunto de datos

eliminación de los valores atípicos confirmó que los residuos se distribuyen comparar las distribuciones antes y después de aplicar el MDT. los encuesta ( en
normalmente ( p-valor ?? doce y cincuenta y uno de la prueba de normalidad la Sección 3) de la literatura informes estadísticos algunos resultados
AndersonDarling) y que todos los residuos estandarizados están a menos de 2. Por importantes obtenidos en la ciencia estadística. En particular, es de vital
otra parte, no hay multicolinealidad significativa ( VIF 2). Los residuos son importancia para la correcta aplicación de los EMD a conocer los supuestos que
razonablemente homoscedastic. (Parcela de residuos contra ataques. No se ha hacen con respecto a MCAR, MAR y los datos que faltan no aleatorias.
notificado.) El variables predictoras LN (Usuarios), LN (Interfaces), y LN (Módulos)
tienen un efecto significativo en el esfuerzo ( p <0:02). En cuanto a la evaluación empírica, los resultados se pueden resumir de la
siguiente manera:
Por otra parte, se observó que los valores de los coeficientes son bastante Los resultados confirman que hemos encontrado un modelo razonablemente
diferentes de los OLS LD y NAO OLS Ève MI correcta. Los resultados en términos de valores-t y R2 ​(adj) son similares en todos
modelos. los modelos (OLS LD, MI oles, MCO SRPI, y FIML). ªIf se especifica correctamente
SRPI MCO. La ecuación de regresión SRPI es como se da en la Tabla 12. Se el modelo, diferentes estimadores deben tener valores similares asintóticamente.
utilizaron 137 casos y cinco valores atípicos eliminó resultante en 132 casos. La Si estos valores no son suficientemente similares, el modelo no se especifica
eliminación de valores atípicos no mejoró la normalidad de la distribución de los
correctamente, º [38]. Observamos, sin embargo, que los Sitios se cuestiona más
residuos de manera significativa
de las otras variables. En particular, FIML no tiene en cuenta esta variable como
?? p-valor ?? 0:08 de la prueba de normalidad Anderson-Darling). No hay
igualmente significativo. Sitios varía de t ?? 1:77 a t ?? 2:77 mientras que las otras
multicolinealidad significativa ( VIF 2: 1). Sin embargo, los residuos son
variables varían entre t ?? 2:65 y t ?? 06:46. ( Hemos hecho caso omiso del valores-t
razonablemente homoscedastic. (Parcela de residuos contra ataques. No se ha
de NAO
notificado.) Todas las variables predictoras tienen un efecto significativo en el
esfuerzo ( p <0: 032) pero menos significativa que la de LD.
Ève MI). Por lo tanto, la más baja
t-valor de cualquiera de las otras variables es comparable con el más alto t-valor
FIML modelo. La ecuación de regresión FIML se da en la Tabla 13. Se
para los sitios. Esto no está en total desacuerdo con el conocimiento experto.
eliminaron seis casos. La regresión se basa en los 170 casos restantes.
De antemano, estábamos bastante seguros de usuarios, interfaces y módulos,
Observamos que FIML confirma los otros modelos. Es decir, los usuarios, las
pero un poco menos confianza en Sitios. La razón es que es más difícil de
interfaces y los módulos son altamente significativas, mientras que hay algunas
definir las buenas reglas de conteo para ªã Siteº que para los usuarios, módulo
dudas acerca de los sitios. Sites es la variable menos significativa en todos los
de interfaz, y en el contexto de la predicción esfuerzo. Es, sin embargo, más allá
modelos. Observamos que el modelo FIML es en general más eficientes que los
otros modelos ( valores-t alrededor de cinco a excepción de Sitios). También
del alcance de este documento a entrar en más detalles sobre este tema.

observamos que OLS LD es más eficiente que el 10 por ciento OLS MI, NAO

Ève MI MCO, y SRPI MCO. Hay posiblemente un pequeño sesgo en los datos que faltan. Los
En cuanto a la precisión de la predicción, los MCO LD tiene la más alta resultados de la regresión indican que podría haber algún sesgo en los datos
exactitud de sus MMRE ( 48 por ciento) y FIML el más bajo (74 por ciento). aunque los 2-t-muestra las pruebas de las distribuciones variables no
Véase la Tabla 14. revelaron nada. Esto se observa al comparar los OLS LD y los modelos FIML
en términos de
6.3 Resumen de los resultados valores-t y MMRE donde se observa una discrepancia entre ellos.
Hemos aplicado dos tipos de métodos de investigación para comparar los
EMD: métodos empíricos, así como los métodos de encuesta. Nuestro empírico
evaluación es simple basado en la comparación de las medias de la muestra y
las desviaciones a TABLA 9
Los coeficientes de regresión de LD conjunto de datos

TABLA 7
Estadísticas descriptivas de NAO Ève MI Conjunto de Datos
1008 IEEE Transactions on ingeniería de software, vol. 27, NO. 11, noviembre de 2001

TABLA 10 TABLA 12
Los coeficientes de regresión de ª10 Porcentaje MIº conjunto de datos Los coeficientes de regresión de SRPI conjunto de datos

En cuanto a la encuesta (en la Sección 3), los resultados pueden resumirse de la estimar parámetros poblacionales. Desde esta perspectiva, el criterio de
siguiente manera: rendimiento apropiado es el grado en que las estimaciones de los parámetros
FIML es más resistente al sesgo en los datos que faltan. Como se indica en de población de cada matriz de datos incompletos, original reproducen los
la sección 3.3, y ªMAR MCAR, º otros estudios han concluido que FIML reducirá parámetros de la población.
el sesgo incluso si la condición no se cumple MAR estrictamente mientras que La perspectiva basada en muestras está motivado por un deseo de llenar en los
los otros EMD (LD, MI, SRPI) asume que los datos son MCAR. FIML, por lo valores en una matriz de datos, lo que permite que la matriz de datos resultante para
tanto, probablemente es el modelo menos sesgada. Por lo tanto, si hay un ligero ser utilizado en cualquier análisis de datos posterior. Por ejemplo, si el objetivo no es la
sesgo, FIML probablemente más cercano al modelo ªtrueº. Debe observarse construcción de un tipo de regresión modelo de predicción de esfuerzo, sino más bien
que este no es el resultado de nuestra propia sino más bien una afirmación una de tipo cesta o cualquier otro tipo que requiere métodos de análisis completos de
basada en las propiedades de este método. los casos, por ejemplo, análisis de conglomerados, un MDT basado en el modelo
como FIML no es una opción. En tales casos, hay que rellenar los valores que faltan, o
alternativamente eliminar observaciones incompletas y, por lo tanto, recurrir a los EMD
Teniendo en cuenta que tenemos una mayor confianza en el modelo FIML que como LD, MI, y SRPI (o posiblemente otros EMD).
en los otros modelos, los resultados sugieren que una, precisión de la predicción
realista, o verdadero es de alrededor
MMRE ?? 70%. Es importante observar que la exactitud del modelo de regresión En nuestro caso, el objetivo es construir un modelo de predicción de esfuerzo, ya que cerca del
puede ser seriamente sobreestimado por el procedimiento LD ( MMRE ?? 48%). Se modelo más fiel posible. Nuestro objetivo principal es un buen modelo de predicción en lugar de un
argumenta que la verdadera precisión de la predicción probable que se acerca más conjunto de datos completo. No estamos interesados ​en el llenado de los valores que faltan para el
a la exactitud FIML que a cualquiera de los otros. Sin embargo, puede ser objetado fin de llenar los valores que faltan, para simplemente un conjunto de datos más grandes ya que el
que tenemos muy pocas observaciones completas a tener más confianza en el conjunto de datos LD es lo suficientemente grande como para aplicar la regresión por MCO. El
modelo FIML que en los otros modelos. Es decir, se norte ?? 87 suficiente para conjunto de datos LD tiene 87 observaciones completas (véase la Tabla 2), que es más grande que
cerrar norte ?? 100 o no. el, la regla del pulgar de la necesaria 4 10 ?? 40

observaciones completas. Además, el conjunto de datos original, incompleta tiene


cerca de 100 observaciones completas (y 176 incluyendo la incompleta). Por lo
7 D ISCUSION DE MDT S
tanto, lo más probable es suficiente para aplicar FIML. En nuestro caso, FIML
En esta sección, se discuten los siguientes temas: parece, por lo tanto, el método más apropiado con LD llegar en segundo lugar.

. Modelo de base frente a los métodos basados ​en muestreo,


. MI frente SRPI, con un enfoque en los patrones de missingness se 7.2 MI vs SRPI
presta a cualquier método.
La ventaja de MI es que es rápido y sencillo que probablemente es la razón de
. FIMLs multivariante supuesto de distribución normal.
su popularidad. Sin embargo, cuando la fracción de casos que falta es
. El supuesto MCAR de LD, MI, y SRPI.
significativo para una variable dada, como el esfuerzo en nuestro caso, MI sesga

7.1 basado en modelos vs. EMD Basado-Sampling la distribución ya que todos los valores que faltan se imputan en el centro de la
distribución.
Hay una diferencia significativa en perspectiva entre los métodos basados ​en
el muestreo basado en modelo y. La perspectiva modelbased está motivado
por un deseo de precisión TABLA 13
Los coeficientes de regresión de FIML conjunto de datos

TABLA 11
Los coeficientes de regresión de NAO Ève MI Conjunto de Datos
MYRTVEIT ET AL .: DATOS análisis de conjuntos de datos faltantes: una evaluación empírica de los métodos de imputación Y ... 1009

TABLA 14 TABLA 16
MMRE Modelos de regresión para Un modelo de datos que faltan en que el método
podría ser apropiado SRPI

Creemos que el porcentaje de casos que faltan por tanto, no exceda del 5 al
10 por ciento para este método para ser utilizado con cierto grado de
confianza. Esto debe ser verificado por simulación ya que no hay una teoría
para ayudar en este tema. A pesar de que la EM es un método simple, y por lo
general no se recomienda, se pueden prever los patrones de los datos que
faltan en los que podría agregar valor. Consideremos por ejemplo el caso
representado en la Tabla 15. Los asteriscos indican los valores que faltan. En que están en completa X 2 a X 10 así como en X 1. En el otro extremo, se podría

este caso, se observa que LD reduciría el conjunto de datos a cero seleccionar sólo X 7 a X 10 como variables coincidentes imputar X 1 en la fila 1. En

observaciones. Observamos también que para cada columna, el porcentaje de este caso, todas las filas 2 a 9 pueden ser considerados para los cálculos de casos

casos que faltan es 10 por ciento, que se encuentra dentro de una relación similares.

aceptable de falta a valores no perdidos. Para este patrón de datos que faltan, En nuestro análisis, hemos reducido el conjunto de datos mediante la

el simple método de MI puede reducir en gran medida la pérdida de restricción de la imputación SRPI a los casos con una variable que falta. Por

información sin introducir un sesgo significativo en los datos. supuesto, el método SRPI puede utilizarse para imputar más de una variable que
falta utilizando el mismo conjunto de variables que emparejan. Sin embargo, es un
difícil compromiso entre tamaño y fiabilidad, donde debe ejercerse el juicio. Con
todo, SRPI por lo tanto no es un recurso rápido y fácil.

X 6 sería muy distorsionada después de la imputación. Observamos que en los casos especiales descritos en la Tabla 15 y la Tabla 16, el

Contrariamente a MI, SRPI parece igualmente adecuado tanto para los patrones método LD incurriría en una pérdida del 100 por ciento de la información proporcionada

de datos perdidos. Consideremos primero el patrón de la Tabla 15. Supongamos que queremos usar todas las 10 variables.

queremos imputar X 1 primero. En este caso, tenemos la opción de seleccionar El patrón de los datos que faltan en los datos del ERP establecidos en su

cualquier subconjunto de las variables X 2 a X 10 como variables a juego. Lo mismo mayoría se asemeja a los de la Tabla 16. SRPI parece, por lo tanto, un método más

ocurre con la imputación X 6 en la Tabla 16. Es decir, la imputación X 6 apropiado que el IM en este caso. También creemos que SRPI generalmente es
preferible a MI, ya que es probable introduce un sesgo menor MI.
no causa más problemas que la imputación de las otras variables. La principal
objeción contra SRPI es que requiere un conocimiento profundo de los datos Tenga en cuenta que el método SRPI obtiene valores imputados de proyectos

con respecto a la selección de las variables características determinadas para similares utilizando el criterio de mínimos cuadrados como la medida de similitud, que

cada variable a ser imputado. Además, los más variables que seleccionan produce exactamente los mismos resultados que usando la distancia euclidiana. Por lo

como variables a juego, menor será el subconjunto de casos potencialmente tanto, SRPI es una especie de

similares. Considere, por ejemplo, la imputación X 1 utilizando X 2 a X 10 como imputación por analogía enfoque como se aplica en herramientas como ÁNGEL [34].

variables a juego. En este caso, no habría casos coincidentes. Es decir, no hay Sin embargo, a diferencia de ángel, SRPI es más robusto y menos vulnerable a los

filas en la tabla 16 valores atípicos, ya que utiliza los valores predichos para fines estadísticos, solamente,
mientras ÁNGEL utiliza los casos similares de predecir soltero proyectos.

TABLA 15
Un modelo de datos que faltan Cuando el TABLA 17
MI método podría ser apropiado Un patrón de información faltante Al igual que en el conjunto de datos de ERP
1010 IEEE Transactions on ingeniería de software, vol. 27, NO. 11, noviembre de 2001

no son aleatorias. Por lo tanto, la condición MAR parece un poco artificial, y que
TABLA 18
p-valores de Anderson-Darling Prueba de normalidad en todas las variables cuestionan el uso práctico de la misma para datos de software ERP.

8 C CONCLUSIÓN
En el presente trabajo, hemos investigado técnicas de datos que faltan (EMD) con
el objetivo de construir modelos de predicción esfuerzo de software más fiables.
(Por ªreliable, º nos referimos a la ªclosest truth.º El modelº ªtrue se construiría en
la verdad, conjunto de datos de población, es decir, en todos los proyectos
pasados ​y futuros). Hemos investigado si puede valer la pena el esfuerzo extra
7.3 La normal multivariante Distribución asunción de FIML para aplicar EMD distintas de la eliminación por lista por defecto (LD), y si LD
siempre es apropiado o no. LD se usa rutinariamente en el procedimiento de dos
Dos de las variables (LN (sitios), LN (módulos)) en el modelo loglog no exhiben etapas habitual que consiste en retirar observaciones incompletas antes de
una distribución normal univariante. Por otro lado, LN (Usuarios) y ln aplicar, por ejemplo, análisis de regresión OLS a las observaciones completas
(Esfuerzo) son normales. LN (Interfaces) está en algún lugar en el medio. restantes para la construcción de un modelo de predicción. Hemos investigado los
Véase la Tabla 18. Por lo tanto, sabemos que los datos no muestran una multivariante
EMD utilizando empíricamente un conjunto de datos de ERP establecidos, así
como mediante encuestas literatura estadística. Este último complementa el
distribución normal, ya que esto requiere que todas las variables presentan una estudio empírico y nos permite proporcionar un consejo más general. Nuestras
distribución normal univariante. (Mardia [24] presenta una prueba de normalidad recomendaciones son las siguientes:
multivariante.) Afortunadamente, FIML es robusto a los datos que no cumplen
completamente con el requisito de distribución normal multivariante [7]. Por lo
tanto, todavía puede ser apropiado.
Utilice FIML si tiene datos suficientes para pagarlo. Nuestra evaluación
sugiere que FIML es la mejor opción para la construcción de un modelo de
7.4 El MCAR y Supuestos MAR
predicción de esfuerzo cuando hay datos faltantes debido FIML es algo más
Los EMD a base de muestreo (LD, MI y SRPI) asumen que los datos son MCAR. Esta resistente al sesgo (datos faltantes no aleatorias) en los datos causados ​por
suposición parece razonable. (Véase la evaluación de los datos de ERP en la Sección los valores que los otros EMD faltante.
2.) En cuanto a esfuerzo (que tiene valores más que faltan), es poco probable que los
pequeños proyectos tienen una probabilidad mayor (o menor) que los grandes El uso del tipo de imputación de EMD (MI, SRPI) sólo si necesita desesperadamente
proyectos de comunicación sobre el esfuerzo. Este razonamiento se aplica a las más datos. No imputar sólo para lucir bien. Si FIML no se puede utilizar debido a que el
interfaces también. conjunto de datos es demasiado pequeño, se recomienda LD combinado con un modelo de
regresión a no ser que se traduce en un muy pequeño conjunto de datos. Por lo tanto, se
Uno puede sospechar que los proyectos menos exitosos informan en menor recomienda MI y SRPI, de nuevo se combina con un modelo de regresión, sólo si
medida que los proyectos más exitosos. Siguiendo esta línea de pensamiento, es de contribuyen a hacer una por lo demás demasiado pequeño conjunto de datos lo
suponer que los proyectos grandes y complejos reportar en menor medida que los suficientemente grande como para llevar a cabo un análisis de regresión.
pequeños, no tan complejo, proyectos debido a que tienen una mayor probabilidad
de no tener éxito. Si este fuera el caso, habría un sesgo causado por los datos que Para un conjunto de datos de ERP establecidos con cuatro variables de
faltan, y los datos no habría MCAR. Afortunadamente, los grandes proyectos son predicción, por lo tanto, nos gustaría utilizar FIML siempre y cuando el número de
gestionados por los responsables del proyecto más experimentados, mientras que observaciones, NORTE, supera los 100. De lo contrario, usaríamos LD siempre que
los proyectos más pequeños con más frecuencia son dirigidas por encargados nos deja con N> 40. Volveremos a utilizar SRPI o IM sólo si nos deja con LD N <40 y,
menores. Por lo tanto, no es evidente si los proyectos pequeños o grandes tienen la al mismo tiempo o SRPI MI nos ayuda a lograr N> 40. La elección de IM frente SRPI
mayor tasa de éxito y, por lo tanto, si hay más datos que faltan en pequeñas o en dependerá del patrón de missingness.
grandes proyectos. Creemos, por tanto, (basado en el conocimiento experto de los
datos) que los datos que faltan se encuentran en partes iguales entre pequeños y No utilice LD si sospecha que los datos no están perdidos completamente al azar, y
grandes proyectos y que, por tanto, los datos son MCAR. Sin embargo, nuestros estar preparados para argumentar que los datos son MCAR al aplicar LD. Si se
resultados empíricos (en la sección 6.1) parecen sugerir un ligero sesgo (datos que sospecha que las observaciones con valores perdidos difieren sistemáticamente de las
falta no aleatoria). observaciones completas, LD es peligroso. (En realidad, no hay EMD corregirán un
sesgo tal manera satisfactoria.) Más peligroso, no hay EMD o pruebas son capaces de
detectar un sesgo tal. Uno debe, por lo tanto, se basan en el conocimiento experto para
juzgar sobre la cuestión de azar. Además, si la fracción de los datos que faltan es
La única variable que podría no ser MCAR es EDI. Muchos proyectos no grande, y uno sospecha que los datos que faltan no aleatorias, Desalentamos utilizando
implementaron EDI soluciones de comercio electrónico. Por lo tanto, hay una gran cualquier EMD en absoluto, incluyendo LD. Eso significa que, bajo ciertas circunstancias
fracción de los proyectos con EDI ?? 0. Es posible que los proyectos con EDI ?? 0 son recomendamos utilizando un conjunto de datos tales en absoluto, porque los resultados
más descuidado en informar de este variables que los proyectos con EDI> 0. No de un análisis de los datos serían altamente sesgada y, por lo tanto, engañosa. En este
hemos podido comprobar esto, sin embargo, y no importa en este estudio, ya EDI no caso, la única solución es reparar de alguna manera los agujeros con los valores reales
es una variable de predicción en el modelo. (por ejemplo, llamando a que no respondían, una vez más). Sin embargo, si la fracción
de los datos que faltan es pequeño, por ejemplo, menos del 5 por ciento,
En cuanto a la asunción de MAR FIML, consideramos que es poco
probable que los datos de ERP son MAR. Creemos que están perdidos completamente
al azar (MCAR) o
MYRTVEIT ET AL .: DATOS análisis de conjuntos de datos faltantes: una evaluación empírica de los métodos de imputación Y ... 1011

LD (y otros EMD) se pueden utilizar sin introducir grandes errores [32].


TABLA 19 Data
Matrix
Utilice FIML si su objetivo es construir un modelo de predicción esfuerzo de
tipo de regresión. Debe observarse que FIML es aplicable y una opción cuando
el objetivo es producir una
De tipo de regresión modelo de predicción basado en datos históricos que contienen los
valores que faltan. Si uno necesita aplicar CompleteCase técnicas estadísticas distintas
de análisis de regresión, FIML podrían no ser una opción. Por ejemplo, en la
construcción de modelos de compras para software de predicción de esfuerzo, uno se
aplica algún tipo de análisis de conglomerados dentro de CART. técnicas de análisis de
agrupamiento generalmente son técnicas completos de los casos. Por lo tanto, requieren
que los valores que faltan en realidad ser rellenados o alternativamente, que las
observaciones con valores que faltan ser quitados. Desde LD, SRPI, y MI son EMD
resultantes en conjuntos de datos completos, que pueden ser más adecuados cuando se
construye, por ejemplo, modelos de la compra.
Dejar metro yo y yo se quiere decir la población de vectores y
matriz de covarianza de las variables que son observado en caso yo. Estos

En resumen, el análisis de conjuntos de datos incompletos es un tema cada elementos ( metro yo y yo) se puede obtener mediante la supresión de elementos de y . Por

vez más importante en la ingeniería de software, ingeniería de software se ejemplo, en el caso 4, donde y 3 Está perdido:

extiende sus ramas a subdisciplinas como empírico la ingeniería de software y el


software métrica.
12
Por desgracia, como lo vemos, todavía hay varios obstáculos, tanto con equipos metro 4 ?? 1 y 4 ?? 11 :
2 21 22
multidisciplinarios basados ​en muestreo (como FIML) basados ​en modelos, así como
con (como LD, MI, SRPI). En cuanto a los EMD a base de muestreo, Dempster y Estos vectores ªreducedº y matrices se utilizan en el proceso de
Rubin [12] nos advierten: estimación. En la situación general, el logaritmo de verosimilitud de caso i se
define por [5]:
ªThe idea de imputación es a la vez seductora y peligrosa. Es seductora, ya que
puede adormecer el usuario en el estado placentero de creer que los datos
Iniciar sesión l yo ?? K yo ÿ 1 ÿ1 yo ?? y yo ÿ metro yo ??:
?? 2 ??
están completos, después de todo, y es peligroso, ya que agrupa situaciones 2 log
yo
2 ?? y yo ÿ metro ?? 0 Y 1
donde el problema es suficientemente menor que pueda ser legítimamente
El diario de probabilidad para toda la muestra (todos los datos no perdidos)
manejado de esta manera y situaciones en las estimadores estándar aplicados
es
a los datos reales e imputados tienen biases.º sustanciales

Iniciar sesión L ?? XIniciar


norte sesión l yo: ?? 3 ??
yo ?? 1

Dado un modelo que especifica la matriz de vector y covarianza como funciones de


UNA PÉNDICE UNA
sus parámetros implicar que ?? ?? ??,
Procedimiento FIML y ?? ?? ??, dónde es el vector de parámetros para ser

Dejar pag ser el número de variables y norte El número de casos estimado. El punto crucial es que el modelo se utiliza para
(observaciones). Suponemos que el vector predecir el vector medio y la matriz de covarianza .

266664377775 Por lo tanto, formulamos las ecuaciones ?? ?? ?? y


y1 ?? ?? ??. El vector de parámetros es un estocástico desconocido
y2 cantidad que tiene que ser estimado.
y ??
Máxima verosimilitud estimaciones de se obtienen por
maximizando Iniciar sesión L ?? ??. Los vectores de medias y las matrices de covarianza en
y pag
(2) son ahora funciones de los parámetros desconocidos

tiene una distribución normal multivariante con media y la matriz de covarianza . Si y 1; y 2; . . . en el modelo teórico. Podemos pensar en esto como un proceso de
; y norte es una muestra aleatoria del vector Y, la matriz de datos es una norte pag matriz. derivación, donde resolvemos la ecuación
Esta matriz puede tener valores que faltan, es decir, elementos específicos de los
vectores y 1; yo ?? 1; 2; 3; . . . ; norte puede ser observada. Consideremos el siguiente @ Iniciar sesión ?? ?? @ ?? 0:
ejemplo. Dejar norte ?? 7 y pag ?? 3. La matriz de datos puede mirar como en la Tabla
19. El vector de parámetro estimado ^ es el vector de parámetros con la
máxima probabilidad de ser responsable de los datos observados.
La media de la población del vector y la matriz de covarianza de la población
son Una estadística de chi-cuadrado se define como 2 ?? F 0 ÿ F 1, dónde
24 35 y ?? 11 24 35: F 1 ?? ÿ 2ln L 0 y L 0 denota el valor de probabilidad logarítmica (en convergencia)
1 12 13
cuando y están restringidas de acuerdo con el modelo teórico y En L 1 denota el
?? 2 21 22 23
diario de probabilidad (en convergencia) cuando no hay restricción se impone y
3 31 32 33
1012 IEEE Transactions on ingeniería de software, vol. 27, NO. 11, noviembre de 2001

[17]. Los grados de libertad son 1 [5] JL Arbucle, ªFull información de estimación en presencia de datos incompletos, º Avanzada
2 pag ?? pag ?? 1 ?? ÿ t, dónde t es el
modelos de ecuaciones estructurales, problemas y técnicas. GA Marcoulides y RE
número de parámetros libres en el modelo. Schumacker, eds., 1996.
[6] JL Arbucle, Guía del usuario Amos. Chicago: SmallWaters, 1995.
[7] A. Boomsma, En Robustez de LISREL (Máxima Verosimilitud
UNA PÉNDICE segundo
Estimación) contra los pequeños tamaños de muestras y no normalidad. Amsterdam: Fundación
de Investigación Sociométrico de 1982.
Cálculo de la ERM en Log-Log Modelos de Regresión
[8] CH Browne, ªAsymptotic comparación de los procedimientos de estimación de datos faltantes
para cargas de factor º Psychometrika, vol. 48, no. 2, pp. 269-291, 1983.

Este apéndice muestra cómo la fórmula para calcular MRE [9] RL Brown, ªEfficacy del enfoque indirecto para la estimación de modelos de ecuaciones
se deriva cuando uno se aplica un modelo de regresión log-log de predecir esfuerzo. estructurales con datos faltantes: Una comparación de los cinco métodos, º Modelos de
ecuaciones estructurales, vol. 1, no. 4, pp. 287-
Supongamos que el modelo log-log, con y = Esfuerzo real, es
316, 1994.
[10] SD Conte, HE Dunsmore, y VY Chen, Software Eng. Métrica
y modelos, Menlo Park, California: Benjamin / Cummings, Inc., 1986.
En y ?? En ?? En X ?? En u [11] T. DeMarco, El control de proyectos de software: Administración, Measurement
ción, y estimaciones, Nueva York: Prentice-Hall, 1982.
Entonces, predicho esfuerzo (o más bien el predicho ln-esfuerzo) es [12] AP Dempster y DB Rubin, Los datos incompletos en encuestas por muestreo.
WG Madow, I. Olkin y DB Rubin eds. vol. 2, pp 3-10, Nueva York:. Academic Press, 1983.
^ ln y ?? una ?? segundo En X: ?? 4 ??
[13] KE Emam y A. Birk, ªValidating la norma ISO / IEC 15504 Medida de la capacidad de análisis de
Que el residuo se dará por requisitos de software de proceso, º IEEE Trans. Software Eng., vol. 26, no. 6, pp. 541-566,
junio de 2000.
residual ?? En y ÿ En ^ y [14] MS Oro y PM Bentler, ªTreatment de datos que faltan: Amonte Carlo Comparación de RBHDI,
iterativo estocástico Regresión de la imputación, y Esperanza-maximación, º Modelos de
que es igual a ecuaciones estructurales, vol. 7, no. 3, pp. 319-355, 2000.

[15] DN gujarati, Econometría básica, London: McGraw-Hill, 1995.


residual ?? En y [dieciséis] R. Jeffery, M. Ruhe, e I. Wieczorek, Métricas del Dominio Público ªUso para Estimar
y^:
Software esfuerzo de desarrollo, º Proc. PARÁMETROS DE 2001, Pp. 16-27, 2001.

Esto puede ser transformado a mi residual ?? y y^ o alternativamente [17] KG Jùreskog y D. Sùrbom, LISREL 8.50 Student Edition.
y
mi ÿ residual ?? ^ Chicago: Scientific Software Int'l, 2000.
y. Así,
[18] KG Jùreskog y D. Sùrbom, Guía de referencia LISREL 8 del usuario.
yy: Chicago: Scientific Software Int'l Inc., 1993.
1 ÿ mi ÿ residual ?? y ÿ ^ ?? 5 ??
[19] KG Jùreskog y D. Sùrbom, Guía de referencia del usuario PRELIS 2,
Chicago: Scientific Software Int'l Inc., 1995.
[20] KG Jùreskog, Personal correspondencia por correo electrónico, abril de 2001.
Por definición, MRE es
[21] GK kanji, 100 pruebas estadísticas. Londres: Sage Publications, 1993.
[22] Poco RJA y DB Rubin, Análisis estadístico con datos perdidos,
yy
MRE ?? y ÿ ^ ?? 6 ?? Nueva York: Wiley, 1987.
[23] Poco RJA y DB Rubin, Análisis de Datos ªThe Ciencias Sociales con valores perdidos, º Los
métodos sociológicos e Investigación, vol. 18, núms. 2/3, pp. 292-326, Nov. 1 989 Feb. 1990.
A partir de (5) y (6), podemos reformular MRE
[24] KV Mardia, ªMeasures de asimetría y curtosis multivariante con aplicaciones, º Biométrika, vol.
57, no. 3, p. 519, 1970.
MRE ?? 1 ÿ mi ÿ residual
[25] Minitab Statistical Software, Release 13, State College, Penn .:
Minitab Inc., www.minitab.com. 2000.
[26] B. Muthen, D. Kaplan, y M. Hollis, ªOn modelos de ecuaciones estructurales con datos que no
están perdidos completamente al azar, º
UNA CKNOWLEDGMENTS Psychometrika, vol. 52, pp. 431-462, 1987.
[27] I. Myrtveit y E. Stensrud, ªã controlado experimento para evaluar los beneficios de estimar con la
Los autores desean agradecer a Accenture (antes Andersen Consulting). Este analogía y Modelos de Regresión, º
IEEE Trans. Software Eng., vol. 25, no. 4, pp. 510-525, Jul / Ago.
trabajo fue financiado en parte por el Fondo de Investigación de Accenture en
1999.
Noruega. También nos gustaría agradecer a los revisores anónimos por sus [28] I. Myrtveit, E. Stensrud, y U. Olsson, ªAssessing los beneficios de la imputación de ERP Proyectos
comentarios, que dieron lugar a mejoras sustanciales en este trabajo. de los datos faltantes, º Proc. PARÁMETROS DE 2001,
Pp. 78-84, 2001.
[29] MC Neal, Mx: Modelización Estadística, segunda ed., 1994.
[30] MJ Rovine y M. Delaney, ªMissing estimación de datos en el desarrollo de Investigación, º Métodos
Estadísticos de la Investigación Longitudinal: Principios y estructuración cambio, A. Von Eye
R EFERENCIAS ed., Vol. 1, pp 35-79, Nueva York:. Académico, 1990.
[1] TW Anderson, la probabilidad ªMaximum Estimates para multivariado
Las distribuciones normales cuando Algunas observaciones han desaparecido, º [31] DB Rubin, Multiples imputaciones por la falta de respuesta en las encuestas, Nuevo

Mermelada. Assoc estadístico., vol. 52, pp. 200-203, 1957. York: Wiley, 1987.
[2] AB Anderson, A. Basilevsky y PDJ Hum, ªMissing de datos: Una revisión de la literatura, º Manual [32] JL Schafer, El análisis de datos multivariados incompleto, Boca Ratón:
de investigación Encuesta. PH Rossi, Chapman y Hall, 1997.
JD Wright y AB Anderson eds, Nueva York:.., Academic Press, pp 415-492, 1983. [33] SS y RS Shapiro Francia, Análisis aproximado ªAn de la prueba de varianza para la normalidad,
º Mermelada. Assoc estadístico., vol. 67,
[3] J. Anderson y DW Gerbing, Efectos ªThe de error de muestreo sobre la convergencia, pag. 215, 1972.
Soluciones indebido, y de bondad de ajuste Índices de máxima verosimilitud análisis factorial [34] M. Shepperd y C. Schofield, ªEstimating Software Esfuerzo proyecto usando analogías, º IEEE
confirmatorio, º Psychometrika, vol. 49, pp. 155-173, 1984. Trans. Software Eng., vol. 23, no. 12, pp. 736-743, Nov. 1,997 mil.

[4] L. Angelis, I. Stamelos, y M. Morisio, ªBuilding un Modelo de Estimación de Costos de Software [35] E. Stensrud e I. Myrtveit, ªHuman Rendimiento Estimación con la analogía y Modelos de
Basado en datos categóricos, º Proc. MÉTRICA Regresión: Un validación empírica, º
2001, Pp. 4-15, 2001. Proc. METRICS'98, Pp. 205-213, 1998.
MYRTVEIT ET AL .: DATOS análisis de conjuntos de datos faltantes: una evaluación empírica de los métodos de imputación Y ... 1013

[36] E. Stensrud, ªEstimating con los puntos del objeto mejoradas en comparación con los puntos de Erik Stensrud recibió la maestría en física del Instituto de Tecnología
función, º Proc. Modelo del costo constructivo, (COCOMO '13), de Noruega en 1982, el grado de MS en la economía del petróleo
De octubre de 1998. desde el Instituto Francés del Petróleo en 1984 y el doctorado en
[37] K. Huelga, KE Emam, y N. Madhavji, estimación de costos ªSoftware con datos incompletos, º Ingeniería de Software de la Universidad de Oslo en 2000. En la
ERB-1071 NRC, http: // wwwsel.iit.nrc.ca/~elemam/documents/1071.pdf, también aparezca en actualidad es profesor asociado en la gestión de la tecnología en la
, IEEE Trans. Software Eng. Escuela Noruega de Administración y profesor visitante en la
Universidad de Bournemouth, Inglaterra. También dirige su propia
[38] H. White, ªEstimation, Inferencia y Análisis Especificación, º
Sociedad Econométrica monografías, no. 22, Cambridge Univ. Prensa,
1994.
consultoría de negocios. Antes de eso, dirigió proyectos ERP y proyectos de software a medida
Ingunn Myrtveit recibió la maestría en manejo de la Escuela desde hace más de 15 años sirviendo con las principales empresas de consultoría como Accenture y
Noruega de Administración en 1985 y el doctorado en Economía de Ernst & Young. Sus intereses de investigación incluyen la economía de ingeniería de software y
la Escuela Noruega de Economía y Administración de Empresas en métricas de software. Es miembro de la IEEE, IEEE Computer Society, ACM, y de la Sociedad de
la Computación de Noruega.

1995. Ella es profesor asociado en economía de la empresa en la


Escuela Noruega de Administración. También ha habido un alto Ulf H. Olsson recibió la maestría en matemática de la Universidad de
directivo en el Centro de I + D Sede Mundial de Andersen Oslo en 1981 y el doctorado en estadística multivariante de la
Consulting en Chicago. Sus líneas de investigación Universidad Agrícola de Noruega en 1996. Es profesor asociado en
la estadística multivariante en la Escuela Noruega de
incluir la economía de la empresa, los estudios empíricos, la economía de ingeniería de software, y las Administración. Sus principales áreas de investigación son la
métricas de software. estadística multivariante, econometría y teoría de la medición.

. Para obtener más información sobre este o cualquier tema de computación, por favor visite nuestra
Biblioteca Digital en http://computer.org/publications/dlib.

You might also like