Validación cruzada

(Analysis Services Minería de datos)
SQL Server 2016
Otras versiones

Se aplica a: SQL Server 2016
Validación cruzada es una herramienta estándar de análisis y es una característica
importante que ayudan a desarrollar y ajustar los modelos de minería de datos. La
validación cruzada se usa después de crear una estructura de minería de datos y los
modelos de minería de datos relacionados para determinar la validez del modelo. La
validación cruzada tiene las aplicaciones siguientes:
 Validar la solidez de un modelo de minería de datos determinado.
 Evaluar varios modelos de una instrucción única.
 Generar varios modelos e identificar a continuación el mejor modelo basándose
en estadísticas.
En esta sección se describe cómo usar las características de validación cruzada
proporcionadas para la minería de datos y cómo interpretar sus resultados para un
único modelo o para varios basados en un único conjunto de datos.

Información general sobre el proceso de
validación cruzada
La validación cruzada consta de dos fases: entrenamiento y generación de resultados.
En estas fases se incluyen los pasos siguientes:
 Debe seleccionar una estructura de minería de datos de destino.
 Luego especifica los modelos que desea probar. Este paso es opcional; puede
probar solo la estructura de minería de datos.
 Especifique los parámetros para probar los modelos entrenados.
o El atributo de predicción, el valor de predicción y el umbral de precisión.
o El número de plegamientos en los que desea crear particiones de los
datos del modelo o de la estructura.
 Analysis Services crea y entrena tantos modelos como plegamientos.
 Analysis Services devuelve un conjunto de medidas de precisión para cada
plegamiento de cada modelo o para el conjunto de datos en conjunto.

Configurar la validación cruzada
Puede personalizar el modo de funcionamiento de la validación cruzada para controlar
el número de secciones cruzadas, los modelos probados y la barra de precisión para las

la estructura de minería de datos contiene un conjunto de datos de exclusión que se usa para pruebas. En esta sección se proporciona información para ayudarle a configurar la validación cruzada correctamente. Si utiliza una estructura de minería de datos de sesión. Si usa los procedimientos almacenados de validación cruzada. En el escenario del diagrama. lo que sea menor. También puede especificar la cantidad de datos que se usan durante la validación cruzada si especifica el número de casos totales que se van a usar. Establecer el número de particiones Al especificar el número de particiones. se usan para validación cruzada. El informe de validación cruzada muestra el número total de casos usados en cada partición. se determina cuántos modelos temporales se van a crear. Los datos especificados como disponibles para validación cruzada se distribuyen uniformemente entre todas las particiones. todos los datos del conjunto de datos de aprendizaje. pero el conjunto de datos de pruebas no se ha incluido para la validación cruzada. Los casos se distribuyen de forma uniforme en todos los plegamientos. el número máximo de plegamientos es 10. Esta variedad de opciones implica que puede producir con facilidad muchos conjuntos de resultados diferentes que a continuación se deben comparar y analizar. El ejemplo del diagrama muestra el uso de los datos si se especifican tres plegamientos. Este proceso se repite hasta que Analysis Services ha creado y probado el número de modelos especificado. el valor máximo que puede establecer para el número de plegamientos es 256.predicciones. el 70 por ciento de los datos de la estructura de minería de datos. . o el número de casos. Como resultado. Para cada partición se marca una sección transversal de los datos para su uso como conjunto de pruebas y se crea un nuevo modelo mediante entrenamiento en los datos restantes y no en la partición. En las estructuras de minería de datos almacenada en una instancia de SQL Server Analysis Services. también puede especificar el conjunto de datos que se usa para validar los modelos.

Por ejemplo. de no ser así. dos de las predicciones se cuentan como correctas. y los números más próximos a 0 indican que hay mayor probabilidad de que la predicción sea verdadera. la predicción se cuenta como incorrecta. Si usa el valor predeterminado. pero el valor carece de significado porque todas las predicciones se contarán como correctas.Nota A medida que aumenta el número de plegamientos. Tenga cuidado con no establecer por error State Threshold en 0.0 para el umbral.0 y 1. Los tres modelos devuelven predicciones con probabilidades de predicción de 0.0. las tres predicciones se contarían como correctas. Además.8. debe seleccionar primero la columna de predicción de la lista. Si la probabilidad de predicción supera la barra de precisión. Para controlar este valor. Todos se basan en la misma estructura de minería de datos y todos predicen la columna [Bike Buyer]. lo que significa que el estado de predicción con la probabilidad superior se considera el valor de destino.0. aumenta en consecuencia el tiempo necesario para realizar la validación cruzada porque se debe generar y probar un modelo para cada plegamiento. la predicción se considera correcta. hay que establecer State Threshold en un número entre 0. Debe tener en cuenta que el valor del umbral de estado afecta a las medidas de precisión del modelo. la predicción más probable se cuenta como correcta. donde los números más cercanos a 1 indican un alto nivel de confianza en las predicciones. Elegir los modelos y columnas para la validación Al utilizar la pestaña Validación cruzada del Diseñador de minería de datos. El valor predeterminado para el umbral de estado es NULL. 0. solo se . el modelo calcula la probabilidad de predicción. Al ejecutar una validación cruzada. Establecer el umbral de precisión El umbral de estado le permite establecer la barra de precisión para las predicciones. null. incluso las de probabilidad cero. En este caso. Puede experimentar problemas de rendimiento si el número de plegamientos es demasiado alto.05. suponga que tiene tres modelos que desea probar.15 y 0. Si establece el umbral de estado en 0. Si establece el umbral de estado en 0. comprará”. de los cuales no todos utilizan la misma columna de predicción. que indica la probabilidad de que el estado de predicción sea correcto. Normalmente. solo se cuenta que un modelo ha devuelto una predicción correcta.5. lo que significa “sí.10. Nota Puede establecer un valor de 0. una estructura de minería de datos puede admitir muchos modelos de minería. Para cada caso. desea predecir un único valor 1.

Procedimientos almacenados de validación cruzada Para los usuarios avanzados. Si la única columna utilizada de la tabla anidada es la columna de clave. Analysis Services probará a continuación todos los modelos de agrupación en clústeres que estén asociados a la estructura de minería de datos. a continuación. el modelo se evaluará. . consulte crear un informe de validación cruzada. se deshabilitarán. Puede ejecutar los procedimientos almacenados conectándose a una instancia de SQL Server 2016 Analysis Services (SSAS) desde SQL Server Management Studioo desde cualquier aplicación de código administrado. Analysis Services prueba todos los modelos que utilizan el mismo atributo de predicción automáticamente. de acuerdo a su predicción del estado más probable. Puede medir la precisión de todos los modelos de minería datos relacionados con una estructura de minería de datos única y. Si especifica que un atributo de destino (es decir. como las personalizaciones agregadas y la capacidad de incluir en un script el proceso. Después de seleccionar el atributo de predicción. Si el atributo de destino contiene valores discretos. otras opciones que no son relevantes para los modelos de agrupación en clústeres. Esto facilita la configuración y la visualización de resultados. en caso de que haya un valor concreto que desee predecir. ver inmediatamente los resultados en un informe HTML. como Estado del destino. puede escribir un estado de destino. Si el atributo de destino es una columna anidada o una columna en una tabla anidada.podrán incluir en el informe aquellos modelos que utilicen la misma columna de predicción. Sin embargo. Cuando haya seleccionado esta opción. Si utiliza las herramientas del Diseñador de minería de datos para realizar la validación cruzada. de forma predeterminada. Para ver un ejemplo de cómo crear un informe de validación cruzada mediante la interfaz de usuario. no hay ninguna columna de predicción. < columna anidada>. Validación cruzada en el Diseñador de minería de datos Puede realizar la validación cruzada mediante la la validación cruzada ficha de la vista de gráfico de precisión de minería de datos de una SQL Server Management Studio o SQL Server Development Studio. la validación cruzada también está disponible en forma de procedimientos almacenados del sistema totalmente parametrizados. Para elegir un atributo de predicción. La selección del estado de destino afectará a las medidas que se devuelvan. en su lugar. debe escribir el nombre de la columna anidada con el formato < nombre de tabla anidada>(clave). seleccione#Cluster de la lista en la atributo Target cuadro de lista. un nombre de columna) no obtiene un valor concreto que el modelo deba predecir. haga clic en Atributo de destino y seleccione la columna de la lista. puede configurar los parámetros de resultados de precisión y entrenamiento en un solo cuadro de diálogo. los procedimientos almacenados proporcionan algunas ventajas. después de haber seleccionado la columna de predicción. Herramientas para la validación cruzada Puede utilizar la validación cruzada del Diseñador de minería de datos o puede realizar la validación cruzada ejecutando procedimientos almacenados. puede usar < nombre de tabla anidada>(clave). Cuando se utiliza la validación cruzada con modelos de agrupación en clústeres.

pero generan resultados de precisión para el conjunto de datos especificados como un todo.  Cualquier combinación del conjunto de entrenamiento. De forma predeterminada. Para obtener una lista de los valores de argumento. puede especificar el origen de los datos que se usan para realizar pruebas durante la validación cruzada.  Aplicar los filtros existentes a cada modelo. Si ha creado particiones y ha procesado una estructura de minería de datos. Resultados de la validación cruzada . Generar métricas para todo el conjunto de datos En la segunda fase. Definir los datos de prueba Al ejecutar los procedimientos almacenados de validación cruzada que calculan la precisión (SystemGetAccuracyResults o SystemGetClusterAccuracyResults). proporcione un valor entero para el parámetro DataSet del procedimiento almacenado. Analysis Services: minería de datos y nº 41. Realizar particiones de datos y generar métricas para particiones En la primera fase.  Incluir un conjunto de datos de pruebas existente. Analysis Services calcula entonces las desviaciones media y estándar para las particiones. Para especificar un origen de datos de prueba. se usan los casos de entrenamiento para cada modelo. se aplica dicho filtro. El otro conjunto de procedimientos funciona con otros modelos de minería de datos. Un conjunto de procedimientos funciona solo con modelos de agrupación en clústeres. Si un filtro está asociado a un modelo.  SystemGetClusterCrossValidationResults & #40. llama a otro conjunto de procedimientos almacenados.Los procedimientos almacenados se agrupan por tipo de modelo de minería de datos. en clúster o sin clúster.  SystemGetClusterAccuracyResults & #40. Puede especificar como origen de datos de prueba cualquiera de las siguientes opciones:  Usar solo los datos de aprendizaje. Para cada métrica. puede llamar a este segundo conjunto de procedimientos almacenados para obtener los resultados.  Usar solo el conjunto de datos de pruebas.  SystemGetCrossValidationResults & #40. Analysis Services: minería de datos y nº 41. conjunto de pruebas y filtros de modelos. Si realiza una validación cruzada utilizando el validación cruzada de informes en el Diseñador de minería de datos. Analysis Services: minería de datos y nº 41. los procedimientos almacenados realizan la validación cruzada en dos fases independientes. llama a un procedimiento almacenado del sistema que crea tantas particiones como especifique dentro del conjunto de datos y devuelve los resultados de precisión para cada partición. Para cada tipo de modelo de minería de datos. vea la sección Notas del tema de referencia sobre los procedimientos almacenados correspondiente. Analysis Services: minería de datos y nº 41. Estos procedimientos almacenados no crean particiones del conjunto de datos. no se puede cambiar el conjunto de datos que se utiliza.  SystemGetAccuracyResults & #40. Esta opción no está disponible en la interfaz de usuario.

Medidas en el informe de validación cruzada Describe las fórmulas para calcular cada medida y muestra el tipo de atributo en el que cada medida se puede aplicar. Si realiza una validación cruzada utilizando el Diseñador de minería de datos. el estado y el atributo podría no ser adecuada para los modelos de agrupación en clústeres.  Algunos valores de los parámetros están restringidos. use solo el conjunto de pruebas de la estructura de minería de datos sin filtros para asegurarse de que se usa un conjunto coherente de datos para todos los modelos.  Si la estructura de minería de datos contiene modelos de agrupación en clústeres y no clúster y no elige el #Cluster opción.Si usa el Diseñador de minería de datos. Por ejemplo.  No se admite el uso de la validación cruzada en modelos que estén basados en el algoritmo de serie temporal de Microsoft o en el algoritmo de clústeres de secuencia de Microsoft. debe utilizar el conjunto de datos de prueba que esté asociado al modelo o a la estructura.  No se podrá crear el informe si su estructura de minería de datos no contiene ningún modelo que pueda probar la validación cruzada. Si realiza una validación cruzada utilizando procedimientos almacenados. No se puede agregar a un modelo un nuevo filtro o cambiar uno existente durante la validación cruzada. existen algunas limitaciones en los modelos que puede probar y en los parámetros que puede establecer.. El informe contiene dos tipos de acciones: agregados que indican la variabilidad del conjunto de datos cuando se divide en subconjuntos y medidas específicas del modelo de la precisión para cada plegamiento. debería usar los procedimientos almacenados y especificar una lista de modelos de minería de datos. ya que generar tantos modelos podría provocar la ralentización de la presentación del informe. se mostrará una advertencia si el número de plegamientos es superior a 10. si existe. Por lo general. cada modelo se filtra por separado. Restricciones sobre la validación cruzada Si realiza una validación cruzada utilizando el informe de validación cruzada de SQL Server Development Studio. Para asegurarse de que compara solo los modelos que tienen el mismo filtro. si . No puede especificar el modelo o una lista de modelos. Si usa los procedimientos almacenados de validación cruzada. estos resultados se muestran en un visor Web similar a una cuadrícula. Describe en general cómo se pueden interpretar las medidas. O bien. se realizará una validación cruzada de todos los modelos asociados a la estructura de minería de datos seleccionada. tiene la opción adicional de elegir el origen de datos de prueba. Si prueba varios modelos de minería de datos y estos tienen filtros.  De forma predeterminada. En los siguientes temas se proporciona más información sobre estas métricas: Fórmulas de validación cruzada Enumera todas las medidas por el tipo de prueba. estos mismos resultados se devuelven como una tabla. resultados de ambos tipos de modelos se muestran en el mismo informe. puede recibir resultados incoherentes si algunos modelos tienen un filtro y otros no. incluso aunque la configuración de umbral. Dado que la validación cruzada prueba de manera predeterminada todos los modelos de minería de datos asociados a una estructura.

Temas Vínculos Describe cómo establecer los parámetros de validación cruzada en SQL Server Development Studio.desea especificar la configuración avanzada. Contenido relacionado Vea los siguientes temas para obtener más información sobre la validación cruzada o la información sobre los métodos relacionados para probar los modelos de minería de datos. debe utilizar los procedimientos almacenados de la validación cruzada. ningún modelo que contenga una columna KEY TIME o una columna KEY SEQUENCE puede incluirse en la validación cruzada. como gráficos de precisión. Analysis Services: minería de datos y nº 41. Describe cómo crear un conjunto de datos de pruebas para las estructuras y los modelos Conjuntos de datos de entrenamiento . Pestaña validación cruzada & #40. La validación cruzada no se puede utilizar con modelos de clústeres de secuencia o serie temporal. Minería de datos almacena procedimientos & #40. Vista de gráfico de precisión de minería de datos & #41. Medidas en el informe de validación cruzada Enumera los procedimientos almacenados para calcular las estadísticas de validación cruzada. Concretamente. Describe las métricas que proporciona la validación cruzada Fórmulas de validación cruzada Explica el formato del informe de validación cruzada y define las medidas estadísticas proporcionadas para cada tipo de modelo.

Temas Vínculos relacionados. Matriz de clasificación & #40. . Pruebas y validación tareas y procedimientos & #40. minería de datos y nº 41. Analysis Services: minería de datos y nº 41. Analysis Services: minería de datos y nº 41. Gráfico de beneficios & #40. Analysis Services: minería de datos y nº 41. Gráfico de dispersión & #40. Gráfico de elevación & #40. y de prueba Vea los ejemplos de otros tipos de gráficos de precisión. Describe los pasos para crear varios gráficos de precisión. Analysis Services: minería de datos y nº 41.