You are on page 1of 2
Brecon tehcasroccin Mace Uso Autnacecae cA € Entrene, pruebe y divida sus datos Enelaprendizale automstico, nuestro objetivo es crear un programa que seacapaz de realizar tareas que nunca se le ha ensefiado explieitamente a realizar. Laformaen quel hacemos es usar los datos que hemos recoplado para entrenarogjstar un modelo ‘matematicooestaistic, Los datos utlizados para ajustar el modelo se denominan datos de entrenamiento. El modelo entrenado esultante seusa para predecir datos futures, ‘nunca antes visto. De esta manera el programa puede gestionar nuevas situaciones sin Intervenelén humana, Uno detos princizaes desstos paraun profesional de aprenlizaje automatic es el peligro de sobreajuste: crear un modelo que funcione bien en os datos de entrenamiento pero que no pueda generalzar a datos nuevos y nunca vstos Para combatirel problema el sobreajuste, los profesional del aprendizaje automaticoreservanuna parte de los alos, lamados dats de prueba ls usan slo para evalua el rendimlento del modelo ‘entrenado,en ugar deinclilo como parte dl conjunta de datos de entrenamiento. Esta culdadosa separaién de los conjunts de prueba es clave para entrenarclasificadores en verseguridad, conde el sobresjuste es un peligro omnipresente. Un pequetiodescudo, como usar solo datos benignas den entornalocal, puede conducr aun clasificador ceficiente ‘ay varias otras formas e valdar el rendimiento del modelo, como la validaciéncruzada Para simplifcar,nos centraremos principalmente en ladivsin de pruebas de tren Prepararse Lapreparacién para esta recetaconsiste en instalarscikitlearnylos pandas paquetes| fen pip -Elcomando para esto es el siguiente: undo ‘Ades, hemos incuido el nortn_korea_nissile test dataase.csy conjuntode alos para sar en estareceta. Cémo hacerlo... Los siguientes pasos demuestrancéma tomar un conjunto de datos, que consta de caracteristcas x yetiquetas y .yevidirlos en un subconjunto de capactaciény prueba: 1 Comienceinportandoel tain test-salt miduloyla pandas bibtec,y esis updo Ye eitntssiie me] ~ Bo etaroprmsste tne ot » 2 Aeon dvdaalestriment el conjuto de dtosy sus etguetsenun updo 3. Aplesmosel_traintet_sot-mftado una ves mis paraobtene un conn de validecisn X90 ¥ yal Dupe > 4 Teinames con un conjutode entenaniento que representa el 60% del tamato delos Lasiguientecapturade pantalla muest Cémo funciona. \We tar by reading in our dataset, consisting of hstorical and contiouing missile ‘experiments in North Korea, Wea to predict the type of missile based on remaining features, suchas ality andtime oflaunch This concludes step 1. In step 2, we apply scikitlear's train test split methodtosubdivide x and y intoatraining set Xtrain and y_train vandaleoatestingset, xsest and y_test The ‘est_size = 0.2 parameter means that the testing set canslets of 20% of the original ata, while the remainders placed nthe traningset. The randon_state parameter allows us to reproduce the same randomly generated split. Next, concerning step 3, ts important to note that, in applications we often want to compare several ferent ‘models. The danger of using the testing st to Select the best models that we may endup overfiting the testing set. Thiele similar tthe statitealsin of dat fihing Inarder to combat this danger. we create an adetional dataset, called the validation set. We ain ‘ur models onthe training set, use the validation set to compare them, and nally use the testing st to obtain an accurate indicator of the performance ofthe model we have chosen. So,instep 3, we choose our parame result consists of a training st of G0% ofthe orginal dataset, validation set of 20%, and that. mathematically speaking, the end testing st of 20% Finally, we double-check our ssumptionsby employing the len funeién para calcular a longitud de las matrices (paso 4) Seccién anterior Seccin(book/security/9781789614671/1/ch01 hltsecOt/technical siguiente > Vbook/security/9781789614671/1/ch0 1h ItsecO3/standardizing-your-data)

You might also like