Brecon tehcasroccin Mace Uso Autnacecae
cA €
Entrene, pruebe y divida sus datos
Enelaprendizale automstico, nuestro objetivo es crear un programa que seacapaz de
realizar tareas que nunca se le ha ensefiado explieitamente a realizar. Laformaen quel
hacemos es usar los datos que hemos recoplado para entrenarogjstar un modelo
‘matematicooestaistic, Los datos utlizados para ajustar el modelo se denominan datos
de entrenamiento. El modelo entrenado esultante seusa para predecir datos futures,
‘nunca antes visto. De esta manera el programa puede gestionar nuevas situaciones sin
Intervenelén humana,
Uno detos princizaes desstos paraun profesional de aprenlizaje automatic es el
peligro de sobreajuste: crear un modelo que funcione bien en os datos de entrenamiento
pero que no pueda generalzar a datos nuevos y nunca vstos Para combatirel problema
el sobreajuste, los profesional del aprendizaje automaticoreservanuna parte de los
alos, lamados dats de prueba ls usan slo para evalua el rendimlento del modelo
‘entrenado,en ugar deinclilo como parte dl conjunta de datos de entrenamiento. Esta
culdadosa separaién de los conjunts de prueba es clave para entrenarclasificadores en
verseguridad, conde el sobresjuste es un peligro omnipresente. Un pequetiodescudo,
como usar solo datos benignas den entornalocal, puede conducr aun clasificador
ceficiente
‘ay varias otras formas e valdar el rendimiento del modelo, como la validaciéncruzada
Para simplifcar,nos centraremos principalmente en ladivsin de pruebas de tren
Prepararse
Lapreparacién para esta recetaconsiste en instalarscikitlearnylos pandas paquetes|
fen pip -Elcomando para esto es el siguiente:
undo
‘Ades, hemos incuido el nortn_korea_nissile test dataase.csy conjuntode
alos para sar en estareceta.
Cémo hacerlo...
Los siguientes pasos demuestrancéma tomar un conjunto de datos, que consta de
caracteristcas x yetiquetas y .yevidirlos en un subconjunto de capactaciény
prueba:
1 Comienceinportandoel tain test-salt miduloyla pandas bibtec,y esis
updo
Ye eitntssiie me] ~
Bo etaroprmsste tne ot
»2 Aeon dvdaalestriment el conjuto de dtosy sus etguetsenun
updo
3. Aplesmosel_traintet_sot-mftado una ves mis paraobtene un conn de
validecisn X90 ¥ yal
Dupe
>
4 Teinames con un conjutode entenaniento que representa el 60% del tamato delos
Lasiguientecapturade pantalla muest
Cémo funciona.
\We tar by reading in our dataset, consisting of hstorical and contiouing missile
‘experiments in North Korea, Wea to predict the type of missile based on remaining
features, suchas ality andtime oflaunch This concludes step 1. In step 2, we apply
scikitlear's train test split methodtosubdivide x and y intoatraining
set Xtrain and y_train vandaleoatestingset, xsest and y_test The
‘est_size = 0.2 parameter means that the testing set canslets of 20% of the original
ata, while the remainders placed nthe traningset. The randon_state parameter
allows us to reproduce the same randomly generated split. Next, concerning step 3, ts
important to note that, in applications we often want to compare several ferent
‘models. The danger of using the testing st to Select the best models that we may endup
overfiting the testing set. Thiele similar tthe statitealsin of dat fihing Inarder to
combat this danger. we create an adetional dataset, called the validation set. We ain
‘ur models onthe training set, use the validation set to compare them, and nally use the
testing st to obtain an accurate indicator of the performance ofthe model we have
chosen. So,instep 3, we choose our parame
result consists of a training st of G0% ofthe orginal dataset, validation set of 20%, and
that. mathematically speaking, the end
testing st of 20% Finally, we double-check our ssumptionsby employing the len
funeién para calcular a longitud de las matrices (paso 4)
Seccién anterior Seccin(book/security/9781789614671/1/ch01 hltsecOt/technical
siguiente > Vbook/security/9781789614671/1/ch0 1h ItsecO3/standardizing-your-data)