Brecon tehcasroccin Mace Uso Autnacecae
cA €
Estandarizando sus datos
Para muchos algoritmos de aprendzajeautomstico,el rendimiento es muy sensible la
escal eatva de caacteristieas, Por esa razén, a menudo esimportanteestandarzar
fica cambiar todos sus valores para
‘que su media =O escalarlos para que su vavianza=
‘us funclones,Estandatizar una caracteristica
Una instancaenlaquela normalizocin siti es cuando se presenta el encabezado PE
de unrchivo. El encabezedo PE contiene valores extremadamente grandes (pr ejemo,
el stzeortnstialtzecoata campoly también valores muy pequefos (por ejemplo, el
‘mero de secciones). Para certs modelos de ML, coms reds neuronales,|agran
ciscrepancia en la magnitud entre las caractriticas puede reducirelrendimiento,
Prepararse
Lapreparacién para esta recetaconsisteeninstalarlos paquetes scikit-2earm y.
Realice los siguientes pasos: pancas. pip
updo
‘Adem, encontrard un conjunte de datos nombrado #i1e_pe_heasers.csv enel
epostriparaestareceta
Cémo hacerlo...
Enlossiguientes pass, utllzamosel Standaresealen métodosckt-leaen para
cestandariar nuestros datos:
11 Comience por inportar ls bibitecsneesarasyrecoplrunconkntae dor x
updo
Eleonjuntode datos. x tiene el siguiente aspect:
iataxarsesa4 o.00000e00 0.000000000 + 614400006 6.000800100
Iai atirnoron t.14000e2 2.000000%00 +. $.5705605 6.00000e%00
oo01T
2 wero.estandarke x usindouna stancerdscler instancl
DptoElconjunto de datos estancarlzado ene! sig
eo, ~o.oss0ese2 -0.0475109¢
~o.os06s7s1)
co. ~0.03s0se2 -0.0475109¢
~0.02469965)
vo. ~0.03s06sa2 -0.04751096
0. osn6sts1)
vo, -0.16093613 -0.04958686
0 0406671)
to, ~0.03506542 -0.08751096 «
~0.os06srs1)
vo, ~0.03506542 -0,04751096
0! oeuss7s111
Como funciona.
CComenzamos leyendo nuestro cajunte de datos (aso 1}, que consist ena informacion
{el encabezado PE para.unacolecién de archivos PE Estos arian mucho, con algunas
columnas que aleanzan clentos e miles de archives otras que permanecen en un solo
iit, En consecuercia, ciertos modelos, como ls redes neuronaes, funeionardn malen
tales datos no estandarizados. Enel paso2,instanclamos standaréscaler() yluegolo
aplcamos para reescalar X usando .#5%_transforn(X) . Como resultado, obtuvimos
Lun conjunto de datos reescald,cuyascolumnas (correspondiente las caracteristcas)
tienen una media de yuna vaianza de 1
€ Seccién anterior Seccion V/book/sccurity/9781789614671/ chOtNltsecO2/train-test
18961467 1/1/chOtvItsecO4/summarizing-large-data-using-prineipa-component-analysis)
te aspect: