You are on page 1of 2
Brecon tehcasroccin Mace Uso Autnacecae cA € Estandarizando sus datos Para muchos algoritmos de aprendzajeautomstico,el rendimiento es muy sensible la escal eatva de caacteristieas, Por esa razén, a menudo esimportanteestandarzar fica cambiar todos sus valores para ‘que su media =O escalarlos para que su vavianza= ‘us funclones,Estandatizar una caracteristica Una instancaenlaquela normalizocin siti es cuando se presenta el encabezado PE de unrchivo. El encabezedo PE contiene valores extremadamente grandes (pr ejemo, el stzeortnstialtzecoata campoly también valores muy pequefos (por ejemplo, el ‘mero de secciones). Para certs modelos de ML, coms reds neuronales,|agran ciscrepancia en la magnitud entre las caractriticas puede reducirelrendimiento, Prepararse Lapreparacién para esta recetaconsisteeninstalarlos paquetes scikit-2earm y. Realice los siguientes pasos: pancas. pip updo ‘Adem, encontrard un conjunte de datos nombrado #i1e_pe_heasers.csv enel epostriparaestareceta Cémo hacerlo... Enlossiguientes pass, utllzamosel Standaresealen métodosckt-leaen para cestandariar nuestros datos: 11 Comience por inportar ls bibitecsneesarasyrecoplrunconkntae dor x updo Eleonjuntode datos. x tiene el siguiente aspect: iataxarsesa4 o.00000e00 0.000000000 + 614400006 6.000800100 Iai atirnoron t.14000e2 2.000000%00 +. $.5705605 6.00000e%00 oo01T 2 wero.estandarke x usindouna stancerdscler instancl Dpto Elconjunto de datos estancarlzado ene! sig eo, ~o.oss0ese2 -0.0475109¢ ~o.os06s7s1) co. ~0.03s0se2 -0.0475109¢ ~0.02469965) vo. ~0.03s06sa2 -0.04751096 0. osn6sts1) vo, -0.16093613 -0.04958686 0 0406671) to, ~0.03506542 -0.08751096 « ~0.os06srs1) vo, ~0.03506542 -0,04751096 0! oeuss7s111 Como funciona. CComenzamos leyendo nuestro cajunte de datos (aso 1}, que consist ena informacion {el encabezado PE para.unacolecién de archivos PE Estos arian mucho, con algunas columnas que aleanzan clentos e miles de archives otras que permanecen en un solo iit, En consecuercia, ciertos modelos, como ls redes neuronaes, funeionardn malen tales datos no estandarizados. Enel paso2,instanclamos standaréscaler() yluegolo aplcamos para reescalar X usando .#5%_transforn(X) . Como resultado, obtuvimos Lun conjunto de datos reescald,cuyascolumnas (correspondiente las caracteristcas) tienen una media de yuna vaianza de 1 € Seccién anterior Seccion V/book/sccurity/9781789614671/ chOtNltsecO2/train-test 18961467 1/1/chOtvItsecO4/summarizing-large-data-using-prineipa-component-analysis) te aspect:

You might also like