You are on page 1of 3
Daren statacererodecon Marcador Untertdto Mj Achvorsoctlgo cA € Resumiendo grandes datos utilizando el analisis de componentes principales ‘Suponga que desea construr un predictor para elvalor fiscal neto esperadode un inividuo alos 45 aos. Hay una gran canidad de varlables a consderarcoeficente intelectual valor fiscal actual estado cil estatra, vbicacion geogréle, salud Leducacib, carrera estado, ed y muchos otros que sete ocurran come el nimero de conexiones de Liked os puntajes del SA El problema de tener tantasfunciones es mip, Primero lacantidad de dates, que inurrrdenaltos costes de almacenamientoy tiempo de cielo parasualgoritmo. En segundo lugar, con un gran espacio de funciones es fundamental tener una gran cantided Ge datos para que el modelo sea preciso. Es decir se hace mas dificil distinguir la seal del ‘vido, Por estas razones, cuando tratamas con datos ce alta imensién comoeste, 2 ‘menudo empleamos técnias de reduccin de climensionalidad como PCA. Se puede ‘encontrar més informacidn sobre el tema en tts:fenwikipediacorg/wiki/Princial_componentanalysis (nttpslensikinedia.org/uiki/Principal component analysis) PCA nos permite tomar auestras caracteristcasy devolve un nimero menor de nuevas caracteristcasformadas a partido ls originales, con el mxime poder exlicativo. ‘Adem, dado que las nuevas caracterstcas son combinacioneslineales de las caraceristcas anteriores, esto nes permite anonimizar nuestros datos, locual es muy dtl cuando setrabaja con informactén financier, por elemalo. Prepararse Lapreparacién para esta recetaconsisteeninstalarelsckitlearnylos pandss paquets fen pip «El comand para esto esl siguiente: updo ‘Adem, uizaremos elmismo conjunto de datos alware_pe_neaders.csv ,comoenta Cémo hacerlo... Ents sec veremos una receta que muestra como usar PCA eno to 1 Comience importa ls bibtecsnacesvissyleyendo ene cojuntode dats: undo C -1).t0 roy) 2 Estandrce coun te dtos seg sea necesrio ates de ape PCA: Dupo ALstendereeé = Stanarscaer (4 tron) ‘5 stanaten Fen stance and seta reduce the dimenslonaly of or dat: ony 4 hoses te efetveness of your dersanaty reduction: copy [were nite caton ‘The following screenshot shows the output [1.237140960-01 6.045268120-02 5.358476380-02 4,952869300-02 21236966880-02 21057555010-02 1.24894930-02 1.736483100-02 1166649070e-02 1162647194e-02 1.52683994e-02 1.46357930e-02 41142948516=-02 1139721004e~02 3135336124e-02 1133766277602 9.90148375e-09 $161478385e-03 9117627692e-03 9.042025446-03 191663929950-03 6194752252009 61842160930-03 6.402440010-03, 31798643240-03 3.24146447=-03 311855857Le-03 2,67004617=-03 13B8395920-03 11206940960-03 @1208965S0e-04 6,92520065e-04 2179632267604 1,366147830-04 €.S600L07Le-06 9.22441346=-07 '51637223030-34) How it works. \We bein by reading in our dataset and then standardizing, asin the recipe on standardizing data steps 1 and 2) Itisnecessary to work with standardized data before applying PCA, We now instantiate anew PCA transformer instance, anduse Itt both learn the transformation fit) and also apply the transform tothe dataset, using ‘ie_transforn (step 3). lnstep 4, we analyze aur transformation. Inpartcular note thatthe elements of pea.explained variance ratio, indica qué cantidad dela varianza se tiene en cuenta en cadaieccion. La suma es 1,10 que indica que toda varianza se tlene en cuentas consideramos el espacio completo en el que viven ls datos ‘Sin embargo, solo tomando ls primeras direciones, podemos dar cuenta de una gran parte dela varianza, al lempo que lnitams nuestra dmensionalidad, Ennestro jemplo, las primeras 40 diveclonesrepresentan el 9% dela varanza updo Jere cote eric tito Esto produce el siguiente resultado: undo Esto significa que podemos reducir nuestra cantidad de caracteristicas 2 40 (de 78) mientras conserva e1 90% dela variacién. Las implcaciones de esto son que muchas eas caractritias del encaberado PE estén estrechamente relacionadas, lo cuales comorensble, ya cue no estan disefadas para sr independents. seccién anterior Seccinbook/security/9781789614671/1/ch01 hItsecO3/standardiz (Vbookisecurity'978178961467 1/UehO tl 1sec05 generating-text-using-markov-chains)

You might also like