Daren statacererodecon Marcador Untertdto Mj Achvorsoctlgo
cA €
Resumiendo grandes datos
utilizando el analisis de
componentes principales
‘Suponga que desea construr un predictor para elvalor fiscal neto esperadode un
inividuo alos 45 aos. Hay una gran canidad de varlables a consderarcoeficente
intelectual valor fiscal actual estado cil estatra, vbicacion geogréle, salud
Leducacib, carrera estado, ed y muchos otros que sete ocurran come el nimero de
conexiones de Liked os puntajes del SA
El problema de tener tantasfunciones es mip, Primero lacantidad de dates, que
inurrrdenaltos costes de almacenamientoy tiempo de cielo parasualgoritmo. En
segundo lugar, con un gran espacio de funciones es fundamental tener una gran cantided
Ge datos para que el modelo sea preciso. Es decir se hace mas dificil distinguir la seal del
‘vido, Por estas razones, cuando tratamas con datos ce alta imensién comoeste, 2
‘menudo empleamos técnias de reduccin de climensionalidad como PCA. Se puede
‘encontrar més informacidn sobre el tema en
tts:fenwikipediacorg/wiki/Princial_componentanalysis
(nttpslensikinedia.org/uiki/Principal component analysis)
PCA nos permite tomar auestras caracteristcasy devolve un nimero menor de nuevas
caracteristcasformadas a partido ls originales, con el mxime poder exlicativo.
‘Adem, dado que las nuevas caracterstcas son combinacioneslineales de las
caraceristcas anteriores, esto nes permite anonimizar nuestros datos, locual es muy dtl
cuando setrabaja con informactén financier, por elemalo.
Prepararse
Lapreparacién para esta recetaconsisteeninstalarelsckitlearnylos pandss paquets
fen pip «El comand para esto esl siguiente:
updo
‘Adem, uizaremos elmismo conjunto de datos alware_pe_neaders.csv ,comoenta
Cémo hacerlo...
Ents sec veremos una receta que muestra como usar PCA eno to
1 Comience importa ls bibtecsnacesvissyleyendo ene cojuntode dats:
undo
C -1).t0 roy)
2 Estandrce coun te dtos seg sea necesrio ates de ape PCA:Dupo
ALstendereeé = Stanarscaer (4 tron)
‘5 stanaten Fen stance and seta reduce the dimenslonaly of or dat:
ony
4 hoses te efetveness of your dersanaty reduction:
copy
[were nite caton
‘The following screenshot shows the output
[1.237140960-01 6.045268120-02 5.358476380-02 4,952869300-02
21236966880-02 21057555010-02 1.24894930-02 1.736483100-02
1166649070e-02 1162647194e-02 1.52683994e-02 1.46357930e-02
41142948516=-02 1139721004e~02 3135336124e-02 1133766277602
9.90148375e-09 $161478385e-03 9117627692e-03 9.042025446-03
191663929950-03 6194752252009 61842160930-03 6.402440010-03,
31798643240-03 3.24146447=-03 311855857Le-03 2,67004617=-03
13B8395920-03 11206940960-03 @1208965S0e-04 6,92520065e-04
2179632267604 1,366147830-04 €.S600L07Le-06 9.22441346=-07
'51637223030-34)
How it works.
\We bein by reading in our dataset and then standardizing, asin the recipe on
standardizing data steps 1 and 2) Itisnecessary to work with standardized data before
applying PCA, We now instantiate anew PCA transformer instance, anduse Itt both
learn the transformation fit) and also apply the transform tothe dataset, using
‘ie_transforn (step 3). lnstep 4, we analyze aur transformation. Inpartcular note
thatthe elements of pea.explained variance ratio, indica qué cantidad dela
varianza se tiene en cuenta en cadaieccion. La suma es 1,10 que indica que toda
varianza se tlene en cuentas consideramos el espacio completo en el que viven ls datos
‘Sin embargo, solo tomando ls primeras direciones, podemos dar cuenta de una gran
parte dela varianza, al lempo que lnitams nuestra dmensionalidad, Ennestro
jemplo, las primeras 40 diveclonesrepresentan el 9% dela varanza
updo
Jere cote eric tito
Esto produce el siguiente resultado:
undoEsto significa que podemos reducir nuestra cantidad de caracteristicas 2 40 (de 78)
mientras conserva e1 90% dela variacién. Las implcaciones de esto son que muchas
eas caractritias del encaberado PE estén estrechamente relacionadas, lo cuales
comorensble, ya cue no estan disefadas para sr independents.
seccién anterior Seccinbook/security/9781789614671/1/ch01 hItsecO3/standardiz
(Vbookisecurity'978178961467 1/UehO tl 1sec05 generating-text-using-markov-chains)