Professional Documents
Culture Documents
&,*'-"5&
&2$"+"+/& !'"'+
'5DFU7H=7589@CGB9;C7=CG9GHU75A6=5B8C7585J9NAUG9ADF9G5G9GHUB57IAI@5B8C75BH=8589G
7585J9NA5MCF9G8985HCG5@A579BUB8C@CG9B65G9G8985HCG7585J9NAUG;F5B89G
/C8CG@CG
8W5G@5G7CAD5XW5GH9@9:YB=75GF97CD=@5BJ5F=CGH9F56MH9G8985HCGGC6F95EI=VB@@5A5ACG7IUB8C
@CG@@5A5ACGM7IUBHCH=9ADC<56@5ACG7CB9@@CG
585J9NEI99G75B95ACGBI9GHFCH5F>9H589
:=89@=858!BIB5H=9B8589565FFCH9GDFCDCF7=CB5ACG=B:CFA57=YBJ5@=CG5GC6F9@CGDFC8I7HCGEI9
BCG;IGH5B7IUB8C@CG7CBGIA=ACGM9@DF97=CEI99GH5ACG8=GDI9GHCG5D5;5FDCF9@@CG
9<97<C
@5F97CD=@57=YB8985HCGG9<5JI9@HCD5FH=7I@5FA9BH9J5@=CG5D5F57CADF9B89F@5F9@57=YB9BHF9
DF97=CM89A5B85
'CG;F5B89GG=H=CG89GI65GH5G9B@WB95897CBGIA=8CF57CBGIA=8CF 7CAC
95MCI=8 DCG99B=BA9BGCG7C:F9G89@H9GCFC8985HCG89DF97=CGM89A5B855A98=85EI9
C6G9FJ5B@5JC@IBH5889D5;C89@5GD9FGCB5G9G897=F@5GC:9FH5G89@5GD9FGCB5G 5GW7CAC@5
C:9FH589DFC8I7HCG9G897=F=BJ9BH5F=CG89GI65GH5G M89A5B859G897=F@5DFCDCF7=YB89
GI65GH5GEI9G9F95@=N5B 8=GD9FG5GH5BHC;9C;FU:=75A9BH99G897=F9B8=:9F9BH9GA9F758CGM
B57=CB9G 7CACH9ADCF5@A9BH99G897=F9B9BHCFBCGEI975A6=5B97CBYA=75C9GH57=CB5@A9BH9
%BH9FB9H9GIB@I;5FD5FH=7I@5FA9BH97CBJ9B=9BH9D5F5@5F97CD=@57=YB8985HCG7585J9NEI9
<579ACG7@=79BIB9B@579CJ=G=H5ACGIBBI9JCG=H=CK9689>5ACGIB<I9@@58=;=H5@DCF9>9AD@C9B
:CFA5897CC?=9GICHFCG8=GDCG=H=JCG89G9;I=A=9BHC @CEI9D9FA=H95@CG9GD97=5@=GH5G9B
A5F?9H=B;F9IB=FIB5=A5;9B7CAD@9H589BI9GHFC7CADCFH5A=9BHC89B5J9;57=YBM9BZ@H=A5
=BGH5B7=5BI9GHF5D9FGCB5@=858MDF9:9F9B7=5G897CADF5
.=6=9B9GH9H9GCFC89=B:CFA57=YB
D9FGCB5@<5;9B9F58C5@;IB5GDF9C7ID57=CB9GGC6F9@5DF=J57=85889@CG7CBGIA=8CF9GG9DI989
IH=@=N5F89:CFA5GEI9G95B69B9:=7=CG5GD5F5HC8CG9B@I;5F89GC@C89H9FA=B585GD9FGCB5GC
9ADF9G5G
/CA9ACG9@9>9AD@C89@CGACHCF9G896ZGEI98589%BH9FB9H7CAC#CC;@9C45<CC
#CC;@95B5@=N5@5=B:CFA57=YB89A=@@CB9G89G=H=CGK96=B8=J=8I5@9GM7YACJCH5BGC6F9@5IH=@=858
89@CG89AUG
'I9;C7@5G=:=75B8C@5F9889F9@57=CB9G9BHF9A=@@CB9GMA=@@CB9G89G=H=CGK96
89JI9@J9@CGF9GI@H58CGAUGF9@9J5BH9G7585J9NEI9
'5F97CD=@57=YBM9@5BU@=G=G8985HCGBCGC@C9G=ADCFH5BH99B%BH9FB9H9G=;I5@A9BH9=ADCFH5BH9
D5F5@5G9ADF9G5GAUGHF58=7=CB5@9GDCF9>9AD@CHF58=7=CB5@9G
/CA9ACG9@9>9AD@C89@5=B8IGHF=5
89H5F>9H5G897FV8=HCICHF5G=B8IGHF=5GEI9CHCF;5B7FV8=HC7CAC<=DCH975GM65B75C@5=B8IGHF=5
89G9;IFCG
'CG9A=GCF9G89H5F>9H5G897FV8=HC5A9BI8C9LD9F=A9BH5BG9@977=YB58J9FG59B9@
G9BH=8C89EI9@CG7CBGIA=8CF9GEI989G95BGIGDFC8I7HCG7CBA5MCF9BHIG=5GACGI9@9BG9F@CG
EI9H5A6=VB7CFF9B9@A5MCFF=9G;C
9<97<C@5F5NYBDCF@5EI9IB5D9FGCB59GHU89G9GD9F585
DCFC6H9B9FIB5BI9J5H5F>9H5897FV8=HCDI989G9FEI9H=9B9IBDIBH5>97F98=H=7=C9LHF9A585A9BH9
A5@CMB=B;IB5CHF57CAD5XW59GHU8=GDI9GH559A=H=F@9IB5H5F>9H5897FV8=HC
+CFCHFC@58C9GDC7C
DFC656@9EI9@5GD9FGCB5GEI9M5DCG99B8CGCHF9GH5F>9H5G897FV8=HCMEI9H=9B9BIBDIBH5>989
7FV8=HC9GH9@5F F9GDCB85B5IB5BI9J5C:9FH589H5F>9H5G897FV8=HC
!BHCB79GREI9F9ACG59G5
D9FGCB5EI9F9GDCB895BI9GHF5C:9FH589IB5A5B9F565GH5BH95BG=CG5M89G9GD9F5857CAC
BI9GHFCBI9JC7@=9BH9SGH59G9L57H5A9BH9@5G=HI57=YB5@5EI95D=H5@*B99B:F9BHYJ5F=CG
!@H9A57CAZB9BHC8CG9GHCG75GCGM9>9AD@CGA9B7=CB58CG5BH9F=CFA9BH99GEI9G965G5B
9B@5F97CD=@57=YBM9@5BU@=G=G8985HCGD5F5HCA5FA9>CF9G897=G=CB9G7CA9F7=5@9G
+CF@C
H5BHC9@C6>9H=JC899GH9@=6FC9GHF5BGA=H=F9@J5@CF89@55B5@WH=7565G5859B85HCG
5;9F9BH9GM9GHI8=5BH9G89B9;C7=CG
!GH9@=6FC9GAIMDFU7H=7CM9GHUCF=9BH58C5@5DFU7H=75
9<97<CG=6=9B<5MAI7<CG@=6FCGGC6F99@H9A589@59GH58WGH=75M@5A=B9FW58985HCGGC@C
IBCGDC7CG9GHUB9G7F=HCG89A5B9F55779G=6@9D5F5@CG;9F9BH9G
(I7<CG@=6FCGG9D=9F89B9B
89H5@@9GA5H9AUH=7CGM5@;CFWHA=7CG9B@I;5F8979BHF5FG99B9@D5D9@89@5A=B9FW58985HCG
D5F5F9GC@J9FDFC6@9A5G7CA9F7=5@9GF95@9G
!GH9@=6FC58CDH5FUIB9B:CEI9AIMDF5;AUH=7C
CA9BN5B8C7CBDFC6@9A5GF95@9G89HCA589897=G=CB9G9GH9@=6FCACH=J5FU@5B979G=85889
85HCGMGC@I7=CB9G65G585G9B85HCGA98=5BH99@IGC8985HCGF95@9G899G79B5F=CG
7CA9F7=5@9GF95@9G
D5FH=F89@CGDF=B7=D=CG6UG=7CG9@@97HCF5DF9B89FUGC6F9@5=ADCFH5B7=5
89@59LD@CF57=YBMJ=GI5@=N57=YB8985HCGM7CADF9B89FU@CG8=:9F9BH9GAVHC8CGD5F59@
AC89@58C8985HCG
.9<5FU<=B75D=V9B7CADF9B89F7IUB8CIH=@=N5FEIVAVHC8C
!GH9@=6FCH5A6=VBD9FA=H=FU5@CG;9F9BH9G=BH9F57HI5FA9>CF7CB9@D9FGCB5@9GD97=5@=N58C9B
5BU@=G=G
9<97<C9@C6>9H=JC899GH9@=6FC9GBCD5F575D57=H5F5BI9JCG9GH58WGH=7CGMA=B9FCG89
85HCG<5MAI7<CGCHFCG@=6FCGEI9@C;F5FUB9GH9C6>9H=JC
!@C6>9H=JC9G9LDCB9F5@CG;9F9BH9GM
HCA58CF9G89897=G=CB9G5@5G=895GM7CB79DHCG7@5J989@5HCA589897=G=CB9G65G5859B85HCG
!B
9G9G9BH=8C9@C6>9H=JCBC9GG9F9L<5IGH=JC9BHC8CG@CG89H5@@9G89@5A=B9FW58985HCGM@5G
9GH58WGH=75GG=BCACH=J5F@5B979G=85889IB5HCA589897=G=CB9G65G5859B85HCGMDFCDCF7=CB5F5
@CG;9F9BH9G@CG5BH97989BH9GM9@JC756I@5F=CB979G5F=CGD5F5@C;F5F7CBVL=HC=BH9F57HI5F7CB
D9FGCB5@9GD97=5@=N58C75D57=H58C9BA=B9FW58985HCGC9GH58WGH=75
!GH9@=6FC9GHU8=F=;=8C59GHI8=5BH9GM;9F9BH9G89B9;C7=CGEI96IG75BC6H9B9FIB5]J9BH5>5^7CAD9H=H=J55HF5JVG89@55B5@WH=75 CB9@
5IA9BHC89@DC89F897CADIH57=YB899G7F=HCF=CM@5G9ADF9G5GEI957IAI@5B75BH=8589GA5G=J5G8985HCG@5G897=G=CB9G7CA9F7=5@9GG9
9LD9F=9B7=59BA5F?9H=B;C:=B5BN5GD9FCDC75:CFA57=YBHV7B=75 !GH589G7CB9L=YB5A9BI8CG989695@<97<C89EI9@CG8CG;FIDCGBC
<579F@CH5A6=VBDFCDCF7=CB5FUIB5D@5H5:CFA5D5F5IB@9B;I5>97CB>IBHC9B9@G9BH=8C89EI9:57=@=H5FUEI9@558A=B=GHF57=YB5DF97=9M
@9B;I5>97CB>IBHC9B9@G9BH=8C89EI9:57=@=H5FUEI9@558A=B=GHF57=YB5DF97=9M7CADF9B85@CG9G:I9FNCG5B5@WH=7CG @5;9BH989B9;C7=CG
D=9BG59B=BJ9FG=CB9GMF9HCFBCG 0BC89@CGC6>9H=JCG899GH9@=6FC9GDFCDCF7=CB5F5@558A=B=GHF57=YBIB5A9>CF5DF97=57=YB89@J5@CF89@5
58A=B=GHF57=YB5DF97=9M7CADF9B85@CG9G:I9FNCG5B5@WH=7CG
R,IV9G9GH9@=6FC!G
'5A5MCFW589@CG@=6FCG899GH58WGH=75DCB9B@5GA5H9AUH=75GM@5G:YFAI@5GA5H9AUH=75G9BGI
79BHFC
!GH9@=6FC9GHU89@=69F585A9BH9@=AD=C89A5H9AUH=75GM:YFAI@5G
!GHCBCEI=9F9897=FEI9
@5GA5H9AUH=75GBCG95B=ADCFH5BH9GDCF9@7CBHF5F=C@5GA5H9AUH=75G>I9;5BIBD5D9@=ADCFH5BH9
9B9@89G5FFC@@C89AC89@CGMAVHC8CG9GH58WGH=7CG
.=B9A65F;C9GH9@=6FCBCG979BHF59B9@
89G5FFC@@C89AVHC8CG9GH58WGH=7CGG=BC9B@5GC@=7=HI889@D9BG5A=9BHC9GH58WGH=7C5@CGDFC6@9A5G
9ADF9G5F=5@9G
5GUB8CBCG9BBI9GHF5DFCD=59LD9F=9B7=58C79BH989A5G=58CG89H5@@9G
A5H9AUH=7CG5A9BI8C7CB:IB89BM5J979G=B7@IGC5GIGH5B 5@IGI5F=C=B9LD9FHCMBCJ5HC89
AVHC8CG9GH58WGH=7CG
+CF@CH5BHC9@C6>9H=JC899GH9@=6FC9G9LD@=75F@CG7CB79DHCG9GH58WGH=7CG
DF=B7=D5@A9BH99BIB@9B;I5>9G9B7=@@C56GH9B=VB8CG989@IGC89GWA6C@CGM97I57=CB9G
A5H9AUH=7CGH5BHC7CACG95DCG=6@9
.CACG7CBG7=9BH9G89EI99GH99B:CEI95J979GDI989
7CB8I7=F5897@5F57=CB9GM9LD@=757=CB9GEI9GCB@=;9F5A9BH9=ADF97=G5G5@A9BCG9BIBG9BH=8C
A5H9AUH=7C D9FCBI9GHFCC6>9H=JCDF=B7=D5@9G75D57=H5F5@CG@W89F9GM;9F9BH9G89B9;C7=CGD5F5
EI95DF97=9B@5G9GH58WGH=75GM58CDH9B@CG<5@@5N;CG89@5G897=G=CB9G65G585G9B85HCG
<57=9B8C9B
GIDFCD=C=8=CA5
+CF@CH5BHCIBHF5H5A=9BHC89@55B5@WH=759BIB@9B;I5>9G9B7=@@C9G9G9B7=5@
!GH9H5ADC7C9GIB@=6FC89A=B9FW58985HCGHF58=7=CB5@
'5A5MCFW589@CG@=6FCG89A=B9FW5
8985HCGG99B:C75B9B9@9LD9FHC75D57=H58CM5G959B7=9B7=5G89@57CADIH57=YB9GH58WGH=75
CA5H9AUH=75G M7CACH5@9B:5H=N5B@CG5@;CF=HACGMAVHC8CGDCF9B7=A589@5=BHI=7=YBM9@
7CBC7=A=9BHC9ADF9G5F=5@
'5A5MCFW589@CG@=6FCG89A=B9FW58985HCGH5A6=VB7I6F9BIB5
5AD@=5;5A5895@;CF=HACG89A=B9FW58985HCG7CACF989GB9IFCB5@9GUF6C@9GCAUEI=B5G
89J97HCF9G89GCDCFH9
!@9B:CEI9899GH9@=6FCBC9GHUH5BHC9B@CGAI7<CG5@;CF=HACG
8=:9F9BH9GEI99GHUB8=GDCB=6@9GAI7<CG899@@CG56CF85BDFC6@9A5GG=A=@5F9G7CAC@5
7@5G=:=757=YBC@5DF98=77=YB G=BCAUG6=9B9B@5G8=:9F9B7=5G9B@CG85HCGM9G79B5F=CG
7CA9F7=5@9GEI9F9EI=9F9B8=:9F9BH9GH=DCG899B:CEI9G9=895G5B5@WH=7CG
CACH5@9GH9
@=6FCBCDFCDCF7=CB5FU@5A=GA55AD@=HI8897C69FHIF5898=:9F9BH9G5@;CF=HACGEI9@CG@=6FCG
HF58=7=CB5@9G89A=B9FW58985HCG
!B@I;5F89
-3 + +, $"*'+
5DF97=57=YB89@CG85HCGM@5HCA589897=G=CB9G65G5859B85HCG
!GH9@=6FCG9
79BHF5AI7<C9B@5=BHI=7=YBM9@7CBC7=A=9BHC
B5@=N5AI7<CG9G79B5F=CG89
85HCG8=:9F9BH9GM7I9GH=CB9G7CA9F7=5@9GF9@57=CB585GEI9DI989BGIF;=F
'I9;C
=@IGHF58=:9F9BH9G:CFA5G899LHF59FBI9JCG7CBC7=A=9BHCG7CA9F7=5@9G5D5FH=F89
9GHCG85HCG
!@VB:5G=G9GHU9BIG5FIB=B;@VGG=AD@9MHF5BGA=H=F7CB79DHCG
A5H9AUH=7CG5A9BI8C7CAD@9>CG9BHVFA=BCGG9B7=@@CG
+F9J9ACGEI99GH9@=6FC
DC8FW5IG5FG99BIBDF=A9F7IFGCGC6F95BU@=G=G89B9;C7=CGD5F59GHI8=5BH9G89
(C9BDFC;F5A5G8998I757=YB9>97IH=J5
!GH9@=6FCBC9G9L<5IGH=JC9B9@
G9BH=8C89EI9BC7I6F9HC8C@CEI9<5MEI9G569F7I5B8CG9HF5H589A=B9FW589
85HCGD5F59ADF9G5G
F99ACGEI97CBC79F758589H5@@9BCDI989G9F9@C6>9H=JC
89IB;9F9BH9
(UG6=9BBI9GHFCC6>9H=JC9G7CAIB=75F7CB79DHCG899GH58WGH=75M
A=B9FW58985HCG9BIB@9B;I5>9BC5A9B5N5BH9
+,*-,-* +, $"*'
'CG75DWHI@CGG=;I=9BH9G7I6F9B8=:9F9BH9G5GD97HCG89@AC89@58C8985HCG
CA9BN5ACG9B9@
5DWHI@CDF9G9BH5B8C=895G6UG=75G89AC89@58C
+CF6UG=7CBCGF9:9F=ACG5F9GDI9GH5G5
DF9;IBH5G:IB85A9BH5@9G7CACR,IV9GIBAC89@CMR+CFEIVB979G=H5ACGAC89@CG/5A6=VB
DF9G9BH5ACG9@7CB79DHCAUG6UG=7C899GH=A5FIBAC89@C5D5FH=F8985HCGA98=5BH9F9;F9G=YB89
AWB=ACG7I58F58CG
=G7IH=ACG@5=BH9FDF9H57=YBM9J5@I57=YB89@AC89@CM8=GH=B;I=ACG@5
G=;B=:=757=YB9GH58WGH=7589@CGF9GI@H58CG89@5F9@9J5B7=5DFU7H=75
!B9@5DWHI@CDF9G9BH5ACG5@;IB5G=895G7@5J9D5F5<579FEI9@CGAC89@CGG95BAUG:@9L=6@9G
)I9GHFCAC89@C=B=7=5@6UG=7C DI989BCG9F@CGI:=7=9BH9A9BH9:@9L=6@9DCFEI95GIA9]@=B95@=858^5GIA9
EI99@7F97=A=9BHCC897589B7=5 C7IFF95IB5H5G57CBGH5BH9EI9BIB7575A6=5
@5F5A9BH99GHCDI989BC
G9F5DFCD=58C9BHC8CG@CG9G79B5F=CG7CA9F7=5@9GDC89ACG9GH5F8=GDI9GHCG57F99F
0GC899GH9@=6FC9BIB7IFGC
EI9@5GJ9BH5G7F979B5A98=85EI95IA9BH5ACGBI9GHFCG9G:I9FNCG89A5F?9H=B;D9FCR7F979FUB@5G
J9BH5G5@A=GACF=HACG=B=ADCFH5F7IUBHC8=B9FC;5GH9ACG9BA5F?9H=B;R+C8FW5G9FEI9@@9;5ACG5IB
DIBHC89G5HIF57=YBCIBDIBHC89F9B8=A=9BHCG897F97=9BH9G 5D5FH=F89@7I5@@CG;5GHCG58=7=CB5@9G9B
A5F?9H=B;;9B9F5FUBIB=B7F9A9BHCA9BCF9B@5GJ9BH5G.=9G5GW9BHCB79G8969FW5ACGDF9C7ID5FBCGDCF
<579FEI9BI9GHFCAC89@CG95@CGI:=7=9BH9A9BH9:@9L=6@9M@CG89H5@@9GDF97=GCGG9HF5H5B9B9@5DWHI@C
!B9@5DWHI@C7I6F=ACGCHFC5GD97HC=ADCFH5BH989@57CBGHFI77=YB89AC89@CG<579F
AC89@CGG9@97H=JCG
!@IGI5F=CBCJ5HC899GH58WGH=75GM<9FF5A=9BH5G89A=B9FW58985HCG5
A9BI8CG99BHIG=5GA589A5G=58C7CB9@DC89F89@CG85HCGMDFCBHCD=9BG5EI9AUG9G
A9>CF
'CEI9EI9F9ACG897=F7CB9GC9GEI9@CGIGI5F=CGG=B9LD9F=9B7=55A9BI8CH=9B9B@5
D9F79D7=YB89EI97I5BHCGAUG85HCG5FFC>5ACG5BI9GHFCAC89@CA9>CFG9FU9@F9GI@H58C
.=6=9B9G7=9FH5A9BH9=ADCFH5BH9H9B9F85HCG]GI:=7=9BH9G^IG5F89A5G=585=B:CFA57=YB
DI989F9GI@H5F9BF9GI@H58CG=B:9F=CF9G
+CF9>9AD@CG=6=9BDC89ACGD9BG5FEI99@IGC89@5G
75F57H9FWGH=75G5;F9;585G89@CG<C;5F9G589AUG89@CG;5GHCG89A5F?9H=B;85FU7CAC
F9GI@H58CIBA9>CFAC89@C89DFCBYGH=7CD5F5@5GJ9BH5G9GHCBC9GIB57CB7@IG=YB
5IHCAUH=75
7CACIB5:IB7=YB89@5G75F57H9FWGH=75G89@<C;5F+CF9>9AD@CREIVD5G5FW5G=
<I6=VF5ACG897=8=8C5G=;B5FAUGF97IFGCG89A5F?9H=B;9B7Y8=;CGDCGH5@9G7CB=B;F9GCG
:5A=@=5F9GA98=CGAUG5@HCGR'CG=B;F9GCG89@<C;5F5ZB5;F9;5FW5BJ5@CFD5F5AC89@5F@5G
J9BH5GRCBH9B8FW5AI7<5=B:CFA57=YB58=7=CB5@AUG5@@U89@5=B:CFA57=YBEI9M5F9G=899B
@CG;5GHCG89A5F?9H=B;'5F9GDI9GH59GBC
58CEI9@5G75F57H9FWGH=75G89@CG<C;5F9G
9GH5FW5B:I9FH9A9BH97CFF9@57=CB585G7CB@CG;5GHCG89A5F?9H=B;BCH9B8FW5AI7<CG9BH=8C
=B7@I=F5A6CG9B9@A=GACAC89@C5@A9BCG9B9GH99>9AD@C<=DCHVH=7C
!B9@5DWHI@C
8=G7IH=F9ACG8=:9F9BH9G9B:CEI9GD5F5G9@977=CB5F=B:CFA57=YB6I9B5CZH=@ M89G75FH5F@5
=B:CFA57=YBA5@5CA9BCGZH=@
!B9@5DWHI@C8=G7IH=F9ACG5@;IB5G=895G58=7=CB5@9G5@5GEI9BCGF9:9F=F9ACG
7CAC]5>IGH9:=BC^89BI9GHFCAC89@C
$5MAI7<CG9B:CEI9G8=:9F9BH9GD5F55>IGH5F9@
AC89@C89IBCMHC8CG@CG8W5GG9=BJ9BH5BBI9JCG9B:CEI9G9B@5@=H9F5HIF55758VA=75
899GH58WGH=75MA=B9FW58985HCG
!B@CEI9BCG79BHF5F9ACG9B9GH975DWHI@CGCB
5@;IBCG9B:CEI9G9GH56@97=8CGEI95MI85FUB5GID9F5F5@;IB5G89@5G89:=7=9B7=5G
D9FG=GH9BH9G89@CG75DWHI@CG5BH9F=CF9G
!GH5G89:=7=9B7=5GGCB5 @58=:9F9B7=59BHF99@
DC89F9LD@=75H=JCM@575D57=858DF98=7H=J589IBAC89@CM6 @575D57=858D5F575DHIF5F
7I5@EI=9FH=DC89F9@57=YB7CAD@9>5
+' +, $"*' &-&-*+'
.=6=9B9GH9@=6FCG9DI989IH=@=N5F7CACA5H9F=5@89@97HIF5=B89D9B8=9BH9<9ACG9BG9X58CA5H9F=5@
G=A=@5F9B7IFGCG89C7<CG9A5B5GD5F59GHI8=5BH9G89(M8998I757=YB9>97IH=J5
0B5DCG=6@9
G97I9B7=5897IFGCGDC8FW5G9F@5G=;I=9BH9
@5G9!LD@CF57=YBJ=GI5@=N57=YBM89G7I6F=A=9BHC8985HCG5DWHI@C
@5G9CB79DHCG6UG=7CG89AC89@58CF9;F9G=YB89AWB=ACG7I58F58CG9=BH9FDF9H57=YB
.977=CB9G
%BHFC8I77=YB
@5G9(C89@CGAUG:@9L=6@9G 15F=56@9G:=7H=7=5GMHVFA=BCG89=BH9F577=YB
.977=YB
@5G9(C89@CGAUG:@9L=6@9G /F5BG:CFA57=CB9G8985HCGMF9@57=CB9GBC
@=B95@9G.977=YB
@5G9!@D9@=;FC8989A5G=585=B:CFA57=YBM<579FAC89@CGAUGG9@97H=JCG
5DWHI@C
@5G9!J5@I57=YB89@5G75D57=8589G89IBAC89@CDC89F9LD@=75H=JC:F9BH95DC89FDF98=7H=JC
.977=YB
@5G9(C89@58C89F9@57=CB9GAUG7CAD@9>5GA98=5BH9AVHC8CGBCD5F5AVHF=7CG
.977=YB
Traducido del inglés al español - www.onlinedoctranslator.com
Capitulo 2
Explorando y descubriendo datos
En este capítulo, discutimos diferentes enfoques para explorar datos. La exploración de datos es
probablemente el paso más importante en cualquier análisis de datos. Si bien la disponibilidad de
grandes cantidades de datos a menudo tienta al usuario a saltar directamente a modelos y
métodos sofisticados, uno de los mensajes principales de este libro es que es de extrema
importancia comprender primero los datos y explorarlos a fondo en busca de patrones y
anomalías. .
Entonces, ¿por qué realizamos la exploración de datos? La respuesta es muy simple:
comprender mejor nuestros datos y familiarizarnos íntimamente con ellos. Simplemente no
debemos basar las decisiones comerciales en métodos y modelos complejos a menos que estemos
seguros de que estos métodos capturan la esencia de nuestros datos. Por ejemplo, gran parte de
este libro hablará sobrelineal modelos. Pero, ¿y si la realidad no es del todo lineal? ¿Qué pasa si
nuestros procesos comerciales están sujetos a “rendimientos decrecientes”? ¿Cómo podríamos
detectar tales "no linealidades"? Podríamos tener la “corazonada” de que nuestro proceso requiere
un modelo algo diferente, pero a veces (especialmente cuando se trata de nuevos procesos
comerciales) simplemente no lo sabemos. Pero, resulta que nuestros datos normalmente saben
mucho más sobre nuestros procesos que nosotros, y la exploración de datos desentrañará todo su
conocimiento. Además, la exploración de datos es útil no solo para detectar tendencias y patrones,
sino que es igualmente importante para descubrir anomalías y valores atípicos. No todos nuestros
clientes se comportan de la misma manera. De hecho, normalmente hay algunos clientes que se
comportan de manera muy diferente a la mayoría de nuestros clientes. Es importante que
podamos identificar a esos clientes y tratar con ellos de la manera adecuada. La exploración de
datos nos ayudará a identificar clientes tan atípicos y su comportamiento.
Muchas de estas herramientas básicas discutidas en la Sección 2.1 se pueden encontrar en hojas de
cálculo (como Excel) y no son necesariamente una característica especial o distintiva del software de
minería de datos especializado. En las secciones siguientes, sin embargo, también discutiremos
herramientas “más avanzadas” (o más poderosas) para la exploración de datos. Muchas de estas
herramientas avanzadas no se pueden encontrar en hojas de cálculo e ilustran el poder de las soluciones
de minería de datos más avanzadas. Con ese fin, discutiremos las matrices de diagramas de dispersión y
los gráficos de trellis (Sección2.2), gráficos de series de tiempo (Sección 2.3), gráficos espaciales (Sección
2.4), diagramas de densidad y columna vertebral para respuestas categóricas (Sección
2.5), o una combinación de varios tipos diferentes de gráficos y técnicas de agregación de
datos para datos de panel (Sección 2.6).
También queremos enfatizar que, a diferencia de muchos libros de texto estándar sobre
estadística, no separamos explícitamente numérico resúmenes de datos (como la media o la
desviación estándar) de gráfico pantallas (por ejemplo, un histograma), ya que creemos que
la exploración de datos tanto numérica como visual debe usarse simultáneamente, ya que
una informa a la otra y su aplicación conjunta y simultánea conduce a una mejor
comprensión de los patrones y anomalías en los datos.
Comenzamos discutiendo algunas de las herramientas más básicas para explorar datos. Usamos la
palabra “básico” porque estos enfoques constituyen el conjunto mínimo de herramientas que cada
analista debe poseer. También se pueden encontrar a menudo en hojas de cálculo y, por lo tanto, son de
uso generalizado. De cualquier manera, ¡dominar estas herramientas es una necesidad absoluta!
Datos: Mesa 2.1 muestra una muestra de los precios de la vivienda (y las características asociadas de la vivienda) para
una importante área metropolitana de EE. UU. En particular, muestra la identificación de una casa, su precio de venta
(en dólares estadounidenses), su tamaño (en pies cuadrados), el número de dormitorios y baños, la
Cuadro 2.1 Los datos del precio de la vivienda. Ver también archivoHousePrices.csv.
Precio
IDENTIFICACIÓN Pies cuadrados # Camas # Baños Ofertas Brick Nbhd
1 114300 1790 2 2 2 No este
2 114200 2030 4 2 3 No este
3 114800 1740 3 2 1 No este
4 94700 1980 3 2 3 No este
5 119800 2130 3 3 3 No este
6 114600 1780 3 2 2 No norte
7 151600 1830 3 3 3 sí Oeste
8 150700 2160 4 2 2 No Oeste
9 119200 2110 4 2 3 No este
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 11
Resumen estadístico: Mesa 2.2 muestra estadísticas resumidas para los datos de
precios de la vivienda. En particular, calculamos el mínimo (Min) y el máximo (Max), el
primer y tercer cuartiles (1er Qu y 3er Qu), la mediana y la media (o promedio) y la
desviación estándar (StDev).
Mirando la primera columna de la tabla 2.2, podemos aprender que la media (o media)
El precio de la vivienda es de 130 427 dólares. También podemos ver que los precios de la vivienda están
ligeramentesesgadoya que el precio medio es un poco mayor que su valor medio ($ 125,950). Las casas
más y menos costosas se vendieron por $ 211,200 (máximo) y $ 69,100 (mínimo), respectivamente. El
primer cuartil ($ 111,325) implica que el 25% de todas las casas se han vendido pormenos de $ 111,325;
De manera similar, el tercer cuartil implica que el 25% de las viviendas se han vendido pormás de $
148,250, por lo que existe una considerable variabilidad en los precios de la vivienda. De hecho,
1Muchas casas en los Estados Unidos tienen vinilo u otros tipos de revestimiento.2Los
de la vivienda.
Min 69100 1450 2,00 2,00 1,00
1st Qu 111325 1880 3,00 2,00 2,00
Mediana 125950 2000 3,00 2,00 3,00
Significar 130427 2001 3,02 2,45 2,58
StDev 26869 211 0,73 0,51 1.07
3er Qu 148250 2140 3,00 3,00 3,00
Max 211200 2590 5,00 4,00 6,00
la desviación estándar ($ 26,869) mide la cantidad precisa de esta variabilidad. Una forma de
interpretar la desviación estándar es la siguiente: si los precios de la vivienda estuvieran
perfectamente distribuidos simétricamente alrededor de su media, entonces una desviación
estándar de $ 26,869 implica que el 95% de todos los precios de la vivienda caen dentro de los $
130,427±2× $26, 869, (es decir, entre $ 76,689 y $ 184,165), un rango considerable. La fórmula
general para esta relación esSignificar ±2×StDev. Por supuesto, antes de aplicar esta fórmula,
primero debemos verificar si la distribución es simétrica alrededor de la media. Podemos hacer
esto usando, por ejemplo, un histograma de precio (ver más abajo).
También podemos aprender de Table 2.2 que la casa típica tiene tres dormitorios y entre
dos y tres baños. (Tenga en cuenta que, si bien el número medio de baños es igual a 2, su
media es 2,45, lo que sugiere que hay algunos "valores atípicos" con un número
sorprendentemente grande de baños; de hecho, el mayor número de baños (Máx.) En
nuestros datos es igual a 4.) La casa típica también tiene un tamaño de 2,000 pies cuadrados,
y parece que la variabilidad en el tamaño de la casa (desviación estándar = 211 pies
cuadrados) no es muy alta. Y finalmente, aprendemos que la mayoría de los hogares reciben
entre dos y tres ofertas; sin embargo, también existen algunas casas bastante inusuales que
han recibido hasta seis ofertas.
Tablas de frecuencia: Tenga en cuenta que, si bien hay un total de siete columnas de datos diferentes
disponibles ("comparar" Tabla 2.1), Mesa 2.2 muestra estadísticas resumidas para solo cinco de ellos. La
razón radica en las diferencias en los tipos de datos: mientras que las primeras cinco columnas son todas
numérico (es decir, medido en una escala de intervalo), las dos últimas columnas soncategórico (por
ejemplo, "Ladrillo" asume los valores "Sí" o "No" pero no números). No podemos calcular estadísticas de
resumen (como la media o la desviación estándar) para datos no numéricos. En cambio, exploramos
datos categóricos usandotablas de frecuenciaque comparan las frecuencias entre categorías
individuales. Por ejemplo, Table2.3muestra que la mayoría de las casas (es decir, más del 67%) están
construidas con materiales que no sean ladrillos.
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 13
Histograma de precio
40
30
Frecuencia
20
10
0
Histogramas: Si bien las estadísticas de resumen son una excelente manera de resumir aspectos
importantes sobre una distribución en un solo número, son limitadas porque solo capturan un solo
aspecto de esa distribución. La mayoría de las veces, los datos son demasiado complejos para
resumirse en un solo número. Por ejemplo, mientras que la casa típica en nuestros datos se vende
por $ 130,427, la distribución de precios podría estar sesgada (es decir, podría haber algunas casas
que se venden por mucho más), podría ser multimodal (es decir, no podría haber solo una "típica
”Casa pero dos o incluso tres casas típicas), podría haber valores atípicos (es decir, algunas casas
que se venden por una cantidad exorbitantemente mayor), o podría haber otras anomalías que no
se pueden detectar con un solo número. Para ello, queremos visualizar toda la distribución de
datos. Esto se puede hacer mediante un histograma.
Figura 2.1 muestra un histograma de precio. Podemos ver que la distribución parece
bastante simétrica alrededor de su media, aunque parece haber un "aumento" inusual entre
$ 100.000 y $ 120.000. Esto sugiere que mientras que la casa “típica” se vende por $ 130,427,
hay una proporción bastante grande que se vende por mucho menos.
Figura 2.2 muestra histogramas para las otras variables numéricas de la tabla 2.1.
Podemos ver que si bien la distribución del tamaño de una casa (es decir, pies cuadrados) es
muy simétrica, las distribuciones de las tres variables restantes están sesgadas. Por ejemplo,
si bien el número promedio de baños es de 2,45, hay algunas (pero pocas) casas con hasta
cuatro baños. Del mismo modo, mientras que una casa normalmente recibe
2.58 ofertas, algunas reciben hasta seis ofertas. También queremos señalar que en el
contexto devariables discretas, el promedio puede no ser siempre una forma significativa de
resumir los datos. Por ejemplo, tenga en cuenta que la variable "número de baños" asume
solo valores discretos (es decir, una casa puede tener 2 o 3 baños pero no
2.5). Por tanto, concluir que “el número medio de baños es de 2,58” no tiene mucho
sentido. Podemos interpretar esto como la casa promedio que tiene entre
14 2 Exploración y descubrimiento de datos
variables numéricas.
40
30
Frecuencia
20
10
0
1400 1600 1800 2000 2200 2400 2600
Pies cuadrados
Histograma de dormitorios
Frecuencia
10 20 30 40 50 60
0
Histograma de baños
Frecuencia
0 10 20 30 40 50 60 70
Histograma de ofertas
40
30
Frecuencia
20
10
0
1 2 3 4 5 6
Ofertas
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 15
dos y tres baños. Alternativamente, elmediana Nos dice que una casa típica tiene dos
baños. La mediana no se ve afectada por la diferencia entre datos discretos y continuos
y, por lo tanto, proporciona respuestas significativas en ambos casos.
Diagramas de caja: Una forma alternativa de visualizar la distribución completa de una sola
variable es a través de diagramas de caja. Una gráfica de caja representacuartiles de una
distribución. Es decir, dibuja una “caja” entre el primer y tercer cuartiles y marca la mediana
con una línea vertical dentro de esa caja. Además, dibuja "bigotes" entre el exterior de las
cajas y 1,5 veces larango intercuartil; el rango intercuartil es la distancia entre el primer y
tercer cuartil y, por lo tanto, puede usarse como una medida de variabilidad en los datos. Se
consideran los puntos de datos más allá de los bigotes.valores atípicos y están marcados con
círculos.
Figura 2.3 muestra el diagrama de caja para el precio. Transmite información similar al
histograma de la Figura2.1. Sin embargo, ahora podemos ver más claramente que la distribución
de precios está ligeramente sesgada a la derecha. (Observe el bigote más largo al lado derecho de
la caja y el área más grande dentro de la caja a la derecha de la mediana). Una distribución de
precios sesgada a la derecha sugiere que algunos vendedores logran obtener un precio
significativamente más alto para su casa que el descansar; desde el punto de vista del vendedor,
sería importante comprender qué hacen estos vendedores exitosos para obtener tal prima de
precio. También podemos identificar un valor atípico potencial en el diagrama de caja; este valor
atípico marca una casa con un precio que está por encima y más allá del resto. En ese sentido, el
diagrama de caja transmite información similar al histograma, pero presenta esta información de
una manera más detallada.
dieciséis 2 Exploración y descubrimiento de datos
200000
180000
Precio
120000
100000
80000
80000
1600 1800 2000 2200 2400 2600 1600 1800 2000 2200 2400 2600
Pies cuadrados Pies cuadrados
Figura 2.4 Diagrama de dispersión entre precio y pies cuadrados. El panel de la izquierda muestra un diagrama de dispersión
tradicional que muestra solo los puntos de datos individuales; el panel derecho muestra una versión mejorada con una línea de
suavizado superpuesta.
Si bien se puede usar un diagrama de dispersión para identificar tendencias generales, también
podemos usarlo para examinar puntos de datos individuales. Por ejemplo, Figure2.4 muestra que si bien
la mayoría de las casas tienen la misma relación positiva entre los pies cuadrados y el precio, hay algunas
casas (en la esquina superior derecha del gráfico) que parecen "caer" de esa tendencia. Las desviaciones
de una tendencia general pueden ser indicativas de segmentos, bolsillos o geolocalizaciones que se
comportan de manera diferente al resto. Dichos segmentos o bolsillos son
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 17
Precio
1600 1800 2000 2200 2400 2600 2.0 2.5 3,0 3,5 4.0 4.5 5,0
Pies cuadrados Dormitorios
80000 120000 160000 200000
Figura 2.5 Diagrama de dispersión entre el precio y las cuatro variables numéricas.
Es importante identificarlos, ya que generalmente tenemos que tratarlos con diferentes estrategias de
marketing (por ejemplo, apuntar a diferentes compradores, usar diferentes estrategias de publicidad o
promoción, etc.).
Figura 2.5 muestra diagramas de dispersión entre el precio y las cuatro variables numéricas.
Podemos hacer varias observaciones. Primero, si bien existe una relación positiva entre el precio y
el número de baños (y de manera similar para el número de dormitorios), la relación entre el
precio y el número de ofertas parece negativa. Esta última observación es curiosa, ya que se puede
esperar que más ofertas den como resultado un mayor nivel de competencia, lo que, como se
podría argumentar, debería resultar en un precio más alto. También vemos que los diagramas de
dispersión relacionados con el número de baños y dormitorios son de uso bastante limitado. De
hecho, dado que ambas variables asumen solo tres y cuatro valores diferentes, respectivamente, la
información obtenida de los diagramas de dispersión está restringida. Esto ilustra que el uso de
diagramas de dispersión en conexión con variables discretas debe hacerse con bastante cuidado.
Medidas de correlación: Mientras que los diagramas de dispersión proporcionan una gráfico
forma de investigar la relación entre pares de variables, podemos aumentar este enfoque gráfico
con una evaluación numérica utilizando pares correlaciones. De hecho, aunque los diagramas de
dispersión son una excelente manera de "ver" las relaciones, el ojo a veces puede traicionarnos.
Además, dos personas que miran el mismo gráfico pueden ver dos patrones diferentes. Por lo
tanto, a menudo es deseable aumentar las impresiones visuales (a veces subjetivas) obtenidas de
un diagrama de dispersión con medidas numéricas objetivas. Las correlaciones proporcionan una
medida tan objetiva.
18 2 Exploración y descubrimiento de datos
No 26 37 23
sí 19 7 dieciséis
Lecciones aprendidas:
• Existen muchas herramientas diferentes para explorar la distribución de una sola variable.
Entre ellos se encuentran estadísticas de resumen (por ejemplo, la media, mediana,
moda, desviación estándar, mínimo y máximo), tablas o gráficos (por ejemplo,
histogramas y diagramas de caja). Todas estas herramientas deben utilizarse de forma
conjunta y simultánea, ya que se complementan entre sí. De hecho, si bien los gráficos
(como un histograma) proporcionan una impresión visual de una distribución, no
permiten una cuantificación fácil (y, por lo tanto, dificultan las comparaciones de dos
distribuciones). Las estadísticas de resumen exploran las distribuciones
cuantitativamente y, por lo tanto, se pueden comparar fácilmente entre dos (o más)
variables.
• También existen muchas herramientas diferentes para explorar las relaciones entre pares de
variables. Entre ellos se encuentran las medidas de correlación, las tabulaciones cruzadas y
los diagramas de dispersión. Al igual que con las herramientas para variables individuales, las
herramientas para explorar las relaciones por pares se complementan entre sí y deben
usarse simultáneamente. Si bien los diagramas de dispersión proporcionan una evaluación
visual de la relación entre dos variables, las medidas de correlación pueden cuantificar esta
relación (y, posteriormente, utilizarse para la comparación).
20 2 Exploración y descubrimiento de datos
En esta sección, discutimos algunas ideas más avanzadas y poderosas para explorar datos.
Primero, presentamos el concepto dematrices de diagramas de dispersión, que puede descubrir
relaciones entre muchas variables diferentes en un solo gráfico. De hecho, la versión de matrices
de diagramas de dispersión que usamos aquí es una de las más poderosas disponibles, ya que
combina diagramas de dispersión, medidas de correlación e histogramas en una sola vista.
También discutimos datostransformación como un medio para obtener patrones de relación más
consistentes (y típicamente también más lineales). Entonces discutimosgráficos de enrejado. Los
gráficos Trellis son poderosos porque permiten vistas condicionales de los datos. Los gráficos de
Trellis son una de las herramientas más útiles para desenterrar relaciones nuevas e insospechadas
en subsegmentos (o "bolsillos") de los datos. A menudo son exactamente estos bolsillos los de
mayor valor para el comercializador o el inversor, ya que pueden ofrecer oportunidades que de
otro modo serían imposibles de detectar.
Datos: Mesa 2.6 muestra datos de un comercializador directo. El vendedor directo vende sus
productos (por ejemplo, ropa, libros o artículos deportivos) solo por correo directo; es decir,
envía catálogos con descripciones de productos a sus clientes, y los clientes realizan pedidos
directamente desde los catálogos (por teléfono, Internet o correo). El vendedor directo está
interesado en extraer a sus clientes para personalizar mejor el proceso de marketing. Está
particularmente interesada en comprender qué factores impulsan a algunos clientes a gastar
más dinero que a otros. Con ese fin, ha reunido una base de datos de registros de clientes.
Estos registros incluyen la edad del cliente (codificada como joven, mediano y viejo), sexo
(mujer / hombre), si el cliente es propietario o alquila una casa, si el cliente es soltero o
casado, la ubicación del cliente en relación con la tienda física más cercana que vende
productos similares (codificados como lejos o cerca), el salario del cliente (en dólares
estadounidenses) y cuántos hijos tiene el cliente (entre 0 y 3). El comercializador también
registra el historial de compras pasado del cliente (codificado como bajo, medio o alto, o NA
si el cliente no ha comprado nada en el pasado), la cantidad de catálogos que le ha enviado a
ese cliente y la cantidad de dinero que ha recibido. el cliente ha gastado (en dólares
estadounidenses).
Objetivo: Uno de los principales objetivos del especialista en marketing es comprender por
qué algunos clientes gastan más que otros. Está particularmente interesada en comprender
la relación entre el número de catálogos y la cantidad de dinero gastado, ya que cada
catálogo cuesta una cantidad fija de dinero para producir y enviar. Además, dado que la
relación con un cliente es importante, también está interesada en investigar si los clientes con
un alto historial de compras en el pasado también gastan más dinero en el futuro. Y, por
último, como el especialista en marketing sospecha que sus ofertas de productos y servicios
pueden atraer más a algunos grupos demográficos que a otros, está particularmente
interesada en detectar "bolsillos" de clientes que son más rentables (a los que, en última
instancia, puede decidir orientar sus anuncios con cupones y promociones). .
Nuevamente logramos estos objetivos utilizando solo herramientas exploratorias (gráficos y resúmenes de
datos). Algunas de las herramientas que usamos aquí se presentaron en la Sección2.1, pero aquí
2.2 Transformaciones de datos y gráficos Trellis: datos de marketing directo 21
10 15 20
Salario 150000
0,18 * 0,70 *
1e + 05
50000
Catálogos
20
0,47 *
15
10
6000
El monto gastado
5000
4000
3000
2000
1000
0
50000 1e + 05 150000 0 1000 2000 3000 4000 5000 6000
Figura 2.6 Matriz de diagrama de dispersión para salario, número de catálogos y cantidad de dinero gastado.
los usamos de una manera un poco más avanzada. Además, también presentamos nuevas herramientas y
conceptos que son especialmente útiles en el contexto de la minería de grandes bases de datos. Éstos incluyen
matrices de diagramas de dispersión, transformaciones de datos, y gráficos de enrejado.
Matrices de gráficos de dispersión: Figura 2.6 muestra una matriz de diagrama de dispersión
para las variables salario, número de catálogos y cantidad de dinero gastado. En particular,
muestra tres tipos diferentes de visualizaciones en un gráfico. A lo largo del eje diagonal, muestra
histogramas para cada una de las tres variables; debajo de la diagonal, vemos diagramas de
dispersión entre cada uno de los tres pares de variables; y por encima de la diagonal vemos los
valores de correlación correspondientes para cada par. Tenga en cuenta que los valores de
correlación van acompañados de diferentes colores, donde los colores más oscuros indican
correlaciones más fuertes.
22 2 Exploración y descubrimiento de datos
5000
8
log (Cantidad gastada)
El monto gastado
3000
567
0 1000
4
50000 100000 150000 50000 100000 150000
Salario Salario
8
log (Cantidad gastada)
El monto gastado
3000
567
0 1000
9.5 10.0 10.5 11.0 11.5 12.0 log (Salario) 9.5 10.0 10.5 11.0 11.5 12.0 log (Salario)
Podemos aprender de la figura 2.6 ese salario tiene la correlación más fuerte con la cantidad
que gasta un cliente. Esto no es demasiado sorprendente porque es poco probable que los clientes
con pocos ingresos gasten mucho dinero. Pero también podemos aprender que tanto el salario
como la cantidad gastada están muy sesgados a la derecha (observe la forma de los histogramas)
y, como resultado, la relación entre los dos no es del todo consistente. De hecho, si miramos la
gráfica de dispersión correspondiente (esquina inferior izquierda), notamos que los puntos se
están "canalizando". En otras palabras, si bien hay solo una pequeña variación en los niveles
salariales más bajos, la variación de la cantidad gastada aumenta con el aumento de los niveles
salariales. Una varianza creciente es un problema porque implica que no podemospredecir el
comportamiento de gasto de los clientes con salarios altos con mucha precisión y, como resultado,
no puede dirigirse muy bien a nuestros clientes potencialmente más rentables.
Inverso Exponencial
10
8
15000
6
exp (x)
1/x
5000
2
0
0
0 2 4 6 8 10 0 2 4 6 8 10
X X
Cuadrático Poder
8e + 09
20 40 60 80
x^2
x^x
4e + 09
0e + 00
0
0 2 4 6 8 10 0 2 4 6 8 10
X X
patrón que se asemeja a una línea recta. Además, el efecto embudo se ha desvanecido; es decir, la
variación entre las dos variables es ahora la misma en todos los niveles. Por lo tanto, si basamos nuestros
esfuerzos de focalización en la relación entre logaritmo-salario y logaritmo gastado, podemos apuntar a
los que gastan mucho con la misma precisión que a los que gastan poco.
Hemos visto en el párrafo anterior que una transformación logarítmica puede aliviar los
problemas de datos y, en particular, hacer que las relaciones entre las variables sean más
consistentes. La transformación logarítmica no es la única transformación que puede lograr
ese objetivo. Hay muchas más transformaciones (como exponencial, inversa, cuadrática o la
transformada de potencia) que pueden conducir a resultados similares en diferentes
aplicaciones. Figura2.8 ilustra algunas de estas transformaciones.
Gráficos de Trellis: Nuestro análisis hasta ahora ha revelado que existe una
relación (lineal) entre (log-) salario y (log-) monto gastado; es decir, nuestros clientes
más rentables serán los de mayores ingresos. Pero, ¿esta relación se aplica por igual
a todos nuestros segmentos de clientes? Por ejemplo, ¿podría ser que la tasa a la
que los clientes gastan sus ganancias varíe entre clientes jóvenes y viejos? Figura2.9
muestra una respuesta a esa pregunta. Muestra ungráfico de enrejado, que
muestra la relación entre dos variables (log-salario y log-gastado en este caso)
acondicionado en una o más de otras variables (edad y estado civil en este caso).
Figura 2.9 muestra que la relación entre el salario y la cantidad gastada varía mucho
entre los diferentes segmentos de clientes. Si bien existe una relación lineal sólida para
los clientes antiguos, casi no existe una relación para los clientes jóvenes casados. En
otras palabras, si bien podemos predecir con mucha precisión cuánto
24 2 Exploración y descubrimiento de datos
5
log (Cantidad gastada)
9,5 10,0 10,5 11,0 11,5 12,0 9,5 10,0 10,5 11,0 11,5 12,0
log (salario)
Figura 2.9 Gráfico de Trellis para los datos de marketing directo. La relación entre salario y cantidad gastada
está condicionada por la edad y el estado civil.
gastar, no podemos hacer lo mismo por los clientes jóvenes y casados; tomamos esto como una
indicación de que sería mejor evitar por completo este segmento de clientes. También podemos
ver que en comparación con los dos segmentos anteriores, la relación para los clientes solteros de
mediana edad es mucho más fuerte (es decir, hay una tendencia mucho más pronunciada, por lo
que la tasa de gasto es mucho más rápida). Por lo tanto, los gráficos de trellis permiten una
inspección más granular de los datos y el descubrimiento de nuevas relaciones específicas de
segmento. Esto se ilustra con más detalle en la Figura2.10, que muestra otro gráfico de trellis, esta
vez condicionado por el historial de gastos y la ubicación de un cliente.
Lecciones aprendidas:
• Las matrices de diagramas de dispersión nos permiten visualizar las relaciones entre
muchos pares diferentes de variables en un solo gráfico; también nos permiten
incorporar información adicional como valores de correlación o distribución de variables
individuales. Las matrices de gráficos de dispersión son una gran herramienta para
brindar una descripción general de las características de datos más importantes en una
sola instantánea.
• Las transformaciones de datos se pueden utilizar para generar relaciones más consistentes
entre variables. De hecho, las transformaciones de datos se pueden utilizar para eliminar los
"efectos de embudo" o sesgar las variables. La transformación de datos incluye
2.3 Gráficos de series de tiempo: datos de ventas de refrescos 25
5
log (Cantidad gastada)
9,5 10,0 10,5 11,0 11,5 12,0 9,5 10,0 10,5 11,0 11,5 12,0
log (salario)
Figura 2.10 Otro gráfico de trellis para los datos de marketing directo. Ahora, la relación entre salario y cantidad
gastada está condicionada por el historial de compras y la ubicación.
En esta sección, analizamos los gráficos de series de tiempo. Los gráficos de series de tiempo son
diferentes de las otras visualizaciones discutidas en este capítulo, ya que capturan información
dinámica que cambia con el tiempo. Si bien los gráficos de series de tiempo son, al menos en
principio, un concepto muy simple, discutimos buenos y malos ejemplos de ellos.
26 2 Exploración y descubrimiento de datos
Datos: Mesa 2,7 muestra un tipo diferente de datos. Muestra las ventas (registradas en millones de
dólares) de una importante empresa de refrescos. Lo que hace que estos datos sean diferentes es
que solo tenemos dos datos disponibles: información sobre el trimestre (por ejemplo, primer
trimestre de 1986, Q1-86) y ventas en ese trimestre. Tenga en cuenta que Table2,7 también tiene
un cuarto de recuento t (que va de 1 a 56 ya que hay un total de 56 trimestres en estos datos) y un
indicador de trimestre Q, que denota el trimestre del año (1 corresponde al primer trimestre, 2
corresponde al segundo trimestre, etc.), pero esto es simplemente una recodificación de la
información del trimestre en la primera columna.
Gráfico de serie temporal: Si bien los datos anteriores parecen ser bastante simples (después de todo,
solo contienen dos piezas diferentes de información, tiempo y ventas), solo un análisis muy cuidadoso
revelará todo el conocimiento oculto en ellos. Figura2.11 muestra dos gráficos diferentes de esos datos.
El panel de la izquierda muestra un gráfico simple (de dispersión) de ventas en función del tiempo
(trimestre en este caso). Podemos ver que parece haber una tendencia positiva (las ventas crecen con el
tiempo), pero también podemos ver que parece haber mucho ruido en torno a esa tendencia. De hecho,
mientras que las ventas parecen tener una tendencia al alza, los puntos de datos individuales se
dispersan bastante alrededor de esa tendencia. Esto sugeriría que las ventas son bastante variables de
un trimestre a otro, lo que hace que las previsiones de ventas sean bastante onerosas y poco fiables.
El panel derecho revela la razón de este "ruido". Los recuadros de colores representan el tipo
de trimestre, y podemos ver que las ventas son generalmente mayores en primavera y verano
(recuadros azules y verdes) en comparación con otoño e invierno (recuadros celestes y rojos). Por
lo tanto, podemos concluir que las ventas muestran no solo una tendencia positiva, sino también
un fuerte patrón estacional. En otras palabras, una vez que controlamosambos Tendencia y
estacionalidad, los datos no son tan variables después de todo y hay buenas razones para creer
que podemos pronosticar las ventas con bastante precisión en el futuro.
Podemos hacer una observación adicional: la línea gris discontinua muestra una tendencia
suave a través de los datos, y podemos ver que, si bien las ventas generalmente están creciendo,
2.3 Gráficos de series de tiempo: datos de ventas de refrescos 27
5000
5000
4000
4000
Ventas
Ventas
3000
3000
2000
2000
0 10 20 30 40 50 0 10 20 30 40 50
Cuarto Cuarto
Figura 2.11 Gráficos de series de tiempo para los datos de ventas de refrescos. El panel de la izquierda muestra un gráfico muy simple de
los datos. En el panel derecho, los cuadros de colores representan diferentes cuartos; la línea de puntos gris muestra una tendencia suave a
través de los datos.
los tasa de crecimiento está disminuyendo hacia trimestres más recientes. En otras palabras, los aumentos de
ventas están disminuyendo. Tenga en cuenta que ninguna de esta información fue directamente obvia a partir
del diagrama de dispersión mucho más simple en el panel izquierdo de la Figura2.11.
Lecciones aprendidas:
en comparación con las rebajas de primavera). Pero la estacionalidad puede ser menos
regular (y, por lo tanto, un poco más difícil de detectar y capturar). Por ejemplo, las
ventas podrían tocar fondo en enero en un año, pero tocarían mínimos en febrero del
próximo año. Si bien en ambos años las ventas son más bajas en los meses de invierno
(enero o febrero), es difícil precisar el momento exacto del mínimo año a año. La
estacionalidad puede volverse aún más compleja (y por lo tanto más difícil de detectar)
cuando ocurre solo cada pocos años. Por ejemplo, si bien la economía puede crecer en
algunos años, puede experimentar una recesión en otros años. Estos “altibajos” en los
datos económicos a largo plazo a menudo se denominan cíclicos (o ciclos económicos)
en lugar de variaciones estacionales. Desde el punto de vista del modelado,
necesitaríamos muchos años de datos para poder contabilizar adecuadamente dichos
ciclos económicos.
A continuación, analizamos los gráficos espaciales. Por gráficos espaciales normalmente nos
referimos a mapas y los usamos para visualizar dependencias geográficas. Los gráficos espaciales
son cada vez más importantes con la creciente disponibilidad de información espacial. Tomemos,
por ejemplo, el desarrollo muy reciente de Google Latitude,3 que permite a los usuarios de Google
compartir sus ubicaciones geográficas. Este es solo un ejemplo, pero sugiere que la información
geográfica sobre clientes, productos o servicios se disparará en los próximos años. La información
espacial es extremadamente valiosa porque nos permite segmentar geográficamente a los
consumidores. Las búsquedas locales y las búsquedas en mapas son solo dos aplicaciones
recientes que dependen en gran medida de la orientación geográfica. La mayoría de los paquetes
de software basados en hojas de cálculo (como Excel) no tienen forma de explorar datos
geográficos. Esta limitación no permite que los gerentes accedan y aprendan de una de las piezas
más importantes de información comercial.
Datos: Mesa 2.8 muestra datos sobre las diferencias geográficas en las preferencias de productos
en los Estados Unidos. La tabla muestra los datos de ventas de los libros que se ofrecieron tanto en
formato impreso como en archivos PDF descargables (es decir, en formato electrónico). La tabla
también muestra las diferencias de precio entre las versiones impresas y PDF: PrPRINT indica el
precio de la versión impresa (en dólares estadounidenses); PrPDF denota el precio correspondiente
del archivo PDF. El formato electrónico generalmente tenía un precio más bajo que el formato de
impresión, y RelPrPDF registra la diferencia de precio relativo entre los dos formatos. La tabla
también registra si un cliente compró la versión PDF (PurPDF) o
3Ver www.google.com/latitude.
2.4 Gráficos espaciales: datos de preferencias de compra online 29
la versión impresa (de mayor precio) (PurPRINT).4 Además, Long y Lat indican la
longitud y latitud de la ubicación del cliente (es decir, denota el área geográfica
de la compra).
Objetivo: Uno de los objetivos del análisis es determinar si existen diferencias geográficas en las
preferencias de productos. Por ejemplo, es posible que queramos preguntarnos si es más probable
que los clientes de la costa este compren un libro en formato electrónico. Además, nos gustaría
comprender cómo varían las preferencias de producto en función de la diferencia de precio entre
los formatos de impresión y PDF. Comprender las preferencias geográficas de los clientes y la
sensibilidad de los precios permite a los minoristas comercializar mejor su producto, orientar
geográficamente a sus clientes y ofrecer los cupones y promociones correctos en las ubicaciones
correctas.
Gráficos espaciales: Figura 2.12 muestra un mapa de los Estados Unidos. En este mapa,
registramos la ubicación de cada transacción; un círculo negro representa una compra de
impresión y un círculo rojo representa una compra de PDF. El tamaño del círculo corresponde al
precio del PDF para el relativo al de la impresión. En otras palabras, círculos muy grandes indican
que la versión en PDF tenía un precio (casi) tan alto como el libro impreso correspondiente; los
círculos pequeños indican que la versión PDF estaba disponible con un gran descuento en relación
con la versión impresa.
Podemos ver que la preferencia entre PDF e impresión varía significativamente en los Estados
Unidos. Mientras que en algunas áreas (por ejemplo, en el sur) la impresión fue el formato predominante
(a menos que el PDF se ofreciera con un gran descuento), en otras áreas (por ejemplo, la costa oeste o el
noreste) los clientes prefirieron el formato PDF, incluso en un precio más alto. Esta información puede
ayudar a los gerentes de marketing a determinar el precio correcto para su producto, orientar
geográficamente a sus clientes y ofrecer cupones y promociones que varían espacialmente.
4Solo mostramos las transacciones que resultaron en una compra impresa o en PDF; por supuesto, algunas
transacciones resultaron en ninguna compra, pero no mostramos estos datos aquí.
30 2 Exploración y descubrimiento de datos
45
40
35
30
25
Figura 2.12 Mapa de preferencias geográficas para el formato impreso vs. PDF. Los círculos negros indican compras
impresas; los círculos rojos indican compras de PDF. El tamaño del círculo representa el precio de PDF en relación con la
impresión.
Lecciones aprendidas:
• Los gráficos espaciales, en particular los mapas, se pueden utilizar para explorar datos
geoetiquetados; es decir, datos con información geográfica adjunta. Los gráficos espaciales se
pueden utilizar para la segmentación geográfica y la identificación de zonas geográficas de diversa
demanda de los consumidores.
En esta sección, damos una mirada espacial a los datos donde el resultado de interés es
categórico. Si bien en principio son similares a los tipos de datos discutidos en secciones
anteriores, los resultados categóricos plantean un desafío porque los diagramas de dispersión
estándar o las medidas de correlación a menudo no son significativas. Por otro lado, los resultados
categóricos son cada vez más frecuentes, especialmente en marketing, donde los gerentes a
menudo están interesados en comprender las elecciones que hacen los consumidores, y los datos
de elección son inherentemente categóricos.
Datos: Mesa 2.9 muestra datos crediticios para un mercado de préstamos de consumidor a consumidor (C2C).
En este mercado, los consumidores ("prestatarios") pueden publicar listados de préstamos y otros
2.5 Gráficos para respuestas categóricas: datos de préstamos de consumidor a consumidor 31
los consumidores ("prestamistas") pueden invertir en esos préstamos haciendo una oferta sobre las tasas
de interés de los prestatarios. Los datos muestran el estado del préstamo (actual, atrasado y en mora), el
grado crediticio del prestatario (AA es el grado más alto, seguido de A, B,..., E; HC significa "alto riesgo" y
denota el grado más bajo; NC significa "sin calificación crediticia"). Los datos también contienen
información sobre la cantidad prestada (en dólares estadounidenses), la antigüedad del préstamo (en
meses), la tasa del prestatario (es decir, la tasa de interés que el prestatario paga al prestamista) y la
relación deuda-ingresos del prestatario. .
Objetivo: El objetivo es distinguir los préstamos buenos de los malos. En otras palabras,
queremos investigar cómo un prestamista puede determinar qué préstamos resultarán en
pagos puntuales (“Actual”) y cuáles resultarán en pagos atrasados o incluso en impagos.
Tenga en cuenta que el problema de predicción es ligeramente diferente de todos los otros
ejemplos que hemos estudiado antes: mientras que anteriormente el objetivo era predecir el
resultado de una variable numérica (por ejemplo, precio de la vivienda, cantidad gastada o
ventas trimestrales), ahora necesitamos predecir una variable categórica, "Estado". El estado
asume los valores actuales, tardíos o predeterminados y, por lo tanto, no se mide en una
escala numérica. El problema con la predicción de variables categóricas es que los modelos
tradicionales (que asumen variables numéricas) no se aplican. Esto también es importante
para la tarea de exploración, ya que debemos elegir nuestras visualizaciones de datos con
cuidado,
Al visualizar datos con resultados categóricos, normalmente se visualiza la distribución de las
variables de entrada en todos los niveles de la variable de resultado. Por ejemplo, en el caso de los
datos de préstamos, es posible que deseemos investigar si la distribución del monto del préstamo
difiere entre los préstamos vigentes y los retrasados. De hecho, si detectamos una diferencia
sistemática, esto indicaría que el tamaño del monto del préstamo es un buen indicador del
desempeño futuro del préstamo. De manera similar, es posible que también deseemos investigar
si la distribución de las calificaciones crediticias difiere sistemáticamente entre los diferentes
estados de los préstamos porque si encontramos una diferencia sistemática, la conclusión sería
nuevamente similar a la anterior, es decir, que la calificación crediticia es un buen predictor del
desempeño del préstamo. . Por tanto, si bien en ambos casos queremos investigar eldistribución
de una variable de entrada (o predictora) en todos los niveles de la variable de resultado (o
respuesta), la forma exacta en que lo logramos depende del tipo de entrada
32 2 Exploración y descubrimiento de datos
Gráficos de densidad: Una gráfica de densidad es similar a un histograma. De hecho, la única diferencia
entre un histograma y un gráfico de densidad es que mientras que el primero selecciona "cubos" de
cierta longitud y luego traza la frecuencia en cada cubo, los gráficos de densidad se pueden considerar
como histogramas con cubos arbitrariamente pequeños. Por lo tanto, su ventaja es que representan la
distribución de datos en la forma más granular.
Figura 2.13 muestra una gráfica de densidad para los datos del préstamo. De hecho, vemos gráficas
de densidad para cada una de las cuatro variables numéricas: monto prestado, antigüedad del préstamo,
tasa del prestatario y relación deuda-ingresos. Además, para cada variable, la densidad se desglosa por
el estado del préstamo: las líneas negras corresponden a las densidades de los préstamos corrientes; las
líneas verdes corresponden a préstamos morosos; y las líneas rojas corresponden a préstamos en mora.
Podemos ver que, si bien la distribución del monto del préstamo (panel superior izquierdo) es casi
idéntica en los tres estados de los préstamos, es muy diferente para la antigüedad del préstamo (panel
superior derecho). De hecho, el gráfico sugiere que muchos préstamos actuales son jóvenes (es decir,
solo tienen unos pocos meses de edad), mientras que la mayoría de los préstamos en mora son antiguos
(es decir, cinco o más meses de antigüedad). Si bien este resultado no es completamente sorprendente
(un consumidor generalmente incumple después de un cierto período de tiempo y no inmediatamente
después de obtener el préstamo), sí sugiere una forma de distinguir entre préstamos buenos y malos.
Figura2.13sugiere formas adicionales de distinguir los préstamos. El panel inferior izquierdo
0,30
4e − 04
Actual
Defecto
0,20
Densidad
Densidad
Tarde
2e − 04
0,10
0e + 00
0,00
6
5
8
Actual
Densidad
Densidad
Defecto
46
Tarde
2
2
1
0
0.0 0,1 0,2 0,3 0.4 0,5 0.0 0,2 0.4 0,6 0,8 1.0
Tasa del prestatario Relación deuda-ingresos
Figura 2.13 Distribución de la cantidad prestada, la antigüedad del préstamo, la tasa del prestatario y la relación deuda-ingresos,
desglosada por diferentes resultados del préstamo (actual, atrasado o en mora).
2.5 Gráficos para respuestas categóricas: datos de préstamos de consumidor a consumidor 33
Tarde 0,8
0,6
Defecto
Estado
0.4
0,2
Actual
0
A B
Automóvil club británico C D mi HORA CAROLINA DEL NORTE
Crédito.Grado
(tasa del prestatario) sugiere que los préstamos atrasados o en mora tienen tasas de préstamo más altas; el
panel inferior derecho también sugiere que una relación deuda / ingresos baja no necesariamente indica un
buen préstamo.
Gráficos de la columna vertebral: Los diagramas de columna son una forma de visualizar tabulaciones
cruzadas (por ejemplo, relaciones entre dos variables categóricas). Figura2.14 muestra un diagrama de columna
entre el estado del préstamo y la calificación crediticia. Las barras negras corresponden a préstamos vigentes,
las barras de color gris oscuro corresponden a préstamos en mora y las barras de color gris claro corresponden
a préstamos atrasados. El ancho de la barra corresponde al número de préstamos con una calificación crediticia
particular. (Por ejemplo, la barra "A" es más delgada que la barra "C", lo que sugiere que hay muchos más
préstamos calificados con C que con A.)
Podemos aprender que, como era de esperar, a medida que la calificación se deteriora, aumenta el número
de préstamos atrasados e incumplidos. En particular, los préstamos de recursos humanos (de alto riesgo)
tienen el mayor número de préstamos en mora o retrasados. Sin embargo, es interesante observar que, si bien
hay solo una pequeña cantidad de préstamos no calificados (NC), sus tasas de incumplimiento y morosidad son
incluso más altas que para los préstamos de alto riesgo. Por lo tanto, la calificación crediticia es un predictor
muy fuerte del estado del préstamo.
Lecciones aprendidas:
• Los diagramas de densidad y los diagramas de columna son herramientas muy poderosas para
investigar datos donde la respuesta es categórica. La idea principal de estos gráficos es dividir una
de las variables de entrada (por ejemplo, la antigüedad del préstamo) por los diferentes niveles.
34 2 Exploración y descubrimiento de datos
de la variable de destino. Por ejemplo, podríamos trazar histogramas para diferentes niveles de
estado de préstamo o, como en el caso de los diagramas de densidad, crear histogramas de
granularidad extremadamente fina.
• Las respuestas categóricas ocurren con frecuencia en los datos comerciales, especialmente en
marketing, donde estudiamos las elecciones y preferencias de los clientes. Si bien los diagramas de
dispersión tradicionales no son muy útiles para explorar datos con respuestas categóricas, los
diagramas de densidad y los diagramas de columna pueden revelar nuevos conocimientos
previamente desconocidos.
Terminamos este capítulo dando un vistazo a otra forma desafiante de datos comerciales: los datos de
panel. Los datos del panel se producen cuando seguimos a un conjunto de clientes a lo largo del tiempo
y registramos su comportamiento y preferencias. Por lo tanto, los datos de panel comparten similitudes
con los datos de series de tiempo (para cada miembro del panel, tenemos una serie de observaciones de
tiempo); por otro lado, los datos del panel también tienen características transversales, ya que el panel
contiene una muestra de diferentes clientes. Comprender toda la información que contienen los datos
del panel no es fácil y queremos explicar los desafíos en la siguiente sección.
Datos: Mesa 2.10 muestra datos de compra de nueve clientes seleccionados al azar de
una empresa de alquiler de DVD por Internet durante un período de 12 meses (enero-
diciembre). Cada una de las 12 columnas se refiere a la cantidad de dinero que gasta un
cliente en un mes determinado. Por ejemplo, el cliente 2 gasta $ 114,33 en el mes de
febrero y continúa gastando con bastante frecuencia hasta finales de septiembre
(después de lo cual no realiza más compras). Por otro lado, la clienta 1 realizó una sola
compra ($ 25.74) que ocurrió en febrero y no gastó más dinero en los meses siguientes.
También vemos que algunos clientes no gastan nada durante todo el año (por ejemplo,
los clientes 6, 7 y 9).
ene
IDENTIFICACIÓN feb mar abr Mayo jun jul ago sep oct nov dic
1 0 25,74 0 0 0 0 0 0 0 0 0 0
2 0 114,33 108,56 51,28 0 0 52,28 70,07 40,1 47,96 0 0 0
3 21,54 0 0 0 00000 0 0
4 0 0 0 0 0 00000 0 0
5 0 8,79 42,1 0 0 10,77 63,25 27,93 0 63,45 83,94 30,98
6 0 0 0 0 0 0000000
7 0 0 0 0 0 0000000
8 0 24,48 13,97 0 48,37 0 52,27 0 0 0 0 0
9 0 0 0 0 00 000000
2.6 Gráficos para datos de panel: datos de fidelización de clientes 35
600
Monto de la compra
400
200
0
2 4 6 8 10 12
Mes
Figura 2.15 Gráficos de series de tiempo para todos los clientes en el panel.
Gráficos superpuestos de series de tiempo: Introdujimos gráficos de series de tiempo en la Sección 2.3.
También hemos argumentado anteriormente que los datos de panel son esencialmente un montón de
series de tiempo individuales, una serie para cada cliente. Entonces, ¿por qué no trazar todas esas series
de tiempo (una por cliente) en un solo gráfico? Bueno, la respuesta es que este tipo de enfoque a
menudo conduce a una sobrecarga de información y al desorden; es decir, nuestro intento de explorar
todos los datos disponibles a la vez conduce a más información de la que puede contener el gráfico y,
como resultado, ¡no aprendemos mucho en absoluto!
Tomemos como ejemplo la figura 2.15, que muestra el patrón de compra para todos
clientes, en todos los meses, en un gráfico. Nos referimos a este gráfico comosuperpuesto
36 2 Exploración y descubrimiento de datos
gráfico de series de tiempo ya que básicamente tomamos muchas series de tiempo individuales y las
superpusimos todas juntas en una página. Tenga en cuenta que intentamos hacer el gráfico lo más
limpio posible eligiendo líneas discontinuas, lo que resulta en el menor desorden posible.
Con todo, no podemos aprender mucho de Figure 2.15. Podemos aprender que existen
algunos (de hecho, bastante pocos) clientes que realizan compras notablemente grandes en
instancias selectas a lo largo del año. (Observe los picos altos al principio y al final del año, y
también el pico inusualmente alto en el mes 7.) Sin embargo, aunque estos pocos clientes
aportan un valor excepcional a nuestro negocio en ocasiones seleccionadas, no son
representativos de latípico cliente. El cliente típico está "oculto" en el desorden de líneas en la
parte inferior del gráfico.
El principal problema con la figura 2.15 es que intenta lograr demasiado:
intenta representar tanto la información temporal (es decir, el patrón de compra
de cada cliente a lo largo del tiempo) como la información transversal (es decir,
la variación entre clientes). Si bien preservar tanta información sobre los datos
como sea posible es a menudo un objetivo muy valioso, este es un ejemplo en el
que la agregación de datos conducirá a una mejor comprensión. Lo que
queremos decir con eso es que primero debemos intentar agregar los datos (ya
sea por su componente temporal o transversal) y solo luego graficarlos. A
continuación, discutimos varias formas de realizar esta tarea de agregación. Es
importante señalar que los gráficos reales que usamos son estándar y se han
introducido en secciones anteriores (por ejemplo, histogramas); sin embargo,
Frecuencia
Frecuencia
Frecuencia
0 150
0 150
0200
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra
Frecuencia
Frecuencia
0200
0200
0200
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra
0 200
0 200
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra
Frecuencia
Frecuencia
0200
0200
0200
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra
Febrero son también los meses en los que un cliente gasta más dinero en una sola visita.
Por lo tanto, estos dos meses parecen ser el mes más rentable. El mes de marzo es
interesante porque está marcado por muchas visitas pero un gasto por visita
relativamente bajo. Por otro lado, si bien el mes de julio no presenta un número elevado
de visitas, la cantidad gastada por visita es bastante elevada.
Con todo, la agregación de los datos de nuestro panel ha dado lugar a nuevos conocimientos sobre el
momento y la cantidad de decisiones de compra. Mientras que algunos meses ven visitas de clientes más
frecuentes (pero están marcados por montos de compra más bajos), otros meses ven montos de compra más
altos (pero con menos frecuencia). Esta información podría llevar a nuestro departamento de marketing a
diseñar estrategias de promoción y publicidad que varíen según la temporada que, durante algunos períodos,
tengan como objetivo aumentar la cantidad que gasta un cliente ("enfoque en el presupuesto") y, durante otros
períodos, con el objetivo de aumentar la frecuencia de compra del cliente ("enfoque en la frecuencia") .
1 1
0 0 0
1 1 1
0 0 0
1 1 1
0 0 0
1 1 1
Figura 2.17 Gráficos circulares mes a mes de las compras de los clientes.
4
8
0 4 8 12
2
2
4
4
0
0
0 5 10 15 20 25 0 20 60 100 0 5 10 15 20 - 1.0 - 0,6 - 0,2 0 20 40 60 80
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra
8
0 4 8 12
0 4 8 12
0 4 8 12
0 4 8 12
4
0
- 1.0 - 0,6 - 0,2 - 1.0 - 0,6 - 0,2 0 10 30 50 - 1.0 - 0,6 - 0,2 - 1.0 - 0,6 - 0,2
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra
8
0 4 8 12
4
4
0
0
0 10 20 30 40 - 1.0 - 0,6 - 0,2 0 5 10 15 0 5 10 15 0 5 10 15
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra
0 4 8 12
0 4 8 12
4
4
4
0
8
8
8
0 4 8 12
4
4
4
4
0
0
0 5 10 20 30 0 5 10 20 30 - 1.0 - 0,6 - 0,2 0 5 10 15 0 50 150
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra
Lecciones aprendidas:
• La agregación de datos suele ser útil antes de explorar los datos del panel; los datos
se pueden agregar con respecto a la dimensión temporal o la dimensión
transversal.
• Las secuencias de histogramas, gráficos circulares, diagramas de caja o cualquier otra forma de
resumen numérico o gráfico pueden resultar útiles para explorar datos de panel agregados.
(4,-$'
' $' ,'+'& (,'+2+"'+
!B@5G977=YB
ACGHF5F9ACG7YAC5D@=75F@5F9;F9G=YB@=B95@5IB7CB>IBHC8985HCG
M@CEI99GAUG=ADCFH5BH9ACGHF5F9ACG7YAC@99F9=BH9FDF9H5F@CGF9GI@H58CG
9<97<C;F5B
D5FH9899GH9@=6FCG979BHF59B7CADF9B89F@CGF9GI@H58CG89@5F9;F9G=YBMCHFCGH=DCG89AC89@CGM
AVHC8CG
.=6=9B5A9BI8C9G65GH5BH9:U7=@75@7I@5FIBAC89@C89F9;F9G=YB5A9BI8CBCG9
B979G=H5AUGEI99@7@=789IBACIG99@J9F8589FC89G5:WCF58=759B7CADF9B89F@CGF9GI@H58CGM
89F=J5F9@7CBC7=A=9BHC7CA9F7=5@899@@CG
!GH9G9FUBI9GHFC9B:CEI9DF=B7=D5@9B@5.977=YB
.977=YB
G979BHF59BCHFC5GD97HC=ADCFH5BH989@AC89@58C8=GH=B;I=F@5GD=9N5G=ADCFH5BH9G89
=B:CFA57=YB89@5GEI9BCGCBH5B=ADCFH5BH9G
9<97<C@5A5MCFW589@CG5@;CF=HACG89AC89@58C
GCB65GH5BH9]89G79F96F58CG^M<579B9L57H5A9BH9@CEI9@9G8=79EI9<5;5B
.=@98=795@5@;CF=HAC
EI9=B7CFDCF9IB7=9FHC
CA9BN5ACG8=G7IH=9B8C@5G=895GM7CB79DHCG6UG=7CG89IBAC89@C
+I989DF9;IBH5F
R,IV9GIBAC89@CMR+CFEIVB979G=H5ACGAC89@CG9B7CB>IBHC'5F9GDI9GH59G
EI9@CGAC89@CGG9GI9@9B7CBG=89F5F7CACIB556GHF577=YBCIB55DFCL=A57=YB 89@5
F95@=858
45A9BI8C@CGB979G=H5ACGDCFEI9H9B9ACGIBDFC:IB8C89G9C89
7CADF9B89F9@D5G58C5DF9B89F89V@M@I9;CDF9897=F9@:IHIFC
!GH989G9CDF9J5@979
9GD97=5@A9BH99B@CGB9;C7=CG8CB89BCG;IGH5FW57CBC79FF9GDI9GH5G5DF9;IBH5G
7CACRIUBHCG7@=9BH9GJ=G=H5FUBA=H=9B85A5X5B5R 969FW5:56F=75FC
H9@V:CBCG=BH9@=;9BH9G*.==BJ=9FHCA=8=B9FC9BGHC7?<CMR5IA9BH5FUGIJ5@CF
A5X5B5
(I7<5G897=G=CB9G7CA9F7=5@9G9GHUB=ADI@G585GDCFBI9GHF575D57=858D5F55BH=7=D5FBCG5@
:IHIFC
9<97<C@58=:9F9B7=59BHF9IB59ADF9G57CA9F7=5@9L=HCG5MIB:F575GC5A9BI8C89D9B89
89BI9GHF575D57=858D5F5DF9897=F9@:IHIFCD5F55BH=7=D5F9@7CADCFH5A=9BHC89BI9GHFCG7@=9BH9G
C@CGACJ=A=9BHCG89BI9GHFCG7CAD9H=8CF9G
'CGAC89@CG>I9;5BIBD5D9@7@5J99B9GH9DFC79GC
'CGAC89@CGBCGD9FA=H9BG9D5F5F@CG85HCG9B9@9A9BHCGDF9897=6@9G9=ADF9897=6@9G
9<97<C
@CGAC89@CGG9D5F5B9@FI=8C=ADF9897=6@9 89@CGD5HFCB9GDF9897=6@9G
@5DF9B89F89@CG
D5HFCB9GEI9C7IFF=9FCB9B9@D5G58CMH5@J9N5>IGH5FC57HI5@=N5F9GHCGD5HFCB9G8957I9F8C7CB@CG
9J9BHCGDF9G9BH9G 5A9BI8CDC89ACGDF9897=F9@:IHIFC
+5F5EI9@58=G7IG=YBG95AUG7CB7F9H57CBG=89F9ACG9@G=;I=9BH99>9AD@C
89@=69F585A9BH9G=AD@9
(9G5
AI9GHF5=B:CFA57=YBGC6F9@5GJ9BH5G89IBH=DCD5FH=7I@5F
89F9:F9G7C8=GHF=6I=8C9B8=:9F9BH9GF9;=CB9G89J9BH5G
89AUG89@5=B:CFA57=YB89J9BH5G
@5H56@5H5A6=VBF9;=GHF5@575BH=858898=B9FC;5GH5859BDI6@=7=8589B7585F9;=YB
-*''CG85HCG89
19BH5G 8JH
J9BH5GMDI6@=7=858
'CG85HCG
G9F9;=GHF5B9BA=@9G89
8Y@5F9G
19FH5A6=VB5F7<=JC
19BH5GMDI6@=7=858
7GJ
%BHFC8I77=YBR+CFEIVB979G=H5ACGAC89@CG
19BH5G
+I6@=7=858
"!-* =5;F5A5898=GD9FG=YB9BHF9DI6@=7=858MJ9BH5GD5F5@CG85HCG89F9:F9G7CG
R,I=VB9GH5FW5=BH9F9G58C9B9GH9H=DC8985HCGM7YACEI9FFW5BIH=@=N5F@CGI9BC9@;9F9BH989
A5F?9H=B;D5F5IBCDCFEI9@CG85HCGDI989BOCBC (CGHF5FEI9@CG9G:I9FNCGEI99@@5MGI9EI=DC
=BJ=9FH9B9BDI6@=7=858F95@A9BH9=ADCFH5B
!BCHF5GD5@56F5G9@;9F9BH989A5F?9H=B;DI989H9B9F
@57CF5NCB58589EI99L=GH9IB5F9@57=YBDCG=H=J59BHF9@5DI6@=7=858M@5GJ9BH5G9G897=F7I5BHC
AUG8=B9FCG9;5GH59BDI6@=7=858AUG5IA9BH5B@5GJ9BH5G
+9FCR7YACDI9895DCM5F9GH5
7CF5NCB58545<9ACG5DF9B8=8C5@;IB5G<9FF5A=9BH5G6UG=75G9B9@5DWHI@C@5<9FF5A=9BH5AUG
G=AD@9M5@A=GACH=9ADCAUGDC89FCG5 D5F55DCM5F9GH57CF5NCB585G9FW57F95FIB;FU:=7C89
8=GD9FG=YB9BHF9DI6@=7=858MJ9BH5G
"=;IF5
AI9GHF59GH98=5;F5A5898=GD9FG=YB
R.CB9:97H=JCGGIG9G:I9FNCGDI6@=7=H5F=CG
REIVG9F9:=9F99@8=F97HCF9>97IH=JC7CB9:=75N0B5:CFA589=BH9FDF9H5F9:=75NG9FW5
<579F@5DF9;IBH589A5B9F55@;C8=:9F9BH9R$5MGI:=7=9BH9F9BH56=@=858*8=7<C9BIB
@9B;I5>9AUG:CFA5@+CF75858Y@5FEI9;5GH5ACG9BDI6@=7=858RC6H9B9ACG@CGI:=7=9BH95
75A6=C5HF5JVG89@5GJ9BH5G +CF9>9AD@CREIVD5G5G=DCF75858Y@5FEI9;5GH5ACG9B
DI6@=7=858GC@CC6H9B9ACGIBF9HCFBC8979BH5JCGGC6F9@5GJ9BH5GR!GH5FW5G:9@=N7CB9GC
R.I!*9GH5FW57CBH9BHC7CB9GC+CFCHFC@58CREIVD5G5G=DCF75858Y@5FEI9=BJ=9FH99B
DI6@=7=858@5GJ9BH5G89JI9@J9BIBDFCA98=C89R)CH9<5FW59GC5H=M5HI9EI=DC
AI7<CAUG:9@=79G+9FC7CACDC89ACG7I5BH=:=75F9@=AD57HC89
(C89@58C8985HCG%CB79DHCG6UG=7CG
R,IVG=;B=:=759GH597I57=YB+F=A9FCDC89ACGIG5F@CD5F59GH=A5F8=:9F9BH9GB=J9@9G89
J9BH5GD5F58=:9F9BH9GB=J9@9G89;5GHC9BDI6@=7=858
+CF9>9AD@CGIDCB;5ACGEI9
;5GH5ACG9BDI6@=7=858
R,IVH5B;F5B899GD9F5EI9G95B@5GJ9BH5GIG5B8C9@
AC89@C5BH9F=CF '5F9GDI9GH59GG=AD@9A9BH97CB97H9+I6@=7=8589B9@@58C
89F97<C89@597I57=YB
MC6H9B9ACG
19BH5G
T
9LD9F=9B7=59ADF9G5F=5@GCB=;I5@A9BH9=ADCFH5BH9GD5F5HCA5F6I9B5G897=G=CB9G
1C@J5ACG5BI9GHFCAC89@C9B@597I57=YB
R,IVAUGDC89ACG5DF9B89F89@5
G=;I=9BH9F9@57=YB
19BH5G
T+I6@=7=858
19BH5G
T
!GH5GD5@56F5GG9GI9@9B5HF=6I=F5@:5ACGC9GH58WGH=7C#9CF;9CL
%BHFC8I77=YBR+CFEIVB979G=H5ACGAC89@CG
19BH5G
T
D5F59@;9F9BH9M
19BH5G
T
19BH5G
T+I6@=7=858
1!)/.
1!)/.
1/ 1/
"!-*+5B9@=NEI=9F8CIB5=@IGHF57=YB;FU:=7589@AC89@C9B
+5B9@89F97<CAC89@CG5@H9FB5H=JCG7CB
D9B8=9BH9G89MF9GD97H=J5A9BH9
_$9ACG<56@58C89@5=ADCFH5B7=589@CGAC89@CGA5H9AUH=7CGD5F5@5HCA589897=G=CB9G
'CGAC89@CGGCBIB556GHF577=YB89@5F95@=858MG9D5F5B@CGD5HFCB9GDF9897=6@9G89@
FI=8C=ADF9897=6@9
'CGAC89@CGGCB=ADCFH5BH9GDCFEI9BCGD9FA=H9B7I5BH=:=75FIB5
F9@57=YBA=9BHF5GEI9@CG8=5;F5A5G898=GD9FG=YBM@5GH56@5G897CFF9@57=YBBCG
=B:CFA5FUBGC6F9@5B5HIF5@9N57I5@=H5H=J589IB5F9@57=YBD
!>
+CG=H=J5:F9BH95
B9;5H=J58V6=@:F9BH95:I9FH9 BCBCG8=79B9L57H5A9BH97YACG9DFC8I799@F9GI@H58C
75A6=57CACF9GI@H58C8975A6=CG9B@5GJ5F=56@9G899BHF585
!BCHF5GD5@56F5G@CG
AC89@CGBCGD9FA=H9B7I5BH=:=75F7CBDF97=G=YB7IUBHC9GD9F5ACGEI97F9N75B@5GJ9BH5G
DCF7585ACBHC58=7=CB5@89;5GHC9BDI6@=7=858DCF9>9AD@C
.=BIBAC89@CBC
DC8FW5ACGDFCBCGH=75F9@:IHIFCM7CACF9GI@H58CBCDC8FW5ACGF95@=N5FIB5
D@5B=:=757=YBG=;B=:=75H=J5
>IGH99=BH9FDF9H57=YB89IBAC89@C89F9;F9G=YBF9;F9G=YB89AWB=ACG7I58F58CG
_/5A6=VB<9ACG8=G7IH=8C@58=:9F9B7=59BHF9@5D9B8=9BH9M@5=BH9FG977=YB89IB
AC89@CMGIG=BH9FDF9H57=CB9GDFU7H=75G
'5=BH9FG977=YB89BCH5@5D5FH989@AC89@C
8CB89@5@WB95G97FIN57CB9@49>9
'5=ADCFH5B7=5899GH9BZA9FC9GEI989BCH5@5
75BH=85889DFC8I77=YB9B5IG9B7=5897I5@EI=9F9BHF585DCF9>9AD@C@575BH=858
89J9BH5GG=BDI6@=7=858
'5D9B8=9BH9DCFCHFC@58CBCG8=79EIVH5BFUD=8C
7F979FU@5G5@=85D5F57585IB=85858=7=CB5@89@5GJ5F=56@9G899BHF585
+CF
9>9AD@CDC8FW5897=FBCGEI9@5GJ9BH5G7F979FUB58=7=CB5@9GDCF758589
5IA9BHC9BDI6@=7=858
'5D9B8=9BH989IBAC89@C9GD5FH=7I@5FA9BH9=ADCFH5BH9
DCFEI9BCGD9FA=H9A98=F@5=ADCFH5B7=59GH58WGH=75MDFU7H=7589IB5J5F=56@989
9BHF585
7CBH=BI57=YBG9DCB8FUAI7<CVB:5G=G9B=BH9FDF9H5F7CFF97H5A9BH9@5
D9B8=9BH9
!B9GH5G977=YB8=G7IH=F9ACG8CGDF9;IBH5GF9@57=CB585G
RYACDC89ACGC6H9B9FIBAC89@C7CAC9@89@597I57=YB
4@CEI99GAUG=ADCFH5BH9R7YACDC89ACG=BH9FDF9H5FH5@AC89@CMIH=@=N5F@CD5F5C6H9B9F=B:CFA57=YB
9ADF9G5F=5@
I5B8C897=ACGC6H9B9FIBAC89@C9BF95@=858BCGF9:9F=ACG5IH=@=N5F85HCGD5F5C6H9B9FIB
AC89@C
/C8C9GH9@=6FCG979BHF59BC6H9B9F=B:CFA57=YB9ADF9G5F=5@5D5FH=F89@CG85HCG
@5F5A9BH9<5M
AI7<5G:CFA5G89C6H9B9FIBAC89@C7CAC9B@597I57=YB
G=B9@IGC897I5@EI=9F85HC
+CF9>9AD@CG9
DC8FW5DF9;IBH5F5J5F=CG9LD9FHCGGC6F9GIA9>CFGIDCG=7=YBGC6F9@5F9@57=YB9B@597I57=YB
.=6=9B
9GH9H=DC89G9G=CB9G89@@IJ=589=895GGCB89G5:CFHIB585A9BH9 IB5DFU7H=757CA9F7=5@65GH5BH97CAZB
9GHCBC9G@CEI9H9B9ACG9BA9BH95EIW
)I9GHFCC6>9H=JC9G89F=J5FIBAC89@C65G58CDIF5A9BH99B
<97<CGC6>9H=JCGM65G58CG9B85HCG9B@I;5F8989D9B89F89=BHI=7=CB9GM7CB>9HIF5G
!GHCBCEI=9F9897=F
EI9@59LD9F=9B7=589IB;9F9BH9BC>I9;I9B=B;ZBD5D9@9B@5HCA589897=G=CB9G65G5859B85HCG
+CF9@
7CBHF5F=C@59LD9F=9B7=589IB;9F9BH9DI989G9F9LHF9A585A9BH9J5@=CG57I5B8CG9IH=@=N59B7CB>IB7=YB
7CBAC89@CGMAVHC8CG65G58CG9B85HCG
9<97<C@59LD9F=9B7=5>I9;5IBD5D9@D5FH=7I@5FA9BH9
=ADCFH5BH95@=BH9FDF9H5FM5D@=75F@CGF9GI@H58CG89AC89@CG65G58CG9B85HCG
19F9ACG9>9AD@CGAIM
DFCBHC
/5A6=VBG9X5@5ACG5BH9F=CFA9BH9EI9DCB8F9ACGAUGVB:5G=G9B@5=BH9FDF9H57=YB
89AC89@CG9B@I;5F89GI9GH=A57=YB
'5F5NYB9GEI95A9BI8CG9DI9899GH=A5FIB
AC89@C7CBIB7@=789@ACIG9
.=B9A65F;C@CEI9GI9@9G9FAI7<CAUG8=:W7=@9G
7CADF9B89F@CGF9GI@H58CGMIH=@=N5F@CGD5F5@5HCA589897=G=CB9G
!B9G9G9BH=8CBC
7I6F=F9ACGHC8CG9GCG89H5@@9GA5H9AUH=7CGM9GH58WGH=7CGEI9IBCGI9@99B7CBHF5F9B
IB@=6FC89H9LHC899GH58WGH=75HF58=7=CB5@
(UG6=9B85F9ACGIB59LD@=757=YBJ9F65@89
5@;IBCG89@CG:IB85A9BHCG7CB79DHI5@9GMA9HC8C@Y;=7CGM@I9;CD5G5F9ACG
FUD=85A9BH95@55D@=757=YB9=BH9FDF9H57=YB89@CGAVHC8CG
CA9BN5F9ACG
8=G7IH=9B8C9@AVHC8CAUG7CAZB7CBC7=8CMDC89FCGC89C6H9B9FIBAC89@CEI95
A9BI8CG97CBC797CAC9@F9;F9G=YB89AWB=ACG7I58F58CGAVHC8C
(C89@58C8985HCG%CB79DHCG6UG=7CG
19BH5G
19BH5G
+I6@=7=858 +I6@=7=858
19BH5G
19BH5G
+I6@=7=858 +I6@=7=858
CBG=89F99@8=5;F5A5898=GD9FG=YB89@5"=;IF5
EI9G9F9DFC8I799B9@D5B9@GID9F=CF
=NEI=9F8C89@5"=;IF5
I5B8C<56@5ACG89C6H9B9FIBAC89@CBCGF9:9F=ACG5IBDFC79GC
EI9BCG@@9J589@CG85HCG9B9GH98=5;F5A5898=GD9FG=YB5IBAC89@C7CAC9B@597I57=YB
RYACDC89ACG9B7CBHF5FH5@AC89@CR47YACDC89ACG9B7CBHF5F9@A9>CFDCG=6@9RAC89@C+CF
9>9AD@CR7IU@89@5GHF9G@WB95G89@5"=;IF5
7CBGH=HIM99@A9>CFAC89@CD5F5BI9GHFCG85HCG'5
@WB959B9@D5B9@GID9F=CF89F97<CD5F97989A5G=58CD@5B5DCFCHFC@58C@5H9B89B7=59B@CG85HCG
BCD5F9799GH5F7F97=9B8CH5BFUD=8C7CAC@5@WB959B9@D5B9@=B:9F=CF=NEI=9F8C
!BHCB79GR@5@WB95
9B9@D5B9@=B:9F=CF89F97<C7CFF9GDCB895@A9>CFAC89@CDCG=6@91=GI5@A9BH99GH5@WB95D5F979
75DHIF5FAIM6=9B@5H9B89B7=59B@CG85HCG
+9FCR8969ACG7CB:=5F9BBI9GHFCGC>CG4DC89ACG
7I5BH=:=75F,I9H5B6=9B9G5@WB95G95>IGH55@CG85HCGCB9G9:=BIH=@=N5ACGIBAVHC8CEI9G9
7CBC797CACF9;F9G=YB89AWB=ACG7I58F58CG
'5F9;F9G=YB89AWB=ACG7I58F58CG9B7I9BHF59@A9>CFIYDH=AC AC89@CA=B=A=N5B8C@5
GIA589@CGF9G=8ICG5@7I58F58C
!G=ADCFH5BH985FG97I9BH589EI99GH59GGC@CIB5:CFA5
8989:=B=F9@AC89@C]A9>CF^CHF5:CFA5G9FW5A=B=A=N5F@5GIA589@CGF9G=8ICG56GC@IHCG9
=B7@IGC<5MCHFCG7F=H9F=CG
CBG=89F9@5:=;IF5
(I9GHF57I5HFCDIBHCG8985HCG89AI9GHF5
858CGDCF@CG7I5HFCDIBHCGGY@=8CG MIB5@WB95<=DCHVH=755HF5JVG899GCG85HCG
,I9F9ACG
IG5F9G5:=;IF5D5F5=@IGHF5F9@7CB79DHC89F9;F9G=YBDCFAWB=ACG7I58F58CG
@5F5A9BH9DC89ACG9B7CBHF5FAI7<5G@WB95G8=:9F9BH9G5HF5JVG899GHCG7I5HFCDIBHCG8985HCG
+9FCR7YACDC89ACG7I5BH=:=75FEIV@WB95G9D5F979A9>CF5@5H9B89B7=59B@CG85HCGCB9G9:=BJ5ACG
>IGH99=BH9FDF9H57=YB89IBAC89@C89F9;F9G=YBF9;F9G=YB89AWB=ACG7I58F58CG
1!)/.
*6G9FJ58C
-9G=8I5@
+F98=7<C
1/
"!-*%@IGHF57=YB89J5@CF9GF9G=8I5@9GDFCBCGH=758CGMC6G9FJ58CG
F9:9F=FG95@CG85HCGF95@9G7CAC9@C6G9FJ58C89AUGG=7CBG=89F5ACG@5DFCM977=YB89@CG85HCG
C6G9FJ58CG9B@5@WB95=B8=7585DCF@5G@WB95G89DIBHCG 9BHCB79GBCGF9:9F=ACG5@CGDIBHCG
7CFF9GDCB8=9BH9G9B@5@WB957CACDF98=7<CJ5@CF9G
'58=:9F9B7=59BHF9@CGJ5@CF9GC6G9FJ58CGM
DF98=7<CGA=89EIVH5B6=9BBI9GHFCAC89@CG95>IGH55@CG85HCG8=:9F9B7=5GAUGD9EI9X5G
=AD@=75BIBA9>CF5>IGH9
!GH58=:9F9B7=5EI9J=9B98585DCF@5@CB;=HI889@5G@WB95GDIBH9585G
H5A6=VBG97CBC797CACF9G=8I5@
58CEI9H9B9ACGAI7<CGDIBHCG8985HCG8=:9F9BH9GH9B9ACG
AI7<CGJ5@CF9GF9G=8I5@9G8=:9F9BH9G
'5F9;F9G=YB89AWB=ACG7I58F58CG89H9FA=B59@A9>CF
AC89@C5@9B7CBHF5F@5@WB95EI9A=B=A=N5@5GIA589HC8CG@CGF9G=8ICG7I58F58CG
!GB979G5F=C
<579F5@;IBCG7CA9BH5F=CGAUGGC6F99GH9DFC79GC
R+CFEIV7I58F5ACG@CGF9G=8ICG+CFEI9
7F99ACGEI9@CGF9G=8ICGB9;5H=JCG;F5B89G9G897=FDIBHCGAIMDCF8965>C89@5@WB95 GCBH5B
A5@CG7CAC@CGDCG=H=JCG;F5B89G9G897=FDIBHCGEI99GHUBAIMDCF9B7=A589@5@WB95
@9@9J5F5@
7I58F58C@CGJ5@CF9GF9G=8I5@9GHF5H5ACG@5G8=G7F9D5B7=5GDCG=H=J5GMB9;5H=J5G89@5A=GA5
A5B9F5
R4DCFEIVGIA5ACGHC8CG@CGF9G=8ICG5@7I58F58C+CFEI9BCDC89ACG
9B7I9BHF9IB5GC@5@WB95F97H5EI9A=B=A=79HC8CG@CGF9G=8ICGG=AI@HUB95A9BH9
!B75A6=C
A=B=A=N5ACG@5DFCA98=C5@7I58F58C J5@CFF9G=8I5@
9<97<CA=B=A=N5F9@DFCA98=CH=9B9
9@A=GACF9GI@H58CEI9A=B=A=N5F@5GIA5M5EI9@5ZB=758=:9F9B7=59BHF9@CG
DFCA98=CM@5GIA59G@57CBGH5BH989BCFA5@=N57=YB BCFH9
!BCHF5GD5@56F5GAWB=ACG7I58F58CG
'5F9;F9G=YB9B7I9BHF59G5@WB959BHF9HC85G@5G@WB95GDCG=6@9G EI9857CACF9GI@H58C@58=GH5B7=5F9G=8I5@
5@7I58F58CDFCA98=CAUGD9EI9X5
19BH5G5
T+I6@=7=858
/9B;59B7I9BH5EI99GH99G9@A=GACAC89@CEI99B@597I57=YB
9L79DHCEI9H9B9ACG5<CF5
F99AD@5NY@CGBZA9FCGMDCFA5F758CF9G89DCG=7=YB;9BVF=7CG5MF9GD97H=J5A9BH9
/9B;59B
7I9BH5EI9BCFA5@A9BH9BCGF9:9F=ACG58=7<CGA5F758CF9G89DCG=7=YB7CAC7C9:=7=9BH9G
/5A6=VBH9B;5
9B7I9BH5EI99B@597I57=YB
5756U65ACG89<579F@CGBZA9FCGM5<CF5EI9F9ACG9GH=A5F
@CGBZA9FCGJ9F8589FCG89@CG85HCG
CB9G9:=BIH=@=N5ACG@5F9;F9G=YB89AWB=ACG7I58F58CG
'59GH=A57=YB89AWB=ACG7I58F58CGG9F95@=N5BCFA5@A9BH97CBIBG=AD@97@=789@ACIG9
C9G7F=6=9B8CIB5GC@5@WB95897Y8=;C9B9@GC:HK5F9
!G9BC9G9@89G5:WC
!@89G5:WC
;9B9F5@A9BH9F58=759B=BH9FDF9H5F9@F9GI@H58C
'5G5@=8589@GC:HK5F97CFF9GDCB8=9BH95@5
9GH=A57=YB89F9;F9G=YB89AWB=ACG7I58F58CG89@AC89@C
G9AI9GHF59B@5"=;IF5
+C89ACGJ9FEI9IBG=AD@97@=789@ACIG9CIB5GC@5@WB95897Y8=;C <58=GD5F58C65GH5BH9
=B:CFA57=YB
<CF58=G7IH=ACG7YAC=BH9FDF9H5FHC859GH5=B:CFA57=YB
'59GH=A57=YB89AWB=ACG7I58F58CG89G9B7589B5IB5@CH989DFC8I77=YB5A9BI8CAUG89@5EI9G9
DI9898=;9F=F:U7=@A9BH9
+CF9G5F5NYB5@A9BCGDCF5<CF5GC@CBCG9B:C75F9ACG9B@5G8CGD=9N5G89
=B:CFA57=YBF9G5@H585GDCF@CG8CGF97I58FCG9B@5"=;IF5
+F=A9FCBCG79BHF5F9ACG9B@5=B:CFA57=YB
DF9G9BH5859B9@DF=A9F7I58FC9H=EI9H58C7CAC+5FH9%9B@5"=;IF5
'I9;CBCG9B:C75F9ACG9B9@
7I58FC89565>C9H=EI9H58C7CAC]+5FH9%%^
.=6=9B@5=B:CFA57=YBF9GH5BH9BC75F97989=ADCFH5B7=5BC9G
8=F97H5A9BH9B979G5F=5D5F5=BH9FDF9H5FBI9GHFCAC89@C89F9;F9G=YB89AWB=ACG7I58F58CG
!B7CBHF5GH9A=B=A=N5FIB5:IB7=YBEI9=BJC@I7F5J5@CF9G56GC@IHCG9GAI7<CAUG7CAD@=758CMF9EI=9F97U@7I@CG
=H9F5H=JCG9G897=FA5B9>58CGDCF7CADIH58CF5
>IGH99=BH9FDF9H57=YB89IBAC89@C89F9;F9G=YBF9;F9G=YB89AWB=ACG7I58F58CG
"!-*.5@=8589GC:HK5F9D5F5IBDF=A9FAC89@C89F9;F9G=YBG=AD@9
19BH5G
T+I6@=7=858
D@=75F@CG7CB79DHCG5DF9B8=8CG9B@5.977=YB
M5G569ACG=BH9FDF9H5F
!GH9AC89@C
/9B;59B7I9BH5EI9H5BHC@5GJ9BH5G7CAC@5DI6@=7=858G9F9;=GHF5B9BA=@9G898Y@5F9GDCF@CEI9@5
=BH9FDF9H57=YBAUGDF97=G589@J5@CF895!GEI95:5@H589DI6@=7=858@59ADF9G55ZBF9;=GHF5J9BH5G89
9BDFCA98=C
(C89@58C8985HCG%CB79DHCG6UG=7CG
1!)/.
1/
"!-* 'WB9589F9;F9G=YBD5F59@AC89@C89F9;F9G=YB9GH=A58C9B@5"=;IF5
+5G5ACG5<CF55=BH9FDF9H5F@5=B:CFA57=YB9B9@G9;IB8C7I58FC89@5"=;IF5
7CA9F7=5@=N58C7CAC]+5FH9%%^
!BD5FH=7I@5F=B=7=5@A9BH9BCG79BHF5F9ACG9L7@IG=J5A9BH9
9B=BH9FDF9H5F@CG-J5@CF5@7I58F58C
(Z@H=D@9-GEI5F989GDCFG=AD@=7=8585A9BI8C
89BCA=B58C-7I58F58C^C-
-7I58F58CA=89@575@=858;9B9F5@89IBAC89@C89
F9;F9G=YB
+CF75@=858
G=;B=:=75IB5A98=8589EIVH5B6=9B9@AC89@C=895@=N58C F5GHF95@CG85HCGF95@9G
CBG=89F9@5
:=;IF5D5F5IB5=@IGHF57=YB89@7CB79DHC89-7I58F58C
"!-*
%@IGHF57=YB89-7I58F58C
!@D5B9@GID9F=CF89@5:=;IF5AI9GHF57=B7CDIBHCG8985HCG<=DCHVH=7CG=B8=758CGDCF
7WF7I@CGF9@@9BCG
.IDCB;5ACGDCF9@ACA9BHCEI9GC@C7CBC79ACG@5=B:CFA57=YBGC6F99@49>9M
EI9BCH9B9ACGB=B;IB5=B:CFA57=YB8=GDCB=6@99B9@39>9
!BCHF5GD5@56F5GGC@CH9B9ACG
=B:CFA57=YB8=GDCB=6@9GC6F9J9BH5GBCGC6F9;5GHCGDI6@=7=H5F=CG
+5F59G5G=HI57=YBR7IU@G9FW5
BI9GHFCA9>CF]AC89@C^I9BC858CEI9GC@CH9B9ACG=B:CFA57=YBGC6F9J9BH5GBI9GHFCA9>CF
AC89@CJ9B8FW5858CDCF9@DFCA98=C89J9BH5GC`EI99GHU=B8=758CDCF@5@WB9589DIBHCG
.=B
9A65F;C@5GJ9BH5GJ5FW5B9B@5G8=:9F9BH9GF9;=CB9G89J9BH5G9BHCB79GREIVH5B6I9BC9G9G9
AC89@C0B5:CFA5899J5@I5F@575@=858899G9AC89@C9G5HF5JVG89GI8=:9F9B7=5@5G:@97<5G9BHF9
@CGDIBHCG8985HCGM@5@WB9589DIBHCGA=89B@589GJ=57=YB897585F9;=YB89J9BH5G=B8=J=8I5@M9@
AC89@C;9B9F5@@5G89GJ=57=CB9GAUG;F5B89G=B8=75BF9;=CB9G89J9BH5G8CB899@AC89@C
DFCDCF7=CB5IB5>IGH9AUG89:=7=9BH9
I58F5FHC85G@5G89GJ=57=CB9GMGIA5F@5G89GJ=57=CB9G5@
7I58F58C7CB8I795@7CB79DHC89GIA5HCH5@897I58F58CG../
../M%`
BCFH9
%
Traducido del inglés al español - www.onlinedoctranslator.com
SST está relacionado con el concepto de varianza de la muestra6 y mide el variabilidad general
de los datos. ¿Qué es la variabilidad? La variabilidad a menudo se denominaincertidumbre: cuanta
más variabilidad haya entre las regiones de ventas, mayor será nuestra incertidumbre sobre el
desempeño exacto de cualquier región de ventas en particular. En ese sentido, SST mide la
variabilidad o incertidumbre general en nuestros datos. Cuanto mayor sea la variabilidad, más
difícil será nuestro problema de modelado. Tomamos SST comopunto de referencia por nuestros
esfuerzos de modelado.
A continuación, considere el panel inferior en la Figura 3,7, que muestra el efecto de
estimar un modelo de regresión en nuestros datos (indicado por la línea diagonal). ¿Qué parte de
la incertidumbre total (SST) ha logrado "modelar" la línea de regresión? Con ese fin, considere las
desviaciones entre la línea de regresión y los puntos de datos (indicados por el segundo conjunto
de flechas). Podemos ver que las desviaciones en general han disminuido, lo que implica que el
modelo de regresión proporciona un mejor ajuste a los datos que nuestro modelo anterior de
ventas promedio. Pero aún queda algo de incertidumbre, incluso después de aplicar el modelo de
regresión. ¿Cuanto queda? Nuevamente podemos sumar todas las desviaciones al cuadrado, lo
que conduce al concepto deerror suma de cuadrados (SSE):
SSE = ∑ (yI -ŷ 2 I)
norte
(3,5)
I= 1
SSE mide cuánta variabilidad (o incertidumbre) queda en los datos después de aplicar el
modelo de regresión. Podemos combinar los conceptos de incertidumbre general (SST) y la
incertidumbre que queda después de aplicar el modelo de regresión (SSE) para llegar a una
medida de cuánto ha ayudado el modelo a reducir la incertidumbre:
SSR
R-al cuadrado = (3,7)
SST
Interpretación R-cuadrado = 0.2469: Volviendo al R-valor al cuadrado de 0,2469 en la figura 3,5,
ahora podemos concluir que nuestro modelo de regresión explica el 24,69% de la variabilidad total
en las ventas. ¿Esto es bueno o malo? Bueno, eso depende. De hecho, la calidad percibida deR
-cuadrado depende del contexto. Los químicos que realizan experimentos de laboratorio
probablemente percibirían unaR-valor al cuadrado del 24,69% como escandalosamente pobre; la
razón es que en los experimentos de laboratorio a menudo se pueden controlar casi todos los
factores extraños. Por otro lado, los científicos sociales (o ejecutivos de empresas, para el caso) a
menudo sienten que un 24,69%R-cuadrado es razonablemente alto, porque es
Figura 3.8 Salida de software para un modelo de regresión sobre publicidad e ingresos familiares medios.
normalmente es muy difícil controlar los factores extraños cuando se trata de seres humanos
(como clientes o proveedores). Entonces, la magnitud deR-squared debe evaluarse en
contexto, y no existe un único punto de referencia que se aplique por igual a todas las
situaciones. Sin embargo, un uso adecuado deR-squared es comparar dos (o más) modelos
de regresión competidores entre sí. A continuación describiremos esta aplicación.
Considere la figura 3.8, que muestra la salida del software para otro modelo de regresión. De
hecho, la única diferencia en comparación con el modelo anterior es que agregamos una
segunda variable explicativa, “INGRESOS”, que denota el ingreso familiar mediano en cada
región de ventas. Por tanto, el modelo formal es ahora
Echando un vistazo a la salida en la Figura 3.8, podemos identificar rápidamente que el estimado
coeficientes para a, B1, y B2 son ahora
a = 36.8949
B1 = 5.0691
B2 = 0,8081
56 3 Modelado de datos I - Conceptos básicos
Comparando R-valores al cuadrado: los R-valor al cuadrado para el modelo en la figura 3,5
es igual a 24,69%, y que para el modelo de la Figura 3.8 es igual al 45,20%; claramente, el
segundo modelo explica una mayor proporción de la incertidumbre total en las ventas y, por
lo tanto, es un modelo mejor. Entonces, podemos usarR-cuadrado para comparar un modelo
con otro. Sin embargo, es necesaria cierta precaución:R-squared tiene la desagradable
propiedad de que nunca disminuirá, incluso si agregamos variables al modelo que son una
completa tontería. De hecho, podríamos haber agregado el peso del gerente de ventas de
cada región al modelo yR-¡Squared no habría disminuido! Por lo tanto, no debemos confiar
demasiado enR-cuadrado solo al comparar modelos. Una medida relacionada (una que
puedenaumentar y disminuir) se llama R cuadrado ajustado. EquilibradoR-squared penaliza el
modelo por la inclusión de variables sin sentido, por lo que podemos usarlo para comparar
modelos con diferentes variables. Echemos un vistazo a los dos modelos en las figuras.3,5 y
3.8. Para el primer modelo, el ajustadoR-cuadrado es igual a 0,2142, mientras que es igual a
0,4022 para el segundo. Así, dado que el ajustadoR-squared es mayor para el segundo
modelo, podemos concluir que proporciona una mejor representación de nuestros datos. En
otras palabras, ¡el segundo modelo gana!
Lecciones aprendidas:
• Estimamos modelos a partir de datos utilizando los conceptos de regresión por mínimos cuadrados;
mínimos cuadrados encuentra una línea de regresión que tiene la distancia promedio más corta a
todos los puntos de datos. En ese sentido, el modelo de regresión de mínimos cuadrados es óptimo
porque se ajusta mejor a los datos, al menos en promedio.
• Los coeficientes estimados (en particular, la intersección y la pendiente) de la línea de
regresión juegan un papel importante en la interpretación de un modelo de regresión.
Mientras que la intersección nos dice acerca de la magnitud de la respuesta en ausencia
de cualquier entrada, la pendiente nos dice qué tan rápido crece la respuesta para cada
unidad adicional de las variables de entrada.
• Podemos evaluar la calidad de un modelo de regresión utilizando el concepto deR
-cuadrado; R-cuadrado mide el porcentaje de la incertidumbre total en los datos
que se explica por la línea de regresión. Valores más altos deR-los cuadrados
denotan mejores modelos. De hecho, podemos comparar modelos entre sí
utilizando el concepto deR-cuadrado. Sin embargo, es necesario tener precaución
ya queR- el cuadrado no penaliza la inclusión de variables sin sentido y sin sentido.
Figura 3.10 muestra tres escenarios de datos hipotéticos, etiquetados como "A", "B"
y "C" En cada escenario, vemos un predictor (X), una respuesta (Y) y la nube de datos
asociada entre X y Y. ¿Cuál de estos tres escenarios corresponde a la relación más
fuerte entreX y Y?
La mayoría de ustedes probablemente responderá el “Escenario A”, pero ¿por qué? Tenga en
cuenta que la nube de datos es la misma en los tres escenarios, excepto por su rotación relativa aX
y Y. En otras palabras, mientras que la variación (o el "ruido") es idéntica en los tres escenarios, el
patrón (o la "señal") varía. El escenario A tiene la señal más fuerte (es decir, la tendencia más
pronunciada), mientras que la señal es más débil en el escenario C, que apenas muestra ninguna
tendencia. El escenario B tiene una tendencia discernible, pero no consideraríamos la relación
general como extraordinariamente fuerte porque hay una variación significativa (es decir, ruido) en
torno a esta tendencia. En otras palabras, la fuerza de la relación es capturada por la magnitud de
la señal.relativo al ruido, o al señal a ruido proporción.
Podemos medir la relación señal-ruido de la siguiente manera. La señal es equivalente a la
inclinación de la tendencia observable y, por lo tanto, viene dada por la pendiente del modelo
de regresión asociado. Recuerde que la pendiente corresponde a la "estimación" (o
"coeficiente") del modelo de regresión. En figura3.9, todas las pendientes se dan en la
segunda columna (marcadas como "Estimación"). Para cuantificar el ruido, la regresión
también proporciona una solución. La tercera columna de la figura3.9 proporciona los
"Errores estándar", que básicamente miden la variación alrededor de la pendiente o el ruido.
Por lo tanto, podemos calcular la relación señal-ruido para los pies cuadrados variables (SqFt)
como 52.994 / 5.734 = 9.242. En otras palabras, la señal de pies cuadrados es más de nueve
veces mayor que su ruido (para este conjunto de datos en particular). Intuitivamente, parece
que una relación señal-ruido de nueve o más debe ser muy
3.3 Identificación y selección de predictores importantes: inferencia estadística 59
bueno, y nuestra intuición resulta correcta. Sin embargo, para cuantificar exactamente qué tan
buena es realmente una relación señal / ruido en particular, necesitamos el concepto de
significancia estadística y lavalor p.
Diferentes variables dan como resultado diferentes relaciones señal / ruido. Por ejemplo, en la Figura
3.9, mientras que los pies cuadrados tienen una relación señal-ruido de más de nueve, la variable
"dormitorios" tiene una relación señal-ruido de menos de tres (4246.794 / 1597.911 =
2.6577). Esto implica que la relación entre los pies cuadrados y los precios de la vivienda es
más fuerte que la de los dormitorios y los precios de la vivienda. Sin embargo, ¿esto también
implica que, a todos los efectos prácticos, las habitaciones no son importantes para predecir
los precios de la vivienda? Para llegar a esta conclusión, necesitamos un valor de corte, uno
que determine qué relaciones señal-ruido dan como resultado relaciones importantes y
cuáles indican relaciones no importantes. Con ese fin, la estadística utiliza el concepto de
valores p. Apag-valor mide esencialmente la probabilidad de que, dada la información actual,
un predictor particular no tenga relación con la respuesta. losbajar el valor p (es decir, cuanto
menor sea esta probabilidad), la mayor la importancia estadística de este predictor. También
podemos pensar en unpag-valor desde el punto de vista de una relación señal-ruido: el pag
-valor mide la probabilidad de que, dado un conjunto particular de datos, la señal observada
podría haber ocurrido simplemente debido a la casualidad. Cuanto menor sea esta
probabilidad, más seguros tenemos de que la señal observada es "real".
Considere nuevamente el modelo de regresión en la Figura 3.9. lospag-se muestran los valores
en la última columna, marcada con Pr (> | t |). Podemos ver que elpag-el valor de los pies
cuadrados es extremadamente pequeño (menos de 1,1 ×10−15); por otro lado, elpag-El valor de las
habitaciones es significativamente mayor (0,008939). Normalmente, consideramos una variable
comoinsignificante (o estadísticamente sin importancia) si el asociado pag-valor es mayor que 0.05.
En ese sentido, tanto los pies cuadrados como los dormitorios son predictores significativos, pero
los pies cuadrados son estadísticamentemás importante que los dormitorios. Mirando más hacia
abajo en el modelo de regresión, podemos observar además que los baños y las ofertas también
son estadísticamente significativos. Sin embargo, el barrio norte es insignificante porque supag
-valor es muy grande (0.516215), mucho mayor que nuestro límite de 0.05. Entonces podemos
concluir que mientras la mayoría de las variables en la Figura3.9 son estadísticamente importantes,
algunos son más importantes que otros, como lo indican sus pag-valores. Además, la única
variable que esEstadísticamente insignificante es el vecindario norte; por lo tanto, podríamos
eliminar esa variable de nuestro modelo y potencialmente obtener un modelo mejor.
Hasta ahora, hemos aprendido cómo medir la señal que reside en un predictor en relación con su
ruido y, en última instancia, utilizar esa información para decidir si un predictor es o no
60 3 Modelado de datos I - Conceptos básicos
que es igual
($ 3,649.208, $ 12,117.35) (3,11)
En otras palabras, la prima adicional más pequeña posible debido a un baño adicional es
tan baja como $ 3,649.208, que es mucho más baja que nuestro valor deseado de $ 6,000; de
ahí que no deberíamos añadir el baño a nuestra casa.
En conclusión, hemos visto en esta sección que para tomar decisiones debemos tener
en cuenta tanto la señal como el ruido de un predictor. La señal viene dada por la
pendiente; el ruido se mide por el error estándar alrededor de la pendiente. Solo la señal
junto con el ruido ofrece una imagen completa de la utilidad de un predictor. La relación
señal-ruido nos permite cuantificar la utilidad estadística de un predictor; si llegamos a la
conclusión de que un predictor es insignificante, a menudo lo excluimos de nuestro
modelo. Sin embargo, la significación estadística no es necesariamente equivalente a la
importancia práctica. Podemos juzgar la importancia práctica por
sumando y restando el doble de ruido de la señal para obtener intervalos de confianza. Los
intervalos de confianza nos permiten juzgar la importancia práctica en presencia de
incertidumbre estadística.
Lecciones aprendidas:
Ahora discutimos un ejemplo completo para ilustrar las ideas principales de este capítulo.
Considere nuevamente los datos de marketing directo de la Sección 2.2. Recuerde que el
comercializador directo ha recopilado, entre otras cosas, información sobre el gasto de los clientes.
62 3 Modelado de datos I - Conceptos básicos
• Calidad del modelo: El modelo parece tener una calidad razonable, ya que R-El valor
al cuadrado (0,6584) es relativamente alto. De hecho, este valor sugiere que casi el
66% de la incertidumbre total en el gasto de los clientes se explica por el modelo
3.4 Caso de datos: comprensión de los patrones de gasto de los clientes mediante regresión básica 63
encima. En otras palabras, utilizando solo tres datos (salario, número de hijos y
número de catálogos), podemos capturar todo menos el 34% del comportamiento de
gasto de los clientes; esto parece ser bastante prometedor.
• Interpretando el coeficiente de salario: El salario tiene un coeficiente positivo. De hecho, la
pendiente del salario es igual a 0,02041 y es estadísticamente significativa. (Tenga en cuenta el
pequeñopag-valor). Esto implica que por cada dólar de salario adicional que gana un cliente,
gasta $ 0.02 (es decir, 2 centavos) con el vendedor directo. Esto respalda la corazonada del
especialista en marketing de que el salario es un factor importante en el gasto de los clientes.
También respalda la noción de que los clientes con salarios más altos son más lucrativos para el
comercializador. Pero, ¿todos los clientes gastan al mismo ritmo? No. De hecho, 0.02 es la
cantidad promedio que un cliente gasta por cada dólar de salario adicional. Algunos clientes
gastan a una tasa más alta, otros a una tasa más baja. Un intervalo de confianza del 95% para el
coeficiente de salario es
0.02041−2×0.0005929,0.02041 + 2×0.0005929
o
(0.0192242,0.0215958)
Esto implica que la tasa más baja a la que un cliente gasta su salario en dólares es
0.019, o 1.9 centavos por cada dólar ganado; la tasa de gasto más alta es 0.022, o
2,2 centavos por cada dólar ganado.
• Interpretando el coeficiente de los niños: El coeficiente para el número de hijos es
igual a -198,7. En primer lugar, observamos que este valor es negativo, lo que implica
que existe una relación negativa entre el número de hijos y la cantidad de dinero
gastado. En otras palabras, cuantos más hijos tenga un cliente, menos gastará con el
vendedor directo. Más precisamente, el valor del coeficiente es igual a 198,7, por lo
que por cada niño adicional, el cliente gastará $ 198,70menos con el comercializador
directo. O, dicho de otra manera una vez más, un cliente con tres hijos gastará $
397.40menos que un cliente con un solo hijo. Por tanto, una posible conclusión para
el vendedor directo sería centrar sus esfuerzos más en aquellos clientes con menos
hijos.
• Interpretación del coeficiente de catálogos: Tenga en cuenta que el coeficiente para el número
de catálogos es 47,70. Nuestra primera observación es que este valor es positivo, lo que implica
que el envío de catálogos tiene un impacto positivo en el resultado final. Esto es alentador para
el negocio del comercializador. ¿Pero exactamente qué tan efectivo es el envío de catálogos?
También notamos que elpag-el valor es muy pequeño (menor que 2 ∗ 10−16), por lo que los
catálogos son un predictor estadísticamente significativo. ¿Pero también es prácticamente
efectivo? Usando argumentos similares a los anteriores, podemos calcular un intervalo de
confianza del 95% como8
47,70-2×2.755,47.70 + 2×2.755
8De nuevo estamos usando el factor 2 en lugar del 1,96 más preciso en los cálculos a continuación.
64 3 Modelado de datos I - Conceptos básicos
o
(42.19,53.21)
¿Qué implica este intervalo de confianza? Implica que, por cada catálogo que enviamos, la
cantidad adicional que gasta un cliente está entre $ 42,19 y $ 53,21. En otras palabras,
siempre que nos aseguremos de que los costos de creación, impresión y envío del
catálogo sean inferiores a $ 42, ¡nuestro negocio es rentable!
Una advertencia más: el resultado anterior implica que, por cada catálogo adicional
que enviamos a un cliente, la cantidad que gasta es de al menos $ 42,19. Se puede
concluir apresuradamente de este hallazgo que deberíamos enviar cientos o miles de
catálogos a cada cliente para aumentar nuestras ganancias, ¡pero esa conclusión
probablemente sea errónea! Es bastante improbable que eltasa de retornopermanece
igual independientemente del número total de catálogos. En otras palabras, si bien el
hallazgo anterior puede ser cierto para cinco o diez catálogos, llevarlo a 100 o 1000
unidades puede ser engañoso. Esto también se conoce comoextrapolación (es decir, el
intento de realizar estimaciones fuera del rango de los datos reales). En realidad, la “ley de
los rendimientos decrecientes” a menudo entra en vigor, y es muy posible que el
rendimiento adicional de 101 catálogos enviados no sea mucho mayor que con 100
catálogos. De hecho, existe un peligro obvio de "sobrecargar" a su cliente con la misma
información una y otra vez, y 100 catálogos enviados pueden, de hecho, llevar a un
retorno menor en comparación con 10 o 20 catálogos.
• Interpretando la intersección: Observamos que la estimación de la intersección es
negativa(-442.8) - ¿qué significa esto? Estrictamente hablando, la intersección denota la
cantidad promedio de dinero gastado cuando todas las demás variables se establecen en
cero. En otras palabras, la intersección implica que, para un cliente con salario cero,
número cero de hijos y catálogos cero, ese cliente "gastará" - $ 442,80. Sin embargo, el
gasto negativo no tiene mucho sentido. De hecho, este es un ejemplo de una intersección
que no conlleva ninguna interpretación económica. Como regla general, las intersecciones
en un modelo de regresión no siempre se prestan a interpretaciones prácticamente
relevantes, y no debería sorprendernos demasiado si encontramos una intersección que
"no tiene sentido".
Ahora le hemos dado sentido a toda la información de la Figura 3.11. Con ese fin, nosotros
han respondido muchas de las preguntas de los especialistas en marketing. Hemos concluido que
el modelo es de calidad razonable y que proporciona evidencia del hecho de que el salario es el
principal impulsor del gasto de los clientes. De hecho, no solo hemos proporcionado evidencia de
esto, sino que también hemos cuantificado exactamente cuánto impulsa el gasto de los clientes
con cada dólar de salario. También evaluamos el efecto de la familia de un cliente (en particular, el
número de hijos) y descubrimos que tiene un impacto negativo en el gasto. Además, también
hemos utilizado el modelo de regresión para cuantificar el impacto de nuestro negocio principal
(envío de catálogos), lo que nos ayudará a medir la efectividad de nuestras estrategias comerciales.
Con todo, el modelo de regresión nos ha ayudado a responder a muchas preguntas diferentes
relacionadas con el negocio.
3.4 Caso de datos: comprensión de los patrones de gasto de los clientes mediante regresión básica sesenta y cinco
Lecciones aprendidas: