You are on page 1of 64

(4,-$'

&,*'-"5&

&2$"+"+/& !'"'+

'5DFU7H=7589@CGB9;C7=CG9GHU75A6=5B8C7585J9NAUG9ADF9G5G9GHUB57IAI@5B8C75BH=8589G
7585J9NA5MCF9G8985HCG 5@A579BUB8C@CG9B65G9G8985HCG7585J9NAUG;F5B89G /C8CG@CG
8W5G @5G7CAD5XW5GH9@9:YB=75GF97CD=@5BJ5F=CGH9F56MH9G8985HCGGC6F95EI=VB@@5A5ACG 7IUB8C
@CG@@5A5ACGM7IUBHCH=9ADC<56@5ACG7CB9@@CG 585J9NEI99G75B95ACGBI9GHFCH5F>9H589
:=89@=858!BIB5H=9B8589565FFCH9G DFCDCF7=CB5ACG=B:CFA57=YBJ5@=CG5GC6F9@CGDFC8I7HCGEI9
BCG;IGH5B 7IUB8C@CG7CBGIA=ACGM9@DF97=CEI99GH5ACG8=GDI9GHCG5D5;5FDCF9@@CG  9<97<C 
@5F97CD=@57=YB8985HCGG9<5JI9@HCD5FH=7I@5FA9BH9J5@=CG5D5F57CADF9B89F@5F9@57=YB9BHF9
DF97=CM89A5B85 'CG;F5B89GG=H=CG89GI65GH5G9B@WB95897CBGIA=8CF57CBGIA=8CF 7CAC
95MCI=8 DCG99B=BA9BGCG7C:F9G89@H9GCFC8985HCG89DF97=CGM89A5B855A98=85EI9
C6G9FJ5B@5JC@IBH5889D5;C89@5GD9FGCB5G9G897=F @5GC:9FH5G89@5GD9FGCB5G 5GW7CAC@5
C:9FH589DFC8I7HCG9G897=F  =BJ9BH5F=CG89GI65GH5G M89A5B859G897=F @5DFCDCF7=YB89
GI65GH5GEI9G9F95@=N5B 8=GD9FG5GH5BHC;9C;FU:=75A9BH99G897=F 9B8=:9F9BH9GA9F758CGM
B57=CB9G 7CACH9ADCF5@A9BH99G897=F 9B9BHCFBCGEI975A6=5B97CBYA=75C9GH57=CB5@A9BH9

%BH9FB9H9GIB@I;5FD5FH=7I@5FA9BH97CBJ9B=9BH9D5F5@5F97CD=@57=YB8985HCG7585J9NEI9
<579ACG7@=79BIB9B@579CJ=G=H5ACGIBBI9JCG=H=CK96 89>5ACGIB<I9@@58=;=H5@DCF9>9AD@C 9B
:CFA5897CC?=9GICHFCG8=GDCG=H=JCG89G9;I=A=9BHC @CEI9D9FA=H95@CG9GD97=5@=GH5G9B
A5F?9H=B;F9IB=FIB5=A5;9B7CAD@9H589BI9GHFC7CADCFH5A=9BHC89B5J9;57=YBM 9BZ@H=A5
=BGH5B7=5 BI9GHF5D9FGCB5@=858MDF9:9F9B7=5G897CADF5 .=6=9B9GH9H9GCFC89=B:CFA57=YB
D9FGCB5@<5;9B9F58C5@;IB5GDF9C7ID57=CB9GGC6F9@5DF=J57=85889@CG7CBGIA=8CF9G G9DI989
IH=@=N5F89:CFA5GEI9G95B69B9:=7=CG5GD5F5HC8CG9B@I;5F89GC@C89H9FA=B585GD9FGCB5GC
9ADF9G5G /CA9ACG9@9>9AD@C89@CGACHCF9G896ZGEI98589%BH9FB9H7CAC#CC;@9C45<CC 
#CC;@95B5@=N5@5=B:CFA57=YB89A=@@CB9G89G=H=CGK96=B8=J=8I5@9GM7YACJCH5BGC6F9@5IH=@=858
89@CG89AUG 'I9;C 7@5G=:=75B8C@5F9889F9@57=CB9G9BHF9A=@@CB9GMA=@@CB9G89G=H=CGK96 
89JI9@J9@CGF9GI@H58CGAUGF9@9J5BH9G7585J9NEI9

CBGI@H9CB@=B9 KG> 7CA5FH=7@9. <HA@

2 &5B? BU@=G=G89B9;C7=CGD5F5;9F9BH9G 0H=@=79-  *%       


P.DF=B;9F.7=9B79
IG=B9GG(98=5 ''
  %BHFC8I77=YB

6IG75F  9<97<C #CC;@9A=B5@CGA=@9G89A=@@CB9G896ZGEI985GEI9F97=69HC8CG@CG8W5G89IB5A5B9F5


H5B9:=7=9BH9EI9DI9895BH=7=D5F@CEI99GH5ACG6IG75B8C5BH9G899G7F=6=F@CM5A9BI8C7CFF=;9
5IHCAUH=75A9BH9BI9GHF5CFHC;F5:W5 'CGACHCF9G896ZGEI98589%BH9FB9HGCBIB9>9AD@CD5FH=7I@5FA9BH9
7CBJ=B79BH989@DC89F89@5=B:CFA57=YB7585J9NEI99BJ=5ACGIB56ZGEI9855#CC;@9 @97CBH5ACG
BI9GHFCGG97F9HCGAUGDF=J58CG  9<97<C DC89ACG897=F@9EI99GH5ACG6IG75B8CIBBI9JCHF565>CCEI9
9GH5ACG;F5J9A9BH99B:9FACGO#CC;@9@CG569=B7@IGC7I5B8CB58=9AUG9B9@AIB8C@CG569.=6=9B8=7<5
=B:CFA57=YBDI989G9FC6>9HC8956IGCG7I5B8CG97C@C759B@5GA5BCG9EI=JC7585G DI989;9B9F5F
69B9:=7=CGD5F5HC85@5GC7=9858 +CF9>9AD@C #CC;@99LHF596ZGEI985GF9@57=CB585G7CB@5;F=D9 M9G
75D5N895BH=7=D5F@CG6FCH9G5BH9GEI9@CGAVHC8CG7CBJ9B7=CB5@9G @CEI9DI9895MI85F5@CGF9GDCBG56@9G
89@5:CFAI@57=YB89DC@WH=75G9B9D=89A=C@C;W5C5H9B7=YB89@5G5@I85HCA5F897=G=CB9GAUGCDCFHIB5GM
DF97=G5G
'5A=B9FW58985HCG9GD5FH=7I@5FA9BH9=ADCFH5BH9D5F5@5G9ADF9G5GEI9GC@C
CD9F5B9B@WB957CACA5NCBC)9H:@=L '5F5NYB9GEI99GH5G9ADF9G5GBIB75G9
F9ZB9B7CBGIG7@=9BH9G9BD9FGCB5M DCF@CH5BHC BCH=9B9B@575D57=85889C6G9FJ5FGI
7CADCFH5A=9BHCCDF9;IBH5F@9G8=F97H5A9BH9GC6F9GIGB979G=8589G +CF@CH5BHC @5
75D57=85889898I7=F@5GDF9:9F9B7=5G89@CG7@=9BH9G5D5FH=F89GI7CADCFH5A=9BHC89
B5J9;57=YB9G7@5J9D5F5@CGA=BCF=GH5G9B@WB95  9<97<C A5NCB5B5@=N5
7I=858CG5A9BH9@5GHF5BG577=CB9GD5G585G89IBIGI5F=C>IBHC7CB@5GHF5BG577=CB9G89
CHFCGIGI5F=CG D5F5<579FF97CA9B857=CB9GGC6F9BI9JCGDFC8I7HCG +CF9>9AD@C 
DI989F97CA9B85FBCGIB@=6FCBI9JC65G58C9BCHFCG@=6FCGEI9<9ACG7CADF58C9B
9@D5G58C CIB5779GCF=C89DFC8I7HC65G58C9B@CG5779GCF=CGEI9CHFCG7@=9BH9G<5B
7CADF58C .=9GH5GF97CA9B857=CB9G7C=B7=89B7CB@5GDF9:9F9B7=5GMB979G=8589G89
IBIGI5F=C ACHCF9G89F97CA9B857=YB G9<5B7CBJ9FH=8C9B9@.5BHC#F=5@D5F5
AI7<CGA=BCF=GH5G89%BH9FB9H !@=BA9BGCJ5@CF89@CGACHCF9G89F97CA9B857=YBG9
DI989J9FD5FH=7I@5FA9BH99B9@9>9AD@C89)9H:@=L EI9D5;YA=@@YB898Y@5F9G5IB
9EI=DC897=9BHW:=7CGEI9A9>CFYGIACHCF89F97CA9B857=YB=BH9FBC9BIB 

'5F97CD=@57=YBM9@5BU@=G=G8985HCGBCGC@C9G=ADCFH5BH99B%BH9FB9H 9G=;I5@A9BH9=ADCFH5BH9
D5F5@5G9ADF9G5GAUGHF58=7=CB5@9GDCF9>9AD@C HF58=7=CB5@9G /CA9ACG9@9>9AD@C89@5=B8IGHF=5
89H5F>9H5G897FV8=HCICHF5G=B8IGHF=5GEI9CHCF;5B7FV8=HC 7CAC<=DCH975GM65B75C@5=B8IGHF=5
89G9;IFCG 'CG9A=GCF9G89H5F>9H5G897FV8=HC5A9BI8C9LD9F=A9BH5BG9@977=YB58J9FG59B9@
G9BH=8C89EI9@CG7CBGIA=8CF9GEI989G95BGIGDFC8I7HCG7CBA5MCF9BHIG=5GACGI9@9BG9F@CG
EI9H5A6=VB7CFF9B9@A5MCFF=9G;C  9<97<C @5F5NYBDCF@5EI9IB5D9FGCB59GHU89G9GD9F585
DCFC6H9B9FIB5BI9J5H5F>9H5897FV8=HCDI989G9FEI9H=9B9IBDIBH5>97F98=H=7=C9LHF9A585A9BH9
A5@CMB=B;IB5CHF57CAD5XW59GHU8=GDI9GH559A=H=F@9IB5H5F>9H5897FV8=HC +CFCHFC@58C 9GDC7C
DFC656@9EI9@5GD9FGCB5GEI9M5DCG99B8CGCHF9GH5F>9H5G897FV8=HCMEI9H=9B9BIBDIBH5>989
7FV8=HC9GH9@5F F9GDCB85B5IB5BI9J5C:9FH589H5F>9H5G897FV8=HC !BHCB79G REI9F9ACG59G5
D9FGCB5EI9F9GDCB895BI9GHF5C:9FH589IB5A5B9F565GH5BH95BG=CG5M89G9GD9F5857CAC
BI9GHFCBI9JC7@=9BH9SGH59G9L57H5A9BH9@5G=HI57=YB5@5EI95D=H5@*B99B:F9BHYJ5F=CG

19F<HHDKKK ;CC;@9 CF;:@IHF9B8G 19F<HHD

9B K=?=D98=5 CF;K=?=-97CAA9B89FGMGH9A 19F<HHD


KKK B9H:@=LDF=N9 7CA 19F<HHD9B K=?=D98=5 CF;K=?=
.9@977=YB58J9FG5
 *6>9H=JC899GH9@=6FC 

<5795XCG7I5B8C=B;F9GY5@A9F758C89H5F>9H5G897FV8=HC CAC9ADF9G5BI9J5 EI9FW5


;5B5F7ICH589A9F758CFUD=85A9BH9 .=B9A65F;C H5A6=VB9L=GHW59@D9@=;FC89EI95EI9@@CG
7@=9BH9GEI99GH565B8=GDI9GHCG575A6=5FAUGFUD=85A9BH9:I9F5BH5A6=VB@CGAUG
F=9G;CGCG +5F5F9GDCB89F59GHCG89G5:WCG 5D=H5@*B97F9YIBBI9JC9=BBCJ58CF 9B9G9
ACA9BHC 9GHF5H9;=565G5859B=B:CFA57=YB9B9@EI9@@9J5FCB5756CA=@9G899LD9F=A9BHCG
89@56CF5HCF=CD5F57CADF9B89FA9>CFEIV75F57H9FWGH=75G8=GH=B;I9B5@CG6I9BCG7@=9BH9G89
@CGA5@CG 89AUG H5A6=VB5B5@=N5FCB7I=858CG5A9BH99@7CADCFH5A=9BHC89@CG7@=9BH9G 
7CAC@5:CFA59BEI9IB7@=9BH9F9GDCB8=Y5IB5C:9FH589H5F>9H5897FV8=HC +CF9>9AD@C IB
7@=9BH9EI9F9GDCB8=9F5DCFH9@V:CBCG9A5F75FW57CACIBDC7CAUGF=9G;CGCEI9IBCEI9
F97CD=@YIB5F9GDI9GH5DCF9G7F=HC9BJ=585DCF7CFF9CDCGH5@
'5G5D@=757=CB9G9L=HCG5G89@5HCA589897=G=CB9G65G5859B85HCG9B@5G9ADF9G5GGCB
56IB85BH9GM5IA9BH5B58=5F=C $5FF5<G5G=BCGIH=@=N55BU@=G=G8985HCGBCGC@CD5F5F9;=GHF5F@5G
57H=J=8589GD5G585G89GIG7@=9BH9G G=BC9GD97=5@A9BH9D5F5DF9897=F9@7CADCFH5A=9BHC:IHIFC  9
<97<C $5FF5<GDI989DF9897=F@5DCH9B7=5@J5@CFB9HC9G897=F 7IUBHC8=B9FC9GH5FW5B5DCGH5B8C
DCFJ=G=H5M7CBEIV:F97I9B7=5J=G=H5FW5B8IF5BH9GIJ=85 65G58C9BHV7B=75G89A=B9FW58985HCG 
CB9G95BU@=G=G89D5HF=ACB=CB9HC 7F95BA9BG5>9GDI6@=7=H5F=CGD9FGCB5@=N58CGMD5EI9H9G89
C:9FH5G9GD97=5@9GD5F575857@=9BH9 '5A=B9FW58985HCGH5A6=VBDI9895MI85F55DFCJ97<5F9@
DI@GC89@5B57=YBC89@7CBGIA=8CF @5B5@=N5F@CGG9BH=A=9BHCGDCF9>9AD@C CD=B=CB9GDCG=H=J5G
:F9BH95B9;5H=J5G 9BA=@9G896@C;G @5G9ADF9G5GDI989BC6H9B9F=B:CFA57=YB9BH=9ADCF95@
GC6F9GI=A5;9B89A5F75 !GHCDC8FW5G9FD5FH=7I@5FA9BH9=ADCFH5BH97I5B8C@CGDFC8I7HCG
9B:F9BH5BDFC6@9A5GD !> -9H=F585G895IHCAYJ=@9G CD5F5=89BH=:=75FBI9J5GCDCFHIB=8589G89
DFC8I7HCGD !> +9@W7I@5GD5F58CFA=F9B@5H5EI=@@5
'5@=GH589<=GHCF=5G9L=HCG5G89A=B9FW58985HCG7CBH=BZ5 0GCG89//
5BU@=G=G89F989GGC7=5@9G9G897=F 9LHF59F@CG9B@579GMBC8CG89IB5F98 
D5F5=89BH=:=75F9@:F5I899BGIF98H9@9:YB=75 '589H977=YB89:F5I89
5IHCA5H=N585M65G5859B85HCGH5A6=VB9GDCDI@5F9BHF9@5G9ADF9G5G89
H5F>9H5G897FV8=HC7CAC1=G5M(5GH9F75F8 '5G;F5B89G9ADF9G5G89
7CBH56=@=8587CAC+F=7925H9F<CIG9 89G5FFC@@5BAVHC8CG65G58CG9B85HCG
D5F589G7I6F=F=B7CBG=GH9B7=5G9B@CG9GH58CG7CBH56@9G *HF5G9ADF9G5G
7CAC%( IH=@=N5B85HCG=BH9FBCGM9LH9FBCGD5F5DF9897=F@56=@@9H9F589IB
7@=9BH99G897=F GIDCH9B7=5@D5F57CADF5FG9FJ=7=CG58=7=CB5@9G 4@5@=GH5
7CBH=BZ5 (UG9>9AD@CG7IF=CGCG=B7@IM9B@5;9GH=YB89F97IFGCG<IA5BCG9B
9EI=DCG89DCFH=JCG9L=HCGCG +CF9>9AD@C H5BHC@CGCGHCB-98.CL6V=G6C@ 
7CAC@CG)9K!B;@5B8+5HF=CHG:ZH6C@ GCB:5ACGCGDCFIH=@=N5F9@5BU@=G=G89
85HCGD5F5HCA5F897=G=CB9GGC6F9@57CADCG=7=YB89GIG9EI=DCG

# ,".'  +, $"*'

!@H9A57CAZB9BHC8CG9GHCG75GCGM9>9AD@CGA9B7=CB58CG5BH9F=CFA9BH99GEI9G965G5B
9B@5F97CD=@57=YBM9@5BU@=G=G8985HCGD5F5HCA5FA9>CF9G897=G=CB9G7CA9F7=5@9G +CF@C
H5BHC 9@C6>9H=JC899GH9@=6FC9GHF5BGA=H=F9@J5@CF89@55B5@WH=7565G5859B85HCG

19F DCF9>9AD@C <HHDKKK 6@C;DI@G9 7CA


  %BHFC8I77=YB

5;9F9BH9GM9GHI8=5BH9G89B9;C7=CG !GH9@=6FC9GAIMDFU7H=7CM9GHUCF=9BH58C5@5DFU7H=75 
9<97<C G=6=9B<5MAI7<CG@=6FCGGC6F99@H9A589@59GH58WGH=75M@5A=B9FW58985HCG GC@C
IBCGDC7CG9GHUB9G7F=HCG89A5B9F55779G=6@9D5F5@CG;9F9BH9G (I7<CG@=6FCGG9D=9F89B9B
89H5@@9GA5H9AUH=7CGM5@;CFWHA=7CG9B@I;5F8979BHF5FG99B9@D5D9@89@5A=B9FW58985HCG
D5F5F9GC@J9FDFC6@9A5G7CA9F7=5@9GF95@9G !GH9@=6FC58CDH5FUIB9B:CEI9AIMDF5;AUH=7C 
CA9BN5B8C7CBDFC6@9A5GF95@9G89HCA589897=G=CB9G 9GH9@=6FCACH=J5FU@5B979G=85889
85HCGMGC@I7=CB9G65G585G9B85HCGA98=5BH99@IGC8985HCGF95@9G899G79B5F=CG
7CA9F7=5@9GF95@9G D5FH=F89@CGDF=B7=D=CG6UG=7CG 9@@97HCF5DF9B89FUGC6F9@5=ADCFH5B7=5
89@59LD@CF57=YBMJ=GI5@=N57=YB8985HCGM7CADF9B89FU@CG8=:9F9BH9GAVHC8CGD5F59@
AC89@58C8985HCG .9<5FU<=B75D=V9B7CADF9B89F7IUB8CIH=@=N5FEIVAVHC8C
!GH9@=6FCH5A6=VBD9FA=H=FU5@CG;9F9BH9G=BH9F57HI5FA9>CF7CB9@D9FGCB5@9GD97=5@=N58C9B
5BU@=G=G  9<97<C 9@C6>9H=JC899GH9@=6FC9GBCD5F575D57=H5F5BI9JCG9GH58WGH=7CGMA=B9FCG89
85HCG<5MAI7<CGCHFCG@=6FCGEI9@C;F5FUB9GH9C6>9H=JC !@C6>9H=JC9G9LDCB9F5@CG;9F9BH9GM
HCA58CF9G89897=G=CB9G5@5G=895GM7CB79DHCG7@5J989@5HCA589897=G=CB9G65G5859B85HCG !B
9G9G9BH=8C 9@C6>9H=JCBC9GG9F9L<5IGH=JC9BHC8CG@CG89H5@@9G89@5A=B9FW58985HCGM@5G
9GH58WGH=75G G=BCACH=J5F@5B979G=85889IB5HCA589897=G=CB9G65G5859B85HCGMDFCDCF7=CB5F5
@CG;9F9BH9G@CG5BH97989BH9GM9@JC756I@5F=CB979G5F=CGD5F5@C;F5F7CBVL=HC=BH9F57HI5F7CB
D9FGCB5@9GD97=5@=N58C75D57=H58C9BA=B9FW58985HCGC9GH58WGH=75

1-"3&  *4$ * +, $"*'

!GH9@=6FC9GHU8=F=;=8C59GHI8=5BH9GM;9F9BH9G89B9;C7=CGEI96IG75BC6H9B9FIB5]J9BH5>5^7CAD9H=H=J55HF5JVG89@55B5@WH=75 CB9@

5IA9BHC89@DC89F897CADIH57=YB899G7F=HCF=CM@5G9ADF9G5GEI957IAI@5B75BH=8589GA5G=J5G8985HCG @5G897=G=CB9G7CA9F7=5@9GG9

65G5B7585J9NAUG9B85HCG !GHCG95D@=755AI7<CGG97HCF9G D9FC9BD5FH=7I@5F5@565B75 @CGG9;IFCG @5G=BJ9FG=CB9G 9@7CA9F7=C

A=BCF=GH5 9@7CA9F7=C9@97HFYB=7C @5DI6@=7=858M9@A5F?9H=B;8=F97HC  96=8C59GH9BI9JC9B:CEI989B9;C7=CG @5G9ADF9G5GB979G=H5B

D9FGCB5G7CBIBBI9JC7CB>IBHC89<56=@=8589G7CADIH57=CB5@9G /5A6=VB9L=GH9IB5BC7=YB7585J9NA5MCF89EI9 D5F5A5BH9B9F@5

7CAD9H=H=J=858 @CG;9F9BH9G8969BG9FF99EI=D58CG7CB<56=@=8589G5B5@WH=75GD9F8=85G<579AI7<CH=9ADC  9<97<C 5A9BI8C9L=GH9IB5

89G7CB9L=YB9BHF9@5GD9FGCB5GEI99>97IH5B5BU@=G=G7CAC9GH58WGH=7CG A=B9FCG8985HCG 9=B:CFAUH=7CG M;9GH=YBEI9DI989BH9B9F

9LD9F=9B7=59BA5F?9H=B;C:=B5BN5GD9FCDC75:CFA57=YBHV7B=75 !GH589G7CB9L=YB5A9BI8CG989695@<97<C89EI9@CG8CG;FIDCGBC

<56@5B9@A=GAC=8=CA5 (=9BHF5GEI9@5;9BH9HV7B=75<56@59BHVFA=BCG895@;CF=HACGM6MH9G @5;9BH989B9;C7=CGD=9BG59B=BJ9FG=CB9G

MF9HCFBCG 0BC89@CGC6>9H=JCG899GH9@=6FC9GDFCDCF7=CB5F5@558A=B=GHF57=YBIB5A9>CF5DF97=57=YB89@J5@CF89@55B5@WH=758985HCG @

<579F@C H5A6=VBDFCDCF7=CB5FUIB5D@5H5:CFA5D5F5IB@9B;I5>97CB>IBHC9B9@G9BH=8C89EI9:57=@=H5FUEI9@558A=B=GHF57=YB5DF97=9M

7CADF9B85@CG9G:I9FNCG5B5@WH=7CG @5;9BH989B9;C7=CGD=9BG59B=BJ9FG=CB9GMF9HCFBCG 0BC89@CGC6>9H=JCG899GH9@=6FC9GDFCDCF7=CB5F

5@558A=B=GHF57=YBIB5A9>CF5DF97=57=YB89@J5@CF89@55B5@WH=758985HCG @<579F@C H5A6=VBDFCDCF7=CB5FUIB5D@5H5:CFA5D5F5IB

@9B;I5>97CB>IBHC9B9@G9BH=8C89EI9:57=@=H5FUEI9@558A=B=GHF57=YB5DF97=9M7CADF9B85@CG9G:I9FNCG5B5@WH=7CG @5;9BH989B9;C7=CG

D=9BG59B=BJ9FG=CB9GMF9HCFBCG 0BC89@CGC6>9H=JCG899GH9@=6FC9GDFCDCF7=CB5F5@558A=B=GHF57=YBIB5A9>CF5DF97=57=YB89@J5@CF89@5

5B5@WH=758985HCG @<579F@C H5A6=VBDFCDCF7=CB5FUIB5D@5H5:CFA5D5F5IB@9B;I5>97CB>IBHC9B9@G9BH=8C89EI9:57=@=H5FUEI9@5

58A=B=GHF57=YB5DF97=9M7CADF9B85@CG9G:I9FNCG5B5@WH=7CG
  R,IV9G9GH9@=6FC!G 

 -3 + +, $"*''

 +, &' +-&$"*'  +,4+,"+

'5A5MCFW589@CG@=6FCG899GH58WGH=75DCB9B@5GA5H9AUH=75GM@5G:YFAI@5GA5H9AUH=75G9BGI
79BHFC !GH9@=6FC9GHU89@=69F585A9BH9@=AD=C89A5H9AUH=75GM:YFAI@5G !GHCBCEI=9F9897=FEI9
@5GA5H9AUH=75GBCG95B=ADCFH5BH9GDCF9@7CBHF5F=C @5GA5H9AUH=75G>I9;5BIBD5D9@=ADCFH5BH9
9B9@89G5FFC@@C89AC89@CGMAVHC8CG9GH58WGH=7CG .=B9A65F;C 9GH9@=6FCBCG979BHF59B9@
89G5FFC@@C89AVHC8CG9GH58WGH=7CG G=BC9B@5GC@=7=HI889@D9BG5A=9BHC9GH58WGH=7C5@CGDFC6@9A5G
9ADF9G5F=5@9G 5GUB8CBCG9BBI9GHF5DFCD=59LD9F=9B7=58C79BH9 89A5G=58CG89H5@@9G
A5H9AUH=7CG5A9BI8C7CB:IB89BM5J979G=B7@IGC5GIGH5B 5@IGI5F=C=B9LD9FHCMBCJ5HC89
AVHC8CG9GH58WGH=7CG +CF@CH5BHC 9@C6>9H=JC899GH9@=6FC9G9LD@=75F@CG7CB79DHCG9GH58WGH=7CG
DF=B7=D5@A9BH99BIB@9B;I5>9G9B7=@@C 56GH9B=VB8CG989@IGC89GWA6C@CGM97I57=CB9G
A5H9AUH=7CGH5BHC7CACG95DCG=6@9 .CACG7CBG7=9BH9G89EI99GH99B:CEI95J979GDI989
7CB8I7=F5897@5F57=CB9GM9LD@=757=CB9GEI9GCB@=;9F5A9BH9=ADF97=G5G5@A9BCG9BIBG9BH=8C
A5H9AUH=7C D9FCBI9GHFCC6>9H=JCDF=B7=D5@9G75D57=H5F5@CG@W89F9GM;9F9BH9G89B9;C7=CGD5F5
EI95DF97=9B@5G9GH58WGH=75GM58CDH9B@CG<5@@5N;CG89@5G897=G=CB9G65G585G9B85HCG <57=9B8C9B
GIDFCD=C=8=CA5 +CF@CH5BHC IBHF5H5A=9BHC89@55B5@WH=759BIB@9B;I5>9G9B7=@@C9G9G9B7=5@

+, &' +-&$"*' %"& *4 ,'+

!GH9H5ADC7C9GIB@=6FC89A=B9FW58985HCGHF58=7=CB5@ '5A5MCFW589@CG@=6FCG89A=B9FW5
8985HCGG99B:C75B9B9@9LD9FHC75D57=H58CM5G959B7=9B7=5G89@57CADIH57=YB 9GH58WGH=75
CA5H9AUH=75G M 7CACH5@ 9B:5H=N5B@CG5@;CF=HACGMAVHC8CGDCF9B7=A589@5=BHI=7=YBM9@
7CBC7=A=9BHC9ADF9G5F=5@ '5A5MCFW589@CG@=6FCG89A=B9FW58985HCGH5A6=VB7I6F9BIB5
5AD@=5;5A5895@;CF=HACG89A=B9FW58985HCG 7CACF989GB9IFCB5@9G UF6C@9GCAUEI=B5G
89J97HCF9G89GCDCFH9 !@9B:CEI9899GH9@=6FCBC9GHUH5BHC9B@CGAI7<CG5@;CF=HACG
8=:9F9BH9GEI99GHUB8=GDCB=6@9GAI7<CG899@@CG56CF85BDFC6@9A5GG=A=@5F9G 7CAC@5
7@5G=:=757=YBC@5DF98=77=YB G=BCAUG6=9B9B@5G8=:9F9B7=5G9B@CG85HCGM9G79B5F=CG
7CA9F7=5@9GEI9F9EI=9F9B8=:9F9BH9GH=DCG899B:CEI9G9=895G5B5@WH=7CG  CACH5@ 9GH9
@=6FCBCDFCDCF7=CB5FU@5A=GA55AD@=HI8897C69FHIF5898=:9F9BH9G5@;CF=HACGEI9@CG@=6FCG
HF58=7=CB5@9G89A=B9FW58985HCG !B@I;5F89

-3 + +, $"*'+

!BHCB79G REIV9G9GH9@=6FCI9BC DFC656@9A9BH9@5A9>CFF9GDI9GH59GEI9J=GI5@=N5ACG9GH9


@=6FC7CACIBF97IFGCJ5@=CGCD5F5@CG9GHI8=5BH9GM;9F9BH9G89B9;C7=CGEI9BCH=9B9BAI7<5
9LD9F=9B7=59B9GH58WGH=75CA5H9AUH=75G D9FCEI989G95BC6H9B9FIB5A9>CF7CADF9BG=YB
  %BHFC8I77=YB

5DF97=57=YB89@CG85HCGM@5HCA589897=G=CB9G65G5859B85HCG !GH9@=6FCG9
79BHF5AI7<C9B@5=BHI=7=YBM9@7CBC7=A=9BHC B5@=N5AI7<CG9G79B5F=CG89
85HCG8=:9F9BH9GM7I9GH=CB9G7CA9F7=5@9GF9@57=CB585GEI9DI989BGIF;=F 'I9;C 
=@IGHF58=:9F9BH9G:CFA5G899LHF59FBI9JCG7CBC7=A=9BHCG7CA9F7=5@9G5D5FH=F89
9GHCG85HCG !@VB:5G=G9GHU9BIG5FIB=B;@VGG=AD@9MHF5BGA=H=F7CB79DHCG
A5H9AUH=7CG5A9BI8C7CAD@9>CG9BHVFA=BCGG9B7=@@CG +F9J9ACGEI99GH9@=6FC
DC8FW5IG5FG99BIBDF=A9F7IFGCGC6F95BU@=G=G89B9;C7=CGD5F59GHI8=5BH9G89
(C9BDFC;F5A5G8998I757=YB9>97IH=J5 !GH9@=6FCBC9G9L<5IGH=JC9B9@
G9BH=8C89EI9BC7I6F9HC8C@CEI9<5MEI9G569F7I5B8CG9HF5H589A=B9FW589
85HCGD5F59ADF9G5G F99ACGEI97CBC79F758589H5@@9BCDI989G9F9@C6>9H=JC
89IB;9F9BH9 (UG6=9B BI9GHFCC6>9H=JC9G7CAIB=75F7CB79DHCG899GH58WGH=75M
A=B9FW58985HCG9BIB@9B;I5>9BC5A9B5N5BH9

 +,*-,-*  +, $"*'

'59GHFI7HIF5899GH9@=6FC9G@5G=;I=9BH9 !B9@5DWHI@C DF9G9BH5ACG@59LD@CF57=YB8985HCG +CF


9LD@CF57=YB8985HCGBCGF9:9F=ACG5:CFA5GBIAVF=75GM;FU:=75G897CADF9B89F@CG85HCG '5
9LD@CF57=YB8985HCG9GDFC656@9A9BH99@D5GCAUG=ADCFH5BH9897I5@EI=9F5BU@=G=G8985HCGG=B
9A65F;C H5A6=VB9G9@A9BCG5DF97=58CM9@AUG89G7I=858C '5F5NYB9GEI9 7CB@58=GDCB=6=@=858
89DCH9BH9G5@;CF=HACG=BH9;F58CG9BGC:HK5F9:U7=@89IG5F @5A5MCFW589@CGIGI5F=CGG9@5BN5FUB
8=F97H5A9BH95@57CBGHFI77=YB89AC89@CGMAVHC8CG7CAD@9>CGG=B@@9;5F57CADF9B89F7@5F5A9BH9
GIG85HCG  98=75F9ACG65GH5BH9H=9ADC55B5@=N5FIB55AD@=5;5A5899LD@CF57=CB9G8985HCG9B9@
5DWHI@C '5F5NYB9GEI9@CG85HCGDI989BG9FAIM7CAD@9>CG89<97<C 9GDFC656@9EI9BI9GHFCG
85HCGG95BAUG7CAD@9>CGM7CAD@=758CG89@CEI97F9W5ACG=B=7=5@A9BH9  9G9B7589B5FDC89FCGCG
5@;CF=HACGMAVHC8CGGC6F9H5@9G85HCGDI989H9B9FF9GI@H58CGD9F>I8=7=5@9G EI9J5B89G89
DF98=77=CB9G=B9L57H5G<5GH5@5:5@H589G=;B=:=758CHCH5@89BI9GHFCGF9GI@H58CG +CF@CH5BHC 
89:9B89ACGEI9@CG85HCG8969B9LD@CF5FG9DF=A9FC89IB5A5B9F5AIM7I=858CG5  9<97<C BCG
;IGH5D9BG5F9B9@D5GC899LD@CF57=YB8985HCG7CAC]6I795F^9BBI9GHFCG85HCG9=BJ9GH=;5F@CG
89G89589BHFC<57=55:I9F5 .C@C7I5B8CDC85ACG9GH5FG9;IFCG89EI97CADF9B89ACG758589H5@@9
89BI9GHFCG85HCGD5HFCB9G H9B89B7=5G C6G9FJ57=CB9G=BIGI5@9GMJ5@CF9G5HWD=7CG DC8F9ACG
5D@=75FAC89@CGMAVHC8CG7CBHF5BEI=@=858

'CG75DWHI@CGG=;I=9BH9G7I6F9B8=:9F9BH9G5GD97HCG89@AC89@58C8985HCG CA9BN5ACG9B9@
5DWHI@CDF9G9BH5B8C=895G6UG=75G89AC89@58C +CF6UG=7CBCGF9:9F=ACG5F9GDI9GH5G5
DF9;IBH5G:IB85A9BH5@9G7CACR,IV9GIBAC89@CMR+CFEIVB979G=H5ACGAC89@CG/5A6=VB
DF9G9BH5ACG9@7CB79DHCAUG6UG=7C899GH=A5FIBAC89@C5D5FH=F8985HCGA98=5BH9F9;F9G=YB89
AWB=ACG7I58F58CG  =G7IH=ACG@5=BH9FDF9H57=YBM9J5@I57=YB89@AC89@CM8=GH=B;I=ACG@5
G=;B=:=757=YB9GH58WGH=7589@CGF9GI@H58CG89@5F9@9J5B7=5DFU7H=75
!B9@5DWHI@C DF9G9BH5ACG5@;IB5G=895G7@5J9D5F5<579FEI9@CGAC89@CGG95BAUG:@9L=6@9G 
)I9GHFCAC89@C=B=7=5@6UG=7C DI989BCG9F@CGI:=7=9BH9A9BH9:@9L=6@9DCFEI95GIA9]@=B95@=858^5GIA9
EI99@7F97=A=9BHCC897589B7=5 C7IFF95IB5H5G57CBGH5BH9EI9BIB7575A6=5 @5F5A9BH9 9GHCDI989BC
G9F5DFCD=58C9BHC8CG@CG9G79B5F=CG7CA9F7=5@9GDC89ACG9GH5F8=GDI9GHCG57F99F
 0GC899GH9@=6FC9BIB7IFGC 

EI9@5GJ9BH5G7F979B5A98=85EI95IA9BH5ACGBI9GHFCG9G:I9FNCG89A5F?9H=B; D9FCR7F979FUB@5G
J9BH5G5@A=GACF=HACG=B=ADCFH5F7IUBHC8=B9FC;5GH9ACG9BA5F?9H=B;R+C8FW5G9FEI9@@9;5ACG5IB
DIBHC89G5HIF57=YBCIBDIBHC89F9B8=A=9BHCG897F97=9BH9G 5D5FH=F89@7I5@@CG;5GHCG58=7=CB5@9G9B
A5F?9H=B;;9B9F5FUBIB=B7F9A9BHCA9BCF9B@5GJ9BH5G.=9G5GW 9BHCB79G8969FW5ACGDF9C7ID5FBCGDCF
<579FEI9BI9GHFCAC89@CG95@CGI:=7=9BH9A9BH9:@9L=6@9 M@CG89H5@@9GDF97=GCGG9HF5H5B9B9@5DWHI@C

!B9@5DWHI@C 7I6F=ACGCHFC5GD97HC=ADCFH5BH989@57CBGHFI77=YB89AC89@CG<579F
AC89@CGG9@97H=JCG !@IGI5F=CBCJ5HC899GH58WGH=75GM<9FF5A=9BH5G89A=B9FW58985HCG5
A9BI8CG99BHIG=5GA589A5G=58C7CB9@DC89F89@CG85HCGMDFCBHCD=9BG5EI9AUG9G
A9>CF 'CEI9EI9F9ACG897=F7CB9GC9GEI9@CGIGI5F=CGG=B9LD9F=9B7=55A9BI8CH=9B9B@5
D9F79D7=YB89EI97I5BHCGAUG85HCG5FFC>5ACG5BI9GHFCAC89@C A9>CFG9FU9@F9GI@H58C 
.=6=9B9G7=9FH5A9BH9=ADCFH5BH9H9B9F85HCG]GI:=7=9BH9G^ IG5F89A5G=585=B:CFA57=YB
DI989F9GI@H5F9BF9GI@H58CG=B:9F=CF9G +CF9>9AD@C G=6=9BDC89ACGD9BG5FEI99@IGC89@5G
75F57H9FWGH=75G5;F9;585G89@CG<C;5F9G589AUG89@CG;5GHCG89A5F?9H=B;85FU7CAC
F9GI@H58CIBA9>CFAC89@C89DFCBYGH=7CD5F5@5GJ9BH5G 9GHCBC9GIB57CB7@IG=YB
5IHCAUH=75 7CACIB5:IB7=YB89@5G75F57H9FWGH=75G89@<C;5F+CF9>9AD@C REIVD5G5FW5G=
<I6=VF5ACG897=8=8C5G=;B5FAUGF97IFGCG89A5F?9H=B;9B7Y8=;CGDCGH5@9G7CB=B;F9GCG
:5A=@=5F9GA98=CGAUG5@HCGR'CG=B;F9GCG89@<C;5F5ZB5;F9;5FW5BJ5@CFD5F5AC89@5F@5G
J9BH5GRCBH9B8FW5AI7<5=B:CFA57=YB58=7=CB5@AUG5@@U89@5=B:CFA57=YBEI9M5F9G=899B
@CG;5GHCG89A5F?9H=B;'5F9GDI9GH59GBC  58CEI9@5G75F57H9FWGH=75G89@CG<C;5F9G
9GH5FW5B:I9FH9A9BH97CFF9@57=CB585G7CB@CG;5GHCG89A5F?9H=B; BCH9B8FW5AI7<CG9BH=8C
=B7@I=F5A6CG9B9@A=GACAC89@C5@A9BCG9B9GH99>9AD@C<=DCHVH=7C !B9@5DWHI@C 
8=G7IH=F9ACG8=:9F9BH9G9B:CEI9GD5F5G9@977=CB5F=B:CFA57=YB6I9B5CZH=@ M89G75FH5F@5
=B:CFA57=YBA5@5CA9BCGZH=@
!B9@5DWHI@C 8=G7IH=F9ACG5@;IB5G=895G58=7=CB5@9G5@5GEI9BCGF9:9F=F9ACG
7CAC]5>IGH9:=BC^89BI9GHFCAC89@C $5MAI7<CG9B:CEI9G8=:9F9BH9GD5F55>IGH5F9@
AC89@C89IBC MHC8CG@CG8W5GG9=BJ9BH5BBI9JCG9B:CEI9G9B@5@=H9F5HIF55758VA=75
899GH58WGH=75MA=B9FW58985HCG !B@CEI9BCG79BHF5F9ACG9B9GH975DWHI@CGCB
5@;IBCG9B:CEI9G9GH56@97=8CGEI95MI85FUB5GID9F5F5@;IB5G89@5G89:=7=9B7=5G
D9FG=GH9BH9G89@CG75DWHI@CG5BH9F=CF9G !GH5G89:=7=9B7=5GGCB5 @58=:9F9B7=59BHF99@
DC89F9LD@=75H=JCM@575D57=858DF98=7H=J589IBAC89@CM6 @575D57=858D5F575DHIF5F
7I5@EI=9FH=DC89F9@57=YB7CAD@9>5


+'  +, $"*' &-&-*+'

.=6=9B9GH9@=6FCG9DI989IH=@=N5F7CACA5H9F=5@89@97HIF5=B89D9B8=9BH9 <9ACG9BG9X58CA5H9F=5@
G=A=@5F9B7IFGCG89C7<CG9A5B5GD5F59GHI8=5BH9G89(M8998I757=YB9>97IH=J5 0B5DCG=6@9
G97I9B7=5897IFGCGDC8FW5G9F@5G=;I=9BH9

@5G9!LD@CF57=YB J=GI5@=N57=YBM89G7I6F=A=9BHC8985HCG5DWHI@C

@5G9CB79DHCG6UG=7CG89AC89@58C F9;F9G=YB89AWB=ACG7I58F58CG9=BH9FDF9H57=YB
.977=CB9G   
  %BHFC8I77=YB

@5G9 %ADCFH5B7=59GH58WGH=75JG DFU7H=759=89BH=:=757=YB89DF98=7HCF9G=ADCFH5BH9G


.977=YB 

@5G9(C89@CGAUG:@9L=6@9G 15F=56@9G:=7H=7=5GMHVFA=BCG89=BH9F577=YB
.977=YB 

@5G9(C89@CGAUG:@9L=6@9G /F5BG:CFA57=CB9G8985HCGMF9@57=CB9GBC
@=B95@9G.977=YB 

@5G9!@D9@=;FC8989A5G=585=B:CFA57=YBM<579FAC89@CGAUGG9@97H=JCG
5DWHI@C

@5G9!J5@I57=YB89@5G75D57=8589G89IBAC89@CDC89F9LD@=75H=JC:F9BH95DC89FDF98=7H=JC
.977=YB 

@5G9(C89@58C89F9@57=CB9GAUG7CAD@9>5GA98=5BH9AVHC8CGBCD5F5AVHF=7CG
.977=YB 
Traducido del inglés al español - www.onlinedoctranslator.com

Capitulo 2
Explorando y descubriendo datos

En este capítulo, discutimos diferentes enfoques para explorar datos. La exploración de datos es
probablemente el paso más importante en cualquier análisis de datos. Si bien la disponibilidad de
grandes cantidades de datos a menudo tienta al usuario a saltar directamente a modelos y
métodos sofisticados, uno de los mensajes principales de este libro es que es de extrema
importancia comprender primero los datos y explorarlos a fondo en busca de patrones y
anomalías. .
Entonces, ¿por qué realizamos la exploración de datos? La respuesta es muy simple:
comprender mejor nuestros datos y familiarizarnos íntimamente con ellos. Simplemente no
debemos basar las decisiones comerciales en métodos y modelos complejos a menos que estemos
seguros de que estos métodos capturan la esencia de nuestros datos. Por ejemplo, gran parte de
este libro hablará sobrelineal modelos. Pero, ¿y si la realidad no es del todo lineal? ¿Qué pasa si
nuestros procesos comerciales están sujetos a “rendimientos decrecientes”? ¿Cómo podríamos
detectar tales "no linealidades"? Podríamos tener la “corazonada” de que nuestro proceso requiere
un modelo algo diferente, pero a veces (especialmente cuando se trata de nuevos procesos
comerciales) simplemente no lo sabemos. Pero, resulta que nuestros datos normalmente saben
mucho más sobre nuestros procesos que nosotros, y la exploración de datos desentrañará todo su
conocimiento. Además, la exploración de datos es útil no solo para detectar tendencias y patrones,
sino que es igualmente importante para descubrir anomalías y valores atípicos. No todos nuestros
clientes se comportan de la misma manera. De hecho, normalmente hay algunos clientes que se
comportan de manera muy diferente a la mayoría de nuestros clientes. Es importante que
podamos identificar a esos clientes y tratar con ellos de la manera adecuada. La exploración de
datos nos ayudará a identificar clientes tan atípicos y su comportamiento.

En este capítulo, presentamos una variedad de métodos y herramientas de exploración de datos. En


la sección2.1, comenzamos con básico resúmenes de datos y visualizaciones. Usamos la palabra "básico"
ya que deben ser parte del conjunto de herramientas de todos y deben consultarse cada vez que
exploramos nuevos datos. Estas herramientas básicas incluyen estadísticas de resumen (como la media,
la mediana o la moda), tablas de frecuencia e histogramas y diagramas de caja para explorar la
distribución de variables, así como diagramas de dispersión, tablas de correlación y tabulaciones
cruzadas para explorar relaciones por pares entre variables. .

W. Jank, Análisis de negocios para gerentes, Use R !, DOI 10.1007 / 978-1-4614-0406-4 2, © 9


Springer Science + Business Media, LLC 2011
10 2 Exploración y descubrimiento de datos

Muchas de estas herramientas básicas discutidas en la Sección 2.1 se pueden encontrar en hojas de
cálculo (como Excel) y no son necesariamente una característica especial o distintiva del software de
minería de datos especializado. En las secciones siguientes, sin embargo, también discutiremos
herramientas “más avanzadas” (o más poderosas) para la exploración de datos. Muchas de estas
herramientas avanzadas no se pueden encontrar en hojas de cálculo e ilustran el poder de las soluciones
de minería de datos más avanzadas. Con ese fin, discutiremos las matrices de diagramas de dispersión y
los gráficos de trellis (Sección2.2), gráficos de series de tiempo (Sección 2.3), gráficos espaciales (Sección
2.4), diagramas de densidad y columna vertebral para respuestas categóricas (Sección
2.5), o una combinación de varios tipos diferentes de gráficos y técnicas de agregación de
datos para datos de panel (Sección 2.6).
También queremos enfatizar que, a diferencia de muchos libros de texto estándar sobre
estadística, no separamos explícitamente numérico resúmenes de datos (como la media o la
desviación estándar) de gráfico pantallas (por ejemplo, un histograma), ya que creemos que
la exploración de datos tanto numérica como visual debe usarse simultáneamente, ya que
una informa a la otra y su aplicación conjunta y simultánea conduce a una mejor
comprensión de los patrones y anomalías en los datos.

2.1 Resúmenes y visualizaciones de datos básicos: datos de


precios de la vivienda

Comenzamos discutiendo algunas de las herramientas más básicas para explorar datos. Usamos la
palabra “básico” porque estos enfoques constituyen el conjunto mínimo de herramientas que cada
analista debe poseer. También se pueden encontrar a menudo en hojas de cálculo y, por lo tanto, son de
uso generalizado. De cualquier manera, ¡dominar estas herramientas es una necesidad absoluta!

Datos: Mesa 2.1 muestra una muestra de los precios de la vivienda (y las características asociadas de la vivienda) para

una importante área metropolitana de EE. UU. En particular, muestra la identificación de una casa, su precio de venta

(en dólares estadounidenses), su tamaño (en pies cuadrados), el número de dormitorios y baños, la

Cuadro 2.1 Los datos del precio de la vivienda. Ver también archivoHousePrices.csv.

Precio
IDENTIFICACIÓN Pies cuadrados # Camas # Baños Ofertas Brick Nbhd
1 114300 1790 2 2 2 No este
2 114200 2030 4 2 3 No este
3 114800 1740 3 2 1 No este
4 94700 1980 3 2 3 No este
5 119800 2130 3 3 3 No este
6 114600 1780 3 2 2 No norte
7 151600 1830 3 3 3 sí Oeste
8 150700 2160 4 2 2 No Oeste
9 119200 2110 4 2 3 No este
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 11

número de ofertas que ha recibido estando en el mercado, tenga o no


paredes de ladrillo,1 y el barrio donde se ubica.2
Objetivo: Uno de los principales objetivos de este análisis es determinar qué impulsa el precio de
una casa. Por ejemplo, es razonable suponer que las casas más grandes (es decir, aquellas con pies
cuadrados más grandes) obtendrán un precio más alto. Perocuánto más ¿Aumenta el precio por
cada pie cuadrado adicional? Además, ¿el material del revestimiento (es decir, ladrillo o no ladrillo)
tiene un impacto significativo en el precio? ¿O importa en qué barrio se encuentra la casa? Las
respuestas a estas preguntas podrían ayudar a un comprador potencial a decidir cuánto ofertar
por una casa. También podría ayudar al vendedor (o su agente de bienes raíces) a fijar el precio de
la casa correctamente.
Logramos este objetivo en varios pasos. Primero, investigamos eldistribución
de variables individuales. Por ejemplo, investigamosresumen estadístico como el precio promedio
(o mediano) para obtener una idea general del valor de una vivienda típica. También calculamos la
desviación estándar del precio para comprender cuánto fluctúan los precios de la vivienda
alrededor de ese valor típico; las altas fluctuaciones podrían ser indicativas de un mercado en el
que es difícil comparar el valor de una vivienda con el de otra vivienda (lo que puede ser una
ventaja para el vendedor). Calculamos elhistograma de precio para medir la forma de la
distribución de precios, lo que podría ayudarnos a determinar si existen viviendas inusuales (con
valores inusualmente altos o bajos). Después de investigar la distribución de todas las variables
individualmente, nosotros miramos a relaciones por parejas. Las relaciones por parejas nos
permiten entender si, por ejemplo, el precio de una casa aumenta con sus pies cuadrados, o si un
dormitorio adicional tiene un impacto más fuerte en el precio que un baño adicional. Las relaciones
por pares se exploran utilizandomedidas de correlación o gráfico de dispersión. Abogamos por el
uso de correlaciones y diagramas de dispersión simultáneamente, ya que cada uno transmite
diferentes partes de la imagen (grande): mientras que los diagramas de dispersión nos permiten
determinar si existe alguna relación (prácticamente relevante) y elformulario de esa relación, las
medidas de correlación nos permiten cuantificar (y por tanto comparar) la fuerza de esta
correlación. Comenzamos discutiendo las estadísticas resumidas para los datos de precios de la
vivienda con más detalle.

Resumen estadístico: Mesa 2.2 muestra estadísticas resumidas para los datos de
precios de la vivienda. En particular, calculamos el mínimo (Min) y el máximo (Max), el
primer y tercer cuartiles (1er Qu y 3er Qu), la mediana y la media (o promedio) y la
desviación estándar (StDev).
Mirando la primera columna de la tabla 2.2, podemos aprender que la media (o media)
El precio de la vivienda es de 130 427 dólares. También podemos ver que los precios de la vivienda están
ligeramentesesgadoya que el precio medio es un poco mayor que su valor medio ($ 125,950). Las casas
más y menos costosas se vendieron por $ 211,200 (máximo) y $ 69,100 (mínimo), respectivamente. El
primer cuartil ($ 111,325) implica que el 25% de todas las casas se han vendido pormenos de $ 111,325;
De manera similar, el tercer cuartil implica que el 25% de las viviendas se han vendido pormás de $
148,250, por lo que existe una considerable variabilidad en los precios de la vivienda. De hecho,

1Muchas casas en los Estados Unidos tienen vinilo u otros tipos de revestimiento.2Los

vecindarios en estos datos se caracterizan como Este, Norte u Oeste.


12 2 Exploración y descubrimiento de datos

Cuadro 2.2 Resumen


Precio Pies cuadrados # Dormitorios # Baños Ofertas
estadísticas para los datos de precios

de la vivienda.
Min 69100 1450 2,00 2,00 1,00
1st Qu 111325 1880 3,00 2,00 2,00
Mediana 125950 2000 3,00 2,00 3,00
Significar 130427 2001 3,02 2,45 2,58
StDev 26869 211 0,73 0,51 1.07
3er Qu 148250 2140 3,00 3,00 3,00
Max 211200 2590 5,00 4,00 6,00

Cuadro 2.3 Tabla de frecuencias


Variable Categorías
para Ladrillo y Vecindario.
Ladrillo No sí
86 42
Vecindario este norte Oeste
45 44 39

la desviación estándar ($ 26,869) mide la cantidad precisa de esta variabilidad. Una forma de
interpretar la desviación estándar es la siguiente: si los precios de la vivienda estuvieran
perfectamente distribuidos simétricamente alrededor de su media, entonces una desviación
estándar de $ 26,869 implica que el 95% de todos los precios de la vivienda caen dentro de los $
130,427±2× $26, 869, (es decir, entre $ 76,689 y $ 184,165), un rango considerable. La fórmula
general para esta relación esSignificar ±2×StDev. Por supuesto, antes de aplicar esta fórmula,
primero debemos verificar si la distribución es simétrica alrededor de la media. Podemos hacer
esto usando, por ejemplo, un histograma de precio (ver más abajo).
También podemos aprender de Table 2.2 que la casa típica tiene tres dormitorios y entre
dos y tres baños. (Tenga en cuenta que, si bien el número medio de baños es igual a 2, su
media es 2,45, lo que sugiere que hay algunos "valores atípicos" con un número
sorprendentemente grande de baños; de hecho, el mayor número de baños (Máx.) En
nuestros datos es igual a 4.) La casa típica también tiene un tamaño de 2,000 pies cuadrados,
y parece que la variabilidad en el tamaño de la casa (desviación estándar = 211 pies
cuadrados) no es muy alta. Y finalmente, aprendemos que la mayoría de los hogares reciben
entre dos y tres ofertas; sin embargo, también existen algunas casas bastante inusuales que
han recibido hasta seis ofertas.

Tablas de frecuencia: Tenga en cuenta que, si bien hay un total de siete columnas de datos diferentes
disponibles ("comparar" Tabla 2.1), Mesa 2.2 muestra estadísticas resumidas para solo cinco de ellos. La
razón radica en las diferencias en los tipos de datos: mientras que las primeras cinco columnas son todas
numérico (es decir, medido en una escala de intervalo), las dos últimas columnas soncategórico (por
ejemplo, "Ladrillo" asume los valores "Sí" o "No" pero no números). No podemos calcular estadísticas de
resumen (como la media o la desviación estándar) para datos no numéricos. En cambio, exploramos
datos categóricos usandotablas de frecuenciaque comparan las frecuencias entre categorías
individuales. Por ejemplo, Table2.3muestra que la mayoría de las casas (es decir, más del 67%) están
construidas con materiales que no sean ladrillos.
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 13

Histograma de precio

40
30
Frecuencia
20
10
0

100000 150000 200000


Precio

Figura 2.1 Histograma de precio.

Histogramas: Si bien las estadísticas de resumen son una excelente manera de resumir aspectos
importantes sobre una distribución en un solo número, son limitadas porque solo capturan un solo
aspecto de esa distribución. La mayoría de las veces, los datos son demasiado complejos para
resumirse en un solo número. Por ejemplo, mientras que la casa típica en nuestros datos se vende
por $ 130,427, la distribución de precios podría estar sesgada (es decir, podría haber algunas casas
que se venden por mucho más), podría ser multimodal (es decir, no podría haber solo una "típica
”Casa pero dos o incluso tres casas típicas), podría haber valores atípicos (es decir, algunas casas
que se venden por una cantidad exorbitantemente mayor), o podría haber otras anomalías que no
se pueden detectar con un solo número. Para ello, queremos visualizar toda la distribución de
datos. Esto se puede hacer mediante un histograma.
Figura 2.1 muestra un histograma de precio. Podemos ver que la distribución parece
bastante simétrica alrededor de su media, aunque parece haber un "aumento" inusual entre
$ 100.000 y $ 120.000. Esto sugiere que mientras que la casa “típica” se vende por $ 130,427,
hay una proporción bastante grande que se vende por mucho menos.
Figura 2.2 muestra histogramas para las otras variables numéricas de la tabla 2.1.
Podemos ver que si bien la distribución del tamaño de una casa (es decir, pies cuadrados) es
muy simétrica, las distribuciones de las tres variables restantes están sesgadas. Por ejemplo,
si bien el número promedio de baños es de 2,45, hay algunas (pero pocas) casas con hasta
cuatro baños. Del mismo modo, mientras que una casa normalmente recibe
2.58 ofertas, algunas reciben hasta seis ofertas. También queremos señalar que en el
contexto devariables discretas, el promedio puede no ser siempre una forma significativa de
resumir los datos. Por ejemplo, tenga en cuenta que la variable "número de baños" asume
solo valores discretos (es decir, una casa puede tener 2 o 3 baños pero no
2.5). Por tanto, concluir que “el número medio de baños es de 2,58” no tiene mucho
sentido. Podemos interpretar esto como la casa promedio que tiene entre
14 2 Exploración y descubrimiento de datos

Figura 2.2 Histograma de otro Histograma de pies cuadrados

variables numéricas.

40
30
Frecuencia

20
10
0
1400 1600 1800 2000 2200 2400 2600
Pies cuadrados

Histograma de dormitorios

Frecuencia

10 20 30 40 50 60
0

2.0 2.5 3,0 3,5 4.0 4.5 5,0


Dormitorios

Histograma de baños
Frecuencia

0 10 20 30 40 50 60 70

2.0 2.5 3,0 3,5 4.0


Cuartos de baño

Histograma de ofertas
40
30
Frecuencia

20
10
0

1 2 3 4 5 6
Ofertas
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 15

Diagrama de caja de precio

80000 100000 120000 140000 160000 180000 200000

Figura 2.3 Diagrama de caja de precio.

dos y tres baños. Alternativamente, elmediana Nos dice que una casa típica tiene dos
baños. La mediana no se ve afectada por la diferencia entre datos discretos y continuos
y, por lo tanto, proporciona respuestas significativas en ambos casos.

Diagramas de caja: Una forma alternativa de visualizar la distribución completa de una sola
variable es a través de diagramas de caja. Una gráfica de caja representacuartiles de una
distribución. Es decir, dibuja una “caja” entre el primer y tercer cuartiles y marca la mediana
con una línea vertical dentro de esa caja. Además, dibuja "bigotes" entre el exterior de las
cajas y 1,5 veces larango intercuartil; el rango intercuartil es la distancia entre el primer y
tercer cuartil y, por lo tanto, puede usarse como una medida de variabilidad en los datos. Se
consideran los puntos de datos más allá de los bigotes.valores atípicos y están marcados con
círculos.
Figura 2.3 muestra el diagrama de caja para el precio. Transmite información similar al
histograma de la Figura2.1. Sin embargo, ahora podemos ver más claramente que la distribución
de precios está ligeramente sesgada a la derecha. (Observe el bigote más largo al lado derecho de
la caja y el área más grande dentro de la caja a la derecha de la mediana). Una distribución de
precios sesgada a la derecha sugiere que algunos vendedores logran obtener un precio
significativamente más alto para su casa que el descansar; desde el punto de vista del vendedor,
sería importante comprender qué hacen estos vendedores exitosos para obtener tal prima de
precio. También podemos identificar un valor atípico potencial en el diagrama de caja; este valor
atípico marca una casa con un precio que está por encima y más allá del resto. En ese sentido, el
diagrama de caja transmite información similar al histograma, pero presenta esta información de
una manera más detallada.
dieciséis 2 Exploración y descubrimiento de datos

200000
180000

100000 120000 140000 160000 180000 200000


160000
140000
Precio

Precio
120000
100000
80000

80000
1600 1800 2000 2200 2400 2600 1600 1800 2000 2200 2400 2600
Pies cuadrados Pies cuadrados

Figura 2.4 Diagrama de dispersión entre precio y pies cuadrados. El panel de la izquierda muestra un diagrama de dispersión
tradicional que muestra solo los puntos de datos individuales; el panel derecho muestra una versión mejorada con una línea de
suavizado superpuesta.

Gráfico de dispersión: Después de explorar cada variable individualmente (usando histogramas,


diagramas de caja y resúmenes numéricos), ahora queremos investigar relaciones por parejas
entre variables. La forma más común (y también más poderosa) de explorar las relaciones por
pares es a través de diagramas de dispersión. Gráficos de diagramas de dispersión pares de
valores de dos variables en unX- y Y-sistema coordinado. Figura2.4 (panel izquierdo) muestra una
gráfica de dispersión entre precio y pies cuadrados. Podemos ver que, como era de esperar,
existe una relación positiva entre los dos (cuanto mayor es la superficie cuadrada, mayor es el
precio). También podemos ver que esta relación parece casilineal; es decir, parece como si por
cada aumento en pies cuadrados el precio aumentara en la misma cantidad (constante). Esta
observación se volverá importante más adelante cuando nuestro objetivo seamodelo la relación
entre precio y pies cuadrados. La relación (casi) lineal entre precio y pies cuadrados se vuelve aún
más evidente en el panel derecho de la Figura2.4, que muestra la misma dispersión de puntos de
datos pero con una línea de tendencia suave superpuesta.

Si bien se puede usar un diagrama de dispersión para identificar tendencias generales, también
podemos usarlo para examinar puntos de datos individuales. Por ejemplo, Figure2.4 muestra que si bien
la mayoría de las casas tienen la misma relación positiva entre los pies cuadrados y el precio, hay algunas
casas (en la esquina superior derecha del gráfico) que parecen "caer" de esa tendencia. Las desviaciones
de una tendencia general pueden ser indicativas de segmentos, bolsillos o geolocalizaciones que se
comportan de manera diferente al resto. Dichos segmentos o bolsillos son
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 17

80000 120000 160000 200000

80000 120000 160000 200000


Precio

Precio
1600 1800 2000 2200 2400 2600 2.0 2.5 3,0 3,5 4.0 4.5 5,0
Pies cuadrados Dormitorios
80000 120000 160000 200000

80000 120000 160000 200000


Precio

2.0 2.5 3,0 3,5 4.0 Precio 1 2 3 4 5 6


Cuartos de baño Ofertas

Figura 2.5 Diagrama de dispersión entre el precio y las cuatro variables numéricas.

Es importante identificarlos, ya que generalmente tenemos que tratarlos con diferentes estrategias de
marketing (por ejemplo, apuntar a diferentes compradores, usar diferentes estrategias de publicidad o
promoción, etc.).
Figura 2.5 muestra diagramas de dispersión entre el precio y las cuatro variables numéricas.
Podemos hacer varias observaciones. Primero, si bien existe una relación positiva entre el precio y
el número de baños (y de manera similar para el número de dormitorios), la relación entre el
precio y el número de ofertas parece negativa. Esta última observación es curiosa, ya que se puede
esperar que más ofertas den como resultado un mayor nivel de competencia, lo que, como se
podría argumentar, debería resultar en un precio más alto. También vemos que los diagramas de
dispersión relacionados con el número de baños y dormitorios son de uso bastante limitado. De
hecho, dado que ambas variables asumen solo tres y cuatro valores diferentes, respectivamente, la
información obtenida de los diagramas de dispersión está restringida. Esto ilustra que el uso de
diagramas de dispersión en conexión con variables discretas debe hacerse con bastante cuidado.

Medidas de correlación: Mientras que los diagramas de dispersión proporcionan una gráfico
forma de investigar la relación entre pares de variables, podemos aumentar este enfoque gráfico
con una evaluación numérica utilizando pares correlaciones. De hecho, aunque los diagramas de
dispersión son una excelente manera de "ver" las relaciones, el ojo a veces puede traicionarnos.
Además, dos personas que miran el mismo gráfico pueden ver dos patrones diferentes. Por lo
tanto, a menudo es deseable aumentar las impresiones visuales (a veces subjetivas) obtenidas de
un diagrama de dispersión con medidas numéricas objetivas. Las correlaciones proporcionan una
medida tan objetiva.
18 2 Exploración y descubrimiento de datos

Cuadro 2.4 Correlaciones


Precio Pies cuadrados # Dormitorios # Baños Ofertas
entre todo numérico
variable.
Precio 1,00 0,55 0,53 0,52 - 0,31
Pies cuadrados 0,55 1,00 0,48 0,52 0,34
# Camas 0,53 0,48 1,00 0,41 0,11
# Baños 0,52 0,52 0,41 1,00 0,14
Ofertas - 0,31 0,34 0,11 0,14 1,00

Una correlación (también conocida como Correlación de Pearson) mide la fuerza


y dirección de la relación lineal entre dos variables. Un gran valor positivo implica
una fuerte relación positiva. Es importante recordar que las correlaciones solo
capturanlineal relaciones entre dos variables; es decir, para dos variables que tienen
una relación no lineal (por ejemplo, curvilínea, circular, etc.), la correlación puede
llevar a conclusiones erróneas.
Mesa 2.4 muestra la tabla de correlaciones entre las cinco variables numéricas para los datos
de precios de la vivienda. Señalamos nuevamente que, dado que tanto "Ladrillo" como "Vecindario"
son categóricos, no podemos calcular su correlación con el precio (al menos no directamente).
Podemos aprender de la tabla2.4 ese precio tiene la asociación positiva más fuerte con los pies
cuadrados (0,55) y que su correlación con el número de dormitorios y baños, aunque sigue siendo
positiva, es más débil (0,53 y 0,52, respectivamente). Esto ilustra una de las ventajas de las medidas
de correlación sobre los diagramas de dispersión: mientras que los diagramas de dispersión
también nos permiten concluir que el precio tiene una relación positiva con las tres variables, no
pudimos ver fácilmente qué variable tenía lamas fuerte asociación con el precio. Observamos
nuevamente la relación negativa entre el número de ofertas y el precio, pero ahora también
podemos ver que esta relación no es muy fuerte (correlación = 0.33), por lo que si bien la relación
negativa es bastante sorprendente, en realidad puede que no importe (al menos no para todos los
propósitos prácticos).
Mesa 2.4 muestra información adicional importante. Por ejemplo, podemos ver que existe
una correlación bastante fuerte entre los pies cuadrados y el número de dormitorios y baños,
respectivamente. Esto no es demasiado sorprendente, ya que se necesita una casa más
grande para adaptarse a un mayor número de habitaciones. Sin embargo, este hallazgo
también sugiere que parte de la información contenida en pies cuadrados ya está capturada
por el número de dormitorios y baños. Esta observación cobrará importancia más adelante
(nos referiremos a ella como “multicolinealidad”) cuando intentemos encontrar buenos
modelos por precio.

Tabulaciones cruzadas: Hemos señalado repetidamente que no es posible calcular


resúmenes numéricos o correlaciones para datos categóricos (al menos no
directamente). Una alternativa para calcular la correlación entre dos variables
categóricas es inspeccionar sutabulación cruzada. Mesa2.5 muestra la tabulación
cruzada entre ladrillo y vecindario. Parece que existe alguna relación entre las dos
variables, ya que el porcentaje de casas de ladrillo en el norte es significativamente
menor en comparación con el este (o el oeste). De hecho, existen medidas de correlación
alternativas para datos categóricos. Estas medidas se denominanTau de Kendallo Rho de
Spearman. Para nuestros datos, la correlación de Kendall entre ladrillo y vecindario es
igual a -0.03 (y de manera similar para la correlación de Spearman).
2.1 Resúmenes y visualizaciones de datos básicos: datos de precios de la vivienda 19

Cuadro 2.5 Tabulación cruzada


Vecindario
para Ladrillo y Vecindario.
Ladrillo Noreste Oeste

No 26 37 23
sí 19 7 dieciséis

Lecciones aprendidas:

• Existen varios tipos de datos fundamentalmente diferentes: datos numéricos frente a


datos categóricos y datos continuos frente a datos discretos. Los datos numéricos se
registran en forma de números y se pueden "medir"; Los datos categóricos se registran
en forma de clases o categorías y, por lo general, no se pueden medir. Los datos
continuos son numéricos, que se pueden registrar en una “escala continua” (es decir,
con tantos lugares decimales como se desee); los datos discretos, por otro lado, solo
asumen un conjunto de valores de datos fijos (típicamente enteros). Dependiendo del
tipo de datos, necesitamos aplicar diferentes herramientas para el análisis y la
exploración de datos. En particular, la mayoría de las herramientas para explorar datos
numéricos no funcionan (al menos no directamente) para datos categóricos. Además,
ciertas estadísticas resumidas (p. Ej., la media) puede ser más significativa para datos
continuos y puede requerir una interpretación más cuidadosa cuando se trata de datos
discretos. La exploración de datos categóricos a menudo necesita una atención especial.

• Existen muchas herramientas diferentes para explorar la distribución de una sola variable.
Entre ellos se encuentran estadísticas de resumen (por ejemplo, la media, mediana,
moda, desviación estándar, mínimo y máximo), tablas o gráficos (por ejemplo,
histogramas y diagramas de caja). Todas estas herramientas deben utilizarse de forma
conjunta y simultánea, ya que se complementan entre sí. De hecho, si bien los gráficos
(como un histograma) proporcionan una impresión visual de una distribución, no
permiten una cuantificación fácil (y, por lo tanto, dificultan las comparaciones de dos
distribuciones). Las estadísticas de resumen exploran las distribuciones
cuantitativamente y, por lo tanto, se pueden comparar fácilmente entre dos (o más)
variables.
• También existen muchas herramientas diferentes para explorar las relaciones entre pares de
variables. Entre ellos se encuentran las medidas de correlación, las tabulaciones cruzadas y
los diagramas de dispersión. Al igual que con las herramientas para variables individuales, las
herramientas para explorar las relaciones por pares se complementan entre sí y deben
usarse simultáneamente. Si bien los diagramas de dispersión proporcionan una evaluación
visual de la relación entre dos variables, las medidas de correlación pueden cuantificar esta
relación (y, posteriormente, utilizarse para la comparación).
20 2 Exploración y descubrimiento de datos

2.2 Transformaciones de datos y gráficos Trellis:


datos de marketing directo

En esta sección, discutimos algunas ideas más avanzadas y poderosas para explorar datos.
Primero, presentamos el concepto dematrices de diagramas de dispersión, que puede descubrir
relaciones entre muchas variables diferentes en un solo gráfico. De hecho, la versión de matrices
de diagramas de dispersión que usamos aquí es una de las más poderosas disponibles, ya que
combina diagramas de dispersión, medidas de correlación e histogramas en una sola vista.
También discutimos datostransformación como un medio para obtener patrones de relación más
consistentes (y típicamente también más lineales). Entonces discutimosgráficos de enrejado. Los
gráficos Trellis son poderosos porque permiten vistas condicionales de los datos. Los gráficos de
Trellis son una de las herramientas más útiles para desenterrar relaciones nuevas e insospechadas
en subsegmentos (o "bolsillos") de los datos. A menudo son exactamente estos bolsillos los de
mayor valor para el comercializador o el inversor, ya que pueden ofrecer oportunidades que de
otro modo serían imposibles de detectar.

Datos: Mesa 2.6 muestra datos de un comercializador directo. El vendedor directo vende sus
productos (por ejemplo, ropa, libros o artículos deportivos) solo por correo directo; es decir,
envía catálogos con descripciones de productos a sus clientes, y los clientes realizan pedidos
directamente desde los catálogos (por teléfono, Internet o correo). El vendedor directo está
interesado en extraer a sus clientes para personalizar mejor el proceso de marketing. Está
particularmente interesada en comprender qué factores impulsan a algunos clientes a gastar
más dinero que a otros. Con ese fin, ha reunido una base de datos de registros de clientes.
Estos registros incluyen la edad del cliente (codificada como joven, mediano y viejo), sexo
(mujer / hombre), si el cliente es propietario o alquila una casa, si el cliente es soltero o
casado, la ubicación del cliente en relación con la tienda física más cercana que vende
productos similares (codificados como lejos o cerca), el salario del cliente (en dólares
estadounidenses) y cuántos hijos tiene el cliente (entre 0 y 3). El comercializador también
registra el historial de compras pasado del cliente (codificado como bajo, medio o alto, o NA
si el cliente no ha comprado nada en el pasado), la cantidad de catálogos que le ha enviado a
ese cliente y la cantidad de dinero que ha recibido. el cliente ha gastado (en dólares
estadounidenses).

Objetivo: Uno de los principales objetivos del especialista en marketing es comprender por
qué algunos clientes gastan más que otros. Está particularmente interesada en comprender
la relación entre el número de catálogos y la cantidad de dinero gastado, ya que cada
catálogo cuesta una cantidad fija de dinero para producir y enviar. Además, dado que la
relación con un cliente es importante, también está interesada en investigar si los clientes con
un alto historial de compras en el pasado también gastan más dinero en el futuro. Y, por
último, como el especialista en marketing sospecha que sus ofertas de productos y servicios
pueden atraer más a algunos grupos demográficos que a otros, está particularmente
interesada en detectar "bolsillos" de clientes que son más rentables (a los que, en última
instancia, puede decidir orientar sus anuncios con cupones y promociones). .
Nuevamente logramos estos objetivos utilizando solo herramientas exploratorias (gráficos y resúmenes de
datos). Algunas de las herramientas que usamos aquí se presentaron en la Sección2.1, pero aquí
2.2 Transformaciones de datos y gráficos Trellis: datos de marketing directo 21

Cuadro 2.6 Los datos de marketing directo. Ver también archivo


La edad Sal
DirectMarketing.csv.Sexo Hogar Casado Loc Chld Hist Ctlgs Gastado

Viejo Mujer Propio Soltero Lejos 47500 0 Elevado 6 755


Medio Masculino Alquilar Soltero Cerrar 63600 0 Elevado 6 1318
Joven Mujer Alquilar Soltero Cerrar 13500 0 Bajo 18 296
Medio Masculino Propio Casado Cerrar 85600 1 Elevado 18 2436
Medio Mujer Propio Soltero Cerrar 68400 0 Elevado 12 1304
Joven Masculino Propio Casado Cerrar 30400 0 Bajo 6 495
Medio Mujer Alquilar Soltero Cerrar 48100 0 Medicina 12 782
Medio Masculino Propio Soltero Cerrar 68400 0 Elevado 18 1155

10 15 20

Salario 150000

0,18 * 0,70 *
1e + 05

50000

Catálogos
20
0,47 *

15

10

6000
El monto gastado
5000
4000
3000
2000
1000
0
50000 1e + 05 150000 0 1000 2000 3000 4000 5000 6000

Figura 2.6 Matriz de diagrama de dispersión para salario, número de catálogos y cantidad de dinero gastado.

los usamos de una manera un poco más avanzada. Además, también presentamos nuevas herramientas y
conceptos que son especialmente útiles en el contexto de la minería de grandes bases de datos. Éstos incluyen
matrices de diagramas de dispersión, transformaciones de datos, y gráficos de enrejado.

Matrices de gráficos de dispersión: Figura 2.6 muestra una matriz de diagrama de dispersión
para las variables salario, número de catálogos y cantidad de dinero gastado. En particular,
muestra tres tipos diferentes de visualizaciones en un gráfico. A lo largo del eje diagonal, muestra
histogramas para cada una de las tres variables; debajo de la diagonal, vemos diagramas de
dispersión entre cada uno de los tres pares de variables; y por encima de la diagonal vemos los
valores de correlación correspondientes para cada par. Tenga en cuenta que los valores de
correlación van acompañados de diferentes colores, donde los colores más oscuros indican
correlaciones más fuertes.
22 2 Exploración y descubrimiento de datos

Gastado vs Salario Logaritmo gastado vs salario

5000

8
log (Cantidad gastada)
El monto gastado
3000

567
0 1000

4
50000 100000 150000 50000 100000 150000
Salario Salario

Gasto vs Log − Salario Logaritmo gastado frente a logaritmo de salario


5000

8
log (Cantidad gastada)
El monto gastado
3000

567
0 1000

9.5 10.0 10.5 11.0 11.5 12.0 log (Salario) 9.5 10.0 10.5 11.0 11.5 12.0 log (Salario)

Figura 2.7 Transformaciones de datos entre salario y cantidad de dinero gastado.

Podemos aprender de la figura 2.6 ese salario tiene la correlación más fuerte con la cantidad
que gasta un cliente. Esto no es demasiado sorprendente porque es poco probable que los clientes
con pocos ingresos gasten mucho dinero. Pero también podemos aprender que tanto el salario
como la cantidad gastada están muy sesgados a la derecha (observe la forma de los histogramas)
y, como resultado, la relación entre los dos no es del todo consistente. De hecho, si miramos la
gráfica de dispersión correspondiente (esquina inferior izquierda), notamos que los puntos se
están "canalizando". En otras palabras, si bien hay solo una pequeña variación en los niveles
salariales más bajos, la variación de la cantidad gastada aumenta con el aumento de los niveles
salariales. Una varianza creciente es un problema porque implica que no podemospredecir el
comportamiento de gasto de los clientes con salarios altos con mucha precisión y, como resultado,
no puede dirigirse muy bien a nuestros clientes potencialmente más rentables.

Transformaciones de datos: Los problemas con distribuciones sesgadas en histogramas o efectos de


embudo en diagramas de dispersión a menudo se pueden superar (o al menos suavizar) aplicando una
transformación adecuada a los datos. Tenga en cuenta que la gráfica de dispersión entre el salario y la
cantidad gastada sugiere que a medida que aumentan el salario y la cantidad gastada, también aumenta
la variación entre los dos. Podemos eliminar este efecto transformando los datos de una manera que se
tambalee en los valores de datos muy grandes mientras deja los valores más pequeños sin cambios. La
transformación logarítmica (o "logarítmica") tiene esta propiedad. Figura2,7 muestra la relación
cambiante entre el salario y la cantidad gastada cuando aplicamos la transformación logarítmica al
salario, la cantidad gastada o ambos. Podemos ver que la aplicación de la transformación logarítmica
tanto al salario como a la cantidad gastada da como resultado una
2.2 Transformaciones de datos y gráficos Trellis: datos de marketing directo 23

Inverso Exponencial

10
8

15000
6

exp (x)
1/x

5000
2

0
0

0 2 4 6 8 10 0 2 4 6 8 10
X X

Cuadrático Poder

8e + 09
20 40 60 80
x^2

x^x

4e + 09
0e + 00
0

0 2 4 6 8 10 0 2 4 6 8 10
X X

Figura 2.8 Funciones típicas de transformación de datos.

patrón que se asemeja a una línea recta. Además, el efecto embudo se ha desvanecido; es decir, la
variación entre las dos variables es ahora la misma en todos los niveles. Por lo tanto, si basamos nuestros
esfuerzos de focalización en la relación entre logaritmo-salario y logaritmo gastado, podemos apuntar a
los que gastan mucho con la misma precisión que a los que gastan poco.
Hemos visto en el párrafo anterior que una transformación logarítmica puede aliviar los
problemas de datos y, en particular, hacer que las relaciones entre las variables sean más
consistentes. La transformación logarítmica no es la única transformación que puede lograr
ese objetivo. Hay muchas más transformaciones (como exponencial, inversa, cuadrática o la
transformada de potencia) que pueden conducir a resultados similares en diferentes
aplicaciones. Figura2.8 ilustra algunas de estas transformaciones.

Gráficos de Trellis: Nuestro análisis hasta ahora ha revelado que existe una
relación (lineal) entre (log-) salario y (log-) monto gastado; es decir, nuestros clientes
más rentables serán los de mayores ingresos. Pero, ¿esta relación se aplica por igual
a todos nuestros segmentos de clientes? Por ejemplo, ¿podría ser que la tasa a la
que los clientes gastan sus ganancias varíe entre clientes jóvenes y viejos? Figura2.9
muestra una respuesta a esa pregunta. Muestra ungráfico de enrejado, que
muestra la relación entre dos variables (log-salario y log-gastado en este caso)
acondicionado en una o más de otras variables (edad y estado civil en este caso).

Figura 2.9 muestra que la relación entre el salario y la cantidad gastada varía mucho
entre los diferentes segmentos de clientes. Si bien existe una relación lineal sólida para
los clientes antiguos, casi no existe una relación para los clientes jóvenes casados. En
otras palabras, si bien podemos predecir con mucha precisión cuánto
24 2 Exploración y descubrimiento de datos

9,5 10,0 10,5 11,0 11,5 12,0


Soltero Soltero Soltero
Medio Viejo Joven

5
log (Cantidad gastada)

Casado Casado Casado


Medio Viejo Joven

9,5 10,0 10,5 11,0 11,5 12,0 9,5 10,0 10,5 11,0 11,5 12,0
log (salario)

Figura 2.9 Gráfico de Trellis para los datos de marketing directo. La relación entre salario y cantidad gastada
está condicionada por la edad y el estado civil.

gastar, no podemos hacer lo mismo por los clientes jóvenes y casados; tomamos esto como una
indicación de que sería mejor evitar por completo este segmento de clientes. También podemos
ver que en comparación con los dos segmentos anteriores, la relación para los clientes solteros de
mediana edad es mucho más fuerte (es decir, hay una tendencia mucho más pronunciada, por lo
que la tasa de gasto es mucho más rápida). Por lo tanto, los gráficos de trellis permiten una
inspección más granular de los datos y el descubrimiento de nuevas relaciones específicas de
segmento. Esto se ilustra con más detalle en la Figura2.10, que muestra otro gráfico de trellis, esta
vez condicionado por el historial de gastos y la ubicación de un cliente.

Lecciones aprendidas:

• Las matrices de diagramas de dispersión nos permiten visualizar las relaciones entre
muchos pares diferentes de variables en un solo gráfico; también nos permiten
incorporar información adicional como valores de correlación o distribución de variables
individuales. Las matrices de gráficos de dispersión son una gran herramienta para
brindar una descripción general de las características de datos más importantes en una
sola instantánea.
• Las transformaciones de datos se pueden utilizar para generar relaciones más consistentes
entre variables. De hecho, las transformaciones de datos se pueden utilizar para eliminar los
"efectos de embudo" o sesgar las variables. La transformación de datos incluye
2.3 Gráficos de series de tiempo: datos de ventas de refrescos 25

9,5 10,0 10,5 11,0 11,5 12,0


Lejos Lejos Lejos
Elevado Bajo Medio

5
log (Cantidad gastada)

Cerrar Cerrar Cerrar


Elevado Bajo Medio

9,5 10,0 10,5 11,0 11,5 12,0 9,5 10,0 10,5 11,0 11,5 12,0
log (salario)

Figura 2.10 Otro gráfico de trellis para los datos de marketing directo. Ahora, la relación entre salario y cantidad
gastada está condicionada por el historial de compras y la ubicación.

muchos operadores funcionales diferentes, como el logaritmo o la función


cuadrática. El objetivo principal de la transformación de datos es hacer que la
relación sea más lineal (es decir, transformar el patrón de datos para que se
parezca más a una línea recta).
• Los gráficos de Trellis nos permiten investigar las relaciones específicas de un
segmento y detectar áreas donde las relaciones cambian. Descubrir este cambio de
relación podría conducir a una acción de gestión diferente: podría conducir a un
marketing o publicidad más específico y personalizado, o podría llevar al abandono
de segmentos de mercado enteros por completo. En otras palabras, los gráficos
trellis nos permiten detectar focos de oportunidad e, igualmente, segmentos
donde no existe una ventaja competitiva.

2.3 Gráficos de series de tiempo: datos de ventas de refrescos

En esta sección, analizamos los gráficos de series de tiempo. Los gráficos de series de tiempo son
diferentes de las otras visualizaciones discutidas en este capítulo, ya que capturan información
dinámica que cambia con el tiempo. Si bien los gráficos de series de tiempo son, al menos en
principio, un concepto muy simple, discutimos buenos y malos ejemplos de ellos.
26 2 Exploración y descubrimiento de datos

Cuadro 2.7 Datos de ventas de


Cuarto Ventas t Q
refrescos. Ver también archivo
Softdrink.csv. Q1-86 1734.83 1 1
Q2-86 2244,96 2 2
Q3-86 2533,8 3 3
Q4-86 2154,96 4 4
Q1-87 1547.82 5 1
Q2-87 2104.41 6 2
Q3-87 2014.36 7 3
Q4-87 1991.75 8 4

Datos: Mesa 2,7 muestra un tipo diferente de datos. Muestra las ventas (registradas en millones de
dólares) de una importante empresa de refrescos. Lo que hace que estos datos sean diferentes es
que solo tenemos dos datos disponibles: información sobre el trimestre (por ejemplo, primer
trimestre de 1986, Q1-86) y ventas en ese trimestre. Tenga en cuenta que Table2,7 también tiene
un cuarto de recuento t (que va de 1 a 56 ya que hay un total de 56 trimestres en estos datos) y un
indicador de trimestre Q, que denota el trimestre del año (1 corresponde al primer trimestre, 2
corresponde al segundo trimestre, etc.), pero esto es simplemente una recodificación de la
información del trimestre en la primera columna.

Objetivo: Nuestro objetivo es comprender las ventas de la empresa, si varían de un trimestre a


otro y por qué, y la velocidad a la que crecen (o decaen). En última instancia, un gerente querrá
usar esta información parapronóstico ventas futuras con fines de planificación. Los elementos
específicos que podemos querer identificar son untendencia (es decir, si los datos crecen en un
patrón sistemático) y estacionalidad (es decir, si esos datos fluctúan sistemáticamente;
por ejemplo, mayores ventas en los meses de verano y menores ventas en invierno).

Gráfico de serie temporal: Si bien los datos anteriores parecen ser bastante simples (después de todo,
solo contienen dos piezas diferentes de información, tiempo y ventas), solo un análisis muy cuidadoso
revelará todo el conocimiento oculto en ellos. Figura2.11 muestra dos gráficos diferentes de esos datos.
El panel de la izquierda muestra un gráfico simple (de dispersión) de ventas en función del tiempo
(trimestre en este caso). Podemos ver que parece haber una tendencia positiva (las ventas crecen con el
tiempo), pero también podemos ver que parece haber mucho ruido en torno a esa tendencia. De hecho,
mientras que las ventas parecen tener una tendencia al alza, los puntos de datos individuales se
dispersan bastante alrededor de esa tendencia. Esto sugeriría que las ventas son bastante variables de
un trimestre a otro, lo que hace que las previsiones de ventas sean bastante onerosas y poco fiables.

El panel derecho revela la razón de este "ruido". Los recuadros de colores representan el tipo
de trimestre, y podemos ver que las ventas son generalmente mayores en primavera y verano
(recuadros azules y verdes) en comparación con otoño e invierno (recuadros celestes y rojos). Por
lo tanto, podemos concluir que las ventas muestran no solo una tendencia positiva, sino también
un fuerte patrón estacional. En otras palabras, una vez que controlamosambos Tendencia y
estacionalidad, los datos no son tan variables después de todo y hay buenas razones para creer
que podemos pronosticar las ventas con bastante precisión en el futuro.
Podemos hacer una observación adicional: la línea gris discontinua muestra una tendencia
suave a través de los datos, y podemos ver que, si bien las ventas generalmente están creciendo,
2.3 Gráficos de series de tiempo: datos de ventas de refrescos 27

5000

5000
4000

4000
Ventas

Ventas
3000

3000
2000

2000
0 10 20 30 40 50 0 10 20 30 40 50
Cuarto Cuarto

Figura 2.11 Gráficos de series de tiempo para los datos de ventas de refrescos. El panel de la izquierda muestra un gráfico muy simple de
los datos. En el panel derecho, los cuadros de colores representan diferentes cuartos; la línea de puntos gris muestra una tendencia suave a
través de los datos.

los tasa de crecimiento está disminuyendo hacia trimestres más recientes. En otras palabras, los aumentos de
ventas están disminuyendo. Tenga en cuenta que ninguna de esta información fue directamente obvia a partir
del diagrama de dispersión mucho más simple en el panel izquierdo de la Figura2.11.

Lecciones aprendidas:

• Podemos utilizar gráficos de series de tiempo para visualizar tendencias y estacionalidad


en los datos que se registran a lo largo del tiempo. Los datos de series de tiempo a
menudo parecen peligrosamente simples cuando, de hecho, podrían ocultar un tesoro
de conocimiento valioso. Este conocimiento solo se puede desenterrar mediante el uso
de las herramientas gráficas adecuadas (como codificar con colores diferentes
trimestres de manera diferente o superponer una línea de tendencia suave y flexible).
Los datos de series de tiempo a menudo muestran una tendencia; esa tendencia puede
ser lineal (es decir, crecer al mismo ritmo a lo largo del tiempo) o no lineal. Las
tendencias no lineales pueden ocurrir en forma de tasas de crecimiento crecientes o
decrecientes y podrían capturar efectos reales como rendimientos decrecientes o una
explosión de referencias de boca en boca. Los datos de series de tiempo también
pueden mostrar la estacionalidad. La estacionalidad puede ocurrir de forma trimestral
(por ejemplo, verano frente a invierno) o mensualmente.
28 2 Exploración y descubrimiento de datos

en comparación con las rebajas de primavera). Pero la estacionalidad puede ser menos
regular (y, por lo tanto, un poco más difícil de detectar y capturar). Por ejemplo, las
ventas podrían tocar fondo en enero en un año, pero tocarían mínimos en febrero del
próximo año. Si bien en ambos años las ventas son más bajas en los meses de invierno
(enero o febrero), es difícil precisar el momento exacto del mínimo año a año. La
estacionalidad puede volverse aún más compleja (y por lo tanto más difícil de detectar)
cuando ocurre solo cada pocos años. Por ejemplo, si bien la economía puede crecer en
algunos años, puede experimentar una recesión en otros años. Estos “altibajos” en los
datos económicos a largo plazo a menudo se denominan cíclicos (o ciclos económicos)
en lugar de variaciones estacionales. Desde el punto de vista del modelado,
necesitaríamos muchos años de datos para poder contabilizar adecuadamente dichos
ciclos económicos.

2.4 Gráficos espaciales: datos de preferencias de compra online

A continuación, analizamos los gráficos espaciales. Por gráficos espaciales normalmente nos
referimos a mapas y los usamos para visualizar dependencias geográficas. Los gráficos espaciales
son cada vez más importantes con la creciente disponibilidad de información espacial. Tomemos,
por ejemplo, el desarrollo muy reciente de Google Latitude,3 que permite a los usuarios de Google
compartir sus ubicaciones geográficas. Este es solo un ejemplo, pero sugiere que la información
geográfica sobre clientes, productos o servicios se disparará en los próximos años. La información
espacial es extremadamente valiosa porque nos permite segmentar geográficamente a los
consumidores. Las búsquedas locales y las búsquedas en mapas son solo dos aplicaciones
recientes que dependen en gran medida de la orientación geográfica. La mayoría de los paquetes
de software basados en hojas de cálculo (como Excel) no tienen forma de explorar datos
geográficos. Esta limitación no permite que los gerentes accedan y aprendan de una de las piezas
más importantes de información comercial.

Datos: Mesa 2.8 muestra datos sobre las diferencias geográficas en las preferencias de productos
en los Estados Unidos. La tabla muestra los datos de ventas de los libros que se ofrecieron tanto en
formato impreso como en archivos PDF descargables (es decir, en formato electrónico). La tabla
también muestra las diferencias de precio entre las versiones impresas y PDF: PrPRINT indica el
precio de la versión impresa (en dólares estadounidenses); PrPDF denota el precio correspondiente
del archivo PDF. El formato electrónico generalmente tenía un precio más bajo que el formato de
impresión, y RelPrPDF registra la diferencia de precio relativo entre los dos formatos. La tabla
también registra si un cliente compró la versión PDF (PurPDF) o

3Ver www.google.com/latitude.
2.4 Gráficos espaciales: datos de preferencias de compra online 29

Cuadro 2.8 Datos de preferencias geográficas. Ver también archivoSpatialPreferences.csv.


Largo Lat IMPRIMIR PrPDF RelPrPDF PurPDF Propósito
- 74.058 42.83326 34,95 17,48 50% 1 0
- 163.11894 60.31473 39,95 29,96 75% 0 1
- 163.11894 60.31473 39,95 29,96 75% 0 1
- 86.1164 32.37004 28.00 7.00 25% 1 0
- 111.82436 33.32599 24,95 18,71 75% 0 1
- 111.82436 33.32599 18.00 13,5 75% 0 1
- 118.29866 33.78659 49,95 0,00 0% 1 0
- 118.29866 33.78659 57,95 14.49 25% 1 0

la versión impresa (de mayor precio) (PurPRINT).4 Además, Long y Lat indican la
longitud y latitud de la ubicación del cliente (es decir, denota el área geográfica
de la compra).

Objetivo: Uno de los objetivos del análisis es determinar si existen diferencias geográficas en las
preferencias de productos. Por ejemplo, es posible que queramos preguntarnos si es más probable
que los clientes de la costa este compren un libro en formato electrónico. Además, nos gustaría
comprender cómo varían las preferencias de producto en función de la diferencia de precio entre
los formatos de impresión y PDF. Comprender las preferencias geográficas de los clientes y la
sensibilidad de los precios permite a los minoristas comercializar mejor su producto, orientar
geográficamente a sus clientes y ofrecer los cupones y promociones correctos en las ubicaciones
correctas.

Gráficos espaciales: Figura 2.12 muestra un mapa de los Estados Unidos. En este mapa,
registramos la ubicación de cada transacción; un círculo negro representa una compra de
impresión y un círculo rojo representa una compra de PDF. El tamaño del círculo corresponde al
precio del PDF para el relativo al de la impresión. En otras palabras, círculos muy grandes indican
que la versión en PDF tenía un precio (casi) tan alto como el libro impreso correspondiente; los
círculos pequeños indican que la versión PDF estaba disponible con un gran descuento en relación
con la versión impresa.
Podemos ver que la preferencia entre PDF e impresión varía significativamente en los Estados
Unidos. Mientras que en algunas áreas (por ejemplo, en el sur) la impresión fue el formato predominante
(a menos que el PDF se ofreciera con un gran descuento), en otras áreas (por ejemplo, la costa oeste o el
noreste) los clientes prefirieron el formato PDF, incluso en un precio más alto. Esta información puede
ayudar a los gerentes de marketing a determinar el precio correcto para su producto, orientar
geográficamente a sus clientes y ofrecer cupones y promociones que varían espacialmente.

4Solo mostramos las transacciones que resultaron en una compra impresa o en PDF; por supuesto, algunas
transacciones resultaron en ninguna compra, pero no mostramos estos datos aquí.
30 2 Exploración y descubrimiento de datos

45
40
35
30
25

- 120 - 110 - 100 - 90 - 80 - 70

Figura 2.12 Mapa de preferencias geográficas para el formato impreso vs. PDF. Los círculos negros indican compras
impresas; los círculos rojos indican compras de PDF. El tamaño del círculo representa el precio de PDF en relación con la
impresión.

Lecciones aprendidas:

• Los gráficos espaciales, en particular los mapas, se pueden utilizar para explorar datos
geoetiquetados; es decir, datos con información geográfica adjunta. Los gráficos espaciales se
pueden utilizar para la segmentación geográfica y la identificación de zonas geográficas de diversa
demanda de los consumidores.

2.5 Gráficos para respuestas categóricas: datos de


préstamos de consumidor a consumidor

En esta sección, damos una mirada espacial a los datos donde el resultado de interés es
categórico. Si bien en principio son similares a los tipos de datos discutidos en secciones
anteriores, los resultados categóricos plantean un desafío porque los diagramas de dispersión
estándar o las medidas de correlación a menudo no son significativas. Por otro lado, los resultados
categóricos son cada vez más frecuentes, especialmente en marketing, donde los gerentes a
menudo están interesados en comprender las elecciones que hacen los consumidores, y los datos
de elección son inherentemente categóricos.

Datos: Mesa 2.9 muestra datos crediticios para un mercado de préstamos de consumidor a consumidor (C2C).
En este mercado, los consumidores ("prestatarios") pueden publicar listados de préstamos y otros
2.5 Gráficos para respuestas categóricas: datos de préstamos de consumidor a consumidor 31

Cuadro 2.9 Consumidor-


Crédito Prestatario Ingresos por deuda
préstamos al consumidor
Estado Calificación Monto La edad Índice Proporción
datos. Ver también
archivoLoanData.csv.
Actual C 5000 4 0,150 0.040
Defecto HORA 1900 6 0,265 0,020
Actual HORA 1000 3 0,150 0,020
Tarde HORA 1000 5 0,290 0,020
Actual 2550
Automóvil club británico 8 0,079 0.033
Tarde CAROLINA DEL NORTE 1500 2 0,260 0,030
Actual HORA 3001 6 0,288 0,020
Actual mi 2000 6 0,250 0,020

los consumidores ("prestamistas") pueden invertir en esos préstamos haciendo una oferta sobre las tasas
de interés de los prestatarios. Los datos muestran el estado del préstamo (actual, atrasado y en mora), el
grado crediticio del prestatario (AA es el grado más alto, seguido de A, B,..., E; HC significa "alto riesgo" y
denota el grado más bajo; NC significa "sin calificación crediticia"). Los datos también contienen
información sobre la cantidad prestada (en dólares estadounidenses), la antigüedad del préstamo (en
meses), la tasa del prestatario (es decir, la tasa de interés que el prestatario paga al prestamista) y la
relación deuda-ingresos del prestatario. .

Objetivo: El objetivo es distinguir los préstamos buenos de los malos. En otras palabras,
queremos investigar cómo un prestamista puede determinar qué préstamos resultarán en
pagos puntuales (“Actual”) y cuáles resultarán en pagos atrasados o incluso en impagos.
Tenga en cuenta que el problema de predicción es ligeramente diferente de todos los otros
ejemplos que hemos estudiado antes: mientras que anteriormente el objetivo era predecir el
resultado de una variable numérica (por ejemplo, precio de la vivienda, cantidad gastada o
ventas trimestrales), ahora necesitamos predecir una variable categórica, "Estado". El estado
asume los valores actuales, tardíos o predeterminados y, por lo tanto, no se mide en una
escala numérica. El problema con la predicción de variables categóricas es que los modelos
tradicionales (que asumen variables numéricas) no se aplican. Esto también es importante
para la tarea de exploración, ya que debemos elegir nuestras visualizaciones de datos con
cuidado,
Al visualizar datos con resultados categóricos, normalmente se visualiza la distribución de las
variables de entrada en todos los niveles de la variable de resultado. Por ejemplo, en el caso de los
datos de préstamos, es posible que deseemos investigar si la distribución del monto del préstamo
difiere entre los préstamos vigentes y los retrasados. De hecho, si detectamos una diferencia
sistemática, esto indicaría que el tamaño del monto del préstamo es un buen indicador del
desempeño futuro del préstamo. De manera similar, es posible que también deseemos investigar
si la distribución de las calificaciones crediticias difiere sistemáticamente entre los diferentes
estados de los préstamos porque si encontramos una diferencia sistemática, la conclusión sería
nuevamente similar a la anterior, es decir, que la calificación crediticia es un buen predictor del
desempeño del préstamo. . Por tanto, si bien en ambos casos queremos investigar eldistribución
de una variable de entrada (o predictora) en todos los niveles de la variable de resultado (o
respuesta), la forma exacta en que lo logramos depende del tipo de entrada
32 2 Exploración y descubrimiento de datos

variable. A continuación, analizamos dos ejemplos, uno en el que la variable de entrada es


numérica y otro en el que la variable de entrada es categórica. Con ese fin, usaremosparcelas de
densidad y parcelas de columna.

Gráficos de densidad: Una gráfica de densidad es similar a un histograma. De hecho, la única diferencia
entre un histograma y un gráfico de densidad es que mientras que el primero selecciona "cubos" de
cierta longitud y luego traza la frecuencia en cada cubo, los gráficos de densidad se pueden considerar
como histogramas con cubos arbitrariamente pequeños. Por lo tanto, su ventaja es que representan la
distribución de datos en la forma más granular.
Figura 2.13 muestra una gráfica de densidad para los datos del préstamo. De hecho, vemos gráficas
de densidad para cada una de las cuatro variables numéricas: monto prestado, antigüedad del préstamo,
tasa del prestatario y relación deuda-ingresos. Además, para cada variable, la densidad se desglosa por
el estado del préstamo: las líneas negras corresponden a las densidades de los préstamos corrientes; las
líneas verdes corresponden a préstamos morosos; y las líneas rojas corresponden a préstamos en mora.
Podemos ver que, si bien la distribución del monto del préstamo (panel superior izquierdo) es casi
idéntica en los tres estados de los préstamos, es muy diferente para la antigüedad del préstamo (panel
superior derecho). De hecho, el gráfico sugiere que muchos préstamos actuales son jóvenes (es decir,
solo tienen unos pocos meses de edad), mientras que la mayoría de los préstamos en mora son antiguos
(es decir, cinco o más meses de antigüedad). Si bien este resultado no es completamente sorprendente
(un consumidor generalmente incumple después de un cierto período de tiempo y no inmediatamente
después de obtener el préstamo), sí sugiere una forma de distinguir entre préstamos buenos y malos.
Figura2.13sugiere formas adicionales de distinguir los préstamos. El panel inferior izquierdo
0,30
4e − 04

Actual
Defecto
0,20
Densidad

Densidad

Tarde
2e − 04

0,10
0e + 00

0,00

0 5000 10000 15000 20000 25000 0 5 10 15


Monto prestado Antigüedad del préstamo
10

6
5
8

Actual
Densidad

Densidad

Defecto
46

Tarde
2
2

1
0

0.0 0,1 0,2 0,3 0.4 0,5 0.0 0,2 0.4 0,6 0,8 1.0
Tasa del prestatario Relación deuda-ingresos

Figura 2.13 Distribución de la cantidad prestada, la antigüedad del préstamo, la tasa del prestatario y la relación deuda-ingresos,
desglosada por diferentes resultados del préstamo (actual, atrasado o en mora).
2.5 Gráficos para respuestas categóricas: datos de préstamos de consumidor a consumidor 33

Tarde 0,8

0,6
Defecto
Estado

0.4

0,2
Actual

0
A B
Automóvil club británico C D mi HORA CAROLINA DEL NORTE

Crédito.Grado

Figura 2.14 Calificación crediticia por resultado del préstamo.

(tasa del prestatario) sugiere que los préstamos atrasados o en mora tienen tasas de préstamo más altas; el
panel inferior derecho también sugiere que una relación deuda / ingresos baja no necesariamente indica un
buen préstamo.

Gráficos de la columna vertebral: Los diagramas de columna son una forma de visualizar tabulaciones
cruzadas (por ejemplo, relaciones entre dos variables categóricas). Figura2.14 muestra un diagrama de columna
entre el estado del préstamo y la calificación crediticia. Las barras negras corresponden a préstamos vigentes,
las barras de color gris oscuro corresponden a préstamos en mora y las barras de color gris claro corresponden
a préstamos atrasados. El ancho de la barra corresponde al número de préstamos con una calificación crediticia
particular. (Por ejemplo, la barra "A" es más delgada que la barra "C", lo que sugiere que hay muchos más
préstamos calificados con C que con A.)
Podemos aprender que, como era de esperar, a medida que la calificación se deteriora, aumenta el número
de préstamos atrasados e incumplidos. En particular, los préstamos de recursos humanos (de alto riesgo)
tienen el mayor número de préstamos en mora o retrasados. Sin embargo, es interesante observar que, si bien
hay solo una pequeña cantidad de préstamos no calificados (NC), sus tasas de incumplimiento y morosidad son
incluso más altas que para los préstamos de alto riesgo. Por lo tanto, la calificación crediticia es un predictor
muy fuerte del estado del préstamo.

Lecciones aprendidas:

• Los diagramas de densidad y los diagramas de columna son herramientas muy poderosas para
investigar datos donde la respuesta es categórica. La idea principal de estos gráficos es dividir una
de las variables de entrada (por ejemplo, la antigüedad del préstamo) por los diferentes niveles.
34 2 Exploración y descubrimiento de datos

de la variable de destino. Por ejemplo, podríamos trazar histogramas para diferentes niveles de
estado de préstamo o, como en el caso de los diagramas de densidad, crear histogramas de
granularidad extremadamente fina.
• Las respuestas categóricas ocurren con frecuencia en los datos comerciales, especialmente en
marketing, donde estudiamos las elecciones y preferencias de los clientes. Si bien los diagramas de
dispersión tradicionales no son muy útiles para explorar datos con respuestas categóricas, los
diagramas de densidad y los diagramas de columna pueden revelar nuevos conocimientos
previamente desconocidos.

2.6 Gráficos para datos de panel: datos de fidelización de clientes

Terminamos este capítulo dando un vistazo a otra forma desafiante de datos comerciales: los datos de
panel. Los datos del panel se producen cuando seguimos a un conjunto de clientes a lo largo del tiempo
y registramos su comportamiento y preferencias. Por lo tanto, los datos de panel comparten similitudes
con los datos de series de tiempo (para cada miembro del panel, tenemos una serie de observaciones de
tiempo); por otro lado, los datos del panel también tienen características transversales, ya que el panel
contiene una muestra de diferentes clientes. Comprender toda la información que contienen los datos
del panel no es fácil y queremos explicar los desafíos en la siguiente sección.

Datos: Mesa 2.10 muestra datos de compra de nueve clientes seleccionados al azar de
una empresa de alquiler de DVD por Internet durante un período de 12 meses (enero-
diciembre). Cada una de las 12 columnas se refiere a la cantidad de dinero que gasta un
cliente en un mes determinado. Por ejemplo, el cliente 2 gasta $ 114,33 en el mes de
febrero y continúa gastando con bastante frecuencia hasta finales de septiembre
(después de lo cual no realiza más compras). Por otro lado, la clienta 1 realizó una sola
compra ($ 25.74) que ocurrió en febrero y no gastó más dinero en los meses siguientes.
También vemos que algunos clientes no gastan nada durante todo el año (por ejemplo,
los clientes 6, 7 y 9).

Cuadro 2.10 Datos de fidelización de clientes. Ver también archivoCustomerLoyalty.csv.

ene
IDENTIFICACIÓN feb mar abr Mayo jun jul ago sep oct nov dic
1 0 25,74 0 0 0 0 0 0 0 0 0 0
2 0 114,33 108,56 51,28 0 0 52,28 70,07 40,1 47,96 0 0 0
3 21,54 0 0 0 00000 0 0
4 0 0 0 0 0 00000 0 0
5 0 8,79 42,1 0 0 10,77 63,25 27,93 0 63,45 83,94 30,98
6 0 0 0 0 0 0000000
7 0 0 0 0 0 0000000
8 0 24,48 13,97 0 48,37 0 52,27 0 0 0 0 0
9 0 0 0 0 00 000000
2.6 Gráficos para datos de panel: datos de fidelización de clientes 35

600
Monto de la compra
400
200
0

2 4 6 8 10 12
Mes

Figura 2.15 Gráficos de series de tiempo para todos los clientes en el panel.

Objetivo: El objetivo del análisis es comprender los patrones de compra. ¿Por


qué algunos clientes gastan más dinero que otros? ¿Y cuándo gastan su dinero
(a principios de año o hacia finales de año)? ¿Y por qué algunos clientes realizan
compras únicas mientras que otros gastan con frecuencia? ¿Podemos
segmentar a los clientes por sus patrones de compra? Las respuestas a algunas
de estas preguntas podrían ayudar a nuestra empresa a dirigirse a clientes
individuales con cupones y promociones personalizados. Por ejemplo, los
clientes que solo gastan a principios de año podrían verse tentados a gastar
dinero adicional en los meses posteriores a través de cupones que son válidos
solo para las vacaciones. Por otro lado, si supiéramos que un cliente solo hizo
compras únicas y si supiéramos el momento de esa compra,

Gráficos superpuestos de series de tiempo: Introdujimos gráficos de series de tiempo en la Sección 2.3.
También hemos argumentado anteriormente que los datos de panel son esencialmente un montón de
series de tiempo individuales, una serie para cada cliente. Entonces, ¿por qué no trazar todas esas series
de tiempo (una por cliente) en un solo gráfico? Bueno, la respuesta es que este tipo de enfoque a
menudo conduce a una sobrecarga de información y al desorden; es decir, nuestro intento de explorar
todos los datos disponibles a la vez conduce a más información de la que puede contener el gráfico y,
como resultado, ¡no aprendemos mucho en absoluto!
Tomemos como ejemplo la figura 2.15, que muestra el patrón de compra para todos
clientes, en todos los meses, en un gráfico. Nos referimos a este gráfico comosuperpuesto
36 2 Exploración y descubrimiento de datos

gráfico de series de tiempo ya que básicamente tomamos muchas series de tiempo individuales y las
superpusimos todas juntas en una página. Tenga en cuenta que intentamos hacer el gráfico lo más
limpio posible eligiendo líneas discontinuas, lo que resulta en el menor desorden posible.
Con todo, no podemos aprender mucho de Figure 2.15. Podemos aprender que existen
algunos (de hecho, bastante pocos) clientes que realizan compras notablemente grandes en
instancias selectas a lo largo del año. (Observe los picos altos al principio y al final del año, y
también el pico inusualmente alto en el mes 7.) Sin embargo, aunque estos pocos clientes
aportan un valor excepcional a nuestro negocio en ocasiones seleccionadas, no son
representativos de latípico cliente. El cliente típico está "oculto" en el desorden de líneas en la
parte inferior del gráfico.
El principal problema con la figura 2.15 es que intenta lograr demasiado:
intenta representar tanto la información temporal (es decir, el patrón de compra
de cada cliente a lo largo del tiempo) como la información transversal (es decir,
la variación entre clientes). Si bien preservar tanta información sobre los datos
como sea posible es a menudo un objetivo muy valioso, este es un ejemplo en el
que la agregación de datos conducirá a una mejor comprensión. Lo que
queremos decir con eso es que primero debemos intentar agregar los datos (ya
sea por su componente temporal o transversal) y solo luego graficarlos. A
continuación, discutimos varias formas de realizar esta tarea de agregación. Es
importante señalar que los gráficos reales que usamos son estándar y se han
introducido en secciones anteriores (por ejemplo, histogramas); sin embargo,

Agregando la dimensión transversal: Los datos de panel tienen dos dimensiones


principales: información temporal e información transversal. Si queremos explorar las
tendencias a lo largo del tiempo, debemos agregar la dimensión transversal y mantener
intacta la dimensión temporal. La agregación se puede realizar de diversas formas. Por
ejemplo, podríamos, para cada mes del año, calcular el monto promedio de compra; es
decir, podríamos calcular estadísticas resumidas numéricas para cada mes del año.
Alternativamente, podríamos visualizar la distribución de compras en cada mes usando
histogramas mes a mes. Esto se muestra en la Figura2.16. Figura2.16 muestra que los
patrones de compra difieren de un mes a otro. Si bien enero presenta una gran
cantidad de compras de alto valor (es decir, compras con montos de hasta $ 20 o $ 40),
los montos de compra disminuyen en los meses siguientes. De hecho, enero, febrero,
julio y noviembre parecen ser los meses en los que un cliente gasta más dinero durante
una sola visita.
Si bien la cantidad que gasta un cliente es importante, también importa si un
cliente gasta algo. De hecho, Figura2.16 no nos dice qué proporción de nuestros
clientes realizó alguna compra. Con ese fin, podemos emplear un razonamiento
similar al anterior y calcular gráficos circulares mes a mes (ver Figura2.17). Tenga en
cuenta que cada gráfico circular compara la proporción de clientes que no
realizaron ninguna compra (indicados con "0" y de color blanco) con los que
realizaron una compra (indicados con "1" y de color negro).
Podemos aprender que enero, febrero, marzo y tal vez junio son los meses en los que la
mayoría de los clientes realizan una compra. De hecho, como se señaló anteriormente, enero y
2.6 Gráficos para datos de panel: datos de fidelización de clientes 37

ene feb mar

Frecuencia

Frecuencia

Frecuencia
0 150

0 150

0200
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra

abr Mayo jun


Frecuencia

Frecuencia

Frecuencia
0200

0200

0200
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra

jul ago sep


0 200

0 200
0 200

0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra

oct nov dic


Frecuencia

Frecuencia

Frecuencia
0200

0200

0200
0 10 20 30 40 50 0 10 20 30 40 50 0 10 20 30 40 50
Monto de la compra Monto de la compra Monto de la compra

Figura 2.16 Histogramas mes a mes de las compras de los clientes.

Febrero son también los meses en los que un cliente gasta más dinero en una sola visita.
Por lo tanto, estos dos meses parecen ser el mes más rentable. El mes de marzo es
interesante porque está marcado por muchas visitas pero un gasto por visita
relativamente bajo. Por otro lado, si bien el mes de julio no presenta un número elevado
de visitas, la cantidad gastada por visita es bastante elevada.
Con todo, la agregación de los datos de nuestro panel ha dado lugar a nuevos conocimientos sobre el
momento y la cantidad de decisiones de compra. Mientras que algunos meses ven visitas de clientes más
frecuentes (pero están marcados por montos de compra más bajos), otros meses ven montos de compra más
altos (pero con menos frecuencia). Esta información podría llevar a nuestro departamento de marketing a
diseñar estrategias de promoción y publicidad que varíen según la temporada que, durante algunos períodos,
tengan como objetivo aumentar la cantidad que gasta un cliente ("enfoque en el presupuesto") y, durante otros
períodos, con el objetivo de aumentar la frecuencia de compra del cliente ("enfoque en la frecuencia") .

Agregando la dimensión temporal: En lugar de agregar la información


transversal, también podríamos agregar la información temporal (y por lo tanto
mantener intacta la información transversal). En nuestra situación, la información
transversal corresponde a la variación de un cliente a otro. Figura2.18 muestra
histogramas específicos del cliente (para los primeros 25 clientes en nuestros
datos). Cada histograma muestra la distribución de las compras realizadas por este
cliente durante el período de un año. En otras palabras, mientras Figure2.18 pre-
38 2 Exploración y descubrimiento de datos

ene feb mar


0 0
0

1 1

abr Mayo jun

0 0 0
1 1 1

jul ago sep

0 0 0
1 1 1

oct nov dic

0 0 0
1 1 1

Figura 2.17 Gráficos circulares mes a mes de las compras de los clientes.

atiende las diferencias de cliente a cliente, pierde la información temporal:


ya no podemos determinar si el cliente 1 hizo la compra de $ 25 en enero o
en julio. Esto es lo que queremos decir con la agregación de información
temporal.
La utilidad de la figura 2.18 es limitado y depende de nuestro objetivo. Si nuestro objetivo es
desarrollar patrones de gasto específicos para el cliente, entonces la Figura2.18 nos dice que, por
ejemplo, el cliente 5 tiene un patrón muy diferente en comparación con los clientes 6 y 13. Sin
embargo, recuerde que la Figura 2.18 muestra solo una instantánea de los primeros 25 clientes; si
nuestro panel contiene varios miles (o incluso millones) de clientes, este enfoque sería bastante
engorroso. Además, dado que trazamos diferentes histogramas para diferentes clientes, no
sabemos qué escomún entre los clientes. En otras palabras, los datos de panel son un desafío y
hay que pensar con mucho cuidado sobre la mejor manera de extraer el tipo de conocimiento que
respalda los objetivos comerciales de uno.
2.6 Gráficos para datos de panel: datos de fidelización de clientes 39

Cliente 1 Cliente 2 Cliente 3 Cliente 4 Cliente 5

4
8

0 4 8 12
2

2
4

4
0

0
0 5 10 15 20 25 0 20 60 100 0 5 10 15 20 - 1.0 - 0,6 - 0,2 0 20 40 60 80
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra

Cliente 6 Cliente 7 Cliente 8 Cliente 9 Cliente 10

8
0 4 8 12

0 4 8 12

0 4 8 12

0 4 8 12
4
0
- 1.0 - 0,6 - 0,2 - 1.0 - 0,6 - 0,2 0 10 30 50 - 1.0 - 0,6 - 0,2 - 1.0 - 0,6 - 0,2
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra

Cliente 11 Cliente 12 Cliente 13 Cliente 14 Cliente 15


8

8
0 4 8 12
4

4
0

0
0 10 20 30 40 - 1.0 - 0,6 - 0,2 0 5 10 15 0 5 10 15 0 5 10 15
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra

Cliente 16 Cliente 17 Cliente 18 Cliente 19 Cliente 20


8
8

0 4 8 12

0 4 8 12
4
4

4
0

0 20 40 60 0 5 10 15 0 2 4 6 8 10 - 1.0 - 0,6 - 0,2 - 1.0 - 0,6 - 0,2


Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra

Cliente 21 Cliente 22 Cliente 23 Cliente 24 Cliente 25


8

8
8

8
0 4 8 12
4

4
4

4
0

0
0 5 10 20 30 0 5 10 20 30 - 1.0 - 0,6 - 0,2 0 5 10 15 0 50 150
Monto de la compra Monto de la compra Monto de la compra Monto de la compra Monto de la compra

Figura 2.18 Distribución de compras para cada cliente.

Lecciones aprendidas:

• La agregación de datos suele ser útil antes de explorar los datos del panel; los datos
se pueden agregar con respecto a la dimensión temporal o la dimensión
transversal.
• Las secuencias de histogramas, gráficos circulares, diagramas de caja o cualquier otra forma de
resumen numérico o gráfico pueden resultar útiles para explorar datos de panel agregados.
(4,-$'
' $' ,'+'& (,'+2+"'+

!B9GH975DWHI@C DF9G9BH5ACGAVHC8CGD5F5AC89@5F85HCG )CGF9:9F=ACG59GHCGAVHC8CG


7CAC6UG=7CG M5EI9:CFA5B@565G989AI7<5G89@5G=895GM7CB79DHCGAUG5J5BN58CG
EI9G95B5@=N5B9B75DWHI@CGDCGH9F=CF9G !@7CB79DHCAUG6UG=7C9G9@89AC89@C9BGW +I989
DF9;IBH5FR,IV9GIBAC89@CR4DCFEIVB979G=H5ACGAC89@CG 5F9ACGF9GDI9GH5G5
9GH5GDF9;IBH5G:IB85A9BH5@9G9B@5.977=YB  !B@5G977=YB  5B5@=N5F9ACG@CGAC89@CG
89F9;F9G=YB@=B95@7CACIBC89@CGH=DCG89AC89@CGAUG9LH9B8=8CGMJ9FGUH=@9G !@BCA6F9
@=B95@=AD@=75EI98=G7IH=F9ACGAC89@CGEI95GIA9BEI9@5F9@57=YBG=;I9IB5@WB95F97H5 
+CF9>9AD@C DI9895F;IA9BH5FEI97I5BHCAUG7CA9 AUGD9GC5IA9BH5 MDI9895IA9BH5F
IB5@=6F558=7=CB5@89D9GC7CFDCF5@DCF7585@=6F5897CA=85EI9=B;=9F5 !GC9G9L57H5A9BH9
@CEI9EI9F9ACG897=F7CBIBAC89@C@=B95@7585IB=858899BHF585H=9B99@A=GAC=AD57HC
DFCDCF7=CB5@ 9B@5G5@=85 .=7CAC@=6F5G897CA=85 5IA9BH5FV@=6F5G89D9GC7CFDCF5@
MG=7CAC@=6F5G ;5B5FV@=6F5G89D9GC7CFDCF5@ M5GWGI79G=J5A9BH9@5F9@57=YB9BHF9
9BHF585MG5@=859GG=9ADF9@5A=GA559B9GH975GC -UD=85A9BH9G985FU7I9BH589EI9 
G=6=9B9@7CB79DHC89AC89@CG@=B95@9G9G9LHF9A585A9BH9DC89FCGC H5A6=VBH=9B9GIG
@=A=H57=CB9G +CF9>9AD@C R 9J9F8587F99GEI99@AIB8C9BH9FCG=;I9F9@57=CB9G@=B95@9G.= 
DCF9>9AD@C 9@7F97=A=9BHC<IA5BC:I9@=B95@M5IA9BHY5@A=GACF=HACHC8CG@CG5XCG RDCF
EIV7I5B8C@@9;5ACG5@CG5XCGBCH9B9ACGD=9G895@HIF5!B9G9G9BH=8C H5A6=VB
8=G7IH=F9ACG@5G@=A=H57=CB9G89@5F9;F9G=YB@=B95@5@C@5F;C899GH975DWHI@C @;IB5G899GH5G
@=A=H57=CB9GG956CF85FUB89=BA98=5HC A=9BHF5GEI9CHF5GG9FUBBI9GHF5ACH=J57=YBD5F5
AVHC8CGAUG5J5BN58CGEI9G95B5@=N5B9B75DWHI@CGDCGH9F=CF9G

!B@5G977=YB  ACGHF5F9ACG7YAC5D@=75F@5F9;F9G=YB@=B95@5IB7CB>IBHC8985HCG
M @CEI99GAUG=ADCFH5BH9 ACGHF5F9ACG7YAC@99F9=BH9FDF9H5F@CGF9GI@H58CG  9<97<C ;F5B
D5FH9899GH9@=6FCG979BHF59B7CADF9B89F@CGF9GI@H58CG89@5F9;F9G=YBMCHFCGH=DCG89AC89@CGM
AVHC8CG .=6=9B5A9BI8C9G65GH5BH9:U7=@75@7I@5FIBAC89@C89F9;F9G=YB 5A9BI8C BCG9
B979G=H5AUGEI99@7@=789IBACIG9 9@J9F8589FC89G5:WCF58=759B7CADF9B89F@CGF9GI@H58CGM
89F=J5F9@7CBC7=A=9BHC7CA9F7=5@899@@CG !GH9G9FUBI9GHFC9B:CEI9DF=B7=D5@9B@5.977=YB  
.977=YB G979BHF59BCHFC5GD97HC=ADCFH5BH989@AC89@58C8=GH=B;I=F@5GD=9N5G=ADCFH5BH9G89
=B:CFA57=YB89@5GEI9BCGCBH5B=ADCFH5BH9G  9<97<C @5A5MCFW589@CG5@;CF=HACG89AC89@58C
GCB65GH5BH9]89G79F96F58CG^M<579B9L57H5A9BH9@CEI9@9G8=79EI9<5;5B .=@98=795@5@;CF=HAC
EI9=B7CFDCF9IB7=9FHC

2 &5B? BU@=G=G89B9;C7=CGD5F5;9F9BH9G 0G9-  *%      P 


.DF=B;9F.7=9B79
IG=B9GG(98=5 ''
 (C89@58C8985HCG% CB79DHCG6UG=7CG

=B:CFA57=YB 9BHCB79G@C<5FU:U7=@A9BH9 +CF@CH5BHC @575F;5F97599BIGH98D5F59@=A=B5F@5


6I9B5=B:CFA57=YB89@CEI9BC9GH5BF9@9J5BH9 CB9G9:=B 9L=GH9IB5J5F=985889
<9FF5A=9BH5G9GH58WGH=75G 5A9BI8C89BCA=B585G=B:9F9B7=59GH58WGH=75 EI9DI989B
5MI85F7CB9@DFC79GC899@=A=B57=YB '5=B:9F9B7=59GH58WGH=75=BH9BH59GH56@979F@5G9X5@EI9
F9G=899B@CG85HCGM@57CBHF5GH57CB9@FI=8C MG=@5F9@57=YBG9X5@FI=8CBC9G;F5B89 @CG
AVHC8CG=B:9F9B7=5@9G;9B9F5@A9BH9GI;9F=FUBEI97=9FH5=B:CFA57=YBBC9G89A5G=58C
F9@9J5BH9D5F5BI9GHFC5BU@=G=G 75IG5M896989G75FH5FG9

&,*'-"5& 1'*)-3&  +",%'+%' $'+

CA9BN5ACG8=G7IH=9B8C@5G=895GM7CB79DHCG6UG=7CG89IBAC89@C +I989DF9;IBH5F
R,IV9GIBAC89@CMR+CFEIVB979G=H5ACGAC89@CG9B7CB>IBHC'5F9GDI9GH59G
EI9@CGAC89@CGG9GI9@9B7CBG=89F5F7CACIB556GHF577=YBCIB55DFCL=A57=YB 89@5
F95@=858 45A9BI8C@CGB979G=H5ACGDCFEI9H9B9ACGIBDFC:IB8C89G9C89
7CADF9B89F9@D5G58C 5DF9B89F89V@M@I9;CDF9897=F9@:IHIFC !GH989G9CDF9J5@979
9GD97=5@A9BH99B@CGB9;C7=CG 8CB89BCG;IGH5FW57CBC79FF9GDI9GH5G5DF9;IBH5G
7CACRIUBHCG7@=9BH9GJ=G=H5FUBA=H=9B85A5X5B5 R 969FW5:56F=75FC
H9@V:CBCG=BH9@=;9BH9G*.==BJ=9FHCA=8=B9FC9BGHC7?<CM R5IA9BH5FUGIJ5@CF
A5X5B5
(I7<5G897=G=CB9G7CA9F7=5@9G9GHUB=ADI@G585GDCFBI9GHF575D57=858D5F55BH=7=D5FBCG5@
:IHIFC  9<97<C @58=:9F9B7=59BHF9IB59ADF9G57CA9F7=5@9L=HCG5MIB:F575GC5A9BI8C89D9B89
89BI9GHF575D57=858D5F5DF9897=F9@:IHIFC D5F55BH=7=D5F9@7CADCFH5A=9BHC89BI9GHFCG7@=9BH9G
C@CGACJ=A=9BHCG89BI9GHFCG7CAD9H=8CF9G 'CGAC89@CG>I9;5BIBD5D9@7@5J99B9GH9DFC79GC 
'CGAC89@CGBCGD9FA=H9BG9D5F5F@CG85HCG9B9@9A9BHCGDF9897=6@9G9=ADF9897=6@9G  9<97<C 
@CGAC89@CGG9D5F5B9@FI=8C=ADF9897=6@9 89@CGD5HFCB9GDF9897=6@9G @5DF9B89F89@CG
D5HFCB9GEI9C7IFF=9FCB9B9@D5G58CMH5@J9N5>IGH5FC57HI5@=N5F9GHCGD5HFCB9G8957I9F8C7CB@CG
9J9BHCGDF9G9BH9G 5A9BI8CDC89ACGDF9897=F9@:IHIFC
+5F5EI9@58=G7IG=YBG95AUG7CB7F9H5 7CBG=89F9ACG9@G=;I=9BH99>9AD@C
89@=69F585A9BH9G=AD@9 (9G5 AI9GHF5=B:CFA57=YBGC6F9@5GJ9BH5G89IBH=DCD5FH=7I@5F
89F9:F9G7C8=GHF=6I=8C9B8=:9F9BH9GF9;=CB9G89J9BH5G 89AUG89@5=B:CFA57=YB89J9BH5G 
@5H56@5H5A6=VBF9;=GHF5@575BH=858898=B9FC;5GH5859BDI6@=7=8589B7585F9;=YB

-*''CG85HCG89
19BH5G 8JH
J9BH5GMDI6@=7=858 'CG85HCG
G9F9;=GHF5B9BA=@9G89
   
8Y@5F9G 19FH5A6=VB5F7<=JC    
19BH5GMDI6@=7=858 7GJ    
   
   
   
   
  
 
 %BHFC8I77=YBR+CFEIVB979G=H5ACGAC89@CG 





19BH5G





               
+I6@=7=858

"!-* =5;F5A5898=GD9FG=YB9BHF9DI6@=7=858MJ9BH5GD5F5@CG85HCG89F9:F9G7CG

R,I=VB9GH5FW5=BH9F9G58C9B9GH9H=DC8985HCGM7YACEI9FFW5BIH=@=N5F@CGI9BC 9@;9F9BH989
A5F?9H=B;D5F5IBC DCFEI9@CG85HCGDI989BOCBC (CGHF5FEI9@CG9G:I9FNCGEI99@@5MGI9EI=DC
=BJ=9FH9B9BDI6@=7=858F95@A9BH9=ADCFH5B !BCHF5GD5@56F5G 9@;9F9BH989A5F?9H=B;DI989H9B9F
@57CF5NCB58589EI99L=GH9IB5F9@57=YBDCG=H=J59BHF9@5DI6@=7=858M@5GJ9BH5G9G897=F 7I5BHC
AUG8=B9FCG9;5GH59BDI6@=7=858 AUG5IA9BH5B@5GJ9BH5G +9FC R7YACDI9895DCM5F9GH5
7CF5NCB58545<9ACG5DF9B8=8C5@;IB5G<9FF5A=9BH5G6UG=75G9B9@5DWHI@C@5<9FF5A=9BH5AUG
G=AD@9M5@A=GACH=9ADCAUGDC89FCG5 D5F55DCM5F9GH57CF5NCB585G9FW57F95FIB;FU:=7C89
8=GD9FG=YB9BHF9DI6@=7=858MJ9BH5G "=;IF5 AI9GHF59GH98=5;F5A5898=GD9FG=YB

R,IVDC89ACG5DF9B89F89@5:=;IF5 I9BC DC89ACG5DF9B89FEI99L=GH9IB


-9@57=YBDCG=H=J59BHF9DI6@=7=858MJ9BH5G9G897=F @5GJ9BH5G;9B9F5@A9BH95IA9BH5B5A98=85
EI95IA9BH5@5DI6@=7=858 M DCF@CH5BHC @57CF5NCB58589@;9F9BH9F9GI@H57CFF97H5 +9FC R9G9GHC
F95@A9BH9HC8C@CEI9BCG=BH9F9G5+=9BG99B9@8=F97HCF9>97IH=JC89@59ADF9G5 EI9@9<579@5
G=;I=9BH9DF9;IBH55@8=F97HCF89A5F?9H=B;

R.CB9:97H=JCGGIG9G:I9FNCGDI6@=7=H5F=CG

REIVG9F9:=9F99@8=F97HCF9>97IH=JC7CB9:=75N0B5:CFA589=BH9FDF9H5F9:=75NG9FW5
<579F@5DF9;IBH589A5B9F55@;C8=:9F9BH9R$5MGI:=7=9BH9F9BH56=@=858* 8=7<C9BIB
@9B;I5>9AUG:CFA5@+CF75858Y@5FEI9;5GH5ACG9BDI6@=7=858 RC6H9B9ACG@CGI:=7=9BH95
75A6=C5HF5JVG89@5GJ9BH5G +CF9>9AD@C REIVD5G5G=DCF75858Y@5FEI9;5GH5ACG9B
DI6@=7=858GC@CC6H9B9ACGIBF9HCFBC8979BH5JCGGC6F9@5GJ9BH5GR!GH5FW5G:9@=N7CB9GC
R.I!*9GH5FW57CBH9BHC7CB9GC+CFCHFC@58C REIVD5G5G=DCF75858Y@5FEI9=BJ=9FH99B
DI6@=7=858 @5GJ9BH5G89JI9@J9BIBDFCA98=C89R)CH9<5FW59GC5H=M5HI9EI=DC 
AI7<CAUG:9@=79G+9FC7CACDC89ACG7I5BH=:=75F9@=AD57HC89
 (C89@58C8985HCG% CB79DHCG6UG=7CG

BI9GHFC 9G:I9FNCGDI6@=7=H5F=CGR+C89ACG7I5BH=:=75F@C5D5FH=F89@5:=;IF5 '5G=AD@9F9GDI9GH5


BC9G)CDC89ACG7I5BH=:=75FD5HFCB9GEI9GC@CJ9ACG9BIB;FU:=7C +5F5
7I5BH=:=75FIB5F9@57=YB OB979G=H5ACGIBAC89@C
!BHCB79G REIV9GIBAC89@C(C89@C 9BGI:CFA5AUGG=AD@9 9GIB597I57=YB
A5H9AUH=75 !B9@9>9AD@C5BH9F=CF IBAC89@C<=DCHVH=7C DC8FW5J9FG97CAC@5G=;I=9BH9
97I57=YB
19BH5G 
T+I6@=7=858  

R,IVG=;B=:=759GH597I57=YB+F=A9FC DC89ACGIG5F@CD5F59GH=A5F8=:9F9BH9GB=J9@9G89
J9BH5GD5F58=:9F9BH9GB=J9@9G89;5GHC9BDI6@=7=858 +CF9>9AD@C GIDCB;5ACGEI9
;5GH5ACG9BDI6@=7=858 R,IVH5B;F5B899GD9F5EI9G95B@5GJ9BH5GIG5B8C9@
AC89@C5BH9F=CF '5F9GDI9GH59G G=AD@9A9BH97CB97H9+I6@=7=858 9B9@@58C
89F97<C89@597I57=YB  MC6H9B9ACG

19BH5G 
 T 

@CEI99EI=J5@95  !BCHF5GD5@56F5G 9@AC89@CBCG8=79EI97I5B8C;5GH5ACG


 9BDI6@=7=858 9GD9F5ACGJ9F5DFCL=A585A9BH9 9BJ9BH5G '575@=85889
9GH5DF98=77=YB89D9B8989@575@=85889BI9GHFCAC89@COA9>CF9GAC89@CG85FUB7CAC
F9GI@H58CDF98=77=CB9GAUG79F75B5G5@5J9F858
!B9GH97CBH9LHC G9FW5DFI89BH958J9FH=F5@@97HCF89G899@DF=B7=D=CGC6F99@IGCMA5@IGC 89
@CGAC89@CG .=6=9B@CGAC89@CGGCBDC89FCGCGMDI989BG9F89;F5B5MI85D5F5:=B9G89DF98=77=YB
MD@5B=:=757=YB OGC@CGCBH5B6I9BCG7CAC@CG<579ACG!G897=F G=BC898=75ACGAI7<C9G:I9FNC5
6IG75F9@A9>CFAC89@CDCG=6@9 BCDC89ACG9GD9F5FAI7<C899@@CG !B9@A=GACG9BH=8C @CG
AC89@CGGCBH5B6I9BCG7CAC@CG85HCGEI9@9G=BHFC8I7=ACG@CG85HCG89:=7=9BH9G9B9@@58C89
9BHF58585FUB7CACF9GI@H58CDF98=77=CB9G89:=7=9BH9G9B9@@58C89G5@=85 19F9ACGAI7<CG
9>9AD@CG899GH9DFC6@9A58975@=8588985HCG5@C@5F;C899GH9@=6FC CA9BH5F=CIB:5ACGC
9GH58WGH=7C8=>CIB5J9NEI9HC8CG@CGAC89@CGGCB=B7CFF97HCG GC@C5@;IBCGGCBA9>CF9GEI9CHFCG
!GHC=AD@=75EI9BC8969ACG7CB:=5F9L7@IG=J5A9BH99BIBAC89@CO9@G9BH=8C7CAZBM@5

9LD9F=9B7=59ADF9G5F=5@GCB=;I5@A9BH9=ADCFH5BH9GD5F5HCA5F6I9B5G897=G=CB9G

1C@J5ACG5BI9GHFCAC89@C9B@597I57=YB  R,IVAUGDC89ACG5DF9B89F89@5
G=;I=9BH9F9@57=YB

19BH5G 
T+I6@=7=858

!BD5FH=7I@5F REIVBCG8=799@BZA9FC +=VBG9@C89@5G=;I=9BH9A5B9F5G=


BC;5GH5ACG8=B9FC9BDI6@=7=858 RG9;I=FW5ACGJ9B8=9B8CBI9GHFCDFC8I7HC
O+FC656@9A9BH9RIUBHCJ9B89FW5ACG.9;ZBBI9GHFCAC89@C J9B89FW5ACG

19BH5G 
 T

!GH5GD5@56F5GG9GI9@9B5HF=6I=F5@:5ACGC9GH58WGH=7C#9CF;9CL
 %BHFC8I77=YBR+CFEIVB979G=H5ACGAC89@CG 

/9B;59B7I9BH5EI9 858CEI9BC;5GH5ACG8=B9FC9BDI6@=7=858 9GH56@979ACG+I6@=7=858


9BBI9GHFCAC89@C !@F9GI@H58C9G  !BHCB79G 89BCH5@575BH=85889
J9BH5G9B5IG9B7=589DI6@=7=858
89AUG R7YACDC89ACG=BH9FDF9H5F9@BZA9FC9BBI9GHFCAC89@CR)C9GHUG
G9;IFC!BHCB79G7CBG=89F9ACG9@G=;I=9BH99G79B5F=CCBG=89F9ACG8CG;9F9BH9G89
A5F?9H=B; 0B;9F9BH9DFCDCB9;5GH5F 9BDI6@=7=8589@CHFCDFCDCB9;5GH5F
 9BDI6@=7=858 RIU@9GGCB@5GJ9BH5G9GD9F585GD5F5@CG;9F9BH9GM.CB 
F9GD97H=J5A9BH9

19BH5G 
 T   

D5F59@;9F9BH9M

19BH5G 
 T   

D5F59@;9F9BH9 !BHCB79G R7IU@9G@58=:9F9B7=59BHF9@CG;9F9BH9GM!GHU

   

!BCHF5GD5@56F5G 858CEI99@;9F9BH9;5GH5 AUG9BDI6@=7=858 C6H=9B9 


AUG9B89JC@I7=CB9G89J9BH5G * 8=7<C89CHF5A5B9F5IB5J9NAUG DCF75858Y@5F
58=7=CB5@EI9;5GH5 F97=697=B7C8Y@5F9G58=7=CB5@9G575A6=C !G99G9L57H5A9BH99@
G=;B=:=758C89@J5@CF9BBI9GHFCAC89@CA=897YACFUD=8C@5GJ9BH5G5IA9BH5BDCF7585
8Y@5F58=7=CB5@EI9;5GH5ACG9BDI6@=7=858 /5A6=VBBCGF9:9F=ACG59GH9J5@CF7CAC9@
+9B8=9BH989@AC89@C 9A5B9F5G=A=@5F 9@J5@CF89 H5A6=VBG97CBC797CAC9@
=BH9F79DH5F M5EI9=B8=758YB899@AC89@C=BH9F79DH59@4 9>99G897=F 9@J5@CF8CB89@5
F9GDI9GH5 J9BH5G9BBI9GHFC75GC 9G=;I5@579FC
RZBBC9GHUG7CBJ9B7=8CR,IVH5@9@G=;I=9BH9AC89@C8=:9F9BH9 

19BH5G 
T+I6@=7=858

CAD5F58C7CB9@AC89@C  5FF=65 R@5GJ9BH5G5<CF55IA9BH5BAUGFUD=8CCAUG@9BHCD5F5


75858Y@5F58=7=CB5@EI9;5GH5ACG9BDI6@=7=858
*HF5=@IGHF57=YB89@AC89@C  G9AI9GHF59B9@D5B9@=NEI=9F8C89@5"=;IF5  EIW
J9ACG@CGJ5@CF9G89@5GJ9BH5G;F5:=758CG7CBHF5IBF5B;C898=:9F9BH9GJ5@CF9G89
DI6@=7=858 !@HF=UB;I@C5NI@=@IGHF59@G=;B=:=758C89@5D9B8=9BH9 .=5IA9BH5ACG@5DI6@=7=858
89 5  9BHCB79G]75A=B5FW5ACG^ IB=8589G<57=5@589F97<55@C@5F;C
89@9>9DI6@=7=H5F=C !GHCG9=@IGHF57CB@5D5FH9<CF=NCBH5@89@HF=UB;I@C !@5IA9BHC89@5
DI6@=7=85885FW57CACF9GI@H58CIB5;5B5B7=589:57HC895@H=HI89B IB=8589G
=@IGHF585DCF@5D5FH9J9FH=75@89@HF=UB;I@C 9BCHF5GD5@56F5G @5GJ9BH5G5IA9BH5FW5B

'5F9GDI9GH59G@5GJ9BH5G5<CF55IA9BH5B5IBF=HACAUG@9BHC  9<97<C 5<CF5 DCF75858Y@5FDI6@=7=H5F=C


58=7=CB5@ @5GJ9BH5GGC@C5IA9BH5B9B8CG8Y@5F9G CAD5F99GHC7CBIB5IA9BHC897=B7C8Y@5F9G9B9@AC89@C
5BH9F=CF
 (C89@58C8985HCG% CB79DHCG6UG=7CG










1!)/.

1!)/.









   
 1/  1/

"!-*+5B9@=NEI=9F8CIB5=@IGHF57=YB;FU:=7589@AC89@C9B  +5B9@89F97<CAC89@CG5@H9FB5H=JCG7CB
D9B8=9BH9G89 M F9GD97H=J5A9BH9

DCF  !@D5B9@89F97<C89@5:=;IF5 AI9GHF58CGAC89@CG58=7=CB5@9G IBC7CBIB5D9B8=9BH989


 @WB958=G7CBH=BI5 M9@CHFC7CBIB5D9B8=9BH989@WB958=G7CBH=BI5 +C89ACGJ9FEI9@5A5;B=HI889
@5D9B8=9BH9G9HF58I798=F97H5A9BH99B@5]=B7@=B57=YB^89@5@WB95A=9BHF5GEI9@5@WB957CFF9GDCB8=9BH95
IB5D9B8=9BH989 @WB95=B:9F=CF 9G65GH5BH9D@5B5 IB5D9B8=9BH989F9GI@H59BIB5D9B8=9BH9AIM
DFCBIB7=585

 "'& +(* &"+

_$9ACG<56@58C89@5=ADCFH5B7=589@CGAC89@CGA5H9AUH=7CGD5F5@5HCA589897=G=CB9G 
'CGAC89@CGGCBIB556GHF577=YB89@5F95@=858MG9D5F5B@CGD5HFCB9GDF9897=6@9G89@
FI=8C=ADF9897=6@9 'CGAC89@CGGCB=ADCFH5BH9GDCFEI9BCGD9FA=H9B7I5BH=:=75FIB5
F9@57=YBA=9BHF5GEI9@CG8=5;F5A5G898=GD9FG=YBM@5GH56@5G897CFF9@57=YBBCG
=B:CFA5FUBGC6F9@5B5HIF5@9N57I5@=H5H=J589IB5F9@57=YBD !> +CG=H=J5:F9BH95
B9;5H=J5 8V6=@:F9BH95:I9FH9 BCBCG8=79B9L57H5A9BH97YACG9DFC8I799@F9GI@H58C 
75A6=57CACF9GI@H58C8975A6=CG9B@5GJ5F=56@9G899BHF585 !BCHF5GD5@56F5G @CG
AC89@CGBCGD9FA=H9B7I5BH=:=75F7CBDF97=G=YB7IUBHC9GD9F5ACGEI97F9N75B@5GJ9BH5G
DCF7585ACBHC58=7=CB5@89;5GHC9BDI6@=7=858 DCF9>9AD@C .=BIBAC89@C BC
DC8FW5ACGDFCBCGH=75F9@:IHIFCM 7CACF9GI@H58C BCDC8FW5ACGF95@=N5FIB5
D@5B=:=757=YBG=;B=:=75H=J5
 >IGH99=BH9FDF9H57=YB89IBAC89@C89F9;F9G=YBF9;F9G=YB89AWB=ACG7I58F58CG 

_/5A6=VB<9ACG8=G7IH=8C@58=:9F9B7=59BHF9@5D9B8=9BH9M@5=BH9FG977=YB89IB
AC89@CMGIG=BH9FDF9H57=CB9GDFU7H=75G '5=BH9FG977=YB89BCH5@5D5FH989@AC89@C
8CB89@5@WB95G97FIN57CB9@4 9>9 '5=ADCFH5B7=5899GH9BZA9FC9GEI989BCH5@5
75BH=85889DFC8I77=YB9B5IG9B7=5897I5@EI=9F9BHF585DCF9>9AD@C @575BH=858
89J9BH5GG=BDI6@=7=858 '5D9B8=9BH9 DCFCHFC@58C BCG8=79EIVH5BFUD=8C
7F979FU@5G5@=85D5F57585IB=85858=7=CB5@89@5GJ5F=56@9G899BHF585 +CF
9>9AD@C DC8FW5897=FBCGEI9@5GJ9BH5G7F979FUB58=7=CB5@9GDCF758589
5IA9BHC9BDI6@=7=858 '5D9B8=9BH989IBAC89@C9GD5FH=7I@5FA9BH9=ADCFH5BH9
DCFEI9BCGD9FA=H9A98=F@5=ADCFH5B7=59GH58WGH=75MDFU7H=7589IB5J5F=56@989
9BHF585 7CBH=BI57=YB G9DCB8FUAI7<CVB:5G=G9B=BH9FDF9H5F7CFF97H5A9BH9@5
D9B8=9BH9

#-+,  "&, *(* ,"5& -&%' $' * !* +"5& 


* !* +"5& %4&"%'+-*'+

!B9GH5G977=YB 8=G7IH=F9ACG8CGDF9;IBH5GF9@57=CB585G

 RYACDC89ACGC6H9B9FIBAC89@C7CAC9@89@597I57=YB  
 4 @CEI99GAUG=ADCFH5BH9 R7YACDC89ACG=BH9FDF9H5FH5@AC89@CMIH=@=N5F@CD5F5C6H9B9F=B:CFA57=YB
9ADF9G5F=5@

I5B8C897=ACGC6H9B9FIBAC89@C 9BF95@=858BCGF9:9F=ACG5IH=@=N5F85HCGD5F5C6H9B9FIB
AC89@C /C8C9GH9@=6FCG979BHF59BC6H9B9F=B:CFA57=YB9ADF9G5F=5@5D5FH=F89@CG85HCG @5F5A9BH9 <5M
AI7<5G:CFA5G89C6H9B9FIBAC89@C7CAC9B@597I57=YB  G=B9@IGC897I5@EI=9F85HC +CF9>9AD@C G9
DC8FW5DF9;IBH5F5J5F=CG9LD9FHCGGC6F9GIA9>CFGIDCG=7=YBGC6F9@5F9@57=YB9B@597I57=YB  .=6=9B
9GH9H=DC89G9G=CB9G89@@IJ=589=895GGCB89G5:CFHIB585A9BH9 IB5DFU7H=757CA9F7=5@65GH5BH97CAZB 
9GHCBC9G@CEI9H9B9ACG9BA9BH95EIW )I9GHFCC6>9H=JC9G89F=J5FIBAC89@C65G58CDIF5A9BH99B
<97<CGC6>9H=JCGM65G58CG9B85HCG 9B@I;5F8989D9B89F89=BHI=7=CB9GM7CB>9HIF5G !GHCBCEI=9F9897=F
EI9@59LD9F=9B7=589IB;9F9BH9BC>I9;I9B=B;ZBD5D9@9B@5HCA589897=G=CB9G65G5859B85HCG +CF9@
7CBHF5F=C @59LD9F=9B7=589IB;9F9BH9DI989G9F9LHF9A585A9BH9J5@=CG57I5B8CG9IH=@=N59B7CB>IB7=YB
7CBAC89@CGMAVHC8CG65G58CG9B85HCG  9<97<C @59LD9F=9B7=5>I9;5IBD5D9@D5FH=7I@5FA9BH9
=ADCFH5BH95@=BH9FDF9H5FM5D@=75F@CGF9GI@H58CG89AC89@CG65G58CG9B85HCG 19F9ACG9>9AD@CGAIM
DFCBHC
/5A6=VBG9X5@5ACG5BH9F=CFA9BH9EI9DCB8F9ACGAUGVB:5G=G9B@5=BH9FDF9H57=YB
89AC89@CG9B@I;5F89GI9GH=A57=YB '5F5NYB9GEI95A9BI8CG9DI9899GH=A5FIB
AC89@C7CBIB7@=789@ACIG9 .=B9A65F;C @CEI9GI9@9G9FAI7<CAUG8=:W7=@9G
7CADF9B89F@CGF9GI@H58CGMIH=@=N5F@CGD5F5@5HCA589897=G=CB9G !B9G9G9BH=8C BC
7I6F=F9ACGHC8CG9GCG89H5@@9GA5H9AUH=7CGM9GH58WGH=7CGEI9IBCGI9@99B7CBHF5F9B
IB@=6FC89H9LHC899GH58WGH=75HF58=7=CB5@ (UG6=9B 85F9ACGIB59LD@=757=YBJ9F65@89
5@;IBCG89@CG:IB85A9BHCG7CB79DHI5@9GMA9HC8C@Y;=7CGM@I9;CD5G5F9ACG
FUD=85A9BH95@55D@=757=YB9=BH9FDF9H57=YB89@CGAVHC8CG CA9BN5F9ACG
8=G7IH=9B8C9@AVHC8CAUG7CAZB 7CBC7=8CMDC89FCGC89C6H9B9FIBAC89@C EI95
A9BI8CG97CBC797CAC9@F9;F9G=YB89AWB=ACG7I58F58CGAVHC8C
 (C89@58C8985HCG% CB79DHCG6UG=7CG







19BH5G

19BH5G






                 
+I6@=7=858 +I6@=7=858






19BH5G

19BH5G






                 
+I6@=7=858 +I6@=7=858

"!-* 5HCG89J9BH5G89F9:F9G7CG89@5H56@5 MHF9GAC89@CGDCH9B7=5@9GD5F59GCG85HCG

"  $* !* +"5&('*%4&"%'+-*'+

CBG=89F99@8=5;F5A5898=GD9FG=YB89@5"=;IF5  EI9G9F9DFC8I799B9@D5B9@GID9F=CF
=NEI=9F8C89@5"=;IF5  I5B8C<56@5ACG89C6H9B9FIBAC89@C BCGF9:9F=ACG5IBDFC79GC
EI9BCG@@9J589@CG85HCG9B9GH98=5;F5A5898=GD9FG=YB5IBAC89@C7CAC9B@597I57=YB  
RYACDC89ACG9B7CBHF5FH5@AC89@CR47YACDC89ACG9B7CBHF5F9@A9>CFDCG=6@9RAC89@C+CF
9>9AD@C R7IU@89@5GHF9G@WB95G89@5"=;IF5 7CBGH=HIM99@A9>CFAC89@CD5F5BI9GHFCG85HCG'5
@WB959B9@D5B9@GID9F=CF89F97<CD5F97989A5G=58CD@5B5DCFCHFC@58C @5H9B89B7=59B@CG85HCG
BCD5F9799GH5F7F97=9B8CH5BFUD=8C7CAC@5@WB959B9@D5B9@=B:9F=CF=NEI=9F8C !BHCB79G R@5@WB95
9B9@D5B9@=B:9F=CF89F97<C7CFF9GDCB895@A9>CFAC89@CDCG=6@91=GI5@A9BH9 9GH5@WB95D5F979
75DHIF5FAIM6=9B@5H9B89B7=59B@CG85HCG +9FC R8969ACG7CB:=5F9BBI9GHFCGC>CG4DC89ACG
7I5BH=:=75F,I9H5B6=9B9G5@WB95G95>IGH55@CG85HCGCB9G9:=B IH=@=N5ACGIBAVHC8CEI9G9
7CBC797CACF9;F9G=YB89AWB=ACG7I58F58CG
'5F9;F9G=YB89AWB=ACG7I58F58CG9B7I9BHF59@A9>CFIYDH=AC AC89@CA=B=A=N5B8C@5
GIA589@CGF9G=8ICG5@7I58F58C !G=ADCFH5BH985FG97I9BH589EI99GH59GGC@CIB5:CFA5
8989:=B=F9@AC89@C]A9>CF^CHF5:CFA5G9FW5A=B=A=N5F@5GIA589@CGF9G=8ICG56GC@IHCG 9
=B7@IGC<5MCHFCG7F=H9F=CG CBG=89F9@5:=;IF5  (I9GHF57I5HFCDIBHCG8985HCG89AI9GHF5
858CGDCF@CG7I5HFCDIBHCGGY@=8CG MIB5@WB95<=DCHVH=755HF5JVG899GCG85HCG ,I9F9ACG
IG5F9G5:=;IF5D5F5=@IGHF5F9@7CB79DHC89F9;F9G=YBDCFAWB=ACG7I58F58CG

@5F5A9BH9 DC89ACG9B7CBHF5FAI7<5G@WB95G8=:9F9BH9G5HF5JVG899GHCG7I5HFCDIBHCG8985HCG 
+9FC R7YACDC89ACG7I5BH=:=75FEIV@WB95G9D5F979A9>CF5@5H9B89B7=59B@CG85HCGCB9G9:=B J5ACG
 >IGH99=BH9FDF9H57=YB89IBAC89@C89F9;F9G=YBF9;F9G=YB89AWB=ACG7I58F58CG 




1!)/.

*6G9FJ58C


-9G=8I5@


+F98=7<C


     

 1/

"!-*%@IGHF57=YB89J5@CF9GF9G=8I5@9G DFCBCGH=758CGMC6G9FJ58CG

F9:9F=FG95@CG85HCGF95@9G7CAC9@C6G9FJ58C89AUG G=7CBG=89F5ACG@5DFCM977=YB89@CG85HCG
C6G9FJ58CG9B@5@WB95=B8=7585DCF@5G@WB95G89DIBHCG 9BHCB79GBCGF9:9F=ACG5@CGDIBHCG
7CFF9GDCB8=9BH9G9B@5@WB957CACDF98=7<CJ5@CF9G '58=:9F9B7=59BHF9@CGJ5@CF9GC6G9FJ58CGM
DF98=7<CGA=89EIVH5B6=9BBI9GHFCAC89@CG95>IGH55@CG85HCG8=:9F9B7=5GAUGD9EI9X5G
=AD@=75BIBA9>CF5>IGH9 !GH58=:9F9B7=5EI9J=9B98585DCF@5@CB;=HI889@5G@WB95GDIBH9585G 
H5A6=VBG97CBC797CACF9G=8I5@  58CEI9H9B9ACGAI7<CGDIBHCG8985HCG8=:9F9BH9G H9B9ACG
AI7<CGJ5@CF9GF9G=8I5@9G8=:9F9BH9G '5F9;F9G=YB89AWB=ACG7I58F58CG89H9FA=B59@A9>CF
AC89@C5@9B7CBHF5F@5@WB95EI9A=B=A=N5@5GIA589HC8CG@CGF9G=8ICG7I58F58CG !GB979G5F=C
<579F5@;IBCG7CA9BH5F=CGAUGGC6F99GH9DFC79GC R+CFEIV7I58F5ACG@CGF9G=8ICG+CFEI9
7F99ACGEI9@CGF9G=8ICGB9;5H=JCG;F5B89G9G897=F DIBHCGAIMDCF8965>C89@5@WB95 GCBH5B
A5@CG7CAC@CGDCG=H=JCG;F5B89G9G897=F DIBHCGEI99GHUBAIMDCF9B7=A589@5@WB95 @9@9J5F5@
7I58F58C@CGJ5@CF9GF9G=8I5@9G HF5H5ACG@5G8=G7F9D5B7=5GDCG=H=J5GMB9;5H=J5G89@5A=GA5
A5B9F5 R4DCFEIVGIA5ACGHC8CG@CGF9G=8ICG5@7I58F58C+CFEI9BCDC89ACG

!B@I;5F899@9J5F5@7I58F58C@CGF9G=8ICG H5A6=VBDC8FW5ACGHCA5FGIGJ5@CF9G56GC@IHCG A6CG


9B:CEI9GH=9B9B9@9:97HC89EI9@5G8=G7F9D5B7=5GB9;5H=J5GG97CBG=89F5BH5BA5@5G7CAC@5GDCG=H=J5G 
!BHCB79G RDCFEIV7I58F5ACG9B@I;5F89HCA5FJ5@CF9G56GC@IHCG'5F9GDI9GH5DFC656@9A9BH989D9B85
895EI=VB@9DF9;IBH9 0B5F9GDI9GH5G965G59B@5<=GHCF=5 '5F9;F9G=YBDCFAWB=ACG7I58F58CGG9
F9ACBH55@:5ACGCA5H9AUH=7C5F@"F=98F=7<#5IGG9B9@G=;@C31%%% !B9@G=;@C31%%% @5G7CADIH58CF5GBC
9GH565B8=GDCB=6@9G !BHCB79G D5F575@7I@5FIB5@WB9589F9;F9G=YB IBCH9B8FW5EI9<579F@CG7U@7I@CG5
A5BC +C89ACG89H9FA=B5F9@AWB=AC89@5GIA589@CGF9G=8ICG7I58F58CGA5BI5@A9BH9DCFEI9GC@C
=AD@=75A=B=A=N5FIB5:IB7=YB7I58FUH=75 @CEI9G9DI989<579FHCA5B8C@5DF=A9F589F=J585
 (C89@58C8985HCG% CB79DHCG6UG=7CG

9B7I9BHF9IB5GC@5@WB95F97H5EI9A=B=A=79HC8CG@CGF9G=8ICGG=AI@HUB95A9BH9 !B75A6=C 
A=B=A=N5ACG@5DFCA98=C5@7I58F58C J5@CFF9G=8I5@  9<97<C A=B=A=N5F9@DFCA98=CH=9B9
9@A=GACF9GI@H58CEI9A=B=A=N5F@5GIA5M5EI9@5ZB=758=:9F9B7=59BHF9@CG
DFCA98=CM@5GIA59G@57CBGH5BH989BCFA5@=N57=YB BCFH9 !BCHF5GD5@56F5G AWB=ACG7I58F58CG

'5F9;F9G=YB9B7I9BHF59G5@WB959BHF9HC85G@5G@WB95GDCG=6@9G EI9857CACF9GI@H58C@58=GH5B7=5F9G=8I5@
5@7I58F58CDFCA98=CAUGD9EI9X5

&, *(* ,"5& -&(*"% *%' $' * !* +"5&+"%($

195ACGIB9>9AD@C CBG=89F9BI9J5A9BH9@CG85HCG89@5/56@5 G9AI9GHF59B@5"=;IF5


  /9B9ACG8=GDCB=6@9G8CGD=9N5G89=B:CFA57=YB DI6@=7=858MJ9BH5G M<9ACG
5F;IA9BH58C5BH9F=CFA9BH9EI99GH5FW5ACG=BH9F9G58CG9B7CADF9B89FG=M7YAC @5
DI6@=7=8585:97H5@5GJ9BH5G CB9G9:=B BCG;IGH5FW59GH=A5FIBAC89@C89@5:CFA5

19BH5G5
T+I6@=7=858  

/9B;59B7I9BH5EI99GH99G9@A=GACAC89@CEI99B@597I57=YB  9L79DHCEI9H9B9ACG5<CF5
F99AD@5NY@CGBZA9FCG MDCFA5F758CF9G89DCG=7=YB;9BVF=7CG5M F9GD97H=J5A9BH9 /9B;59B
7I9BH5EI9BCFA5@A9BH9BCGF9:9F=ACG58=7<CGA5F758CF9G89DCG=7=YB7CAC7C9:=7=9BH9G /5A6=VBH9B;5
9B7I9BH5EI99B@597I57=YB  5756U65ACG89<579F@CGBZA9FCG M5<CF5 EI9F9ACG9GH=A5F
@CGBZA9FCGJ9F8589FCG89@CG85HCG CB9G9:=B IH=@=N5ACG@5F9;F9G=YB89AWB=ACG7I58F58CG
'59GH=A57=YB89AWB=ACG7I58F58CGG9F95@=N5BCFA5@A9BH97CBIBG=AD@97@=789@ACIG9
C9G7F=6=9B8CIB5GC@5@WB95897Y8=;C9B9@GC:HK5F9 !G9BC9G9@89G5:WC !@89G5:WC
;9B9F5@A9BH9F58=759B=BH9FDF9H5F9@F9GI@H58C '5G5@=8589@GC:HK5F97CFF9GDCB8=9BH95@5
9GH=A57=YB89F9;F9G=YB89AWB=ACG7I58F58CG89@AC89@C  G9AI9GHF59B@5"=;IF5  
+C89ACGJ9FEI9IBG=AD@97@=789@ACIG9CIB5GC@5@WB95897Y8=;C <58=GD5F58C65GH5BH9
=B:CFA57=YB <CF58=G7IH=ACG7YAC=BH9FDF9H5FHC859GH5=B:CFA57=YB
'59GH=A57=YB89AWB=ACG7I58F58CG89G9B7589B5IB5@CH989DFC8I77=YB 5A9BI8CAUG89@5EI9G9
DI9898=;9F=F:U7=@A9BH9 +CF9G5F5NYB 5@A9BCGDCF5<CF5 GC@CBCG9B:C75F9ACG9B@5G8CGD=9N5G89
=B:CFA57=YBF9G5@H585GDCF@CG8CGF97I58FCG9B@5"=;IF5  +F=A9FC BCG79BHF5F9ACG9B@5=B:CFA57=YB
DF9G9BH5859B9@DF=A9F7I58FC9H=EI9H58C7CAC+5FH9%9B@5"=;IF5  'I9;C BCG9B:C75F9ACG9B9@
7I58FC89565>C9H=EI9H58C7CAC]+5FH9%%^ .=6=9B@5=B:CFA57=YBF9GH5BH9BC75F97989=ADCFH5B7=5 BC9G
8=F97H5A9BH9B979G5F=5D5F5=BH9FDF9H5FBI9GHFCAC89@C89F9;F9G=YB89AWB=ACG7I58F58CG

CBG=89F9@5=B:CFA57=YB85859B9@DF=A9FF97I58FC89@5"=;IF5 +5FH9% +C89ACG


J9F8CG:=@5GA5F7585G7CAC]%BH9F79D7=YB ^M] 1/^ M7I5HFC7C@IAB5G +CF5<CF5 
79BHFVACBCGGC@C9B@5DF=A9F57C@IAB5 '5DF=A9F57C@IAB5AI9GHF5@5G9GH=A57=CB9G89@CG
7C9:=7=9BH9G89@AC89@C9B@597I57=YB  !GH5G9GH=A57=CB9GGCB M 

!B7CBHF5GH9 A=B=A=N5FIB5:IB7=YBEI9=BJC@I7F5J5@CF9G56GC@IHCG9GAI7<CAUG7CAD@=758CMF9EI=9F97U@7I@CG
=H9F5H=JCG9G897=F A5B9>58CGDCF7CADIH58CF5
 >IGH99=BH9FDF9H57=YB89IBAC89@C89F9;F9G=YBF9;F9G=YB89AWB=ACG7I58F58CG 

"!-*.5@=8589GC:HK5F9D5F5IBDF=A9FAC89@C89F9;F9G=YBG=AD@9

F9GD97H=J5A9BH9  9<97<C  9G@59GH=A57=YB89@7C9:=7=9BH95M 9G@5


9GH=A57=YB89@7C9:=7=9BH9 &IBHCG 9GHC@@9J55@59GH=A58CAC89@C

19BH5G 
 T+I6@=7=858  

D@=75F@CG7CB79DHCG5DF9B8=8CG9B@5.977=YB  M5G569ACG=BH9FDF9H5F
!GH9AC89@C

&, *(* ,&'$"&, *+ "5&  !7I57=YB  AI9GHF5EI9@59GH=A57=YB89@


7C9:=7=9BH959G=;I5@5  -97I9F89EI9H5A6=VBBCGF9:9F=ACG59GH97C9:=7=9BH97CAC9@
=BH9F79DH5F89@5@WB9589F9;F9G=YB9G897=F 9@DIBHC8CB89@5@WB9589F9;F9G=YB9B@5"=;IF5
 =BH9F79DH59@4 9>9 R,IVG=;B=:=759GH9J5@CF.=;B=:=75EI9 9G=;I5@5@5
75BH=85889J9BH5GG=BDI6@=7=858 !BCHF5GD5@56F5G 9B5IG9B7=589;5GHCGDI6@=7=H5F=CG 
5ZBDC89ACG9GD9F5FIBJC@IA9B89J9BH5G89 9BDFCA98=C 
!GHCH=9B9G9BH=8CM5EI99@A5F?9H=B;BC9G9@ZB=7CACHCF89J9BH5G  9<97<C 9GH99GIB
9>9AD@C9B9@EI9@5=BH9FDF9H57=YB89@5=BH9FG977=YBH=9B9G9BH=8C7CB79DHI5@ 19F9ACG
9>9AD@CG9B9@:IHIFC9B@CGEI9@5=BH9FG977=YBBCG=9ADF9H9B8FUIB5=BH9FDF9H57=YB
G=;B=:=75H=J5

&, *(* ,&'$( &" &, 



!7I57=YB  H5A6=VBAI9GHF5EI9@59GH=A57=YB89@
7C9:=7=9BH99G=;I5@5  $9ACG5F;IA9BH58C5BH9F=CFA9BH9EI99G9@+9B8=9BH989@5
F9;F9G=YB9B@5"=;IF5  +CF@CH5BHC  =AD@=75EI9DCF7585=B7F9A9BH5F9B

/9B;59B7I9BH5EI9H5BHC@5GJ9BH5G7CAC@5DI6@=7=858G9F9;=GHF5B9BA=@9G898Y@5F9G DCF@CEI9@5
=BH9FDF9H57=YBAUGDF97=G589@J5@CF895!GEI9 5:5@H589DI6@=7=858 @59ADF9G55ZBF9;=GHF5J9BH5G89
 9BDFCA98=C
 (C89@58C8985HCG% CB79DHCG6UG=7CG





1!)/.





               
 1/

"!-* 'WB9589F9;F9G=YBD5F59@AC89@C89F9;F9G=YB9GH=A58C9B@5"=;IF5 

'5GJ9BH5G89DI6@=7=8585IA9BH5B9B  +CF@CH5BHC 75858Y@5F;5GH58C9BDI6@=7=858H=9B9IB


9:97HCAUG89G=9H9J979GA5MCF9B@5GJ9BH5G O@CEI98969FW5<579FEI99@;9F9BH989A5F?9H=B;9GHV
65GH5BH9:9@=N

.$-"5& -&%' $' * !* +"5&

+5G5ACG5<CF55=BH9FDF9H5F@5=B:CFA57=YB9B9@G9;IB8C7I58FC89@5"=;IF5 
7CA9F7=5@=N58C7CAC]+5FH9%%^ !BD5FH=7I@5F =B=7=5@A9BH9BCG79BHF5F9ACG9L7@IG=J5A9BH9
9B=BH9FDF9H5F@CG-J5@CF5@7I58F58C (Z@H=D@9- GEI5F989G DCFG=AD@=7=858 5A9BI8C
89BCA=B58C- 7I58F58C^C- - 7I58F58CA=89@575@=858;9B9F5@89IBAC89@C89
F9;F9G=YB +CF75@=858
G=;B=:=75IB5A98=8589EIVH5B6=9B9@AC89@C=895@=N58C F5GHF95@CG85HCGF95@9G CBG=89F9@5
:=;IF5 D5F5IB5=@IGHF57=YB89@7CB79DHC89- 7I58F58C

@=;I5@EI99B@5BCH55D=989DU;=B55BH9F=CF F97CF85ACG5@@97HCFEI9 858CEI95A6CG85HCGG9


F9;=GHF5B9BA=@9G898Y@5F9G @5=BH9FDF9H57=YBAUG5DFCD=585G9FW5DCF75855IA9BHC9B@5DI6@=7=8589B
  @5GJ9BH5G5IA9BH5B9B  @CEI9F9:@9>5@59G75@589@CG85HCGF9;=GHF58CG 
 >IGH99=BH9FDF9H57=YB89IBAC89@C89F9;F9G=YBF9;F9G=YB89AWB=ACG7I58F58CG 

"!-*
%@IGHF57=YB89- 7I58F58C

!@D5B9@GID9F=CF89@5:=;IF5 AI9GHF57=B7CDIBHCG8985HCG<=DCHVH=7CG=B8=758CGDCF
7WF7I@CGF9@@9BCG .IDCB;5ACGDCF9@ACA9BHCEI9GC@C7CBC79ACG@5=B:CFA57=YBGC6F99@4 9>9M
EI9BCH9B9ACGB=B;IB5=B:CFA57=YB8=GDCB=6@99B9@3 9>9 !BCHF5GD5@56F5G GC@CH9B9ACG
=B:CFA57=YB8=GDCB=6@9GC6F9J9BH5G BCGC6F9;5GHCGDI6@=7=H5F=CG +5F59G5G=HI57=YB R7IU@G9FW5
BI9GHFCA9>CF]AC89@C^I9BC 858CEI9GC@CH9B9ACG=B:CFA57=YBGC6F9J9BH5G BI9GHFCA9>CF
AC89@CJ9B8FW5858CDCF9@DFCA98=C89J9BH5G C` EI99GHU=B8=758CDCF@5@WB9589DIBHCG .=B
9A65F;C @5GJ9BH5GJ5FW5B9B@5G8=:9F9BH9GF9;=CB9G89J9BH5G 9BHCB79G REIVH5B6I9BC9G9G9
AC89@C0B5:CFA5899J5@I5F@575@=858899G9AC89@C9G5HF5JVG89GI8=:9F9B7=5@5G:@97<5G9BHF9
@CGDIBHCG8985HCGM@5@WB9589DIBHCGA=89B@589GJ=57=YB897585F9;=YB89J9BH5G=B8=J=8I5@M9@
AC89@C;9B9F5@@5G89GJ=57=CB9GAUG;F5B89G=B8=75BF9;=CB9G89J9BH5G8CB899@AC89@C
DFCDCF7=CB5IB5>IGH9AUG89:=7=9BH9 I58F5FHC85G@5G89GJ=57=CB9GMGIA5F@5G89GJ=57=CB9G5@
7I58F58C7CB8I795@7CB79DHC89GIA5HCH5@897I58F58CG../ 

../M% ` 
BCFH9

 
%
Traducido del inglés al español - www.onlinedoctranslator.com

54 3 Modelado de datos I - Conceptos básicos

SST está relacionado con el concepto de varianza de la muestra6 y mide el variabilidad general
de los datos. ¿Qué es la variabilidad? La variabilidad a menudo se denominaincertidumbre: cuanta
más variabilidad haya entre las regiones de ventas, mayor será nuestra incertidumbre sobre el
desempeño exacto de cualquier región de ventas en particular. En ese sentido, SST mide la
variabilidad o incertidumbre general en nuestros datos. Cuanto mayor sea la variabilidad, más
difícil será nuestro problema de modelado. Tomamos SST comopunto de referencia por nuestros
esfuerzos de modelado.
A continuación, considere el panel inferior en la Figura 3,7, que muestra el efecto de
estimar un modelo de regresión en nuestros datos (indicado por la línea diagonal). ¿Qué parte de
la incertidumbre total (SST) ha logrado "modelar" la línea de regresión? Con ese fin, considere las
desviaciones entre la línea de regresión y los puntos de datos (indicados por el segundo conjunto
de flechas). Podemos ver que las desviaciones en general han disminuido, lo que implica que el
modelo de regresión proporciona un mejor ajuste a los datos que nuestro modelo anterior de
ventas promedio. Pero aún queda algo de incertidumbre, incluso después de aplicar el modelo de
regresión. ¿Cuanto queda? Nuevamente podemos sumar todas las desviaciones al cuadrado, lo
que conduce al concepto deerror suma de cuadrados (SSE):

SSE = ∑ (yI -ŷ 2 I)
norte

(3,5)
I= 1

SSE mide cuánta variabilidad (o incertidumbre) queda en los datos después de aplicar el
modelo de regresión. Podemos combinar los conceptos de incertidumbre general (SST) y la
incertidumbre que queda después de aplicar el modelo de regresión (SSE) para llegar a una
medida de cuánto ha ayudado el modelo a reducir la incertidumbre:

SSR = SST -SSE (3,6)

Esto cuantifica la incertidumbre que el modelo de regresión pudo modelar. Por lo


tanto, laproporción de la variabilidad total que la regresión pudo capturar se conoce
como R-cuadrado, y está dado por

SSR
R-al cuadrado = (3,7)
SST
Interpretación R-cuadrado = 0.2469: Volviendo al R-valor al cuadrado de 0,2469 en la figura 3,5,
ahora podemos concluir que nuestro modelo de regresión explica el 24,69% de la variabilidad total
en las ventas. ¿Esto es bueno o malo? Bueno, eso depende. De hecho, la calidad percibida deR
-cuadrado depende del contexto. Los químicos que realizan experimentos de laboratorio
probablemente percibirían unaR-valor al cuadrado del 24,69% como escandalosamente pobre; la
razón es que en los experimentos de laboratorio a menudo se pueden controlar casi todos los
factores extraños. Por otro lado, los científicos sociales (o ejecutivos de empresas, para el caso) a
menudo sienten que un 24,69%R-cuadrado es razonablemente alto, porque es

6De hecho, si dividimos SST por (norte−1), obtenemos la varianza muestral.


3.2 Ajuste e interpretación de un modelo de regresión: regresión de mínimos cuadrados 55

Figura 3.8 Salida de software para un modelo de regresión sobre publicidad e ingresos familiares medios.

normalmente es muy difícil controlar los factores extraños cuando se trata de seres humanos
(como clientes o proveedores). Entonces, la magnitud deR-squared debe evaluarse en
contexto, y no existe un único punto de referencia que se aplique por igual a todas las
situaciones. Sin embargo, un uso adecuado deR-squared es comparar dos (o más) modelos
de regresión competidores entre sí. A continuación describiremos esta aplicación.

3.2.4 Comparación de modelos de regresión

Considere la figura 3.8, que muestra la salida del software para otro modelo de regresión. De
hecho, la única diferencia en comparación con el modelo anterior es que agregamos una
segunda variable explicativa, “INGRESOS”, que denota el ingreso familiar mediano en cada
región de ventas. Por tanto, el modelo formal es ahora

Ventas = a+B1 ×Publicidad +B2 ×Ingreso (3,8)

Echando un vistazo a la salida en la Figura 3.8, podemos identificar rápidamente que el estimado
coeficientes para a, B1, y B2 son ahora

a = 36.8949
B1 = 5.0691
B2 = 0,8081
56 3 Modelado de datos I - Conceptos básicos

Sin embargo, qué modelo es mejor, el anterior en la Figura 3,5 o el último en la


Figura 3.8? Para responder a esa pregunta, comparemos sus correspondientesR-valores
al cuadrado.

Comparando R-valores al cuadrado: los R-valor al cuadrado para el modelo en la figura 3,5
es igual a 24,69%, y que para el modelo de la Figura 3.8 es igual al 45,20%; claramente, el
segundo modelo explica una mayor proporción de la incertidumbre total en las ventas y, por
lo tanto, es un modelo mejor. Entonces, podemos usarR-cuadrado para comparar un modelo
con otro. Sin embargo, es necesaria cierta precaución:R-squared tiene la desagradable
propiedad de que nunca disminuirá, incluso si agregamos variables al modelo que son una
completa tontería. De hecho, podríamos haber agregado el peso del gerente de ventas de
cada región al modelo yR-¡Squared no habría disminuido! Por lo tanto, no debemos confiar
demasiado enR-cuadrado solo al comparar modelos. Una medida relacionada (una que
puedenaumentar y disminuir) se llama R cuadrado ajustado. EquilibradoR-squared penaliza el
modelo por la inclusión de variables sin sentido, por lo que podemos usarlo para comparar
modelos con diferentes variables. Echemos un vistazo a los dos modelos en las figuras.3,5 y
3.8. Para el primer modelo, el ajustadoR-cuadrado es igual a 0,2142, mientras que es igual a
0,4022 para el segundo. Así, dado que el ajustadoR-squared es mayor para el segundo
modelo, podemos concluir que proporciona una mejor representación de nuestros datos. En
otras palabras, ¡el segundo modelo gana!

Lecciones aprendidas:

• Estimamos modelos a partir de datos utilizando los conceptos de regresión por mínimos cuadrados;
mínimos cuadrados encuentra una línea de regresión que tiene la distancia promedio más corta a
todos los puntos de datos. En ese sentido, el modelo de regresión de mínimos cuadrados es óptimo
porque se ajusta mejor a los datos, al menos en promedio.
• Los coeficientes estimados (en particular, la intersección y la pendiente) de la línea de
regresión juegan un papel importante en la interpretación de un modelo de regresión.
Mientras que la intersección nos dice acerca de la magnitud de la respuesta en ausencia
de cualquier entrada, la pendiente nos dice qué tan rápido crece la respuesta para cada
unidad adicional de las variables de entrada.
• Podemos evaluar la calidad de un modelo de regresión utilizando el concepto deR
-cuadrado; R-cuadrado mide el porcentaje de la incertidumbre total en los datos
que se explica por la línea de regresión. Valores más altos deR-los cuadrados
denotan mejores modelos. De hecho, podemos comparar modelos entre sí
utilizando el concepto deR-cuadrado. Sin embargo, es necesario tener precaución
ya queR- el cuadrado no penaliza la inclusión de variables sin sentido y sin sentido.

• Una mejor forma de comparar modelos de regresión es a través de los llamadosR


-cuadrado. EquilibradoR-squared penaliza un modelo por variables que no tienen
sentido y no tienen ningún efecto en la salida.
3.3 Identificación y selección de predictores importantes: inferencia estadística 57

3.3 Identificación y selección de predictores importantes:


inferencia estadística

En la sección anterior, aprendimos cómo estimar un modelo a partir de datos. De hecho,


aplicando los conceptos de esa sección, podemos estimaralguna modelo a partir de un
conjunto de datos dado. Por ejemplo, Figure3,5 muestra un modelo con un solo
predictor, "Publicidad". Por otro lado, Figura3.8 muestra un modelo diferente para el
mismo conjunto de datos, utilizando tanto "Publicidad" como "Ingresos" como
predictores. Figura3.9muestra un modelo para los datos de "Precio de la vivienda" del
Capítulo 2. Ese modelo utiliza siete datos diferentes (los pies cuadrados, el número de
dormitorios y baños, el número de ofertas, si el revestimiento es de ladrillo, si el casa
está ubicada en el barrio Norte, y si la casa está ubicada en el barrio Oeste). Dado que
podemos incluir un número aparentemente interminable de predictores en cualquier
modelo de regresión, surge la pregunta de qué predictores son importantes y qué
predictores agregan menos valor a nuestros esfuerzos de modelado. Responderemos
esta pregunta a continuación. Para ello, introduciremos el concepto de relación "señal /
ruido", que nos permitirá cuantificar la fuerza del impacto de un predictor en relación
con su incertidumbre.

3.3.1 La relación señal / ruido

Figura 3.10 muestra tres escenarios de datos hipotéticos, etiquetados como "A", "B"
y "C" En cada escenario, vemos un predictor (X), una respuesta (Y) y la nube de datos
asociada entre X y Y. ¿Cuál de estos tres escenarios corresponde a la relación más
fuerte entreX y Y?

Figura 3.9 Un modelo de regresión para los datos de precios de la vivienda.


58 3 Modelado de datos I - Conceptos básicos

Figura 3.10 Tres ejemplos de datos hipotéticos.

La mayoría de ustedes probablemente responderá el “Escenario A”, pero ¿por qué? Tenga en
cuenta que la nube de datos es la misma en los tres escenarios, excepto por su rotación relativa aX
y Y. En otras palabras, mientras que la variación (o el "ruido") es idéntica en los tres escenarios, el
patrón (o la "señal") varía. El escenario A tiene la señal más fuerte (es decir, la tendencia más
pronunciada), mientras que la señal es más débil en el escenario C, que apenas muestra ninguna
tendencia. El escenario B tiene una tendencia discernible, pero no consideraríamos la relación
general como extraordinariamente fuerte porque hay una variación significativa (es decir, ruido) en
torno a esta tendencia. En otras palabras, la fuerza de la relación es capturada por la magnitud de
la señal.relativo al ruido, o al señal a ruido proporción.
Podemos medir la relación señal-ruido de la siguiente manera. La señal es equivalente a la
inclinación de la tendencia observable y, por lo tanto, viene dada por la pendiente del modelo
de regresión asociado. Recuerde que la pendiente corresponde a la "estimación" (o
"coeficiente") del modelo de regresión. En figura3.9, todas las pendientes se dan en la
segunda columna (marcadas como "Estimación"). Para cuantificar el ruido, la regresión
también proporciona una solución. La tercera columna de la figura3.9 proporciona los
"Errores estándar", que básicamente miden la variación alrededor de la pendiente o el ruido.
Por lo tanto, podemos calcular la relación señal-ruido para los pies cuadrados variables (SqFt)
como 52.994 / 5.734 = 9.242. En otras palabras, la señal de pies cuadrados es más de nueve
veces mayor que su ruido (para este conjunto de datos en particular). Intuitivamente, parece
que una relación señal-ruido de nueve o más debe ser muy
3.3 Identificación y selección de predictores importantes: inferencia estadística 59

bueno, y nuestra intuición resulta correcta. Sin embargo, para cuantificar exactamente qué tan
buena es realmente una relación señal / ruido en particular, necesitamos el concepto de
significancia estadística y lavalor p.

3.3.2 Prueba de significancia estadística

Diferentes variables dan como resultado diferentes relaciones señal / ruido. Por ejemplo, en la Figura
3.9, mientras que los pies cuadrados tienen una relación señal-ruido de más de nueve, la variable
"dormitorios" tiene una relación señal-ruido de menos de tres (4246.794 / 1597.911 =
2.6577). Esto implica que la relación entre los pies cuadrados y los precios de la vivienda es
más fuerte que la de los dormitorios y los precios de la vivienda. Sin embargo, ¿esto también
implica que, a todos los efectos prácticos, las habitaciones no son importantes para predecir
los precios de la vivienda? Para llegar a esta conclusión, necesitamos un valor de corte, uno
que determine qué relaciones señal-ruido dan como resultado relaciones importantes y
cuáles indican relaciones no importantes. Con ese fin, la estadística utiliza el concepto de
valores p. Apag-valor mide esencialmente la probabilidad de que, dada la información actual,
un predictor particular no tenga relación con la respuesta. losbajar el valor p (es decir, cuanto
menor sea esta probabilidad), la mayor la importancia estadística de este predictor. También
podemos pensar en unpag-valor desde el punto de vista de una relación señal-ruido: el pag
-valor mide la probabilidad de que, dado un conjunto particular de datos, la señal observada
podría haber ocurrido simplemente debido a la casualidad. Cuanto menor sea esta
probabilidad, más seguros tenemos de que la señal observada es "real".
Considere nuevamente el modelo de regresión en la Figura 3.9. lospag-se muestran los valores
en la última columna, marcada con Pr (> | t |). Podemos ver que elpag-el valor de los pies
cuadrados es extremadamente pequeño (menos de 1,1 ×10−15); por otro lado, elpag-El valor de las
habitaciones es significativamente mayor (0,008939). Normalmente, consideramos una variable
comoinsignificante (o estadísticamente sin importancia) si el asociado pag-valor es mayor que 0.05.
En ese sentido, tanto los pies cuadrados como los dormitorios son predictores significativos, pero
los pies cuadrados son estadísticamentemás importante que los dormitorios. Mirando más hacia
abajo en el modelo de regresión, podemos observar además que los baños y las ofertas también
son estadísticamente significativos. Sin embargo, el barrio norte es insignificante porque supag
-valor es muy grande (0.516215), mucho mayor que nuestro límite de 0.05. Entonces podemos
concluir que mientras la mayoría de las variables en la Figura3.9 son estadísticamente importantes,
algunos son más importantes que otros, como lo indican sus pag-valores. Además, la única
variable que esEstadísticamente insignificante es el vecindario norte; por lo tanto, podríamos
eliminar esa variable de nuestro modelo y potencialmente obtener un modelo mejor.

3.3.3 Medición de la importancia práctica

Hasta ahora, hemos aprendido cómo medir la señal que reside en un predictor en relación con su
ruido y, en última instancia, utilizar esa información para decidir si un predictor es o no
60 3 Modelado de datos I - Conceptos básicos

estadísticamente importante. Sin embargo, el hecho de que un predictor sea estadísticamente


importante (es decir, su señal es grande en relación con su ruido) no implica que también sea
practicamente util. En otras palabras, si bien la importancia estadística es una condición necesaria
para la importancia práctica, no es suficiente. Tome el siguiente ejemplo como ilustración.
Supongamos que estamos interesados en decidir si agregar o no otro baño a
nuestra casa. Creemos que la incorporación de un baño solo tiene sentido
económicamente si agrega al menos $ 6,000 a la casa es valor. Considerando la
figura3.9, ¿deberíamos agregar ese baño? Podemos ver que la pendiente de la
variable baños es 7,883.278; esto implica que, por cada baño adicional, en promedio
el precio de la casa aumenta en 7.883. Es importante enfatizar que esta
interpretación es cierta solo en promedio: a veces, el baño adicional agregará más
de 7,883 en valor a la casa, pero en otras ocasiones el valor adicional será menos de
7,883. La razón es la incertidumbre (o el ruido) en la relación entre los baños y el
precio de la vivienda. Entonces, ¿cómo podemos cuantificar esta incertidumbre y
llegar a una decisión estadísticamente sólida?
Podemos usar el concepto de intervalos de confianza: calculamos un 95% intervalo de
confianza para la pendiente de baños como7

pendiente de baños± (2) (error estándar) (3,9)

o, completando los valores de la Figura 3.9,

$ 7,883.278± (2) ($ 2,117.035) (3,10)

que es igual
($ 3,649.208, $ 12,117.35) (3,11)

En otras palabras, la prima adicional más pequeña posible debido a un baño adicional es
tan baja como $ 3,649.208, que es mucho más baja que nuestro valor deseado de $ 6,000; de
ahí que no deberíamos añadir el baño a nuestra casa.
En conclusión, hemos visto en esta sección que para tomar decisiones debemos tener
en cuenta tanto la señal como el ruido de un predictor. La señal viene dada por la
pendiente; el ruido se mide por el error estándar alrededor de la pendiente. Solo la señal
junto con el ruido ofrece una imagen completa de la utilidad de un predictor. La relación
señal-ruido nos permite cuantificar la utilidad estadística de un predictor; si llegamos a la
conclusión de que un predictor es insignificante, a menudo lo excluimos de nuestro
modelo. Sin embargo, la significación estadística no es necesariamente equivalente a la
importancia práctica. Podemos juzgar la importancia práctica por

7Estamos aplicando el concepto de intervalos de confianza a continuación de una manera ligeramente


inexacta: un 95% se calcula sumando y restando 1,96 veces el error estándar de la media; en los cálculos
del intervalo de confianza a continuación, usamos un factor de 2 en lugar de 1,96. Creemos que para
cálculos manuales rápidos y sucios, este redondeo no hace mucha diferencia. Sin embargo, para obtener
una respuesta precisa, se deben utilizar cálculos computarizados en lugar de manuales.
3.4 Caso de datos: comprensión de los patrones de gasto de los clientes mediante regresión básica 61

sumando y restando el doble de ruido de la señal para obtener intervalos de confianza. Los
intervalos de confianza nos permiten juzgar la importancia práctica en presencia de
incertidumbre estadística.

Lecciones aprendidas:

• La relación señal-ruido cuantifica la importancia de la relación entre la respuesta (o


salida) y una variable predictora (o entrada). Podemos calcular la relación señal-
ruido a partir de la pendiente estimada y el error estándar de un modelo de
regresión. Las relaciones de señal a ruido más altas implican una mayor
significación estadística; en otras palabras, cuanto mayor sea la señal (en relación
con el ruido), menor será la posibilidad de que el patrón observado se haya
producido simplemente por casualidad. Recuerde que, cuando se trata de datos,
los patrones solo pueden ocurrir debido al azar; por ejemplo, si seleccionamos un
punto de datos extremo (pero más bien típico) en nuestra muestra. La relación
señal-ruido nos dirá si, en base a toda la nube de datos, parece muy probable que
el patrón observado sea "verdadero".
• Para cuantificar la cantidad exacta de esta probabilidad, necesitamos calcular la pag
-valor. lospag-valor nos dice si, dados los datos actuales, el patrón observado
podría haber ocurrido simplemente por casualidad; valores más pequeños de la
pag-valor muestra más apoyo a favor del patrón de datos observado.
• Los pag-valor proporciona una regla de corte para la relación señal / ruido. PAG-Los valores
superiores a 0,05 se asocian normalmente con variables que no son estadísticamente
importantes. A veces, utilizamos valores de corte incluso más pequeños (como 0,01 o 0,001),
lo que obliga a que la relación señal-ruido sea aún más fuerte. A menudo eliminamos de un
modelo las variables estadísticamente sin importancia. La eliminación de variables
estadísticamente no importantes puede resultar en un mejor ajuste de datos (es decir, un
ajuste más altoR-cuadrado).
• La importancia estadística no es lo mismo que la importancia práctica. Los intervalos de
confianza en la pendiente pueden ser útiles para medir la importancia práctica. Por lo
general, las variables que son estadísticamente insignificantes tampoco son
prácticamente importantes (pero hay excepciones a esta regla).
• Podemos calcular intervalos de confianza del 95% en la pendiente sumando y restando
aproximadamente el doble del error estándar. Este cálculo se basa en una regla
empírica; podemos obtener intervalos de confianza más precisos solicitando al software
que calcule directamente los intervalos de confianza para nosotros.

3.4 Caso de datos: comprensión de los patrones de gasto de los clientes


mediante regresión básica

Ahora discutimos un ejemplo completo para ilustrar las ideas principales de este capítulo.
Considere nuevamente los datos de marketing directo de la Sección 2.2. Recuerde que el
comercializador directo ha recopilado, entre otras cosas, información sobre el gasto de los clientes.
62 3 Modelado de datos I - Conceptos básicos

Figura 3.11 Un modelo de regresión para los datos de marketing directo.

comportamiento (registrado como la cantidad de dinero gastado en transacciones pasadas), su


salario, su número de hijos y cuántos catálogos han recibido en el pasado; ver también la Tabla 2.6.
El especialista en marketing directo está interesado en comprender por qué algunos clientes
gastan más dinero que otros. ¿Es el dinero el único factor que impulsa el gasto de los clientes? En
otras palabras, ¿los clientes con un salario más alto gastan más que los clientes con un salario más
bajo y ningún otro factor influye? Si es así, el especialista en marketing probablemente debería
apuntar principalmente a los clientes con los ingresos más altos. Pero también es posible que el
gasto de los clientes se vea afectado por factores adicionales. Por ejemplo, si bien dos clientes
pueden tener los mismos ingresos, uno puede gastar menos que el otro porque tienen una familia
más numerosa y, por lo tanto, menos efectivo para gastar en esta tienda en particular. En otras
palabras, el número de hijos también puede influir y puede tener un efecto negativo en el gasto. Y,
finalmente, el especialista en marketing también puede estar interesado en saber si sus esfuerzos
de marketing son "efectivos". Es decir, puede preguntar si por cada dólar que gasta en crear,
imprimir y enviar catálogos, la rentabilidad es suficientemente alta. Ahora respondemos a estas
preguntas mediante el análisis de regresión.
Considere la figura 3.11, que muestra un modelo de regresión perteneciente a lo anterior
preguntas. En particular, muestra los resultados de la estimación de un modelo de regresión con la
cantidad gastada como variable de respuesta (o objetivo o salida) y el salario, el número de
catálogos y el número de hijos como variables independientes (o predictoras o de entrada).
Echando un vistazo a la salida de regresión en la Figura3.11, podemos hacer las siguientes
observaciones:

• Calidad del modelo: El modelo parece tener una calidad razonable, ya que R-El valor
al cuadrado (0,6584) es relativamente alto. De hecho, este valor sugiere que casi el
66% de la incertidumbre total en el gasto de los clientes se explica por el modelo
3.4 Caso de datos: comprensión de los patrones de gasto de los clientes mediante regresión básica 63

encima. En otras palabras, utilizando solo tres datos (salario, número de hijos y
número de catálogos), podemos capturar todo menos el 34% del comportamiento de
gasto de los clientes; esto parece ser bastante prometedor.
• Interpretando el coeficiente de salario: El salario tiene un coeficiente positivo. De hecho, la
pendiente del salario es igual a 0,02041 y es estadísticamente significativa. (Tenga en cuenta el
pequeñopag-valor). Esto implica que por cada dólar de salario adicional que gana un cliente,
gasta $ 0.02 (es decir, 2 centavos) con el vendedor directo. Esto respalda la corazonada del
especialista en marketing de que el salario es un factor importante en el gasto de los clientes.
También respalda la noción de que los clientes con salarios más altos son más lucrativos para el
comercializador. Pero, ¿todos los clientes gastan al mismo ritmo? No. De hecho, 0.02 es la
cantidad promedio que un cliente gasta por cada dólar de salario adicional. Algunos clientes
gastan a una tasa más alta, otros a una tasa más baja. Un intervalo de confianza del 95% para el
coeficiente de salario es

0.02041−2×0.0005929,0.02041 + 2×0.0005929

o
(0.0192242,0.0215958)

Esto implica que la tasa más baja a la que un cliente gasta su salario en dólares es
0.019, o 1.9 centavos por cada dólar ganado; la tasa de gasto más alta es 0.022, o
2,2 centavos por cada dólar ganado.
• Interpretando el coeficiente de los niños: El coeficiente para el número de hijos es
igual a -198,7. En primer lugar, observamos que este valor es negativo, lo que implica
que existe una relación negativa entre el número de hijos y la cantidad de dinero
gastado. En otras palabras, cuantos más hijos tenga un cliente, menos gastará con el
vendedor directo. Más precisamente, el valor del coeficiente es igual a 198,7, por lo
que por cada niño adicional, el cliente gastará $ 198,70menos con el comercializador
directo. O, dicho de otra manera una vez más, un cliente con tres hijos gastará $
397.40menos que un cliente con un solo hijo. Por tanto, una posible conclusión para
el vendedor directo sería centrar sus esfuerzos más en aquellos clientes con menos
hijos.
• Interpretación del coeficiente de catálogos: Tenga en cuenta que el coeficiente para el número
de catálogos es 47,70. Nuestra primera observación es que este valor es positivo, lo que implica
que el envío de catálogos tiene un impacto positivo en el resultado final. Esto es alentador para
el negocio del comercializador. ¿Pero exactamente qué tan efectivo es el envío de catálogos?
También notamos que elpag-el valor es muy pequeño (menor que 2 ∗ 10−16), por lo que los
catálogos son un predictor estadísticamente significativo. ¿Pero también es prácticamente
efectivo? Usando argumentos similares a los anteriores, podemos calcular un intervalo de
confianza del 95% como8

47,70-2×2.755,47.70 + 2×2.755

8De nuevo estamos usando el factor 2 en lugar del 1,96 más preciso en los cálculos a continuación.
64 3 Modelado de datos I - Conceptos básicos

o
(42.19,53.21)
¿Qué implica este intervalo de confianza? Implica que, por cada catálogo que enviamos, la
cantidad adicional que gasta un cliente está entre $ 42,19 y $ 53,21. En otras palabras,
siempre que nos aseguremos de que los costos de creación, impresión y envío del
catálogo sean inferiores a $ 42, ¡nuestro negocio es rentable!
Una advertencia más: el resultado anterior implica que, por cada catálogo adicional
que enviamos a un cliente, la cantidad que gasta es de al menos $ 42,19. Se puede
concluir apresuradamente de este hallazgo que deberíamos enviar cientos o miles de
catálogos a cada cliente para aumentar nuestras ganancias, ¡pero esa conclusión
probablemente sea errónea! Es bastante improbable que eltasa de retornopermanece
igual independientemente del número total de catálogos. En otras palabras, si bien el
hallazgo anterior puede ser cierto para cinco o diez catálogos, llevarlo a 100 o 1000
unidades puede ser engañoso. Esto también se conoce comoextrapolación (es decir, el
intento de realizar estimaciones fuera del rango de los datos reales). En realidad, la “ley de
los rendimientos decrecientes” a menudo entra en vigor, y es muy posible que el
rendimiento adicional de 101 catálogos enviados no sea mucho mayor que con 100
catálogos. De hecho, existe un peligro obvio de "sobrecargar" a su cliente con la misma
información una y otra vez, y 100 catálogos enviados pueden, de hecho, llevar a un
retorno menor en comparación con 10 o 20 catálogos.
• Interpretando la intersección: Observamos que la estimación de la intersección es
negativa(-442.8) - ¿qué significa esto? Estrictamente hablando, la intersección denota la
cantidad promedio de dinero gastado cuando todas las demás variables se establecen en
cero. En otras palabras, la intersección implica que, para un cliente con salario cero,
número cero de hijos y catálogos cero, ese cliente "gastará" - $ 442,80. Sin embargo, el
gasto negativo no tiene mucho sentido. De hecho, este es un ejemplo de una intersección
que no conlleva ninguna interpretación económica. Como regla general, las intersecciones
en un modelo de regresión no siempre se prestan a interpretaciones prácticamente
relevantes, y no debería sorprendernos demasiado si encontramos una intersección que
"no tiene sentido".

Ahora le hemos dado sentido a toda la información de la Figura 3.11. Con ese fin, nosotros
han respondido muchas de las preguntas de los especialistas en marketing. Hemos concluido que
el modelo es de calidad razonable y que proporciona evidencia del hecho de que el salario es el
principal impulsor del gasto de los clientes. De hecho, no solo hemos proporcionado evidencia de
esto, sino que también hemos cuantificado exactamente cuánto impulsa el gasto de los clientes
con cada dólar de salario. También evaluamos el efecto de la familia de un cliente (en particular, el
número de hijos) y descubrimos que tiene un impacto negativo en el gasto. Además, también
hemos utilizado el modelo de regresión para cuantificar el impacto de nuestro negocio principal
(envío de catálogos), lo que nos ayudará a medir la efectividad de nuestras estrategias comerciales.
Con todo, el modelo de regresión nos ha ayudado a responder a muchas preguntas diferentes
relacionadas con el negocio.
3.4 Caso de datos: comprensión de los patrones de gasto de los clientes mediante regresión básica sesenta y cinco

Lecciones aprendidas:

• Interpretación de intersección y pendientes: Hemos interpretado cuidadosamente


todas las pendientes (salario, hijos y catálogos) en el modelo. Hemos discutido su
significación estadística (es decir, su relación señal-ruido) así como su utilidad
práctica (mediante el cálculo de intervalos de confianza). También intentamos
interpretar la intersección y descubrimos que, al menos en este ejemplo, no se
presta a mucha información práctica (o económica). Una conclusión general es que
las intersecciones de un modelo de regresión pueden no siempre tener mucho
sentido práctico. De hecho, es posible que no siempre sean estadísticamente
significativos (es decir, tengan una pequeñapag-valor). Sin embargo, normalmente
mantenemos la intersección en el modelo porque a menudo tiene un propósito
puramente matemático: nos ayuda a obtener un ajuste mejor (y más realista) de
nuestro modelo a los datos. Por lo tanto, casi nunca eliminamos la intersección del
modelo (incluso si es insignificante).
• Interpretación de R-cuadrado: Hemos visto que el R-El valor al cuadrado es bastante alto
(66%) y, por lo tanto, el modelo parece proporcionar un ajuste bastante excelente a los
datos. Sin embargo, no hemos investigado ningún modelo alternativo (utilizando el
mismo conjunto de datos) y, por lo tanto, aún no podemos concluir que este es elmejor
modelo. Solo podemos afirmar que un modelo es mejor una vez que hayamos
investigado todas las alternativas posibles. En este caso, hay buenas razones para creer
que se podría encontrar un modelo mejor: los datos de marketing directo de la Tabla 2.6
tienen un total de diez variables diferentes y solo hemos utilizado cuatro de ellas
(salario, hijos, catálogos y gastos). en nuestro modelo actual. ¿Qué pasa con la edad o el
sexo de un cliente? ¿Qué pasa con la ubicación donde vive un cliente? Todas estas
variables podrían proporcionar un valor adicional a nuestro modelo y podrían mejorar
su ajuste de datos. A menos que investiguemos estas opciones adicionales, no podemos
concluir que hemos encontrado el mejor modelo.
• Extrapolación: también hemos discutido el concepto de extrapolación. La
extrapolación es un intento de aplicar el modelo demasiado lejos del rango de los
datos. Por ejemplo, si su modelo se basa en salarios que oscilan solo entre $ 30 mil
y $ 50 mil, entonces no debe intentar usarlo para predecir ese nivel de salario de $
100 mil; simplemente no tenemos ninguna información sobre ese valor salarial. . La
extrapolación a menudo conduce a predicciones que están lejos de la verdad.
Normalmente, la razón es que nuestro modelo asume una relación lineal entre el
predictor y la respuesta; en nuestro ejemplo, supone que el gasto de los clientes
crece a la misma tasa constante por cada dólar adicional de salario. Esto puede ser
cierto cuando el salario aumenta de $ 40 mil a $ 50 mil, ¿Pero también es cierto
para un aumento de $ 100 mil a $ 200 mil? Si no tenemos ninguna información
sobre el rango de salario más alto ($ 100K a $ 200K), entonces simplemente no lo
sabemos. En realidad, el impacto del salario en el gasto de los clientes podría
cambiar a niveles salariales más altos; podría, por ejemplo, desacelerarse (o podría
aumentar). La extrapolación es uno de los principales peligros de los modelos de
regresión y debemos tener cuidado de no caer en esta trampa.

You might also like