You are on page 1of 15
Regress6es oe J. Coa Carlos Renato Theéphilo SR a. Daniel Reed Bergmann Sy Objetivos de Aprendizado O estudo deste capitulo permitira ao leitor: entender 0s conceitos basicos de regressao linear simples ¢ correlaca sao linear multipla e regressio nao linear: eee compreender a logica de resolucdo de problemas que envolvem regressé: identificar situagoes nas dreas de controladoria e financas em que se possi aplicar as técnicas discutidas neste capitulo; — solucionar problemas que envolvem regress6es ¢ analisar relatérios € so!uci obtidas. 1 INTRODUGAO Nas empresas, ha muitas vezes a necessidade de descrever e prever 0 com portamento de certas varidveis importantes para a tomada de decisées, tais como: custos, receitas, despesas e resultados. As varidveis relevantes nos negécios podem ser previstas int utilizando uma pesquisa de mercado, por exemplo. Isso resolve 0 problema so mente em termos de curto prazo, j que, a medida que 0 horizonte se amplia, a previsdes tornam-se mais dificeis de ser realizadas. O estudo das relagées entre varidveis consegue resolver eficientemente tanto problemas de curto prazo, como de longo prazo. : 5 ai Jo. Amba Duas técnicas utilizadas nesse estudo sao a cei - Frimge ae : boii i mostrai: 3 as técnicas compreendem a andlise de dados ai Er eri dee ciate tuitivamente. sobre se duas ou mais varidveis sao relacionadas aan Eade neg6ci0s, € namento. A andlise de regressao, Lene mrevsto- Consiste em determinar um utilizada principalmente com 0 propési atematica que busca descrever 0 comportamento de determinad,, dente com base nos valores de uma ou mais varidveisindeperet vel depo correlagao visa medir a forca ou o grau de telacionamento : ands mais enfatizada em estudos das areas das ciénciag humanas, : Neste capitulo, abordaremos Os seguintes modelos de Tegressac: 12, sdo Linear Simples, Regressdo Linear Muiltipla e Regressdo Nao Linea fungéo m entre vay) 2 REGRESSAO LINEAR SIMPLES Para iniciar a discussdo sobre a And consideremos 0 exemplo a seguir. A empresa Previpecas S.A., fabricante de autopecas, deseja projetar quantidades de pecas a serem vendidas No préximo ano. Como a empresa i] : de que a quantidade de pecas vendidas Pode ser explicada por seu Preco, de definir um modelo que relacione essas variaveis, a As quantidades de Pegas vendidas nos tltimos anos, bem como seus re pectivos precos de venda, stio mostradas na Tabela 2.1. lise de Regressao Linear Simple Tabela 2.1 Previpegas: quantidade de Pe¢as vendidas e pregos respectivos nos tilt mos seis anos. Previpecas S.A Anos Quantidade (Q) | Prego (P) (1.000 un.) ($ 1.000 ) 1 2 4 2 1 6 3 3 3 4 1 7 5 4 1 6 3 z isto desejada P* Em um primeiro momento, é possivel supor que ae aia anos deria ser feita a partir da média da quantidade de pegas vend 24143414443 _ 5 93 unidades. a= 6 Sera, porém, que a média histérica de ven i quada das vendas futuras? das proporciona previsiio ade Para responder a essa pergunta, analisemos vj idvei: é . 2 visual to das varidveis, através de um Diagrama de Dispersio, mente 0 comportainen 9.1 Diagrama de dispersao O diagrama de dispersdo é um grafico bidimensional, por meio do qual demos analisar 0 comportamento das varidveis em estudo, Como mostra ‘i vi gura 2.1, cada ponto é plotado dos valores das coordenadas X (@rego) e ¥ Quan tidade de vendas), extraidas da Tabela 2.1. Dispersao (P) x (Q) ? | Quantidade (Q) orNwan 0 1 2 3 4 S 6 7 Prego (P) Figura 2.1 Diagrama de dispersdo Prego (P) x Quantidade (Q). Pela andlise do grafico, observamos que a quantidade de pegas vendidas apresenta tendéncia de declinio 4 medida que os pregos oe ae indicativo da existéncia de relagao entre as varidveis. Por essa ee a Mos deduzir, a média histérica nao é adequada para nossos a yopllearia dizer Mostra a Figura 2.2, a utilizacdo da média no modelo de Pd es), independen Que a quantidade de vendas permanece constante (2,33 unis > temente do comportamento da varidvel preso- a ee ee a Dispersio (P) x (Q) . . Quépio = 2,33 Quantidade (Q) Prego (P) i bai, Figura 2.2 Ajustamento utilizando a quantidade média de vendas. O comportamento entre duas varidveis pode assumir diversas formas, que vo desde uma relacao linear até complicadas formas nao lineares. Em nosso exem. plo, considerando o grafico da Figura 2.1, nota-se que um padrao linear parece ajustar-se de maneira adequada ao conjunto de dados. 2.2. Equacao da reta Uma vez que, em nosso exemplo, o comportamento entre as variaveis ten. de para uma relacio linear, o préximo passo consiste em buscar determinar a res- pectiva equacdio de regressio linear simples. Antes, porém, vamos repassar breve- mente alguns conceitos relativos a equacao linear e a sua representacao grafica. Toda reta pode ser representada pela seguinte expresso matemiatica: y = @ + bx, sendo que xe y so as varidveis, e a e b sdo seus respectivos coeficientes. 5 Para exemplificar, mostramos na Figura 2.3 0 grafico correspondente & equacdo linear y = 4 + 3x: Figura 2.3 Grdfico da reta Y=44+3x. O coeficiente a representa o Ponto em qu; le a reta de ixo vertical Y. Isso ocorre i Bio i 0 eixo quando x é igual a 2210. A reta Tegressao intercepta 3x intercepta 0 eixo y no seguinte ponto: da equacaoy = 4 4. y=4+3(0) y=4 variagiio de x. Na equago y = 4 + 3x, 0 coeficien angular é de va ec » ite angu que, a cada variacdo de uma unidade em x, comensaiea 4 uni Por sua vez, 0 coeficiente b representa a variagao de Y Por unidade de 3; isso significa idades de varia. gdoemy. Retomemos a discussdo sobre a equacao representativa do modelo d lo de re gressao linear simples. De maneira geral, estaremos diante de um modelo de regressao line: ar sim- ples quando uma relacdo linear entre duas varidveis, X e Y, pode ser satishiny mente definida pela seguinte equacio matematica: isfatoria- Y=A+B-X+U, cujos parametros sao: Y = varidvel dependente; X = varidvel independente ou explicativa; A =coeficiente linear ou intercepto da reta; B =coeficiente angular ou declividade da reta; U =erro aleatério na populagao. A equaciio vista hd pouco representa o modelo de regressdo da populacio. O que pretendemos é estimar os verdadeiros parametros populacionais da amos- tra de que dispomos. A equacéo a seguir é uma estimativa da equagio Populacional: onde: ae J=atb-x, aA nl =estimativa da varidvel dependente Y; = estimativa do coeficiente linear A; J a b = estimativa do coeficiente angular B; : x = valores amostrais da variavel explicativa Xx. lores estimados dos amostrais i i \ciar os val 1 Osimbolo ~, acima dey, ¢ utilizado pare diferen ou observados. tilizar a andline de regreniio com O proposite de Jar on cocficlentes ae b da equagho, que slo util Ms mw populacionals A eB, a para que possamons zer previsdes, devemos calcul dos como estimativas dos pardmetre 2.3 Método dos minimos quadrados para cada valor dex, podem existir um ou mais valores de y na amos, 3 valores de y observados. Por outro Jado, para cada ya), srrencente A reta de regressdo, denominad,, estimado ({/). Portanto, para cada valor de x poderemos ter um q, rvados diferentes def estimado, Fssas diferengas so chy esvios. Adotaremos o simbolo (u) para o resfdus presentagio grafica do res{duo; de x existira um tinico valor de y pe projetado ou mais valores de y obse: madas de residuos ou d u= |y- §|. A Figura 2.4, mostra a re [wey-y] —pyuatb.x Figura 2.4 Representagio do res{duo. O objetivo da anilise de regressdio simples é o de obter a reta que melhor se ajuste aos dados observados. Para obter a reta, precisamos estimar os coef cientes a ¢ b. Existem diversos métodos utilizados para essa finalidade. O mais ust deles 6 denominado método dos minimos quadrados. Esse método parte do prit cpio de que a reta que melhor se ajusta aos dados é aquela para a qual as di rencas entre os valores observados ¢ os valores projetados sao as menores poss vel. Isto é, a reta deve ser tal que a soma dos residuos yu = yy ~ 3 seia mini: ma. blema de adotarmos esse método é que, como temos res{duos pos" ero, Para conto" ade O prol tivos e res{duos negativos, seu somatério seré sempre igual a z nar essa questo, tomamos a soma dos desvios elevados ao quadrado. Daf nominacéo Método dos Minimos Quadrados: ae } } Xv =Dv-9y Substituindo ¥=a+b-x na formula, resulta . re =LO-a-b- xf. Para obter os valores dos coeficientes a ¢ b, recorremos ao CAlculo Di rencial conforme é demonstrado no Apéndice A. As férmulas obtides seo das a seguir. Observe que, para calcularmos a estimativa a, precisamos cet ter o valor de b. s ob- pe CYGy) Syvys ne )-Cxy | : Retomando o exemplo da Previpegas, calcularemos os valores de a e b para a reta de regressdo G=a+b- p. Para facilitar os cdlculos de ae b, antes calculamos os fatores: £q, Ep, Xq* Ep? e Epq. Tabela 2.2 Tabela auxiliar para o cdlculo dos coeficientes a e b. Ano | Quantidade (q) | Preco (p) ¢ P qaXpP 1 2 4 4 16 8 2 1 6 1 36 6 3 3 3 , 9 9 4 1 5 1 25 5 5 4 1 16 a. 4 6 3 2 9 4 6 Totais 14 21 40 a1 38 Utilizando as férmulas antes discutidas para cdlculo dos coeficientes: d9->(dp) = 1H=CO62 ED - 4,593 7 a= si Portanto, a equacao de regressio resultante para nosso exemplo g.; q=a+b.p=4,533-0,6286.p Suponha dois valores para a varidvel aed a eS a P, o $5.6, valores da varidvel Q correspondentes sao: Q, = 4, oo S 017 ay, dades ¢ Q, = 4,533 ~ 0,629.(5) = 1,388 unidades, Parent) Tia. Cay, Obici, 0,629, que é igual ao coeficiente angular da reta. Ou aes oe de Uma unidade na variével independente Prego corresponde a ae jean i Vat dependente Quantidade de vendas igual ao coeficiente angu! de repre, sio. 2.4 Consideragées relevantes sobre a reta de regressao Alguns aspectos importantes devem ser destacados em relagao a ret, de regressdo: © apreviséio da varidvel dependente resultaré sempre em um valor m¢. dio, pois a relacao entre x e y é média. Assim, no caso da Previpecas, por exemplo, nao obteremos, para determinado prego, necessariamen. te, um valor exato de quantidades a serem vendidas; © para fazermos previsdes acerca da varidvel dependente y, nao deve. mos utilizar valores da varidvel independente x que extrapolem 0 in tervalo de valores utilizados no modelo de regressdo. A razao para esse cuidado é que ndo podemos estar certos de que a relagio entre as va- ridveis se mantém para valores abaixo do menor valor ou acima do maior valor utilizado para andlise. Por exemplo, em nosso caso, nad podemos fazer inferéncias para um preco de $ 10.000,00, porque esse valor extrapola o intervalo de Pregos de que dispomos. 2.5 Testes de hipsteses e intervalos de confianga Como ja sabemos, os pare: Cary 50 3 reta estimada. Isso ocorre, ae Gorin eee disp ee eee varidveis externas, nao consideradas no modelo, que inf] ce eee lo. no cate Previpecas, @ quantidade média de vendas oon y. Por aaa : fluenciada, além do preco, por outras varidveis econdmicas Pes pode ser propaganda, renda da populacdo etc, nomicas, tais como gastos cOM Assim, no basta apen: gress4o pelo Método dos iMinknse Quad 0S coeficientes a e b da reta de Ie tais estimativas sao suficientes para explicar, retcisamos verficar até que pont © relacionamento entre as varidvels 20 ee A eae x ey. Agora que obtivemos a reta de regressio so as estimativas por ela proporcionadas, PS#™0S analisar quo uteis 2.5.1 Erro padrdo das estimativas ____Intuitivamente, sabemos que, quanto maior é a dispersdo da ai maior seré a dificuldade de se ajustar uma reta aos pontos, o que leva gene” vas altamente imprecisas na maioria dos casos. ee ceunat A dispersdo na populagao pode ser estimada pela dispersio dos dados amostrais em relagao a reta de regressdo. O erro padraio da estimativa (S$) é uma medida que avalia o grau de precisdo da reta de regressao. A formula pata cles. lo do S, segue 0 cdlculo de um desvio padrao: onde: y = valor observado da varidvel dependente; y = valor estimado da varidvel dependente; ntimero de observacées. Wl n Substituindo y =a+b-x na equagao acima e desenvolvendo algebrica- Calculando o erro da estimativa (S,) para nosso exemplo, temos: 5.= woe n= = 0,3236 Esse valor deve ser interpretado como um desvio padrao; portanto, ¢ medido na mesma unidade da varidvel dependente Y. No nosso exemplo, o erro padrao de estimativa corresponde a 0,3236 unidade de pecas (em mil), isto 6, 323,6 Pecas. Nas secdes seguintes, discutiremos como utilizar essa medida para elaborar intervalos de confianca e analisar se a relagao entre as variaveis € ae Hi, além do erro padraio da estimativa, dois outros tipos de erros relacio nados com os coeficientes a e b, os quais passamos @ discutir. mente, temos: 2.5.2 Erro padrdo do coeficiente linear (S,) lamente a distancia entre 9 ¢ O erro padrao S, indie so dos de OCficig q 1 evido a dispersio dos dados g eh, iente linear cional A, devide . 18 amos at te ae 0 coeficiente linear popula 4a preciso da estimatiya : oe NN. aproximad Assim, quanto menor for 0 erro S,, melhor ser onde: S, = erro padriio da estimativa; n = ntimero de observagoes; média da varidvel independente (x); 2 S.= x7 ) eno tamanho da amostra. Mostramos, a seguir, o calculo de S, para a varidvel independente prey (P) de nosso exemplo. Alguns dos valores utilizados séo obtidos na segio 2 Método dos Minimos Quadrados. 2 a P ‘ iP y p-XP_ 235 e sy Yr). CI ans as 1, (5) S, = §,,|] —+— | = 0,3236 |] 4°) | - a = 5 (2 EF [i 17,5 |= 301 2.5.3 Erro padrdo do coeficiente angular (S,) Analogamente a " a ximada da distancia eee a do coeficiente b (S,) é a medida at ‘a6 © 0 coeficiente : : angular populacio Calculamos S, coma Seguinte formula: : - Se Al onde: S, = erro da estimativa; Sy = =e xy » Sen n ido no tamanho da amostra Em nosso exemplo, considerando que 0 val, falor di S,_ _ 0,3236 © Sp foi caleulado no passo anterior, teremos: 2.6 Inferéncias sobre 0 coeficiente angul: jar (B) Fm algumas situagdes, mesmo nao havend Le as 1 endo riavei - alee os dados amostrais podem sugerii ba i re se jo, devido a fatores aleatérios, os aad Cra de telagio ame m ior forma que seja possivel tracar uma reta eee Populagio ssa Ta 1, S i: i i, Ec a rai ‘4o, sempre é preciso verificar se 0 model Tinea rea ses Pontos as. elo linear obtido é realmen: : ite Como mostra a Fi, igura 2.5, quando o i a 25) | coeficiente angular manece constante (Y = A). Isso indica que nao ha relaci alan = ‘aclonamento entre as varid- telacionamento entre as va. x Figura 2.5 Grdfico mostrando ndo-relacionamento entre Xey. verificar se as varidveis na populacdo sao Portanto, para que possamos hipoteses: mesmo relacionadas, devemos testar as seguintes H,: B= 0; H,:B#0O. ra esse propésito. Uma m ser empregados pal : nga para 0 coeficiente Diferentes tipos de testes pode intervalo de confia das maneiras consiste em elaborar um angular B. Esse intervalo é definido como: b-t-S,sBS6 +S, onde: b = estimativa do coeficiente angular B; t = valor critico; S, = erro padrao do coeficiente angular b. Se o intervalo de confianga para B incluir 0 zero, nao podemos rejeits hipotese nula. Caso o intervalo definido nao inclua 0 zero, rejeitamos hipét nula, admitindo, com risco conhecido de erro, que ha relagao significativa «, as varidveis. Retomando nosso exemplo, consideremos que estabelecemos um grav confianga de 95%. O valor do t critico sera obtido na Tabela 4, Distribuicac ¢ Student, constante do Anexo A . Os parametros necessarios sao: © ovalor do nivel de confianga a, que é de 5%; © omtmero de graus de liberdade, que € obtido pela expressao n -k mero de observacées - numero de varidveis). Em nosso caso, 6 ~ 2 b A partir desses parametros, obtemos na Tabela 4 um t critico de 2,77° O intervalo de confianca, ao nivel de 95%, sera o seguinte: ~0,6286 - (2,776) - (0,774) < B $ -0,6286 + (2,776) - (0,0774) -0,8435 < B < -0,4137 Estimamos que o valor do coeficiente angular B pertence ao inte~ [-0,8435 ; -0,4137] com um nfvel de confianca de 95%. Como o intervalc ~ nclui o zero, podemos rejeitar a hipdtese nula, concluindo, com risco de er 5°, que hd relagao significativa entre as varidveis na populacao. Outra maneira de testarmos a hipotese nula (B = 0) é analisar a sig: ficancia do coeficiente de regressao. Para isso, comparamos, em termos 1 vos, o valor da estimativa b com seu desvio padrao Sy: b-B t=—— Sy onde: b = estimativa do coeficiente angular B; B = coeficiente angular da populacao; S, = erro padrao de b. Como na hipotese nula B = 0, a equacdo acima resulta em: b t=—. Ss se re padres que 0 estimador b dista do Ponto z maior for essa “distancia”, maior sera a ch; nte de zero. B=0 oo b + Ss Figura 2.6 Distancia entre t e o coeficiente B, A “distancia” calculada precisa de um parametro de comparacao, para que possamos rejeitar ou aceitar H, a determinado nivel de confian: ey pn ica. Utilizaremos 0 valor de t critico para esse propésito. A Figura 2.7 mostra-nos as regides de aceitacdo e de rejeigdo para Hy: Rejeitar Hy Rejeitar Hy +t, + bstico Figura 2.7 Regides de aceitagdo e de rejeigdo para Hy i itico, aceita- Assim, se 0 teste se situar no intervalo de -teriticoat+t eeieees eee Mos Hy, com risco @. Se 0 typ... S€ Situar fora do intervalo de —t pico 4 +critico? tamos H,. deb 0 ilizando os valores de exemplo, utilizan Calculamos 0 valor de fy; Para nse 7 a Ga86 e S, = 0 0774, 0 te e de S, obtidos anteriormente. Portanto, s¢ 9 = ~ ©» Tesultante é: — 70,6286 __g 1214. eee “0,074 ‘ jor é de 2,77 O valor de t,4j.. Calculado no item anterior ¢ de 2 ee que devemos rejeitar Hy, pois (treste = 8,1214) < Certico Sura 2.8: tj 6, Assim, concluimos ,776). Veja a Fi- 87 Rejeitar H, Rejeitar Hy 2,776 1a treqe = -8,1214 reste Figura 2.8 Teste t. Podemos utilizar ainda o Valor P para testar a beatae bit B= Valor P corresponde a probabilidade de se obter uma aenarae de Valorigy ou superior a0 t,,,- que foi calculado com os dados ae deg a Probabilia é comparada com o nivel de significancia 0. para decidirm jeitamos oy, Nay a hipotese nula. Para melhor entendimento do conceito, retomemos nosso exemplo, jj seco anterior, obtivemos um valor de ¢,,.- de -8,1214. Para calcular 0 Valorp, ou a probabilidade de obtermos uma estatistica teste igual ou superior aestey, | lor, utilizaremos a fungao “DISTT” do Excel. Os parametros da funcdo sao oss. guintes: Valor P = DISTT (t,,,,,; graus_de_liberdade; caudas), A Cat Onde: t,.¢ Calculado como antes indicado. E importante salientar que este vali deve ser sempre positivo; graus_de_liberdade: corresponde an — 2, sendo no tamanho da amostt; caudas: deve ser sempre igual a 2, pois o teste do Valor P é bi-caudal. Considerando nosso exemplo, o célculo do valor P é o seguinte: : Valor P = DISTT (8,1214 3452) = 0,0012. Essa é a probabilidade de a N0Ss0 t,,.., de -8,1214. Fixado seguinte regra para decidirmos obtermos uma estatistica teste igual ou super” um nivel de significancia 1, podemos construl* Se rejeitamos ou aceitamos a hipotese nula: se Valor P é menor ou igual a a, se Valor P é maior que a, aceitamos a hipotese nula Considerand pois 0 Valor p caleulade (0, OO e UM Nivel de 5%, rejeitamosa hipées ; Eee a € menor que 0,05 Podemos ainda, visual” : n ,05. s : a cauda ef eies indo que uma metade do Valor re i ima = - ‘a-se na cauda esquerda e aban ft He ‘us teste = ~8, : : Tejeitamos a hipétese nula; , Situa-se de do Valor P situa-ses RQ asi +8,1214 Figura 2.9 Area do Valor P. aed Como podemos observar pela figu'a. 0 teste que utiliza 0 ea sombreada no gréfico de baixo) sempre pfoPorciona a mesma conclusao de teste £. Observe que o Valor P, que éa probabilidade associada 80 legge, € COMI com oo. (indicado no gréfico de cima), que é a probabilidade associada ao : ia

You might also like