Quando o diagrama de dispersão sugere a existência de uma associação linear entre duas variáveis x e y, é possível resumir através de uma reta a forma como a variável dependente ou variável resposta (ou variável a prever) y é influenciada pela variável independente ou variável explanatória (ou variável preditora) x. A esta reta dá-se o nome de reta de regressão.

Dado um conjunto de dados bivariados (xi,yi),i=1,...,n, do par de variáveis (x,y), pode ter interesse ajustar uma reta da forma y=a+bx, que dê informação sobre como se refletem em y as mudanças processadas em x. Um dos métodos mais conhecidos de ajustar uma reta a um conjunto de dados é o método dos mínimos quadrados (figura 1), que consiste em determinar a reta que minimiza a soma dos quadrados dos desvios (ou erros) entre os verdadeiros valores das ordenadas e os obtidos a partir da reta que se pretende ajustar



Esta técnica, embora muito simples, é pouco resistente, já que é muito sensível a dados “estranhos” - valores que se afastam da estrutura da maioria, normalmente designados por outliers. Efetivamente, quando se pretende minimizar

ni=1e2i=ni=1(yiˆyi)2

pode-se mostrar que os estimadores do declive e da ordenada da origem da reta de regressão são, respetivamente:

b=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2 e a=ˉybˉx

onde se representa por ¯x e ¯y as médias dos xis e dos yis. O facto de dependerem da média, que é uma medida não resistente, faz com que a recta de regressão seja também não resistente. Assim, é necessário proceder a uma análise prévia do diagrama de dispersão para ver se não existem alguns outliers. À reta de regressão obtida por este processo também se dá o nome de reta dos mínimos quadrados.

Pode-se mostrar que r2=1ni=0(yiˆyi)2ni=0(yiyi)2 onde r é o coeficiente de correlação amostral entre x e y.

Esta quantidade r2 é o coeficiente de determinação e é referida como a quantidade de variabilidade dos dados explicada pelo modelo de regressão. Esta medida é normalmente utilizada como uma indicação da adequação do modelo de regressão ao conjunto de pontos inicialmente dado2, mas deve ser usada com precaução, pois nem sempre um valor de r2 grande (próximo de 1) é sinal de que um modelo esteja a ajustar bem os dados. Do mesmo modo, um valor baixo de r2, pode ser provocado por um outlier, enquanto a maior parte dos dados se ajustam razoavelmente bem a uma reta1. Uma visualização prévia dos dados num diagrama de dispersão é fundamental.

Uma forma de verificar se o modelo ajustado é bom é através dos resíduos, isto é, das diferenças entre os valores observados y e os valores ajustados ˆy:

resíduos = dados observados – valores ajustados

pois se estes não se apresentarem muito grandes, nem com nenhum padrão bem determinado, é sintoma de que o modelo que estamos a ajustar é bom.

Nota

A reta de regressão é utilizada em predições, isto é, para predizer o valor de y, para um dado valor de x. No entanto estas predições não devem contemplar valores de x fora do intervalo dos xis, uma vez que o facto de a reta se ajustar bem aos pontos dados não significa que sirva para fazer extrapolações.

Suponha que se recolheu o seguinte conjunto de dados referentes à idade (em meses) e à altura (em centímetros) de 18 crianças de uma escola:



O diagrama de dispersão dos dados sugere a existência de uma relação linear entre a idade e a altura, pelo que se vai ajustar aos dados uma reta dos mínimos quadrados, cuja equação está no gráfico seguinte (obtida no Excel):



O coeficiente de correlação é igual a 0,793, donde o coeficiente de determinação vem aproximadamente igual a 63% (100 x 0,79322)%, o que significa que a variabilidade que não é explicada pela reta de regressão anda à volta de 37% (= 100 - 63)%.

Se se tentar extrapolar a altura de um jovem com cerca de 17 anos (200 meses) obter-se-á uma altura de 180 cm e para um jovem adulto de cerca de 21 anos mais de 2 metros de altura, o que ilustra o problema referido na nota anterior.