Correlação não perfeita

No conjunto de dados abaixo, a variável dependente y varia em função da variável independente x; portanto, cada valor das linhas da primeira coluna está correlacionado ao respectivo valor da segunda coluna, porém não de modo exato.

 

 \begin{tabular}{lr}  \textbf{x} & \textbf{f(x)} \\ \hline 1 & 4,00 \\ \hline 2 & 5,00 \\ \hline 3 & 4,00 \\ \hline 4 & 5,00 \\ \hline 5 & 8,00 \\ \hline 6 & 8,00 \\ \hline 7 & 9,00 \\ \hline 8 & 8,00 \\ \hline 9 & 11,00 \\ \hline 10 & 15,00 \\ \hline 11 & 16,00 \\ \hline 12 & 17,00 \\ \hline 13 & 15,00 \\ \hline 14 & 20,00 \\ \hline 15 & 16,00 \\ \hline ~ & \\ Correlação & \textbf{0,95} \\ \hline \end{tabular}

 

 

Os coeficientes regressores da equação linear:

 \hat{y}_i = \beta_0 + \beta_1 \cdot x_{i1}

 

são calculados com as seguintes fórmulas:

 \beta_0 = \dfrac{(n \cdot \sum x \cdot y) - (\sum x)\cdot(\sum y)}{(n \cdot \sum x^2)-(\sum x)^2} \\  \\ \indexspace \beta_1 = \bar{y} - \beta_0 \cdot \bar{x}

 

O correlação entre as duas variáveis é positiva, entretanto ela não é perfeita; vale dizer, nem todos os pontos se ajustam perfeitamente à reta da regressão. A dispersão desses dados em relação à reta pode ser visualizada com o auxílio do seguinte gráfico:

 

 

 

Na análise acima, a equação que melhor se ajusta ao conjunto de dados é:

 \hat{y}_i = 1,67 + 1,13 \cdot x_{i1}

 

Aplicando essa equação aos valores da variável independente x1, temos os resultados previstos pela regressão linear. A correlação entre a variável independente e os respectivos valores previstos pela regressão é perfeita.

 

 \begin{tabular}{lr}  \textbf{x} & \textbf{\hat{y}} \\ \hline 1 & 2,81 \\ \hline 2 & 3,94 \\ \hline 3 & 5,07 \\ \hline 4 & 6,20 \\ \hline 5 & 7,34 \\ \hline 6 & 8,47 \\ \hline 7 & 9,60 \\ \hline 8 & 10,73 \\ \hline 9 & 11,87 \\ \hline 10 & 13,00 \\ \hline 11 & 14,13 \\ \hline 12 & 15,26 \\ \hline 13 & 16,39 \\ \hline 14 & 17,53 \\ \hline 15 & 18,66 \\ \hline ~ & ~ \\ Correlação & \textbf{1,00} \\ \hline  \end{tabular}

 

 

Os resultados previstos (  \hat{y}_i )pela equação de regressão linear não são idênticos aos valores observados (  y_i ). Essa diferença recebe o nome de resíduos e se refere à parcela não explicada pelas variáveis independentes inseridas no modelo.

 

 

 

Fontes:
CASELLA, George; BERGER, Roger L. Inferência estatística. Tradução de Solange Aparecida Visconte. São Paulo: Cengage Learning, 2018.
GUJARATI, Damodar N. Econometria básica. Tradução de Maria José Cyhlar Monteiro. Rio de Janeiro: Elsevier, 2006.
HAIR JUNIOR, Joseph F. et al. Análise multivariada de dados. 6. ed. Tradução de Adonai Schlup Sant’Anna. Porto Alegre: Bookman, 2009.