Correlação I | Oficial de Justiça Avaliador

Relação de dependência entre duas variáveis

O pesquisador, diante de variáveis dependentes de uma natureza métrica ou não-métrica, tem à disposição diversos métodos de dependência para ajudá-lo no processo de relacionar variáveis independentes com dependentes. Dada a natureza multivariada desses métodos, todas as técnicas de dependência acomodam múltiplas variáveis independentes e também permitem múltiplas variáveis dependentes em certas situações. Assim, o pesquisador tem um conjunto de técnicas que devem viabilizar a análise de praticamente qualquer tipo de questão de pesquisa que envolva uma relação de dependência. Elas também fornecem a oportunidade de se ter não apenas maior capacidade de previsão, mas uma explicação aprimorada da relação da variável dependente com as independentes. A explicação se torna cada vez mais importante à medida que as questões da pesquisa começam a abordar tópicos sobre como se dá a relação entre variáveis dependentes e independentes (HAIR JR et al., 2009, p. 147).

Conceitos principais

Coeficiente de correlação (r) coeficiente que indica a força da associação entre quaisquer duas variáveis métricas. O sinal ( + ou – ) indica a direção da relação. O valor pode variar de -1 a +1, onde +1 indica uma perfeita relação positiva, 0 indica relação nenhuma, e -1, uma perfeita relação negativa ou reversa (quando uma variável se torna maior, a outra fica menor) (ibidem, p. 150).

Coeficiente de correlação parcial. Valor que mede a força da relação entre a variável dependente ou critério e uma única variável independente quando os efeitos das demais variáveis independentes no modelo são mantidos constantes. Por exemplo, rY,X₂,X₁ mede a variação em Y associada à X₂ quando o efeito de X₁ em X₂ e Y é mantido constante. Esse valor é usado em métodos de estimação de modelo de regressão com seleção sequencial de variáveis (p. exe., stepwise, adição forward ou eliminação backward) para identificar a variável independente com o maior poder preditivo incremental além das variáveis independentes já presentes no modelo de regressão (Ibidem, p. 150).

Coeficiente de determinação (R²). Medida da proporção da variância da variável dependente em torno de sua média que é explicada pelas variáveis independentes ou preditoras. O coeficiente pode variar entre 0 e 1. Se o modelo de regressão é propriamente aplicado e estimado, o pesquisador pode assumir que quanto maior o valor de R², maior o poder de explicação da equação de regressão e, portanto, melhor a previsão da variável dependente (Ibidem, p. 150).

Coeficiente da regressão (b_n). Valor numérico da estimativa do parâmetro diretamente associado com uma variável independente; por exemplo, no modelo Y = b₀ + b₁x₁, o valor b₁ é o coeficiente de regressão para a variável X₁. O coeficiente de regressão representaria o montante da variação dependente em relação a uma unidade de variação na variável independente. No modelo preditor múltiplo (por exemplo, Y = b₀ + b₁x₁ + b₂x₂), os coeficientes de regressão são coeficientes parciais, pois cada um considera não apenas as relações entre Y e X₁ e entre Y e X₂, mas também entre X₁ e X₂. O coeficiente não é limitado nos valores, já que é baseado tanto no grau de associação quanto nas unidades de escala da variável independente. Por exemplo, duas variáveis com a mesma associação a Y teriam coeficientes diferentes se uma variável independente fosse medida em uma escala de 7 pontos e outra fosse baseada em uma escala de 100 pontos (Ibidem, p. 150-151).

Intercepto (b₀). Valor no eixo Y (eixo da variável dependente) onde a reta definida pela equação de regressão Y = b₀ + b₁X₁ cruza o eixo. É descrito pelo termo constante b0 na equação de regressão. Além de seu papel na previsão, o intercepto pode ter uma interpretação gerencial. Se a completa ausência da variável independente tem significado, então o intercepto representa essa quantia. Por exemplo, quando se estimam vendas a partir de investimentos ocorridos em anúncios, o intercepto representa o nível de vendas esperadas se o anúncio for eliminado. Contudo, em muitos casos, a constante tem apenas valor preditivo, porque não há situação na qual todas as variáveis independentes estejam ausentes. Um exemplo é prever a preferência sobre um produto com base em atitudes de consumidores. Todos os indivíduos têm algum nível de atitude, e assim o intercepto não tem uso gerencial, mas ainda auxilia na previsão (Ibidem, p. 151).

No âmbito deste trabalho, restrito à avaliação patrimonial de bens e direitos, nossa pesquisa se limitará à relação de dependência entre uma ou múltiplas variáveis independentes e uma única variável dependente; somente as variáveis métricas, ou seja, aquelas cuja correlação pode ser mensurada, serão incluídas nos modelos de análise.

A correlação entre as variáveis independentes com a variável dependente será traduzida em uma equação linear; o modelo mais simples para explicar a correlação entre essas variáveis é:

$f(x) = a + bx$

Em análise de dados multivariados por meio da técnica da regressão linear, usam-se os símbolos:

$\hat{y} = \beta_0 + \beta_1 \cdot x_1$

Onde:

β₀ = valor constante, ponto em que a reta intercepta o eixo vertical y; ponto conhecido como intercepto ou interseção.
β₁ = coeficiente calculado pela regressão que dimensiona o impacto que a variável independente x₁ causa na variável dependente y

No conjunto de dados abaixo, a variável dependente y varia em função da variável independente x; portanto, o valor de cada uma das linhas da primeira coluna está correlacionado ao respectivo valor na segunda coluna.

$\begin{tabular}{rr} \textbf{x} & \textbf{f(x)} \\ \hline 1 & 1,00 \\ \hline 2 & 2,00 \\ \hline 3 & 3,00 \\ \hline 4 & 4,00 \\ \hline 5 & 5,00 \\ \hline 6 & 6,00 \\ \hline 7 & 7,00 \\ \hline 8 & 8,00 \\ \hline 9 & 9,00 \\ \hline 10 & 10,00 \\ \hline 11 & 11,00 \\ \hline 12 & 12,00 \\ \hline 13 & 13,00 \\ \hline 14 & 14,00 \\ \hline 15 & 15,00 \\ \hline ~ & \\ Correlação & \textbf{1,00} \\ \hline \end{tabular}$

Se a correlação entre esses dois pontos for perfeita ( + 1 ou – 1 ), então esse conjunto de pontos se ajustará perfeitamente a uma reta.

A equação que explica a correlação entre os i pares de elementos do conjunto de variáveis do conjunto acima é:

$\hat{y}_i = x_{i1}$

O gráfico abaixo, gerado com o auxílio da ferramenta Geogebra, demonstra visualmente essa correlação perfeita positiva ( + 1 ) entre os valores da variável independente x e os valores da variável dependente y.

Um exemplo de correlação perfeita negativa ( – 1 ) é:

$\begin{tabular}{rr} \textbf{x} & \textbf{f(x)} \\ \hline 1 & 14,00 \\ \hline 2 & 13,00 \\ \hline 3 & 12,00 \\ \hline 4 & 11,00 \\ \hline 5 & 10,00 \\ \hline 6 & 9,00 \\ \hline 7 & 8,00 \\ \hline 8 & 7,00 \\ \hline 9 & 6,00 \\ \hline 10 & 5,00 \\ \hline 11 & 4,00 \\ \hline 12 & 3,00 \\ \hline 13 & 2,00 \\ \hline 14 & 1,00 \\ \hline 15 & 0,00 \\ \hline ~ & \\ Correlação & \textbf{-1,00} \\ \hline \end{tabular}$

A correlação entre as duas variáveis também é perfeita, porém ela é negativa; vale dizer, conforme os valores da variável independente x aumentam, os valores da variável dependente y diminuem. Ainda assim, esse conjunto de pontos também se ajusta perfeitamente a uma reta.

A equação que explica a correlação entre essas duas variáveis é:

$\hat{y}_i = 15 - x_{i1}$

O gráfico abaixo demonstra visualmente essa correlação negativa.

E, por fim, caso não exista qualquer relação de dependência entre as variáveis, o coeficiente de correlação é igual a 0,00 (zero):

$\begin{tabular}{rr} \textbf{x} & \textbf{f(x)} \\ \hline 1 & 4,00 \\ \hline 2 & 4,00 \\ \hline 3 & 4,00 \\ \hline 4 & 4,00 \\ \hline 5 & 4,00 \\ \hline 6 & 4,00 \\ \hline 7 & 4,00 \\ \hline 8 & 4,00 \\ \hline 9 & 4,00 \\ \hline 10 & 4,00 \\ \hline 11 & 4,00 \\ \hline 12 & 4,00 \\ \hline 13 & 4,00 \\ \hline 14 & 4,00 \\ \hline 15 & 4,00 \\ \hline ~ & \\ Correlação & \textbf{0,00} \\ \hline \end{tabular}$

Observa-se que as alterações feitas na variável independente ( x₁ ) não causam qualquer impacto na variável dependente ( y ).

A equação que traduz essa situação é:

$\hat{y}_i = 4,00 + \beta_0 \cdot x_{i1}$

Sendo:

$\beta_0 = 0,00$

Essa situação pode ser demonstrada visualmente no gráfico abaixo:

Cálculo do coeficiente de correlação

A correlação pode ser calculada com o auxílio da seguinte fórmula:

$r = \dfrac{\sum_{i}^{n} \bigg(x_i - \bar{x}\bigg) \cdot \bigg(y_i - \bar{y}\bigg)}{{\sqrt{\sum_{i}^{n} \bigg(x_i - \bar{x}\bigg)^2 }} \cdot \sqrt{\sum_{i}^{n} \bigg(y_i - \bar{y}\bigg)^2}}$

No programa Excel^®, a correlação entre duas variáveis é calculada através da função CORREL. ou, no caso de múltiplas variáveis, através da ferramenta de análise de dados “Correlação”; essa ferramenta depende de habilitação no sistema.

Para a interpretação dos resultados, podemos considerar a tabela apresentada por González (2015, p. 69):

$\begin{tabular}{rcccll} \multicolumn{5}{c}{\textbf{Valor}} & \multicolumn{1}{c}{\textbf{Correlação}} \\ \hline & & & & & \\ & & r & = &0 & Nula \\ & & & & & \\ 0 & menor que & \big| r \big| & \le & 0,30 & Fraca \\ & & & & & \\ 0,30 & menor que & \big| r \big| & \le & 0,6 & Média \\ & & & & & \\ 0,6 & menor que & \big| r \big| & \le & 0,90 & Forte \\ & & & & & \\ 0,90 & menor que & \big| r \big| & menor que & 1 & Fortíssima \\ & & & & & \\ & & \big| r \big| & = & 1 & Perfeita \\ & & & & & \\ \hline \end{tabular}$

Fontes:
GEOGEBRA. Disponível em: https://www.geogebra.org Acesso em: 27 out. 2022.
GONZÁLEZ, Marco Aurélio Stumpf. Avaliação de imóveis: dos métodos clássicos às redes neurais. Saarbrücken, Alemanha: 2015.
HAIR JR, Joseph F. et al. Análise multivariada de dados. 6. ed. Tradução de Adonai Schlup Sant’Anna. Porto Alegre: Bookman, 2009.