Análise de regressão

A análise de regressão é de longe a técnica de dependência mais amplamente usada e versátil, aplicável em cada faceta da tomada de decisões em negócios. Seus usos variam desde os problemas mais gerais até os mais específicos, sendo que em cada caso relaciona um fator (ou fatores) a um resultado específico. Por exemplo, a análise de regressão é o fundamento para os modelos de previsão em negócios, variando de modelos econométricos que prevêem a economia nacional com base em certas informações (níveis de renda, investimentos e assim por diante) até modelos de desempenho de uma empresa em um mercado se uma estratégia específica de marketing for adotada. os modelos de regressão também são empregados para estudar como os consumidores tomam decisões ou formam impressões e atitudes. Outras aplicações incluem a avaliação de determinantes de efetividade de um programa (p. ex., quais fatores ajudam a manter a qualidade) e a determinação da viabilidade de um novo produto ou o retorno esperado de um novo empreendimento. Ainda que esses exemplos ilustrem apenas um pequeno subconjunto de todas as aplicações, eles demonstram que a análise de regressão é uma ferramenta analítica poderosa planejada para explorar todos os tipos de relações de dependência.
A análise de regressão múltipla é uma técnica estatística geral usada para analisar a relação entre uma única variável dependente e diversas variáveis independentes (HAIR JR et al., 2009, p. 149).

 

A análise de dados por modelo de regressão linear é considerada “uma das principais ferramentas da econometria”, sendo considerada a sua “pedra fundamental” (GUJARATI, 2019, p. 3).

 

NBR 14653-2:2011. Avaliação de bens. Parte 2. Imóveis urbanos. Anexo A (normativo) Procedimentos para a utilização de modelos de regressão linear

A.1 Introdução.
A.1.1 A técnica mais utilizada quando se deseja estudar o comportamento de uma variável dependente em relação a outras que são responsáveis pela variabilidade observada nos preços é a análise de regressão.
A.1.2 No modelo linear para representar o mercado, a variável dependente é expressa por uma combinação linear das variáveis independentes, em escala original ou transformadas, e respectivas estimativas dos parâmetros populacionais, acrescida de erro aleatório, oriundo de:
– efeitos de variáveis não detectadas e de variáveis irrelevantes não incluídas no modelo;
– imperfeições acidentais de observação ou de medida;
– variações do comportamento humano, como habilidades diversas de negociação, desejos, necessidades, compulsões, caprichos, ansiedades, diferenças de poder aquisitivo, diferenças culturais, entre outros.

 

Os mesmos termos se encontram no item A.1 da NBR 14653-3:2019. Avaliação de bens. Parte 3. Imóveis rurais e seus componentes.

Observando-se que “um sistema linear não envolve produtos ou raízes de variáveis. Todas as variáveis ocorrem somente na primeira potência e não aparecem, por exemplo, como argumentos de funções trigonométricas, logarítmicas ou exponenciais […] um conjunto finito de equações lineares é denominado um sistema de equações lineares ou, simplesmente, um sistema linear. As variáveis são denominadas incógnitas” (ANTON; RORRES, 2012, p. 2).

 

Modelo linear

O sistema linear descrito nas normas técnicas mencionadas acima pode ser expresso como:

 y_1 = \beta_0 + \beta_1  \cdot x_{11} + \beta_2 \cdot x_{12} + \beta_3 \cdot x_{13} + \ldots + \beta_k \cdot x_{1k} + \varepsilon_1 \\ y_2 = \beta_0 + \beta_1 \cdot x_{21} + \beta_2 \cdot x_{22} + \beta_3  \cdot x_{23} + \ldots + \beta_k \cdot x_{2k} + \varepsilon_2 \\ y_3 = \beta_0 + \beta_1  \cdot x_{31} + \beta_2  \cdot x_{32} + \beta_3 \cdot x_{33} + \ldots + \beta_k \cdot x_{3k} + \varepsilon_3 \\ \vdots \\ y_i = \beta_0 + \beta_1 \cdot x_{i1} + \beta_2 \cdot x_{i2} + \beta_3 \cdot x_{i3} + \ldots + \beta_k  \cdot x_{ik} + \varepsilon_i

 

  \begin{tabular}{lll}  Onde: & y_i & valor observado no mercado \\  & \textsl{i} &  elemento da amostra sob análise \\  & \textsl{k} &  variáveis independentes inseridas no modelo \\  & \beta_0 &  intercepto (interseção) \\  & \beta_k &  coeficiente regresso associado à variável k \\  & \varepsilon_i &  erro aleatório do elemento i da amostra \\  \end{tabular}

 

Na doutrina especializada, esse sistema é denominado modelo linear de Gauss-Markov (LUNA, OLINDA, 2014, p.95) ou modelo linear clássico (MARINHO, 2023, p. 80). 

A forma matricial do sistema acima é a seguinte:

 \begin{bmatrix} \beta_1 \\ \beta_2 \\ \beta_3 \\ \vdots \\ \beta_k \end{bmatrix} \quad \cdot \quad \begin{bmatrix} x_{11} & x_{12} & x_{13} & \ldots & x_{1k} \\ x_{21} & x_{22} & x_{23} & \ldots & x_{2k} \\ x_{31} & x_{32} & x_{33} & \ldots & x_{3k} \\ \vdots \\ x_{i1} & x_{i2} & x_{i3} & \ldots & x_{ik} \end{bmatrix} \quad + \quad \begin{bmatrix} \varepsilon_1 \\ \varepsilon_2 \\ \varepsilon_3 \\ \vdots \\ \varepsilon_i \end{bmatrix} \quad = \quad \begin{bmatrix} y_1 \\ y_2 \\ y_3 \\ \vdots \\ y_i \end{bmatrix}

 

ou simplesmente:  \mathbf{\hab{b} X + \varepsilon = y }

No sistema e nas matrizes acima, o índice do elemento foi anotado antes do índice da variável independente a ele relacionada (ANTON, RORRES, 2012, p. 6). 

As condições que devem ser preenchidas para a validação desse modelo (MARINHO, 2023,  p. 80) são:

  1. média zero dos resíduos;
  2. homocedasticidade dos resíduos (variância constante);
  3. não-autocorrelação (independência serial dos resíduos);
  4. normalidade dos resíduos;
  5. não-aleatoriedade das variáveis independentes;
  6. número de observações maior que o número de coeficientes a serem estimados; e
  7. não existência de relação exata (colinearidade perfeita) entre quaisquer das variáveis independentes.

 

Sobre o pressuposto f devem ser observadas as diretrizes contidas na NBR 14653-2:2011 (Avaliação de imóveis. Parte 2: Imóveis urbanos), item 9.2.1, tabela 1, item 2, e na NBR 14653-3:2019 (Avaliação de bens. Parte 3: Imóveis rurais e seus componentes), item 9.3.1, tabela 2, item 2.

Modelo linear geral

Sobre o modelo linear, pode-se dizer que:

O modelo estatístico a adotar pode ser satisfeito por uma variedade de funções, sendo importante destacar, neste ponto que, se houver indicações de que o relacionamento estudado é linear – ou linearizável pela transformação nas escalas das variáveis envolvidas  -, ele poderia ser representado pela equação:   Y_{i} = \beta_{0} + \beta_1 \cdot X_{1i} + \beta_2 \cdot X_{2i} + \ldots + \beta_k \cdot X_{ki} + \epsilon_{i} onde Yi é uma variável dependente ou explicada (no caso específico, podendo ser definida pelo valor de um bem) explicada pela variação em conjunto de variáveis independentes ou explicativas X1, X2, …, Xk (que podem corresponder, por exemplo, aos principais atributos do bem, tais como, área, frente, topografia, localização, padrão, etc.) e por um termo aleatório εi, que representa:
• a natural oscilação de preços de mercado, inerentemente aleatória, em virtude da imprevisibilidade do comportamento humano, acrescida de
• todos os possíveis erros de mensuração ou informação de dados relevantes, e de
• todas as demais variáveis x(k+1), x(k+2), etc. que fetam os preços de mercado (a variável dependente), mas que não estão presentes no modelo, e que ficam incluídas no “erro”, também designado como “resíduo”. (OLIVEIRA; GRANDISKI, 2014, p. 66).

 

As transformações de variáveis mencionadas acima podem ser:

 

 \begin{tabular}{p{3cm}p{4cm}p{4cm}p{3cm}p{3cm}}  & \\  \textbf{Tipo} & \textbf{Equação} & \textbf{Transformação} & \textbf{Variável x} & \textbf{Variável y} \\ \hline & \\ Linear & \^y = a + bx & \^y = a + bx & x & y \\ & \\ \hline & \\ Exponencial & \^y = a \cdot e^{bx} & ln \^y = ln a + bx & x & ln y \\ & \\ \hline & \\ Logarítmica & \^y = a + b\cdot ln x & \^y = a + b \cdot\ ln\ x\ & ln x & y \\ & \\ \hline & \\ Potência & \^y = a \codt x^b & ln \^y = ln a + b \cdot\ ln\ x\ & ln x & ln y \\ & \\ \hline & \\  & & & & \\ \multicolumn{5}{r}{(LAPPONI, 2000, p. 416)} \\ \end{tabular}

 

Ainda, sobre transformação de variáveis:

 \begin{tabular}{p{4cm}p{16cm}} \\ & \\ \multicolumn{1}{c}{\textbf{Transformação}} & \multicolumn{1}{c}{\textbf{Objetivo}}  \\ \hline log(y) & \begin{tabular}{p{16cm}} \\ \textbf{transformação logarítmica na base} \textsl{e}: \\ essa transformação estabiliza a variância, quando esta tende a crescer à medida que y também cresce. Em algumas situações pode também ajudar a normalizar os dados. Se a relação entre x e y é do tipo exponencial, essa transformação introduz uma relação linear entre x e a variável transformada, log(y). \end{tabular} \\ & \\ \hline \sqrt{y} & \begin{tabular}{p{16cm}} \\ \textbf{transformação raiz-quadrada}: \\ é usada para estabilizar a variância quando esta é proporcional à média dos y's. Em particular, quando a variável y for uma contagem, com distribuição Poisson, a variável transformada, \sqrt{y},   pode\ ser\ considerada\ com\ distribuição\ normal.\ \end{tabular} \\ & \\ \hline 1/y  & \begin{tabular}{p{16cm}} \\ \textbf{transformação recíproca}: \\ é usada para estabilizar a variância, no sentido de minimizar o efeito de valores muito altos de y. \end{tabular} \\ & \\ \hline y^2 & \begin{tabular}{p{16cm}} \\ \textbf{transformação quadrática}: \\ usada para estabilizar variâncias, quando esta tende a decrescer com a média dos y's. Normaliza os dados quando os resíduos se mostram com assimetria negativa. Lineariza os dados quando esses têm uma relação curvilínea. Se a relação entre x e y é do tipo curvilínea, essa transformação introduz uma relação linear entre x e a variável transformada  y^2 \end{tabular} \\ & \\ \hline & \\  & \\ ~ & \multicolumn{1}{r}{(CHARNET et al., 2008, p. 133)} \\ \end{tabular}

 

Deve-se, porém, observar as orientações contidas nos items A.9 da NBR 14653-2:2011 e A.9 da NBR 14653-3:2019, no sentido de que a variável dependente  y no modelo de regressão deve ser apresentada no laudo na forma não transformada.

O conjunto de dados abaixo será submetido à análise por regressão linear múltipla (duas variáveis independentes: área do terreno e área construída; com o acréscimo do intercepto), sem transformação das variáveis, ou seja, será utilizado o modelo linear geral:  \hat{y}_i = \beta_0 + \beta_1\!  \cdot\! x_{1i} + \beta_2\! \cdot\! x_{2i}

 

 \begin{tabular}{crrr} \textbf{Itens} & \multicolumn{1}{c}{\textbf{Área do terreno}} & \multicolumn{1}{c}{\textbf{Área construída}} & \multicolumn{1}{c}{\textbf{Preço do imóvel}} \\ \hline 1 & 299,44 & 125,71 & 316.000,00 \\ \hline 2 & 295,10 & 126,91 & 317.000,00 \\ \hline 3 & 303,43 & 127,60 & 320.000,00 \\ \hline 4 & 336,46 & 127,91 & 330.000,00 \\ \hline 5 & 343,58 & 126,65 & 331.000,00 \\ \hline 6 & 339,44 & 128,24 & 332.000,00 \\ \hline 7 & 348,85 & 128,62 & 335.000,00 \\ \hline 8 & 329,39 & 132,78 & 335.000,00 \\ \hline 9 & 298,39 & 139,13 & 335.000,00 \\ \hline 10 & 348,30 & 130,28 & 337.000,00 \\ \hline 11 & 340,58 & 132,91 & 339.000,00 \\ \hline 12 & 303,04 & 142,29 & 341.000,00 \\ \hline 13 & 296,94 & 143,24 & 341.000,00 \\ \hline 14 & 331,80 & 140,31 & 347.000,00 \\ \hline 15 & 311,60 & 147,90 & 352.000,00 \\ \hline 16 & 338,57 & 142,48 & 352.000,00 \\ \hline 17 & 357,68 & 139,20 & 353.000,00 \\ \hline 18 & 349,30 & 142,15 & 355.000,00 \\ \hline 19 & 349,96 & 142,11 & 355.000,00 \\ \hline 20 & 324,58 & 147,19 & 355.000,00 \\ \hline 21 & 308,80 & 151,43 & 356.000,00 \\ \hline 22 & 317,57 & 149,72 & 356.000,00 \\ \hline 23 & 344,44 & 144,71 & 357.000,00 \\ \hline 24 & 311,59 & 152,15 & 358.000,00 \\ \hline 25 & 315,76 & 152,43 & 359.000,00 \\ \hline 26 & 348,76 & 145,59 & 359.000,00 \\ \hline 27 & 296,38 & 157,44 & 361.000,00 \\ \hline 28 & 303,07 & 165,29 & 374.000,00 \\ \hline 29 & 334,39 & 163,47 & 381.000,00 \\ \hline 30 & 361,07 & 165,59 & 392.000,00 \\ \hline \end{tabular}

 

Os coeficientes calculados pela regressão foram:

 \begin{tabular}{lrrrr} \hline ~ & Coeficientes & Erro padrão & Stat t & valor-P \\ \hline Interseção & 46.137,10 & 992,07 & 46,505662 & 0,000000 \\ \hline Área do terreno & 297,92 & 2,31 & 128,884038 & 0,000000 \\ \hline Área construída & 1.438,66 & 4,12 & 349,446732 & 0,000000 \\ \hline \end{tabular}

 

 

Inserindo os coeficientes acima na equação do modelo linear generalizado, temos:

 \hat{y}_i = 46.137,10 + 297,92 \cdot x_{i1} + 1.438,66 \cdot x_{i2}

 

Essa equação nos informa que a cada alteração de uma unidade no eixo horizontal da variável x1, serão acrescentadas 297,92 unidades no eixo vertical da variável dependente; e que a cada alteração de uma unidade no eixo horizontal da variável x2, serão acrescentadas 1.438,66 unidades no eixo vertical da variável dependente.

E, também, que no ponto em que as variáveis independentes x1 e x2 são iguais a zero, o plano com todos os resultados possíveis interceptará o eixo vertical da variável dependente no ponto 46.137,10.

Reunidos, todos os possíveis resultados da equação acima assumem a figura de um plano, o qual pode ser visualizado no gráfico abaixo: 

 

 

Os resíduos, parcela não explicada pelas variáveis independentes, são calculados pela fórmula:  \varepsilon_i = y_i - \hat{y}_i

 

 \begin{tabular}{rrr}  \multicolumn{1}{c}{\textbf{Preço do imóvel}}     & \multicolumn{1}{c}{\textbf{Valor  previsto}}       & \multicolumn{1}{c}{\textbf{Resíduos}} \\  \multicolumn{1}{c}{y_i} & \multicolumn{1}{c}{\^y_i} & \multicolumn{1}{c}{\varepsilon_i} \\ \hline 316.000,00 & 316.198,36 & -198,36 \\ \hline 317.000,00 & 316.638,28 & 361,72 \\ \hline 320.000,00 & 320.105,51 & -105,51 \\ \hline 330.000,00 & 330.391,68 & -391,68 \\ \hline 331.000,00 & 330.709,83 & 290,17 \\ \hline 332.000,00 & 331.756,90 & 243,10 \\ \hline 335.000,00 & 335.112,88 & -112,88 \\ \hline 335.000,00 & 335.288,23 & -288,23 \\ \hline 335.000,00 & 335.197,75 & -197,75 \\ \hline 337.000,00 & 337.338,55 & -338,55 \\ \hline 339.000,00 & 338.809,82 & 190,18 \\ \hline 341.000,00 & 341.132,97 & -132,97 \\ \hline 341.000,00 & 340.671,96 & 328,04 \\ \hline 347.000,00 & 346.844,55 & 155,45 \\ \hline 352.000,00 & 351.753,90 & 246,10 \\ \hline 352.000,00 & 351.982,92 & 17,08 \\ \hline 353.000,00 & 352.958,89 & 41,11 \\ \hline 355.000,00 & 354.709,10 & 290,90 \\ \hline 355.000,00 & 354.846,12 & 153,88 \\ \hline 355.000,00 & 354.596,46 & 403,54 \\ \hline 356.000,00 & 355.984,76 & 15,24 \\ \hline 356.000,00 & 356.138,12 & -138,12 \\ \hline 357.000,00 & 356.948,26 & 51,74 \\ \hline 358.000,00 & 357.856,49 & 143,51 \\ \hline 359.000,00 & 359.505,78 & -505,78 \\ \hline 359.000,00 & 359.494,16 & -494,16 \\ \hline 361.000,00 & 360.939,60 & 60,40 \\ \hline 374.000,00 & 374.219,59 & -219,59 \\ \hline 381.000,00 & 380.934,91 & 65,09 \\ \hline 392.000,00 & 391.933,68 & 66,32 \\ \hline \end{tabular}

 

Os resíduos serão analisados em seção própria desta página.

 

 

 

Fontes:
ANTON, Howard; RORRES, Chris. Álbegra linear com aplicações [recurso eletrônico]. Porto Alegre: Bookman, 2012.
CASELLA, George; BERGER, Roger L. Inferência estatística. Tradução de Solange Aparecida Visconte. São Paulo: Cengage Learning, 2018.
CHARNET, Reinaldo; FREIRE, Clarice Azevedo de Luna; CHARNET, Eugênia M. Reginato; BONVINO, Heloísa.  Análise de modelos de regressão linear: com aplicações. 2. ed. Campinas,SP: Editora da Unicamp, 2008.
GUJARATI, Damodar N. Econometria básica. Tradução de Maria José Cyhlar Monteiro. Rio de Janeiro: Elsevier, 2006.
______. Econometria: princípios, teoria e aplicações práticas; tradução de Cristina Yamagami; revisão técnica de Salvatore Benito Virgilito. São Paulo: Saraiva Educação, 2019.

HAIR JR, Joseph F. et al. Análise multivariada de dados. 6. ed. Tradução de Adonai Schlup Sant’Anna. Porto Alegre: Bookman, 2009.
LATTIN, James; CARROLL, J. Douglas; GREEN, Paul E. Análise de dados multivariados. Tradução de Harue Avritscher. São Paulo: Cengage Learning, 2011.
LUNA, João Gil; OLINDA, Ricardo Alves. Introdução a modelos lineares. Campina Grande: EDUEPB, 2014.
MARINHO, Jefferson Luiz Alves. Avaliação de imóveis urbanos: análise dos pressupostos do modelo. São Paulo: Editora Leud, 2023.
NASSER JÚNIOR, Radegaz. Avaliação de bens: princípios básicos e aplicações. 3. ed. São Paulo: Editora Leud, 2019.
OLIVEIRA, Ana Maria de Biazzi Dias; GRANDISKI, Paulo. Métodos científicos e a engenharia de avaliações (com ênfase em inferência estatística). In:Engenharia de avaliações. v. 2. 2. ed. São Paulo: Livraria e Editora Universitária de Direito, 2014.