Regressão Linear

1. Considerações iniciais

Sejam duas variáveis aleatórias X e Y. Assim sendo, podemos verificar:

•       O quanto elas se correlacionam (coeficiente de correlação);

•       Como elas se correlacionam (+ ou -);

•       Se elas diferem estatisticamente (por meio testes estatísticos) e;

•       O quanto a variação de uma unidade da variável X causa variação em Y.

Por exemplo, deseja-se saber qual a relação entre a altura de plântulas (Y) de uma dada espécie em função dos dias após a germinação (X).

Considerando os dados abaixo:

            

Podemos observar graficamente uma tendência de aumento linear das alturas das plântulas em relação ao dias após a germinação:

     

Considerando ainda que esta tendência linear pode ser representada por uma reta, definida pelo modelo linear simples: Y = β0 + β1X + ε, para este exemplo, as estimativas de β0 e β1, são: 1,4667 e 0,51, respectivamente.

Desta forma, observa-se que a taxa média de crescimento em altura das plântulas é de 0,51mm por dia (inclinação da reta dado pela estimativa de β1).

Substituindo-se os dias (X) na equação:

       

Obtém-se as alturas médias das plântulas ao longo do tempo e a taxa de crescimento por dia (0,51mm):

    

 

2. Ajuste da equação

Mas como obter as estimativas de β0 e βdo exemplo anterior? Utilizando a técnica de regressão linear, por meio do Método dos Mínimos Quadrados Ordinários (MQO), pela minimização da soma de quadrados dos resíduos, em que os resíduos são definidos pela diferença entre os valores observados e estimados da variável Y.

Na prática, encontra-se a combinação linear dos β`s que minimiza a soma de quadrados dos resíduos (ou erros – ei). A dedução dos estimadores de MQO é disponível no post sobre os estimadores (clique aqui).

      

 

Para o exemplo anterior, os estimadores MQO de β0 e β1 podem ser obtidos considerando os somatórios e as médias das variáveis X e Y, os quais são dados por:

      

Ou, ainda, matricialmente, resolvendo o seguinte sistema de equações:

     

Tal que, para o exemplo em questão, o vetor das estimativas dos parâmetros, a matriz (X´X) e o vetor (X`Y) são dados por:

      

 

Resolvendo o exemplo:

a) Considerando a primeira alternativa, foi elaborado o seguinte quadro para a obtenção das estimativas dos somatórios e médias utilizadas na obtenção das estimativas dos parâmetros do modelo linear:

     

Desta forma, as estimativas dos parâmetros, são:

      

b) Considerando a segunda alternativa, resolvendo o sistema de equações normais matricial, as estimativas dos parâmetros, são:

      

Onde se observa a igualdade das estimativas pelos dois procedimentos.

 

3. Análise da precisão da equação

Como todo procedimento estatístico, há a necessidade de avaliar a precisão da equação e a significância de seus parâmetros. Para isso, torna-se necessário proceder a análise de variância (ANOVA), que é a decomposição da variância de Y, naquilo que a regressão (equação) consegue explicar e aquilo que ela não consegue explicar (resíduo), culminando em um teste “F”.

O quadro geral da análise de variância da regressão é dado por:

     

Sendo:

 

p =  número de variáveis independentes

A hipóteses do teste F são:

      Ho:. Todos os β’s são estatisticamente iguais a zero;

      Ha:. Pelo menos um dos β’s é diferente de zero.

Regra decisória: A estatística F calculada na ANOVA e comparada ao valor tabelado da distribuição de F, a um dado nível de significância e p e n-p-1 graus de liberdade. Assim, se Fcalulado > Ftabelado , rejeita-se Ho.

No caso de rejeição de Ho, há a necessidade de testar os parâmetros do modelo separadamente, pelo teste “t”, cujas as hipóteses são:

Ho:. βi= 0

Ha:. βi≠ 0

A estatística do teste é:

   

em que

    

são, respectivamente, as estimativas dos parâmetros, conforme descrito anteriormente, e as suas variâncias, obtidas pela multiplicação do quadrado médio do resíduo, da análise de variância (ANOVA), pelos elementos da diagonal principal da matriz (X’X)-1 .

Regra decisória: O valor de “t” calculado é então comparado com o valor da distribuição de “t”, a um dado nível de significância e com n-p-1 graus de liberdade (resíduo). Assim, se tcalulado > ttabelado , rejeita-se Ho.

Após o ajuste da equação e as avaliações do teste F da ANOVA e teste “t” dos parâmetros, pode-se calcular as seguintes medidas de precisão:

a)  Coeficiente de determinação (R2): que fornece a percentagem da variação de Y em torno da média explicada pela equação.

   

b)  Erro padrão da estimativa (Sy.x): em termos práticos representa o erro médio associado ao uso da equação.

   

 

4. Exemplo

Seja a altura (H) de 12 árvores (em metros) e seus respectivos diâmetros - Dap (em centímetros):

     

Assim, ajuste uma equação referente ao seguinte modelo e proceda a análise da precisão da equação:

     

H = Y (variável dependente);

Dap e Dap2 = X1 e X2 (variáveis independentes);

β0 ... β2 = parâmetros do modelo;

ε = erro aleatório.

Para facilitar o desenvolvimento do exemplo foi elaborado o seguinte arquivo de dados:

     

4.1. Ajuste da equação

Resolvendo o sistema de equações para encontrar as estimativas dos β’s:

    

Para este exemplo, seus componentes são dados por:

   

em que:

   

e

    

Invertendo-se a matriz (X`X), obtém-se:

   

onde as reticências indicam a existências de mais casas decimais.

Multiplicando-se a matriz (X`X)-1 por X`Y encontra-se as seguintes estimativas dos parâmetros β’s:

    

Desta forma, obteve-se a seguinte equação:

   

 

4.2. Análise da precisão da equação

Calculando-se as somas de quadrado (SQ) da ANOVA, tem-se:

      

Os graus de liberdade para Regressão (p), Total (n-1) e Resíduo (n-p-1), são, respectivamente, iguais a: 2, 11 e 9.

Desta forma, o quadro da análise se variância (ANOVA) fica assim definido, considerando que os quadrados médios (QM) foram obtidos dividindo-se as somas de quadrado pelos graus de liberdade e a estatística “F” foi obtida pela razão entre os quadrados médios:

     

O valor calculado de “F” (Fcalc) foi igual a 89,29. O valor tabelado de “F” a 5% de significância e 2 e 9 graus de liberdade é 4,26. Assim sendo, como Fcalculado > Ftabelado então rejeita-se Ho, pelo teste “F”, ao nível de 5% de significância, ou seja, pelo menos um dos β’s é diferente de zero estatisticamente.

Procedendo-se o teste “t” para os parâmetros, tem-se:

  •    Para β0

   

O valor de de “t” tabelado a 5% de significância e 9 graus de liberdade é 2,262. Como tcalculado < ttabelado, então aceita-se Ho, pelo teste “t”, ao nível de 5% de significância, ou seja, β0 = 0 estatisticamente.

  •   Para β1

    

O valor de de “t” tabelado a 5% de significância e 9 graus de liberdade é 2,262. Como tcalculado > ttabelado, então rejeita-se Ho, pelo teste “t”, ao nível de 5% de significância, ou seja, β1 ≠ 0 estatisticamente.

  • Para β2

   

O valor de de “t” tabelado a 5% de significância e 9 graus de liberdade é 2,262. Como tcalculado < ttabelado, então rejeita-se Ho, pelo teste “t”, ao nível de 5% de significância, ou seja, β2 = 0 estatisticamente.

De acordo com o teste “t”, os parâmetros  β0 e β2 são estatisticamente iguais a zero. Uma análise gráfica da distribuição das alturas em relação aos seus respectivos diâmetros (ver gráfico a seguir) mostra a coerência da não significância do parâmetro β2, uma vez que ajustou-se um polinômio de segundo grau ao invés de um modelo linear simples. Isso mostra um erro de especificação do modelo.

     

Desconsiderando que os parâmetros β0 e β2 são estatisticamente iguais a zero, as estimativas das medidas de precisão da equação ajustada anteriormente, foram:

      

 

 

 

 

 

 

 

 

Voltar ao Topo