Falta de ajustamento
ESPECIFICAÇÃO DO MODELO
Após o ajuste de uma equação, referente a um determinado modelo, é possível avaliar a adequação do referido modelo à distribuição dos dados. Para isso, torna-se necessário que para cada valor da variável X (independente), tenhamos valores da variável Y (dependente).
Desta forma, espera-se que, para os valores de X, a curva ajustada passe pelo centro da distribuição dos valores de Y, caso o modelo seja adequado, conforme figura a seguir:
Como a curva passa pelo centro da distribuição dos dados de cada X, que possuem distribuição normal, então:
Explicando: Se Y ~ N(μ;σ2), então , que será igual a
, ou seja,
.
O erro na estimativa (e) será a distância entre o valor observado de Y e o valor estimado pela equação, ou seja,
No entanto, se uma equação não passa entre os valores de Y, conforme a figura a seguir, então a:
Assim sendo, o erro (ou resíduo) será dado por:
Traduzindo: o erro será a distância do valor deaté o valor médio de Y mais a distância entre o valor médio de Y até o valor estimado de Y.
Como a equação não passa pela média, então Desta forma:
Se não haveria falta de ajustamento e o erro seria apenas o erro puro.
Estimativa do erro puro e da falta de ajustamento:
Por meio da análise de variância (ANOVA) da regressão é possível decompor a soma de quadrado e graus de liberdade dos resíduos em duas partes: erro puro e falta de ajustamento.
Exemplo:
Sejam as alturas de 15 árvores (n=15) e seus respectivos diâmetros, bem como as estimativas das médias das alturas nas respectivas classes de diâmetro (m=5).
Ajuste da equação sem considerar a falta de ajustamento
Com os dados de alturas (Y) e diâmetros (X), ajustou-se uma equação, referente a um modelo linear simples, obtendo-se as seguintes estimativas dos parâmetros, pelo método dos mínimos quadrados ordinários:
Após o ajuste, as alturas estimadas foram:
Procedendo-se a análise de variância da regressão, tem-se:
ANOVA
Regra de decisão:
F(5%; 1 e 13gl) = 4,67
Fcalc> Ftab => Rejeita-se Ho, pelo teste F, a 5% de significância, isto é, pelo menos um dos β`s é diferente de zero.
Calculando as somas de quadrado em uma planilha:
As medidas de precisão da equação ajustada, foram:
Considerando a falta de ajustamento
Desdobrando a soma de quadrados dos resíduos em erro puro e falta de ajustamento, com seus respectivos graus de liberdade, a ANOVA fica assim redefinida:
Em que:
Calculando as somas de quadrado por meio de uma planilha:
Regra de decisão (Regressão):
F(5%; 1 e 10gl) = 4,965
Fcalc> Ftab => rejeita-se a hipótese Ho, ou seja, pelo menos um dos betas é diferente de zero, pelo teste F, a 5% de significância.
Regra de decisão (Falta de ajustamento):
Ho:. o modelo não apresenta falta de ajustamento
Ha:. o modelo apresenta falta de ajustamento (não se apresenta adequado à distribuição dos dados)
F(5%; 3 e 10gl) = 3,708
Fcalc> Ftab => rejeita-se a hipótese Ho, pelo teste F, a 5% de significância. O modelo apresenta falta de ajustamento, isto é, o modelo não é adequado para descrer o comportamento das alturas das árvores (Y) em relação a seus diâmetros (X).
Mas porque o modelo é inadequado? Analisando a figura abaixo observa-se que as alturas das árvores (Y) aumentam com os diâmetros (X), atingindo um valor assintótico e o modelo ajustado é uma reta!