Regressão Quantílica
1. Conceitos básicos
O ajuste de equações é pratica usual nos estudos de mensuração, onde são estabelecidas relações funcionais considerando variáveis referentes às árvores e povoamentos, com o objetivo de estimar quantidades como volume, biomassa, carbono, entre outras características.
Para isso, são utilizados métodos de estimação dos parâmetros das equações, sendo mais frequente o Método dos Mínimos Quadrados Ordinários, seja pela facilidade do ajuste das equações seja pelo atendimento, a contento, dos objetivos propostos e da precisão requerida.
Embora o Método dos Mínimos Quadrados seja usual, na presença de dados discrepantes, caso não feita uma consistência eficiente, seu emprego pode resultar em estimativas de baixa precisão e viés (Koenker e Basset, 1978). De acordo com esses autores, a regressão quantílica (regressão pela mediana) é mais robusta na presença destes valores, podendo ser utilizada quando os dados não seguem a distribuição normal. Seus estimadores são eficientes quando os erros não possuem distribuição normal e podem ser estimados empregando programação matemática, como a programação linear.
As estimativas dos parâmetros das equações para um dado modelo, no Método dos Mínimos Quadrados Ordinários (MQO), podem ser obtidas pela solução do sistema de equações normais:
Para a regressão quantílica (RQ), as estimativas dos parâmetros podem ser obtidas pelo Método Simplex utilizando o pacote quantreg (KOENKER, 2013), do software R (R CORE TEAM, 2014), tal que:
em que ρ é uma função de “check”, definida por:
em que: q é um dado percentil e u igual ao erro ou resíduo.
2. Exemplo
Por exemplo, seja o ajuste de uma equação para a construção de curvas de índice de local (ARAUJO JR et al. 2016), cujos dos dados das alturas das árvores dominantes (Hd) em relação à idade (I) seguem a seguinte distribuição:
e cuja tendência pode ser representada pelo seguinte modelo:
Ajustando-se as equações pelo MQO e pela Regressão Quantílica (RQ), considerando um percentil igual a 50%, obtiveram-se os seguintes estimativas dos parâmetros e estatísticas:
Graficamente, observa-se que as equações ajustaram-se de maneira idêntica, apresentando tendência semelhante, com as curvas ajustadas quase coincidentes:
Adicionando-se um dado discrepante aos conjunto de dados e ajustando-se novamente as equações, observa-se no gráfico a seguir, que a equação ajustada pela Regressão Quantílica mantém a curva passando pelo meio da nuvem de pontos (linha tracejada), enquanto a curva obtida pelo Método dos Mínimos Quadrados Ordinários deslocou-se para baixo em virtude do dado discrepante.
A retirada do valor discrepante poderia tornar o comportamento das curvas bem parecidas. No entanto, a manipulação dos dados requer cuidado, uma vez que um dado discrepante não necessariamente pode ser considerado um erro, mas um comportamento inesperado do fenômeno em estudo, cujas causas devem investigadas antes da sua retirada.
No caso da geração de um feixe de curvas de índice de local pelo Método da Curva-guia, com um idade-índice de 48 meses, considerando as curvas ajustadas anteriormente, ter-se-ia a seguinte distribuição:
Onde observa-se que Regressão Quantílica (RQ) propiciou uma melhor distribuição do feixe de curvas anamórficas em relação aos dados observados, tanto em idades menores (24 meses) quanto em idades maiores (60 meses), na presença de dados discrepantes.
Na RQ, há, ainda, a possibilidade de ajustar equações para diferentes percentis da distribuição dos dados (P1, P30, P50, P70, P99). Assim, como para cada percentil existe uma equação específica, torna-se possível a obtenção de um feixe de curvas de índice de local polimórficas pela RQ, diferentemente do método da curva guia, que gera um feixe de curvas anamórficas, e sem a necessidade de utilizar uma idade arbitrária (idade-índice), como se segue.
3. Referências bibliográficas
ARAUJO JR, C.A; SOARES, C.P.B.; LEITE, H.G. Curvas de índice de local em povoamentos de eucalipto obtidas por regressão quantílica. Pesq. Agropec. Bras., v.51, n.6, p.720-727. 2016. [acessar]
KOENKER, R.; BASSETT, G. Regression Quantiles. Econometrica, v. 46, n.1, p.33-50. 1978. [acessar]
KOENKER, R. quantreg: Quantile Regression. R package version 5.05. http://CRAN.R-project.org/package=quantreg, 2013.
R CORE TEAM (2014). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.URL http://www.R-project.org/.