Modelos Lineares Mistos

1. Conceitos básicos

Existe uma variedade de nomes usados para descrever os modelos de efeito misto, dada a sua ampla e diversificada utilização em diversas áreas, como biomédicas (FAUSTO et al., 2008), melhoramento genético (RESENDE et al., 2001; BORGES et al. 2010; FREITAS et al., 2014). Assim, eles também são chamados de modelos de efeitos aleatórios de dois estágios, modelo multinível e modelo hierárquico.

Os modelos lineares misto são aqueles que englobam fatores fixos e aleatórios e podem ser representados, em sua forma matricial, por:

       Y= Xβ + Zg + ε

tal que a estimativa da variável resposta (Y) é a soma da média da população (), obtida considerando os efeitos fixos, mais o valor predito da variável (Zg), considerando os efeitos aleatórios.

Desta forma, para a definição correta do modelo, deve-se ter em mente o que são efeitos fixos e efeitos aleatórios:

a) Efeito fixo: se todos os níveis de um determinado fator estiverem presentes no experimento (ou análise), ou seja, corresponderem aos níveis existentes na população, estes serão considerados fatores fixos;

b) Efeito aleatório: se os níveis de um fator de uma população não estiverem presentes em sua totalidade, por razões diversas, estes serão denominados de fatores aleatórios.

Seja, por exemplo, um conjunto de dados de alturas (Y) e diâmetros de árvores (X) de diferentes espécies em uma floresta inequiânea tropical, obtido em um procedimento de amostragem. Utilizando a metodologia dos modelos mistos, além estimar os parâmetros para descrever o comportamento médio da curva das alturas em relação aos diâmetros (efeito fixo), pode-se predizer os parâmetros para diferenciação do comportamento da curva por espécie (Figura 1), considerando as espécies como efeitos aleatórios, uma vez que nem todas as espécies de árvores na população podem ter sido amostradas.

     

FIGURA 1 – Comportamento da curva hipsométrica com somente efeito fixo (comportamento médio ou esperado) e o feixe de curvas para cada espécie (modelo misto).

Além do exemplo anterior, os modelos mistos tem sido utilizados em vários estudos de mensuração por possibilitar a separação de um conjunto de dados em níveis hierárquicos. Entre eles, tem-se: modelagem do crescimento em área basal e em altura dominante de povoamentos submetidos a diferentes tratamentos silviculturais, ajuste de equações de afilamento, modelagem do crescimento em nível de árvore individual, predição do volume acumulado nos troncos das árvores, entre outros (WEISKITTEL et al., 2011).

 

2. Métodos de estimação         

Em um modelo linear misto, a solução conjunta para estimar os valores de β e predizer os valores de g, passa pela resolução do seguinte sistema de equações, cujos estimadores dos efeitos fixos são BLUE (Best Linear Unbiased Estimator ) - Melhor Estimador Linear não Viesado - e os preditores dos efeitos aleatórios, denominados de BLUP (Best Linear Unbiased Predictor) - Melhor Preditor Linear não Viesado:

    

Para isso, métodos de estimação como Máxima Verossimilhança (Maximum Likelihood – ML) e Máxima Verossimilhança Restrita (Restricted Maximum Likelihood – REML) são utilizados para esta finalidade, por meio de softwares como SAS, R, Statistica, Stata, etc.

O método da Máxima Verossimilhança consiste na obtenção da função de verossimilhança ou função densidade de probabilidade conjunta das observações. Visa estimar valores numéricos dos parâmetros para os quais a função é máxima. Geralmente se maximiza o valor do logaritmo da função de máxima verossimilhança (L), por ser mais fácil operacionalmente. 

Os critérios para avaliar o ajuste dos modelos mistos normalmente são: o critério de informa de Akaike (AIC) e o critério de informação de Schwarz ou critério de informação Bayesiano (BIC), os quais são obtidos, respectivamente, por:

    

em que: p = número de parâmetros do modelo; log (L) = máximo valor do logaritmo da função de máxima verossimilhança; n = número de observações.

As estimativas dos critérios AIC e BIC baseiam-se na variável dependente, assim não se pode comparar as estimativas destes critérios quando se tem diferentes transformações das variáveis dependentes.

No processo de modelagem, onde se pretende avaliar a contribuição dos efeitos aleatórios nos modelos mistos, alguns passos devem ser seguidos (RESENDE et al., 2014):

a) Obter o ponto de máximo valor do logaritmo da função de máxima verossimilhança residual [log(L)] para o modelo com e sem o efeito a ser testado;

b) Obter o deviance, dado por D = - 2log (L), para o modelo com e sem o efeito testado;

c) Fazer a diferença entre os deviances dos modelos com e sem o efeito testado, obtendo a razão de verossimilhança;

d) Testar, via teste de Razão de Máxima Verossimilhança (LRT), a significância desta diferença, por meio do teste Qui-quadrado, com 1 grau de liberdade.

 

3. Exemplo

A produção e o crescimento florestal são função da idade da floresta (I); da capacidade produtiva do local, normalmente expressa pelo índice de local (S); e da densidade populacional, expressa pela área basal por hectare (CLUTTER et al., 1983). Assim sendo, um dos modelos tradicionais na área florestal, que utiliza estas variáveis para a projeção da produção volumétrica por unidade de área, é o modelo de Schumacher (1939), dado por:

     

Alternativamente, variáveis como tipo ou classe de solo ou classe de precipitação podem ser empregadas também como métodos indiretos de classificação da capacidade produtiva ou em associação com o índice de local (CLUTTER et al., 1983; DAVIS et al., 2001).

No entanto, a inclusão de classes de solo e precipitação, em substituição ao índice de local, como variáveis para expressar a capacidade produtiva do local em um modelo de crescimento e produção, deve ser feita em uma estrutura de modelo misto, onde, no processo inicial de modelagem, pode-se considerar a inclusão de interceptos e coeficientes aleatórios associados às variáveis Idade (I) e área basal por hectare (B), como, por exemplo:

     

em que: β0, β1 e β2  = parâmetros fixos do modelo; ai = intercepto aleatório para a i-ésima classe de solo ou precipitação; b1i e b2i  = coeficientes de inclinação aleatórios para a i-ésima classe de solo ou precipitação.

Para desenvolver o exemplo considerando os modelos descritos anteriormente, foram utilizando dados de plantios clonais E. grandis x E. urophylla, plantados no espaçamento 3,0 x 2,0 m e obtidos de medições de 133 parcelas permanentes circulares de 472 m2 de área, em povoamentos com idades entre 20 e 98 meses, localizados no norte da Bahia As parcelas estavam em locais com diferentes precipitações médias anuais, distribuídas em 6 classes: 850, 900, 950, 1000, 1100, 1200mm, e em 13 classes de solo.

 

Resultados:

Após o ajuste e da realização do teste de Razão de Máxima Verossimilhança, os modelos mistos selecionados foram:

* Classe de solo:

     

* Classe de precipitação:

    

As estimativas dos parâmetros fixos e as estatísticas dos ajustes das equações abaixo mostram que as classes de precipitação e de solo, incluídas no modelo como variável aleatória por meio da estrutura dos modelos mistos, em substituição ao índice de local, resultou em bom ajuste das respectivas equações, mostrando-se também como alternativas para caracterizar a capacidade produtiva dos plantios de eucalipto, em substituição às variáveis índice de local. No entanto, o índice de local no modelo de crescimento e produção ainda foi a variável proxy que resultou em estimativas mais precisas.

     

Para projetar o estoque volumétrico dos plantios de eucalipto com as equações ajustadas referentes aos modelos lineares mistos, torna-se necessário utilizar as estimativas conjuntas dos parâmetros fixos e parâmetros aleatórios, as quais são apresentadas a seguir:

     

 

4. Referências bibliográficas

BORGES, V.; FERREIRA, P. V.; SOARES, L.; SANTOS, G. M.; SANTOS, A. M. M. Seleção de clones de batata-doce pelo procedimento REML/BLUP. Acta Scientiarum Agronomy, v. 32, n. 4, p. 643-649, 2010.

CLUTTER, J.C.; FORSTON, J.C; PIENNAR, L.V.; BRISTER, G.H.; BAILEY, R.L. Timber management: a quantitative approach. 3. ed. New York: John Willey & Sons, 1983. 333p.

DAVIS, L. S.; JOHNSON, K. N.; BETTINGER, P. S.; HOWARD, T. E. Forest management: to sustain ecological, economic, and social values. 4th ed. Illinois: Waveland Press, Inc, 2001.804p.

FAUSTO, M. A; CARNEIRO, M.; ANTUNES, C. M. de F.; PINTO, J. A.; COLOSIMO, E. A. O modelo de regressão linear misto para dados longitudinais: uma aplicação na análise de dados antropométricos desbalanceados. Cadernos de Saúde Pública, v. 24, n. 3, p. 513-524, 2008.

FREITAS, I. L. de; AMARAL Jr, A. T. do; VIANA, A. P.; PENA, G. F.; CABRAL, P. da S.; VITTORAZZI, C.; SILVA, T. R. da C. Ganho genético avaliado com índices de seleção e com REML/Blup em milho‑pipoca. Pesquisa Agropecuária Brasileira, v. 48, n. 11, p. 1464-1471, 2014.

RESENDE, M. D. V. de; FURLANI Jr, E.; MORAES, M. L. T. de; FAZUOLI, L. C. Estimativas de parâmetros genéticos e predição de valores genotípicos no melhoramento do cafeeiro pelo procedimento REML/BLUP. Bragantia, v. 60, n. 3, p. 185-193, 2001.

RESENDE, M. D. V. de; SILVA, F. F. e; AZEVEDO, C. F. Estatística matemática, biométrica e computacional: Modelos mistos, multivariados, categóricos e generalizados (REML/BLUP), inferência bayesiana, regressão aleatória, seleção genômica, QTL-GWAS, estatística espacial e temporal, competição, sobrevivência. Viçosa: Suprema gráfica e Editora Ltda, 2014. 882p.

SCHUMACHER, F. X. A new growth curve and its application to timber yield studies. Journal of Forestry, v. 37, p. 819-820, 1939.

WEISKITTEL, A.R.; HANN, D.W.; KERSHAW JR, J.A.; VANCLAY, J. K. Forest growth and yield modeling. New York: John Wiley and Sons, 2011. 415p.

Voltar ao Topo