numero de levels

9 views
Skip to first unread message

LauraSantiago

unread,
Mar 18, 2014, 5:41:47 PM3/18/14
to r-eco...@googlegroups.com

Caros amigos,

 

Estou iniciando minhas analises utilizando o R e tenho procurado obter algumas informações mas não estou encontrando.

 

Eu gostaria de verificar a influência de fatores ambientais sobre distribuição de espécies de 60 localidades através do CCA utilizando 6 variáveis ambientais numéricas (ordinais) e 2 nominais, sendo as nominais Solo (com 10 levels diferentes: Neossolos, Latossolos, Argilossolos, Espodossolos, Cambissolos, Chernossolos, Luvissolos, Gleissolos, Nitossolos e Organossolos) e Clima (com 4 levels: Cf, Aw, Cw, Af) .

 

Verifiquei que ao colocar as variáveis nominais (Solo e Clima) os valores de “Inercia constrained” e “Eigenvalues for constrained axes” sobem muito. Também percebi que quanto maior for o número de levels em uma determinada variável os valores acima sobem proporcionalmente.

 

É correto interpretar que as variáveis nominais têm maior influência na distribuição das espécies que as variáveis numéricas, mesmo com um numero alto de levels?  Ou o número de levels pode estar interferindo nos meus resultados?

 

Agradeço pela ajuda

Laura Santiago
Lab. Biodiversidade e Biotecnologia 
UNIRIO

Adriano S. Melo

unread,
Mar 19, 2014, 7:00:27 AM3/19/14
to r-eco...@googlegroups.com
oi Laura,
Como em qualquer análise estatística, estimamos mais parâmetros para variáveis categóricas. Em geral, estimamos l-1 variáveis para uma variável com l níveis. Em outra palavras, seu modelo fica 'mais' flexível e tende a se ajustar melhor aos dados.

Imagine uma situação em que tenha uma variável contínua que foi categorizada em 4 níveis, com várias observações por níveis. O modelo de uma regressão linear simples estima 1 parâmetro (a contante é estimada em qualquer modelo, por padrão, e não contamos aqui). Numa anova com 4 níveis, estima-se 3 parâmetros (por meio de variáveis dummy). Na regressão, o modelo é uma reta. Na anova, o modelo são as 4 médias. Portanto, é mais fácil fazer um melhor ajuste com 4 médias do que uma reta.

Veja este texto sobre prós e contras de se usar variáveis categóricas a partir de dados quantitativos: 

Outro detalhe: sua interpretação ficará difícil com 12 níveis. Não consegue usar 1 ou mais variáveis contínuas que expressem o que de fato importa nestes tipos de solo?

Abraços,
Adriano S. Melo
Dep. Ecologia - UFG



--
Envie um código mínimo reproduzível.
Envie ou responda perguntas para o e-mail (r-eco...@googlegroups.com)
---
Você recebeu essa mensagem porque está inscrito no grupo quot;R-Ecology" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para r-ecologia+...@googlegroups.com.
Visite este grupo em http://groups.google.com/group/r-ecologia.
Para mais opções, acesse https://groups.google.com/d/optout.

Reply all
Reply to author
Forward
0 new messages