Bonjour,
Il me semble que votre question est la même que l’on se pose pour savoir « combien de plans factoriels regarder ».
Si vous utilisez peu de facteurs pour la CAH vous verrez les plus grosses structures de vos données. Si vous en prenez d’avantage vous verrez des structures plus fines, si vous en prenez trop vous verrez aussi de l’aléatoire. Le seuil de 5 n’est ni une convention ni une obligation. Sentez vous libre et essayez en plusieurs ! Quand la CAH vous apporte quelque chose d’intéressant c’est que vous avez fait le bon choix. Gardez à l’esprit que ce sont des méthodes strictement descriptives.
Bien cordialement.
Gilles le Pape.
De : factomin...@googlegroups.com [mailto:factomin...@googlegroups.com] De la part de Maxime C
Envoyé : jeudi 13 juillet 2017 18:56
À : FactoMineR users <factomin...@googlegroups.com>
Objet : Comment choisir le nombre de dimensions pour ACM/AFM avant une CAH?
--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "FactoMineR users".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse factominer-use...@googlegroups.com.
Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.
Bonjour,
Pour compléter, la valeur de 5 est l'option par défaut et n'a
pas de fondement théorique.
Les fonctions estim_ncp estiment le nombre de dimensions qui
minimise l'erreur de prévision par validation croisée. Elles sont
surtout utiles pour trouver le nombre de dimension quand on a des
données manquantes mais donnent aussi une idée du nombre de
dimensions qu'on peut interpréter (différentes du bruit) et
utiliser pour la classification.
Quand on utilise des méthodes factorielles avant de faire de la
classification, nous recommandons de conserver de nombreuses
dimensions - l'idée étant juste de "débruiter" les données afin de
stabiliser les résultats de la classification. On préfère dans
l'idée prendre plus de dimensions (que 2 par exemple qui peuvent
être utilent pour interpréter, visualiser et résumer) afin de ne
pas perdre d'information pour faire la classification.
Donc, on peut recommander de prendre
- par exemple les dimensions telle qu'on ait 90% de l'inertie.
(on se dit que les 10% dernières sont vraiment du brui)
- prendre les dimensions données par estim_ncp
- faire varier le nombre de dimensions et de voir l'impact sur
les classifications
(chttps://forwards.github.io/docs/MCA_community_useR2016_survey/e
qu'on a fait ici par exemple )
Bien cordialement,
JJ