Comment choisir le nombre de dimensions pour ACM/AFM avant une CAH?

502 views
Skip to first unread message

Maxime C

unread,
Jul 13, 2017, 12:56:06 PM7/13/17
to FactoMineR users
Bonjour,

Merci pour les outils développés dans FactoMineR, le Mooc et ce groupe. Cela m'est très utile!

Je souhaite réaliser une CAH après une analyse sur des variables qualitatives (type ACM/AFM). Là où je bloque, c'est lorsqu'il faut choisir le nombre de dimensions (ncp). J'ai vu plutôt des exemples de personnes utilisant la valeur par défaut de 5 dans les pages de ce groupe (ici et ici par exemple) mais pour les données en exemples du thé (ici) le ncp retenu est de 20! Quand je construis mes catégories avec ncp = 5 (29% de variance cumulée) ou ncp =26 (90% de variance cumulée pour mon cas), celles-ci sont bien différentes.

Ma principale question est donc : faut-il privilégier un faible nombre de dimensions ou un grand pour faire une CAH? Plus théoriquement, j'ai du mal à comprendre ce que cela implique de choisir un grand nombre ou une petit nombre de dimensions pour réaliser ensuite une CAH dessus. Pourriez-vous m'éclairer?

ncp = 5 est elle une convention admise?
Est-ce que cela a un sens d'utiliser la fonction estim_ncpMCA pour déterminer le ncp si la finalité est de réaliser une CAH?

D'avance merci pour vos éclairages,
Maxime

Gilles le Pape

unread,
Jul 14, 2017, 8:15:10 PM7/14/17
to factomin...@googlegroups.com

Bonjour,

Il me semble que votre question est la même que l’on se pose pour savoir « combien de plans factoriels regarder ».

Si vous utilisez peu de facteurs pour la CAH vous verrez les plus grosses structures de vos données. Si vous en prenez d’avantage vous verrez des structures plus fines, si vous en prenez trop vous verrez aussi de l’aléatoire. Le seuil de 5 n’est ni une convention ni une obligation. Sentez vous libre et essayez en plusieurs ! Quand la CAH vous apporte quelque chose d’intéressant c’est que vous avez fait le bon choix. Gardez à l’esprit que ce sont des méthodes strictement descriptives.

Bien cordialement.

Gilles le Pape.

 

 

De : factomin...@googlegroups.com [mailto:factomin...@googlegroups.com] De la part de Maxime C
Envoyé : jeudi 13 juillet 2017 18:56
À : FactoMineR users <factomin...@googlegroups.com>
Objet : Comment choisir le nombre de dimensions pour ACM/AFM avant une CAH?

--
Vous recevez ce message, car vous êtes abonné au groupe Google Groupes "FactoMineR users".
Pour vous désabonner de ce groupe et ne plus recevoir d'e-mails le concernant, envoyez un e-mail à l'adresse factominer-use...@googlegroups.com.
Pour obtenir davantage d'options, consultez la page https://groups.google.com/d/optout.

josse

unread,
Jul 18, 2017, 5:38:09 AM7/18/17
to factomin...@googlegroups.com

Bonjour,

Pour compléter, la valeur de 5 est l'option par défaut et n'a pas  de fondement théorique.

Les fonctions estim_ncp estiment le nombre de dimensions qui minimise l'erreur de prévision par validation croisée. Elles sont surtout utiles pour trouver le nombre de dimension quand on a des données manquantes mais donnent aussi une idée du nombre de dimensions qu'on peut interpréter (différentes du bruit) et utiliser pour la classification.

Quand on utilise des méthodes factorielles avant de faire de la classification, nous recommandons de conserver de nombreuses dimensions - l'idée étant juste de "débruiter" les données afin de stabiliser les résultats de la classification. On préfère dans l'idée prendre plus de dimensions (que 2 par exemple qui peuvent être utilent pour interpréter, visualiser et résumer) afin de ne pas perdre d'information pour faire la classification.

Donc, on peut recommander de prendre

- par exemple les dimensions telle qu'on ait 90% de l'inertie. (on se dit que les 10% dernières sont vraiment du brui)

- prendre les dimensions données par estim_ncp

- faire varier le nombre de dimensions et de voir l'impact sur les classifications (chttps://forwards.github.io/docs/MCA_community_useR2016_survey/e qu'on a fait ici par exemple )

Bien cordialement,

JJ

Maxime C

unread,
Jul 27, 2017, 5:11:01 AM7/27/17
to FactoMineR users
Bonjour,

Merci pour vos réponses, j'y vois plus clair. Faire varier le nombre de dimensions en regardant l'impact sur les classes est effectivement intéressant. Cela permet de voir quelles classes sont souvent présentes et comment elles sont réorganisées le cas échant.

Bien cordialement,
Maxime
Reply all
Reply to author
Forward
0 new messages