Bonjour,
Je rencontre un problème qui vient probablement de ma mauvaise compréhension de la fonction catdes(), et je me permets de solliciter votre aide.
Je travaille sur un dataframe de 77 individus, comprenant 38 variables qualitatives (à 2 ou 3 modalités) et 15 variables quantitatives.
J'utilise la fonction catdes() pour étudier une à une 6 variables qualitatives d'intérêt, en fixant l'argument proba à 0.1.
Dans la première partie de la sortie de la fonction (
Link between the cluster variable and the categorical variables (chi-square test)) j'obtiens (si je comprends bien) une liste des variables qualitatives dont la p-value pour le test de Khi 2 est inférieure à 0.1, donc des variables non indépendantes de ma variable d'intérêt.
Or, si j'utilise la fonction chisq.test() sur certaines variables ne figurant pas dans la sortie de catdes(), j'obtiens pour certaines une pvalue inférieure à 0.1. Ce sont d'ailleurs des variables dont certaines apparaissent ensuite dans la description des clusters par catégorie.
Inversement, pour certaines variables qui apparaissent en résultat de catdes() avec une pvalue inférieure à 0.1, lorsque j'utilise la fonction chisq.test(), le pvalue est différente et n'est pas significative.
Pouvez-vous m'éclairer sur l'origine de ces discordances, afin de pouvoir interpréter au mieux mes résultats ?
Merci d'avance pour votre aide !
Arnaud D.