Salut a tous,
La discussion que nous avions menee depuis le debut de la semaine
passee a tournee autour de la
verification de l'homogeneite des variances, un des prealables a la
l'utilisation des tests
parametriques (ANOVA, t-student, regression lineaire, etc). Nous
avons retenu a la lumiere des
discussion que le Levene Test est le plus souple a utiliser parce
qu'il s'accomode meme a une
distribution non normale des observations. Les discussions se sont
finalements centrees sur le
role des valeurs abberantes dans l'heterogeneization des variance
(inequalite des variances) et
les techniques de detection des valeures abberantes. Il n'existe pas
de methode standard mais on
peut utiliser les methodes graphiques ou le test de Grubb. On a aussi
mis l'accent sur la rigeur
qui doit accompagne l'etablissement du dispositif d'etude afin
d'eviter les valeurs abberantes et
aussi dispooser de donnees fiables pour les analyses. Cependant, nous
n'avions pas traite de
comment normaliser ou stabiliser les variances afin d'eviter
l'heterocedasticite (inequalite des
variances).
Les transformations des variables constituent la methode par
excellence pour normaliser les
donnees. Malheureusement on evite souvent d'utiliser les variables
transformees parce qu'on ne
sait pas quelle transformation faire pour quelle type de distribution
ou dans quel cas. J'ai
parcourus le cours de Brocard (dont je vous ai envoye le lien), le
site du Dr Garson (que Ismail
a partarge avec nous), le site du groupe Statsoft.com, et Zar H.
(1999). Biostatistics Analysis.
Prentice Hall (4th edition). Le premier constat que j'ai fait, c'est
que toutes les sources
utilisees s'accordent sur les meme conclusions.
1. le principe de transformation est de generer une autre variable Y'
a partir de la variable Y
(pour laquelle la distribution des donnees n'est pas normale). Y' est
souvent egale a une
fonction de Y [e.g: Y' = log (Y+1) ou Y'= racine carree (Y+1)]. Des
qu'on a transforme une
variable, le reste des analyse parametriques se fera sur la VARIABLE
TRANSFORMEE (et non la
variable originale -- autrement on aurait commis la meme erreur).
2. La transformation normalisatrice (transformation envue d'avoir une
distribution normale) a
l'avantage non seulement de normaliser la distribution des donnees
mais aussi de reduire
l'heterocedasticite (inegalite des variances). Zar (1999) ajoute que
ces transformations
permettent aussi de resoudre le probleme de non additivite des
variables independantes, une autre
condition pour l'utilisation des statistiques parametriques.
3. Toutes les variables ne peuvent pas etre transformees
convenablement pour verifier les
conditions de normalite, homocedasticite et additivite. Dans ce cas,
il faut se rabattre sur les
test non parametriques (chi carree, Kruskal Wallis, Mann Withney,
etc).
4. Le choix du type de transformation depend de l'allure que presente
la distribution des
frequences des donnees brutes. Et trois types de transformations sont
courramment utilisees:
racine carree - logarithme - arcsinus. Voici les trois types de
ditributions dont Brocard a
traite et les transformations de donnees appropriees pour chaque cas:
4.1. Donnees suivant une DISTRIBUTION DE POISSON: Il s'agit des cas
d'observation d'evenements
rares ou des comptages aleatoire dans le temps. eg. compter le nombre
d'insectes qui visitent une
inflorescences pendant des laps de 10 min intercallees par 10min de
repos (cet exemple fait
partie de mon etude de la biologie reproductive du Khaya senegalensis
au Benin). La distribution
de ce type de donnees est souvent excentree vers la gauche et la
variance est egale a la moyenne
(on ne veut pas ce genre).
Type de transformation: RACINE CARREE. On obtient une nouvelle
variable Y' egale a la racine
caree de l'observation originale (nombre d'insecte par minute
d'observation par exemple).
Generalement, on utilise la formule:
Y' = racine carree (Y+0.5) (Zar 1999)
4.2. Donnees suivant une DISTRIBUTION CONTAGIEUSE: Il s'agit du cas
communs en ecologie ou la
plupart des organismes vivants presentent une distribution
agregative. L'exemple typique c'est
lorsqu'on compare l'abondance des especes entre differents
dispositifs. La distribution est
souvent en J renversee.
Type de transformation: LOGARITHME ou RACINE CARREE. la variable
transformee est de type
Y'=ln (Y+1) pour la transformation log.
--- En generale, la transformation logarithme est conseillee lorsque
les donnees presentent des
valeurs tres faibles ou beaucoup de valeure nulle (zeros) ou
lorsqu'on a une heterogeneite des
variances et les standards de deviation sont proportionels aux
moyennes.
4.3. Donnees exprimees en PROPORTION (0 a 1) ou en POURCENTAGE (1 a
100%): C'est l'exemple du
degree d'explotation de l'ecorce du Khaya senegalensis dans le cas de
mes donnees. ce degree est
exprime en proportion de la hauteur ecorcable qui a ete reellement
ecorcee. Dans ce cas, on a
souvent une variance qui depend de la moyenne et une distribution
souvent etalee.
Type de tranformation: ARC-SINUS DE LA RACINE CARREE des donnees
brutes exprimees de 0 a 1. La
variable transformee est de type:
Y' = arcsin [racine carree(Y)].
5. Il existe d'autres type de transformation des donnees que vous
pouvez explorer mais ici je
m'en suis tenu aux cas courant. D'une maniere ou d'une autre, il ne
s'agit pas de transformer les
donnees et de supposer qu'on a la normalite ou homocedascite
automatiquement. Il convient plutot
de faire la distribution de frequences de la nouvelle variables
obtenue pour voir si la
distribution est symetrique ou faire la courbe des residus (contre
les quantiles) pour voir si on
a une courbe lineaire avant de supposer une normalisation des donnees.
orou gaoue
--- Fin du message transféré ---