Quel nombre de répétitions choisir dans une expérimentation ?

269 views
Skip to first unread message

Irenikatche

unread,
Jun 15, 2006, 8:16:41 AM6/15/06
to BSc-Biostatistique et modélisation
Bonjour cher(es) tou(te)s
Les plans d'expériences (experimental designs) sont les moyens
efficaces et approuvés selon lesquels il faut concevoir une
expérimentation donnée de manière à garantir de forte chance de
pouvoir, à juste titre, confirmer ou rejeter une(des) hypothèse(s) de
départ, par des analyses statistiques et l'interprétation des
résultats.
Mais on constate que (cela arrive très souvent en application des
méthodes statistiques) les conditions d'application de telle ou
telle méthode ou plans sont négligés ou escamotés et on assiste à
un plagiat des méthodes mêmes dans les publications scientifiques.
Tel a fait telle expérimentation (tel nombre de facteurs, et tel
nombre de répétions...) et on y va de même. Mais le contexte, les
connaissances (et expérimentations) antérieures sur le sujet, le type
de variable en question exigent que chaque cas de conception de plan
d'expérience soit unique. Par exemple, toute expérimentation doit
veiller pour des raisons évidentes de temps et de moyens à minimiser
le NOMBRE DE REPETITIONS et à maximiser le NOMBRE DE FACTEURS ou
paramètres étudiés simultanément sans compromettre la validité
(tout est dans cette condition !) de l'essai. En supposant que le
plan d'expérimentation soit connu (et bien choisi), combien de
répétions faut-il pour une variable donnée pour que je puisse avec
les analyses statistiques de mon essai confirmer ou infirmer (a juste
titre) mes hypothèses. Selon votre experience, comment répondez vous
à cette question dans vos essais et que savez vous de comment les
autres scientifiques procedent et de ce qu'ils reportent dans leur
publications.
Irenikatche Akponikpe

Samadori

unread,
Jun 16, 2006, 11:06:13 AM6/16/06
to biostat...@googlegroups.com
Hello Pierre,
 
C'est un sujet tres interessant que tu aborde la. Personnellement je pars toujours de l'idee que
les repetitions dans mon experimentation doivent me permettre de mesurer la variance associee a chacun des facteurs (controles ou non) qui m'interessent et qui sont suceptibles d'influencer ou expliquer mes resultats. Partant donc de ce fait je veille toujours a ce que le nombre de repetitions soit au moins egal au nombre de combinaisons des facteurs dont je souhaite mesurer l'effet. Cela permet litteralement de mesurer l'effet individuel de ces facteurs puisque mes repetitions me permette alors de garder (theoriquement) un groupe de facteurs constant pendant que celui qui m'interesse varie et donc d'estimer la part de variance dans mes resultats associee a ce facteur pris individuellement.
 
Est-je raison dans cette facon d'aborder le probleme ? Quel est le point de vue des biometriciens ? J'attend d'en savoir plus sur vos experiences personnelles pour me faire une idee plus claire.

 
--
     Honoré S. Biaou
     BP 123, Parakou, BENIN
     FA - Université de Parakou
     Tel: (+229) 90 01 74 09
     Tel: (+229) 97 77 41 74
     http://www.geocities.com/hbiaou/
    http://www.beyondtheschool.africa-web.org
    http://myprofile.cos.com/hbiaou
------------------------------------------------------------------

Orou Gaoue

unread,
Jun 16, 2006, 11:35:39 AM6/16/06
to biostat...@googlegroups.com
en general, une repetition est deja suffisante pour faire les analyses
statistiques. la repetion vient juste augmenter le niveau de precision
des parametres de centratlite et de dispsersion. de fait plus on a de
repetition mieux ca vaut pour les valeurs representatives calculees et
la raison est toute simple. en augmentant indefimment le nombre de
repetition, la taille de l'echantillon s'approche de la taille de la
population etudiee, et donc les valeurs calculees sont presque egales
au valeur de la population (comme si on avait pas echantillone).

Le vrai probleme dans le choix du nombre de repetition, c'est qu'il
faut choisir un nombre techniquement et economiquement possible afin
de maximiser le taux precision/cout. lorsqu'on dispose de moyens (e.g.
transport pour atteindre les sites, argent pour payer les manoeures
pour quelque jours en plus, temps pour atteindre les populations avant
de retourner aux USA avant la fin des 5 mois de limite, etc) avec
trois repetitions, generalement on se trouve dans une bonne situation.
le choix du nombre de repetition depend aussi largement de
l'heterogeneite des populations etudiees. plus les populations sont
heterogenes, mieux il faut de repetitions. Il faut eviter de se mettre
dans la folie du plus grand nombre de repetition!

il y a une formule pour determiner le nombre de repetion minimum a
faire pour avoir l'optimum de repetition. pour cela, on fait une etude
pilote qui permet de calculer variances et moyenne et les utiliser
dans une formule fort simple que je ne retrouve pas encore
(Sinadounwirou 1996 a utilise ca dans sa these, FSA, UAC).

orou g. gaoue
botany dept/EECB
university of hawaii at manoa

Samadori

unread,
Jun 16, 2006, 12:05:59 PM6/16/06
to biostat...@googlegroups.com
Encore un mot sur le sujet,
 
Je ne partage pas tout a fait l'idee qu'une repetition suffit, surtout quand on est dans le domaine de l'experimentation en milieu naturelle. Pour des essais au labo ou on peut pratiquement controler tous les facteurs. En phytopatologie par exemple, si je fais des cultures sur agar de quelques pathogenes, je peux etre presque certain que le milieu de culture ne varie pas d'un traitement a un autre et que les conditions environnementales sont identiques pour tous les objets de l'essai (temperature, humidite, etc.). Donc on a pratiquement comme source de variation que le seul facteur qu'on fait varier en intensite.
C'est une toute autre histoire si on passe en milieu naturel. Sur une parcelle exerimentale, les conditions de sols peuvent varier sur seulement quelques metres, l'ensoleillement, et autres... Il faut donc augmenter le nombre de repetitions pour pouvoir saisir le maximum d'information associe aux variations mesuree. Meme si on ne connait pas exactement la nature des facteurs en jeu, il est toujours possible de mesurer la part de variation qui leur est associe. Par exemple dans une ANOVA, on s'interesse souvent a l'effet des traitements appliques, mais il y a une autre information non moins importante, c'est l'effet des blocs. N'importe quel facteur peu se cacher sous ce vocable. Et sans repetition, il n'est vraissemblablement pas possible de mesurer de tels effets.
 
Donc prudence. Tout depend du type d'experimentation et surtout des conditions de realisation de l'essai: jusqu'a quel degre on peut controler les facteurs suceptibles d'influencer les resultats ?

Honore B.
 

Orou Gaoue

unread,
Jun 16, 2006, 2:38:26 PM6/16/06
to biostat...@googlegroups.com
en realite, quand je parle d'une repetition, je veux dire deux
populations pour le meme traitement au moins! dans le cas ou on a une
heterogeneite maximale comme dans le cas dont tu parles, on a
simplement qu'a utiliser le "blocking" ou randomized block design (le
plus souvent utilise en ecologie, surtout pour des nombres de
repetition faible) pour controler l'effet block (climat, type de sol,
densite parasitaire, etc), ou dans certains cas de continuite (age,
taille, etc) du facteur interferant, l'analyse de covariance (ANCOVA).
de plus la randomization est un parametre tres important a considerer
lorsqu'on doit choisir peu de repetition, il faut que les populations
choisies soient au hazard! mais le plus important reste encore le
temps et les moyens dont on dispose! encore que avec les tests de
permutation ou de randomization, on peut dans certains cas regler le
probleme d'absence de repetition!

orou g. gaoue

Glele Romain

unread,
Jun 21, 2006, 5:49:32 AM6/21/06
to biostat...@googlegroups.com
En général, cela devrait surprendre lorsqu'en expérimentation, pour comparer des moyennes de variables de populations, on utilise plutôt une méthode basée sur la comparaiso de variances de ces populations qu'on appelle couramment l'analyse de la variance.
L'idée est toute simple: il existe une variabilité résiduelle liée à l'estimation de toute moyenne de variable. En d'autres termes, si j'estime la moyenne d'une variable de population à partir d'un échantillon d'observations données, j'obtiens une valeur qui change lorsque j'utilise un autre échantillon: c'est la variabilité résiduelle inhérante à toute estimation qu'on peut déterminer.
En expérimentation, pour comparer les moyennes des modalités (par exemple variété I, II et III de niébé) d'un ou de plusieurs facteurs donnés (facteur niébé), on détermine une 1ere fois l'estimation de la moyenne de la variable de la population en mettant en commun toutes les modalités (les 3 variétés) à comparer: c'est l'hypothèse nulle (toutes les variétés s'équivalent et on fait l'estimation commune gloable de la moyenne de la variable (par exemple le rendement). En répétant la même expérimentation, c'est-à-dire en collectant d'autres observations dans les mêmes conditions, on obtient une autre moyenne de la variable "rendement" (toutes modalités étant confondues) et ainsi de suite.
En nous basant sur notre hypothèse nulle que toutes les modalités du facteur considéré s'équivalent, alors en déterminant la variance des moyennes estimées (calculées à chaque répétition), on obtient la variablilité résiduelle inhérante à toute estimation.
A ce moment là, l'idée, c'est de vérifier si la variabilité résiduelle (ou erreur résiduelle) obtenue en mettant en commun toutes les modalités du facteur est égale ou dépasse la variabilité liée à l'estimation d'une moyenne dans une population homogène. Si cela dépasse la variabilité liée à une population homogène, on dit que la population considérée en mettant en commun toutes les modalités est hétérogène et donc que les modalités (variétés) des facteurs ne sont pas égales du point de vue du rendement. On rejette donc l'hypothèse nulle.
Mais, si la variabilité résiduelle est égale à la variabilité d'une population homogène, alors on accepte l'hypothèse nulle que toutes les modalités sont égales.
Fisher nous a dit que le rapport entre la variabilité obtenue en mettant commun toutes les modalités du facteur et la variabilité résiduelle d'une population homogène suit une distribution F qui porte son nom. De ce fait, on utilise cette distribution pour vérifier si les deux variabilités sont égales ou au contraire inégales.
Voilà de façon très simple, pourquoi on compare des variances dans un processus de comparaison de moyennes. C'est déjà un court "terre à terre" sur l'analyse de la variance.
 
Ceci dit, vous comprenez bien que je ne suis pas d'accord avec Gaoué quand il dit qu'une seul répétition suffit en expérimentation pour faire un test d'analyse de la variance. Dans un tel cas (ie avec une répétition), la variance liée à l'estimation de la moyenne est nulle et donc tout test est impossible.
 
Revenant maintenant au choix du nombre de répétitions, excusez-moi ce sera pour une autre fois.
 
 
  

 
2006/6/16, Orou Gaoue <oga...@gmail.com>:



--
Dr. Romain GLELE KAKAÏ
Docteur en biométrie et estimations forestières
INRAB/FSA, 04 BP 1525
Tél. (00229) 95 84 08 00

Orou Gaoue

unread,
Jun 21, 2006, 6:16:54 AM6/21/06
to biostat...@googlegroups.com
en realite je n'ai pas parle specifiquement d'analyse de variance mais
plutot d'analyse statistiques (parametriques aussi bien que non
parametriques). Et le fait, ici, je parle d'une repetition au moins
(et je comprend deux populations au minimum!)! quelle relation
pourrait on etablir entre la valeur de la variabilite residuelle, et
le nombre de repetition a admettre?

orou g. gaoue
botany dept/EECB
university of hawaii at manoa

Glele Romain

unread,
Jun 21, 2006, 6:34:52 AM6/21/06
to biostat...@googlegroups.com
Le nombre de répétions nécessaires pour obtenir une précision de d% sur un estimateur en particulier la moyenne est obtenu par la formule (si mes souvenirs sont bon):
 
n = (U**2)*(variance résiduelle)/d  ; U étant la valeur de la variable normale réduite pour unrisque de 0,05. U= 1,96, donc U**2 = (1,96)**2 ~= 4.
 
Pour une proportion, on a: (si mes souvenirs sont bons):
 
n = (U**2)*(racine(p(1-p)))/d.
 
Je vérifierai les formules et je vous dirai si elles sont exactes.
Je finis en notifiant que sans répétitions aucun test inférentiel n'est possible sauf si on décide de sacrifier des facteurs ou interactions et en faire des répétitions (le concept de Confunding).

 
2006/6/21, Glele Romain <glele....@gmail.com>:

Samadori

unread,
Jun 26, 2006, 6:18:43 AM6/26/06
to biostat...@googlegroups.com
Merci romain pour les eclaircissements apportes,
 
Il serait interessant egalement de fournir des references pour les formules
proposees. Afin de permettre a ceux qui souhaiteraient s'en servir de pouvoir citer
au moins une source valable.
 
Cela dit, il me semble qu'il y a une grande diversite de formules pour le faire. Meme si elles sont tres semblable, j'aimerais bien avoir une synthese la dessus avec une comparaison des differentes techniques et les conditions de leur utilisation. L'un d'entre vous aurait-il des infos a ce sujet ???
 
Thanks in advance,
 
H. Biaou
 

Irenikatche

unread,
Jun 26, 2006, 7:15:49 AM6/26/06
to BSc-Biostatistique et modélisation
En general on teste une hypothese H0 ≠ H1 (H0 hypothese nulle souvent
formulees par egalite de modalites (eg moyenne etc) contre H1,
l'hypothese contraire).
Dans la plupart des publications, il est toujours indique (c’est
exige !) la probabilite de signification du test d'hypothese alpha =
0.05 (ou parfois 0.001). C'est le risque (r. de premiere espece) alpha
qui represente la probabilite de rejeter H0 alors qu'elle est vraie.
Comme sa definition le dit clairement, il faudrait qu'un tel risque
encourru par l'experimentateur soit le plus faible possible (et on
comprend pourquoi les niveaux 0.05 dit significatif et 0.001 tres
significatif sont utilises, arbitrairement d’apres Fisher). Mais ce
n'est pas le seul risque encourru dans les tests d'hypothese.
Le deuxieme risque (r. de deuxieme espece) en question est beta egal a
la probabilite d'accepter H0 alors qu'elle est fausse.
L'experimentateur doit egalement veiller pour les memes raisons
evidentes a ce qu'elle soit le plus faible possible. Sa probabilite
contraire, celle de rejeter l'hypothese H0 alors qu'elle est fausse est
la PUISSANCE du test ( 1 –beta) qui doit elle etre la plus grande
possible. Dans, la litterature scientifique, on aborde guere la
question de la puissance des tests qui loin d'etre negligeable, joue
autant que le risque alpha toujours cite, un role capital. On se
preoccupe de limiter les risques de rejeter H0 alors qu’elle est vrai
(alpha) et on s’enfiche de celui de l’accepter alors qu’elle est
fausse (beta !).
Realite
Decision………................H0.faux…...H0 vrai
Rejeter H0……..................(1-beta)……alpha
Accepter H0….................….beta……..(1-alpha)
(1-beta) = puissance

Alors que alpha est choisi de facon arbitraire, (0.05 ou 0.001, semble
t’il d’apres l’habitude de Fisher), la puissance des test est
plutot un libre choix et de bon sens, de moyen, et de circonstance.
Elle est influencee entre autre par la moyenne et la variance de la
population, la valeur de alpha choisie, la taille d'echantillon (ou
repetition). Mais comme on peut le constater c’est seulement sur la
taille d’echantillon que l’experimentateur peut (vraiment) jouer.
Les calculs de la puissance et de la taille d’echantillon
(repetition) sont variables selon les plans d’experience mais il
existe deja des outils pour les calculer dans les logiciels usuels de
statistique tel SAS, SPSS, Genstat etc. Sur le net une application
gratuite peut etre trouvee sur le lien. Pour ceux qui sont interesses,
des references se trouvent egalement sous ce lien.
http://www.cs.uiowa.edu/~rlenth/Power/
Venons en a l’interet de tout ce debat selon moi. La negligeance du
risque de deuxieme espece (probabilite d'accepter H0 alors qu'elle est
fausse) ne pose t’elle pas la question de la non-adoption des
techniques et « methodes statistiquement approuvees (en publication) ?
En fait a voir de pres, tenir compte du risque alpha n’est qu’a
l’avantage du chercheur qui reduit au plus faible les risques de
passer à cote d’une difference significative (alors qu’elle existe
!). Mais le risque d’utiliser le resultat alors qu’elle est en
realite fausse est au depend de l’utilisateur de la publication
(souvent nos paysans !!!!). Sachant qu’ils ne savent rien de toutes
les gymnastiques statistiques, ils sont quand meme « reticents » aux
resultats de recherche agronomique. Ne devrions nous pas aller a leur
ecole pour savoir leur moyens de juger du risque de deuxieme espece
(utiliser un resultat alors qu'il est faux) meme si les agronomes
l’evitent !
Statistiquement votre...
Irenikatche AKPONIKPE

Glele Romain

unread,
Jul 20, 2006, 8:43:19 AM7/20/06
to biostat...@googlegroups.com
chers tous,
 
Je reviens sur le forum après quelques jours d'absence (travaux de terrain).
 
Si n est le nombre d'observations nécessaire pour estimer une proportion avec une précision d (en %), on a:
 
n = (p*(1-p)*(U1-alpha/2)**2)/d**2
Pour un niveau de confiance égal à 0,95, on a alpha = 0,05 et U1-alpha/2 = 1,96. p est une proportion connue par des études antérieures
 
Si n est le nombre d'observations nécessaires pour estimer une moyenne avec une précision d (en %), on a:
 
n = ((sigma**2)*(U1-alpha/2)**2)/d**2      ou     n = ((cv**2)*(T1-alpha/2)**2)/d**2
 
Pour un niveau de confiance égal à 0,95, on a alpha = 0,05 et U1-alpha/2 = 1,96. 
 
l'écart-type (sigma) te le coeficient de variation (cv) sont connus par des études antérieures.
 
Dans mon prochain email, je donnerai des exemples pour illustrer ces notions.

--
Dr. Ir. Romain GLELE KAKAÏ
Reply all
Reply to author
Forward
0 new messages