15 mars 2018

Quoi faire avec des données répétées?

  • Modèles mixtes
  • Choisir une seule valeur aléatoirement
  • Utiliser la moyenne/médiane

Valeur aléatoire ou moyenne?

Parfois la réponse est évidente:

  • 2 génotypes pour un même individu

D’autres fois, moins:

  • Longueur du tarse chez l’hirondelle
  • MDA chez les tamias

La réponse dépend probablement à la fois de la nature de la variation intra-sujet, du nombre de répétitions par sujet et du type de question qui est posé…

Ce que je pensais, mais sans référence (!)

Utiliser la moyenne réduit la variance observée dans les données, donc mieux vaut utiliser une valeur aléatoire.

Est-ce vrai?

# Population composée  de N individus,
N.ID     <- 100

#avec un trait X distribué normalement, ayant une moyenne + SD
POP.MEAN <- 500
POP.SD   <- 100

# Le trait est mesuré plusieurs fois par individu, avec un SD intra-individu
N.REP <- c(2,10)
ID.SD <- c(5,50)

Utiliser la moyenne réduit la variance?

On crée un jeu de donnée pour chacune des conditions:

Utiliser la moyenne réduit la variance?

On crée un jeu de donnée pour chacune des conditions, desquels on peut calculer certaines statistiques:

Data Vreal Vrandom Vmean
n2.sd5 10352 10356 10385
n2.sd50 10546 13768 11160
n10.sd5 8015 7985 8029
n10.sd50 10325 11419 10578

Utiliser la moyenne réduit la variance?

Puis on refait la même opération 1000 fois pour faire des statistiques sur des distributions de variance!!

Vreal Vrandom Vmean
Min. : 5616 Min. : 6289 Min. : 6389
1st Qu.: 8967 1st Qu.: 9696 1st Qu.: 9229
Median : 9906 Median :11070 Median :10232
Mean : 9957 Mean :11219 Mean :10337
3rd Qu.:10866 3rd Qu.:12614 3rd Qu.:11334
Max. :15497 Max. :19069 Max. :17213

Utiliser la moyenne réduit la variance?

Est-ce que le N.REP et le ID.SD influencent la variance?

m1 <- lm(Vrandom ~ N.REPf*ID.SDf, data=RES2)
plot(allEffects(m1))

Utiliser la moyenne réduit la variance?

Est-ce que le N.REP et le ID.SD influencent la variance?

m2 <- lm(Vmean ~ N.REPf*ID.SDf, data=RES2)
plot(allEffects(m2))

Utiliser la moyenne réduit la variance?

Est-ce qu’il y a des différences entre Vreal, Vmean et Vrandom?

m3 <- lm(variance ~ TEST*N.REPf*ID.SDf, data=RES3)
plot(allEffects(m3))

Utiliser la moyenne réduit la variance?

Donc, oui, sous certaine condition. Mais est-ce vraiment important?

La réponse (moyenne vs aléatoire) dépend probablement à la fois de la nature de la variation intra-sujet, du nombre de répétitions par sujet et du type de question qui est posé…

Steel, E. A., Kennedy, M. C., Cunningham, P. G., & Stanovick, J. S. (2013). Applied statistics in ecology: common pitfalls and simple solutions. Ecosphere, 4(9), art115.

  • Pitfall #2 : Arbitrary thresholds, metrics, and indicators