Le paradoxe du petit échantillon
Retour et précisions sur le sophisme du petit échantillon.
Le chocolat ne fait sans doute pas maigrir
Il y a quelque temps, une étude apparemment sérieuse montrant les bienfaits du chocolat pour ceux qui veulent perdre du poids a été reprise par de nombreux médias dans le monde entier. Mais voilà que fin mai, nous assistons à un rebondissement imprévu : l'auteur de l'article apparemment scientifique avoue tout. C'était un canular destiné à montrer comment on peut assez facilement duper les grands médias.
Dans ce billet, l'auteur, John "Bohannon", explique par le menu comment il a réalisé une véritable étude — très mal faite, mais à dessein —, qu'il a ensuite réussi à caser dans une revue prédatrice. Parmi les techniques permettant d'obtenir les résultats voulus (à savoir que le chocolat est bon pour votre régime), l'auteur indique qu'il a calculé en réalité un grand nombre d'indices. C'est en effet une procédure trompeuse efficace, car chaque nouvelle mesure et chaque nouveau test statistique augmente la probabilité d'avoir au moins un faux positif.
Mais John "Bohannon" ajoute ceci :
Mais même si nous avions fait attention à ne pas multiplier les tests, notre étude était condamnée par le petit nombre de sujets, qui amplifie l'effet des facteurs non contrôlés.
L'auteur semble donc nous dire qu'en choisissant un petit échantillon au départ, il augmentait la probabilité d'avoir un faux positif. Or, cela est faux, et c'est un exemple frappant de ce que j'avais appelé le sophisme du petit échantillon.
Plusieurs internautes et collègues m'ont cependant fait remarquer que ma dénonciation du "sophisme du petit échantillon" était discutable. Le cas précédent est bien un exemple de sophisme, mais on peut aussi interpréter les choses autrement. Ce billet a pour objectif de clarifier les limites de ce qu'est le sophisme du petit échantillon, et pourquoi il y a néanmoins des raisons de se méfier des résultats trouvés sur les petits échantillons — tout dépend de la question qu'on se pose.
Le taux de faux positifs ne change pas avec la taille des échantillons
En statistique, on utilise en général un risque de première espèce de 5%, ce qui signifie que lorsqu'il n'y a pas d'effet (si le chocolat n'a pas d'effet sur le poids, par exemple), on a une probabilité de 5% de conclure à tort qu'il y a un effet. Cette valeur de 5% ne dépend pas de la taille de l'échantillon : on exigera un effet observé plus important si l'échantillon est plus petit, mais la probabilité d'erreur est toujours 5%.
Imaginons que l'on teste 100 effets possibles, qui, en réalité, n'existent pas. Quelle que soit la taille de l'échantillon, on doit s'attendre à 5 faux positifs. Imaginons que l'on teste 100 effets réels. Alors il est par définition impossible d'avoir un "faux positif". Cela nous permet d'affirmer ceci plus généralement : lorsque l'on fait une séries d'études, le nombre de faux positifs parmi ces études ne dépend pas de la taille des échantillons. L'argument de John "Bohannon" est donc faux : en choisissant un petit échantillon, il n'augment pas la probabilité de trouver un faux positif.
Plus les échantillons sont grands, plus on a de puissance
Si la taille des échantillons n'a aucun impact sur la probabilité d'avoir un faux positif, elle joue en revanche sur la probabilité de détecter un effet réel. Avec des échantillons petits, il est impossible de détecter des effets faibles. C'est la raison pour laquelle on utilise souvent en génétique des échantillons gigantesques : les effets étant minimes, on ne trouverait rien sinon.
Imaginez la situation suivante : on teste 200 effets possibles. En réalité, 100 sont réels, et 100 n'existent pas.
Sur les 100 tests correspondant à des effets inexistants, on concluera (à tort) qu'il y a un effet dans 5 cas, que les échantillons soient petits ou grand. Sur les 100 tests correspondant à des effets réels, on concluera (par exemple) à un effet dans 80 cas si les échantillons sont grands, mais dans 20 cas seulement si les échantillons sont petits.
Le tableau suivant indique le nombre de conclusions positives "il y a un effet" selon qu'il y a vraiment un effet ou non, et selon qu'on a utilisé de petits ou de grands échantillons :
Pour finir
Comme on le voit facilement sur le tableau ci-dessus, le taux de faux positifs parmi les résultats positifs est plus important si les échantillons sont petits (5 cas sur 25, soit 20%) que grands (5 cas sur 85, soit environ 6%).
On peut donc à la fois affirmer que
Le taux de faux positifs ne dépend pas de la taille des échantillons
et
Le taux de faux positifs parmi les résultats positifs (i.e. qui concluent à un effet) est plus grand si on prend de petits échantillons.
Dans un monde parfait où toutes les études seraient publiées, il y aurait donc plus de risque d'erreur de non-détections, mais pas plus de faux positifs, parmi celles s'appuyant sur de petits échantillons. Dans le monde réel où on publie plus facilement des résultats positifs que négatifs (biais de publication), il y a probablement plus de faux positifs parmi les études portant sur de petits échantillons.
Une autre manière de comprendre ce paradoxe est le suivant : c'est une erreur de penser avant une expérience "si je prend un petit échantillon, j'ai plus de risque de trouver un faux positif". En revanche, il est rationnel de dire, pour une étude dont on sait qu'elle a donné un résultat positif "puisque l'échantillon était petit, ce résultat positif a des chances d'être un faux positif"...
Je prie les lecteurs de mon précédent billet sur la question de m'excuser mon imprécision d'alors.
Merci encore pour cette précision, j'adhere à 100%. mais je crois que ca va encore etre l'objet d'un débats 🙂
Oui, c'est une question complexe si l'on veut tenir compte des pratiques des chercheurs. Cela n'est pas le fin mot de l'histoire 🙂
Le sujet est intéressant et montre bien la différence entre le risque de première et de deuxième espèce en théorie des tests. Pour autant, si l'on considère que le choix de la taille de l'échantillon dans une étude statistique est déterminé (comme il se doit) en fonction d'hypothèses (par exemple sur l'effect size et/ou utilisant des résultats d'études antérieures), alors il me semble que la probabilité qu'un résultat positif soit faux est finalement indépendante de la taille de l'échantillon. Aussi, en pratique, la phrase "puisque l'échantillon était petit, ce résultat positif a des chances d'être un faux positif" n'aurait pas lieu d'être.
Merci pour ce commentaire très intéressant.
J'ai voulu me concentrer sur le fond probabiliste du problème et la mauvaise compréhension des risques. C'est pourquoi je considère seulement le cas où les tailles d'échantillons sont choisies indépendamment des tailles d'effets attendues. Vous avez bien sûr raison. Mais votre argument n'est qu'en partie juste à mon avis, parce que les tailles d'échantillons choisies sont souvent aussi dues à des contraintes qui n'ont rien de scientifique d'une part, et parce qu'on n'a pas toujours d'idée sur la taille d'effet attendue. Par exemple, sur le thème de l'anxiété chez les surdoués que j'ai traité récemment, on trouve des publications avec des échantillons allant de 20 à 5000 personnes, sans qu'il y ait de justification autres que pratiques à ces choix: chacun semble prendre le plus gros échantillon possible.
Pour savoir si véritablement il y a plus d'erreurs parmi les études positives basées sur de petits échantillons ou non, il faudrait des données supplémentaires sur les pratiques des chercheurs et des revues. Je ne prétends pas avoir clos le débat.
Nous sommes d'accord, il conviendrait que la taille de l'échantillon soit déterminée via une contrainte de puissance a priori et pas via des contraintes financières, de temps ou autre. Mais la réalité est que cela est difficile et/ou peu connu et se sont alors des considérations autres que la puissance qui dictent, souvent, la taille de l'échantillon. C'est sans doute pour cela que les résultats non-significatifs sont sous-représentés dans les publications. Si chacun avait une démarche de détermination de taille d'échantillon basée sur une puissance consensuelle (par exemple 0,8), comme c'est le cas pour le risque alpha (0,05), alors les résultats, significatifs ou non, auraient une pertinence accrue et le biais de publication se réduirait sans doute...
J'adhère pour ma part à 95% à votre conclusion.
C'est très clair, merci.
Ouais mais cela fait l'hypothèse que le modèle statistique est la réalité. Si les données ne suivent pas une loi gaussienne, et c'est toujours le cas, la robustesse est moindre pour les petits échantillons.
C'est vrai, c'est un problème supplémentaire dont je n'ai pas parlé ici.
Je suis tombé par hasard sur ce billet et j'avoue que je pense ne pas avoir compris l'argument... Je ne suis pas statisticien et du coup il y a peut-être un pb de vocabulaire qui me gène dans ma compréhension.
Si à 100 000 reprises, on compare avec un t 2 échantillons indépendants tirés d'une même population normale. Si les échantillons ont une taille importante j'aurais effectivement en gros 5% des tests "significatifs".
Pourtant si les échantillons sont de petite taille la proportion de test positifs sera supérieure à 5% (parce qu'en fait les échantillons on plus de chance de ne pas être représentatifs de la population dont ils sont tirés).
Du coup en quoi cette constatation se "réconcilie" avec votre affirmation selon laquelle "Le taux de faux positifs ne change pas avec la taille des échantillons"... Je pense qu'on ne parle peut-être pas exactement de la même chose mais quel est le point clé dans cette distinction ?
Merci par avance