La carrière de chercheur scientifique est à la
fois passionnante et stressante. Passionnante car elle confère une liberté de
penser, de conceptualiser et d’expérimenter. Stressante car le développement et
la pérennité d’une carrière repose principalement sur la productivité du
chercheur (e.g., nombre de publications, de citations). Baignant dans cette
culture du « publish or perish », il est bon, sinon crucial, de
prendre le temps de s’interroger sur le fonctionnement et l’éthique de la recherche
scientifique.
La création de données et la modification de
données constituent des conduites scientifiques ostentatoirement frauduleuses
qui, vraisemblablement, demeurent marginales dans le domaine de la recherche
scientifique. Les cas de fraude avérés perpétrés par Stapel, Smeesters et Sana
(pour ne citer qu’eux) ont été à l’origine d’un vent de perplexité et de
suspicion quant à la validité des résultats issus de l’expérimentation en
psychologie sociale, et dans le domaine de la science de façon plus générale. Outre
la mise en place de mesures visant à détecter la fabrication/modification de
données (p.e., analyses statistiques attestant de la plausibilité des
distributions de scores), ces événements eurent également le mérite de nous
inciter à (re)penser nos pratiques de recherche de façon générale. En effet, si
les cas de fabrications de données constituent vraisemblablement des cas rares
au sein de la communauté scientifique, il n’en reste pas moins que l’éthique
censée baliser la pratique de la recherche scientifique était insuffisamment explicitement
définie jusqu’il y a peu.
Au centre de ce débat fondamental, la question de
la réplication occupe une place de choix. En effet, le but de la science est
d’identifier et de comprendre des phénomènes qui existent bel et bien. Si tel
est le cas, tester un phénomène dont l’existence a été précédemment établie dans
des contextes similaires devrait permettre d’observer des résultats semblables.
Qu’entend-on par réplication exacte ?
L’auto-réplication suffit-elle à garantir la robustesse d’un résultat
scientifique ? Dans le cas de
réplication infructueuse, est-il raisonnable de postuler l’existence de
modérateurs insoupçonnés pour rendre compte de cet échec ?
Afin d’aborder cette question dans le domaine de
la psychologie, considérons les résultats fictifs obtenus par deux chercheurs.
Un premier chercheur s’intéresse à l’impact du niveau de racisme sur la
probabilité de voter pour un parti d’extrême droite et ses résultats indiquent que
le niveau de racisme explicite est associé
positivement au vote réel pour un parti d’extrême droite (i.e., plus les gens
affichent un niveau de racisme explicite élevé, plus ils ont l’intention de
voter pour un part d’extrême droite). Il réalise une seconde étude identique et
obtient des résultats similaires. Quant à lui, un second chercheur réalise une
étude similaire mais mesure différemment le racisme. Pour ce faire, le
chercheur n°2 utilise un test de performance mesurant les préjugés négatifs à
un niveau implicite en lieu et place
du questionnaire utilisé par le chercheur n°1. Par ailleurs, tout comme le
chercheur n°1, les résultats du chercheur n°2 suggèrent la présence d’un lien
significatif entre niveau de racisme et l’intention d’un vote pour un parti
d’extrême droite. Sur base des résultats obtenus par ces deux chercheurs, que
faut-il conclure ? Le chercheur n°2 peut-il affirmer qu’il a proposé une
réplication exacte des résultats du chercheur n°1 ? Le lien entre racisme explicite
et intention de vote existe-t-il puisque le chercheur n°1 l’a démontré dans
ses deux études ? Les résultats des études réalisées par les chercheurs n°1 et n°2
sont-elles suffisants pour clamer l’existence d’un lien fort entre racisme et intention
de vote ?
Premièrement, il est important de noter que les
résultats des deux études menées par le chercheur n°1 ne sont pas directement
comparables à ceux obtenus dans l’étude du chercheur n°2 puisque ce dernier n’a
pas utilisé la même méthodologie. Ceci nous amène à distinguer la réplication
« conceptuelle » de la « réplication exacte ». En effet, bien
qu’abordant la même thématique, le chercheur n°2 a utilisé un test mesurant
les préjugés à un niveau implicite
alors que le chercheur n°1 a utilisé un questionnaire classique (mesure explicite). Afin de maximiser la
comparabilité des résultats, il aurait fallu que le chercheur n°2 ait utilisé
le même questionnaire (réplication exacte) plutôt qu’un test évaluant le même
concept, mais à un niveau implicite (réplication conceptuelle). En effet,
tester la robustesse d’un résultat précédemment établi implique l’utilisation
d’un cadre méthodologique (condition de passation, questionnaires utilisés, etc.)
identique. Dans le cas de notre exemple fictif, il est donc faux de dire que le
chercheur n°2 a proposé une réplication exacte des études du chercheur n°1. La
conclusion la plus appropriée serait de dire que le chercheur n°2 a obtenu des
résultats qui suggèrent que le lien entre attitudes racistes et intention de
vote identifié par le chercheur n°1 peut être également observé lorsque l’on
mesure les attitudes racistes à un niveau implicite.
(En revanche, le chercheur n°2 n’est pas en mesure de statuer sur la
réplicabilité de ses données puisque d’autres études n’ont pas encore proposé
de réplication exacte.)
Nous venons de voir que l’étude du chercheur n°2
ne constitue pas une réplication exacte, mais bel et bien une réplication
conceptuelle. Deuxièmement, focalisons-nous à présent sur les résultats du
chercheur n°1. Etant donné que le chercheur n°1 a réalisé deux études
identiques (réplication exacte) qui ont donné lieu aux mêmes résultats, ces
résultats sont-ils suffisants pour garantir la robustesse et donc le caractère
réplicable de ce résultat ? A cette question, Simons (2014) répond par la
négative. En effet, si l’on aspire à statuer quant à la stabilité et la
robustesse d’un effet considéré, la réplication exacte de cette étude au sein
de contextes différents s’avère nécessaire. En d’autres termes, répliquer un
pattern de résultats au travers de plusieurs études menées par un même
chercheur dans un même contexte (auto-réplication exacte) constitue un pas dans
la bonne direction (comment penser qu’un effet est robuste dans des contextes
différents si l’effet considéré ne l’est déjà pas dans le même contexte ?),
mais non-suffisant pour garantir le caractère robuste de l’effet considéré. Afin
de fournir cette « garantie », Simons (2014) suggère donc que l’étude
soit également répliquée par d’autres groupes de chercheurs dans d’autres
contextes (p.e., tester le lien entre attitudes racistes explicites et
intention de vote dans d’autres pays).
Troisièmement, imaginons à présent un troisième
chercheur, habitant dans un autre pays, qui tente, à plusieurs reprises, de
répliquer les résultats du chercheur n°1. Cependant, après quatre tentatives au
cours desquelles il utilise exactement la même méthodologie que celle du
chercheur n°1, il ne parvient jamais à répliquer les résultats précédemment
identifiés. Face à ce constat, le chercheur n°1 pourrait rétorquer que certaines
variables (intra-individuelles, sociales, etc.) sont susceptibles d’expliquer
le fait que l’effet qu’il a initialement démontré n’ait pas été répliqué. Il
suffirait alors d’identifier le modérateur responsable de ces différences (e.g.,
voter pour un parti d’extrême droite est extrêmement mal vu au sein du pays
dans lequel le chercheur n°3 a récolté ses données) et de le tester au travers
d’une expérience afin de déterminer dans quelles situations particulières cet
effet est observable.
Cette position est celle défendue par certains
chercheurs (voir p.e., Cesario, 2014). Néanmoins, selon Simons (2014), ce
raisonnement ouvre la porte à des stratégies d’immunisation (i.e., empêcher
que la robustesse et le caractère réplicable d’un résultat soit remise en
question) : Si une réplication exacte échoue, il suffit alors d’argumenter que les
chercheurs n’ont pas encore identifié le modérateur responsable de l’échec de
cette réplication exacte. Or, il n’y a, a
priori, aucune raison logique forte qui soutienne cette approche. Comme nous
l’avons souligné précédemment, l’existence d’un effet en psychologie (ou dans
d’autres domaines de la science) présuppose qu’il soit identifiable dans une
variété de contextes. L’échec de réplication exacte n’est donc pas censé amener
les chercheurs à interroger les raisons de cet échec et à déterminer quel(s)
sont les contexte(s) qui rendent la réplication possible. Néanmoins, notons que
l’échec des réplications exactes ne signifie pas pour autant que les données
originellement observées ou publiées constituent des
« faux-positifs » (p.e., détecter un effet par chance), mais il
informe quant au manque de généralisabilité et de robustesse d’un effet
précédemment identifié par la recherche scientifique.
Comme nous l’avons vu au travers de ce billet, la
question de la réplication est essentielle dans le domaine de la recherche
scientifique. Capturer à une seule reprise un effet en psychologie (ou dans un
autre domaine de la science) ne permet pas de statuer quant à la
généralisabilité et la robustesse de cet effet. A ce titre la réplication
exacte (l’auto-réplication dans un premier temps et la réplication par d’autres
laboratoires) semble être la solution la plus parcimonieuse si l’on désire
mettre à l’épreuve la robustesse d’un effet (Simons, 2014). Conséquemment, cela
implique l’adhésion à une conception plus « lente » de la recherche
scientifique. Et ces considérations devraient également inviter les acteurs de
la recherche scientifique à faire preuve de modestie vis-à-vis de leurs
résultats lorsqu’ils parviennent à identifier un nouveau phénomène.
Références bibliographiques
Cesario, J. (2014).
Priming, replication, and the hardest science. Perspectives on Psychological
Science, 9(1), 40-48.
Simons, D. J. (2014).
The value of direct Replication. Perspectives on Psychological Science, 9(1),
76-80.
No comments:
Post a Comment