Principe général de l’évaluation des résultats des essais cliniques
Classification des résultats en faveur de l'efficacité
Les éléments de la force de conviction d’un résultat d’essai thérapeutique
Résultat faussement positif dû au hasard
Résultat faussement positif dû à un biais
Démarche hypothetico déductive
Les différents types de résultats
Cohérence externe d’un résultat
Conséquences des décisions basées sur des preuves imparfaites
est il possible d'accepter une décision basée sur ce résultat est il possible d'accepter que ce résultat ne soit pas dû au hasard $
Un résultat d’essai thérapeutique peut montrer le bénéfice du traitement par erreur, uniquement du fait du hasard. Avec un traitement en réalité sans effet, les fluctuations aléatoires d’échantillonnage peuvent faire apparaître une différence entre les 2 groupes de l’essai thérapeutique qui pourrait être prise, à tort, pour l’effet du traitement.
Note - résultat faux positif
Un résultat d’essai faussement positif (faux positif) est un résultat qui semble montrer le bénéfice du traitement (une différence de mortalité entre les 2 groupes par exemple) mais cela faussement car le traitement est en réalité sans effet. Les résultats faux positifs proviennent de deux grandes causes : les biais et le hasard.
Il existe aussi la possibilité d’avoir un résultat faussement négatif, c'est-à-dire ne concluant pas à l’efficacité d’un traitement qui pourtant en réalité est efficace.
En lecture critique, seul le risque de résultat faux positif est considéré car ces 2 risques ne sont symétriques. Le plus redouté pour la décision médicale est celui de faux positif. Car une fois qu’un traitement est accepté comme étant efficace, il ne sera plus possible de revenir en arrière. En effet, à partir de ce moment, il ne devient plus possible de faire un nouvel essai avec ce traitement qui est considéré comme efficace. Il ne sera pas possible de récupérer l’erreur initiale.
Par contre un faux négatif ne conduit pas à l’adoption du nouveau traitement. Cela peut être aussi gênant car cela prive le patient d’une ressource thérapeutique qui pourrait leur apporter un bénéfice. Mais cette erreur est récupérable car dans cette situation il est toujours possible de faire un nouvel essai. Et cette problématique n'est plus une problématique de décision médicale ou de santé publique, mais concerne les développeurs du traitement.
En lecture critique, la première question à se poser est celle de la possibilité que le résultat positif que l’on est en train de considérer soit un pur produit du hasard et qu’en réalité, le traitement n’est pas efficace.
En pratique, il convient donc, avant d’accepter un résultat d’essai en faveur de l’efficacité du traitement, de s’assurer que ce résultat « positif » ne soit pas, en réalité, un résultat faux positif dû au hasard. L’outil à notre disposition pour faire ce diagnostic est simplement le test statistique et la valeur de p. En fait le risque de résultat faux positif est le risque d’erreur statistique alpha qui est le concept central du test statistique et de la signification statistique. Ainsi une différence statistiquement significative nous autorise à conclure à l’existence de l’efficacité du traitement car le risque alpha de faux positif est faible (<5% en général) et que l’on consent à prendre ce risque car on l’estime peu probable.
Ainsi quand le test statistique rattaché au résultat en considération est statistiquement significatif, on considère que le risque alpha est faible, acceptable dans notre prise de décision et qu’il est possible d’accepter la positivité du résultat. Cependant l’obtention d’un p statistiquement significatif n’est pas suffisant par lui-même pour raisonnablement écarter la possibilité d’un résultat faux positif. Encore faut-il pouvoir écarter une situation d’inflation du risque alpha induite par une multiplicité des comparaisons statistiques non gérée.
Note - le risque alpha
Un résultat d’essai thérapeutique peut montrer le bénéfice du traitement par erreur, uniquement du fait du hasard. Ainsi, avec un traitement en réalité sans effet, les fluctuations aléatoires d’échantillonnage peuvent faire apparaître une différence entre les 2 groupes de l’essai thérapeutique qui sera prise, à tort, pour l’effet du traitement.
En pratique, il convient donc, avant d’accepter un résultat d’essai en faveur de l’efficacité du traitement, de s’assurer que ce résultat « positif » ne soit pas, en réalité, un résultat faux positif dû au hasard. L’outil à notre disposition pour faire ce diagnostic est le test statistique et la valeur de p. En fait le risque de résultat faux positif est le risque d’erreur statistique alpha qui est le concept central du test statistique et de la signification statistique.
Ainsi quand le test statistique rattaché au résultat considéré est statistiquement significatif, on considère que le risque alpha est faible et qu’il est possible d’accepter la positivité du résultat. Il est possible d’écarter, raisonnablement avec un risque (probabilité) d’erreur résiduelle de moins de 5%, la possibilité que le résultat soit un faux positif du au hasard.
Cependant l’obtention d’un p statistiquement significatif n’est pas suffisant pour formellement écarter la possibilité d’un résultat faux positif. Encore faut-il pouvoir écarter une situation d’inflation du risque alpha induite par une multiplicité statistique non gérée.
L’inflation du risque alpha survient quand on a la possibilité de faire la même conclusion sur l’efficacité du traitement à partir de plusieurs tests statistiques. A partir du moment, où à partir de plusieurs tests, on conclu à l’efficacité du traitement quand au moins l’un d’entre eux est signification, le risque de conclure à tort à l’efficacité du traitement est bien plus important que 5%. En effet, dans cette démarche on consent un risque de 5% de conclure à tort à partir du 1er test effectué, puis à nouveau 5% sur le deuxième, etc. jusqu’à l’obtention d’un test significatif pris alors comme démonstration de l’efficacité. En effet, avec un traitement sans effet, si l’on réalise 100 tests statistique (en multipliant les critères de jugement par exemple), 5 d’entre eux seront statistiquement significatif par définition puisque chaque test à un risque de 5% de permettre de conclure à tort à l’effet du traitement. 5% pour chaque test cela fait en moyenne 5 tests positifs à tort. Ainsi, avec tout traitement sans effet, il sera possible d’avoir au moins un test significatif si l’on a multiplie les comparaisons statistique (à partir de 20 tests il est quasi certain d’avoir au moins un p significatif sur l’ensemble).
risque alpha et test statistique
TODO Reformulation du problème de la signification stat dans le n contexte de la multiplicité
Est-ce que le résultat est suffisamment probant pour faire reposer la décision de recommander le traitement sur lui (sans courir trope de risque de prendre cette décision à tort)
L’inflation du risque alpha survient quand on a la possibilité de faire la même conclusion sur l’intérêt du traitement à partir de plusieurs tests statistiques. Par exemple, pouvoir conclure à un quelconque intérêt du traitement à partir de plusieurs critères de jugements. À partir du moment, où, à partir de plusieurs tests, on conclu à l’efficacité du traitement quand au moins l’un d’entre eux est signification, le risque de conclure à tort à l’efficacité du traitement est bien plus important que 5%. En effet, dans cette démarche on consent un risque de 5% de conclure à tort à partir du 1er test effectué, puis à nouveau 5% sur le deuxième, etc. jusqu’à l’obtention d’un test significatif pris alors comme démonstration de l’efficacité. En effet, avec un traitement sans effet, si l’on réalise 100 tests statistiques (en multipliant les critères de jugement par exemple), 5 d’entre eux seront statistiquement significatifs par définition puisque chaque test à un risque de 5% de permettre de conclure à tort à l’effet du traitement. Ainsi, avec tout traitement sans effet, il sera possible d’avoir au moins un test significatif si l’on a multiplie les comparaisons statistique (à partir de 20 tests il est quasi certain d’avoir au moins un p significatif sur l’ensemble).
Note - : inflation du risque alpha
En l’absence d’inflation du risque alpha, un résultat statistiquement significative permet de considérer, avec un risque minime et parfaitement contrôlé, que le résultat n’est probablement pas un faux positif du au hasard. En effet un p<0.05 signifie que, si en réalité le traitement n’a pas d’effet, l’essai avait moins de 5% de chance d’obtenir une différence entre les 2 groupes au moins aussi importante que celle qui est observée. De ce fait il est considéré que le résultat n’est probablement pas un faux positif. Cette déduction n’est pas certaine à 100%. Il reste toujours un risque d’erreur résiduel quand on accepte l’efficacité du traitement à partir d’un résultat statistiquement significatif. En effet, un test significatif ne nous assure pas que le risque alpha est nul mais simplement qu’il est contrôlé et suffisamment petit (<5% si un tel seuil de signification a été choisi au protocole) pour que l’on puisse accepter de prendre ce risque de conclure à tort.
Encore faut-il que ce risque soit réellement inférieur à 5% et non pas supérieur. En effet, un p<0.05 ne correspond pas forcément à une prise de risque contrôlée si ce petit p a été obtenu dans un contexte de multiplicité des comparaisons. Dans ce cas il y a inflation du risque alpha.
En effet, si pour prendre la décision de dire que le traitement présente un intérêt, nous avons à notre disposition le résultat de multiples comparaisons statistiques (par exemple en raison de multiples critères de jugement dans l’essai), le risque global de conclure à tort à l’intérêt de ce traitement à partir de n’importe laquelle de ces comparaisons va être bien plus important que le risque habituellement consentie de 5%. Car on va prendre un risque de 5% de conclure à tort à l’intérêt du traitement sur chacune de ces comparaisons et ces prises de risque vont donc se cumuler. Par exemple, s’il y a 100 critères de jugement, nous en auront 5 de significatif même si le traitement n’a aucun effet (les 5% de faux positif acceptée par définition d’un risque alpha à 5%). Ainsi, si l’on a la possibilité de choisir la comparaison qui nous arrange pour conclure à l’efficacité du traitement, il y en aura presque toujours une de significative (si les critères ne sont pas trop corrélés), même si le traitement n’a aucun effet, à partir du moment où plusieurs comparaisons s’offrent à nous. Le nombre de résultats significatifs augmente avec le nombre de comparaisons disponibles. On dit que l’on va à la « pêche à la ligne ».
Pour que le contrôle du risque alpha de faux positif soit efficace il faut que la décision de conclure à l’intérêt du traitement ne puisse se faire qu’à partir d’une seule et unique comparaison, définie a priori ou qu’une méthode statistique de contrôle de l’inflation du risque alpha ai été mise en oeuvre (méthode séquentielle hiérarchique, ajustement du seuil de la signification statistique par la méthode Bonferroni,, etc.. cf. section ???).
Dans l’essai thérapeutique, les situations qui peuvent engendrer une multiplicité des comparaisons si aucune mesure adaptée n’est prise, sont les suivantes :
multiplicité des comparaisons et inflation du risque alpha
Deux autres problématiques peuvent être rattachées à celle des résultats faussement positifs : celle de la cohérence externe du résultat et celle du respect de la démarche hypothético déductive.
La cohérence externe d’un résultat est assurée lorsque celui-ci est confirmé par d’autres études. L’outil d’exploration de la cohérence externe est la méta-analyse. En méta-analyse, la cohérence externe se traduit par l’absence d’hétérogénéité entre les études signifiant que le résultat est bien retrouvé à l’identique dans toutes études disponibles. A l’inverse, la méta permet d’identifier un résultat artefactuel ou dû au hasard, en montrant que ce résultat est différents de ceux obtenus par les autres essais. (cf. fiche concept cohérence externe).
Le respect de la démarche hypothético est indispensable pour assurer la validité scientifique du résultat. Le résultat correspond à une hypothèse formulée avant la réalisation de l’étude et qui était l’objet de l’étude. Ainsi le résultat est le reflet de la confrontation à la réalité de cette hypothèse, confrontation qui va confirmer ou infirmer cette hypothèse. Dans ce cas l’essai était un essai de confirmation (« confirmatory study ») s’inscrivant dans une démarche déductive. A l’inverse, les résultats obtenus en dehors de l’hypothèse de l’essai n’ont que peu de valeur car ils sont purement exploratoires car produit par une démarche inductive. Ce sont des résultats post-hoc qui demande à être confirmés par une étude prospective spécialement conçu pour cela. Cf. fiche concept sur la démarche hypothetico déductive.
Le risque que ce résultat soit faussement positif dû au hasard peut être raisonnablement écarté. En effet, ce résultat est statistiquement significatif (à un seuil de signification au plus égal à 5%) et il n’y a pas eu de multiplicité des comparaisons dans la recherche de ce résultat. De ce fait il n’y a pas eu d’inflation du risque alpha. On peut donc considérer que le risque alpha de conclure à tort à l’intérêt du traitement à partir de ce résultat est parfaitement contrôlé et inférieur à 2.5% (5% en bilatéral, voir fiche concept test unilatéral/bilatéral). En effet, les tests réalisés dans les essais thérapeutiques sont bilatéraux mais un seul côté de cette bilatéralité (la supériorité du nouveau traitement versus le control) conduit à la conclusion de l’intérêt du traitement. Le risque alpha consentie sur cette conclusion est donc de 2.5% (pour un test bilatéral de 5%). Il est ainsi acceptable. Une inflation du risque alpha, qui conduirait à un risque de conclure à tort à l’intérêt du traitement bien supérieur à 5% et donc inacceptable, est écartée car il n’y a eu de multiple possibilité pour trouver un résultat significatif en faveur de cet intérêt.
L’absence d’inflation du risque alpha est assurée car :
Il n’est pas possible d’écarter la possibilité que le résultat soit un faux positif dû au hasard car il n’y a pas eu de contrôle strict du risque alpha en raison d’une multiplication des comparaisons effectuées à la recherche de l’intérêt du traitement (entraînant une inflation du risque alpha). De ce fait il est impossible de prendre le risque de conclure à l’intérêt du traitement à partir de ce résultat, même si le p est inférieur à 5%, car le risque de faire cette conclusion à tort (erreur statistique alpha) est trop important (cf. supra) et il est supérieur au 5% bilatéral / 2.5% unilatéral habituellement consenti.
L’inflation du risque alpha peut provenir de plusieurs situations :
Le résultat montre un surcroît d’événements indésirables (défaut de sécurité). Compte tenu des conséquences potentielles graves d’un défaut de sécurité, ce type de résultat n’a pas besoin d’être démontré formellement pour être pris en considération. Un résultat seulement suggéré est suffisant pour s’interroger sur un éventuel effet délétère et faire comme si cet effet était démontré. De plus, ce type de résultat n'est pas en mesure de conduire à une adoption à tort du traitement mais à son rejet. Il n'y a donc pas de crainte particulière liée à un résultat faussement positif. Ainsi, dans le domaine de la sécurité, le principe de précaution prévaut et il n'est pas nécessaire d'obtenir une démonstration formelle pour décider.
Avec le principe de précaution, la logique d’interprétation change et l’accent n’est plus mis sur le contrôle du risque de faux positif (conclure à tort à l’existence de l’effet) mais bien sur celui du risque de faux négatif (ne pas mettre en évidence à tort un effet indésirable). On accepte de conclure à tort à un défaut de sécurité car le risque d’utiliser à tort un traitement non sûr est considéré comme non acceptable. Si le nouveau traitement était comparé à un traitement actif, ce type de résultat signifie une moindre sécurité du nouveau traitement par rapport au précédent. Cela correspond à un défaut de sécurité du nouveau traitement par rapport à la meilleure option actuellement possible.
Les conséquences de la suspicion ou de la démonstration d’un surcroît d’un événement indésirables varient en fonction du contexte et de l’existence ou non d’un bénéfice à mettre en regard.
La mise en évidence d’un surcroît d’événements indésirables peut ne pas être rédhibitoire si, en regard, le traitement apporte un bénéfice sur des événements de même gravité que celle de l’événement indésirable induit. Tout dépend de l’existence ou non d’un bénéfice clinique net favorable (cf. section ???). Par contre si aucun bénéfice n’existe en regard de ce surcroît d’événement indésirable (sur des évènements de même gravité que les évènements indésirable), l’intérêt thérapeutique du traitement évalué est inexistant. L’intérêt thérapeutique sera aussi remis en cause si un bénéfice existe ne débouchant sur un bénéfice clinique favorable (cf. section a???). Dans ce, le surcroît d’événements indésirables viens contrebalancer complètement le bénéfice apporté par le traitement.