Validité interne

Accueil > Sommaire > Validité interne

 

1       Introduction

Trois composantes contribuent à la validité interne et à la fiabilité du résultat :

·          la réalité statistique du résultat,

·          l'absence de biais

·          et la validité méthodologique.

L’évaluation de la validité interne d’un résultat a ainsi pour but d’éliminer la possibilité qu’un résultat positif soit en fait produit par un biais ou soit le reflet du hasard.

2       Réalité statistique du résultat

2.1.1      Rappel

Lorsque le test statistique est significatif, il existe moins de 5% de chance que seul le hasard soit à l’origine du résultat observé. Il n’est jamais possible d’éliminer avec certitude le risque d’erreur statistique. En cas de valeur de p supérieure à 5%, il n’est en général pas raisonnable de considérer que le résultat observé est réel, le risque d’erreur statistique est trop important.

Pour conclure à la réalité statistique d’un résultat, il convient aussi d’écarter une situation d’inflation du risque alpha produite par un mécanisme de répétition ou de multiplicité des tests statistiques (cf. chapitre sur les tests statistiques) : absence de critère de jugement principal fixé avant l’obtention des résultats, analyses en sous groupes, recherche de l’effet répétée au cours du temps, analyses intermédiaires non protégées.

2.1.2      Points à vérifier

Les différents points à vérifier pour s’assurer de la réalité statistique de l’effet du traitement sont les suivants :

·          Le résultat est-il statistiquement significatif à un seuil inférieur ou égal à 5% ?

·          Peut-on considérer que le risque alpha a été parfaitement contrôlé pour le résultat avancé (absence d’inflation) ?

·          Le test statistique utilisé est-il adapté ? Ce point peut paraître technique et nécessitant des compétences statistiques avancées. En fait, il n’en est rien. Sauf cas exceptionnel, les tests statistiques nécessaires pour mettre en évidence un effet dans un essai clinique sont les tests de bases (chi-2, test-t, ANOVA, analyse de covariance).

2.1.3      Situation à fort risque de problème

·          Le résultat avancé est issu d’une analyse en sous-groupes. Il existe un fort risque d’inflation du risque alpha. De plus, ce résultat n’est pas issu d’une démarche hypothético-déductive, ce qui limite sa valeur méthodologique.

·          Le résultat est obtenu sur un critère de jugement qui n’a pas été clairement défini a priori comme étant le critère de jugement principal.

·          Des analyses intermédiaires sont réalisées sans protection contre l’inflation du risque alpha.

·          Il y a une répétition de la recherche de l’effet au cours du temps.

·          Il y a absence du calcul préalable de l’effectif nécessaire. L’analyse porte alors sur un nombre arbitraire de sujets. Le choix du moment de l’analyse est peut-être conditionné par les résultats obtenus.

·          Un ajustement est effectué sur des variables non prévues a priori. Un ajustement post-hoc sur des variables trouvées déséquilibrées entre les groupes entraîne un biais. Les variables d’ajustement doivent être prédéfinies et non pas déterminées en fonction des résultats.

·          Pour les résultats négatifs, un résultat non significatif ne garantit pas l’absence d’effet. Le risque d’erreur bêta est incontrôlé.

·          Des mesures multiples du critère de jugement chez le même patient sont analysées comme si elles étaient indépendantes, ou mesurées chez des sujets différents (le nombre d’unités statistiques sur lesquelles se base l’analyse statistique est supérieur au nombre de patients) [17,39].

·          Résultat obtenu au niveau d’un sous groupe.

3       Valeur méthodologique du résultat

Le résultat avancé doit correspondre directement à l’hypothèse formulée a priori, et dont le test était l’objet spécifique de l’essai, afin de respecter le principe de la méthode expérimentale. Cette condition est indispensable pour garantir la valeur méthodologique (« épistémologique ») du résultat.

Il convient, tout particulièrement, d’éliminer la possibilité que l’hypothèse ait pu être formulée après la prise de connaissance des résultats de l’essai. Dans ce cas, « l’expérience » ne peut que confirmer l’hypothèse puisque celle-ci a été formulée à partir de ces résultats. Cette situation tautologique enlève toute valeur au résultat.

L’hypothèse de l’essai doit avoir été formulée avant la réalisation de l’étude et non pas après.

Afin de pouvoir éliminer une génération post-hoc de l’hypothèse, l’introduction doit justifier de manière prospective l’hypothèse de l’essai, ses objectifs cliniques et les analyses en sous-groupes prévues. L’introduction doit démontrer que l’hypothèse testée découle naturellement des connaissances et des données disponibles avant le début de l’essai et que celui-ci a été spécifiquement entrepris pour la tester.

Un résultat non issu d’une démarche hypothético-déductive est de nature inductif. Il suggère alors un effet, mais ne peut le démontrer.

Tout changement post-hoc (ou définition post-hoc) de l’hypothèse testée, du critère de jugement, de la population cible supprime sa valeur déductive à un résultat et le transforme en un résultat inductif, exploratoire. Ce type de résultat suggère alors un effet, mais ne peut le démontrer.

Dans un essai d’un traitement topique des piqûres de moustiques où le critère de jugement principal est la durée du prurit, si une réduction significative de la mortalité est observée, celle-ci sera très vraisemblablement mise sur le compte du hasard et personne ne pensera à avancer comme effet de ce traitement une réduction de la mortalité. Cet effet est biologiquement peu plausible et un tel résultat ne sera pas considéré. Tout au plus il pourra mettre « la puce à l’oreille » et éventuellement faire découvrir une propriété insoupçonnée de ce traitement. Mais avant d’en arriver à une conclusion définitive, d’autres essais avec comme objectif la survie seront entrepris.

Par contre dans un essai s’adressant à un traitement de l’insuffisance cardiaque, avec comme critère de jugement la fréquence des hospitalisations, une réduction de mortalité pourrait éventuellement être considérée différemment en raison d’une plus forte plausibilité biologique. Pourtant la situation est identique à celle de l’exemple précédent. Le résultat observé sur la mortalité peut très bien provenir du hasard, des conditions particulières de l’essai, etc. Comme avec le traitement des piqûres de moustiques, ce résultat ne constitue pas une démonstration, même s’il semble concevable et plausible. Il suggère seulement un effet à ce niveau et permet de générer de nouvelles hypothèses à démontrer dans un essai de confirmation ayant comme critère principal la mortalité.

4       Absence de biais

Il convient de vérifier que la méthode utilisée évite la survenue des biais et que la réalisation de l’essai a été correcte.

L’analyse critique doit pouvoir éliminer la possibilité de l’existence d’un biais. Les situations propices à l’apparition des différents biais sont à rechercher, soit au niveau d’un défaut méthodologique, soit au niveau d’un défaut de réalisation.

Les différents biais pouvant affecter un essai thérapeutique vont être passés en revue. Pour chacun d’entre eux, un bref rappel de son mécanisme est effectué, puis les points à vérifier pour s’assurer que le résultat en est exempt sont listés. Pour terminer, une liste des situations à fort risque de biais est proposée.

4.1      Biais de confusion

4.1.1      Rappel

Le biais de confusion est le biais entraîné par l’absence de prise en considération des facteurs de confusion. Pour l’éviter l’essai doit être comparatif et doit comporter un groupe contrôle contemporain comme référence.

4.1.2      Questions à se poser pour vérifier les précautions prises pour éviter le biais

·          Existe-t-il un groupe contrôle ?

·          L’effet du traitement est-il déterminé par rapport à ce groupe contrôle ?

4.1.3      Situations à fort risque de biais

Dans les situations suivantes, le risque de biais de confusion est fort et remet en cause la validité interne du résultat obtenu.

·          Malgré la présence d’un groupe contrôle, l’effet est mesuré par une comparaison avant – après dans le groupe traité.

4.2      Biais de sélection

4.2.1      Rappel

Le biais de sélection survient lorsque les deux groupes de l’essai ne sont pas comparables ce qui conditionne une différence dans le critère de jugement en dehors de tout effet traitement.

La randomisation a pour but d’éviter le biais de sélection qui survient lorsque les patients des deux groupes ne sont pas comparables. Il convient cependant de vérifier que la randomisation qui a été employée a bien permis d’atteindre ce but. Pour cela elle doit être décrite avec suffisamment de détails.

4.2.2      Questions à se poser pour vérifier les précautions prises pour éviter le biais

·          La méthode de randomisation garantit-elle l’imprévisibilité du traitement alloué à un patient ?
En effet, il est particulièrement important qu’un investigateur ne puisse pas connaître ou prédire le groupe auquel sera alloué le prochain patient [156,205]. À ce titre une « pseudo randomisation » basée sur la date de naissance du patient ou le jour de la consultation est inacceptable. L’utilisation d’enveloppe scellée n’est pas optimale, surtout pour les essais en ouvert (cf. exemple de l’essai CAPP page 22). Seules les procédures centralisées (téléphone, fax, informatique) donnent suffisamment de garantie.

·          Les groupes issus de la randomisation sont-ils comparables  ?
Pour juger de cela (cf. chapitre Comparaison des groupes), il convient de vérifier que les principaux facteurs pronostiques ou facteurs de risques du critère de jugement sont rapportés.

4.2.3      Situations à fort risque de biais

Dans les situations suivantes, le risque de biais de confusion est fort et remet en cause la validité interne du résultat obtenu.

·          Le groupe contrôle n’est pas constitué de patients contemporains, mais de témoins historiques ou de témoins géographiques (en fait, il n’y a pas eu de randomisation).

·          Le processus de randomisation était prévisible. Il était possible pour les investigateurs de sélectionner les patients dans les groupes de l’essai.

4.3      Biais liés à l’absence ou un défaut de double insu

4.3.1      Rappel

L’absence, ou une mauvaise réalisation, du double insu est susceptible d’entraîner différents biais : biais de suivi, biais d’évaluation. Dans certaines situations, la réalisation d’un double insu n’est pas possible pour des raisons éthiques ou pratiques (cf. tableau 1). Dans ce cas, les essais ne peuvent être réalisés qu’en simple insu ou en ouvert. Les points spécifiques à cette situation seront abordés dans une section suivante.

4.3.2      Questions à se poser pour vérifier les précautions prises pour éviter les biais

·          Le traitement du groupe contrôle est-il indiscernable du traitement du groupe traité ? Les deux groupes doivent recevoir un traitement qui a la même forme (gélule, perfusion IV, etc.), la même apparence (couleur, volume, conditionnement, étiquetage, ), le même goût, etc…

·          En cas de différence entre les traitements comparés (voie d’administration, forme galénique, etc. différentes), une technique de double placebo a-t-elle été employée ?

·          Le code du traitement figurait-il sur les boîtes de traitements (par exemple code A, B)

4.4      Biais de suivi

4.4.1      Rappel

Un biais de suivi survient lorsque les deux groupes ne sont pas suivis de la même manière au cours de l’essai. La comparabilité initiale est alors détruite et une différence peut apparaître en dehors de tout effet traitement. Le double aveugle est un élément central pour empêcher l’apparition de ce biais. À côté de l’évaluation de la qualité du double aveugle, d’autres points spécifiques du biais de suivi sont à prendre en considération.

Des points d’analyse spécifiques de l’essai en ouvert sont exposés dans la section suivante.

4.4.2      Questions à se poser pour vérifier les précautions prises pour éviter le biais de suivi

·          Est-ce que les arrêts de traitements, les déviations aux protocoles et les traitements concomitants ont été recueillis et sont convenablement documentés ?
Ces informations sont nécessaires pour répondre aux questions suivantes.

·          Le recours aux traitements concomitants a-t-il été aussi fréquent dans tous les groupes ? Une différence dans les traitements concomitants peut faire disparaître l’effet du traitement étudié, ou, à l’inverse, faire apparaître une fausse différence.
Une différence dans les traitements concomitants peut aussi être le reflet de l’effet du traitement étudié. Avec un traitement efficace, la fréquence de recours aux traitements de seconde ligne est réduite. Par exemple, un traitement doté d’un effet antalgique puissant entraîne une diminution de l’utilisation des antalgiques de seconde ligne prévus dans le protocole.
À l’inverse un traitement ayant une mauvaise tolérance entraîne une augmentation de consommation des traitements prescrits en raison de cette mauvaise tolérance. Par exemple, des antiémétiques avec une chimiothérapie anticancéreuse.

·          Les taux de déviation au protocole sont-ils similaires dans les deux groupes ?

·          Les taux d’arrêt du traitement de l’étude sont-ils similaires dans les deux groupes ?
En sachant que les différences observées peuvent être dues à une différence de tolérance des produits et non pas à une situation potentiellement biaisée.

4.5      Biais d’évaluation

4.5.1      Rappel

Le biais d’évaluation (aussi appelé biais de mesure) survient quand la mesure du critère de jugement n’est pas réalisée de la même manière dans les deux groupes. Le double insu limite le risque de biais d’évaluation.

4.5.2      Questions à se poser pour vérifier les précautions prises pour éviter le biais d’évaluation

·          L’évaluation du critère de jugement est-elle faite de la même façon quel que soit le traitement reçu ?

·          Le traitement est-il susceptible d’influencer la mesure du critère de jugement ?

·          Dans un essai en ouvert, la mesure du critère de jugement est-elle subjective ? La connaissance du traitement reçu par le patient peut influencer la mesure du critère de jugement. Avec ce type de critère, si le double aveugle est impossible (par exemple psychothérapie), l’évaluation des patients doit se faire, en insu du traitement reçu, par un évaluateur indépendant des médecins ayant en charge les patients (triple aveugle).

4.6      Recherche des biais dans l’essai en ouvert

4.6.1      Rappel

Dans certaines situations, la réalisation d’un double insu n’est pas possible pour des raisons éthiques ou pratiques. Dans ce cas, les essais ne peuvent être réalisés qu’en simple insu ou en ouvert. La méthodologie employée n’empêchant pas la survenue d’un biais, il convient d’analyser soigneusement les marqueurs permettant de juger que le suivi et l’évaluation des critères de jugement se sont effectués de manière identique dans les deux groupes.

Seules quelques situations très particulières empêchent la réalisation d’un double insu (cf. tableau 1). En dehors de ces situations, l’absence de double insu n’est ni satisfaisante, ni justifiable.

4.6.2      Questions à se poser pour vérifier les précautions prises pour éviter le biais

·          Le critère de jugement est-il un critère « dur », dont l’évaluation ne peut pas être influencée subjectivement par l’investigateur ?
Le décès est le critère le plus sûr dans un essai en ouvert car il ne demande aucune interprétation. Par contre, l’utilisation d’événements cliniques est moins robuste. Dans certains cas, le diagnostic de survenue de l’événement clinique peut être subjectif et influencé par la connaissance du traitement du patient.

Tableau 1 – Liste des situations où l’absence de double insu est « acceptable ».

Un des traitements comparés est une intervention chirurgicale ou invasive (radiologie interventionnelle comme une angioplastie).

Un des traitements comparés nécessite un appareillage lourd dont il est impossible de faire un simulacre comme la radiothérapie.

Un des traitements comparés s’accompagne d’effet indésirable ou d’une toxicité évocatrice qui laisse deviner la nature du traitement dans presque tous les cas : chute de cheveux dans des chimiothérapies anticancéreuses.

Les traitements comparés sont des stratégies de prise en charge : traitement à domicile versus traitement hospitalier.

Un des traitements comparés concerne une prise en charge améliorée : stroke unit, kinésithérapie, aide à domicile, etc.

Le traitement factice risque d’avoir un effet : faux massage, placebo de chewing-gum pour l’arrêt du tabac, etc.

Un des traitements comparés délivre son action de façon évidente et non dissimulable. Il est donc impossible d’en faire un simulacre sans effet : (chirurgie,) dans une certaine mesure kinésithérapie, cure thermale, physiothérapie (chaleur), etc.

D’une manière générique, toutes les situations où la réalisation d’un traitement « placebo » ayant la même apparence que le traitement étudié s’avère trop compliqué à réaliser ou illusoire, par exemple, quand l’action du traitement est directement visible (comme la chirurgie, le recours à une aide humaine, etc.).

 

·          En cas d’utilisation d’événements cliniques comme critère de jugement, l’adjudication s’est-elle effectuée de manière centralisée, indépendante et en insu de la connaissance du traitement ?

·          L’essai est réalisé en ouvert alors que sa réalisation en double insu était éthiquement et pratiquement possible.
La justification de l’absence d’aveugle pour des raisons pratiques, principalement de coûts, ne doit pas être acceptée trop facilement. L’expérience montre que, même avec des critères de jugement « durs » (mortalité), il existe une surestimation de l’effet dans les essais en ouvert par rapport aux essais en double aveugle (cf. exemple de l’amiodarone ci-dessous). Les situations où il est impossible de réaliser un double insu sont rares. Par exemple, la nécessité d’une adaptation posologique en fonction d’un paramètre biologique n’est pas un obstacle insurmontable à la réalisation d’un double aveugle. Une procédure d’ajustement centralisé peut être mise en place.

 

Exemple

La méta-analyse des essais comparant l’amiodarone au placebo ou à l’absence d’antiarythmiques dans l’insuffisance cardiaque congestive ou en post infarctus précoce montre une réduction significative de la mortalité totale et d’origine arythmique. Cependant, l’analyse restreinte aux essais en double aveugle contre placebo conduit à des résultats non significatifs, qui s’avèrent hétérogènes par rapport aux résultats des essais en ouvert, sans placebo, qui lui est significatif.

 

Type d’essais

Mortalité totale

Risque relatif (95%)

Essais contre placebo

0,96 (0,84 ;1,10)

Essais contre pas d’antiarythmiques

0,64 (0,50 ;0,82)

Tous les essais

0,87 (0,78 ;0,99)

 

Cet exemple est l’un des cas où il a été mis en évidence que les essais réalisés en ouvert, sans recourir au placebo, avaient une certaine propension à surestimer l’efficacité et à perturber l’interprétation des résultats [15].

4.7       Biais d’attrition

4.7.1 Rappel

Le biais d’attrition survient quand des patients randomisés sont écartés de l’analyse. Tous les patients randomisés doivent être inclus dans l’analyse. Les patients inclus mais non analysés correspondent soit à des perdus de vue, soit à des données manquantes, ce qui a pour conséquence dans les deux cas de rendre le critère de jugement principal manquant.

4.7.2      Questions à se poser pour vérifier les précautions prises pour éviter le biais

·          Le nombre de patients analysés est-il égal au nombre de patients randomisés ?

·          Qu’elle est la robustesse du résultat vis-à-vis de l’hypothèse du biais maximum ?

·          Est-ce qu’une méthode de remplacement des données manquantes a été utilisée ? Dans ce cas, le nombre de patients analysés correspond au nombre de patients randomisés même si de nombreuses valeurs étaient manquantes. Ces méthodes nécessitent des hypothèses sur la nature des données manquantes. Même si elles sont pour la plupart conservatrices, leur utilisation ne doit pas faire oublier le problème initial et le risque de biais.

4.8      Autres biais liés à la destruction de la comparabilité des groupes

4.8.1      Rappel

Différentes situations peuvent conduire à une destruction de la comparabilité initiale des groupes, comme, par exemple, une analyse en « per-protocole » où les patients inclus à tort, traités par erreur avec un mauvais traitement, ayant arrêté le traitement de l’étude ou ayant reçu des traitements concomitants sont exclus de l’analyse. Ces exclusions secondaires sont susceptibles de biaiser le résultat, principalement en détruisant la comparabilité initiale des groupes et du fait que les exclusions sont potentiellement liés à l’effet du traitement. Pour éviter ce biais, l’analyse doit être réalisée en intention de traiter. Le diagramme de flux de patients des recommandations « CONSORT » permet de juger de la population soumise à l’analyse.

4.8.2      Questions à se poser pour vérifier les précautions prises pour éviter le biais

Afin de vérifier l’absence d’un éventuel biais, il convient de se poser les questions suivantes.

·          L’analyse a-t-elle été faite en intention de traiter ?
C’est-à-dire tous les patients inclus dans l’essai ont-ils été analysés dans le groupe dans lequel ils ont été randomisés, quel que soit le traitement qu’ils ont reçu ?

·          Les patients randomisés mais non traités sont retenus pour l’analyse.

·          Les patients alloués à un groupe mais traités par erreur avec le traitement d’un autre groupe sont analysés dans leur groupe d’origine.

4.9      Biais des essais de non-infériorité

4.9.1      Rappel

Les biais spécifiques affectent l’essai de non-infériorité, en particulier, tout ce qui concourt à faire disparaître l’effet des traitements étudiés. La situation est inversée par rapport à l’essai de supériorité où ces situations n’entraînent pas de biais mais simplement une perte de puissance.

4.9.2      Questions à se poser pour vérifier les précautions prises pour éviter les biais dans les essais de non infériorité

·          Le traitement de référence a-t-il développé sa pleine efficacité ?
Les conditions d’administration du traitement de référence (dose utilisée, schéma d’administration, observance des patients) doivent garantir l’obtention de l’efficacité optimale du traitement de référence. Si ce n’est pas le cas, un nouveau traitement, en réalité, inférieur au traitement de référence, apparaîtrait comme non-inférieur.

·          Les patients inclus sont-ils similaires aux patients chez lesquels le traitement de référence a été validé ?

·          Les patients inclus présentent-ils un risque suffisamment élevé pour permettre à l’effet du traitement de se manifester. La fréquence du critère de jugement doit être proche de celle qui est attendue et qui a été utilisée dans le calcul du nombre de sujets.

·          L’analyse en intention de traiter donne-t-elle les mêmes résultats que l’analyse en per-protocole ? Dans l’essai de non-infériorité, l’analyse per-protocole est la plus sensible et la moins biaisée. Cependant, elle ne reflète pas la vraie vie. L’analyse en intention de traiter est plus représentative de la pratique courante, mais elle est conservatrice et a tendance à faire disparaître les différences. Il convient donc de considérer simultanément ces deux analyses pour avoir à la fois une vue non biaisée et représentative de la réalité.

4.9.3      Situations à fort risque de biais

Dans les situations suivantes, le risque de biais dans l’essai de non-infériorité est fort et remet en cause la validité interne du résultat obtenu.

·          La mesure du critère de jugement est peu sensible et/ou peu spécifique. La mauvaise performance diagnostique de cette mesure tend à égaliser les résultats des deux groupes, et peut gommer une différence en défaveur du traitement étudié.

·          De nombreux patients sont exclus de l’analyse per-protocole.

·          Il existe un fort taux d’écarts au protocole.

·          Le taux de données manquantes était élevé et des techniques de remplacements ont été utilisées. Ces techniques sont conservatrices et elles sont susceptibles de faire disparaître une réelle différence entre les traitements.

 

 

 

 

Interprétation des essais cliniques pour la pratique médicale

www.spc.univ-lyon1.fr/polycop

Michel Cucherat

Faculté de Médecine Lyon - Laennec

Mis à jour : aout 2009