× ATTENTION - Ce site est un prototype proposé uniquement comme démonstrateur du concept. Ce document est un brouillon inachevé présent uniquement pour tester la cohérence technique du prototype. Merci de votre compréhension.

Non infériorité

1. Introduction

Les essais de non infériorité (« non-inferiority trial »), parfois appelé par abus de langage essais d’équivalence (« equivalence trial »), deviennent de plus en plus fréquents dans l’évaluation clinique des nouveaux traitements. Ce type d’essais fait appel à une méthodologie et à des techniques statistiques dont le développement est relativement récent [1] et relativement peu connu. De ce fait, des nouveaux traitements peuvent être acceptés sur la base d’essais d’équivalence discutables par méconnaissance des pièges et des spécificités de ce type d’études [2, 3]. En particulier, le processus décisionnel qui leur est attaché nécessite l’introduction d’un seuil d’équivalence choisi arbitrairement. De la valeur de ce seuil dépend grandement le résultat de l’essai. Malgré son nom, l’essai d’équivalence ne permet pas de conclure que le traitement étudié a une efficacité équivalente à celle du traitement de référence. Les conclusions de ces essais sont aussi très souvent surinterprétées. Malgré les apparences, l’essai dit « d’équivalence » ne permet pas de conclure que le traitement étudié a une efficacité identique à celle du traitement de référence mais simplement qu’il a une efficacité suffisante. Comme nous le verrons par la suite, les méthodes disponibles permettent seulement de raisonnablement éliminer la possibilité que le traitement étudié soit nettement moins efficace que le traitement de référence. Ces techniques permettent d’exclure que le nouveau traitement entraine une perte d’efficacité supérieure à une certaine limite, fixée a priori et qui est devrait être la plus grande perte d’efficacité cliniquement négligeable. Ainsi, a l’issu d’un essai de non infériorité concluant, rien ne permet d’exclure que le nouveau traitement soit en réalité moins efficace que le traitement de référence. La seule chose qui soit acquise (avec un risque alpha d’erreur de 5%) est que cette perte d’efficacité est inférieure à la limite que les investigateurs sont prêt à perdre compte tenu des avantages qu’offre le nouveau traitement par ailleurs. Note : Les essais d’équivalence clinique ont pour objectif de montrer que deux traitements sont « équivalents » en termes d’efficacité clinique. Ils sont à distinguer des essais de bioéquivalence où l’équivalence ne concerne que des paramètres pharmacocinétiques.

2. Justification de la recherche de la non infériorité

Dans une pratique fondée sur les preuves, un nouveau traitement n’est adopté que lorsqu’il existe une preuve issue d’essais cliniques qu’il représente un progrès par rapport au traitement de référence (ou par rapport à l’absence de traitement). En général, le progrès thérapeutique est représenté par une efficacité supérieure à celle du traitement de référence. La preuve est apportée par un essai visant à montrer la supériorité du nouveau traitement (essai de supériorité). Cependant, dans certaines situations, une avancée thérapeutique peut non pas être une efficacité supérieure mais simplement une plus grande facilitée d’utilisation, une meilleure tolérance ou un plus faible coût. Ces avantages pourront être suffisamment intéressants pour justifier l’adoption du nouveau traitement même si son efficacité n’est pas supérieure à celle du traitement de référence, voire est légèrement inférieure. La communauté médicale est prête à accepter de perdre un peu d’efficacité étant donnés les autres avantages. La démonstration de l’intérêt du nouveau traitement sera apportée par un essai cherchant à mettre en évidence la non-infériorité de celui-ci par rapport au traitement de référence. Par exemple, l’intérêt des héparines de bas poids moléculaires dans le traitement des thromboses veineuses profondes est une plus grande facilité d’utilisation. Il en est de même des changements de modalités d’administration d’un même produit à la recherche d’une plus grande faisabilité. Cette approche a été envisagée pour la fibrinolyse avec l’alteplase à la phase aiguë de l’infarctus (essai COBALT).

Exemple des HBPM dans le traitement des TVP Jusqu’à récemment, le traitement standard des thromboses veineuses profondes consistait en l’hospitalisation et l’administration intraveineuse continue d’héparine non fractionnée (HNF) durant 5 à 10 jours, suivi par un traitement anticoagulant oral d’au moins 3 mois. L’utilisation de l’héparine non fractionnée nécessite un monitorage biologique pour l’ajustement des doses. Les héparines de bas poids moléculaires (HBPM) présentent de nombreux avantages par rapport à l’héparine non fractionnée : leur demi-vie plus longue rend possible leur administration en 2, voire 1, prise par jour, l’adaptation de la dose par monitorage biologique n’est pas nécessaire (une adaptation au poids du patient est suffisante). Ces deux points rendent envisageable le traitement de ces patients à domicile. L’ensemble de ces avantages fait que les HBPM représentent une alternative à l’HNF intéressante en pratique même sans surcroît d’efficacité [4]. En effet, il serait tout à fait justifié d’adopter les HBPM même si elles ne s’avèrent qu’équivalentes en efficacité par rapport au traitement standard. Dans cet exemple ; le progrès thérapeutique réside dans l’amélioration de la praticabilité du traitement, et du confort du patient. L’évaluation des HBPM dans le traitement de cette maladie s’est donc basée sur des essais de non-infériorité [4].

La désescalade thérapeutique, par exemple en cancérologie, avec un allégement des protocoles de chimiothérapie ou le recours à des traitements chirurgicaux moins délabrants représente aussi une situation où il est facilement justifiable de changer pour de nouveaux protocoles thérapeutiques d’efficacité seulement équivalente aux précédents mais qui préservent mieux la qualité de vie des patients. L’approche de non-infériorité ne produit des arguments permettant d’utiliser le nouveau traitement que si celui-ci présente, sur certains points, une supériorité manifeste par rapport au traitement habituel. En leur absence, la perte d’efficacité consentie empêche de conclure que le nouveau traitement représente un progrès thérapeutique par rapport au précédent. Cette remarque est importante car la tentation est grande d’évaluer en équivalence un nouveau traitement non innovant et de vanter ensuite son « efficacité équivalence » pour le faire utiliser en remplacement du précédent. Cette attitude est dangereuse car il n’est pas possible d’exclure qu’elle conduise à remplacer un traitement par un autre, en réalité moins efficace, sans que cette substitution n’apporte un quelconque avantage. Ces exemples peuvent se généraliser de la façon suivante : le bénéfice d’un traitement est une notion multifactorielle dans laquelle intervient à la fois l’efficacité vis à vis des critères de jugement clinique mais aussi la tolérance, la faisabilité et le coût. La démonstration de « l’équivalence clinique » d’un nouveau traitement par rapport au traitement de référence est suffisante pour l’adoption de celui-ci chaque fois où le gain obtenu sur les autres dimensions du bénéfice représente un intérêt suffisant pour admettre une efficacité équivalente (c’est-à-dire potentiellement légèrement inférieure). Le tableau 1 présente quelques situations de ce type. Cependant cette prise de décision va s’appuyer sur des choix arbitraires qui consistent à décider si les avantages sont « suffisants ». En d’autres termes, quelle diminution de coût, quelle réduction de fréquence des effets indésirables représentent un avantage suffisamment important pour justifier un changement. Toute la difficulté consiste à déterminer la quantité de perte d’efficacité que l’on peut consentir en regard des avantages apportés. Ce choix est le plus souvent arbitraire, dépendant du point de vue et du référentiel choisi. Il constitue la principale difficulté de la prise de décision en équivalence. Dans certaines situations, l’essai peut servir à montrer l’avantage du nouveau traitement en même temps que sa non-infériorité. Par exemple, une fréquence d’effets indésirables moindre et une efficacité suffisante (non-inférieure). L’essai ne sera concluant que lorsque ces deux hypothèses seront vérifiées simultanément. Une adaptation des tests statistiques aux comparaisons multiples est alors nécessaire.

Tableau 1 – Avantages pouvant justifier une recherche de l’équivalence. Avantage en terme de tolérance • Fréquence des effets secondaires moindre • effets secondaires moins graves Facilité d’utilisation plus grande : • voie d’administration plus simple (par exemple orale par rapport à intraveineuse, bolus à la place d’une perfusion) • une administration par jour à la place de plusieurs ou dose unique à la place d’un traitement de plusieurs jours • absence d’ajustement de dose Inconvénients du traitement plus faibles • traitement médical à la place d’un traitement chirurgical • chirurgie moins délabrante • radiothérapie moins prolongée Coût plus faible

3. Absence de différence dans un essai de différence

Lorsque dans un essai de différence, la supériorité n’est pas mise en évidence de façon significative, il peut être tentant de conclure à l’équivalence. Cette conclusion pose plusieurs problèmes. La puissance est peut-être insuffisante. L’absence de différence significative ne signifie pas qu’il y a absence de différence, mais peut être, simplement que l’essai était insuffisamment puissant pour mettre en évidence la différence qui existe entre deux traitements : « l’absence de preuve n’est pas la preuve de l’absence ». Conclure à l’équivalence après avoir bâti l’essai pour tester une hypothèse de différence revient à changer d’hypothèse. Le principe de la méthode expérimentale, l’approche « hypothesis testing » de Fisher n’est pas respecté. L’essai ne peut pas être considéré comme démontrant l’hypothèse d’équivalence étant donné qu’il n’avait pas été conçu pour cela (mais pour démontrer l’hypothèse inverse). Dans cette situation, conclure à la démonstration de l’équivalence est une démarche tautologique. Les données servant à la démonstration sont celles qui ont fait générer l’hypothèse. De plus, se pose des problèmes de qualité méthodologique de l’essai (les contraintes de l’essai d’équivalence sont différentes de celles de l’essai de supériorité) et de fixation post-hoc de la limite d’équivalence (cf. infra).

Dans un essai incluant 1000 patients par groupe, on observe 30 événements critères de jugement dans chaque groupe. Malgré la stricte identité de ces nombres d’événements, ce résultat est loin de permettre de conclure à l’équivalence d’efficacité. Le risque relatif est bien de 1 mais avec un intervalle de confiance à 95% entre 0,61 et 1,65. Ce qui signifie que ce résultat est compatible avec, en réalité, une augmentation de la fréquence du critère de jugement par le nouveau traitement de 65%. Du fait de cette incertitude statistique, il est donc impossible de conclure à l’équivalence des 2 traitements. En fait, il est toujours impossible de conclure à la stricte équivalence entre 2 traitements car cela nécessiterait un intervalle de confiance de largeur nulle, ce qui est impossible car nécessitant une infinité de patients.

4. Aspects statistiques de la recherche de l’équivalence

4.1. Principe général

La première difficulté que pose l’essai d’équivalence est d’ordre statistique. Les tests statistiques classiques sont construits pour rejeter une hypothèse nulle d’absence de différence afin de pouvoir conclure, avec un risque d’erreur contrôlé, à l’existence d’une différence. Pour conclure à l’équivalence, c’est-à-dire à l’absence de différence, on pourrait imaginer d’inverser l’hypothèse nulle en cherchant à rejeter une hypothèse d’existence d’une différence. Ceci n’est cependant pas possible car, dans ce cas, l’hypothèse nulle correspond à une infinité de valeurs et il devient impossible de calculer la probabilité d’obtenir la valeur observée sous l’hypothèse nulle. En fait, il est impossible au plan statistique de démontrer que deux traitements sont strictement équivalents. Cet obstacle est contourné par la recherche d’une équivalence relative, qui consiste à montrer que deux traitements ne sont pas trop différents, et que cette différence reste inférieure à un seuil préalablement fixé. Ce seuil correspond à la quantité d’efficacité que l’on peut consentir de perdre, étant donnés les autres avantages du nouveau traitement. L’introduction de cette tolérance rend les calculs possibles. La démonstration statistique de l’équivalence relative repose sur un processus fondé sur les intervalles de confiance. 4.2 Équivalence ou non-infériorité Non-infériorité et équivalence sont deux notions très proches. La non-infériorité correspond à une équivalence unilatérale, tandis que l’équivalence vraie est bilatérale. Pour l’efficacité clinique, la recherche de l’équivalence est, sauf cas exceptionnel, une situation unilatérale. En effet, le nouveau traitement sera intéressant en pratique aussi bien s’il s’avère équivalent que supérieur au traitement de référence, mais ne sera pas utilisé s’il s’avère inférieur. Cette description correspond à une situation unilatérale où l’on cherche à montrer avec un risque d’erreur alpha contrôlé que le nouveau traitement n’est pas inférieur au traitement contrôle, c’est-à-dire en d’autres termes qu’il est au moins aussi efficace. L’utilisation d’un test bilatéral ferait courir le risque de ne pas conclure dans une situation où l’on ne pourrait pas considérer le nouveau traitement comme équivalent car il serait en fait supérieur. Cette conclusion serait paradoxale et gênante en pratique car elle entraînerait l’impossibilité de recommander un traitement qui, en fait, pourrait être supérieur à l’existant. Très souvent, par abus de langage, le terme équivalence est employé pour désigner ce qui en réalité est une non-infériorité. Cela vient du fait que dans le domaine de l’évaluation du bénéfice clinique, le nouveau traitement peut être substitué à l’ancien à partir du moment où la non-infériorité est démontrée. La bioéquivalence est une situation d’équivalence vraie bilatérale. Il y a bioéquivalence lorsque les paramètres pharmacocinétiques du nouveau médicament ne sont ni plus ni moins élevés que ceux du traitement de référence. 4.3 Seuil de non-infériorité La décision de conclure à la non-infériorité (du nouveau traitement par rapport au traitement de référence), s’effectuera en comparant la borne supérieure de l’intervalle de confiance avec le seuil de non-infériorité choisi. Si cette borne est inférieure à ce seuil, il est possible de conclure à la non-infériorité avec un risque d’erreur contrôlé. En effet, toutes les vraies valeurs probables de la différence d’efficacité du nouveau traitement par rapport au traitement de référence sont inférieures au seuil préalablement fixé. Par contre si la borne supérieure est supérieure au seuil, il n’est pas possible d’exclure que le nouveau traitement soit moins efficace que le traitement de référence. Un intervalle de confiance unilatéral à 97.5% est utilisé. Cet intervalle de confiance correspond à un risque alpha de 2.5%. Cette valeur a été choisie pour être cohérent avec ce qui se passe dans l’essai de supériorité. En effet avec un test bilatéral et un risque alpha de 5% (test classiquement utilisée pour les essais de supériorité), le risque alpha rattaché à la conclusion de supériorité est de 2.5% (cf. test unilatéraux/bilatéraux). Ainsi dans un essais de supériorité, le risque alpha de conclure à tort à la supériorité est de 2.5% (et le risque de conclure à tort à l’infériorité est aussi de 2.5%, ce qui au total fait 5% pour le risque global de conclure à tort). Avec un intervalle unilatéral à 97.5% dans l’essai de non infériorité, le risque de conclure à tort à la non infériorité est donc aussi de 2.5%, ce qui assure une cohérence entre les 2 approches. Ce processus de décision est illustré sur la figure 1. Le seuil de non-infériorité correspond à la plus grande perte d’efficacité par rapport au traitement de référence que l’on peut consentir, compte tenu des autres avantages que présente le traitement. La signification du seuil est importante. Il correspond à la plus grande perte d’efficacité par rapport au traitement de référence que l’on consent. Par exemple, un seuil relatif de 10% signifie que l’on considérera le nouveau traitement comme « équivalent » (non inférieur) tant que son efficacité ne sera pas inférieure, en relatif, de 10% à celle du traitement de référence. Au maximum, le nouveau traitement, déclaré comme « équivalent », pourra entraîner une augmentation relative de la fréquence du critère de jugement de 10%.

Figure 1 – Illustration du processus de décision de non-infériorité. La borne supérieure du premier intervalle de confiance est inférieure au seuil de non-infériorité choisi. Le nouveau traitement peut être considéré comme non inférieur avec un risque statistique d’erreur de 2.5%. Le second intervalle de confiance englobe le seuil de non-infériorité. Dans ce cas, il n’est pas possible d’exclure que le nouveau traitement soit en fait inférieur (moins efficace) que le traitement de référence. Apparaît ici l’ambiguïté du terme non inférieur (ou équivalent). Si le seuil choisi correspond à une perte importante d’efficacité, dire que le nouveau traitement est non inférieur est clairement un abus de langage. Il peut être intéressant en pratique étant donné ses autres avantages mais parler de non infériorité, voir d’équivalence est abusif. En fait, l’essai de non-infériorité ne démontre pas stricto sensu l’équivalence. Il permet simplement d’exclure que, par rapport au traitement de référence, l’efficacité du traitement étudié est inférieure à une certaine limite. On ne peut pas dire que l’équivalence est démontrée car il est possible que le nouveau traitement soit moins efficace que le traitement de référence. Cependant, malgré cela, il peut être acceptable d’utiliser ce nouveau traitement en pratique même s’il n’est pas exclu qu’il soit moins efficace que le traitement de référence car il présente d’autres avantages par ailleurs. Cependant les nuances existant dans l’interprétation de la conclusion disparaissent quand il est conclu, un peu rapidement, que le traitement étudié est équivalent. Cette formulation, surtout pour le béotien dans le domaine, évoque irrémédiablement l’identité, et amène à penser que les traitements sont interchangeables et conduisent au même résultat. Admettre l’équivalence de deux traitements, c’est accepté que le nouveau traitement soit d’une efficacité potentiellement inférieure à celle du traitement de référence. En fait, un nouveau traitement montré comme équivalent au traitement de référence doit être considéré comme inférieur, jusqu’à preuve du contraire apportée par un essai de supériorité. Dans un classement hiérarchique des traitements par efficacité décroissante, le nouveau traitement arrive en seconde position derrière le traitement de référence. La valeur du seuil conditionne le nombre de sujets. Plus le seuil est petit, plus l’effectif de l’essai doit être important. Ainsi, il n’est pas réaliste de fixer arbitrairement le seuil à une valeur très petite. La valeur du seuil devra être choisie en fonction de la pathologie, du critère de jugement et de la nature et de l’importance des avantages apportés par le nouveau traitement. 5 Le choix du seuil de non-infériorité 5.1 Introduction Dans la recherche de la non infériorité, le résultat du test statistique n’est pas aussi absolu que celui d’un test de différence. En non-infériorité, la signification statistique d’un résultat dépend étroitement de la limite d’équivalence choisie. À partir des mêmes données, le test pourra être significatif ou non significatif en fonction de la limite : significatif avec une limite très tolérante et non significatif avec une limite plus stricte.

Figure 2 – En fonction de la valeur du seuil choisi, le même résultat peut conduire à un test de non infériorité statistiquement significatif (seuil s2) ou non statistiquement significatif (seuil s1). L’obtention d’un résultat significatif demande d’accepter une plus grande perte d’efficacité.

Le choix du seuil de non infériorité doit permettre d’exclure que le nouveau traitement fasse perdre la totalité du bénéfice apporté par le traitement de référence. Le choix de la limite est la principale difficulté de l’essai d’équivalence clinique. Quelle perte d’efficacité sur la mortalité justifie une chirurgie moins délabrante en cancérologie ou un traitement fibrinolytique en double bolus dans l’infarctus du myocarde à la place d’une perfusion de 90 minutes ? Le plus souvent le choix est arbitraire, reflète une échelle de valeur, et conduit à des seuils parfois discutables. Ainsi la littérature contient plusieurs exemples dans lesquels la valeur de la limite de non-infériorité s’avère très tolérante et pour le moins discutable. Même si un essai conclut de façon statistiquement significative à la non-infériorité d’un nouveau traitement, il est tout à fait possible de rejeter cette conclusion si l’on considère que le seuil utilisé était trop tolérant. Contrairement au résultat d’un test statistique de différence qui ne peut être remis en cause (zéro est zéro, sans discussion possible). Exemple Dans un essai comparant une héparine de bas poids moléculaire (HBPM) à une héparine non fractionnée (HNF), le traitement de référence, dans le traitement des thromboses veineuses profondes symptomatiques. La fréquence du critère de jugement (récidives thromboemboliques) attendue sous HNF était de 7 à 8%. La limite a été fixée à 5% en terme de différence absolue, ce qui signifiait que l’HBPM allait être déclarée équivalente tant qu’elle n’entraînerait pas une fréquence de récidive de 12 à 13%. Cette limite absolue de 5% correspond en fait, à une augmentation relative de 66% de la fréquence attendue dans le groupe HNF. Ainsi les investigateurs étaient prêts à accepter que le nouveau traitement puisse multiplier par 1,66 la fréquence des récidives, parmi lesquelles figure l’embolie pulmonaire. Un autre argument suggère que cette limite absolue de 5% est exagérée. L’HNF entraîne une réduction absolue de l’ordre de 13% par rapport au placebo. Avec la limite de 5%, on accepte une perte de plus d’un tiers (38%) du bénéfice apporté par l’HNF. Heureusement, le résultat de l’essai conduit à un intervalle de confiance dont la borne supérieure est inférieure à cette limite (1,07). 5.2 Positionnement par rapport à l’efficacité du traitement de référence Le choix du seuil de non-infériorité peut être facilité par l’étude du bénéfice qu’apporte le traitement de référence. Le seuil sera fixé de telle façon à ne pas permettre que l’utilisation du nouveau traitement conduise à perdre l’avancée thérapeutique représentée par le traitement de référence. Entre autres, si le traitement de référence a validé son efficacité contre placebo, le seuil choisi garantira que le nouveau traitement ne puisse pas être moins bon que le placebo. Cette démarche a été utilisée dans l’essai COBALT [5]. L’objectif de cet essai de fibrinolyse à la phase aiguë de l’infarctus du myocarde était de comparer un nouveau traitement représenté par un double bolus d’alteplase au traitement de référence, la perfusion accélérée d’alteplase. La perfusion accélérée est justifiée par les résultats de l’essai GUSTO 1 où ce traitement s’est avéré meilleur que le traitement de référence précédent, la streptokinase. Dans cet essai, la mortalité à 30 jours sous streptokinase était de 7,3% contre 6,3% avec l’alteplase. Le gain apporté par la perfusion accélérée d’alteplase est donc, en différence absolue, de 1% avec un intervalle de confiance bilatéral à 95% de 0,4% à 1,6%. Le vrai effet de l’alteplase se situe entre ces deux bornes et au pire, dans la situation la moins favorable, la différence absolue par rapport à la streptokinase n’est que de 0,4%.

Figure 3 – Illustration du choix de la limite d’équivalence en se basant sur le bénéfice apporté par le traitement de référence. La limite est choisie de telle façon qu’il n’y ait pas de risque de régresser, c’est-à-dire de faire moins bien que le précédent traitement de référence (ici la streptokinase).

En choisissant comme limite cette valeur on est assuré que le nouveau traitement ne pourra pas être considéré comme équivalent alors qu’il fait moins bien que la streptokinase. C’est-à-dire que l’efficacité moindre que l’on pourrait tolérer en regard des avantages pratiques apportés par le double bolus d’alteplase ne conduise pas à perdre tout le bénéfice de la dernière avancée thérapeutique. La démarche de cet essai est exemplaire et montre qu’une définition rigoureuse et argumentée de la non-infériorité est possible. Elle conduit cependant à des valeurs très contraignantes demandant un nombre de sujets de même ordre de grandeur qu’un essai de supériorité. Dans cet exemple, la perte de 100% de l’efficacité de la perfusion accélérée d’alteplase est acceptable car, même si l’efficacité du double bolus n’est que celle de la streptokinase, le double bolus représente encore un progrès thérapeutique en termes de praticabilité et de meilleure tolérance car il ne présente pas les effets allergiques de la streptokinase.

Un autre exemple du même domaine illustre que le choix de la limite est fréquemment subjectif. L’essai GUSTO 3 [6] comparait un nouveau fibrinolytique, la reteplase qui s’administre en double bolus au traitement de référence qu’est la perfusion accélérée d’alteplase. À l’origine, cet essai était un essai de supériorité dont les résultats ne permettaient pas de conclure à la supériorité de la reteplase. Devant ce résultat, l’objectif de l’étude a été transformé en recherche de l’équivalence clinique. Ce changement post-hoc d’hypothèse pose un problème sur lequel nous reviendrons. Pour l’instant intéressons-nous à la limite de non-infériorité qui a été choisie. Cette limite a été choisie comme dans COBALT par référence à GUSTO 1, mais là où COBALT intégrait l’incertitude statistique en prenant la borne inférieure (0,4%) de l’intervalle de confiance de GUSTO 1, GUSTO 3 considère l’estimation moyenne de 1%. La borne supérieure de l’intervalle obtenue dans GUSTO 3 est de 0,66%, valeur qui autorise de conclure à l’équivalence avec la limite de 1% mais pas avec celle de 0,4%. Les publications de COBALT et GUSTO 3 sont parues dans le même numéro du New England Journal of Medicine et ce contraste entre des choix différents illustre le manque de règles adoptées par tous et les dérives qui peuvent exister. GUSTO 3 pose aussi la question de savoir s’il est licite de passer d’un objectif de supériorité à un objectif d’équivalence en fonction des résultats. À cause de ce changement post-hoc, le principe de la méthode expérimentale suivant lequel l’hypothèse doit être générée avant le recueil des données (« l’hypothesis testing » de Fisher) n’est pas respecté. L’essai ne peut pas être considéré comme démontrant l’hypothèse d’équivalence étant donné qu’il n’avait pas été conçu pour cela mais pour démontrer l’hypothèse inverse. Dans cette situation, conclure à l’équivalence est une démarche tautologique. Les données servant à la démonstration sont celles qui ont fait générer l’hypothèse. De plus rien n’assure qu’un essai de supériorité répond au critère de qualité de l’essai d’équivalence et que le comparateur soit adéquat. Ces restrictions méthodologiques sont prises en compte dans la discussion, mais néanmoins la conclusion de GUSTO 3, bien que prudente, suggère fortement l’équivalence.

Cette approche peut être utilisée avec le bénéfice absolu (la différence des risques) ou le bénéfice relatif (risque relatif). Bien que fréquemment utilisée jusqu’à présent, la différence absolue ne tient pas compte du risque de base. Une différence absolue limite fixée à 1% a priori sur l’hypothèse que le risque de base est de 10% correspond à un risque relatif limite de 10%. Si l’essai inclut des patients à faible risque conduisant à un risque de base de 5%, la même limite absolue de 1% correspond alors à un risque relatif limite de 20%. La tendance actuelle est d’utiliser préférentiellement le risque relatif. 5.3 Calcul du seuil En suivant les principes énoncés précédemment, le calcul du seuil se déroule de la façon suivante.

Considérons un essai de non infériorité sur la mortalité du traitement N par rapport au traitement A, dans lequel on souhaite conserver 75% de l’efficacité de A (ainsi l’éventuelle perte d’efficacité acceptable avec N ne doit pas être supérieure à 25% de l’efficacité de A).

En premier il convient de connaitre l’efficacité de A par rapport à son propre contrôle. Ici A a été évalué par rapport au placebo. La méta-analyse des essais de A versus placebo donne comme estimation une différence de risque de -4% avec un intervalle de confiance à 95% entre -2% et -6%. La plus petite efficacité « garantie » avec A est donc une réduction absolue des décès de 2% (borne péjorative de l’intervalle de confiance). Le seuil de non infériorité, correspondant à la préservation de 75% de cette efficacité, s’obtient par 2%*(1-75%) = +0.5%. En effet, 75% de l’efficacité « garantie » de A correspond à une différence absolue de -2%*75%=-1.5%. L’augmentation acceptée de mortalité par rapport à A est donc de -2%-(-1.5%) = +0.5%. Pour être considérer comme non inférieur il convient de pouvoir écarter que le nouveau traitement N puisse entrainer une augmentation absolue de plus de 0.5% de la mortalité. La borne péjorative de l’intervalle de confiance de la comparaison N vs A devra donc être inférieure à +0.5%.

Bien que simple, le raisonnement en différence absolue doit être éviter. En effet, l’acceptabilité d’un seuil en différence absolue dépend du risque de départ. Par exemple dans l’essai A versus placebo les risques étaient respectivement de 4% et 8%. Par rapport au risque obtenu sous A (10%) le seuil calculé précédemment correspond à une augmentation relative acceptée de 0.5%/4%=12.5%. Si dans l’essai de non infériorité on obtient un risque sous A de 2% (ce qui assez fréquent car l’essai de non infériorité se déroule quelques années plus tard que l’essai A versus placebo, chez des patients qui bénéficient d’autres avancées thérapeutiques concourant à diminuer encore d’avantage leur risque). Dans cette situation, le seuil de +0.5% représente une augmentation relative de 0.5/2=25%, soit le double ! Pour éviter cette situation, il convient de raisonner directement en risque relatif, ce qui garantira la même augmentation relative consentie quelque soit le risque obtenu avec A dans l’essai de non infériorité. Pour l’efficacité de A par rapport au placebo, la méta-analyse donne un risque relatif de 0.85 avec une borne supérieure de l’intervalle de confiance à 95% à 0.92. L’efficacité « garantie » de A par rapport au placebo est donc une réduction relative de risque (RRR) de 8%. Préserver 75% de cette efficacité correspond à une RRR de 75%*8%=6%. Cette RRR de 6% correspond à un risque relatif de 0.94. Le risque relatif seuil est donc 0.94/0.92=1.022. 6 Méthodologie Le but de la méthodologie est d’éviter les biais. Les biais encourus par la recherche de l’équivalence ou de la non-infériorité sont différents de ceux qui peuvent survenir dans les essais de supériorité. La méthodologie doit donc être adaptée et elle diffère des principes classiques de l’essai de supériorité. La conclusion d’un essai de non-infériorité peut être biaisée si l’efficacité développée par le traitement de référence a été moindre que ce qu’elle aurait du être. Dans ce cas, un nouveau traitement pourtant nettement moins efficace que le traitement de référence apparaîtra à tort équivalent. Le traitement intrinsèquement le plus efficace a été ramené au niveau du moins efficace. Tableau 2 – Liste des biais possibles 1) L’efficacité du traitement de référence est altérée a) Le traitement de référence n’est pas administré correctement : dose trop faible ou trop forte, durée du traitement trop courte, etc. b) Le traitement de référence est administré à des patients chez lesquels il est moins ou pas efficace c) Le traitement de référence n’est pas le meilleur traitement possible (problème d’interprétation plus que biais) d) Le traitement de référence est facilement arrêté pour effet indésirables 2) L’efficacité du nouveau traitement est renforcée par des traitements concomitants La méthodologie de l’essai de non-infériorité doit donc veiller à ce que le traitement de référence développe correctement toute son efficacité (administration correcte) et que l’estimation de son effet reflète bien sa véritable efficacité (sensibilité et spécificité correctes de la mesure du critère). La confirmation de l’absence d’un biais à ce niveau pourrait être obtenue en incluant dans l’essai un bras placebo pour s’assurer que l’efficacité du traitement de référence est bien celle attendue. Cependant, l’emploi d’un placebo dans une situation où il existe un traitement de référence est rarement possible. Une validation externe est nécessaire. L’utilisation de traitements concomitants peut aussi entraîner un biais. Si une forte proportion des patients des deux groupes reçoit des traitements concomitants efficaces, l’efficacité observée sera identique dans les deux groupes. Mais il ne s’agira pas de l’efficacité propre des traitements testés mais celle des traitements concomitants. Une équivalence sera observée même si le nouveau traitement est moins efficace. Dans l’essai de non infériorité, l’analyse en intention de traiter favorise l’hypothèse testée. Par contre, l’analyse per-protocole est conservatrice. Dans un essai de non-infériorité, l’analyse en intention de traité est moins à l’abri de biais que l’analyse per-protocole. Plusieurs composantes de l’analyse en intention de traiter sont susceptibles de réduire la mesure de l’efficacité des traitements dans les deux groupes et en particulier celle du traitement de référence. La différence entre les groupes tend donc à diminuer, ce qui, dans le cas de l’essai d’équivalence, favorise l’hypothèse testée. Il en résulte donc un biais. Contrairement à l’essai de supériorité, l’analyse potentiellement la moins biaisée dans l’essai de non-infériorité est l’analyse en per-protocole où seuls les patients traités en stricte conformité avec le protocole sont maintenus dans l’analyse. En pratique, une conclusion sûre n’est possible que lorsque les analyses en intention de traiter et per-protocole donnent des résultats similaires.

L’analyse en intention de traiter évalue l’équivalence des stratégies thérapeutiques. L’analyse per-protocole évalue l’équivalence des traitements à l’intérieur des stratégies thérapeutiques. Tableau 3 – Situations introduisant un biais vers l’absence d’effet à travers l’analyse en intention de traiter. En fait, toutes ces situations conduisent aux mêmes conséquences : la dilution et la convergence des effets. Situations Effet sur la différence entre les deux groupes Patients qui n’ont pas reçu le traitement alloué Égalisation des traitements reçus dans les 2 groupes Arrêt prématuré du traitement de l’étude Déviation au protocole, administration de traitement concomitant interdit Le groupe du traitement testé reçoit des traitements aussi efficaces que le traitement de référence Patients inclus à tort Patients ne pouvant pas répondre au traitement car insensibles aux différences de traitement reçu entre les 2 groupes Prise en compte des perdus de vue comme des valeurs manquantes Dilution et convergence des effets des traitements

Par exemple, si le nouveau traitement est inférieur, le recours aux traitements concomitants pour échec du traitement testé sera plus fréquent dans le groupe du nouveau traitement que dans celui du traitement de référence. L’efficacité du nouveau traitement sera renforcée par celle des autres traitements et il pourra apparaître équivalent dans une analyse en intention de traiter. Par contre, dans une analyse per-protocole où les patients qui ont arrêté précocement le traitement testé ont été exclus, l’insuffisance d’efficacité du nouveau traitement apparaîtra. Au total, l’essai de non-infériorité est extrêmement sensible à sa qualité méthodologique. Un fort taux de perdus de vue, d’écarts au protocole ou d’arrêts prématurés des traitements risque d’égaliser l’efficacité dans les deux groupes et de biaiser le résultat.

5. Bibliographie

1. Blackwelder WC. "Proving the null hypothesis" in clinical trials. Controlled Clinical Trials 1982;3:345-53. PMID: 2. Jones B, Jarvis P, Lewis JA, Ebbutt AF. Trials to assess equivalence: the importance of rigorous methods. BMJ 1996;313:36-9. PMID: 3. Makuch R, Johnson M. Issues in planning and interpreting active control equivalence studies. J Clin Epidemiol 1989;42:503-11. PMID: 4. Koopman MM, Prandoni P, Piovella F, Ockelford PA, Brandjes DP, van der Meer J, et al. Treatment of venous thrombosis with intravenous unfractionated heparin administered in the hospital as compared with subcutaneous low- molecular-weight heparin administered at home. The Tasman Study Group. NEJM 1996;334(11):682-7. PMID: 5. The Continuous Infusion versus Double-bolus Administration of Alteplase (COBALT) Investigators. A comparison of continuous infusion of alteplase with double-bolus administration for acute myocardial infarction. NEJM 1997;337:1124-30. PMID: 6. The Global Use of Strategies to Open Occluded Coronary (GUSTO 3) Investigators. A comparison of reteplase with alteplase for acute myocardial infraction. NEJM 1997;337:1118-23. PMID:



previous next