× ATTENTION - Ce site est un prototype proposé uniquement comme démonstrateur du concept. Ce document est un brouillon inachevé présent uniquement pour tester la cohérence technique du prototype. Merci de votre compréhension.

La procédure séquentielle hiérarchique

La procédure séquentielle hiérarchique est une méthode qui permet de faire simultanément plusieurs tests statistiques sans inflation du risque alpha. Elle permet donc de conclure sur plusieurs critères de jugement simultanément (comme si il devenait possible d’avoir plusieurs critères de jugement principaux simultanément).

Cette méthode peut aussi être utilisée avec les sous groupes (et permet alors de démontrer l’effet du traitement sur plusieurs populations de patients) ou un mixte critères de jugement et sous groupes.

1. la multiplicité

Dans un essai thérapeutique, utiliser plusieurs critères de jugement « principaux » sur lesquels on cherche à démontrer l’effet du traitement pose des problèmes de multiplicité des comparaisons statistiques et d’inflation du risque alpha de fausses découvertes.

Plusieurs solutions ont été proposées comme l’ajustement du seuil de signification pour chaque test réalisée par une méthode comme Bonferroni, Hockberg, etc. Mais récemment plusieurs essais ont utilisé une autre approche : des tests séquentiels hiérarchisés (« closed tests », « hierarchical sequential testing » en anglais).

Le principe de cette méthode est simple. Les critères de jugement sont hiérarchisés a priori (le premier, le second, etc..) dans le protocole. Ensuite lors de l’analyse de l’essai, les critères sont envisagés les uns après les autres, séquentiellement, en suivant la hiérarchie pré établie. Il sera possible de conclure à une démonstration de l’effet pour tous les premiers critères statistiquement significatif au seuil habituel (5%) jusqu’au premier non significatif. Aucun ajustement du seuil de signification n'est effectué. L’intérêt de cette approche est de pouvoir éventuellement (en fonction des résultats obtenus ) conclure à la démonstration de l’effet simultanément sur plusieurs critères à partir d’un seul essai et cela sans inflation du risque alpha. De ce fait cette méthode rencontre un vif succès depuis sa « consécration » en 2002 par le guideline européen sur la multiplicité (points to consider on multiplicity issues in clinical trials, CPMP/EWP/908/99)

2. Justification de la méthode

Cette méthode permet un contrôle de l’inflation du risque alpha de la manière suivante.

Classiquement l’inflation du risque alpha est évitée dans un essai clinique par l’utilisation d’un critère de jugement principal défini a priori. Seul une conclusion sur ce critère est possible, les autres résultats obtenus sur les autres critères (critères secondaires) ont seulement une valeur exploratoire (ou explicative en cas de résultat concluant sur le critère principal) et ne permettent pas de justifier une utilisation ou une AMM. Les résultats sur les critères secondaires suggèrent des effets et ne les démontrent pas. Seul dans cette approche le résultat sur le critère principal est susceptible d’apporte une démonstration formelle de l’effet du traitement. En effet, un essai clinique a pour finalité de permettre de décider, en se basant sur les faits, si le traitement évalué à un intérêt ou non (et ainsi s’il doit être mis sur le marché et recommandé pour la pratique). Dans cet exercice, on ne souhaite pas courir un risque de faire cette conclusion et recommandation à tort (risque de considérer que le traitement apporte un bénéfice sous hypothèse nulle) supérieur à certain niveau, qui classiquement est de l’ordre de 2.5% pour un essai (car la conclusion est unilatérale et les tests à 5% bilatéraux) et plus faible sur un dossier d’enregistrement où l’on demande classiquement au moins 2 essais concluants.

Pour que ce risque de conclusion à tort reste au niveau voulu, disons pour simplifier 5% il est nécessaire de n’examiner qu’un seul et unique test statistique. En effet, s’il devient possible de conclure à l’intérêt du traitement à partir de la réalisation de plusieurs tests, le risque de conclure à tort à l’intérêt du traitement n’est plus de 5% mais il est bien plus important car chaque test envisagé apporte un risque de 5% qu’il soit significatif par hasard. Ainsi sous l’hypothèse nulle (le traitement n’apporte aucun bénéfice sur aucun plan) si on examine 100 critères de jugement indépendants, 5 seront significatifs (c’est le reflet du risque alpha consentie de 5%). Pour éviter cela, la décision de reconnaître un intérêt au traitement évalué se base sur un seul et unique test statistique, choisi a priori indépendamment des résultats : celui du critère de jugement principal. Ainsi l’approche du critère de jugement principal permet de contrôler parfaitement le risque de recommander (mettre sur le marché) un traitement qui en réalité n’apporte aucun bénéfice aux patients. Mais cette approche ne contrôle pas le risque de reconnaître à tort d’autre avantage à ce traitement.

Souvent lorsque le critère de jugement principal est significatif, on scrute les critères de jugement secondaires à la recherche d’effets supplémentaires du traitement qui permettraient ainsi de dire que ce traitement présente d’autres avantages que son effet sur le critère principale (par exemple, une réduction de la mortalité totale en plus de la réduction des évènements cardiovasculaire). Aucune précaution statistique n’est en générale mise en œuvre, ce qui conduit à faire de la pêche à la ligne et à courir un risque de fausse découverte important.

Prenons l’exemple d’un traitement qui n’a aucun autre effet que son effet sur le critère principal, plus on scrute de critères de jugement secondaires (où par hypothèse on a un risque de 5% d’avoir un résultat significatif) plus la probabilité de découvrir à tort un autre avantage du traitement augmente.

Souvent cette analyse des critères de jugement secondaires débouche sur la mise en concurrence de 2 ou plusieurs traitements ayant le même effet primaire pour voir si l’un ne se distinguerait pas en ayant un autre avantage que n’auraient pas les autres. Cette approche n’a souvent pas plus de valeur que de faire cette recherche de facteurs discriminants à l’aide de la « roue de la fortune » !

Le principal intérêt de l’approche séquentiel hiérarchique est de parfaitement contrôler le risque de fausse découverte dans cette recherche d’autres avantages.

En effet au niveau du premier critère testé, tout ce passe comme avec l’approche du critère principal. La prise de risque sur la reconnaissance à tort d'un intérêt au traitement est parfaitement contrôlé (limité à 5% pour faire simple). Si ce test est non significatif, tout s’arrête et ce traitement ne sera jamais, sur la base de cet essai, considéré comme utile.

Si ce test est significatif, se pose alors la question de l'existence d’au moins un autre bénéfice supplémentaire. Comme le critère a utilisé pour faire cette recherche d’intérêt complémentaire est pré fixé, aucune pêche à la ligne n’est effectuée. L’hypothèse que le traitement a un premier (au moins un) avantage supplémentaire est testée avec un risque de fausse découverte parfaitement contrôlé de 5%. Si ce test est significatif on peut conclure que l’on a démontré que le traitement avait un intérêt (1er test) et qu’il a aussi un avantage supplémentaire (le 2 test). En faisant cette conclusion on coure un risque parfaitement maîtrisé de recommander à tort, dans l’absolu, l’utilisation de ce traitement (le 1er test) et aussi de promouvoir à tort ce traitement en disant qu’il apporte un bénéfice supplémentaire alors qu’en réalité il n’apporte que le bénéfice obtenu sur le 1er critère.

Et ainsi de suite... Avec un traitement qui a démontré son bénéfice primaire et un premier bénéfice supplémentaire, se pose alors la question de savoir s’il n’aurait pas un second bénéfice supplémentaire.

Pour éviter une pêche à la ligne sur tous les critères secondaires restant, la méthode séquentielle hiérarchique a parfaitement défini le critère unique qui devait être examiné pour chercher ce second avantage supplémentaire et ainsi il n’y a pas d’inflation du risque alpha sur cette recherche. Et ainsi de suite jusqu’à la fin de la hiérarchie ou jusqu’au premier test non significatif. Aucune conclusion n’est alors possible en-deçà de ce 1er test non significatif, même en cas de résultat statistiquement significatif.

Jusqu’à présent nous avons présenté cette démarche qu’avec des critères de jugement mais elle peut mélanger au sein de sa hiérarchie des critères, des sous-groupes et des sous hypothèses sans problème. Par exemple le 1er test de la hiérarchie peut être de chercher à conclure à la non infériorité sur un certain critère, le 2ème étant alors de chercher à conclure à la supériorité sur ce même critère, le 3eme de démontrer la supériorité sur ce critère spécifiquement dans un sous-groupe de patients de grand intérêt, etc…

3. Intérêt pratique de la méthode

L’intérêt de cette méthode est évident. Elle apporte la possibilité de faire plusieurs démonstrations statistiques à partir d’un seul essai. En particulier elle est la seule méthode simple actuellement disponible permettant de démontrer les avantages supplémentaires des traitements et ainsi d’identifier leur éventuel facteurs de différenciation.

Mais paradoxalement, cet avantage n’apparaît pas évident actuellement car on avait pris, jusque à maintenant, la mauvaise habitude d’arriver aux mêmes conclusions à partir de l’analyse « pêche à la ligne » des critères de jugement secondaires et même parfois des sous-groupes.

Ainsi on a maintenant plusieurs exemples de molécules concurrentes dont l’une a été étudiée à l’aide d’une approche séquentielle hiérarchique et l’autre avec une approche classique "critères principale/critères secondaires" et qui proclament avoir chacune leurs avantages supplémentaires. Dans cette situation il ne devrait être considéré, en toute rigueur, que les avantages supplémentaires obtenus par la méthode séquentielle hiérarchique.

4. Annexe - Illustration par dénombrement du principe des tests séquentiels hiérarchiques

La finalité première d’un essai est de répondre à la question : le traitement évalué présente-t-il un intérêt thérapeutique cliniquement pertinent quelconque ?

On cherche à répondre à cette question en limitant au maximum le risque de conclure à tort du fait uniquement du hasard.

Pour comprendre cette problématique de l’inflation du risque alpha liée à la multiplicité des tests statistiques il faut se mettre sous l’hypothèse nulle d’un traitement sans aucune efficacité sur aucun critère.

On peut aussi visualiser le risque alpha comme étant la proportion d’essai conduisant à une reconnaissance d’un intérêt du traitement parmi un grand nombre d’essais tous identiques réalisés (disons 100 pour simplifier les calculs).

Si dans ces essais on ne prend aucune mesure contre cette inflation (pas de critère principal) et que l’on envisage sur le même pied d’égalité 3 critères de jugement tous cliniquement pertinent (avec un seuil de signification de 5%), le nombre d’essais donnant un argument (un résultat significatif) pour déclarer l’intérêt du traitement est le suivant :

Au niveau du premier critère envisagé, parmi les 100 essais réalisés, 5% soit 5 déboucheront sur un test significatif (à tort).

Pour les 95 essais sans résultat significatif sur ce 1er critère, on envisage le deuxième critère et on aura 5% de 95 soit 4.75 « essais » concluant sur ce critère, reste 90.25 « essais » non concluant

Et au final sur ces 90.25 essais, 5% seront concluant sur le 3 critère envisagée soit 4.51 essais.

Au total sur ces 100, le nombre d’essais donnant un argument pour conclure à l’intérêt du traitement (sur un quelconque de ces 3 critères) est de 5+4.75+4.51=14.26 alors que l’on aurait voulu ne pas avoir plus de 5% d’essai entraînant une conclusion à tort (notre seuil d’erreur choisi a priori). Ce phénomène est l’inflation du risque alpha liée à la multiplicité des tests.

En ne décidant de l’intérêt du traitement que sur le 1er test, on, aura que 5% d’essais concluant à tort (ce que l’on recherche).

Maintenant étudions avec la même approche, la problématique de la recherche d’un premier avantage supplémentaire (parmi 2 critères supplémentaires par rapport au critère utilisé pour la recherche de l’intérêt initial du traitement). Le raisonnement comme précédemment s’effectuera sous l’hypothèse nulle que le traitement a un intérêt initial et aucun effet supplémentaire.

Du fait que l’on cherche le bénéfice supplémentaire, cela veut dire que l’on a démontré l’intérêt initial du traitement. On est donc dans une situation on l’on utilise 100 essais significatif sur leur critère principal (ou le 1er de la hiérarchie d’une méthode séquentielle hiérarchique)

Avec l’approche basée sur les critères secondaires n’utilisant pas de précaution contre l’inflation du risque alpha, on aura 5 résultats significatifs lors de l’analyse du 1er critère secondaire et 4.75 lors de l’analyse du second, soit au total 9.75 résultats significatif pour proclamer à tort un avantage supplémentaire (alors que le risque consentie était seulement de 5%).Il y a donc inflation du risque alpha sur la recherche de l’avantage supplémentaire.

Avec l’approche hiérarchique séquentielle, on n’aura que 5 résultats permettant de conclure à tort à la présence d’un avantage supplémentaire (ceux liées au risque alpha du test du 2ème critère de la hiérarchie) ce qui correspond parfaitement au risque consentie. Il n’y a pas contrairement à l’analyse des critères de jugement secondaire d’inflation et cette approche conduit donc à des démonstrations statistiques du même niveau que celle obtenue classiquement sur un critère de jugement principal.



previous next