Analyse en sous-groupes dans un essai non concluant
Analyse en sous-groupes dans un essai concluant
Recherche de conclusion dans les sous groupes
Sous études issues des analyses en sous groupes
Bénéfice absolu / bénéfice relatif dans les sous groupes
Exemples de résultats de sous groupe non confirmés par la suite
Shrinkage dans les sous groupes
http:
www.medscape.com/viewarticle/844002?src=rss sur-interprettaion sous groupe et critère
Des analyses en sous-groupes (« by sub-groups analysis ») sont fréquemment réalisées en complément de l’analyse principale d’un essai thérapeutique. Bien que ces analyses présentent un réel intérêt dans la recherche de facteurs modifiant l’effet du traitement, elles ne permettent pas de conclure [1, 2]. En effet, leurs résultats sont de nature exploratoire et sont exposés aux risques des comparaisons statistiques multiples. Ainsi, les analyses en sous-groupes ne génèrent que des nouvelles hypothèses qui devront être confirmées par de nouveaux essais.
Une analyse en sous groupes consiste à rechercher l’effet du traitement dans une sous-population des patients d’un essai. Une analyse en sous-groupes consiste à subdiviser la population d’un essai thérapeutique en deux ou plusieurs sous-groupes à l'aide d'une variable stratifiante et à étudier l’efficacité du traitement dans chacun de ces sous-groupes.
Le but est de rechercher une interaction entre l’effet du traitement et une ou plusieurs variables (cf. infra).
Par exemple, une analyse en sous-groupes suivant le sexe revient à mesurer séparément l’effet du traitement chez les hommes et chez les femmes. Une analyse suivant l’âge entraîne souvent la division de la population en plusieurs sous-groupes et en autant d’estimations de l’effet du traitement.
En général, plusieurs analyses en sous-groupes sont réalisables en fonction de différentes variables (tableau 1 et Figure 1) : le sexe, l’âge, le poids, le stade de la maladie, les antécédents, les traitements concomitants, etc.
L’objectif recherché par ces analyses en sous-groupes est différent suivant le résultat de l’essai : résultat concluant (basé sur une différence statistiquement significative) ou résultat non concluant (absence de différence statistiquement significative).
Dans un essai qui n’a pas montré de différence statistiquement significative, le but des analyses en sous-groupes est de rechercher le ou les sous-groupes dans lesquels existerait un effet du traitement statistiquement significatif. L’idée est de dire que l’effet du traitement n’existe pas chez tous les types de patients mais seulement chez certains d’entre eux. Le mélange de patients qui bénéficient du traitement avec d’autres n’en bénéficiant pas, conduit, au niveau de l’essai, à une dilution de l’effet et à l’absence de différence significative (tableau 1). L’analyse en sous-groupes pourrait permettre de trouver les patients chez lesquels le traitement « marche ».
Sous-groupe | Effet du traitement (risque relatif) | p |
---|---|---|
Essai en entier | 0,92 | NS |
Age<75 | 0,92 | NS |
Age>75 | 0,95 | NS |
Hommes | 0,92 | NS |
Femmes | 0,99 | NS |
Antécédents d'infarctus | 0,87 | NS |
Pas d'antécédents d'infarctus | 1,03 | NS |
Diabétiques | 0,78 | p<0,01 |
Non diabétiques | 1,09 | NS |
Le résultat d’une analyse en sous-groupes est de nature exploratoire. En fait, les analyses en sous-groupes se heurtent à plusieurs difficultés méthodologiques qui ne permettent pas de déboucher sur des conclusions sûres : répétitions des tests statistiques, démarche exploratoire, inflation du risque beta, et perte de puissance. Les analyses en sous-groupes font courir le risque d’une inflation non contrôlée du risque d’erreur statistique.
La réalisation de plusieurs tests statistiques avant de conclure à l’effet du traitement augmente le risque de faire cette conclusion à tort. En effet, cette conclusion sera faite dès qu’un des tests sera significatif. On prend donc un risque d’erreur de 5% au premier test, puis encore 5% au second, etc. À l’issue de tous les tests, le risque d’erreur alpha est bien supérieur à 5%. Avec 5 critères indépendants, la probabilité de trouver au moins une différence significative à tort est de 23% (cf. chapitre Les risques d’erreur statistiques). La multiplication des tests statistiques (un par sous-groupe) augmente la probabilité d'obtenir un test significatif uniquement par hasard. Un résultat de sous-groupe significatif est toujours suspect car il est impossible de savoir si ce test révèle l’effet réel ou s'il s'agit simplement d'un artefact lié à la répétition des tests. Un résultat significatif obtenu dans ces conditions fait courir un risque d’erreur dans la conclusion bien supérieur aux 5% habituellement consentis. De plus, rien ne permet d’être sûr que les patients recevant le traitement ou le contrôle sont comparables à l’intérieur des sous groupes. En fait, dans cette situation, les analyses en sous-groupes ne sont pas totalement dénuées d’intérêt. Elles génèrent de nouvelles hypothèses, qui seront vérifiées dans de nouveaux essais de confirmation. Cependant il est fréquent que ces hypothèses ne se vérifient pas quand elles sont testées de façon indépendante dans une étude ad-hoc [3].
Exemple - Exemple 1
L’essai Suvimax {ref} a évalué l’impact d’un apport supplémentaire en vitamines et minéraux antioxydants (bêta-carotène, vitamines E et C, zinc et sélénium), à doses nutritionnelles, dans la prévention des cancers et des maladies cardiovasculaires. Le résultat mis en avant est une réduction de l’incidence des cancers uniquement chez les hommes. Ce résultat est issu d’une analyse en sous groupe. En effet, le protocole {ref} ne prévoit aucune stratification de l’essai sur le sexe (le nombre de sujets est calculé pour l’ensemble de l’essai). Aucun sous groupe n’est pré spécifié. Ce sous groupe est donc issu d’une analyse post hoc. De plus, aucun critère de jugement principal unique n’a été défini. Ainsi ce résultat a été obtenu dans un contexte de forte inflation du risque alpha (en ne considérant pas l’analyse post hoc, le résultat mis en avant est issu de 9 tests statistiques).
Exemple - Greffe neurone Parkinson
Un essai randomisé en double aveugle contre placebo a évalué la greffe de cellules embryonnaires dans la maladie de Parkinson sévère [6].
“ The primary outcome was a subjective global rating of the change in the severity of disease, scored on a scale of -3.0 to 3.0 at one year, with negative scores indicating a worsening of symptoms and positive scores an improvement.”
Au niveau des résultats “The mean (+/-SD) scores on the global rating scale for improvement or deterioration at one year were 0.0+/-2.1 in the transplantation group and -0.4+/-1.7 in the sham-surgery group (P=0.62). Among younger patients (60 years old or younger), standardized tests of Parkinson's disease revealed significant improvement in the transplantation group as compared with the sham-surgery group(P=0.01 for scores on the Unified Parkinson's Disease Rating Scale; P=0.006 for the Schwab and England score). There was no significant improvement in older patients in the transplantation group.”
Et c’est le résultat de cette analyse en sous groupe qui est mise en avant dans la conclusion générale de l’étude : “ Human embryonic dopamine-neuron transplants survive in patients with severe Parkinson's disease and result in some clinical benefit in younger but not in older patients”. Cette conclusion est donc abusivement forte pour un résultat reposant uniquement sur une analyse en sous groupe.
Dans un essai concluant (où une différence statistiquement significative a été obtenue) le but des analyses en sous-groupes serait de rechercher ceux dans lesquels le traitement serait le plus efficace et surtout ceux dans lesquels il serait inefficace. L'objectif est de mieux définir la population cible en restreignant éventuellement la diffusion du traitement par rapport à la population qui a été incluse dans l'essai (tableau 2). Comme dans le cas d'un essai non significatif, les analyses en sous-groupes se heurtent à des difficultés méthodologiques qui les empêchent d'aboutir aux conclusions qu'elles recherchent. Il est impossible de conclure qu'un traitement est sans efficacité chez certains patients sous prétexte qu'aucune différence significative n'existe dans ce sous-groupe. L'absence de différence significative ne signifie pas qu'il y a absence d'effet car la puissance de la comparaison au niveau d'un sous-groupe n'est pas assurée. En effet, la taille des sous-groupes est inférieure à la taille nécessaire pour mettre en évidence un effet qui est la taille de l'essai tout entier. La probabilité de ne pas conclure à une différence qui existe pourtant est forte (risque d’erreur statistique de deuxième espèce, erreur bêta). Par exemple, dans l'essai ISIS-2, l'aspirine administrée à la phase aiguë de l'infarctus du myocarde produit une réduction significative très importante de la mortalité à 1 mois. Mais, lors de l'analyse en sous-groupes en fonction des signes astrologiques, l'aspirine apparaît inefficace pour les sujets du signe de la balance ou des gémeaux et plus efficace que la moyenne pour le signe du capricorne [7]. Dans les paradigmes scientifiques actuels, aucune théorie ne permet de penser que ces différences sont réelles !
Sous groupe | Effet du traitement (risque relatif) | p |
---|---|---|
Essai en entier | 0,78 | p<0,05 |
Age<75 | 0,65 | p<0,01 |
Age>75 | 0,90 | NS |
Hommes | 0,76 | p<0,05 |
Femmes | 0,78 | p<0,05 |
Antécédent d'infarctus | 0,97 | NS |
Pas d'antécédent d'infarctus | 0,70 | p<0,01 |
Diabétique | 0,50 | p<0,001 |
Non diabétique | 0,91 | p<0,05 |
De plus, pour conclure qu’il ne convient pas d’utiliser le traitement chez les patients de certains sous-groupes, il faut pouvoir démontrer que l’efficacité dans ce sous-groupe est insuffisante. Une telle démonstration appartient au domaine de la recherche de l’équivalence (ou de la non-infériorité). Les analyses en sous-groupes sont réalisées en dehors de ce contexte, qui exige que l’objectif de l’essai soit la mise en évidence d’une efficacité insuffisante dans ces sous groupes, et la définition a priori de ce qu’est une efficacité insuffisante (définition d’une borne d’efficacité minimale intéressante ou seuil d’équivalence).
En dehors de ces conditions, le résultat d’une analyse en sous-groupes n’est pas opposable au résultat de l’essai tout entier. Il ne peut pas être objecté à un médecin décidant de traiter un patient en se basant sur l’estimation « tous patients confondus » que l’analyse en sous-groupes suggère une efficacité insuffisante pour ce patient. Le niveau de la preuve du résultat du sous-groupe est inférieur à celui du résultat « tous patients confondus ». Lorsqu’un traitement a montré son efficacité dans un essai, le résultat d’un sous-groupe en dehors des conditions énoncées précédemment ne justifie pas l’abstention pour ces patients.
On parle d’interaction quand une covariable influence la taille de l’effet du traitement Il y a interaction quand l’effet d’un traitement varie entre les sous-groupes. Quand le traitement est bénéfique ou délétère dans tous les sous-groupes mais avec une variation de la taille de l’effet, l’interaction est dite quantitative. Par exemple : le traitement A entraîne une réduction relative de risque de 10 % chez les sujets de moins de 65 ans et de 20% chez ceux de plus de 65 ans. On parle alors d’interaction entre l’âge et l’effet traitement. Une interaction qualitative est une interaction où le traitement est bénéfique dans un sous-groupe et délétère dans un autre. Par exemple : le traitement B augmente de 1 an la survie chez les femmes mais la réduit de 6 mois chez les hommes. Seul un test d’interaction significatif permet de conclure que l’effet du traitement est différent entre des sous-groupes : la différence existant entre les sous-groupes est trop large pour pouvoir être expliquer raisonnablement par le seul fait du hasard. Il existe des tests statistiques recherchant les interactions quantitatives [8, 9]. Ces tests recherchent si les différences observées entre les tailles des effets dans les différents sous-groupes peuvent être expliquées par le seul hasard ou non. Lorsqu’ils sont significatifs il n’est plus raisonnable de conclure que les différences observées sont dues au seul fait du hasard. Il est alors possible de conclure que l’effet du traitement varie effectivement entre les sous-groupes. Par contre, la constatation d’un résultat non significatif dans un sous-groupe et d’un résultat significatif dans l’autre ne permet pas de conclure que l’effet du traitement varie. Il se peut que les intervalles de confiances se chevauchent largement. Le raisonnement est le même que celui qui est mis en œuvre pour juger de la discordance de deux résultats (cf. section : validité externe du chapitre : Lecture critique). Le test d’interaction est similaire au test d’hétérogénéité en méta-analyse. La Figure 2 présente la représentation graphique, maintenant standard, des analyses en sous groupes. Pour chaque modalité de sous groupe, l’effet traitement et son intervalle de confiance est représenté. En regard, la valeur de p du test d’interaction est indiqué. Le test d’interaction est un test d’hétérogénéité ou un test de tendance. Le test de tendance est un test d’hétérogénéité qui recherche, non seulement s’il y a une différence d’effet traitement entre les modalités, mais aussi si cette variabilité suit une tendance linéaire en fonction de la valeur de la modalité.
$image: sousGroupe/fig3.png Présentation complète des analyses en sous groupe. Les hazard ratio sont représentés entourés de leur intervalle de confiance à 95% (marques internes) et à 99% (marques externes). L’intervalle de confiance à 99% réalise en quelque sorte un ajustement statistique contre l’inflation du risque alpha (pour 5 comparaisons simultanée suivant la correction de Bonferroni)
Les recherches d’interaction sont elles aussi soumises au problème d’inflation du risque alpha. La réponse à la question « y-a-t’il une situation clinique où l’effet du traitement varie » conduit à une analyse exploratoire et à la réalisation de nombreux tests favorisant l’identification d’une telle situation a tort. Dans un exemple papier pédagogique du Lancet, Peter M Rothwell liste au moins 11 domaines dans lesquels les résultats d’une analyse en sous groupe n’a pas été confirmé par un nouvel essai [3].
Les analyses en sous-groupes décidées après le recueil des données sont des analyses "post-hoc" dont la valeur est purement exploratoire : l'expérience servant au recueil des données a eu un autre objectif que celui de l'analyse en sous groupe ; aucune hypothèse préalable n'a été formulée; aucun calcul de nombre de sujets nécessaires n'a été réalisé pour garantir une puissance suffisante. Le problème méthodologique provient du fait que les analyses « post-hoc » génèrent à la fois l'hypothèse et la vérification de l’hypothèse. Cette situation tautologique ne peut pas être utilisée comme preuve mais seulement pour générer de nouvelles hypothèses. Les analyses exploratoires exposent ainsi au risque d'ériger un artefact en loi. Il convient ainsi de faire la distinction entre les hypothèses formulées a priori (« prior hypothesis » et les hypothèses dérivées des données (« data-derived hypothesis »). Il est souhaitable de ne pas calculer de valeur de p pour les hypothèses non définies a priori car en général ces valeurs de p ne sont pas retrouvées quand l’hypothèse est testée de façon indépendante dans une autre étude [3]. La définition a priori, dans le protocole de l'essai, des analyses en sous-groupes pressenties ne suppriment que partiellement ces réserves méthodologiques. La multiplication des tests persiste.
La situation la plus problématique est représentée par les sous-groupes définis par une variable mesurée après la randomisation et qui est donc potentiellement influencée par le traitement. C’est par exemple le cas du sous-groupe des patients ayant une artère coronaire perméable après randomisation dans un essai de fibrinolytique à la phase aiguë de l’infarctus du myocarde. Chez ces patients, un faible taux de mortalité ne reflète pas seulement l’efficacité du traitement mais aussi le bon pronostic spontané des sujets qui ont une reperfusion spontanée ou un infarctus de petite taille.
Les essais stratifiés répondent de façon fiable à une question de type analyse en sous-groupes. Pour répondre de façon satisfaisante aux questions que l’on se pose dans les analyses en sous-groupes, il est nécessaire de recourir aux essais stratifiés. Ces essais étudient simultanément deux ou plusieurs strates qui sont l’équivalent des sous-groupes. Les réserves méthodologiques des analyses en sous-groupes sont levées grâce aux mesures suivantes :
Ces essais "stratifiés" permettent, par exemple, de tester de façon fiable des hypothèses du type : le traitement est efficace dans le sous groupe 1 et dans le sous groupe 2 ou du type : le traitement est efficace tout groupe confondu et l'effet du traitement est différent entre le sous-groupe1 et le sous-groupe 2 (interaction).
La conclusion pour chaque sous groupe est possible si une méthode statistique de contrôle de l’inflation du risque alpha a été mis en œuvre. Il est aussi possible de faire un véritable essai stratifié. Une méthode possible pour le contrôle de l’inflation du risque alpha est la méthode des tests hiérarchisés.
Exemple
Une procédure de test hiérarchisés a été mis en œuvre dans l’essai TARGET (Lancet 2004; 364: 665–74) pour montrer une meilleure tolérance en terme d’événements cardiovasculaires du lumiracoxib par rapport aux AINS chez des patients souffrant d’une arthrose. La prise simultanée de faible dose d’aspirine pour un problème cardiovasculaire est un élément important de la question posée. L’essai a donc cherché à répondre à cette question pour les 2 populations de patients prenant et ne prenant pas d’aspirine.
“The primary endpoint was analysed with a closed test procedure applying a hierarchical testing process. In the first step, this endpoint was tested in the population of patients not taking low-dose aspirin. If this test was positive the second step was to analyse the endpoint in the overall population. If this test was positive the third and final step was to do the analysis in the population of patients taking low-dose aspirin.”
En pratique, les analyses en sous-groupes sont utilisées pour vérifier s’il y a lieu de suspecter une modification de l’efficacité de l’effet du traitement en fonction des caractéristiques des patients. Cette vérification est utile pour se faire une idée de l’extrapolabilité du résultat. En effet, s’il n’y a pas d’argument pour suspecter une telle variabilité de l’efficacité, le résultat de l’essai est certainement représentatif de l’efficacité du traitement sur une population de patients plus large. Cette analyse ne tient pas compte du degré de signification statistique obtenu pour les modalités des sous groupes mais seulement du test d’interaction. Par exemple dans l’essai dont une partie de l’analyse en sous groupes est représentée Figure 2, il est raisonnable de conclure à une bonne généralisabilité du résultat de l’essai aux hommes et aux femmes, pour tous les âges et quels que soient les antécédents. Par contre pour l’essai dont l’analyse en sous groupe est représentée sur la Figure 4 la situation est tout autre. ValVeFT est un essai comparant le valsartan au placebo dans l’insuffisance cardiaque par dessus la stratégie thérapeutique habituelle comprenant IEC ou bétabloquants [11]. Sur l’ensemble de l’essai “ Valsartan significantly reduces the combined end point of mortality and morbidity and improves clinical signs and symptoms in patients with heart failure, when added to prescribed therapy ”. Cependant, au niveau de l’analyse en sous groupe “the post hoc observation of an adverse effect on mortality and morbidity in the subgroup receiving valsartan, an ACE inhibitor, and a beta-blocker raises concern about the potential safety of this specific combination”. Bien qu’il s’agisse d’un résultat obtenu sur un sous groupe, cette conclusion est raisonnable par application du principe de précaution car l’effet suspecté est sérieux (augmentation de mortalité) et pourrait concerner un nombre important de patients (les bétabloquants sont un traitement standard de l’insuffisance cardiaque). Au niveau réglementaire en Europe ce principe est repris dans le point to consider sur la multiplicité (CPMP/EWP/908/99 http:
www.emea.eu.int/pdfs/human/ewp/090899en.pdf ).
Une analyse en sous groupes peut parfois faire l’objet d’une publication à elle toute seule, par exemple l’analyse chez les diabétiques, chez les femmes, etc. Ces papiers s’intitulent souvent « sub-study » car ces analyses étaient prévues au protocole de l’étude. Les réserves à émettre dans leur interprétation sont identiques à celles listées ci-dessus.
Exemple
The effect of perindopril on cardiovascular morbidity and mortality in patients with diabetes in the EUROPA study: results from the PERSUADE substudy.
AIMS: The aim of this study was to assess the effect of the angiotensin converting enzyme inhibitor perindopril on cardiovascular events in diabetic patients with coronary artery disease. METHODS AND RESULTS: A total of 1502 diabetic patients with known coronary artery disease and without heart failure of 12 218 overall in the EUropean trial on Reduction Of cardiac events with Perindopril in stable coronary Artery (EUROPA) disease were randomized in a double-blinded manner to perindopril 8 mg once daily or placebo. Follow-up was for a median of 4.3 years. The primary end point was cardiovascular death, non-fatal myocardial infarction, and resuscitated cardiac arrest. Perindopril treatment was associated with a non-significant reduction in the primary endpoint in the diabetic population, 12.6 vs. 15.5%, relative risk reduction 19% [(95% CI, -7 to 38%), P=0.13]. This was of similar relative magnitude to the 20% risk reduction observed in the main EUROPA population. CONCLUSION: Perindopril tends to reduce major cardiovascular events in diabetic patients with coronary disease in addition to other preventive treatments and the trend towards reduction was of a similar relative magnitude to that observed the general population with coronary artery disease. D’après l’abstract PubMed de la réf. [12]
L’interprétation des résultats des sous-groupes peut encore être compliquée dans le cas où le sous-groupe pour lequel l’efficacité semble la plus faible est celui où le risque est le plus grand. C’est fréquemment le cas avec l’âge. Dans l’évaluation de l’efficacité de l’alteplase à la phase aigu de l’infarctus du myocarde, l’étude GUSTO [13] débouchent sur les estimations suivantes :
Sous groupe | Bénéfice relatif sur la mortalité à 30j RR (IC95%) | Bénéfice relatif sur la mortalité ou AVC invalidant à 30j RR (IC95%) |
---|---|---|
Age <= 75 | 0,80 (0,71 ;0,90) | 0,83 (0,75 ;0,93) |
Age > 75 | 0,94 (0,82 ;1,07) | 0,94 (0,82 ;1,07) |
Bien que le test d’interaction ne soit pas significatif (p=0.098), il est couramment dit dans les textes cardiologiques que le bénéfice de la perfusion accélérée d’alteplase est plus marquée chez le sujets de moins de 75 ans [111]. Ces résultats sont cependant ceux obtenus en termes de bénéfice relatif (risque relatif). Comme il s’avère que le risque spontané n’est pas le même en fonction de l’âge, il est important de présenter aussi l’effet du traitement sous forme de bénéfice absolu.
sous groupe | mortalité à 30j | aaa | mortalité ou AVC invalidant à 30j | aaa |
---|---|---|---|---|
aaa | Risque spontané (sous SK) | Bénéfice absolu (DR IC95%) | Risque spontané (sous SK) | Bénéfice absolu (RR IC95%) |
Age <= 75 | 5,5% | -1,10% (-1,64% ;-0,64%) | 6,0% | -1,00% (-1,57% ;-0,43%) |
Age > 75 | 20,6% | -1,34% (-4,03% ;+1,36%) | 21,5% | -1,30% (-4,04% ;+1,44%) |
$image: sousGroupe/fig5.png Représentation graphique des résultats obtenus avec les risques relatifs
Les différences d’efficacité observées avec le risque relatif entre les groupes d’âges disparaissent en terme de bénéfice absolu. Chez les personnes de plus de 75 ans, l’efficacité du t-PA est moins importante, mais en raison d’un risque de base plus grand, le bénéfice absolu est de même ampleur que celui obtenu chez les sujets de moins de 75 ans. L’alteplase administrée en perfusion accélérée à la phase aiguë de l’infarctus pourrait sauver autant de vies en traitant 1000 patients de moins de 75 ans qu’en traitant 1000 patients de plus de 75 ans. À partir de ce constat est-il raisonnable de limiter l’utilisation de ce nouveau produit aux seuls patients de moins de 75 ans ?
Paradoxe de Stein
previous | next |