La principale implication du risque alpha dans l’essai thérapeutique est de garantir une relative solidité à la conclusion sur l’effet du traitement en écartant raisonnablement le risque d’une conclusion erronée du fait d’une erreur de 1er espèce. Le test permet de limiter le risque alpha à un niveau choisi (en général 5%)
Lorsque plusieurs tests statistiques sont réalisés simultanément pour chercher à répondre à la question de l’efficacité du traitement, le risque global d’erreur de première espèce s’accroît. La répétition à chaque test du risque d’obtenir un résultat significatif par hasard augmente le risque global de conclure à tort à l’efficacité du traitement. C’est par exemple le cas si l’on a la possibilité de conclure que le traitement est efficace a l’issu d’un premier test portant sur un premier critère de jugement mais aussi lors d’un deuxième sur un autre critère de jugement ou bien lors d’un troisième, etc. In fine, le risque alpha global de conclure à tort à l’efficacité à l’issu de cet essai n’est plus de 5% (même si c’est le seuil retenu pour chaque test) mais il est bien supérieure (tableau 1).
Nombre de tests (seuil <=5) | Risque global d’erreur |
---|---|
1 | 5 |
2 | 10 |
10 | 40 |
50 | 92 |
k | 1-0.95 k |
Il y a inflation du risque alpha. Aux dés, la probabilité d’obtenir un six est plus importante avec le lancer de 3 dés qu’avec un seul dé (figure 1). Avec un risque alpha à 5%, la réalisation de 100 tests indépendants produits en moyenne 5 résultats statistiquement significatifs.
$figure inflationRisqueAlpha/fig1.png L’inflation du risque alpha en cas de répétition des tests statistiques
Mathématiquement on montre qu’à l’issu de k tests réalisés avec un seuil de signification alpha, le risque global d’erreur .
Le problème de l’inflation du risque alpha survient lorsque l’on s’autorise à conclure à partir du moment où au moins un test est significatif. Par contre, si on exige que les k tests soient significatifs simultanément pour conclure, il n’y a pas inflation du risque alpha, mais au contraire une diminution du risque alpha global. En effet avec 2 tests significatifs à 5%, le risque alpha global descend à 5% * 5% = 2,5‰.
En lecture il convient d’être particulièrement attentif au problème de l’inflation du risque alpha. En effet, une situation de multiplicité des comparaisons enlève presque toute valeur à un résultat statistiquement significatif 1,2 puisqu’il est possible, en répétant les tests, d’obtenir un p<0.05 avec n’importe quel traitement, même sans effet. Un résultat significatif obtenu dans un contexte où il est impossible de savoir le nombre de tests réalisés au total n’apporte aucune preuve statistique : « les données ont été torturées jusqu’à ce qu’elles avouent ! ». Les anglo-saxons parlent de « data dredging ».
Cette problématique des comparaisons multiples est présente dans l’essai thérapeutique à plusieurs niveaux :
Comme cela est abordé dans les chapitres suivants plusieurs méthodes ont été proposées pour éviter l’inflation du risque alpha lorsque plusieurs comparaisons statistiques sont nécessaires.
La méthode la plus simple est celle de Bonferoni 3 appelée aussi méthode de Bonferroni-Holm. Elle consiste à réaliser les tests avec un seuil de signification plus petit que 5% et de choisir cette valeur de telle sorte qu’après inflation due aux comparaisons multiples, le niveau global atteint soit de 5%. Les tests sont donc réalisés avec un seuil de où k désigne le nombre de comparaisons effectuées. Justification de la méthode de Bonferroni Après k tests, le risque alpha global est . Quand alpha est petit, donc . En prenant comme seuil de chaque test , le risque global est maintenu approximativement à alpha étant donné que l’inflation liée à k tests revient approximativement à multiplier par k le risque consenti au niveau de chaque test. La consultation du Tableau 1 montre que cette approximation est assez grossière mais fonctionne parfaitement bien par exemple pour k=2. La méthode de Bonferroni est donc à réserver aux situations où le nombre de tests réalisés est petit.
D’autres méthode de contrôle de l’inflation du risque existent comme la méthode de Dunn-Sidak qui utilise comme seuil de signification pour les tests . Le Table 1 compare les valeurs obtenues par la méthode de Dunn-Sidak avec celles données par la méthode de Bonferroni. Ces 2 méthodes donnent des valeurs très proches.
k | Dunn-Sidak | Bonferroni |
---|---|---|
1 | 5.00 | 5.00 |
2 | 2.53 | 2.50 |
3 | 1.70 | 1.67 |
4 | 1.27 | 1.25 |
5 | 1.02 | 1.00 |
10 | 0.51 | 0.50 |
20 | 0.26 | 0.25 |
Une autre façon de générer la multiplicité des comparaisons au niveau d’un ensemble de critère de jugement est de suivre une procédure de tests hiérarchisés (« hierarchical test procedure », « closed test procedure ») 4. Cette procédure consiste à hiérarchiser, a priori, dans le protocole de l’étude, les comparaisons multiples qui seront réalisées (sous groupes ou des critères de jugement par exemple). Ensuite il est possible de conclure pour toutes les comparaisons pour lesquels la signification statistique est obtenue jusqu’à la première non significative (en descendant dans l’ordre préétabli par la hiérarchie). Cette procédure permet ainsi de conclure simultanément sur plusieurs comparaisons.
wikipedia multiple comparisons
wikipedia familywise error rate
Blog On Biostatistics and Clinical trials
1. Lord SJ, Gebski VJ, Keech AC. Multiple analyses in clinical trials: sound science or data dredging? Med J Aust 2004;181(8):452-4.
2. Huque MF, Sankoh AJ. A reviewer's perspective on multiple endpoint issues in clinical trials. J Biopharm Stat 1997;7(4):545-64.
3. Bland JM, Altman DG. Multiple significance tests: the Bonferroni method. Bmj 1995;310(6973):170.
4. James J. Chen S-JW. Testing for Treatment Effects on Subsets of Endpoints. Biometrical Journal 2002;44(5):541-557.
previous | next |