La puissance dépend de plusieurs paramètres

Détermination du nombre de sujets nécessaires

Principe

Méthode de calcul du nombre de sujets nécessaires

Conséquences

Annexe : formules mathématiques

Transposition au cas de l’essai de non infériorité

Puissance a posteriori

Lecture critique

Différence non significative

Critères continus

Références

PDF

× ATTENTION - Ce site est un prototype proposé uniquement comme démonstrateur du concept. Ce document est un brouillon inachevé présent uniquement pour tester la cohérence technique du prototype. Merci de votre compréhension.

Risque beta

1. Définition

La puissance statistique d’un essai thérapeutique mesure son aptitude à mettre en évidence l’effet d’un traitement si celui-ci existe. La puissance statistique d'un essai clinique est son aptitude (en termes de probabilité) d'obtenir un résultat statistiquement significatif si le traitement est réellement efficace. La puissance est égale à 1-??où ?? est le risque de deuxième espèce, celui de ne pas mettre en évidence un effet qui existe pourtant. Le risque ?? est la probabilité d'obtenir un faux résultat négatif (ne pas mettre en évidence l'efficacité d'un traitement qui existe pourtant). La puissance est donc la probabilité d'obtenir un vrai résultat positif (mettre en évidence l'efficacité d'un traitement). Un essai suffisamment puissant a une forte probabilité d'obtenir un résultat significatif si le traitement a l’efficacité escomptée. Un essai insuffisamment puissant a une faible probabilité de mettre en évidence l'effet du traitement qui existe pourtant. La puissance est similaire au pouvoir grossissant d'un microscope (Figure 1). Un grossissement suffisant est nécessaire pour montrer que deux points très proches l'un de l'autre, mais cependant séparés, sont distincts. Avec un grossissement insuffisant, ces deux points paraissent ne faire qu'un. Plus la distance entre les 2 points est petite, plus le pouvoir grossissant devra être élevé pour visualiser 2 points distincts. Il en est de même avec la recherche d'une différence entre deux groupes. Une puissance statistique suffisante est nécessaire pour montrer qu'il existe effectivement une différence entre les 2 groupes. Plus la différence entre les 2 groupes est petite, plus il faudra de puissance statistique pour montrer que les 2 groupes sont différents.

Figure 1 – Illustration de l’analogie entre puissance et pouvoir grossissant du microscope

2. La puissance dépend de plusieurs paramètres

La puissance statistique d'un essai utilisant un critère de jugement binaire dépend de plusieurs paramètres : la taille de l'effet à mettre en évidence, le nombre de sujets, le risque de base (risque sans traitement) et le risque d'erreur statistique alpha consenti. La taille de l'effet à mettre en évidence est le paramètre qui conditionne en premier la puissance d'un essai. Plus l'effet du traitement est faible, plus il "faut de la puissance" statistique pour le mettre en évidence. Un même essai sera d'autant moins puissant que l'effet qu'il recherche est petit (figure 1). Ce paramètre n'est pas contrôlable par l'investigateur, c'est une caractéristique du traitement étudié, en quelque sorte sa "puissance pharmacologique" (ou "thérapeutique").

Figure 2 – Relation entre la puissance et la taille de l'effet (pour un effectif par groupe de 1000 patients et un risque de base de 10%). Plus le risque relatif est proche de 1, moins le traitement est efficace. La puissance dépend aussi du nombre de sujets inclus dans l'essai. Plus le nombre de patients est important plus l'essai est puissant (figure 2). L'effectif de l'essai est le paramètre sur lequel l'investigateur peut le plus directement agir pour contrôler la puissance de son essai. En particulier lorsque l'effet recherché est petit, il est nécessaire d'inclure un grand nombre de patients. Par contre un effectif plus faible est suffisant pour mettre en évidence des effets conséquents.

Figure 3 – Relation entre la puissance et le nombre de sujets par groupe (pour un risque de base de 10% et un risque relatif de 0,8). La fréquence de base des événements (le risque de base) est un autre paramètre qui conditionne la puissance d'un essai. Il faut plus de puissance pour mettre en évidence un même effet sur un événement rare que sur un événement fréquent. Il faut donc plus de patients à faible risque que de patients à haut risque pour mettre en évidence un effet . Le risque de base est un paramètre sur lequel l'investigateur peut partiellement agir. En recrutant des patients à haut risque il se met dans une situation où il sera plus facile de mettre en évidence un effet.

Figure 4 – Relation entre la puissance et le risque de base (pour un effectif par groupe de 1000 patients et un risque relatif de 0,8). En dernier, la puissance dépend du risque alpha choisi. Risque alpha et puissance varient en sens inverse. Ainsi adopter un risque alpha inférieur à 5% nécessite plus de patients, ce qui explique pourquoi cela est rarement fait. Lorsque le critère de jugement est continu, la variance du critère remplace la fréquence de base. Plus la variabilité entre sujet du critère de jugement est faible, plus la puissance est importante. Ainsi un même essai sera d'autant plus puissant que la variabilité du critère de jugement est faible. Pour maximiser la puissance de l'essai, il convient donc de réduire au maximum la variabilité des valeurs, en utilisant, par exemple, des groupes très homogènes de patients et en réduisant les erreurs de mesure, par exemple, en ayant recours à un laboratoire centralisé. Un essai utilisant le patient comme son propre témoin nécessite en général moins de patients qu'un essai en bras parallèles car la variabilité intra-sujet est inférieure (ou égale) à la variabilité inter-sujet.

La puissance d'un essai augmente avec : • le nombre de patients inclus • l'importance de l'effet recherché • la fréquence sans traitement de l'événement

3. Puissance et intervalle de confiance

La largeur de l'intervalle de confiance reflète la puissance statistique de l'essai : plus la puissance statistique est élevée, plus l'intervalle de confiance est étroit. Ainsi, à vrai risque relatif et à risque de base constant, la largeur de l'intervalle de confiance dépend du nombre de sujets : plus l'effectif est important, plus l'intervalle de confiance est étroit. La précision de l'estimation de l'effet traitement est inversement proportionnelle à la largeur de l'intervalle de confiance. Donc plus la taille d'un essai est importante, plus il estime avec précision l'effet traitement. Avec le risque relatif, un résultat est statistiquement significatif à partir du moment où l'intervalle de confiance ne contient pas la valeur 1 (marquant l'absence d'effet). Ainsi pour qu'un résultat soit statistiquement significatif, la largeur de l'intervalle de confiance doit donc être d'autant plus petite que le risque relatif est proche de 1 (figure 5). Comme la largeur de l'intervalle de confiance est directement liée au nombre de patients, il devient clair qu'un plus grand effectif est nécessaire pour mettre en évidence un petit effet qu'un effet plus important.

Figure 5 – Avec un traitement peu efficace (1), un résultat significatif est obtenu avec une largeur d'intervalle de confiance plus petite qu'avec un traitement très efficace (2).

4. Détermination du nombre de sujets nécessaires

4.1. Principe

Un nombre de sujets adapté à la taille de l’effet à mettre en évidence garantit à un essai une puissance suffisante. Un essai peu puissant n'a généralement pas d'intérêt car il a peu de chance de mettre en évidence l'effet du traitement. Il représente donc un investissement non rentable. Afin de ne pas réaliser des essais sans intérêt, il convient de leur assurer une puissance statistique suffisante. Cela est fait en calculant a priori l’effectif nécessaire. En effet, dans un contexte donné (taille de l'effet recherché et fréquence de base de l'événement), la puissance ne dépend plus que du nombre de sujets. Ce nombre de sujets est déterminé a priori afin de garantir la puissance statistique de l'essai. Des formules et des logiciels existent pour faire ce calcul. Ces formules nécessitent de connaître ou de faire des hypothèses sur les paramètres conditionnant la puissance : risque de base, taille de l'effet à mettre en évidence, risque alpha (en général 5%) et puissance souhaitée (en général 90%). En fait le calcul d'un nombre de sujets ne garantit pas à 100% que l'essai aura la puissance nécessaire. Tout dépend de l'exactitude des hypothèses faites pour son calcul. Un effet traitement qui s'avère en réalité plus petit que celui initialement prévu fait que l'essai devient insuffisamment puissant. De même si le risque des patients effectivement inclus dans l'essai est inférieur à l'hypothèse utilisée pour le calcul, l'essai n'a plus la puissance nécessaire. La difficulté du calcul du nombre de sujets est dans l'estimation a priori de ces paramètres. En particulier, la taille de l'effet du traitement est souvent difficile à déterminer. Le traitement entraîne-t-il une réduction de fréquence du critère de jugement de 10%, 15% ou bien 20% ? Une solution consiste à prendre un effet relativement faible, en disant que si en réalité le véritable effet est encore plus petit, il sera sans intérêt en pratique, et donc, dans ces conditions, il n'est pas dramatique de ne pas pouvoir le mettre en évidence. Plus l'effet recherché est petit, plus le nombre de sujets nécessaires est important. Il faut bien plus de patients pour comparer deux traitements actifs que pour comparer un traitement actif contre placebo. Lorsque les patients du groupe contrôle reçoivent déjà un traitement actif, la taille de l’effet est le risque de base sont plus petits. La mise en évidence du bénéfice apporté par la thrombolyse à la phase aiguë de l’infarctus du myocarde a nécessité entre 11806 patients (GISSI (1)) et 17187 patients (ISIS-2 (2)) lorsque le comparateur était le placebo. Par contre, lorsqu'il a été nécessaire de comparer les fibrinolytiques entre eux, un nombre plus considérable de patients a été nécessaire : GUSTO-1 41 021 patients (3), ISIS-3 41 299 patients (4). Contre placebo, la streptokinase entraîne une réduction relative de mortalité à 30 j de -23%. Mais lorsque la streptokinase est utilisée comme comparateur, la réduction supplémentaire de mortalité apportée par d'autres fibrinolytiques est bien plus faible, -10% pour l'alteplase par exemple. La mortalité sous placebo est de 12% (ISIS 2) mais s'abaisse à 7,2% sous streptokinase (GUSTO-1). Plus l'événement critère de jugement est rare, plus le nombre de sujets nécessaires est important. D'un point de vue purement statistique, il semblerait donc avantageux de sélectionner soigneusement les patients recrutés afin qu'ils soient le plus à risque possible. Cette pratique a cependant pour principal inconvénient "d'hyper sélectionner" les patients et de rendre la population de l'essai non représentative de la population des patients tout venant. De plus, des critères sélectifs rendent les patients recherchés rares et augmentent la durée de recrutement.

Le nombre de sujets nécessaires augmente quand : • la taille de l'effet à mettre en évidence diminue • la fréquence de base de l'événement diminue

4.2. Méthode de calcul du nombre de sujets nécessaires

Le raisonnement détaillé du calcul du nombre de sujets nécessaires est le suivant.

D’une manière générale, la largeur de l’intervalle de confiance dépend du nombre de sujets. Plus l’effectif est important plus l’intervalle est étroit (Figure 6). Par exemple avec la moyenne la borne supérieure bs d’un intervalle de confiance (de la moyenne) est

où s désigne l’écart type, et la moyenne. Ces 2 paramètres étant constant, la borne supérieure est d’autant plus éloignée de que n est petit.

Figure 6 – Influence du nombre de sujets sur la largeur de l’intervalle de confiance illustrée ici avec la différence des risques (mais cette relation est universelle et se retrouve avec tous les indices d’efficacités) Il y a une relation entre signification statistique et intervalle de confiance : quand l’intervalle de confiance inclus la valeur de l’absence d’effet (0 avec la différence des risques ou la différence des moyennes, 1 avec le risque relatif) le test n’est pas statistiquement significatif. Par contre quand l’intervalle exclu cette valeur de l’absence d’effet, le test est significatif (à un seuil de signification égal à 1-le degré de confiance de l’intervalle, 5% pour un intervalle de confiance à 95%).

Dans la suite nous allons illustrer le propos en utilisant comme indice d’efficacité la différence des risques, mais tout le raisonnement s’applique aussi au risque relatif, à la différence de moyennes, etc. Ainsi pour atteindre la signification statistique, il convient que la borne supérieure de la différence de risque soit juste inférieure à zéro. Le but du calcul de l’effectif est de déterminer le nombre de sujets n qui donne un intervalle de confiance de largeur telle que la borne supérieure soit juste inférieure à zéro (bs<0). Sans rentrer dans le détail calculatoire, il est possible de dériver une formule qui donne n en fonction de la valeur de la borne supérieure (le lecteur avide de formules mathématiques trouvera celles-ci en annexe).

En plus de l’effectif n, la valeur de la borne supérieure dépend de la valeur Vobs de la différence de risque qui sera observée dans l’essai. Cette valeur reflète la vraie efficacité du traitement mais elle est soumise aux fluctuations aléatoires d’échantillonnage. Par hasard, la valeur observée dans l’essai peut surestimer ou sous-estimer la vraie valeur. En fait, Vobs fluctue autour de la vraie valeur V avec une certaine distribution comme cela est illustré Figure 7.

Figure 7 – Distribution des valeurs observée autour de la vraie valeur V. Les valeurs observées dans l’essai fluctuent autour de la vraie valeur de l’efficacité du traitement V. Par hasard, certains essais peuvent surestimer l’efficacité (Vobs>V) d’autre la sous estimer (Vobs < V). Les valeurs très éloignées de V sont moins probables que les valeurs proches de V.

Ces fluctuations influencent le calcul du nombre de sujets nécessaires. En effet, plus la valeur observée est importante (proche de zéro), plus il faudra un intervalle de confiance étroit pour atteindre la signification statistique. Comme a priori on ne sait pas qu’elle valeur sera observée dans l’essai (cela dépend du hasard), l’idée est de calculer l’effectif pour une valeur particulièrement défavorable de Vobs, que l’on estime peu probable. Cette valeur de référence du calcul est notée Vref. Ainsi dans la réalité, on aura de forte chance que la valeur effectivement observée soit inférieure à celle choisie pour le calcul, et le test sera donc forcément statistiquement significatif.

Figure 8 – Le calcul du nombre de sujet est fait pour une valeur particulière de Vobs, notée Vref, que l’on estime peu probable. On calcul donc n de telle façon que la largeur de l’intervalle de confiance pour cette valeur de référence donne une borne supérieure juste inférieure à 0, donc un test juste significatif (p<0.05 pour un intervalle de confiance à 95%). Ainsi le résultat sera statistiquement significatif lorsque l’essai par hasard sous estimera la vraie efficacité du traitement jusqu’à une sous estimation de Vref. Si par hasard la valeur observée tombe au dessus de cette valeur de référence Vref, le résultat obtenu ne sera pas significatif (Figure 9). On se retrouve alors dans une situation où l’efficacité du traitement n’est pas mise en évidence (test non significatif) alors que le traitement est efficace (par construction V est non nul). Cette situation est donc celle du risque statistique de 2ème espèce beta.

Figure 9 – Situation où la valeur observée tombe au-delà de la valeur de référence (Vref) ayant servie au calcul du nombre de sujets nécessaires (cf. figure précédente), conduisant ainsi à un résultat non statistiquement significatif.

Vref sera donc déterminé à partir de la vraie valeur de telle façon qu’il y ai qu’une probabilité beta que la valeur observée soit supérieure à Vref et donc que le résultat ne soit pas significatif. La puissance est alors égale à . Vref est donc égal au (1-beta)ème percentile de la distribution considérée et sa valeur est déterminée à partir d’une table ou d’un logiciel. Par exemple, pour une distribution normale centrée sur zéro et d’écart type égale à 1, le 80ème percentile est égal à 0,84. Le 97,5ème est égal à 1,96. Au total pour faire ce calcul d’effectif il faut disposer d’une valeur pour la vraie efficacité V, de la distribution des valeurs observées autour de V (c'est-à-dire connaître la variabilité des valeurs observées, donc l’écart type ou la variance), et fixer un risque bêta consenti (et un risque alpha). V, l’écart type de V et bêta permettent de calculer Vref. Puis on calcul l’effectif n nécessaire pour que la borne supérieure de l’intervalle de confiance autour de Vref soit juste inférieure à zéro.

4.2.1. Conséquences

Il apparait ainsi que la puissance est un paramètre de protection contre les sous estimations du vrai effet traitement liées aux fluctuations aléatoires. Une puissance élevée permet de conclure même en cas de sous estimation importante de l’efficacité. L’essai montre alors une faible efficacité du traitement débouchant sur un résultat peu cliniquement pertinent. Pour cette raison il est inutile de rechercher une puissance démesurée car ce surcroît de protection coûte cher en nombre de patients et, s’il s’avère nécessaire, débouche sur un résultat peu favorable au traitement. En général une puissance de 80% est raisonnable. Lorsqu’un essai à une puissance inférieure à 80% il peut bien évidement obtenir un résultat significatif. Il sera seulement « moins à l’abri » des sous-estimations induites par le hasard. Avec une puissance de 50%, l’essai ne sera significatif que si l’essai estime correctement ou surestime l’effet du traitement. Apparaît ici un point important de l’interprétation des essais significatifs de faible puissance : il risque fort de donner une image trop optimiste de l’efficacité du traitement.

4.2.2. Annexe : formules mathématiques

Le développement mathématique permettant d’obtenir les formules de calcul de l’effectif est donné à titre documentaire. En pratique, les calculs s’effectuent avec des logiciels que l’on trouve maintenant sur Internet (comme MfCalc à l’adresse www.spc.univ-lyon1.fr/mfcalc ). D’une manière générale, les bornes bi et bs d’un intervalle de confiance d’un indice d’efficacité quelconque g s’obtiennent par

où g est la valeur observée du paramètre d’intérêt et SE(g) son erreur standard, Zalpha/2 étant la valeur du ème percentile de la distribution normale. Par exemple pour alpha=5%, Zalpha/2=1,96. Le paramètre g peut être une différence de moyenne, une différence de risque, un risque relatif, un odds ratio, etc.

En adoptant les notations de la figure ci-dessus, la valeur de référence du calcul g’ s’obtient par

La borne supérieure de l’intervalle de confiance autour de g’ est

qui peut s’écrire

en posant . C'est-à-dire

L’effectif n=n1+n0 que l’on cherche à calculer est contenu dans l’expression de s. n1 désigne l’effectif du groupe traité et n0 celui du groupe contrôle. • Pour une différence de moyenne SE(g) est

avec et qui désignent respectivement les écarts types inter sujets des groupes traité et contrôle. • Pour une différence de risque, SE(g) est

où p1 et p0 représente les fréquences observées de l’événement dans des groupes traité et contrôle. • pour un risque relatif on prend comme paramètre g le logarithme du risque relatif

où x1 et x0 représente le nombre d’événements observés dans les groupes traité et contrôle.

En général, on souhaite que les effectifs des groupes soient identiques ce qui revient à écrire n1=n0=n. 2n désignant alors l’effectif total de l’essai (des 2 groupes). Le calcul de l’effectif revient donc à solutionner l’expression donnant bs pour n

Par exemple pour le risque relatif cela revient à résoudre pour n l’équation :

ce qu’un logiciel fait très bien !

4.2.3. Transposition au cas de l’essai de non infériorité

Le même raisonnement s’applique à l’essai de non infériorité avec comme seule différence le fait que l’on cherche plus à ce que la borne supérieure de l’intervalle de confiance soit inférieure à zéro (effet nul) mais qu’elle soit inférieure à delta (la limite de non infériorité, c'est-à-dire la plus grande perte d’efficacités acceptable).

5. Puissance a posteriori

Une puissance a posteriori est parfois calculée à partir des résultats de l’essai. L’idée est éventuellement de conclure à l’absence l’effet s’il s’avère que la puissance était malgré tout forte. Ce calcul s’avère délicat. En effet il est tentant de faire le calcul de puissance en utilisant comme estimation du risque de base et de l’effet du traitement les valeurs observées dans l’essai. Pour le risque de base cela est assez logique et permet d’affiner les hypothèses initiales du calcul du NSN. Par contre, prendre comme hypothèse pour l’effet du traitement la valeur observée n’a pas grand sens. En effet, faire cela conduit forcément à une puissance inférieure ou égale à 50% comme le montre la Figure 10. Il est donc inutile de faire le calcul étant donné que ce que l’on recherche (montrer que la puissance était forte) est forcément inatteignable. En pratique, le seul calcul digne d’intérêt que l’on peut faire a posteriori est de déterminer l’effectif d’un nouvel essai que l’on pourrait éventuellement envisager en réactualisant les hypothèses avec les valeurs observées. L’hypothèse faite sur le vrai effet traitement pourra conserver la valeur utilisée pour le précédent essai ou la modifier en tenant compte du résultat de l’essai.

L’essai réalisé est non significatif (figure du haut). g est le vrai effet traitement utilisé pour le calcul a priori du NSN. g’ est la valeur de l’effet traitement observé, qui est non significatif comme le témoigne l’intervalle de confiance qui inclut la valeur 0.

Pour le calcul de la puissance a posteriori (figure du bas), si l’on prend comme nouveau vrai effet traitement la valeur observée g’, la distribution des valeurs observée se centre sur g’ (flèche 1). Dans ce cas, la puissance de l’essai se visualise en repositionnant la borne supérieure de l’IC sur zéro (flèche 2). Le centre de l’IC permet de visualiser la puissance qui par construction est forcément inférieure à 50%.

Au mieux, si le résultat observé est juste non significatif (p=0.05), cad la borne supérieure de l’intervalle de confiance est égale à 0, la puissance est de 50%. Figure 10 – Illustration du fait que la puissance a posteriori est inférieure ou égale à 50% si l’on prend comme hypothèse pour le vrai effet traitement la valeur observée dans l’essai.

6. Lecture critique

En lecture critique, les problèmes de puissance perdent un peu de leur importance. En effet, lorsque l’on est devant un résultat significatif, la puissance est un paramètre secondaire. Même si l’étude n’avait pas une puissance jugée comme satisfaisante, le résultat est ce qu’il est, et un manque de puissance ne peut suffire à le récuser. L’essai avait certes une probabilité modérée de mettre en évidence l’effet du traitement, mais il l’a mis en évidence et à partir de ce moment le résultat significatif a la même valeur que s’il avait été obtenu avec un essai de très forte puissance, avec cependant quelques réserves située sur un autre plan.

Si l’essai est de très petite taille dans un domaine où les patients ne sont pas rares, il est alors possible de suspecter que de nombreux essais de cette taille ont été réalisés et que l’essai que l’on est en train d’analyser est celui qui, par hasard (risque alpha), à donner une différence significative. Il ne peut donc pas constituer une preuve formelle de l’existence de l’efficacité. Il s’agit ici d’un problème de biais de publication.

Un essai de très faible puissance (moins de 50%) significatif surestime forcément l’efficacité du traitement et incite à un excès d’optimisme quant à l’efficacité du traitement. Il existe de nombreux exemples où les essais précoces de petite taille (comme des phases II ou IIb) ont donnés des résultats très encourageant non confirmés par les essais de grande taille ultérieur.

Une autre réserve est de nature Bayesienne. La probabilité d’existence de l’effet du traitement après un résultat significatif mais de faible puissance est inférieure à celle obtenue après un essai significatif de forte puissance (cf. section parallèle entre tests diagnostiques et tests statistiques et présentation des risques statistiques comme des taux de filtration).

Par contre, la présence des hypothèses du calcul du nombre de sujets nécessaires est indispensable pour vérifier que l’essai a été à son terme et qu’il n’a pas été arrêté prématurément lors de la réalisation d’analyses intermédiaires « sauvages », c'est-à-dire non protégées contre l’inflation du risque alpha (cf. section sur la répétition des comparaisons statistiques). En effet, si l’effectif initialement visé n’est pas indiqué, il est impossible d’exclure cette possibilité. L’essai a pu être analysé régulièrement au fur et à mesure du recrutement des sujets jusqu’à l’obtention d’une différence statistiquement significative. Le risque alpha n’est plus contrôlé dans ce cas et il est impossible de connaître la réalité statistique du résultat obtenu. Par contre, si l’effectif calculé a priori est mentionnée dans la publication, il est facile de vérifier que l’essai a été à son terme et que l’analyse présentée correspond bien à celle initialement prévue.

Encart : Relation entre puissance et probabilité d’obtenir un résultat faux positif Un résultat faux positif est un résultat d’essai statistiquement significatif obtenu avec un traitement sans effet. La probabilité qu’un résultat significatif ne soit en fait qu’un faux positif est d’autant plus élevé que la puissance de l’étude est faible. De ce fait, un résultat pourtant significatif d’un essai de faible puissance doit être pris avec beaucoup de précaution.

La probabilité d’obtenir un faux positif dépende de la puissance de l’essai (cf. section parallèle entre tests diagnostiques et tests statistiques et la section présentation des risques statistiques comme des taux de filtration). En effet il est possible de démontrer que la probabilité d’obtenir un faux positif est égale à : où W est la puissance de l’étude, ?? est le risque alpha et ?? la probabilité a priori que le traitement soit efficace. La figure suivante illustre l’évolution de la probabilité de faux positifs en fonction de la puissance pour une probabilité a priori de 50%.

7. Différence non significative

Un résultat non significatif ne permet pas de conclure car il peut correspondre à deux situations différentes qui sont impossibles à départager avec certitude (figure 4). Une différence non significative peut être le reflet d'une réelle absence d'effet du traitement mais peut aussi provenir d'un manque de puissance de l'essai qui n'a pas été en mesure de mettre en évidence une différence qui existe pourtant. Un résultat non statistiquement significatif ne signifie pas que le traitement est sans effet : "L’absence de preuve n’est pas la preuve de l’absence". Devant un résultat non significatif, il n’est pas possible de conclure à l’absence d'effet. La démonstration de l'absence d'effet demande bien plus qu'une simple différence non significative et se base sur un outil spécifique, l'essai d'équivalence.

Figure 11 – Signification d’une différence non significative. Ce point met en évidence l'importance de la puissance statistique d'un essai. Si celle-ci est insuffisante, l'essai ne pourra pas conclure et il n'aura servi à rien. Étant donné le coût, financier et en énergie, d'un essai, il convient de minimiser au maximum le risque de réaliser un essai insuffisamment puissant. En pratique, il est donc nécessaire d'assurer a priori une puissance suffisante à un essai.

8. Critères continus

Avec les critères continus la puissance dépend des paramètres suivants : • La différence entre les moyennes, c’est-à-dire la taille de l’effet traitement. Plus l’effet traitement est important, plus la différence entre les moyennes des deux groupes sera large. À nombre de patients identiques, plus cet effet sera important plus l’essai sera puissant. • La variance des mesures : plus les mesures sont variables, moins l’essai est puissant à nombre de sujets constant. En effet, une variabilité importante des mesures entraîne à son tour une variabilité importante de l’estimation des moyennes. • Le nombre de patients : la puissance augmente avec le nombre de sujets car la précision d’estimation d’une moyenne augmente avec la taille des échantillons. Plus le nombre de sujets est important, plus les moyennes sont connues avec précision et donc plus il est facile de montrer qu’elles sont différentes (si c’est effectivement le cas). • Et naturellement le risque alpha consenti.

Corollairement, le nombre de sujets nécessaire avec un critère continu dépend : • Du risque alpha consenti et de la puissance recherchée. • De la taille de l’effet traitement à mettre en évidence qui conditionne l’importance de la différence entre les moyennes. Plus l’effet est important moins il faudra de patients pour obtenir une différence significative. • De la variabilité des mesures. Plus la variabilité du critère entre les unités statistiques est importante, plus il faut de patients pour estimer avec une bonne précision les moyennes, donc pour montrer qu’elles sont différentes. En fait, il s’avère que ce qui conditionne le nombre de sujets est la taille de la différence à mettre en évidence rapportée à la variabilité du critère. Quelle que soit la valeur des moyennes il faut le même nombre de patients pour mettre en évidence une différence de 1 écart type.

9. Références

1. GISSI (Gruppo Italiano per lo Studio della Streptochinasi nell'Infarto miocardico). Effectiveness of intravenous thrombolytic treatment in acute myocardial infarction. Lancet 1986;i:397-401. 2. ISIS-2 (Second International Study of Infarct Survival) Collaborative Group. Randomised trial of intravenous streptokinase, oral aspirin, both, or neither, among 17187 cases of suspected acute myocardial infarction. Lancet 1988;2:349-360. 3. The GUSTO Investigators. An international randomized trial comparing four thrombolytic strategies for acute myocardial infarction. NEJM 1993;329:673-682. 4. ISIS-3 (Third International Study of Infarct Survival) Collaborative Group. ISIS-3: A randomized trial of streptokinase vs tissue plasminogen activator vs anistreplase and of aspirin plus heparin vs aspirin alone among 41299 cases of suspected acute myocardial infraction. Lancet 1992;339:753-770.