Les échelles et scores

Accueil > Sommaire > Les échelles et scores

 

Les échelles (« scale ») et les scores permettent de mesurer l’intensité d’un phénomène clinique comme une gêne fonctionnelle, l’intensité d’un symptôme, l’extension d’une maladie, son stade évolutif, etc. Les échelles et les scores (la distinction terminologique entre échelles et scores n’est pas universelle. Les scores sont très souvent appelés échelles ) sont très prisés en médecine car ils permettent de quantifier numériquement des phénomènes qui ne se caractérisent pas par une dimension physique.

1       Les échelles

Les échelles sont obtenues en découpant en différents stades (que l’on appelle aussi classe, grade, etc.) le continuum de gravité de la maladie étudiée. Chaque classe est caractérisée par un chiffre ou un adverbe matérialisant la relation d’ordre existant entre ces classes. Par exemple, une échelle de mesure de l’intensité d’une douleur peut-être : 0 : absente, 1 : modérée, 2 : importante, 3 : insoutenable.

Le résultat d’une échelle n’est pas assimilable à une variable continue lorsque le nombre de valeurs possibles est faible. Le recours aux outils statistiques spécifiques aux variables continues (moyenne, test de comparaison de moyennes) pose un certain nombre de problèmes. En réalité, il s’agit d’une variable qualitative ordinale dont l’analyse repose sur la description de la répartition des valeurs et sur des comparaisons à l’aide du test du chi-2. Cette remarque peut aussi concerner les scores.

Tableau 6 – Exemples d’échelles

Intensité d’un symptôme

·                 Stade NYHA de dyspnée

·                 Souffle cardiaque gradé de 0 à 6

Gravité

·                 Stade de gravité de l’asthme (bénin, moyen, sévère, aggravé)

·                 Stade d’encéphalopathie hépatique (I,II,III,IV)

 

Échelle de Rankin : handicap après AVC

0 =       Absence de symptômes

1 =       Symptômes mineurs sans retentissement sur la vie quotidienne

2 =       Symptôme ou handicap mineur qui conduit à certaines restrictions dans le mode de vie, mais qui n’interfère pas avec la capacité du patient à se prendre en charge

3 =       Handicap modéré qui restreint significativement le mode de vie et/ou empêche une existence totalement indépendante

4 =       Handicap modérément sévère qui empêche clairement une existence indépendante bien que nécessitant pas une attention constante

5 =       Handicap sévère entraînant une dépendance totale et nécessitant une attention jour et nuit

2       Les scores

Les scores permettent de mesurer des phénomènes multidimensionnels. Le score se calcule en cotant un certain nombre d’items analysant les différentes composantes du processus étudié puis en faisant la somme des note attribuées afin d’obtenir un score global. le but du score est de refléter en un seul nombre la totalité des dimensions envisagées.

Par exemple le score d’Apgar qui évalue la gravité des troubles respiratoires et neurologiques à la naissance d’après certains signes cliniques. Les nombres de points correspondants à chaque critère sont additionnés en un score global. Plus le score est bas, plus l’état du nourrisson est préoccupant.

Tableau 7 – Calcul du score d’Apgar

Critères

Nombre de points

0

1

2

Couleur

Cyanosée ou pale

Corps rose, extrémités bleues

Complètement rose

Rythme cardiaque

Absent

<100

>100

Respiration

Absente

Irrégulière, lente

Bonne,
cri vigoureux

Réponse réflexe au cathéter nasal

Sans

Grimace

Éternuement, toux

Tonus musculaire

Hypotonique

Légère flexion des extrémités

Actif et tonique

 

Le plus souvent ces scores ont été établis à partir d’études pronostiques. Les items du score sont en fait les facteurs retrouvés associés avec le pronostique et le nombre de points de chaque item est une pondération proportionnelle à son importance dans le pronostic. Ce sont donc en fait des outils simplifiés de prédiction du risque d’évolution favorable (décès, survenue d’une complication, etc.)

 

 

 

 

Score de Barthel : évaluation du handicap après AVC

 

Avec aide

Indépendant

1.Alimentation (si les aliments  doivent être coupés = aide)

1

2

2.Déplacement de la chaise roulante au lit et retour

1-2

3

3.Toilette personnelle

0

1

4.Aller et revenir des toilettes

1

2

5.Se baigner seul

0

1

6.Marche sur un sol plat

2

3

7.Monter ou descendre des escaliers

1

2

8.Habillage (comprenant laçage des chaussures, boutonnage)

1

2

9.Continence anale

1

2

10.Continence vésicale

1

2

Total

_____

_____

 

Ce score prend des valeurs entre 0 et 20. Chaque item se noie dans les autres et une même valeur de score peut être obtenue avec des altérations fonctionnelles différentes. L’aspect multidimensionnel du handicap disparaît. À la fin, un changement de score de 1 n’a plus de signification clinique précise.

L’analyse statistique des scores repose souvent sur la comparaison des scores moyens de chaque groupe (moyenne des scores de chaque patient). En général, les distributions ne sont pas symétriques et il est plus adapté de comparer les médianes.

3       Problème d’interprétation des scores et des échelles

À coté des questions de qualité métrologique des échelles et des scores (reproductibilité, exactitude, homogénéité) que nous n’aborderons pas ici, les scores et les échelles posent différents problèmes d’interprétation.

La comparaison s’effectue en calculant le score moyen dans chaque groupe (cf. Figure 8). La moyenne est susceptible de prendre des valeurs que ne prennent pas les scores ou les échelles elles mêmes. Par exemple, des valeurs fractionnaires comme 5,68 ou 4,2 alors le score ne prend que des valeurs entières entre 1 et 10. Le patient moyen est donc affublé d’un score qui n’existe pas. Ainsi que signifie une différence de 0,9 points de l’échelle de handicap ? L’utilisation de la médiane pour décrire la position centrale de la population sur l’échelle ou sur le score ne conduit pas à ce problème.

Un autre point est la proportionnalité de la métrique. Est-ce qu’un changement de 1 point représente la même modification dans le phénomène étudié quel que soit le niveau de départ. En d’autres termes, le score mesure-t-il, par le même changement de valeur, un même effet chez des sujets de valeurs initiales différentes.

Figure 8 – Exemple de résultats obtenus avec des scores (UPDRS3, Barthell, UPDRS 2) ou une échelle visuelle analogique (Pain VAS, Schwab and England scale).

 

Exemples

Exemple 1 - L’essai MAST-E comparait la streptokinase au placebo dans le traitement des accidents vasculaires cérébraux. Un des critères de jugement était la mesure du niveau de handicap à l’aide du score de Barthel. Six mois après l’AVC, la moyenne (± erreur standard) de ce score était 13,0±0,7 dans le groupe placebo et de 14,8±0,6 dans le groupe streptokinase. La différence est à la limite de la signification statistique : p=0,06. Étant donnée la construction du score de Barthel, la signification clinique d’une différence de 1,8 points n’est pas simple à appréhender et il n’est pas aisé de dire si cet effet représente une véritable amélioration de l’état des patients.

 

Exemple 2 - Retour sur l’exemple des inhibiteurs de la phosphodiestérase

L’exemple des agents inotropes inhibiteurs de la phosphodiestérase présenté précédement procure aussi l’occasion de discuter des problèmes d’interprétation de la pertinence clinique d’un effet observé sur une échelle de score et de sa confrontation à un effet sur un critère clinique.

La question qui se pose est de savoir si l’amélioration de la qualité de vie ou de la symptomatologie est suffisamment importante pour éventuellement rendre acceptable un surcroît de mortalité. Avant d’envisager le problème éthique d’une réduction des chances de survie sous prétexte d’une amélioration fonctionnelle, il convient de pouvoir confronter la pertinence clinique des tailles des effets obtenus respectivement sur la mortalité et sur les signes fonctionnels.

Ce n’est pas parce qu’il y a détection d’un effet statistiquement significatif sur la qualité de vie (Avec les critères de jugement continus, des effets de petite taille ne peuvent s’avérer statistiquement significatifs, en particulier si la variabilité est faible. Il peut donc y avoir une dissociation forte entre signification statistique et pertinence clinique), que celui-ci est notable et intéressant pour les patients, et suffisamment important pour constituer une amélioration substantielle pouvant éventuellement justifier l’acceptation d’une surmortalité. Par exemple, dans l’essai vesnarinone 1, les effets étaient recherchés sur le changement médian du score de qualité de vie entre l’entrée dans l’essai et le moment de la mesure. Numériquement l’effet était faible. Initialement le score médian étaient de 56 points. A 8 semaines, le score de qualité de vie (« Minnesota Living with Heart Failure Questionnaire ») s’améliorait de 7 points dans le groupe vesnarinone 60mg contre une amélioration médiane de seulement 5 points dans le groupe placebo. Du fait de l’effectif important cette différence était hautement significative (p<0,001) mais il convient de s’interroger sur la pertinence clinique d’un tel effet qui ne représente qu’un surcroît d’amélioration de 2 points sur un échelle allant de 0 à 105.

En d’autres termes, la surmortalité observée représente-t-elle un coût acceptable en regard du bénéfice obtenu sur les symptômes. Il est crucial dans cette situation de pouvoir traduire en terme clinique (évaluer la pertinence clinique) la différence de score de qualité de vie en des termes qui la rende comparable à la surmortalité. Une binarisation du score en utilisant un seuil exigeant est l’un de ces moyens.

1       Bibliographie

1. Cohn JNG, S.O. A dose-dependant increase in mortality with vesnarinone among patient with severe heart failure. Vesnarinone Trial Investigators. NEJM 1998;339:1810-6.

 

 

 

 

 

Interprétation des essais cliniques pour la pratique médicale

www.spc.univ-lyon1.fr/polycop

Michel Cucherat

Faculté de Médecine Lyon - Laennec

Mis à jour : aout 2009