A l’heure de l’Intelligence Artificielle, évaluation des performances prédictives de l’intelligence humaine !

02/02/2018
Auteur(s)
Image
reactu-Intelligence Artificielle
Texte

Discriminative Accuracy of Physician and Nurse Predictions for Survival and Functional Outcomes 6 Months After an ICU Admission.
Detsky ME, Harhay MO, Bayard DF, Delman AM, Buehler AE, Kent SA, Ciuffetelli IV, Cooney E, Gabler NB, Ratcliffe SJ, Mikkelsen ME, Halpern SD.
JAMA. 2017 Jun 6;317(21):2187-2195. doi: 10.1001/jama.2017.4078.

Texte

Question évaluée

Cette étude s’intéresse aux performances prédictives des médecins et des infirmières de réanimation pour prévoir le pronostic vital et fonctionnel des patients à 6 mois après l’admission en réanimation.

Type d’étude

Etude prospective, observationnelle réalisée dans 5 réanimations (3 réanimations médicales et 2 réanimations chirurgicales) de 3 hôpitaux de University of Pennsylvania health System (1).

Population étudiée

Tous les patients de réanimation entre J3 et J6 s’ils avaient reçu plus de 48h de ventilation mécanique et/ou 24h de support par catécholamines. Les patients étaient exclus s’ils étaient hospitalisés moins de 3 jours en réanimation, s’ils étaient pris en charge pour de la neurochirurgie ou de la traumatologie, ou en cas de limitation des soins à court terme.

Méthode

Les prédictions étaient effectuées par l’infirmière en charge du patient et par un médecin prenant en charge le patient depuis au moins 2 jours. A partir du 3e jour d’hospitalisation, infirmière et médecin devaient effectuer une prédiction binaire concernant l’évolution à 6 mois  de chaque patient inclus sur les 6 critères suivants: statut mort / vivant, retour au lieu de résidence antérieure,  autonomie pour la toilette, autonomie pour monter 10 marches, capacité à « se souvenir, réfléchir clairement et résoudre des problèmes de la vie quotidienne ». Dans le même temps, infirmières et médecins étaient interrogés sur le niveau de confiance de leur prédiction, en utilisant une échelle de type Likert à 5 niveaux.

Les informations sur le statut réel à 6 mois étaient obtenues par des investigateurs indépendants et aveugles des prédictions, en utilisant des questionnaires similaires à ceux utilisés pour évaluer l’état basal avant l’admission en réanimation.

La performance des prédictions était estimée en utilisant la statistique c (AUC courbe ROC), la sensibilité et spécificité, les valeurs prédictives positive et négative ainsi que les rapports de vraisemblance positif et négatif (LR + et LR -).

L’agrément entre infirmières et médecins était évalué grâce au kappa.

Résultats essentiels

303 patients ont été inclus en 8 mois sur 5 réanimations. Concernant les prédictions médicales, les prédictions des 6 items étaient jugées plus performantes que celles liées au simple hasard (IC95% ne comprenant pas le 1 pour les tests du rapport des vraisemblances (likelihood ratio, LR) et le 0.5 pour la C-statistic). C’était le cas également pour les prédictions infirmières, sauf pour l’item d’évaluation de la cognition, pour lequel l’IC95% autour du LR comprenait le 1, ce qui correspond à une prédiction non significativement différente de celle liée au simple hasard.

L’agrément entre infirmières et médecins était correct à modéré. La performance prédictive était comparable sauf pour la prédiction de la mortalité qui était significativement meilleure chez les médecins (p = 0.02).

Les médecins étaient confiants dans leur prédiction (échelle Likert 4 ou 5) dans 41 à 55% des cas, tandis que les infirmières étaient confiantes dans 44 à 57% des cas. En cas de confiance dans la prédiction, la performance de celle-ci était significativement meilleure que dans le cas contraire.

Les prédictions étaient à la fois confiantes et concordantes entre médecins et infirmières dans 22 à 33% des cas en fonction des items. Dans ce cas, les performances prédictives étaient excellentes (par exemple, pour la mortalité à 6 mois LR+ 40.54 [IC95% 5.73 – 284.28], LR- 0.18 [0.06 – 0.50]).

La performance de prédiction était la même quelle que soit la gravite estimée par le score APACHE III.

En comparaison à des scores prédictifs construits pour prédire chacun des 6 items à partir des caractéristiques cliniques des patients incluant le score APACHE III et le Functional Comorbidity Index obtenus peu après l’admission, les scores incluant en plus la prédiction du médecin et des infirmières ainsi que le niveau de confiance présentaient des performances prédictives significativement supérieures.

Commentaires

A l’heure où les espoirs liés aux innovations en matière d’algorithmique et d’intelligence artificielle envahissent le domaine de la santé, cette étude présente l’originalité de s’intéresser au contraire aux performances de l’humain pour prédire le pronostic des patients de réanimation. En outre, cette démarche présente l’intérêt de s’intéresser à la prédiction personnalisée du devenir des patients.

Si les auteurs semblent apporter un crédit important aux performances prédictives jugées très satisfaisantes pour chaque item et chaque catégorie professionnelle, il est à noter que les rapports de vraisemblance rapportés sont certes significativement différents du simple hasard, mais globalement assez modestes en valeur absolue. En revanche, le résultat concernant la potentialisation de la performance prédictive lorsque l’on s’intéresse aux situations au cours desquelles les infirmières et les médecins sont en accord, et mieux encore, lorsque leur niveau de conviction est élevé, est un résultat tout à fait intéressant qui peut déboucher sur des véritables conséquences cliniques lors de la discussion de cas difficiles avec des patients ou leurs proches. En effet, en prenant en compte ces résultats, avant une conférence familiale au cours de laquelle le devenir prévisible du patient sera évoqué, il semble intéressant de se questionner sur le degré de conviction que nous apportons à nos prédictions et de partager cette information avec les personnels paramédicaux. La convergence des avis, surtout lorsqu’ils sont émis avec confiance, aboutit d’après cette étude à des prédictions de très bonne qualité.

Enfin, point important, l’ajout de ces prédictions « humaines » en tant qu’information complémentaire pour alimenter des algorithmes prédictifs permet d’améliorer significativement leur performance. Ce résultat bien que très préliminaire constitue un argument en faveur de la collaboration intelligence humaine / intelligence artificielle.

Points forts

Étude prospective multicentrique avec très fort taux d’inclusion et de participation et très peu de perte d’information sur le recueil des critères de jugement.

Points faibles

La limite principale concerne la validité externe des résultats.
Plusieurs raisons à cela :

  1. le ratio soignants / patient est supérieur aux Etats Unis par rapport à celui généralement observé en France, ce qui peut être à l’origine de différences, notamment concernant les performances de prédiction de la part des infirmières ;
  2. il n’est pas précisé clairement si les prédictions ont été réalisées par des infirmières ou des infirmières « prescriptrices », métier existant aux Etats Unis, pas en France et qui s’accompagne d’une formation médicale plus poussée ;
  3. l’enjeu autour de la prédiction du devenir est souvent perçu comme plus important précocement aux Etats Unis du fait des coûts très importants liés à la réanimation, souvent supportés par la famille du patient ;
  4. la population à l’étude présente quelques spécificités, telles qu’un très faible taux d’activité professionnelle avant la réanimation, une prévalence importante des pathologies chroniques et de l’obésité ;
  5. les patients traumatisés et notamment traumatisés crâniens étaient exclus de cette étude.

De plus, l’impact de l’état de base sur la performance des prédictions n’est pas pris en compte. En effet, concernant les items sur l’autonomie des patients, la performance de la prédiction est probablement très impactée par l’état de base du patient. On peut imaginer qu’il est beaucoup plus simple de prédire une autonomie limitée chez des patients ayant déjà une autonomie limitée auparavant. Etant donne la prévalence des pathologies chroniques dans cette population, on peut imaginer que cela ait impacté positivement les résultats. Enfin, comme reconnu par les auteurs, la prédiction de la mortalité est impactée de manière intrinsèque par le biais lié à la prophétie auto-réalisatrice.

Implications et conclusions

Au sein d’une population nord américaine de patients de réanimations médicales et chirurgicales, la performance des prédictions du devenir des patients à 6 mois par les médecins ou les infirmières était supérieure à celle uniquement liée au hasard. La convergence des avis entre médecins et paramédicaux, surtout lorsqu’ils sont émis avec confiance, aboutit, d’après cette étude, à des prédictions de très bonne qualité.

Texte

Conflit d'intérêts

Article commenté par le Pr Romain Pirracchio (Service d’Anesthésie – Réanimation, Hôpital Européen Georges Pompidou, APHP, Université Paris Descartes, PARIS).

L’auteur ne déclare aucun conflit d’intérêt.
Le contenu des fiches REACTU traduit la position de leurs auteurs, mais n’engage ni la CERC ni la SRLF.

Envoyez vos commentaires/réactions à la CERC.

Texte

Liens utiles

  1. Discriminative Accuracy of Physician and Nurse Predictions for Survival and Functional Outcomes 6 Months After an ICU Admission.
    Detsky ME,et al
    JAMA. 2017 Jun 6;317(21):2187-2195. doi: 10.1001/jama.2017.4078.
Texte

CERC

G. MULLER (Secrétaire)
N. AISSAOUI
SD. BARBAR
F. BOISSIER
G. DECORMEILLE
D. GRIMALDI
S. HRAIECH
G. JACQ
JB. LASCARROU
P. MICHEL
G. PITON
A. YOUSSOUFA