Le recueil manuel à l'heure du dossier patient informatisé

En résumé

Le recueil manuel — ouvrir chaque dossier patient, rechercher les informations, les recopier dans un tableur — reste aujourd’hui la méthode standard pour mener une étude clinique rétrospective. C’est un processus coûteux en temps, qui peut introduire des erreurs et dont les résultats sont difficiles à reproduire. Pourtant, les hôpitaux disposent déjà de la plupart de ces données sous forme numérique, dans leurs logiciels de soin. Les entrepôts de données de santé permettent de les exploiter directement — un potentiel encore largement sous-utilisé.

Le recueil de données : comment ça fonctionne

Pour mener une étude clinique rétrospective, il faut des données structurées : un tableau avec des colonnes (les variables) et des lignes (les patients). Le recueil de données, c’est le processus qui consiste à construire ce tableau.

Exemple concret

Vous étudiez les paramètres permettant de prédire la durée de séjour en réanimation. Pour chaque patient, vous avez besoin de :

Âge, sexe
Date d’admission et de sortie
Diagnostics principaux
Score de gravité (IGS2 — Indice de Gravité Simplifié, SOFA — Sequential Organ Failure Assessment…)
Résultats biologiques clés

Dans la pratique, le clinicien ouvre le dossier de chaque patient dans le logiciel hospitalier, recherche les informations, et les reporte dans un tableur. Patient par patient, variable par variable.

C’est ainsi que la très grande majorité des études sont menées à l’heure actuelle.

Les limites du recueil manuel

Le temps

Le temps nécessaire au recueil dépend du nombre de patients et du nombre de variables. Plus il y en a, plus le recueil s’allonge — de façon proportionnelle.

Temps de recueil manuel estimé

Le temps est proportionnel au nombre de patients — et la pente augmente avec le nombre de variables.

Estimation basée sur ~1 minute par variable par patient.

C’est du temps qui n’est pas consacré à l’analyse des données, à la recherche bibliographique, à la réflexion scientifique. Et si un relecteur demande une variable supplémentaire après soumission de l’article, il faut souvent reprendre une partie du recueil.

La qualité des données

Le recueil manuel est aussi une source d’hétérogénéité. Quand deux personnes extraient les mêmes informations du même dossier, elles ne feront pas nécessairement les mêmes choix :

Quel résultat biologique retenir s’il y en a plusieurs dans la journée ?
Comment interpréter un diagnostic ambigu ?
Quelle valeur saisir si l’information est partiellement manquante ?

Ces micro-décisions, répétées des centaines de fois, peuvent introduire un biais difficilement détectable. Une façon de limiter ce risque est de définir précisément chaque variable avant de commencer le recueil.

Un problème silencieux

Les erreurs de saisie ne se voient pas dans le tableur final. Elles ne génèrent pas d’erreur, ne déclenchent pas d’alerte — elles faussent simplement les résultats, sans qu’on le sache.

La reproductibilité

Si un autre chercheur souhaite reproduire votre étude, il devra refaire le même recueil. Si les choix de recueil ne sont pas parfaitement documentés — quelle valeur retenir parmi plusieurs, quelle fenêtre temporelle considérer — les résultats peuvent différer d’un recueil à l’autre.

Des données déjà disponibles

Les hôpitaux se sont progressivement équipés de dossiers patients informatisés (DPI). Ces logiciels enregistrent au fil du soin une quantité considérable d’informations :

Données administratives

Âge, sexe, dates de séjour…

Résultats biologiques

NFS, ionogramme, CRP…

Paramètres vitaux

FC, PA, SpO2, température…

Prescriptions

Médicaments, posologies, voies…

Diagnostics codés

CIM-10 (Classification Internationale des Maladies), actes CCAM (Classification Commune des Actes Médicaux)…

Comptes rendus

Consultations, courriers, CR opératoires…

Ces données ne sont pas collectées pour la recherche — elles sont produites dans le cadre du soin. Il est néanmoins possible de les réutiliser pour la recherche : c’est ce qu’on appelle la réutilisation secondaire des données (data reuse).

Deux approches, comparées

Prenons un exemple concret : une étude rétrospective sur 500 patients admis en réanimation.

	Recueil manuel	Entrepôt de données de santé
Temps de collecte	Semaines à mois	Plusieurs jours *
Nombre de patients	Limité par le temps disponible	Tous les patients du service
Variables disponibles	Celles prévues au départ	Toutes celles enregistrées dans le DPI
Ajout d’une variable	Reprendre le recueil	Ajouter une colonne à la requête
Erreurs humaines	Inhérentes au processus	Limitées (données source)
Reproductibilité	Faible	Élevée

* Le temps initial peut être important lorsqu’on travaille sur de nouvelles variables. Mais le travail se capitalise : une variable correctement intégrée et vérifiée pour une étude est directement réutilisable pour les suivantes.

Le recueil manuel reste nécessaire

Certaines données ne remontent pas automatiquement dans le DPI, ou nécessitent l’interprétation et l’expertise du clinicien — notamment les données textuelles (comptes rendus hospitaliers, courriers…). Pour ces cas, le recueil manuel reste indispensable. Les entrepôts de données permettent cependant de réduire considérablement la charge humaine sur une grande partie des variables à extraire.

Pourquoi ne pas utiliser directement les données du DPI ?

Si les données existent déjà, pourquoi les cliniciens continuent-ils à les recopier ? Parce qu’accéder aux données d’un DPI pour faire de la recherche n’est pas simple :

L'accès technique est complexe

Les DPI ne sont pas conçus pour l'export de données en masse. Extraire les résultats biologiques de 500 patients nécessite souvent des compétences techniques (SQL, programmation).

Les données sont dispersées

Un même patient peut avoir des informations dans le DPI, le système de biologie, le logiciel de pharmacie, le PMSI (Programme de Médicalisation des Systèmes d'Information)… Les rassembler demande un travail d'intégration.

Le cadre réglementaire est exigeant

L'accès aux données de santé est encadré par des règles strictes (RGPD — Règlement Général sur la Protection des Données, CNIL — Commission Nationale de l'Informatique et des Libertés). Il faut des autorisations et une infrastructure sécurisée.

Il manque des outils adaptés

Même quand les données sont accessibles, les outils disponibles sont souvent conçus pour des profils techniques, pas pour des cliniciens.

C’est pour répondre à ces quatre problèmes que sont apparus les entrepôts de données de santé.

Vers les entrepôts de données de santé

Un entrepôt de données de santé (EDS) rassemble, structure et sécurise les données issues des différents logiciels hospitaliers dans un espace unique, conçu pour la recherche. Avec un EDS, un clinicien peut — dans un cadre réglementaire approprié — interroger les données de milliers de patients.

C'est le sujet d'un prochain article

Mais avant d’explorer les entrepôts de données, il est essentiel de savoir bien définir ses variables. C’est le sujet du prochain article.

Ce qu’il faut retenir

Le recueil manuel fonctionne, mais il est lent, sujet aux erreurs, et difficilement reproductible.
Les DPI contiennent déjà une grande partie des données nécessaires à la recherche clinique.
L'exploitation de ces données nécessite des outils adaptés — c'est le rôle des entrepôts de données de santé.

Article suivant : Bien définir ses variables : la clé d'un recueil fiable