En résumé
Le recueil manuel — ouvrir chaque dossier patient, rechercher les informations, les recopier dans un tableur — reste aujourd’hui la méthode standard pour mener une étude clinique rétrospective. C’est un processus coûteux en temps, qui peut introduire des erreurs et dont les résultats sont difficiles à reproduire. Pourtant, les hôpitaux disposent déjà de la plupart de ces données sous forme numérique, dans leurs logiciels de soin. Les entrepôts de données de santé permettent de les exploiter directement — un potentiel encore largement sous-utilisé.
Le recueil de données : comment ça fonctionne
Pour mener une étude clinique rétrospective, il faut des données structurées : un tableau avec des colonnes (les variables) et des lignes (les patients). Le recueil de données, c’est le processus qui consiste à construire ce tableau.
Exemple concret
Vous étudiez les paramètres permettant de prédire la durée de séjour en réanimation. Pour chaque patient, vous avez besoin de :
- Âge, sexe
- Date d’admission et de sortie
- Diagnostics principaux
- Score de gravité (IGS2 — Indice de Gravité Simplifié, SOFA — Sequential Organ Failure Assessment…)
- Résultats biologiques clés
Dans la pratique, le clinicien ouvre le dossier de chaque patient dans le logiciel hospitalier, recherche les informations, et les reporte dans un tableur. Patient par patient, variable par variable.
C’est ainsi que la très grande majorité des études sont menées à l’heure actuelle.
Les limites du recueil manuel
Le temps
Le temps nécessaire au recueil dépend du nombre de patients et du nombre de variables. Plus il y en a, plus le recueil s’allonge — de façon proportionnelle.
Temps de recueil manuel estimé
Le temps est proportionnel au nombre de patients — et la pente augmente avec le nombre de variables.
Estimation basée sur ~1 minute par variable par patient.
C’est du temps qui n’est pas consacré à l’analyse des données, à la recherche bibliographique, à la réflexion scientifique. Et si un relecteur demande une variable supplémentaire après soumission de l’article, il faut souvent reprendre une partie du recueil.
La qualité des données
Le recueil manuel est aussi une source d’hétérogénéité. Quand deux personnes extraient les mêmes informations du même dossier, elles ne feront pas nécessairement les mêmes choix :
- Quel résultat biologique retenir s’il y en a plusieurs dans la journée ?
- Comment interpréter un diagnostic ambigu ?
- Quelle valeur saisir si l’information est partiellement manquante ?
Ces micro-décisions, répétées des centaines de fois, peuvent introduire un biais difficilement détectable. Une façon de limiter ce risque est de définir précisément chaque variable avant de commencer le recueil.
Un problème silencieux
Les erreurs de saisie ne se voient pas dans le tableur final. Elles ne génèrent pas d’erreur, ne déclenchent pas d’alerte — elles faussent simplement les résultats, sans qu’on le sache.
La reproductibilité
Si un autre chercheur souhaite reproduire votre étude, il devra refaire le même recueil. Si les choix de recueil ne sont pas parfaitement documentés — quelle valeur retenir parmi plusieurs, quelle fenêtre temporelle considérer — les résultats peuvent différer d’un recueil à l’autre.
Des données déjà disponibles
Les hôpitaux se sont progressivement équipés de dossiers patients informatisés (DPI). Ces logiciels enregistrent au fil du soin une quantité considérable d’informations :
Données administratives
Âge, sexe, dates de séjour…
Résultats biologiques
NFS, ionogramme, CRP…
Paramètres vitaux
FC, PA, SpO2, température…
Prescriptions
Médicaments, posologies, voies…
Diagnostics codés
CIM-10 (Classification Internationale des Maladies), actes CCAM (Classification Commune des Actes Médicaux)…
Comptes rendus
Consultations, courriers, CR opératoires…
Ces données ne sont pas collectées pour la recherche — elles sont produites dans le cadre du soin. Il est néanmoins possible de les réutiliser pour la recherche : c’est ce qu’on appelle la réutilisation secondaire des données (data reuse).
Deux approches, comparées
Prenons un exemple concret : une étude rétrospective sur 500 patients admis en réanimation.
| Recueil manuel | Entrepôt de données de santé | |
|---|---|---|
| Temps de collecte | Semaines à mois | Plusieurs jours * |
| Nombre de patients | Limité par le temps disponible | Tous les patients du service |
| Variables disponibles | Celles prévues au départ | Toutes celles enregistrées dans le DPI |
| Ajout d’une variable | Reprendre le recueil | Ajouter une colonne à la requête |
| Erreurs humaines | Inhérentes au processus | Limitées (données source) |
| Reproductibilité | Faible | Élevée |
* Le temps initial peut être important lorsqu’on travaille sur de nouvelles variables. Mais le travail se capitalise : une variable correctement intégrée et vérifiée pour une étude est directement réutilisable pour les suivantes.
Le recueil manuel reste nécessaire
Certaines données ne remontent pas automatiquement dans le DPI, ou nécessitent l’interprétation et l’expertise du clinicien — notamment les données textuelles (comptes rendus hospitaliers, courriers…). Pour ces cas, le recueil manuel reste indispensable. Les entrepôts de données permettent cependant de réduire considérablement la charge humaine sur une grande partie des variables à extraire.
Pourquoi ne pas utiliser directement les données du DPI ?
Si les données existent déjà, pourquoi les cliniciens continuent-ils à les recopier ? Parce qu’accéder aux données d’un DPI pour faire de la recherche n’est pas simple :
L'accès technique est complexe
Les DPI ne sont pas conçus pour l'export de données en masse. Extraire les résultats biologiques de 500 patients nécessite souvent des compétences techniques (SQL, programmation).
Les données sont dispersées
Un même patient peut avoir des informations dans le DPI, le système de biologie, le logiciel de pharmacie, le PMSI (Programme de Médicalisation des Systèmes d'Information)… Les rassembler demande un travail d'intégration.
Le cadre réglementaire est exigeant
L'accès aux données de santé est encadré par des règles strictes (RGPD — Règlement Général sur la Protection des Données, CNIL — Commission Nationale de l'Informatique et des Libertés). Il faut des autorisations et une infrastructure sécurisée.
Il manque des outils adaptés
Même quand les données sont accessibles, les outils disponibles sont souvent conçus pour des profils techniques, pas pour des cliniciens.
C’est pour répondre à ces quatre problèmes que sont apparus les entrepôts de données de santé.
Vers les entrepôts de données de santé
Un entrepôt de données de santé (EDS) rassemble, structure et sécurise les données issues des différents logiciels hospitaliers dans un espace unique, conçu pour la recherche. Avec un EDS, un clinicien peut — dans un cadre réglementaire approprié — interroger les données de milliers de patients.
C'est le sujet d'un prochain article
Mais avant d’explorer les entrepôts de données, il est essentiel de savoir bien définir ses variables. C’est le sujet du prochain article.
Ce qu’il faut retenir
- Le recueil manuel fonctionne, mais il est lent, sujet aux erreurs, et difficilement reproductible.
- Les DPI contiennent déjà une grande partie des données nécessaires à la recherche clinique.
- L'exploitation de ces données nécessite des outils adaptés — c'est le rôle des entrepôts de données de santé.