En résumé
Si deux personnes extraient les mêmes données du même dossier et obtiennent des résultats différents, c’est souvent parce que la variable n’a pas été définie de manière assez précise. Définir une variable, ce n’est pas seulement choisir un concept — c’est aussi préciser quand, sur quelle période, et quelle valeur retenir. Ce cadrage en quatre dimensions réduit les erreurs et les ambiguïtés, que le recueil soit manuel ou automatisé.
Le problème : une variable, plusieurs interprétations
Prenons un exemple simple : vous souhaitez recueillir la créatininémie de chaque patient.
Un même concept, trois résultats différents
Un patient est admis le 5 janvier à 14h. Il a trois dosages de créatinine :
- 5 janvier, 16h : 92 µmol/L
- 6 janvier, 6h : 118 µmol/L
- 6 janvier, 18h : 104 µmol/L
Quelle valeur notez-vous dans votre tableur ? La première ? La plus élevée ? Celle des 24 premières heures ?
Sans consigne explicite, chaque personne qui fait le recueil fera son propre choix — et ce choix variera d’un patient à l’autre, y compris pour la même personne. C’est ce type de micro-décision qui produit des données hétérogènes.
Les quatre dimensions d’une variable
Pour qu’une variable soit définie sans ambiguïté, il faut préciser quatre éléments.
Le concept
Ce que l'on mesure : fréquence cardiaque, créatininémie, diagnostic principal, score SOFA (Sequential Organ Failure Assessment)… C'est la dimension la plus intuitive, celle que l'on note généralement en premier. L'unité de mesure, lorsqu'elle est pertinente, fait partie du concept.
L'ancrage temporel
Le point de référence dans le parcours du patient à partir duquel on cherche la donnée. Par exemple : l'admission en réanimation, le début de la ventilation mécanique, le diagnostic de sepsis…
La fenêtre temporelle
La période, relative à l'ancrage, pendant laquelle on recherche la donnée. Par exemple : de H0 à H24 après l'admission, ou de J-365 à H0 (pour les antécédents).
La fonction d'agrégat
Quand plusieurs valeurs existent dans la fenêtre, laquelle retenir ? La première, la dernière, le maximum, le minimum, la moyenne, la présence/absence…
Un exemple complet
Reprenons la créatininémie. Voici comment on peut la définir de manière non ambiguë :
| Dimension | Valeur |
|---|---|
| Concept | Créatininémie (µmol/L) |
| Ancrage temporel | Première admission en réanimation |
| Fenêtre temporelle | H0 à H24 |
| Fonction d’agrégat | Maximum |
Avec cette définition, deux personnes qui extraient la donnée du même dossier obtiendront le même résultat — qu’il s’agisse d’un recueil manuel ou d’une requête informatique.
D’autres exemples pour bien comprendre
| Variable | Concept | Ancrage | Fenêtre | Agrégat |
|---|---|---|---|---|
| FC à l’admission | Fréquence cardiaque | Admission en réa | H0 à H1 | Première |
| Antécédent de diabète | Diagnostic de diabète | Admission en réa | Pas de limite – H0 | Présence (oui/non) |
| Lactate max à J1 | Lactatémie | Admission en réa | H0 à H24 | Maximum |
| Noradrénaline pendant le sepsis | Noradrénaline (administration) | Diagnostic de sepsis | H0 à H72 | Présence (oui/non) |
| Durée de séjour | Séjour en réanimation | Admission en réa | Durée complète | Durée (en jours) |
L'ancrage n'est pas toujours l'admission
L’ancrage temporel dépend de la question de recherche. Si vous étudiez les complications post-intubation, l’ancrage sera le début de la ventilation mécanique. Si vous étudiez les antécédents, vous chercherez des diagnostics antérieurs à l’admission, sans limite de temps.
Pourquoi c’est important — même pour le recueil manuel
On pourrait penser que ce cadrage est surtout utile pour les requêtes informatiques sur un entrepôt de données. En réalité, il est tout aussi essentiel pour le recueil manuel.
Sans cadrage, le recueil dérive
Quand le recueil dure plusieurs semaines, les choix implicites évoluent. La personne qui recueille finit par appliquer des règles de décision différentes au début et à la fin du recueil — sans même s’en rendre compte. Un cadrage explicite protège contre cette dérive.
Des variables bien définies :
- Réduisent les erreurs : chaque personne sait exactement quoi chercher
- Améliorent la reproductibilité : un autre chercheur peut refaire le même recueil et obtenir les mêmes données
- Facilitent la collaboration : entre le clinicien qui conçoit l’étude et le data scientist qui écrit la requête, il n’y a plus d’ambiguïté
- Préparent l’automatisation : une variable définie selon ces quatre dimensions peut être traduite directement en requête sur un entrepôt de données
Le Study Designer de Linkr
Linkr propose un outil dédié à cette étape : le Study Designer. Il guide le clinicien dans la définition de chaque variable selon les quatre dimensions — concept, ancrage temporel, fenêtre, agrégat — et génère automatiquement un protocole structuré, exportable en Word, Excel ou JSON.
Un outil pour structurer votre protocole
Le Study Designer est accessible librement sur la page dédiée. Il permet de définir vos variables, vos critères d’inclusion et votre plan d’analyse — le tout dans une interface pensée pour les cliniciens.
Ce qu’il faut retenir
- Définir une variable, c'est préciser quatre dimensions : le concept, l'ancrage temporel, la fenêtre temporelle et la fonction d'agrégat.
- Ce cadrage réduit les erreurs et les ambiguïtés, que le recueil soit manuel ou automatisé.
- Des variables bien définies sont directement traduisibles en requêtes sur un entrepôt de données.
- Le Study Designer de Linkr permet de structurer cette définition dans un protocole exportable.