Bien définir ses variables : la clé d'un recueil fiable

En résumé

Si deux personnes extraient les mêmes données du même dossier et obtiennent des résultats différents, c’est souvent parce que la variable n’a pas été définie de manière assez précise. Définir une variable, ce n’est pas seulement choisir un concept — c’est aussi préciser quand, sur quelle période, et quelle valeur retenir. Ce cadrage en quatre dimensions réduit les erreurs et les ambiguïtés, que le recueil soit manuel ou automatisé.

Le problème : une variable, plusieurs interprétations

Prenons un exemple simple : vous souhaitez recueillir la créatininémie de chaque patient.

Un même concept, trois résultats différents

Un patient est admis le 5 janvier à 14h. Il a trois dosages de créatinine :

5 janvier, 16h : 92 µmol/L
6 janvier, 6h : 118 µmol/L
6 janvier, 18h : 104 µmol/L

Quelle valeur notez-vous dans votre tableur ? La première ? La plus élevée ? Celle des 24 premières heures ?

Sans consigne explicite, chaque personne qui fait le recueil fera son propre choix — et ce choix variera d’un patient à l’autre, y compris pour la même personne. C’est ce type de micro-décision qui produit des données hétérogènes.

Les quatre dimensions d’une variable

Pour qu’une variable soit définie sans ambiguïté, il faut préciser quatre éléments.

Le concept

Ce que l'on mesure : fréquence cardiaque, créatininémie, diagnostic principal, score SOFA (Sequential Organ Failure Assessment)… C'est la dimension la plus intuitive, celle que l'on note généralement en premier. L'unité de mesure, lorsqu'elle est pertinente, fait partie du concept.

L'ancrage temporel

Le point de référence dans le parcours du patient à partir duquel on cherche la donnée. Par exemple : l'admission en réanimation, le début de la ventilation mécanique, le diagnostic de sepsis…

La fenêtre temporelle

La période, relative à l'ancrage, pendant laquelle on recherche la donnée. Par exemple : de H0 à H24 après l'admission, ou de J-365 à H0 (pour les antécédents).

La fonction d'agrégat

Quand plusieurs valeurs existent dans la fenêtre, laquelle retenir ? La première, la dernière, le maximum, le minimum, la moyenne, la présence/absence…

Un exemple complet

Reprenons la créatininémie. Voici comment on peut la définir de manière non ambiguë :

Dimension	Valeur
Concept	Créatininémie (µmol/L)
Ancrage temporel	Première admission en réanimation
Fenêtre temporelle	H0 à H24
Fonction d’agrégat	Maximum

Avec cette définition, deux personnes qui extraient la donnée du même dossier obtiendront le même résultat — qu’il s’agisse d’un recueil manuel ou d’une requête informatique.

D’autres exemples pour bien comprendre

Variable	Concept	Ancrage	Fenêtre	Agrégat
FC à l’admission	Fréquence cardiaque	Admission en réa	H0 à H1	Première
Antécédent de diabète	Diagnostic de diabète	Admission en réa	Pas de limite – H0	Présence (oui/non)
Lactate max à J1	Lactatémie	Admission en réa	H0 à H24	Maximum
Noradrénaline pendant le sepsis	Noradrénaline (administration)	Diagnostic de sepsis	H0 à H72	Présence (oui/non)
Durée de séjour	Séjour en réanimation	Admission en réa	Durée complète	Durée (en jours)

L'ancrage n'est pas toujours l'admission

L’ancrage temporel dépend de la question de recherche. Si vous étudiez les complications post-intubation, l’ancrage sera le début de la ventilation mécanique. Si vous étudiez les antécédents, vous chercherez des diagnostics antérieurs à l’admission, sans limite de temps.

Pourquoi c’est important — même pour le recueil manuel

On pourrait penser que ce cadrage est surtout utile pour les requêtes informatiques sur un entrepôt de données. En réalité, il est tout aussi essentiel pour le recueil manuel.

Sans cadrage, le recueil dérive

Quand le recueil dure plusieurs semaines, les choix implicites évoluent. La personne qui recueille finit par appliquer des règles de décision différentes au début et à la fin du recueil — sans même s’en rendre compte. Un cadrage explicite protège contre cette dérive.

Des variables bien définies :

Réduisent les erreurs : chaque personne sait exactement quoi chercher
Améliorent la reproductibilité : un autre chercheur peut refaire le même recueil et obtenir les mêmes données
Facilitent la collaboration : entre le clinicien qui conçoit l’étude et le data scientist qui écrit la requête, il n’y a plus d’ambiguïté
Préparent l’automatisation : une variable définie selon ces quatre dimensions peut être traduite directement en requête sur un entrepôt de données

Le Study Designer de Linkr

Linkr propose un outil dédié à cette étape : le Study Designer. Il guide le clinicien dans la définition de chaque variable selon les quatre dimensions — concept, ancrage temporel, fenêtre, agrégat — et génère automatiquement un protocole structuré, exportable en Word, Excel ou JSON.

Un outil pour structurer votre protocole

Le Study Designer est accessible librement sur la page dédiée. Il permet de définir vos variables, vos critères d’inclusion et votre plan d’analyse — le tout dans une interface pensée pour les cliniciens.

Ce qu’il faut retenir

Définir une variable, c'est préciser quatre dimensions : le concept, l'ancrage temporel, la fenêtre temporelle et la fonction d'agrégat.
Ce cadrage réduit les erreurs et les ambiguïtés, que le recueil soit manuel ou automatisé.
Des variables bien définies sont directement traduisibles en requêtes sur un entrepôt de données.
Le Study Designer de Linkr permet de structurer cette définition dans un protocole exportable.

Article suivant : Les entrepôts de données de santé : exploiter les données déjà collectées