Des données brutes aux données exploitables

En résumé

Les données d’un entrepôt de données de santé (EDS) ne sont pas directement exploitables. Elles contiennent des erreurs, des incohérences et des valeurs aberrantes qui doivent être détectées et corrigées. Ce travail de mise en qualité est considérable, mais c’est un investissement cumulatif : chaque variable nettoyée est réutilisable pour tous les projets suivants.

Les données brutes ne sont pas prêtes

On pourrait croire qu’une fois les données rassemblées dans un entrepôt, elles sont prêtes à être analysées. En réalité, les données brutes issues des logiciels de soins sont souvent de mauvaise qualité : valeurs manquantes, erreurs de saisie, unités incohérentes, doublons…

Ces problèmes ne sont pas une exception — ils sont la norme. Les logiciels de soins sont conçus pour aider les soignants dans leur pratique, pas pour produire des données de recherche. Les données sont saisies dans l’urgence, parfois dans des champs mal adaptés, et les contrôles de cohérence sont rares.

Un travail de titan

Chaque variable a ses propres problèmes de qualité. Le travail de nettoyage est une tâche considérable, qui doit être réalisée variable par variable, avec une expertise à la fois technique et clinique.

Un exemple classique : poids et taille inversés

Dans les logiciels de soins, les champs « poids » et « taille » sont souvent proches à l’écran. Il arrive fréquemment qu’un soignant saisisse le poids dans le champ de la taille, et inversement. Résultat : un patient qui pèse 1,72 kg et mesure 68 cm.

Ce type d’erreur est facile à repérer sur un graphique :

Poids vs. Taille — Détection des valeurs aberrantes

Les inversions poids/taille sont détectables automatiquement. Quand l’inversion est évidente, on peut corriger la donnée ; sinon, on la retire de l’analyse.

Ce type de script de correction doit être écrit pour chaque variable qui le nécessite. Et la fréquence cardiaque, la pression artérielle, la température, la créatinine, la glycémie… ont toutes leurs propres types d’erreurs.

Un travail d’expertise partagée

La mise en qualité des données ne peut pas être faite par une seule personne. Elle nécessite un binôme : un data scientist qui maîtrise les outils techniques, et un clinicien qui connaît la réalité du terrain.

Pourquoi ? Parce que derrière chaque anomalie dans les données, il y a souvent une explication pratique que seul le professionnel de santé peut fournir :

Aide-soignant(e) de réanimation

« Le poids et la taille sont dans deux champs côte à côte. Quand on est pressé, on inverse. Ça arrive souvent, surtout la nuit. »

Biologiste

« On a changé de méthode de dosage pour la troponine en mars 2022. Les valeurs ne sont plus comparables avant et après cette date — il faut appliquer un facteur de conversion. »

Médecin de service

« Ce champ “motif de consultation” n’est jamais rempli correctement — tout le monde met “autre”. Le vrai motif est dans le texte libre du compte rendu. »

Ces connaissances sont irremplaçables. Elles ne figurent dans aucune documentation technique. C’est pourquoi la mise en qualité des données doit se faire localement, par les équipes qui connaissent les pratiques et les logiciels de leur établissement.

Pourquoi ne pas centraliser ?

Si l’on centralisait les données de plusieurs hôpitaux sans impliquer les équipes locales, on perdrait cette connaissance de terrain. Seul le soignant qui utilise le logiciel au quotidien sait comment les données sont réellement produites — et où se cachent les pièges.

Pourquoi toute la recherche ne se fait-elle pas déjà sur les EDS ?

Si les EDS existent, pourquoi la majorité des études cliniques rétrospectives reposent-elles encore sur un recueil manuel ? Plusieurs raisons :

Un travail colossal de mise en place

Créer un EDS, intégrer les flux de données, harmoniser les bases du SIH (Système d'Information Hospitalier) et mettre en qualité chaque variable demande des années de travail et des ressources considérables.

Des compétences en programmation nécessaires

Exploiter les données d'un EDS requiert des compétences en R, Python ou SQL. Les data scientists portent une grande partie des projets de recherche, ce qui limite le nombre de projets simultanés.

Un écosystème encore jeune

Beaucoup d'EDS sont récents ou en cours de construction. Les flux de données, les outils d'analyse et les processus de qualité se mettent progressivement en place.

Un investissement cumulatif

Mais il y a une différence fondamentale entre un recueil manuel et un EDS : avec le recueil manuel, on recommence à zéro à chaque projet. Avec un EDS, chaque travail réalisé profite aux suivants.

C’est le principe d’un investissement cumulatif :

Effort par projet : recueil manuel vs. entrepôt de données

Projet 1 — 50 variables50 variables à traiter

50 / 50

Projet 2 — 45 variables20 déjà prêtes, 25 nouvelles

20 ✓

25 nouvelles

Projet 3 — 40 variables30 déjà prêtes, 10 nouvelles

30 ✓

Projet 4 — 35 variables32 déjà prêtes, 3 nouvelles

32 ✓

Déjà prêtes

Nouvelles variables à traiter

Au premier projet, tout est à faire. Mais dès le deuxième, une partie des variables est déjà nettoyée, structurée, documentée. Plus l’entrepôt mûrit, plus les projets suivants sont rapides à lancer.

Avec un recueil manuel, ce n’est pas le cas : chaque nouveau projet repart de zéro, avec un coût constant.

Investir aujourd'hui pour accélérer demain

C’est pourquoi il est essentiel d’investir dans les entrepôts de données de santé. Le coût initial est élevé, mais chaque variable mise en qualité est réutilisable — et le coût marginal de chaque nouveau projet diminue au fil du temps.

Lever la barrière de la programmation

L’autre frein majeur est la nécessité de compétences en programmation. Aujourd’hui, un clinicien qui souhaite exploiter les données de l’EDS doit passer par un data scientist pour écrire les requêtes, produire les analyses et générer les résultats.

C’est précisément ce que Linkr cherche à résoudre : permettre aux cliniciens de travailler directement avec les données de l’entrepôt, sans connaissances en programmation, grâce à des outils low-code intégrés. En partageant le travail entre cliniciens et data scientists, davantage de projets peuvent se réaliser : les cliniciens prennent en charge les explorations courantes, et les data scientists concentrent leur expertise sur les analyses complexes.

Ce qu’il faut retenir

Les données brutes d'un EDS contiennent des erreurs et incohérences qui doivent être corrigées variable par variable.
La mise en qualité nécessite un binôme clinicien / data scientist : l'expertise de terrain est irremplaçable.
C'est un investissement cumulatif : chaque variable nettoyée est réutilisable pour tous les projets suivants.
Les outils low-code comme Linkr permettent aux cliniciens de contribuer directement, libérant les data scientists pour les analyses complexes et permettant de mener davantage de projets.

Article suivant : Comment sont organisées ces données