En résumé
Chaque hôpital nomme et code ses données différemment. Pour pouvoir comparer des données entre établissements ou participer à des études multicentriques, il faut parler le même langage. C’est le rôle des terminologies médicales standardisées : des vocabulaires partagés, chacun spécialisé sur un type de donnée — diagnostics, biologie, médicaments, actes médicaux.
Le problème : chaque hôpital a son propre langage
Dans l’article précédent, nous avons vu que les données d’un entrepôt sont organisées en tables reliées entre elles. Dans la table de biologie, par exemple, une colonne paramètre contient le nom de l’examen : « Créatinine », « Leucocytes », « Glycémie »…
Cependant, ces noms ne sont pas universels. D’un hôpital à l’autre, la même créatinine peut s’appeler :
| Hôpital | Libellé dans le système | Unité |
|---|---|---|
| CHU A | Créatinine | µmol/L |
| CHU B | CREA sérique | mg/L |
| Clinique C | Creat. | µmol/L |
Trois noms différents, deux unités différentes — pour le même examen.
Tant que l’on travaille dans un seul hôpital, ce n’est pas un problème : tout le monde sait que « CREA sérique » désigne la créatinine. Dès que l’on veut comparer des données entre hôpitaux pour une étude multicentrique, il faut se mettre d’accord sur un langage commun.
C’est exactement le rôle des terminologies médicales.
Classification, terminologie, ontologie ?
Ces trois termes désignent des réalités différentes [1,2] :
- Classification : système qui organise des concepts en catégories pour décrire un domaine de façon structurée. Certaines (comme la CIM-10) imposent des catégories mutuellement exclusives pour éviter les doubles comptages.
- Terminologie : liste structurée de concepts avec des définitions et des relations entre eux — un concept peut avoir plusieurs parents (exemple : LOINC).
- Ontologie : va plus loin en ajoutant des relations sémantiques formelles (logique de description) qui permettent le raisonnement automatique par une machine (exemple : SNOMED CT).
Quelques terminologies à connaître
CIM-10 — La classification des diagnostics
Si vous êtes clinicien en milieu hospitalier, vous connaissez probablement déjà la CIM-10 — vous l’utilisez chaque fois que vous codez un séjour.
Carte d’identité
Nom complet : Classification Internationale des Maladies, 10e révision
En anglais : ICD-10 (International Classification of Diseases)
Type : Classification
Créée par : Organisation Mondiale de la Santé (OMS)
Première version : 1992 [3]
Domaine : Diagnostics
Nombre de codes : ~14 400 (version de base OMS), jusqu’à ~70 000 avec les extensions nationales (ex. ICD-10-CM aux États-Unis)
Exemple
E11.9
Diabète de type 2, sans complication
| E | Maladies endocriniennes |
| 11 | Diabète de type 2 |
| .9 | Sans complication |
Structure : chaque code commence par une lettre (le chapitre, par grande catégorie de maladie), suivie de deux chiffres (la catégorie), puis éventuellement d’un point et de chiffres supplémentaires (la précision). Par exemple, E11.9 : E pour le chapitre des maladies endocriniennes, 11 pour le diabète de type 2, .9 pour « sans complication ».
Forces : c’est la classification la plus répandue au monde. Pratiquement tous les pays l’utilisent. Les données administratives hospitalières (comme le PMSI en France) s’appuient sur la CIM-10 pour décrire les séjours et calculer les financements.
Limites : la CIM a été conçue à l’origine pour les statistiques de mortalité et de morbidité, pas pour la recherche clinique. Sa granularité est faible : elle ne capture ni la sévérité, ni la chronologie, ni le degré de certitude d’un diagnostic. Les codes attribués reflètent ce qui a été documenté pour le remboursement, pas nécessairement la réalité clinique complète.
CIM-10 et recherche : attention aux biais
Les codes CIM-10 sont souvent incomplets ou imprécis. Une étude a montré que seulement 56 % des codes diagnostiques saisis étaient appropriés, et que 26 % des diagnostics pertinents n’étaient tout simplement pas codés [4]. Pour la recherche, les données CIM-10 sont un point de départ, mais elles ne suffisent pas toujours.
Et la CIM-11 ?
La 11e révision de la CIM a été publiée par l’OMS en 2019. Elle améliore considérablement la structure ontologique et la granularité. Son adoption internationale reste encore très limitée — la plupart des systèmes de santé utilisent toujours la CIM-10.
LOINC — Le langage de la biologie
Carte d’identité
Nom complet : Logical Observation Identifiers Names and Codes
Type : Terminologie
Créé par : Regenstrief Institute (Indianapolis, États-Unis)
Première version : 1994 [5]
Domaine : Examens de biologie, observations cliniques, scores, questionnaires
Nombre de codes : > 100 000 [5]
Exemple
2160-0
Créatinine sérique / plasmatique
LOINC répond à un problème simple : quand un laboratoire transmet un résultat de biologie, qu’est-ce qui a été mesuré exactement ? Chaque code LOINC identifie un examen de façon unique grâce à six dimensions :
| Dimension | Question | Exemple |
|---|---|---|
| Composant | Qu’est-ce qu’on mesure ? | Créatinine |
| Propriété | Quel type de mesure ? | Concentration de masse |
| Temps | À quel moment ? | Ponctuel |
| Système | Dans quel échantillon ? | Sérum / Plasma |
| Échelle | Quantitatif ou qualitatif ? | Quantitatif |
| Méthode | Quelle technique analytique ? | (non spécifiée) |
Les six dimensions d’un code LOINC, illustrées avec la créatinine sérique.
LOINC couvre la biologie (chimie, hématologie, microbiologie, sérologie, toxicologie), mais aussi les observations cliniques (scores comme le SOFA ou le Glasgow, résultats d’imagerie, questionnaires de qualité de vie) et les paramètres vitaux.
Le problème que LOINC résout
Dans un hôpital, le dosage de créatinine s’appelle « CREA ». Dans un autre, « Créatinine sérique ». Dans un troisième, « S-Creat ». Ces trois examens correspondent au même code LOINC : 2160-0. En alignant (ou mappant) les codes locaux vers LOINC, on peut comparer des résultats de biologie entre établissements, même si chacun utilise un logiciel différent.
SNOMED CT — Le vocabulaire clinique le plus complet
Carte d’identité
Nom complet : Systematized Nomenclature of Medicine — Clinical Terms
Type : Terminologie et ontologie [6]
Créé par : SNOMED International (anciennement IHTSDO)
Première version : 2002 (fusion de SNOMED RT et de la Clinical Terms Version 3) [7]
Domaine : Pathologies, actes médicaux, anatomie, organismes, substances…
Nombre de concepts : ~370 000 concepts actifs [8]
Exemple
44054006
Diabète de type 2
Là où la CIM-10 classe les maladies en grandes catégories, SNOMED CT est un véritable vocabulaire clinique : il décrit le monde médical dans toute sa richesse. Il couvre non seulement les pathologies (maladies, symptômes), mais aussi les actes médicaux, l’anatomie, les organismes (bactéries, virus), les substances, les dispositifs médicaux…
La particularité de SNOMED CT est sa polyhiérarchie : un concept peut appartenir à plusieurs catégories à la fois. Par exemple, l’infarctus du myocarde est à la fois une « maladie cardiaque » et une « maladie ischémique ». Cette structure permet des recherches très puissantes : on peut interroger toutes les maladies cardiaques d’un seul coup, et l’infarctus sera inclus automatiquement.
SNOMED CT est aussi une ontologie : ses concepts sont définis par des relations sémantiques formelles (logique de description), ce qui permet à une machine de raisonner automatiquement sur les données [6].
SNOMED CT vs CIM-10 : complémentaires, pas concurrents
La CIM-10 est une classification conçue pour les statistiques épidémiologiques, aujourd’hui largement utilisée pour la facturation. SNOMED CT est une terminologie / ontologie conçue pour la description clinique détaillée. Un hôpital peut utiliser la CIM-10 pour le codage administratif et SNOMED CT pour la recherche — ce ne sont pas des alternatives mais des outils complémentaires, chacun avec sa finalité [2].
ATC — La classification des médicaments
Carte d’identité
Nom complet : Anatomical Therapeutic Chemical Classification System
Type : Classification
Créé par : Centre collaborateur de l’OMS pour les statistiques pharmaceutiques (Oslo, Norvège)
Première version : 1976 [9]
Domaine : Médicaments (principes actifs)
Nombre de codes : > 6 300 substances au niveau le plus fin
Exemple
C10AA01
Simvastatine
L’ATC classe les médicaments selon une hiérarchie en cinq niveaux, du plus général au plus précis :
| Niveau | Code | Signification |
|---|---|---|
| 1 — Système anatomique | C | Système cardiovasculaire |
| 2 — Sous-groupe thérapeutique | C10 | Agents modifiant les lipides |
| 3 — Sous-groupe pharmacologique | C10A | Agents modifiant les lipides, simples |
| 4 — Sous-groupe chimique | C10AA | Inhibiteurs de la HMG-CoA réductase (statines) |
| 5 — Substance active | C10AA01 | Simvastatine |
La hiérarchie ATC, de l’organe cible à la molécule.
Cette hiérarchie est très pratique pour la recherche : on peut chercher tous les patients sous « statines » (niveau 4 : C10AA) sans avoir à lister chaque molécule individuellement (simvastatine, atorvastatine, rosuvastatine…).
ATC en pratique
Un chercheur veut étudier l’utilisation d’antibiotiques dans un service de réanimation. Plutôt que de chercher chaque molécule une par une, il utilise le code ATC J01 (antibactériens à usage systémique) — et obtient automatiquement tous les antibiotiques, quelle que soit la molécule prescrite.
Au-delà de l’ATC : identifier le médicament précis
L’ATC classe les médicaments par groupe thérapeutique, mais d’autres terminologies décrivent le médicament à un niveau plus fin — principe actif, dosage, forme pharmaceutique, voire contenu exact de la boîte. Il en existe de nombreuses, à différentes échelles :
- Nationales : UCD (Unité Commune de Dispensation) en France, dm+d au Royaume-Uni…
- Nord-américaines : RxNorm, produit par la National Library of Medicine (NLM)
- Internationales : IDMP (Identification of Medicinal Products), un ensemble de normes ISO en cours de déploiement par l’EMA et la FDA [10,11]
Ces terminologies capturent les médicaments à différents niveaux de granularité — de la substance active jusqu’à la présentation commerciale en passant par la formulation et le dosage. Le sujet est complexe et nous n’entrerons pas dans le détail ici.
ATC et terminologies de médicaments : deux niveaux de description
L’ATC répond à la question « à quelle classe thérapeutique appartient ce médicament ? » (ex. C10AA = statines). Les terminologies comme RxNorm ou UCD répondent à « quel médicament précis a été prescrit ? » (ex. simvastatine 20 mg comprimé). Dans un entrepôt de données, les deux niveaux sont utiles : l’ATC pour les analyses par classe, une terminologie de médicaments pour le détail des prescriptions.
Vue d’ensemble : quelle terminologie pour quel type de donnée ?
| Type de donnée | Terminologie de référence | Exemple de code |
|---|---|---|
| Diagnostics | CIM-10 (classification) / SNOMED CT (ontologie) | E11.9 / 44054006 |
| Biologie | LOINC (terminologie) | 2160-0 |
| Médicaments | ATC (classification) / RxNorm, UCD, IDMP… (terminologies) | C10AA01 |
| Paramètres vitaux | LOINC / SNOMED CT | 8867-4 (fréquence cardiaque) |
| Actes médicaux | SNOMED CT (ontologie) | 80146002 (appendicectomie) |
Chaque terminologie a son domaine de spécialité. En pratique, un entrepôt de données contient des codes issus de plusieurs terminologies à la fois — de la CIM-10 pour les diagnostics, des codes locaux de biologie (à aligner vers LOINC), des codes médicaments nationaux (à aligner vers ATC ou RxNorm), etc.
Le défi de l’alignement
Savoir que LOINC ou SNOMED CT existent ne suffit pas. Le vrai défi, c’est de faire correspondre les codes locaux de chaque hôpital avec les codes standardisés. Ce processus s’appelle l’alignement de concepts (ou concept mapping).
Alignement : du code local au code standard
Hôpital A
CREA
Code local
LOINC
2160-0
Code standard
Hôpital B
Créatinine sérique
Code local
Deux codes locaux différents → un seul code standard. C’est l’alignement (mapping).
Ce travail d’alignement est considérable. Un hôpital peut avoir des centaines de codes de biologie locaux à faire correspondre avec LOINC, des milliers de codes diagnostiques avec la CIM-10 ou SNOMED CT, et autant de codes médicaments avec ATC ou RxNorm.
Un travail d'expert et multidisciplinaire
L’alignement ne peut pas être entièrement automatisé. Il nécessite la collaboration d’experts métier (cliniciens, biologistes, pharmaciens — qui savent ce que le code local désigne réellement) et de data scientists (qui maîtrisent les terminologies cibles et les outils d’alignement). C’est un travail similaire à la mise en qualité des données décrite dans l’article 4 : laborieux, mais durable.
En pratique : les dictionnaires de données
Quand un projet de recherche multicentrique démarre, la première étape est de définir un dictionnaire de données : la liste des variables à collecter, avec pour chacune le code standard à utiliser.
Un bon exemple est le projet INDICATE (A Federated Infrastructure for ICU Data Across Europe), lancé en 2024. Ce projet européen vise à connecter les données de réanimation de plusieurs pays via une infrastructure fédérée — les données restent dans chaque hôpital, mais les analyses peuvent être exécutées de façon coordonnée.
Pour cela, INDICATE a défini un dictionnaire de données de 332 concept sets (ensembles de concepts), organisés en neuf catégories :
Démographie et séjours
14 concept sets
Conditions cliniques
17 concept sets
Observations cliniques
21 concept sets
Signes vitaux
10 concept sets
Biologie
76 concept sets
Microbiologie
48 concept sets
Ventilation
26 concept sets
Médicaments
112 concept sets
Procédures
8 concept sets
Les 332 concept sets du dictionnaire INDICATE, classés par catégorie.
Chaque concept set correspond à un concept clinique utilisé en recherche (par exemple « fréquence cardiaque » ou « diabète de type 2 ») et contient une liste précise de codes issus des terminologies standardisées — SNOMED CT pour les conditions et observations, LOINC pour la biologie, RxNorm pour les médicaments. Chaque concept set inclut également des descriptions détaillées pour guider le travail d’alignement, réalisé par des experts de chaque domaine (réanimateurs, biologistes, pharmaciens…). Le dictionnaire est consultable en ligne. Tout hôpital participant au projet sait exactement quelles données fournir et avec quels codes — c’est la puissance d’un dictionnaire de données standardisé.
Ce qu’il faut retenir
- Les terminologies médicales sont des vocabulaires standardisés qui permettent de nommer les données de santé de façon universelle : CIM-10 pour les diagnostics, LOINC pour la biologie, ATC pour les médicaments, SNOMED CT pour l'ensemble des concepts cliniques.
- Chaque terminologie a son domaine de spécialité — elles sont complémentaires, pas concurrentes.
- L'alignement de concepts (faire correspondre les codes locaux aux codes standards, ou concept mapping) est un travail d'expert multidisciplinaire, mais c'est un investissement durable qui rend les données exploitables à grande échelle.
- Les projets multicentriques s'appuient sur des dictionnaires de données standardisés pour définir précisément quelles variables collecter et avec quels codes.
Références
[1] Rodrigues JM et al. Classification, Ontology, and Precision Medicine. JMIR Med Inform. 2019. PMC6503847
[2] SNOMED International. What is the difference between a classification and a terminology? SNOMED International FAQ
[3] Steindel SJ. ICD-10: History and Context. J AHIMA. 2012. PMC7960170
[4] Horsky J et al. Accuracy and Completeness of Clinical Coding Using ICD-10 for Ambulatory Visits. AMIA Annu Symp Proc. 2017. PMC5977598
[5] Regenstrief Institute. LOINC 30th Anniversary. regenstrief.org
[6] Bodenreider O et al. SNOMED CT: A Clinical Terminology but Also a Formal Ontology. JBCS. 2023. scirp.org
[7] NLM. Overview of SNOMED CT. nlm.nih.gov
[8] IMO Health. SNOMED CT 101: A 2025 Guide. imohealth.com
[9] OMS. History of ATC/DDD. who.int
[10] FDA. Identification of Medicinal Products (IDMP). fda.gov
[11] UMC. IDMP — Global product and substance identifiers. who-umc.org