Parler le même langage : les terminologies médicales

En résumé

Chaque hôpital nomme et code ses données différemment. Pour pouvoir comparer des données entre établissements ou participer à des études multicentriques, il faut parler le même langage. C’est le rôle des terminologies médicales standardisées : des vocabulaires partagés, chacun spécialisé sur un type de donnée — diagnostics, biologie, médicaments, actes médicaux.

Le problème : chaque hôpital a son propre langage

Dans l’article précédent, nous avons vu que les données d’un entrepôt sont organisées en tables reliées entre elles. Dans la table de biologie, par exemple, une colonne paramètre contient le nom de l’examen : « Créatinine », « Leucocytes », « Glycémie »…

Cependant, ces noms ne sont pas universels. D’un hôpital à l’autre, la même créatinine peut s’appeler :

Hôpital	Libellé dans le système	Unité
CHU A	Créatinine	µmol/L
CHU B	CREA sérique	mg/L
Clinique C	Creat.	µmol/L

Trois noms différents, deux unités différentes — pour le même examen.

Tant que l’on travaille dans un seul hôpital, ce n’est pas un problème : tout le monde sait que « CREA sérique » désigne la créatinine. Dès que l’on veut comparer des données entre hôpitaux pour une étude multicentrique, il faut se mettre d’accord sur un langage commun.

C’est exactement le rôle des terminologies médicales.

Classification, terminologie, ontologie ?

Ces trois termes désignent des réalités différentes ^[1,2] :

Classification : système qui organise des concepts en catégories pour décrire un domaine de façon structurée. Certaines (comme la CIM-10) imposent des catégories mutuellement exclusives pour éviter les doubles comptages.
Terminologie : liste structurée de concepts avec des définitions et des relations entre eux — un concept peut avoir plusieurs parents (exemple : LOINC).
Ontologie : va plus loin en ajoutant des relations sémantiques formelles (logique de description) qui permettent le raisonnement automatique par une machine (exemple : SNOMED CT).

Quelques terminologies à connaître

CIM-10 — La classification des diagnostics

Si vous êtes clinicien en milieu hospitalier, vous connaissez probablement déjà la CIM-10 — vous l’utilisez chaque fois que vous codez un séjour.

Carte d’identité

Nom complet : Classification Internationale des Maladies, 10^e révision

En anglais : ICD-10 (International Classification of Diseases)

Type : Classification

Créée par : Organisation Mondiale de la Santé (OMS)

Première version : 1992 ^[3]

Domaine : Diagnostics

Nombre de codes : ~14 400 (version de base OMS), jusqu’à ~70 000 avec les extensions nationales (ex. ICD-10-CM aux États-Unis)

Exemple

E11.9

Diabète de type 2, sans complication

E	Maladies endocriniennes
11	Diabète de type 2
.9	Sans complication

Structure : chaque code commence par une lettre (le chapitre, par grande catégorie de maladie), suivie de deux chiffres (la catégorie), puis éventuellement d’un point et de chiffres supplémentaires (la précision). Par exemple, E11.9 : E pour le chapitre des maladies endocriniennes, 11 pour le diabète de type 2, .9 pour « sans complication ».

Forces : c’est la classification la plus répandue au monde. Pratiquement tous les pays l’utilisent. Les données administratives hospitalières (comme le PMSI en France) s’appuient sur la CIM-10 pour décrire les séjours et calculer les financements.

Limites : la CIM a été conçue à l’origine pour les statistiques de mortalité et de morbidité, pas pour la recherche clinique. Sa granularité est faible : elle ne capture ni la sévérité, ni la chronologie, ni le degré de certitude d’un diagnostic. Les codes attribués reflètent ce qui a été documenté pour le remboursement, pas nécessairement la réalité clinique complète.

CIM-10 et recherche : attention aux biais

Les codes CIM-10 sont souvent incomplets ou imprécis. Une étude a montré que seulement 56 % des codes diagnostiques saisis étaient appropriés, et que 26 % des diagnostics pertinents n’étaient tout simplement pas codés ^[4]. Pour la recherche, les données CIM-10 sont un point de départ, mais elles ne suffisent pas toujours.

Et la CIM-11 ?

La 11^e révision de la CIM a été publiée par l’OMS en 2019. Elle améliore considérablement la structure ontologique et la granularité. Son adoption internationale reste encore très limitée — la plupart des systèmes de santé utilisent toujours la CIM-10.

LOINC — Le langage de la biologie

Carte d’identité

Nom complet : Logical Observation Identifiers Names and Codes

Type : Terminologie

Créé par : Regenstrief Institute (Indianapolis, États-Unis)

Première version : 1994 ^[5]

Domaine : Examens de biologie, observations cliniques, scores, questionnaires

Nombre de codes : > 100 000 ^[5]

Exemple

2160-0

Créatinine sérique / plasmatique

LOINC répond à un problème simple : quand un laboratoire transmet un résultat de biologie, qu’est-ce qui a été mesuré exactement ? Chaque code LOINC identifie un examen de façon unique grâce à six dimensions :

Dimension	Question	Exemple
Composant	Qu’est-ce qu’on mesure ?	Créatinine
Propriété	Quel type de mesure ?	Concentration de masse
Temps	À quel moment ?	Ponctuel
Système	Dans quel échantillon ?	Sérum / Plasma
Échelle	Quantitatif ou qualitatif ?	Quantitatif
Méthode	Quelle technique analytique ?	(non spécifiée)

Les six dimensions d’un code LOINC, illustrées avec la créatinine sérique.

LOINC couvre la biologie (chimie, hématologie, microbiologie, sérologie, toxicologie), mais aussi les observations cliniques (scores comme le SOFA ou le Glasgow, résultats d’imagerie, questionnaires de qualité de vie) et les paramètres vitaux.

Le problème que LOINC résout

Dans un hôpital, le dosage de créatinine s’appelle « CREA ». Dans un autre, « Créatinine sérique ». Dans un troisième, « S-Creat ». Ces trois examens correspondent au même code LOINC : 2160-0. En alignant (ou mappant) les codes locaux vers LOINC, on peut comparer des résultats de biologie entre établissements, même si chacun utilise un logiciel différent.

SNOMED CT — Le vocabulaire clinique le plus complet

Carte d’identité

Nom complet : Systematized Nomenclature of Medicine — Clinical Terms

Type : Terminologie et ontologie ^[6]

Créé par : SNOMED International (anciennement IHTSDO)

Première version : 2002 (fusion de SNOMED RT et de la Clinical Terms Version 3) ^[7]

Domaine : Pathologies, actes médicaux, anatomie, organismes, substances…

Nombre de concepts : ~370 000 concepts actifs ^[8]

Exemple

44054006

Diabète de type 2

Là où la CIM-10 classe les maladies en grandes catégories, SNOMED CT est un véritable vocabulaire clinique : il décrit le monde médical dans toute sa richesse. Il couvre non seulement les pathologies (maladies, symptômes), mais aussi les actes médicaux, l’anatomie, les organismes (bactéries, virus), les substances, les dispositifs médicaux…

La particularité de SNOMED CT est sa polyhiérarchie : un concept peut appartenir à plusieurs catégories à la fois. Par exemple, l’infarctus du myocarde est à la fois une « maladie cardiaque » et une « maladie ischémique ». Cette structure permet des recherches très puissantes : on peut interroger toutes les maladies cardiaques d’un seul coup, et l’infarctus sera inclus automatiquement.

SNOMED CT est aussi une ontologie : ses concepts sont définis par des relations sémantiques formelles (logique de description), ce qui permet à une machine de raisonner automatiquement sur les données ^[6].

SNOMED CT vs CIM-10 : complémentaires, pas concurrents

La CIM-10 est une classification conçue pour les statistiques épidémiologiques, aujourd’hui largement utilisée pour la facturation. SNOMED CT est une terminologie / ontologie conçue pour la description clinique détaillée. Un hôpital peut utiliser la CIM-10 pour le codage administratif et SNOMED CT pour la recherche — ce ne sont pas des alternatives mais des outils complémentaires, chacun avec sa finalité ^[2].

ATC — La classification des médicaments

Carte d’identité

Nom complet : Anatomical Therapeutic Chemical Classification System

Type : Classification

Créé par : Centre collaborateur de l’OMS pour les statistiques pharmaceutiques (Oslo, Norvège)

Première version : 1976 ^[9]

Domaine : Médicaments (principes actifs)

Nombre de codes : > 6 300 substances au niveau le plus fin

Exemple

C10AA01

Simvastatine

L’ATC classe les médicaments selon une hiérarchie en cinq niveaux, du plus général au plus précis :

Niveau	Code	Signification
1 — Système anatomique	C	Système cardiovasculaire
2 — Sous-groupe thérapeutique	C10	Agents modifiant les lipides
3 — Sous-groupe pharmacologique	C10A	Agents modifiant les lipides, simples
4 — Sous-groupe chimique	C10AA	Inhibiteurs de la HMG-CoA réductase (statines)
5 — Substance active	C10AA01	Simvastatine

La hiérarchie ATC, de l’organe cible à la molécule.

Cette hiérarchie est très pratique pour la recherche : on peut chercher tous les patients sous « statines » (niveau 4 : C10AA) sans avoir à lister chaque molécule individuellement (simvastatine, atorvastatine, rosuvastatine…).

ATC en pratique

Un chercheur veut étudier l’utilisation d’antibiotiques dans un service de réanimation. Plutôt que de chercher chaque molécule une par une, il utilise le code ATC J01 (antibactériens à usage systémique) — et obtient automatiquement tous les antibiotiques, quelle que soit la molécule prescrite.

Au-delà de l’ATC : identifier le médicament précis

L’ATC classe les médicaments par groupe thérapeutique, mais d’autres terminologies décrivent le médicament à un niveau plus fin — principe actif, dosage, forme pharmaceutique, voire contenu exact de la boîte. Il en existe de nombreuses, à différentes échelles :

Nationales : UCD (Unité Commune de Dispensation) en France, dm+d au Royaume-Uni…
Nord-américaines : RxNorm, produit par la National Library of Medicine (NLM)
Internationales : IDMP (Identification of Medicinal Products), un ensemble de normes ISO en cours de déploiement par l’EMA et la FDA ^[10,11]

Ces terminologies capturent les médicaments à différents niveaux de granularité — de la substance active jusqu’à la présentation commerciale en passant par la formulation et le dosage. Le sujet est complexe et nous n’entrerons pas dans le détail ici.

ATC et terminologies de médicaments : deux niveaux de description

L’ATC répond à la question « à quelle classe thérapeutique appartient ce médicament ? » (ex. C10AA = statines). Les terminologies comme RxNorm ou UCD répondent à « quel médicament précis a été prescrit ? » (ex. simvastatine 20 mg comprimé). Dans un entrepôt de données, les deux niveaux sont utiles : l’ATC pour les analyses par classe, une terminologie de médicaments pour le détail des prescriptions.

Vue d’ensemble : quelle terminologie pour quel type de donnée ?

Type de donnée	Terminologie de référence	Exemple de code
Diagnostics	CIM-10 (classification) / SNOMED CT (ontologie)	E11.9 / 44054006
Biologie	LOINC (terminologie)	2160-0
Médicaments	ATC (classification) / RxNorm, UCD, IDMP… (terminologies)	C10AA01
Paramètres vitaux	LOINC / SNOMED CT	8867-4 (fréquence cardiaque)
Actes médicaux	SNOMED CT (ontologie)	80146002 (appendicectomie)

Chaque terminologie a son domaine de spécialité. En pratique, un entrepôt de données contient des codes issus de plusieurs terminologies à la fois — de la CIM-10 pour les diagnostics, des codes locaux de biologie (à aligner vers LOINC), des codes médicaments nationaux (à aligner vers ATC ou RxNorm), etc.

Le défi de l’alignement

Savoir que LOINC ou SNOMED CT existent ne suffit pas. Le vrai défi, c’est de faire correspondre les codes locaux de chaque hôpital avec les codes standardisés. Ce processus s’appelle l’alignement de concepts (ou concept mapping).

Alignement : du code local au code standard

Hôpital A

CREA

Code local

→

LOINC

2160-0

Code standard

←

Hôpital B

Créatinine sérique

Code local

Deux codes locaux différents → un seul code standard. C’est l’alignement (mapping).

Ce travail d’alignement est considérable. Un hôpital peut avoir des centaines de codes de biologie locaux à faire correspondre avec LOINC, des milliers de codes diagnostiques avec la CIM-10 ou SNOMED CT, et autant de codes médicaments avec ATC ou RxNorm.

Un travail d'expert et multidisciplinaire

L’alignement ne peut pas être entièrement automatisé. Il nécessite la collaboration d’experts métier (cliniciens, biologistes, pharmaciens — qui savent ce que le code local désigne réellement) et de data scientists (qui maîtrisent les terminologies cibles et les outils d’alignement). C’est un travail similaire à la mise en qualité des données décrite dans l’article 4 : laborieux, mais durable.

En pratique : les dictionnaires de données

Quand un projet de recherche multicentrique démarre, la première étape est de définir un dictionnaire de données : la liste des variables à collecter, avec pour chacune le code standard à utiliser.

Un bon exemple est le projet INDICATE (A Federated Infrastructure for ICU Data Across Europe), lancé en 2024. Ce projet européen vise à connecter les données de réanimation de plusieurs pays via une infrastructure fédérée — les données restent dans chaque hôpital, mais les analyses peuvent être exécutées de façon coordonnée.

Pour cela, INDICATE a défini un dictionnaire de données de 332 concept sets (ensembles de concepts), organisés en neuf catégories :

Démographie et séjours

14 concept sets

Conditions cliniques

17 concept sets

Observations cliniques

21 concept sets

Signes vitaux

10 concept sets

Biologie

76 concept sets

Microbiologie

48 concept sets

Ventilation

26 concept sets

Médicaments

112 concept sets

Procédures

8 concept sets

Les 332 concept sets du dictionnaire INDICATE, classés par catégorie.

Chaque concept set correspond à un concept clinique utilisé en recherche (par exemple « fréquence cardiaque » ou « diabète de type 2 ») et contient une liste précise de codes issus des terminologies standardisées — SNOMED CT pour les conditions et observations, LOINC pour la biologie, RxNorm pour les médicaments. Chaque concept set inclut également des descriptions détaillées pour guider le travail d’alignement, réalisé par des experts de chaque domaine (réanimateurs, biologistes, pharmaciens…). Le dictionnaire est consultable en ligne. Tout hôpital participant au projet sait exactement quelles données fournir et avec quels codes — c’est la puissance d’un dictionnaire de données standardisé.

Ce qu’il faut retenir

Les terminologies médicales sont des vocabulaires standardisés qui permettent de nommer les données de santé de façon universelle : CIM-10 pour les diagnostics, LOINC pour la biologie, ATC pour les médicaments, SNOMED CT pour l'ensemble des concepts cliniques.
Chaque terminologie a son domaine de spécialité — elles sont complémentaires, pas concurrentes.
L'alignement de concepts (faire correspondre les codes locaux aux codes standards, ou concept mapping) est un travail d'expert multidisciplinaire, mais c'est un investissement durable qui rend les données exploitables à grande échelle.
Les projets multicentriques s'appuient sur des dictionnaires de données standardisés pour définir précisément quelles variables collecter et avec quels codes.

Références

[1] Rodrigues JM et al. Classification, Ontology, and Precision Medicine. JMIR Med Inform. 2019. PMC6503847

[2] SNOMED International. What is the difference between a classification and a terminology? SNOMED International FAQ

[3] Steindel SJ. ICD-10: History and Context. J AHIMA. 2012. PMC7960170

[4] Horsky J et al. Accuracy and Completeness of Clinical Coding Using ICD-10 for Ambulatory Visits. AMIA Annu Symp Proc. 2017. PMC5977598

[5] Regenstrief Institute. LOINC 30th Anniversary. regenstrief.org

[6] Bodenreider O et al. SNOMED CT: A Clinical Terminology but Also a Formal Ontology. JBCS. 2023. scirp.org

[7] NLM. Overview of SNOMED CT. nlm.nih.gov

[8] IMO Health. SNOMED CT 101: A 2025 Guide. imohealth.com

[9] OMS. History of ATC/DDD. who.int

[10] FDA. Identification of Medicinal Products (IDMP). fda.gov

[11] UMC. IDMP — Global product and substance identifiers. who-umc.org