En résumé
Le modèle OMOP CDM (Observational Medical Outcomes Partnership Common Data Model) est devenu le standard mondial pour structurer les données de santé observationnelles. Né d’un projet de pharmacovigilance américain en 2008, il est aujourd’hui porté par la communauté OHDSI — un réseau ouvert de plus de 4 700 collaborateurs dans 88 pays, représentant près d’un milliard de dossiers patients.
Ce que vous savez déjà
Si vous avez suivi les articles de la section Comprendre les bases, vous avez déjà une bonne intuition des problèmes que résout OMOP :
- Les données de santé sont dispersées dans de multiples logiciels hospitaliers, chacun avec son propre format (article 1).
- Pour les exploiter en recherche, il faut les rassembler dans un entrepôt de données de santé (EDS) via un processus ETL (article 3).
- Ces données sont organisées en tables reliées entre elles, au format long (article 5).
- Et chaque hôpital utilise des codes différents pour désigner la même chose — d’où le besoin de terminologies standardisées (article 6).
OMOP est la réponse à tous ces problèmes : un modèle de données commun qui définit à la fois la structure des tables (interopérabilité structurelle) et les vocabulaires à utiliser (interopérabilité sémantique).
Mais pour comprendre pourquoi OMOP s’est imposé, il faut remonter à ses origines.
Les origines : le projet OMOP (2008–2013)
Un problème de pharmacovigilance
En 2007, le médicament antidiabétique rosiglitazone (Avandia) a fait l’objet d’une alerte de sécurité majeure : une méta-analyse publiée dans le New England Journal of Medicine (Nissen & Wolski, 2007) suggérait un risque cardiovasculaire accru. Le médicament était alors prescrit à des millions de patients dans le monde.
Ce cas a mis en lumière une question fondamentale : peut-on utiliser les données de santé déjà collectées en routine (bases de données d’assurance maladie, dossiers hospitaliers, registres) pour détecter les effets indésirables des médicaments avant qu’une catastrophe ne survienne ?
La création du projet OMOP
C’est dans ce contexte que le projet OMOP (Observational Medical Outcomes Partnership) a vu le jour en 2008, sous la forme d’un partenariat public-privé coordonné par la FNIH (Foundation for the National Institutes of Health) et supervisé par la FDA (Food and Drug Administration).
L’objectif était ambitieux : évaluer scientifiquement si les méthodes d’analyse des données observationnelles pouvaient identifier de manière fiable les effets indésirables des médicaments — et si oui, quelles méthodes fonctionnaient le mieux.
Qu'est-ce qu'une donnée observationnelle ?
Contrairement aux données d’un essai clinique randomisé (où les patients sont assignés à un traitement), les données observationnelles proviennent du soin courant : dossiers patient informatisés, bases de remboursement, registres, etc. Elles reflètent la pratique médicale réelle, mais sont plus sujettes aux biais.
Le Common Data Model
Pour comparer les méthodes sur différentes bases de données, les chercheurs du projet OMOP avaient besoin d’un format commun. Ils ont donc créé le Common Data Model (CDM) : un schéma relationnel dans lequel toutes les bases de données partenaires devaient transformer leurs données.
Ce modèle a été conçu avec des principes clairs :
- Centré sur le patient : chaque événement clinique est rattaché à un patient et daté.
- Standardisé sémantiquement : les codes locaux de chaque hôpital sont convertis vers des vocabulaires standards (SNOMED CT pour les diagnostics, RxNorm pour les médicaments, LOINC pour la biologie…).
- Agnostique de la technologie : le modèle fonctionne sur n’importe quelle base de données relationnelle (PostgreSQL, SQL Server, Oracle…).
- Traçable : les codes sources originaux sont conservés en parallèle des codes standards, pour permettre la vérification.
Les résultats
Le projet OMOP a produit des résultats majeurs entre 2010 et 2013 :
- OMOP Experiment (Ryan et al., 2012) : une évaluation systématique de méthodes de détection de signaux de sécurité sur 10 bases de données et 399 couples médicament-effet indésirable. L’étude a montré que certaines méthodes étaient significativement plus performantes que d’autres.
- OMOP CDM v4 : la première version mature du modèle de données, utilisée par les partenaires du projet.
- Vocabulaires standardisés : un système de mapping entre les codes locaux et les terminologies standards, géré via l’outil ATHENA.
Quand le projet OMOP a atteint la fin de son mandat en 2013, la communauté qui s’était formée autour de lui a refusé de se disperser. Elle allait donner naissance à quelque chose de bien plus grand.
La naissance d’OHDSI (2014)
D’un projet à une communauté
En 2014, les chercheurs et institutions impliqués dans OMOP ont fondé OHDSI (Observational Health Data Sciences and Informatics, prononcé « Odyssée ») — une communauté internationale ouverte dont le centre de coordination est basé à Columbia University (New York).
La mission d'OHDSI
« Améliorer la santé en permettant à une communauté de générer collaborativement les preuves qui favorisent de meilleures décisions de santé et de meilleurs soins. »
Contrairement au projet OMOP qui était un programme de recherche financé avec un début et une fin, OHDSI est conçu comme une communauté pérenne, ouverte à tous, sans frais d’adhésion, et fondée sur des principes clairs :
- Ouverture : toutes les méthodes, outils et résultats sont publiquement accessibles.
- Reproductibilité : les analyses doivent être reproductibles et bien calibrées.
- Collaboration : les priorités sont définies collectivement.
- Innovation : encouragement des approches méthodologiques nouvelles.
- Bénéficence : protection des droits des participants.
Le modèle de recherche distribuée
L’un des aspects les plus innovants d’OHDSI est son modèle de recherche fédérée :
- Chaque institution conserve ses données en local — les données patient ne quittent jamais l’hôpital.
- Un protocole d’étude et un code d’analyse sont partagés avec les partenaires.
- Chaque partenaire exécute le code sur ses propres données.
- Seuls les résultats agrégés (pas de données individuelles) sont partagés pour la synthèse.
Ce modèle respecte la souveraineté des données et la vie privée des patients, tout en permettant des études à une échelle impossible autrement. Il est parfaitement compatible avec les réglementations comme le RGPD en Europe.
OHDSI aujourd’hui : une communauté mondiale
Les chiffres
En 2026, OHDSI représente :
- 4 700+ collaborateurs dans 88 pays
- 544 sources de données standardisées dans 54 pays
- 974 millions+ de dossiers patients uniques mappés au format OMOP CDM
- Un réseau qui couvre tous les continents
Les chapitres régionaux
La communauté s’est structurée en chapitres régionaux :
- OHDSI Europe — basé à l’Erasmus MC (Rotterdam), avec un symposium annuel
- OHDSI Asie-Pacifique — 7 chapitres : Australie, Chine, Inde, Japon, Singapour, Corée du Sud, Taïwan
- Des communautés actives en Amérique latine et en Afrique
La communauté en action
OHDSI est animé par de multiples canaux de collaboration :
- Les Forums OHDSI (forums.ohdsi.org) : le lieu principal de discussion
- Les community calls hebdomadaires : présentations de recherche, démos d’outils, débats méthodologiques
- Les symposiums annuels : conférences scientifiques avec sessions plénières, posters, tutoriels pratiques
- Les study-a-thons et hack-a-thons : sessions intensives de travail collaboratif
- 20+ groupes de travail : CDM & Vocabulaires, Estimation, Prédiction, ATLAS, NLP, Génomique, FHIR, Qualité des données…
Des études qui ont changé la donne
Parcours thérapeutiques (2015)
La première grande étude réseau d’OHDSI a porté sur les parcours thérapeutiques de trois maladies chroniques — diabète, dépression et hypertension — à travers 11 sources de données et 250 millions de patients. Publiée dans les Proceedings of the National Academy of Sciences (Hripcsak et al., 2016), cette étude a révélé des variations géographiques surprenantes dans les traitements prescrits en première intention.
LEGEND
Le programme LEGEND (Large-scale Evidence Generation and Evaluation across a Network of Databases) a introduit un nouveau paradigme : au lieu de comparer deux traitements à la fois, LEGEND compare tous les traitements d’une maladie simultanément, sur toutes les issues cliniques pertinentes. Pour le diabète de type 2 seul (LEGEND-T2DM), l’étude a porté sur 190 millions de patients. Un résultat majeur publié dans The Lancet a montré que l’antihypertenseur le plus prescrit au monde n’était pas le plus efficace.
COVID-19 (mars 2020)
En mars 2020, la communauté OHDSI a organisé un study-a-thon COVID-19 : 330+ participants de 30 pays ont travaillé pendant 88 heures pour produire des protocoles d’étude, des cohortes et des analyses. Parmi les résultats :
- L’étude de sécurité de l’hydroxychloroquine a porté sur 956 374 utilisateurs à travers 14 sources de données dans 6 pays. Publiée dans The Lancet Rheumatology (Lane et al., 2020), elle a été citée par l’Agence Européenne du Médicament (EMA) dans un avertissement sur les effets secondaires graves.
- Le modèle de prédiction COVER a été le premier modèle de prédiction COVID-19 développé et validé par OHDSI.
L’écosystème d’outils open source
OHDSI ne propose pas seulement un modèle de données — c’est un écosystème complet d’outils open source :
ATLAS
Plateforme web pour concevoir des cohortes, caractériser des populations, estimer des effets et prédire des issues cliniques — sans écrire de code.
ACHILLES
Outil de caractérisation et de contrôle qualité automatisé de bases de données au format OMOP CDM.
ATHENA
Dictionnaire de référence : 10 millions+ de concepts médicaux issus de 136 vocabulaires, avec leurs relations et hiérarchies.
HADES
Collection de packages R pour l’analyse à grande échelle : caractérisation, estimation de population, prédiction patient.
Les versions du CDM
Le modèle de données a évolué au fil du temps :
| Version | Année | Évolution principale |
|---|---|---|
| v4 | 2012 | Première version mature, utilisée dans le projet OMOP |
| v5.0 | 2014 | Refonte majeure à la création d’OHDSI, ajout de tables de coûts et de notes |
| v5.2 | 2017 | Ajout de SURVEY_CONDUCT, améliorations des tables de coûts |
| v5.3 | 2018 | Ajout de VISIT_DETAIL, stabilisation |
| v5.4 | 2021 | Version actuelle — ajout de tables épisodes et d’événements médicaments |
La v5.4 est la version actuellement supportée par tous les outils OHDSI. Une nouvelle version de la série v5 est prévue pour 2026.
Les grands projets autour d’OMOP
L’adoption d’OMOP ne se limite plus à la communauté académique. Des institutions nationales et des projets internationaux majeurs l’ont adopté.
En Europe
EHDEN (European Health Data & Evidence Network, 2018–2024) a été le catalyseur de l’adoption d’OMOP en Europe. Financé par l’IMI2 à hauteur de 31 millions d’euros, ce projet a harmonisé 850 millions+ de dossiers dans 210 sources de données à travers 30 pays. EHDEN a formé et certifié 64 PME pour accompagner les hôpitaux dans la transformation de leurs données. Le projet s’est transformé en fondation pérenne en 2024.
DARWIN EU (Data Analysis and Real World Interrogation Network) est le réseau de données en vie réelle de l’Agence Européenne du Médicament (EMA), opérationnel depuis 2022. Avec 30 partenaires dans 16 pays européens et 180 millions de patients, il produit des études réglementaires en 4 mois en moyenne — un délai sans précédent. C’est le premier réseau de Real World Evidence intégré directement à la régulation pharmaceutique européenne.
L’EHDS (European Health Data Space), dont le règlement a été adopté le 11 février 2025 et est entré en vigueur le 26 mars 2025, positionne OMOP comme un standard d’interopérabilité clé pour l’utilisation secondaire des données de santé en Europe.
D’autres projets européens ont également adopté OMOP :
- PIONEER (IMI2) : 3,5 millions de patients atteints de cancer de la prostate
- HARMONY (IMI/IHI) : 120 000+ dossiers en hématologie
- BigData@Heart (IMI, 2017–2023) : 5 millions+ de patients cardiovasculaires
- INDICATE (EIT Health, 2024) : infrastructure fédérée pour les données de réanimation
Aux États-Unis
All of Us (NIH) est l’un des plus grands programmes de médecine de précision au monde, avec 700 000+ participants dont les données EHR sont harmonisées en OMOP CDM.
CHoRUS (NIH Bridge2AI, 2022) réunit 14 hôpitaux américains autour d’un jeu de données multimodal (EHR, waveforms, imagerie) de 50 000 admissions en réanimation, avec 1,6 milliard de lignes au format OMOP.
Initiatives nationales
| Pays | Initiative | Échelle |
|---|---|---|
| France | Health Data Hub — conversion du SNDS en OMOP | Échantillon de 3M patients |
| Corée du Sud | HIRA K-OMOP — données nationales de remboursement | 56,4M patients (population entière) |
| Royaume-Uni | NHS SDEs — adoption d’OMOP comme standard | Réseau national de Secure Data Environments |
| Canada | Health Data Research Network Canada | 4 provinces |
| Australie | Patron — base de soins primaires | 2M patients, 140+ cabinets |
| Singapour | Collaboration ministérielle | Plateforme nationale de recherche |
La convergence FHIR–OMOP
Deux standards dominent aujourd’hui le monde des données de santé :
- FHIR (Fast Healthcare Interoperability Resources) : le standard pour l’échange de données en temps réel dans le cadre du soin (prescriptions, résultats de labo, transferts entre systèmes).
- OMOP CDM : le standard pour l’analyse à grande échelle des données observationnelles en recherche.
Ces deux standards sont complémentaires, pas concurrents. Un Implementation Guide FHIR-to-OMOP est actuellement en cours de standardisation via HL7, avec un ballot en septembre 2025. L’objectif : faciliter la transformation automatique des données de FHIR vers OMOP pour la recherche.
Et Linkr dans tout ça ?
Linkr intègre nativement le modèle OMOP CDM. La plateforme permet aux cliniciens d’exploiter des données au format OMOP sans avoir besoin de maîtriser SQL ou les détails techniques du modèle — tout en offrant aux data scientists un accès complet au CDM pour des analyses avancées.
- OMOP est né en 2008 d'un projet de pharmacovigilance américain (FDA/FNIH) et a évolué en un standard mondial porté par la communauté OHDSI depuis 2014.
- OHDSI rassemble 4 700+ collaborateurs dans 88 pays, avec 974 millions+ de dossiers patients standardisés.
- Le modèle fédéré garantit que les données ne quittent jamais l'hôpital — seuls le code et les résultats agrégés circulent.
- L'adoption institutionnelle s'accélère : EMA (DARWIN EU), NHS, NIH (All of Us), Health Data Hub, EHDS.
- L'écosystème d'outils open source (ATLAS, ACHILLES, ATHENA, HADES) rend OMOP accessible à tous.