Linkr
Accueil Ressources Outils Documentation Blog Démo
EN
  • Panorama des bases de données publiques en santé
  • La base MIMIC
1/5
10 min Boris Delange · 22/04/2026

Panorama des bases de données publiques en santé

Tour d'horizon des entrepôts de données de santé en libre accès pour la recherche : MIMIC, eICU-CRD, AmsterdamUMCdb, HiRID, SICdb et autres.

En résumé

Plusieurs entrepôts de données de santé sont accessibles publiquement pour la recherche et l’apprentissage — MIMIC, eICU-CRD, AmsterdamUMCdb, HiRID, SICdb. La plupart concernent la réanimation, car c’est là que les données sont les plus denses et les mieux structurées. Cet article propose un tour d’horizon pour vous aider à choisir celle qui correspond à votre projet.

Pourquoi des bases publiques ?

Comme nous l’avons vu dans l’article sur les entrepôts de données de santé, la plupart des hôpitaux disposent désormais d’un EDS interne, mais l’accès à ces données reste encadré par des démarches réglementaires longues. Les bases publiques offrent une alternative précieuse : données anonymisées, mises à disposition de la communauté scientifique sous conditions, avec un schéma documenté et une communauté active autour.

Elles servent trois usages principaux :

  • Apprentissage — manipuler des données cliniques réelles, s’entraîner au SQL, tester des méthodes statistiques ou des modèles de machine learning sur un terrain représentatif.
  • Recherche — publier des études observationnelles, comparer des pratiques, tester des hypothèses cliniques sur des cohortes de plusieurs dizaines de milliers de patients.
  • Reproductibilité — rejouer les analyses d’une publication sur les mêmes données, et proposer des études multicentriques internationales en conjuguant plusieurs bases.

Pourquoi surtout la réanimation ?

La grande majorité des bases publiques concernent les soins intensifs (Kallout et al., 2025). En réanimation, la plupart des données (paramètres vitaux, ventilation, médicaments) sont saisies en continu dans un logiciel unique (patient data management system), ce qui facilite leur extraction et leur anonymisation. Dans les autres services de médecine, les données sont moins denses, plus hétérogènes et dispersées entre plusieurs logiciels — ce qui complique la construction de bases cohérentes et partageables.

Un bref historique

L’ouverture des données cliniques à la communauté scientifique est un mouvement relativement récent.

  • 1996 — Premiers travaux préparatoires au MIT (Moody & Mark, 1996) avec une base conçue pour le développement et l’évaluation d’algorithmes de monitoring en réanimation.
  • 2003 — Lancement du projet MIMIC avec un financement NIH, en collaboration entre le MIT, Beth Israel Deaconess Medical Center et Philips Medical Systems.
  • 2011 — Ouverture publique de MIMIC-II sur PhysioNet (Saeed et al., 2011, Critical Care Medicine). Pour la première fois, une base de données de réanimation est accessible à tout chercheur ayant validé une formation en éthique.
  • 2016 — Sortie de MIMIC-III (Johnson et al., 2016, Scientific Data), qui devient la référence mondiale pour la recherche en soins intensifs.
  • 2018 — Publication de l’eICU Collaborative Research Database (Pollard et al., 2018, Scientific Data), première base multicentrique avec plus de 200 000 séjours provenant de 208 hôpitaux américains.
  • 2019 — Première base européenne en libre accès : AmsterdamUMCdb (article de référence Thoral et al., 2021, Critical Care Medicine).
  • 2020 — Sortie de HiRID (Bern University Hospital, Suisse), avec une résolution temporelle très fine pour certains paramètres. Article de référence : Hyland et al., 2020, Nature Medicine.
  • 2023 — Publication de MIMIC-IV (Johnson et al., 2023, Scientific Data) et de SICdb (Rodemund et al., 2023, Intensive Care Medicine).

Ce mouvement s’accompagne de la montée en puissance du modèle OMOP (voir notre article sur les entrepôts de données de santé), qui standardise les schémas et permet d’appliquer les mêmes requêtes SQL sur plusieurs bases.

Les principales bases

MIMIC (États-Unis)

La base MIMIC (Medical Information Mart for Intensive Care) est la plus connue et la plus utilisée. Elle contient les données de patients admis en réanimation au Beth Israel Deaconess Medical Center (Boston). Trois versions coexistent (MIMIC-III, MIMIC-IV, MIMIC-ED pour les urgences), avec des centaines de publications par an qui l’utilisent comme terrain d’expérimentation.

  • Nombre de patients : ~65 000 patients en réanimation pour ~94 000 séjours ICU, sur ~365 000 patients hospitalisés et ~546 000 hospitalisations (MIMIC-IV v3.1, octobre 2024)
  • Période : 2008-2022
  • Type de centre : monocentrique, tertiaire
  • Accès : PhysioNet, formation CITI requise
  • Modèle de données : schéma natif + version OMOP CDM v5.4 disponible
  • Démo : 100 patients en accès libre sans inscription

Un article dédié est disponible : la base MIMIC.

eICU-CRD (États-Unis, multicentrique)

L’eICU Collaborative Research Database est la seule base multicentrique du lot. Les données proviennent du programme de télémédecine Philips eICU, qui centralise les informations de 208 hôpitaux américains.

  • Nombre de séjours : >200 000 admissions pour ~139 000 patients uniques sur 2014-2015
  • Type de centres : 335 unités dans 208 hôpitaux, mix universitaires et communautaires
  • Accès : PhysioNet, formation CITI requise
  • Modèle de données : schéma natif propre à eICU (pas d’ETL OMOP officiel à ce jour, quelques initiatives communautaires)
  • Intérêt particulier : diversité des pratiques (hôpitaux de tailles et niveaux variés), idéal pour les études de généralisabilité

AmsterdamUMCdb (Pays-Bas)

AmsterdamUMCdb est la première base européenne en libre accès. Elle est endossée par l’ESICM (European Society of Intensive Care Medicine) et alimentée par l’Amsterdam UMC.

  • Nombre d’admissions : 23 106 admissions pour 20 109 patients uniques, sur 2003-2016
  • Type de centre : monocentrique, universitaire
  • Accès : amsterdammedicaldatascience.nl (code & documentation sur GitHub), formation et DUA requis
  • Intérêt particulier : première base européenne, pratiques cliniques différentes des États-Unis (ventilation, sédation, codage)

HiRID (Suisse)

HiRID (High time Resolution ICU Dataset) provient du Bern University Hospital. Sa particularité est la très haute résolution temporelle : les paramètres vitaux sont disponibles à la minute pour certaines variables.

  • Nombre d’admissions : ~34 000 sur 2008-2016
  • Type de centre : monocentrique, universitaire
  • Accès : PhysioNet, formation CITI requise
  • Intérêt particulier : résolution temporelle fine, très utilisée pour les modèles de prédiction temporels (séries temporelles, deep learning)

SICdb (Autriche)

La Salzburg Intensive Care database est la plus récente du panorama. Elle contient des données granulaires à la minute, avec une attention particulière portée aux signaux physiologiques.

  • Nombre d’admissions : >27 000 sur 2013-2021
  • Type de centre : monocentrique (4 réanimations du CHU de Salzbourg)
  • Accès : PhysioNet, formation CITI requise
  • Intérêt particulier : granularité à la minute, données récentes

Autres bases notables

  • NWICU (Northwestern ICU) — base américaine récente issue du réseau Northwestern Memorial HealthCare (12 hôpitaux à Chicago), >25 000 patients sur 2020-2022. Accès PhysioNet.
  • ZFPH (Zigong Fourth People’s Hospital, Chine) — 2 790 patients sur 2019-2020, centrée sur les patients infectés (sepsis, choc septique), intérêt pour élargir la diversité géographique. Accès PhysioNet.
  • PIC (Paediatric Intensive Care) — base pédiatrique chinoise (Children’s Hospital, Zhejiang University) sur 2010-2018, complémentaire aux bases adultes ci-dessus. Accès PhysioNet.

Bases spécialisées : au-delà des données structurées

Les bases précédentes contiennent surtout des données structurées (valeurs de laboratoire, médicaments, diagnostics codés). Mais en recherche clinique, on s’intéresse aussi aux images, au texte libre et aux signaux physiologiques bruts. Plusieurs bases publiques existent pour ces modalités, souvent chaînées à MIMIC pour enrichir les analyses.

Imagerie : MIMIC-CXR

MIMIC-CXR contient 377 110 radiographies thoraciques issues de 227 835 examens réalisés au Beth Israel Deaconess Medical Center (Johnson et al., 2019). Chaque image est associée au compte rendu du radiologue en texte libre. C’est la base de référence pour la recherche en imagerie médicale et pour les modèles d’IA en radiologie.

Point clé : les identifiants patients sont compatibles avec MIMIC-IV — on peut donc relier une radiographie à l’ensemble du dossier clinique du patient (biologie, diagnostics, mortalité…), ce qui ouvre la voie à des études multimodales.

Notes cliniques : MIMIC-IV-Note

MIMIC-IV-Note contient ~332 000 comptes rendus d’hospitalisation et ~2,3 millions de comptes rendus d’imagerie dé-identifiés, associés à MIMIC-IV. Utile pour le traitement du langage naturel (NLP) en santé : extraction d’entités, classification de documents, entraînement de LLM médicaux.

Dé-identification du texte libre

Le texte libre est particulièrement difficile à dé-identifier : un nom de médecin, une adresse, une date précise peuvent y apparaître n’importe où. MIMIC-IV-Note utilise un processus combinant règles et modèles automatiques, avec une validation manuelle.

Signaux haute résolution : VitalDB

VitalDB est une base coréenne (Seoul National University Hospital) d’un genre un peu différent : elle contient les signaux physiologiques bruts de 6 388 patients opérés (données peropératoires) (Lee et al., 2022). Les signaux sont enregistrés à haute fréquence — jusqu’à 500 Hz pour les ondes (ECG, pression artérielle, EEG, pléthysmographie) et 1 à 7 secondes pour les valeurs numériques.

  • ~486 000 pistes de données par patient
  • 196 paramètres peropératoires, 73 cliniques, 34 biologiques
  • Accès totalement libre (pas de formation CITI, simple inscription)
  • Cas d’usage typiques : prédiction d’hypotension peropératoire, algorithmes de monitoring, deep learning sur séries temporelles haute fréquence

Un autre niveau de granularité

Dans MIMIC ou HiRID, la pression artérielle est enregistrée toutes les minutes ou toutes les heures. Dans VitalDB, on a l’onde de pression complète à 500 Hz — soit 500 points par seconde. C’est une autre échelle de travail, avec des méthodes de traitement du signal adaptées.

Pour aller plus loin

Deux revues de la littérature récentes proposent un panorama très détaillé de l’écosystème des bases publiques en réanimation, avec des comparatifs précis que cet article ne peut pas reproduire intégralement :

  • Kallout et al., 2025 — Contribution of Open Access Databases to Intensive Care Medicine Research: Scoping Review. Revue récente, centrée sur l’usage et la contribution à la littérature.
  • Sauer et al., 2022 — Systematic Review and Comparison of Publicly Available ICU Data Sets: a Decision Guide for Clinicians and Data Scientists. Guide décisionnel avec comparatifs colonnes par colonnes.

Si vous hésitez entre plusieurs bases pour un projet précis, ces deux revues sont un excellent point de départ.

Les adaptations OMOP

Comme évoqué dans l’article sur les entrepôts de données de santé, le modèle OMOP standardise le schéma des données et permet de faire tourner les mêmes requêtes sur des bases différentes. Plusieurs équipes ont réalisé ce travail de conversion pour les bases publiques — un effort considérable qui bénéficie ensuite à toute la communauté.

MIMIC-OMOP

Le travail le plus emblématique est celui de Paris, Lamer & Parrot (JMIR Med Inform, 2021), qui ont converti MIMIC-III vers OMOP. Leur article est devenu la référence pour la communauté et a ouvert la voie à la conversion de MIMIC-IV, reprise et maintenue aujourd’hui par OHDSI (OHDSI/MIMIC).

C’est cette version OMOP de MIMIC-IV que nous utilisons dans nos tutoriels interactifs débutant et intermédiaire : vous requêtez la base directement dans votre navigateur, sur un jeu de démo de 100 patients.

Les autres adaptations

  • AmsterdamUMCdb dispose d’une conversion OMOP développée par l’équipe d’Amsterdam UMC, disponible sur leur dépôt GitHub.
  • eICU-CRD n’a pas d’ETL OMOP officiel à ce jour, mais plusieurs initiatives communautaires existent, et des travaux sont également en cours pour HiRID et SICdb.

BlendedICU : une base unifiée

BlendedICU est une initiative remarquable d’une équipe du CHU de La Réunion (Oliver et al., 2023, Journal of Biomedical Informatics). L’idée : rassembler dans un format unique OMOP les quatre principales bases publiques — AmsterdamUMCdb, eICU-CRD, HiRID et MIMIC-IV.

Le jeu de données final contient :

  • 41 variables longitudinales (séries temporelles) extraites et harmonisées
  • Les expositions à 113 principes actifs médicamenteux
  • Le code de la pipeline est open source sur GitHub, pour que chacun puisse reproduire et adapter l’harmonisation

Pourquoi c'est intéressant ?

BlendedICU facilite énormément les études de généralisabilité : avec un même script, vous pouvez entraîner un modèle sur MIMIC, le valider sur AmsterdamUMCdb, et comparer ses performances sur HiRID — sans refaire le travail de nettoyage et d’harmonisation pour chaque base. C’est aussi une belle illustration de ce que permet le standard OMOP à l’échelle internationale.

Comment choisir ?

Le choix dépend de votre question de recherche et de votre niveau.

BesoinBase recommandée
Apprendre le SQL sur des données cliniquesMIMIC-IV Demo (OMOP, 100 patients, libre)
Première étude observationnelle en réanimationMIMIC-IV (schéma documenté, grande communauté)
Étude multicentrique / généralisabilitéeICU-CRD
Données européennes, pratiques non-américainesAmsterdamUMCdb, HiRID, SICdb
Séries temporelles fines, deep learningHiRID, SICdb
Reproductibilité / validation externeCombiner plusieurs bases, notamment celles déjà en OMOP (MIMIC, AmsterdamUMCdb)
Imagerie médicale, NLP, IA multimodaleMIMIC-CXR, MIMIC-IV-Note
Signal haute fréquence, peropératoireVitalDB

La stratégie multi-bases

Dupliquer une étude sur plusieurs bases est devenu une pratique courante. Le modèle OMOP facilite ce travail : un même script SQL peut tourner sur MIMIC-IV OMOP, sur une base européenne convertie en OMOP, ou sur un EDS hospitalier français. C’est l’un des principaux intérêts de ce standard.

Démarches d’accès : un tronc commun

Pour la plupart de ces bases, le processus d’accès suit un schéma similaire — détaillé dans l’article sur MIMIC :

  1. Créer un compte sur la plateforme d’hébergement (PhysioNet pour la plupart).
  2. Valider une formation en éthique de la recherche (CITI Course).
  3. Signer un accord d’utilisation des données (DUA).
  4. Obtenir l’accord de l’équipe qui maintient la base.

Adresse e-mail institutionnelle requise

La plupart des plateformes exigent une adresse e-mail professionnelle et la validation d’un superviseur. Les adresses personnelles sont généralement refusées.

Les limites à garder en tête

Les bases publiques sont un outil formidable, mais ne sont pas exemptes de limites :

  • Biais de sélection — toutes ces bases proviennent de centres universitaires : les pratiques, les populations, les équipements peuvent ne pas être représentatifs.
  • Pas de données externes — une fois le patient sorti de réanimation, on perd la trace (sauf pour MIMIC-IV qui propose la mortalité à 1 an).
  • Qualité imparfaite — ces données sont extraites du soin courant, avec erreurs de saisie, valeurs aberrantes, doublons. Le travail de mise en qualité reste indispensable.
  • Anonymisation — toutes les dates sont décalées, certaines variables rares sont supprimées, ce qui peut limiter certaines analyses (saisonnalité, épidémies).

Sources

Historique & publications de référence

  • Moody GB, Mark RG. A database to support development and evaluation of intelligent intensive care monitoring. Computers in Cardiology, 1996 (voir aussi la page archive sur PhysioNet) — travaux préparatoires à MIMIC.
  • Saeed M et al. Multiparameter Intelligent Monitoring in Intensive Care II: A public-access intensive care unit database. Crit Care Med. 2011 — MIMIC-II.
  • Johnson AEW et al. MIMIC-III, a freely accessible critical care database. Sci Data. 2016.
  • Pollard TJ et al. The eICU Collaborative Research Database, a freely available multi-center database for critical care research. Sci Data. 2018.
  • Thoral PJ et al. Sharing ICU Patient Data Responsibly: The AmsterdamUMCdb Example. Crit Care Med. 2021 — base diffusée en 2019.
  • Hyland SL et al. Early prediction of circulatory failure in the intensive care unit using machine learning. Nat Med. 2020 — HiRID.
  • Johnson AEW et al. MIMIC-IV, a freely accessible electronic health record dataset. Sci Data. 2023.
  • Rodemund N et al. The Salzburg Intensive Care database (SICdb). Intensive Care Med. 2023.

Bases spécialisées

  • MIMIC-CXR v2.1.0 sur PhysioNet — imagerie.
  • MIMIC-IV-Note v2.2 sur PhysioNet — notes cliniques.
  • Lee HC et al. VitalDB, a high-fidelity multi-parameter vital signs database in surgical patients. Sci Data. 2022.

Adaptations OMOP

  • Paris N, Lamer A, Parrot A. Transformation and Evaluation of the MIMIC Database in the OMOP Common Data Model: Development and Usability Study. JMIR Med Inform. 2021.
  • Oliver M, Allyn J, Carencotte R, Allou N, Ferdynus C. Introducing the BlendedICU dataset, the first harmonized, international intensive care dataset. J Biomed Inform. 2023.

Revues de la littérature

  • Kallout J, Lamer A, Grosjean J et al. Contribution of Open Access Databases to Intensive Care Medicine Research: Scoping Review. JMIR. 2025.
  • Sauer CM et al. Systematic Review and Comparison of Publicly Available ICU Data Sets — A Decision Guide for Clinicians and Data Scientists. Crit Care Explor. 2022.

Ce qu’il faut retenir

  • Les bases publiques offrent un terrain d'apprentissage et de recherche de grande valeur, accessibles après une formation en éthique.
  • La plupart concernent la réanimation : MIMIC-IV est la référence, eICU-CRD est la seule base multicentrique.
  • Les bases européennes (AmsterdamUMCdb, HiRID, SICdb) apportent une diversité précieuse de pratiques cliniques.
  • Des bases spécialisées complètent l'écosystème : MIMIC-CXR (imagerie), MIMIC-IV-Note (texte libre), VitalDB (signal haute fréquence).
  • Les adaptations OMOP facilitent la validation externe et les études de généralisabilité.
Article suivant : La base MIMIC
SuivantLa base MIMIC

Sur cette page

Produit

  • Accueil
  • Démo

Ressources

  • Documentation
  • Ressources
  • Outils
  • Blog

Communauté

  • Code source Framagit
  • Code source Github

À propos

  • InterHop.org
  • Contact

2021–2026 InterHop — CC BY-NC-SA 4.0 (site) · GPLv3 (logiciel)