En résumé
La base MIMIC (Medical Information Mart for Intensive Care) est l’une des bases de données de réanimation les plus utilisées au monde. Accessible publiquement sous condition d’une formation en éthique et d’un objectif de recherche, elle contient les données de plus de 50 000 patients admis en soins intensifs. Elle constitue un excellent terrain d’apprentissage pour manipuler des données issues d’entrepôts de données de santé.
Qu’est-ce que MIMIC ?
La base de données MIMIC est une base de données nord-américaine contenant des données de plus de 50 000 patients admis en réanimation au Beth Israel Deaconess Medical Center (Boston, États-Unis). Elle est développée et maintenue par le MIT Lab for Computational Physiology.
C’est l’une des bases de données de réanimation les plus utilisées dans la littérature scientifique, du fait de son accès public et de la richesse des données qu’elle contient : données démographiques, diagnostics, résultats de biologie, prescriptions médicamenteuses, notes cliniques, signaux physiologiques, etc.
Un outil d'apprentissage
Malgré des données d’une qualité imparfaite (données manquantes, erreurs de saisie, biais de sélection), MIMIC constitue un excellent socle pour apprendre à manipuler les données issues d’entrepôts de données de santé (EDS). De nombreux cours et tutoriels en ligne l’utilisent comme support.
Les différentes versions
MIMIC existe en plusieurs versions :
- MIMIC-III (2016) : données de 2001 à 2012, environ 46 000 patients, schéma de données spécifique à MIMIC.
- MIMIC-IV (2023) : version la plus récente. Données de 2008 à 2019, environ 65 000 patients, schéma modernisé.
Les deux versions peuvent être converties au format OMOP CDM via des ETL open source : MIT-LCP/mimic-omop pour MIMIC-III, OHDSI/MIMIC pour MIMIC-IV. Une base de test MIMIC-IV OMOP de 100 patients est disponible en accès libre (voir ci-dessous).
Quelle version choisir ?
Si vous débutez, commencez par la MIMIC-IV OMOP Demo : vous apprendrez à la fois la manipulation de données cliniques et le standard OMOP, qui est de plus en plus utilisé en recherche. Nous proposons des tutoriels interactifs pour requêter cette base directement dans votre navigateur : débutant et intermédiaire. Pour travailler sur les données complètes en OMOP, il faudra réaliser l’ETL vous-même.
Bases de test (accès libre)
Des bases de test sont disponibles publiquement. Elles contiennent les données anonymisées de 100 patients et ne nécessitent aucune inscription.
Vous pouvez les télécharger directement :
- MIMIC-III Demo — schéma de données MIMIC
- MIMIC-IV OMOP Demo — schéma de données OMOP CDM v5.4
Ces bases de test sont idéales pour découvrir la structure des données et s’entraîner à écrire des requêtes SQL avant d’accéder aux données complètes.
Accéder aux données complètes
Pour accéder aux bases de données complètes, il est nécessaire de valider quelques étapes. Le processus prend généralement quelques jours à une semaine.
Créer un compte PhysioNet
Inscrivez-vous sur physionet.org. Vous aurez besoin d'une adresse e-mail institutionnelle.
Faire une demande d'accès
Remplissez le formulaire de demande d'accréditation (credentialing) sur PhysioNet. Vous devrez renseigner vos informations et fournir les coordonnées d'un superviseur ou d'un collègue, qui recevra un e-mail de vérification.
Compléter le CITI Course
Il s'agit d'une formation en ligne obligatoire sur l'éthique de la recherche et la protection des données. Les étapes sont détaillées sur le site de PhysioNet. Comptez environ 2 à 3 heures.
Déposer le certificat
Une fois la formation terminée, téléchargez votre certificat CITI et déposez-le sur PhysioNet pour validation par l'équipe.
Signer le Data Use Agreement
Dernière étape : signez l'accord d'utilisation des données (DUA) pour le projet MIMIC. Vous aurez ensuite accès au téléchargement.
Les liens utiles :
- Inscription PhysioNet
- Demande d’accréditation
- Instructions CITI Course
- Dépôt du certificat
- Page MIMIC-IV
Structure de la base
Schéma MIMIC natif
Le schéma natif de MIMIC-IV est organisé autour de plusieurs modules :
- hosp : données hospitalières (admissions, diagnostics, prescriptions, résultats de laboratoire)
- icu : données spécifiques aux soins intensifs (mesures physiologiques, scores de gravité, entrées/sorties)
- ed : données des urgences
- note : notes cliniques en texte libre
Les tables principales incluent patients, admissions, diagnoses_icd, labevents, prescriptions, chartevents, etc.
Documentation complète
La documentation officielle du schéma MIMIC-IV est disponible en ligne. Chaque table y est décrite en détail avec ses colonnes et ses relations.
Schéma OMOP
La version OMOP de MIMIC-IV suit le standard OMOP CDM v5.4. Les données sont réorganisées dans les tables standardisées : person, visit_occurrence, condition_occurrence, measurement, drug_exposure, etc. Vous pouvez explorer l’ensemble du schéma sur notre explorateur interactif.
L’avantage du format OMOP est de pouvoir utiliser les mêmes requêtes SQL sur n’importe quelle base convertie au format OMOP, qu’il s’agisse de MIMIC, d’un entrepôt hospitalier français ou de toute autre base conforme au standard.
- MIMIC est une base de données publique de plus de 50 000 patients de réanimation, idéale pour apprendre.
- Des bases de test de 100 patients sont accessibles immédiatement, sans inscription.
- L'accès aux données complètes nécessite une inscription, une formation CITI et la signature d'un DUA.
- La MIMIC-IV OMOP Demo permet d'apprendre simultanément la manipulation de données cliniques et le standard OMOP.