Datathon InterHop 2024 - Sujets

Ce billet de blog vise à renseigner une liste prélimitaire des sujets qui seront traités lors du hackathon sur données (Datathon) organisé par l’association InterHop en septembre 2024.

Cette liste de proposition est indicative et évoluera en fonction de l’envie des participants.

Pour plus d’informations voici en lien le billet de blog présentant les modalités pratiques de réalisation de ce Datathon.

Voici le replay de la réunion d’information sur les modalités pratiques de réalisation du datathon.

La principale source de données utilisée est MIMIC au format OMOP. Les participant.es doivent anticiper la création de leur compte sur physionet avec notamment la signature de l’accord sur l’utilisation des données (DUA).

Nous vous donnons rendez-vous le jeudi 8 août à 13h00 dans le cadre d’une réunion du groupe interCHU pour la constitution des équipes.

FINESS+

Thème principaux

  • Data engineering
  • Data science

Synopsis

La santé prend le virage des parcours coordonnés de soin. Cette ambition nécessite d’avoir des données concernant l’offre de soin qui soient à jour.

Il s’agit en particulier de tenir à jour les données géographiques élémentaires (géolocalisation des 100 000 établissements de soins recensés au FINESS) dans des systèmes ouverts comme OpenStreetMap (OSM) de sorte que ces informations restent exactes et interopérables (tags et iconographies documentés et à jour).

Ce maintien à jour pourra être fait (au moins en partie) au sein de l’association Toobib.org.

En savoir plus

Voici le lien vers le billet de blog expliquant en détail ce sujet.


Indicateurs d’activité de maternité

Thèmes principaux

  • Data visualization
  • Data engineering
  • Data science

Synopsis

L’ensemble des maternités de France fournissent annuellement des indicateurs d’activité : nombre de sièges, de césariennes, de transferts, de péridurales…

Ce sujet concerne la visualisation des données puisqu’il s’agit de présenter ces indicateurs sous forme de graphiques et de façon dynamique.

Pour ce projet nous aimerions utiliser l’outil de data science opensource LinkR.

En savoir plus

Voici le lien vers le billet de blog expliquant en détails ce sujet.


Qualité des données

Thème principal

  • Data cleaning / Pre-processing

Synopsis

Ce sujet concerne la production d’indicateurs de qualité pouvant être partagés et réutilisės.

Pour ce projet nous aimerions utiliser l’outil de data science opensource LinkR. Il sera basé sur le modèle de donné open source OMOP.

En savoir plus

Voici le lien vers le billet de blog expliquant en détails ce sujet.


Prédiction de mortalité

Thème principaux

  • Statistiques
  • Data science

Synopsis

Ce sujet concerne la réalisation d’un sujet de data science facile à mettre en oeuvre d’un point de vue statistique. La difficulté consistera à rendre l’algorithme facilement réutilisable sur un autre jeu de données au format OMOP.

Nous entraînerons des modèles de prédiction (machine learning) afin de prédire la mortalité en réanimation, à partir des données d’admission.

A l’heure actuelle, la majorité des études comparent la mortalité de groupes de patient à l’aide de scores de gravité tels que l’IGS-2 (très ancien) et le SOFA (plus récent).

L’apport du machine learning permettrait d’avoir des modèles de prédiction de mortalité avec de meilleures performances.

Nous comparerons ces modèles aux scores SOFA et IGS-2.

Pour ce projet nous aimerions utiliser l’outil de data science open source LinkR, qui permet le partage et la réutilisation de projets de data science très facilement.

Ainsi, durant le Datathon, vous développerez vos modèles sur le set de données MIMIC-OMOP (base de données nord-américaine). Vous pourrez ensuite appliquer ce projet (avec l’ensemble des scripts le composant) à vos données locales, sans avoir à repartir de zéro.

Ce sujet s’appuiera sur la base de données MIMIC-OMOP : il s’agit d’une base de données nord-américaine (hôpital de Boston) sur une quizaine d’années, totalisant environ 50000 patients.

En savoir plus

Voici le lien vers le billet de blog expliquant en détails ce sujet.


Aide au codage CIM-10

Thème principaux

  • Data science
  • Large language models

Synopsis

L’apport des Large Language Models (tels que ChatGPT pour le plus connu) permet d’exploiter les données de façon plus optimale, notamment avec les Chatbots.

La base de données CIM-10 est complexe, et il est parfois difficile de trouver les diagnostics que nous recherchons. Les requêteurs “classiques” que nous trouvons sur internet utilisent des outils de recherche classique (à base de regex) non optimaux.

Les LLM, grâce au RAG (retrieval augmentated generation) permettent d’utiliser les LLM en les “nourrissant” de fichiers, tels qu’un fichier CSV contenant l’ensemble des diagnostics.

Ainsi, il est possible d’utiliser un LLM déjà entraîné, de lui fournir la base de données CIM-10 et de l’interroger directement pour nous donner les codes demandés.

L’approche par RAG a l’avantage de diminuer le risque d’hallucinations.

L’avantage de ce projet est une application immédiate ! Si vous êtes médecins, vous pourrez utiliser cel algorithme depuis votre PC perso pour aider au codage de vos patients.

Nous utiliserons la base de données CIM-10 au format OMOP.

En savoir plus

Voici le lien vers le billet de blog expliquant en détails ce sujet.

Dernière modification 04.09.2024: Update datathon articles (29dd8a7)