Qu’est-ce qu’un entrepôt de données de santé ?


Le domaine de la santé génère une multitude de données : prescriptions, résultats d’examens, imageries médicales, etc. Ces données peuvent servir à assurer le suivi individuel des personnes dans leurs parcours de soin, à produire des indicateurs ou encore à contribuer à la recherche en santé afin de mieux comprendre certaines maladies ou d’évaluer des traitements médicaux, par exemple. Lorsqu’un acteur de la santé souhaite collecter et centraliser des données de santé issues de plusieurs sources afin de réaliser ultérieurement des projets de recherche, la base de données qu’il envisage de constituer est un entrepôt de données de santé (ou EDS).

Les données de santé étant considérées comme des données sensibles, leur traitement est particulièrement encadré par la règlementation relative à la protection des données : Règlement général sur la protection des données (RGPD) au niveau européen, complété par la loi Informatique et Libertés (LIL) au niveau national, en plus des différentes réglementations sectorielles existantes (code de la santé publique, code de la sécurité sociale, etc).

De manière générale, pour mettre en œuvre un traitement de données de santé (et sauf exceptions prévues par la loi), les acteurs doivent accomplir des formalités auprès de la Commission nationale de l’informatique et des libertés (CNIL), qui est l’autorité chargée de veiller à la protection des données personnelles. Les informations relatives aux entrepôts de données de santé ayant fait l’objet de formalités auprès de la CNIL font l’objet d’une diffusion publique via divers canaux (comme, par exemple, la publication sur Légifrance ou les données mises en open data par l’institution).

Le présent travail a donc pour objectif de rassembler ces informations afin d’offrir de la visibilité sur ces bases de données, sur les acteurs les mettant en œuvre et sur les dynamiques territoriales qui y sont associées.

Les EDS sont des bases de données constituées pour une longue durée et destinées à être réutilisées principalement à des fins de pilotage (gestion, contrôle et administration de l’activité) et de recherches, d’études, d’évaluations dans le domaine de la santé. Ils peuvent être constitués tant par des acteurs publics (comme un établissement public de soin) que privés (comme un courtier de données ou une startup), sous réserve de respecter le cadre juridique applicable.

La notion d’entrepôt est assez récente : en 2017, la CNIL a affiné sa doctrine en opérant une distinction entre les projets de recherche (qui sont ponctuels et avec une finalité précise) et les EDS, qui visent à créer une base de données pérenne (souvent issues de différentes sources) en vue de sa réutilisation dans plusieurs études, comme à des fins de pilotage de l’activité et d’amélioration de la prise en charge (voir l’encadré Quelles différences entre un entrepôt et un projet de recherche ? et la partie Comment expliquer le développement des EDS ces dernières années ?). Les sollicitations croissantes des responsables de traitement via des demandes de conseil et d’autorisation ont également permis à la CNIL de préciser sa doctrine. Celle-ci s’est matérialisée dans un référentiel relatif aux EDS publié en 2021 après une consultation publique.

Trois modalités de constitution d’un EDS

Plusieurs hypothèses sont envisageables pour constituer un EDS. L’organisme responsable de traitement :

  • peut recueillir le consentement explicite des personnes concernées par la collecte, l’enregistrement et la conservation des données de santé dans un entrepôt (exception prévue par la loi) après la délivrance d’une information individuelle. Dans ce cas, aucune formalité préalable auprès de la CNIL n’est nécessaire, mais le RGPD s’applique néanmoins (et notamment le respect des principes fondamentaux comme la finalité, les droits des personnes ou la sécurité).
  • à défaut de recueillir le consentement spécifique des personnes concernées, il peut, s’il exerce une mission d’intérêt public, se conformer en tout point au référentiel sur les entrepôts de données de santé et se déclarer sur le site de la CNIL. Lorsqu’un organisme effectue une déclaration de conformité, celle-ci vaudra pour l’ensemble des entrepôts qu’il mettra en œuvre par la suite dans le même cadre de conformité.
  • à défaut de recueillir le consentement spécifique des personnes et en l’absence de conformité au référentiel, il doit effectuer une demande d’autorisation auprès de la CNIL. L’acteur devra identifier l’ensemble des points de non-conformité (juridiques et/ou techniques) et les justifier dans le dossier de demande. Par exemple, les entrepôts de données incluant les données du système national des données de santé (SNDS) doivent systématiquement obtenir une autorisation de la CNIL.
Arbre de décision récapitulant les trois hypothèses envisageables pour constituer un EDS. Si l'entrepot organise un recueil de consentement exprès des patient, il s'agit d'un entrepot basé sur le consentement des personnes concernées (sans formalité auprès de la CNIL). Sinon, il reste deux possibilités : Si l'entrepôt est confrome au référentiel EDS, alors une déclaration de conformité RS2 devra être déposée auprès de la CNIL. Si ce n'est pas le cas, alors une demande d'autorisation devra être déposée auprès de la CNIL. Dans les trois cas, l'entrepôt doit être inscrit au registre des activités de traitement, et une Analyse d'Impact sur la Protection des Données doit être effectuée.

Remarques :

  • les EDS visant uniquement à dématérialiser les dossiers médicaux sont exemptés de formalités préalables (exception prévue par la loi) ;
  • dans tous les cas le responsable de traitement est dans l’obligation de pouvoir démontrer à tout moment la conformité de son traitement aux exigences du RGPD (tenue d’un registre des traitements, analyse d’impact, etc.).


Quelles différences entre un entrepôt et un projet de recherche ?

Les EDS doivent être distingués des projets de recherche dans le domaine de la santé, qui poursuivent une finalité précise et répondent à une question scientifique déterminée et ponctuelle. A titre d’illustration :

  • Un entrepôt de données de santé peut être constitué afin de collecter et disposer massivement de données de santé liées à une pathologie spécifique pour réaliser des projets de recherche ultérieurs ;
  • Une recherche dans le domaine de la santé vise à répondre à un objectif scientifique précis, par exemple pour analyser l’efficacité d’un médicament innovant sur cette pathologie rare pendant cinq ans.

La qualification juridique retenue (EDS ou recherche) aura une influence sur le cadre juridique applicable, notamment au regard des formalités à accomplir (voir la fiche pratique sur le site de la CNIL).

La CNIL a un rôle de régulateur des données personnelles en général, et en particulier des données de santé. Ainsi, elle accompagne, autorise (dans certaines hypothèses) et contrôle la mise en œuvre de ces entrepôts de données de santé.

Devant la multiplication de ces derniers et des organismes souhaitant en constituer, la création d’un outil permettant à la fois de comprendre les dynamiques à l’œuvre et d’améliorer la transparence de l’usage des données de santé dans le cadre de la recherche apparaît particulièrement utile.

A quelques rares exceptions près (voir encadré ci-dessous), la CNIL dispose d’une vue relativement précise des organismes mettant en œuvre des entrepôts ayant fait l’objet d’une formalité auprès d’elle. Ces informations sont d’ailleurs publiques (voir la partie Méthodologie).

Précisions et périmètre de la cartographie

La CNIL étant en lien avec les organismes mettant en œuvre des entrepôts de données de santé, cette cartographie vise à les représenter spatialement et non à localiser les entrepôts. Si cette cartographie a vocation à être exhaustive, elle ne répertorie pourtant pas tous les entrepôts de données de santé.

Tout d’abord, la déclaration de conformité au référentiel vaut pour tous les EDS d’un responsable de traitement qui y sont en tous points conformes. L’organisme qui se déclare conforme à ce référentiel ne donne alors pas de détails spécifiques aux entrepôts mis en œuvre dans ce cadre.

Ensuite, les entrepôts mobilisant le recueil du consentement ne sont pas soumis à formalités auprès de la CNIL, même si la mise en œuvre de certains d’entre eux ait pu être accompagnée par la CNIL dans le cadre de demandes de conseil. La CNIL ne dispose pas de toutes les informations concernant ces EDS, à part celles que pourraient lui fournir l’acteur concerné, ou encore par d’autres canaux (voie de presse, par exemple). En revanche, les acteurs ne seront pas dispensés d’accomplir les formalités nécessaires pour des recherches ultérieures réutilisant les données de l’entrepôt, ni de documenter la conformité du traitement au RGPD.

Enfin, cette cartographie ne répertorie que les EDS respectant l’une des trois modalités de constitution des entrepôts prévue par la loi informatique et libertés.

Plusieurs facteurs peuvent également expliquer cette dynamique autour des données en santé :

  • l’informatisation des dossiers et l’automatisation des remontées d’informations dans les établissements de soins ;
  • l’amélioration et le perfectionnement des moyens techniques (augmentation de la capacité de stockage, de la capacité de calcul, développement du cloud, etc.) ;
  • de nouvelles politiques de valorisation des données issues du secteur public (en commençant en 1996 par le programme de médicalisation des systèmes d’information (PMSI) jusqu’à la création du système national des données de santé – ou SNDS –puis son élargissement et la création de la Plateforme des données de santé, voir l'encadré plus bas) ;
  • l’apport des données de vie réelle dans la recherche en santé – concernant ces dernières, il s’agit de toutes les données qui sont générées en routine lors du soin et de la prise en charge, en dehors des recherches et essais cliniques.

A partir du milieu des années 2010, et encore plus avec l’avènement de l’intelligence artificielle, il est apparu clair que l’accès à de larges quantités de données de santé constituait un enjeu majeur pour la recherche en santé, que ce soit pour la compréhension des comportements des patients ou des parcours de soins, pour la détection d’interaction médicamenteuses ou l’identification de nouvelles voies thérapeutiques. Cet accès élargi est particulièrement crucial pour les professionnels de santé, mais également pour les acteurs de l’innovation.

Dans ce contexte, afin de préserver l’objectif d’une protection élevée des données personnelles et des droits des personnes, les entrepôts apparaissent comme une solution équilibrée permettant de rassembler plus de données. La CNIL accueille favorablement ce modèle qui permet également de structurer une offre variée et de bonne qualité pour les acteurs de la santé.

Les grandes bases historiques

Des bases et jeux données existants

La recherche sur les données de santé en France n’a pas attendu 2017 pour créer des bases de données de santé publique. Par exemple, en 2014, plus de 260 jeux de données étaient recensés par Etalab (Voir la cartographie de 2014 ou l’inventaire de 2021). Pour autant, ces bases émanent essentiellement d’entités publiques avec une finalité de suivi, de contrôle, d’organisation des politiques publiques ou encore d’amélioration du système de santé. Concernant les acteurs privés, bien moins nombreux, les bases semblent plutôt fondées sur des enquêtes et des panels d’acteurs, voire, pour un cas, à travers l’utilisation d’un logiciel à destination des professionnels de santé.

Des grandes bases nationales qui se développent depuis les années 1990…

Les composantes du Système National des Données de Santé (SNDS)

Certaines grandes bases médico-administratives composent aujourd’hui le SNDS afin de développer l’usage de ces données à des fins de recherche.

Créé par la loi n° 2016-41 du 26 janvier 2016, le SNDS (appelé SNDS historique) visait à rassembler et à chaîner les bases de données suivantes :

  • Le SNIIRAM, Système national d’information inter-régimes de l’Assurance maladie, qui regroupe depuis 1998 les données de remboursement des régimes d’Assurance maladie obligatoire ;
  • Le PMSI, Programme de Médicalisation des systèmes d’information, créé en 1996 dans le but de mesurer l’activité et les ressources des hôpitaux ;
  • La base des données sur les causes médicales de décès, gérée par le Centre d’épidémiologie sur les causes médicales de Décès (CépiDC) de l’Inserm, créé en 1968 ;
  • Les données relatives au handicap provenant des maisons départementales des personnes handicapées (données de la Caisse nationale de solidarité pour l’autonomie - CNSA, 2004) ;
  • Un échantillon de données en provenance des organismes d’Assurance Maladie complémentaire.

Le périmètre des données faisant partie du SNDS a été considérablement élargi avec la loi n°2019-774 du 24 juillet 2019. Font désormais notamment partie du SNDS élargi les données relatives à la perte d’autonomie, les données à caractère personnel des enquêtes dans le domaine de la santé lorsqu’elles ont été appariées avec les données du SNDS historique, les données recueillies lors des visites médicales et de dépistage obligatoires, etc. – voir l’article L. 1461-1 du code de la santé publique. En 2022, des données relatives à la Covid-19 (extraites de la base Vaccin Covid et de SI-DEP).

Certaines données du SNDS sont centralisées par la CNAM et/ou la Plateforme des données de santé au sein d’une base principale (composée du SNDS historique et des données relatives à la Covid-19) et d’une base catalogue dont le contenu est fixé par arrêté, par exemple des données issues de certaines recherches, études ou évaluations dans le domaine de la santé ou d’entrepôts de données de santé (voir ici pour en savoir plus).

La Plateforme des données de santé (PDS), ou Health Data Hub (HDH)

En 2019, l’Institut national des données de santé (INDS) a été renommé Plateforme des données de santé (PDS ou Health data hub) dont les différentes missions ont été élargies. Elle a notamment pour objectif de faciliter le partage des données de santé de sources variées afin de favoriser la recherche.

… mais également d’autres types de bases de données connexes aux EDS

D’autres types de bases de données peuvent s’apparenter à des entrepôts de données de santé. Il en va ainsi notamment des registres et les cohortes. Ces derniers peuvent être considérés comme des projets de recherche ou des entrepôts, en fonction de leurs caractéristiques (comme l’origine des données, la durée de conservation, la réalisation d’études ultérieures, etc.). Pour aider à qualifier ces bases de données, la CNIL a publié une fiche pratique sur son site web : Traitements de données de santé : comment faire la distinction entre un entrepôt et une recherche et quelles conséquences ?

Les données présentes dans un EDS peuvent être regroupées en deux grandes catégories :

  • les données relatives aux patients pouvant comprendre des données directement identifiantes et administratives (nom, prénom, sexe, date de naissance, etc.) ainsi que des données pseudonymisées recueillies dans le cadre de la prise en charge médicale
  • (compte-rendu médical, résultats d’examens, vie sexuelle, vie professionnelle, habitudes de vie et comportements, etc.) ;
  • les données relatives aux professionnels de santé.

Ces données, d’une grande variété, ne sont pas toutes dans le même format. En effet, il peut s’agir :

  • de texte (la partie administrative, des ordonnances, des résultats d’examen) – ces données peuvent par ailleurs être structurées (c’est-à-dire ordonnées, dans un format spécifique comme un tableur) ou bien non structurées (sans cadre ou format prédéfini, ce qui peut compliquer leur réutilisation) ;
  • d’images (comme des radiographies) ;
  • des données provenant d’examens des caractéristiques génétiques déjà réalisés dans le cadre du soin ou d’une précédente recherche.

Il est donc nécessaire de les harmoniser avant de pouvoir les utiliser – et cette étape d’homogénéisation n’est pas anodine :

la mise en place d’un EDSH constitue un projet complexe […] réunissant des compétences pointues dans les domaines médicaux, informatiques et règlementaires
Entrepôts de données de santé hospitaliers en France, rapport de la HAS, octobre 2022

Comme tout traitement de données à caractère personnel, les EDS doivent respecter les principes posés par la règlementation sur la protection des données (définition des responsabilités des acteurs impliqués, principe de finalité, licéité, gouvernance, minimisation, durée de conservation, mise en place de mesures techniques et organisationnelles adaptées etc.). Ces principes clés sont notamment déclinés dans le référentiel relatif aux EDS élaboré par la CNIL.

La base légale de l’entrepôt

La constitution d’un EDS doit se fonder sur l’une des bases légales prévues par le RGPD (on retrouve notamment le consentement, la mission d’intérêt public ou encore les intérêts légitimes du responsable de traitement).

Rappel : sauf en cas de recueil du consentement des personnes concernées, les entrepôts mis en œuvre par des entreprises privées n’étant pas investies d’une mission d’intérêt public doivent être autorisés par la CNIL.

La gouvernance des données

Le responsable de traitement doit prévoir une gouvernance de l’entrepôt afin de s’assurer du respect des finalités poursuivies et d’évaluer les conditions de fonctionnement et d’utilisation des données de l’entrepôt. Le référentiel entrepôt prévoit la mise en place de deux comités :

  • un comité de pilotage qui détermine les orientations stratégiques et scientifiques de l’entrepôt ;
  • un comité scientifique et éthique en charge de l’évaluation des demandes de réutilisation des données de l’entrepôt. Ce second comité doit notamment comprendre au moins une personne impliquée dans l’éthique en santé, une personne indépendante du responsable de traitement, des professionnels de santé et professionnels médico-sociaux, des chercheurs et un représentant des usagers ou d’une association de patients.

L’information des personnes

Les personnes doivent être informées du versement de leurs données dans l’entrepôt conformément à la loi informatique et libertés et au RGPD. Elles devront également être informées de chacune des réutilisations des données la concernant à des fins de recherche, d’étude ou d’évaluation.

Les responsables de traitement doivent mettre en œuvre dès la constitution de l’entrepôt des mesures permettant de garantir la protection des droits des personnes (voir encadré ci-dessous), conformément au RGPD et sont encouragés à mettre en place des dispositifs innovants permettant l’information des personnes et l’exercice de leurs droits.

Droit des personnes

Les personnes dont les données sont conservées dans un EDS (patients et professionnels) disposent de droits prévus par le RGPD (droit d’accès, rectification, effacement, limitation du traitement, opposition et portabilité dans certains cas). Elles devront en être informées ainsi que des modalités mises en place par le responsable de traitement pour leur permettre d’exercer ces différents droits.


En particulier, la CNIL recommande la mise en place d’un portail de transparence sur le site web du responsable de traitement. Ce portail doit comprendre plusieurs informations :

  • une note d’information spécifique à la constitution de l’entrepôt (finalités, modalités d’exercice des droits des personnes concernées…) ;
  • une liste des études et recherches mises en œuvre à partir des données de l’entrepôt.

La sécurité

La sensibilité des données de santé implique une protection particulière, d’autant plus lorsqu’il s’agit de mettre en commun de grandes quantités de données provenant de sources différentes. La CNIL a publié une checklist de conformité qui recense l’ensemble des critères juridiques et techniques prévus par le référentiel entrepôt de données de santé. Il en va ainsi notamment du cloisonnement des données identifiantes, de la pseudonymisation, de la gestion des habilitations et des accès aux données, exports des données en dehors de l’entrepôt, etc.

L’application de la règlementation sectorielle

Le cadre juridique applicable à la protection des données personnelles est complété par des règles sectorielles spécifiques dans le domaine de la santé :

  • le code de la santé publique prévoit des dispositions spécifiques sur le secret professionnel et les règles applicables au partage et à l’échange d’informations, sur les recherches impliquant la personne humaine, sur l’accès aux données du SNDS, sur l’hébergement des données de santé, etc. ;
  • le code de l’action sociale et des familles, le code de la sécurité sociale, le règlement européen sur les essais cliniques, les règlements européens sur les dispositifs médicaux (2017/745 et 2017/746), etc.

Panorama des entrepôts de données de santé

Les acteurs responsables de la mise en œuvre d’entrepôts de données de santé