Génération de bases de données fictives pour libérer la recherche en santé. Chazard, E., Lenain, R., Ficheur, G., & Beuscart, J. Journal of Epidemiology and Population Health, 72:202238, March, 2024.
Génération de bases de données fictives pour libérer la recherche en santé [link]Paper  doi  abstract   bibtex   
Introduction La réutilisation de données est un enjeu majeur en santé. Les recherches appliquées comme méthodologique devraient pouvoir accéder à des données de santé. En protégeant les citoyens, la législation française freine cependant ces recherches, et empêche l'application des principes FAIR. Notre objectif est de générer des jeux de données fictives très réalistes, permettant aux recherches appliquées d'obtenir les mêmes résultats que sur des données réelles, et aux recherches méthodologiques d'être compatibles avec les données de santé. Méthodes La SFR Technologies de santé et médicament a obtenu le financement du CPER Tec'Santé, dont la plateforme e-Santé est spécifiquement dédiée à la génération et la diffusion de bases de données de santé fictives mais très réalistes. Résultats Nous présenterons ici les méthodes actuellement développées pour générer de telles données, en prenant l'exemple d'un jeu de données intra-hospitalières (PMSI, médicament prescrits, résultats d'analyses de biologie médicale). Nous présenterons les méthodes et résultats préliminaires d'évaluation sur trois axes : - Qualité : un expert peut-il distinguer les données réelles des données simulées ? - Utilisabilité : les résultats d'analyse statistique obtenus sur données simulées sont-ils identiques à ceux sur données réelles ? - Sécurité ressentie : un « hacker » qui analyse les données simulées peut-il croire identifier des personnes réelles ? Conclusion La génération de jeux de données synthétiques, ou populations jumelles numériques, ou « twin datasets », devrait lever deux familles de verrous. Premièrement, elle pourrait permettre à des chercheurs du monde entier de mieux étudier les phénomènes de santé des Français (et pas seulement des USA), que ces chercheurs soient des professionnels désirant éprouver des concepts avant d'accéder aux données réelles, ou des étudiants. Deuxièmement, elle devrait permettre à des chercheurs méthodologistes de mieux comprendre les données de santé, et mettre au point des méthodes applicables aux données de santé, plus complexes que dans d'autres champs (importance des variables catégorielles, taille des terminologies, données manquantes, hétérogénéité, complexité, etc.).
@article{chazard_generation_2024,
	series = {Congrès É{MOIS} 2024},
	title = {Génération de bases de données fictives pour libérer la recherche en santé},
	volume = {72},
	issn = {2950-4333},
	url = {https://www.sciencedirect.com/science/article/pii/S295043332400048X},
	doi = {10.1016/j.jeph.2024.202238},
	abstract = {Introduction
La réutilisation de données est un enjeu majeur en santé. Les recherches appliquées comme méthodologique devraient pouvoir accéder à des données de santé. En protégeant les citoyens, la législation française freine cependant ces recherches, et empêche l'application des principes FAIR. Notre objectif est de générer des jeux de données fictives très réalistes, permettant aux recherches appliquées d'obtenir les mêmes résultats que sur des données réelles, et aux recherches méthodologiques d'être compatibles avec les données de santé.
Méthodes
La SFR Technologies de santé et médicament a obtenu le financement du CPER Tec'Santé, dont la plateforme e-Santé est spécifiquement dédiée à la génération et la diffusion de bases de données de santé fictives mais très réalistes.
Résultats
Nous présenterons ici les méthodes actuellement développées pour générer de telles données, en prenant l'exemple d'un jeu de données intra-hospitalières (PMSI, médicament prescrits, résultats d'analyses de biologie médicale). Nous présenterons les méthodes et résultats préliminaires d'évaluation sur trois axes : - Qualité : un expert peut-il distinguer les données réelles des données simulées ? - Utilisabilité : les résultats d'analyse statistique obtenus sur données simulées sont-ils identiques à ceux sur données réelles ? - Sécurité ressentie : un « hacker » qui analyse les données simulées peut-il croire identifier des personnes réelles ?
Conclusion
La génération de jeux de données synthétiques, ou populations jumelles numériques, ou « twin datasets », devrait lever deux familles de verrous. Premièrement, elle pourrait permettre à des chercheurs du monde entier de mieux étudier les phénomènes de santé des Français (et pas seulement des USA), que ces chercheurs soient des professionnels désirant éprouver des concepts avant d'accéder aux données réelles, ou des étudiants. Deuxièmement, elle devrait permettre à des chercheurs méthodologistes de mieux comprendre les données de santé, et mettre au point des méthodes applicables aux données de santé, plus complexes que dans d'autres champs (importance des variables catégorielles, taille des terminologies, données manquantes, hétérogénéité, complexité, etc.).},
	urldate = {2024-06-07},
	journal = {Journal of Epidemiology and Population Health},
	author = {Chazard, E. and Lenain, R. and Ficheur, G. and Beuscart, J-B.},
	month = mar,
	year = {2024},
	keywords = {Données synthétiques, Jumeaux numériques, Tigital twin},
	pages = {202238},
}

Downloads: 0