« Data Lake, Data Warehouse, Datamart and Feature Store » - Contributions au Pipeline de réutilisation des données. Lamer, A., Saint-Dizier, C., Paris, N., & Chazard, E. Journal of Epidemiology and Population Health, 72:202245, March, 2024.
« Data Lake, Data Warehouse, Datamart and Feature Store » - Contributions au Pipeline de réutilisation des données [link]Paper  doi  abstract   bibtex   
Introduction Les hôpitaux ont progressivement adopté les entrepôts de données de santé pour faciliter la réutilisation des données à des fins de recherche. Cependant, la réutilisation des données ne se limite pas à l'alimentation et à l'interrogation d'un entrepôt de données. L'objectif de ce travail est de présenter les différents composants du pipeline de réutilisation des données, et comment ils se complètent et interagissent entre eux. Méthodes Trois « data scientists » et un médecin ont comparé leurs expériences afin de proposer un pipeline intégrant les composants essentiels ou optionnels afin de faciliter la réutilisation des données pour la recherche en santé. Résultats Le « data lake » est un premier élément possible du pipeline. Il stocke à la fois les données sources et les métadonnées dans un format brut et détaillé et permet l'exploration et la manipulation des données pour répondre à des besoins analytiques spécifiques. L'entrepôt de données se présente comme le composant le plus répandu, recevant les données brutes directement des logiciels ou du « data lake ». Il est alimenté par le processus ETL (« Extract-Transform-Load ») qui nettoie les données brutes, puis les intègre dans un modèle de données unique, indépendant des logiciels. L'entrepôt de données fonctionne comme un référentiel unifié, centralisé et normalisé de données historiques détaillées. Pour favoriser la collaboration entre les institutions, l'entrepôt de données peut adopter un modèle de données commun et standardiser la structure des données et les terminologies. À ce stade, les données sont encore stockées dans des tables multidimensionnelles avec un format orienté ligne. À la suite, les datamarts transforment les données complexes en informations exploitables adaptées à des questions spécifiques. Ce processus est souvent désigné sous le terme de « feature extraction ». Un dernier composant, le « feature store », est essentiel pour présenter les « features » au format colonne et limiter les requêtes à des sélections de colonnes et d'enregistrements afin de les simplifier. Conclusion Bien que les entrepôts de données soient cruciaux, les « data lakes », « datamarts » et « feature stores » jouent des rôles essentiels et complémentaires dans la facilitation de la réutilisation des données pour la recherche en santé.
@article{lamer__2024,
	series = {Congrès É{MOIS} 2024},
	title = {« {Data} {Lake}, {Data} {Warehouse}, {Datamart} and {Feature} {Store} » - {Contributions} au {Pipeline} de réutilisation des données},
	volume = {72},
	issn = {2950-4333},
	url = {https://www.sciencedirect.com/science/article/pii/S2950433324000557},
	doi = {10.1016/j.jeph.2024.202245},
	abstract = {Introduction
Les hôpitaux ont progressivement adopté les entrepôts de données de santé pour faciliter la réutilisation des données à des fins de recherche. Cependant, la réutilisation des données ne se limite pas à l'alimentation et à l'interrogation d'un entrepôt de données. L'objectif de ce travail est de présenter les différents composants du pipeline de réutilisation des données, et comment ils se complètent et interagissent entre eux.
Méthodes
Trois « data scientists » et un médecin ont comparé leurs expériences afin de proposer un pipeline intégrant les composants essentiels ou optionnels afin de faciliter la réutilisation des données pour la recherche en santé.
Résultats
Le « data lake » est un premier élément possible du pipeline. Il stocke à la fois les données sources et les métadonnées dans un format brut et détaillé et permet l'exploration et la manipulation des données pour répondre à des besoins analytiques spécifiques. L'entrepôt de données se présente comme le composant le plus répandu, recevant les données brutes directement des logiciels ou du « data lake ». Il est alimenté par le processus ETL (« Extract-Transform-Load ») qui nettoie les données brutes, puis les intègre dans un modèle de données unique, indépendant des logiciels. L'entrepôt de données fonctionne comme un référentiel unifié, centralisé et normalisé de données historiques détaillées. Pour favoriser la collaboration entre les institutions, l'entrepôt de données peut adopter un modèle de données commun et standardiser la structure des données et les terminologies. À ce stade, les données sont encore stockées dans des tables multidimensionnelles avec un format orienté ligne. À la suite, les datamarts transforment les données complexes en informations exploitables adaptées à des questions spécifiques. Ce processus est souvent désigné sous le terme de « feature extraction ». Un dernier composant, le « feature store », est essentiel pour présenter les « features » au format colonne et limiter les requêtes à des sélections de colonnes et d'enregistrements afin de les simplifier.
Conclusion
Bien que les entrepôts de données soient cruciaux, les « data lakes », « datamarts » et « feature stores » jouent des rôles essentiels et complémentaires dans la facilitation de la réutilisation des données pour la recherche en santé.},
	urldate = {2024-06-07},
	journal = {Journal of Epidemiology and Population Health},
	author = {Lamer, A. and Saint-Dizier, C. and Paris, N. and Chazard, E.},
	month = mar,
	year = {2024},
	keywords = {Entrepôt de données, Extraction de caractéristiques, Réutilisation des données},
	pages = {202245},
}

Downloads: 0