Description standardisée du processus d'extraction de caractéristiques afin d'améliorer la réutilisation des données. Lamer, A., Fruchart, M., Paris, N., Popoff, B., Payen, A., Balcaen, T., Gacquer, W., Cuggia, M., Doutreligne, M., & Chazard, E. Revue d'Épidémiologie et de Santé Publique, 71:101465, March, 2023.
Description standardisée du processus d'extraction de caractéristiques afin d'améliorer la réutilisation des données [link]Paper  doi  abstract   bibtex   
Introduction Malgré les nombreuses possibilités qu'offre la réutilisation des données, sa mise en œuvre présente de nombreuses difficultés, et les données brutes ne peuvent pas être réutilisées directement. Les informations ne sont pas toujours directement disponibles dans la base de données source et doivent être calculées a posteriori. L'objectif principal de cette étude est de présenter une description standardisée des étapes et des transformations nécessaires lors du processus d'extraction de caractéristiques. Méthodes Cette étude a comporté les deux étapes suivantes: (1) la collecte de cas d'étude pertinents liés à l'extraction de caractéristiques; (2) la description normalisée des données brutes, des étapes et des transformations, qui étaient communes aux cas d'étude. Résultats Nous avons interrogé 10 chercheurs de trois hôpitaux universitaires français et de la Haute Autorité de santé, qui ont participé à huit études rétrospectives et observationnelles. Sur la base de ces études, deux états (piste et caractéristique) et deux transformations (la définition de pistes et l'agrégation de pistes) ont émergé. La "piste" est un signal ou une période d'intérêt dépendant du temps, défini par une unité statistique, une valeur et deux jalons (un événement de début et un événement de fin). La "caractéristique" est une information de haut niveau indépendante du temps, de dimension identique à l'unité statistique de l'étude, définie par un label et une valeur. La dimension temporelle est devenue implicite dans la valeur ou le nom de la variable. Discussion/Conclusion Nous proposons une description standardisée du processus d'extraction de caractéristiques. Ce processus combine les deux étapes de définition et d'agrégation des pistes. En divisant l'extraction de caractéristiques en ces deux étapes, la difficulté a été gérée lors de la définition des pistes. La standardisation des pistes nécessite une grande expertise au niveau des données, mais permet l'application d'un nombre infini de transformations complexes. Au contraire, l'agrégation des pistes est une opération très simple avec un nombre fini de possibilités. Une description complète de ces étapes pourrait améliorer la reproductibilité des études rétrospectives. Mots-clés Réutilisation de données ; Base de données ; Entrepôt de données ; OMOP ; Caractéristique Déclaration de liens d'intérêts Les auteurs déclarent ne pas avoir de liens d'intérêts.
@article{lamer_description_2023,
	series = {Congrès national {Emois} 2023},
	title = {Description standardisée du processus d'extraction de caractéristiques afin d'améliorer la réutilisation des données},
	volume = {71},
	issn = {0398-7620},
	url = {https://www.sciencedirect.com/science/article/pii/S0398762023000433},
	doi = {10.1016/j.respe.2023.101465},
	abstract = {Introduction
Malgré les nombreuses possibilités qu'offre la réutilisation des données, sa mise en œuvre présente de nombreuses difficultés, et les données brutes ne peuvent pas être réutilisées directement. Les informations ne sont pas toujours directement disponibles dans la base de données source et doivent être calculées a posteriori. L'objectif principal de cette étude est de présenter une description standardisée des étapes et des transformations nécessaires lors du processus d'extraction de caractéristiques.
Méthodes
Cette étude a comporté les deux étapes suivantes: (1) la collecte de cas d'étude pertinents liés à l'extraction de caractéristiques; (2) la description normalisée des données brutes, des étapes et des transformations, qui étaient communes aux cas d'étude.
Résultats
Nous avons interrogé 10 chercheurs de trois hôpitaux universitaires français et de la Haute Autorité de santé, qui ont participé à huit études rétrospectives et observationnelles. Sur la base de ces études, deux états (piste et caractéristique) et deux transformations (la définition de pistes et l'agrégation de pistes) ont émergé. La "piste" est un signal ou une période d'intérêt dépendant du temps, défini par une unité statistique, une valeur et deux jalons (un événement de début et un événement de fin). La "caractéristique" est une information de haut niveau indépendante du temps, de dimension identique à l'unité statistique de l'étude, définie par un label et une valeur. La dimension temporelle est devenue implicite dans la valeur ou le nom de la variable.
Discussion/Conclusion
Nous proposons une description standardisée du processus d'extraction de caractéristiques. Ce processus combine les deux étapes de définition et d'agrégation des pistes. En divisant l'extraction de caractéristiques en ces deux étapes, la difficulté a été gérée lors de la définition des pistes. La standardisation des pistes nécessite une grande expertise au niveau des données, mais permet l'application d'un nombre infini de transformations complexes. Au contraire, l'agrégation des pistes est une opération très simple avec un nombre fini de possibilités. Une description complète de ces étapes pourrait améliorer la reproductibilité des études rétrospectives.
Mots-clés
Réutilisation de données ; Base de données ; Entrepôt de données ; OMOP ; Caractéristique
Déclaration de liens d'intérêts
Les auteurs déclarent ne pas avoir de liens d'intérêts.},
	urldate = {2023-11-02},
	journal = {Revue d'Épidémiologie et de Santé Publique},
	author = {Lamer, A. and Fruchart, M. and Paris, N. and Popoff, B. and Payen, A. and Balcaen, T. and Gacquer, W. and Cuggia, M. and Doutreligne, M. and Chazard, E.},
	month = mar,
	year = {2023},
	pages = {101465},
}

Downloads: 0