Extraction de caractéristiques pour la réutilisation de données: comment les variables seront-elles transformées et analysées ?. Choteau, T., Lamer, A., Balayé, P., & Chazard, E. Revue d'Épidémiologie et de Santé Publique, 71:101466, March, 2023.
Extraction de caractéristiques pour la réutilisation de données: comment les variables seront-elles transformées et analysées ? [link]Paper  doi  abstract   bibtex   
Introduction La réutilisation de données (recherche sur des données) permet généralement de constituer des cohortes historiques. Elle s'appuie sur une étape d'extraction de caractéristiques, qui simplifie les données avant l'analyse statistique. Quelles variables sont généralement utilisées ? Comment sont-elles transformées ? Nous analyserons des cohortes historiques traditionnelles (recherche sur des personnes). Méthodes Revue de la littérature: analyse de toutes les cohortes historiques publiées dans les quatre plus grands journaux généralistes en 2019 (pré-COVID), analyse des variables utilisées et de leurs transformations. Résultats Les journaux sont: JAMA, BMJ, Lancet et NEJM. Ils ont publié 22 cohortes historiques sur des personnes en 2019, impliquant 660 variables, dont 570 explicatives (86,4 %) et 90 à expliquer (13,6 %). Onze articles (50,0 %) utilisent un modèle de Cox. Les variables rencontrées décrivent le sexe (86,4 % des articles), l'âge (81,8 %), d'autres informations démographiques (100 %), des maladies chroniques (86,4 %) ou aiguës (50,1 %), des caractéristiques de l'hôpital (18,2 %), d'autres informations liées au soin (72,7 %), des résultats de biologie (36,4 %), des médicaments (50 %), le décès (63,6 %). Nativement, elles sont binaires (62,6 %), quantitatives (21,3 %), qualitatives (12,6 %), ou purement temporelles (2,6 %). Les variables sont transformées pendant l'analyse. Les variables explicatives sont majoritairement temps-dépendantes (465 soit 70,5 %), mais presque toutes considérées comme constantes lors de l'analyse (438 soit 94,1 % d'entre elles). En outre, 65 des 660 variables (9,8 %) changent de nature, principalement des variables quantitatives qui sont discrétisées (43 des 147 variables quantitatives, soit 29,3 %). Discussion/Conclusion Ces résultats nous orientent pour concevoir un cadre méthodologique de réutilisation de données. Leçon 1: conserver le caractère quantitatif des variables explicatives n'est pas une priorité, ce qui s'explique par les hypothèses non-vérifiées (linéarité, log-linéarité) et le besoin de seuils de décision. Leçon 2: les chercheurs gèrent bien les variables à expliquer temps-dépendantes (survie), mais pas les variables explicatives temps-dépendantes. Il faut donc développer des méthodes simples d'extraction de caractéristiques permettant de préserver le temps. Rappelons que, au fond, presque toutes les variables sont temps-dépendantes. Mots-clés Extraction de caractéristiques ; Revue de la littérature ; Réutilisation de données ; Cohorte historique Déclaration de liens d'intérêts Les auteurs déclarent ne pas avoir de liens d'intérêts.
@article{choteau_extraction_2023,
	series = {Congrès national {Emois} 2023},
	title = {Extraction de caractéristiques pour la réutilisation de données: comment les variables seront-elles transformées et analysées ?},
	volume = {71},
	issn = {0398-7620},
	shorttitle = {Extraction de caractéristiques pour la réutilisation de données},
	url = {https://www.sciencedirect.com/science/article/pii/S0398762023000445},
	doi = {10.1016/j.respe.2023.101466},
	abstract = {Introduction
La réutilisation de données (recherche sur des données) permet généralement de constituer des cohortes historiques. Elle s'appuie sur une étape d'extraction de caractéristiques, qui simplifie les données avant l'analyse statistique. Quelles variables sont généralement utilisées ? Comment sont-elles transformées ? Nous analyserons des cohortes historiques traditionnelles (recherche sur des personnes).
Méthodes
Revue de la littérature: analyse de toutes les cohortes historiques publiées dans les quatre plus grands journaux généralistes en 2019 (pré-COVID), analyse des variables utilisées et de leurs transformations.
Résultats
Les journaux sont: JAMA, BMJ, Lancet et NEJM. Ils ont publié 22 cohortes historiques sur des personnes en 2019, impliquant 660 variables, dont 570 explicatives (86,4 \%) et 90 à expliquer (13,6 \%). Onze articles (50,0 \%) utilisent un modèle de Cox. Les variables rencontrées décrivent le sexe (86,4 \% des articles), l'âge (81,8 \%), d'autres informations démographiques (100 \%), des maladies chroniques (86,4 \%) ou aiguës (50,1 \%), des caractéristiques de l'hôpital (18,2 \%), d'autres informations liées au soin (72,7 \%), des résultats de biologie (36,4 \%), des médicaments (50 \%), le décès (63,6 \%). Nativement, elles sont binaires (62,6 \%), quantitatives (21,3 \%), qualitatives (12,6 \%), ou purement temporelles (2,6 \%). Les variables sont transformées pendant l'analyse. Les variables explicatives sont majoritairement temps-dépendantes (465 soit 70,5 \%), mais presque toutes considérées comme constantes lors de l'analyse (438 soit 94,1 \% d'entre elles). En outre, 65 des 660 variables (9,8 \%) changent de nature, principalement des variables quantitatives qui sont discrétisées (43 des 147 variables quantitatives, soit 29,3 \%).
Discussion/Conclusion
Ces résultats nous orientent pour concevoir un cadre méthodologique de réutilisation de données. Leçon 1: conserver le caractère quantitatif des variables explicatives n'est pas une priorité, ce qui s'explique par les hypothèses non-vérifiées (linéarité, log-linéarité) et le besoin de seuils de décision. Leçon 2: les chercheurs gèrent bien les variables à expliquer temps-dépendantes (survie), mais pas les variables explicatives temps-dépendantes. Il faut donc développer des méthodes simples d'extraction de caractéristiques permettant de préserver le temps. Rappelons que, au fond, presque toutes les variables sont temps-dépendantes.
Mots-clés
Extraction de caractéristiques ; Revue de la littérature ; Réutilisation de données ; Cohorte historique
Déclaration de liens d'intérêts
Les auteurs déclarent ne pas avoir de liens d'intérêts.},
	urldate = {2023-11-02},
	journal = {Revue d'Épidémiologie et de Santé Publique},
	author = {Choteau, T. and Lamer, A. and Balayé, P. and Chazard, E.},
	month = mar,
	year = {2023},
	pages = {101466},
}

Downloads: 0