Comment les variables statistiques devraient-elles être préparées pour bâtir des cohortes historiques en réutilisation de données. Choteau, T. Ph.D. Thesis, Université de Lille, 2022-...., France, March, 2023.
Comment les variables statistiques devraient-elles être préparées pour bâtir des cohortes historiques en réutilisation de données [pdf]Paper  abstract   bibtex   
Contexte : Traditionnellement, les travaux de recherche en Santé s’appuient sur un recueil de données spécifique à l’étude. Plus récemment, ces travaux peuvent s’appuyer sur de la réutilisation de données existantes (data reuse). Ce processus suppose une transformation de données (feature extraction). Notre objectif stratégique est de standardiser ce processus. Matériel et Méthodes : Nous avons effectué une revue de la littérature incluant les cohortes historiques de sujets humains, à l’exclusion des travaux de la réutilisation des données. Après récupération des textes complets, nous avons examiné les variables analysées et leurs transformations durant l’analyse statistique. Résultats : Sur 22 articles, nous avons identifié 660 variables. Ces variables relatent différentes informations : l’âge (81.8% des articles), le sexe (86.4%), des maladies aiguës (50.1%), des maladies chroniques (86.4%), des caractéristiques de l’hôpital (18.2%), des résultats de biologie médicale (36.4%), des traitements médicamenteux (50%) ou autres (72.7%), et la mortalité (63.6%). Elles occupent une place de variable explicative (86.4% des variables) ou à expliquer (13.6% des variables). En termes de nature de variable, 9.8% des variables subissent une transformation de type : 66.2% de ces variables passent de quantitatives à qualitatives ordonnée, 12.3% passent de quantitatives à binaires, 3.1% passent de qualitative ordonnée à binaire, 10.8% passent de qualitative nominale à binaire, et 7.7% passent de temporelle à qualitative ordonnée. En termes de dépendance au temps, 452 (68.5%) variables temps-dépendantes deviennent temps-indépendantes durant l’analyse. Toutes les variables temps-indépendantes initialement le restent. Ce résultat est très différent entre variables explicatives et variables à expliquer. Pour les 465 variables explicatives temps-dépendantes, seulement 27 (5.9%) le restent, tandis que 438 (94.1%) deviennent temps-indépendantes. Parmi les variables à expliquer, 11 (17.7%) deviennent temps-indépendantes, et 65 (82.3%) restent temps-dépendantes. Conclusion : Dans le cadre de l'extraction de caractéristiques pour des cohortes rétrospectives par data reuse, il n'est pas obligatoire de pouvoir traiter des variables quantitatives, mais il semble nécessaire de permettre une meilleure préservation du caractère temps-dépendant des variables.

Downloads: 0