{"_id":"D4KzEZz9n7DtDS4Cd","bibbaseid":"choteau-lamer-balay-chazard-extractiondecaractristiquespourlarutilisationdedonnescommentlesvariablesserontellestransformesetanalyses-2023","author_short":["Choteau, T.","Lamer, A.","Balayé, P.","Chazard, E."],"bibdata":{"bibtype":"article","type":"article","series":"Congrès national Emois 2023","title":"Extraction de caractéristiques pour la réutilisation de données: comment les variables seront-elles transformées et analysées ?","volume":"71","issn":"0398-7620","shorttitle":"Extraction de caractéristiques pour la réutilisation de données","url":"https://www.sciencedirect.com/science/article/pii/S0398762023000445","doi":"10.1016/j.respe.2023.101466","abstract":"Introduction La réutilisation de données (recherche sur des données) permet généralement de constituer des cohortes historiques. Elle s'appuie sur une étape d'extraction de caractéristiques, qui simplifie les données avant l'analyse statistique. Quelles variables sont généralement utilisées ? Comment sont-elles transformées ? Nous analyserons des cohortes historiques traditionnelles (recherche sur des personnes). Méthodes Revue de la littérature: analyse de toutes les cohortes historiques publiées dans les quatre plus grands journaux généralistes en 2019 (pré-COVID), analyse des variables utilisées et de leurs transformations. Résultats Les journaux sont: JAMA, BMJ, Lancet et NEJM. Ils ont publié 22 cohortes historiques sur des personnes en 2019, impliquant 660 variables, dont 570 explicatives (86,4 %) et 90 à expliquer (13,6 %). Onze articles (50,0 %) utilisent un modèle de Cox. Les variables rencontrées décrivent le sexe (86,4 % des articles), l'âge (81,8 %), d'autres informations démographiques (100 %), des maladies chroniques (86,4 %) ou aiguës (50,1 %), des caractéristiques de l'hôpital (18,2 %), d'autres informations liées au soin (72,7 %), des résultats de biologie (36,4 %), des médicaments (50 %), le décès (63,6 %). Nativement, elles sont binaires (62,6 %), quantitatives (21,3 %), qualitatives (12,6 %), ou purement temporelles (2,6 %). Les variables sont transformées pendant l'analyse. Les variables explicatives sont majoritairement temps-dépendantes (465 soit 70,5 %), mais presque toutes considérées comme constantes lors de l'analyse (438 soit 94,1 % d'entre elles). En outre, 65 des 660 variables (9,8 %) changent de nature, principalement des variables quantitatives qui sont discrétisées (43 des 147 variables quantitatives, soit 29,3 %). Discussion/Conclusion Ces résultats nous orientent pour concevoir un cadre méthodologique de réutilisation de données. Leçon 1: conserver le caractère quantitatif des variables explicatives n'est pas une priorité, ce qui s'explique par les hypothèses non-vérifiées (linéarité, log-linéarité) et le besoin de seuils de décision. Leçon 2: les chercheurs gèrent bien les variables à expliquer temps-dépendantes (survie), mais pas les variables explicatives temps-dépendantes. Il faut donc développer des méthodes simples d'extraction de caractéristiques permettant de préserver le temps. Rappelons que, au fond, presque toutes les variables sont temps-dépendantes. Mots-clés Extraction de caractéristiques ; Revue de la littérature ; Réutilisation de données ; Cohorte historique Déclaration de liens d'intérêts Les auteurs déclarent ne pas avoir de liens d'intérêts.","urldate":"2023-11-02","journal":"Revue d'Épidémiologie et de Santé Publique","author":[{"propositions":[],"lastnames":["Choteau"],"firstnames":["T."],"suffixes":[]},{"propositions":[],"lastnames":["Lamer"],"firstnames":["A."],"suffixes":[]},{"propositions":[],"lastnames":["Balayé"],"firstnames":["P."],"suffixes":[]},{"propositions":[],"lastnames":["Chazard"],"firstnames":["E."],"suffixes":[]}],"month":"March","year":"2023","pages":"101466","bibtex":"@article{choteau_extraction_2023,\n\tseries = {Congrès national {Emois} 2023},\n\ttitle = {Extraction de caractéristiques pour la réutilisation de données: comment les variables seront-elles transformées et analysées ?},\n\tvolume = {71},\n\tissn = {0398-7620},\n\tshorttitle = {Extraction de caractéristiques pour la réutilisation de données},\n\turl = {https://www.sciencedirect.com/science/article/pii/S0398762023000445},\n\tdoi = {10.1016/j.respe.2023.101466},\n\tabstract = {Introduction\nLa réutilisation de données (recherche sur des données) permet généralement de constituer des cohortes historiques. Elle s'appuie sur une étape d'extraction de caractéristiques, qui simplifie les données avant l'analyse statistique. Quelles variables sont généralement utilisées ? Comment sont-elles transformées ? Nous analyserons des cohortes historiques traditionnelles (recherche sur des personnes).\nMéthodes\nRevue de la littérature: analyse de toutes les cohortes historiques publiées dans les quatre plus grands journaux généralistes en 2019 (pré-COVID), analyse des variables utilisées et de leurs transformations.\nRésultats\nLes journaux sont: JAMA, BMJ, Lancet et NEJM. Ils ont publié 22 cohortes historiques sur des personnes en 2019, impliquant 660 variables, dont 570 explicatives (86,4 \\%) et 90 à expliquer (13,6 \\%). Onze articles (50,0 \\%) utilisent un modèle de Cox. Les variables rencontrées décrivent le sexe (86,4 \\% des articles), l'âge (81,8 \\%), d'autres informations démographiques (100 \\%), des maladies chroniques (86,4 \\%) ou aiguës (50,1 \\%), des caractéristiques de l'hôpital (18,2 \\%), d'autres informations liées au soin (72,7 \\%), des résultats de biologie (36,4 \\%), des médicaments (50 \\%), le décès (63,6 \\%). Nativement, elles sont binaires (62,6 \\%), quantitatives (21,3 \\%), qualitatives (12,6 \\%), ou purement temporelles (2,6 \\%). Les variables sont transformées pendant l'analyse. Les variables explicatives sont majoritairement temps-dépendantes (465 soit 70,5 \\%), mais presque toutes considérées comme constantes lors de l'analyse (438 soit 94,1 \\% d'entre elles). En outre, 65 des 660 variables (9,8 \\%) changent de nature, principalement des variables quantitatives qui sont discrétisées (43 des 147 variables quantitatives, soit 29,3 \\%).\nDiscussion/Conclusion\nCes résultats nous orientent pour concevoir un cadre méthodologique de réutilisation de données. Leçon 1: conserver le caractère quantitatif des variables explicatives n'est pas une priorité, ce qui s'explique par les hypothèses non-vérifiées (linéarité, log-linéarité) et le besoin de seuils de décision. Leçon 2: les chercheurs gèrent bien les variables à expliquer temps-dépendantes (survie), mais pas les variables explicatives temps-dépendantes. Il faut donc développer des méthodes simples d'extraction de caractéristiques permettant de préserver le temps. Rappelons que, au fond, presque toutes les variables sont temps-dépendantes.\nMots-clés\nExtraction de caractéristiques ; Revue de la littérature ; Réutilisation de données ; Cohorte historique\nDéclaration de liens d'intérêts\nLes auteurs déclarent ne pas avoir de liens d'intérêts.},\n\turldate = {2023-11-02},\n\tjournal = {Revue d'Épidémiologie et de Santé Publique},\n\tauthor = {Choteau, T. and Lamer, A. and Balayé, P. and Chazard, E.},\n\tmonth = mar,\n\tyear = {2023},\n\tpages = {101466},\n}\n\n","author_short":["Choteau, T.","Lamer, A.","Balayé, P.","Chazard, E."],"key":"choteau_extraction_2023","id":"choteau_extraction_2023","bibbaseid":"choteau-lamer-balay-chazard-extractiondecaractristiquespourlarutilisationdedonnescommentlesvariablesserontellestransformesetanalyses-2023","role":"author","urls":{"Paper":"https://www.sciencedirect.com/science/article/pii/S0398762023000445"},"metadata":{"authorlinks":{}}},"bibtype":"article","biburl":"https://api.zotero.org/users/1597782/collections/MSB7W4UM/items?key=gxIPM4PJtMVcB8OpssCWodtP&format=bibtex&limit=100&start=0&sort=date","dataSources":["doevpoZ8x7wJceFTM"],"keywords":[],"search_terms":["extraction","caract","ristiques","pour","utilisation","donn","comment","les","variables","seront","elles","transform","analys","choteau","lamer","balayé","chazard"],"title":"Extraction de caractéristiques pour la réutilisation de données: comment les variables seront-elles transformées et analysées ?","year":2023}