Détermination de l’exposition de 394 979 nouveau-nés par imputation multiple de données manquantes dans une étude épidémiologique. Caron, A., Clément, G., Heyman, C., Aernout, E., Chazard, E., & Le Tertre, A. Revue d'Épidémiologie et de Santé Publique, 63, Supplement 1:S9, March, 2015.
Détermination de l’exposition de 394 979 nouveau-nés par imputation multiple de données manquantes dans une étude épidémiologique [link]Paper  doi  abstract   bibtex   
Introduction L’utilisation de bases de données administratives à visée épidémiologique est limitée par l’existence de données manquantes. Nous avons étudié l’effet des perchlorates contenus dans l’eau sur la TSH (Thyroid Stimulating Hormone) des nouveau-nés. Nous disposions des données informatisées du dépistage néonatal systématique dosant la TSH. La commune de résidence de la mère permettait d’attribuer l’exposition au perchlorate mais était rarement saisie. L’objectif de ce travail était d’évaluer une méthode d’imputation de la commune de résidence permettant d’attribuer une exposition aux nouveau-nés. Méthodes La population d’étude était composée de l’ensemble des nouveau-nés dans le Nord Pas-de-Calais entre 2004 et 2012. Pour une maternité donnée, nous avons calculé la probabilité de résidence dans chacune des communes de son recrutement géographique à partir d’une extraction PMSI de l’ensemble des naissances de la période (GHM d’accouchement par voie basse ou césarienne). Le gold standard (GS) était établi pour l’année 2012 par saisie informatique systématique des communes de résidence. L’imputation multiple des données manquantes était réalisée par équations chaînées (MICE) pour les variables d’ajustement disponibles (> 15 % de manquantes) et par tirage au sort pondéré pour la commune de résidence. Le GS était comparé aux imputations à l’aide des odds ratios (OR) d’un modèle linéaire mixte. Ce modèle était ensuite réalisé sur l’ensemble des données. Résultats Les six OR obtenus par l’imputation sont similaires à ceux obtenus par imputation en 2012. Les statistiques de test (donc les intervalles de confiance) sont analogues : la plus grande variation est de l’ordre de 0,001 (OR = 1,047 [1,029–1,065] versus 1,042 [1,024–1,059]). Un OR non significatif change de polarité. Le modèle réalisé sur l’ensemble des naissances retrouve des coefficients comparables dont l’intervalle de confiance est plus précis. Discussion/conclusion Ce travail permet de valider notre méthode d’imputation multiple. L’utilisation de MICE permet d’obtenir des estimateurs non biaisés et dont la variance est préservée. Les résultats obtenus sur les 394 979 nouveau-nés appuient nos conclusions avec une taille d’échantillon dix fois supérieure.
@article{caron_determination_2015,
	series = {{XXVIIIe} {Congrès} national Émois, {Nancy}, 26 et 27 mars 2015},
	title = {Détermination de l’exposition de 394 979 nouveau-nés par imputation multiple de données manquantes dans une étude épidémiologique},
	volume = {63, Supplement 1},
	issn = {0398-7620},
	url = {http://www.sciencedirect.com/science/article/pii/S0398762015000176},
	doi = {10.1016/j.respe.2015.01.016},
	abstract = {Introduction
L’utilisation de bases de données administratives à visée épidémiologique est limitée par l’existence de données manquantes. Nous avons étudié l’effet des perchlorates contenus dans l’eau sur la TSH (Thyroid Stimulating Hormone) des nouveau-nés. Nous disposions des données informatisées du dépistage néonatal systématique dosant la TSH. La commune de résidence de la mère permettait d’attribuer l’exposition au perchlorate mais était rarement saisie. L’objectif de ce travail était d’évaluer une méthode d’imputation de la commune de résidence permettant d’attribuer une exposition aux nouveau-nés.
Méthodes
La population d’étude était composée de l’ensemble des nouveau-nés dans le Nord Pas-de-Calais entre 2004 et 2012. Pour une maternité donnée, nous avons calculé la probabilité de résidence dans chacune des communes de son recrutement géographique à partir d’une extraction PMSI de l’ensemble des naissances de la période (GHM d’accouchement par voie basse ou césarienne). Le gold standard (GS) était établi pour l’année 2012 par saisie informatique systématique des communes de résidence. L’imputation multiple des données manquantes était réalisée par équations chaînées (MICE) pour les variables d’ajustement disponibles (\> 15 \% de manquantes) et par tirage au sort pondéré pour la commune de résidence. Le GS était comparé aux imputations à l’aide des odds ratios (OR) d’un modèle linéaire mixte. Ce modèle était ensuite réalisé sur l’ensemble des données.
Résultats
Les six OR obtenus par l’imputation sont similaires à ceux obtenus par imputation en 2012. Les statistiques de test (donc les intervalles de confiance) sont analogues : la plus grande variation est de l’ordre de 0,001 (OR = 1,047 [1,029–1,065] versus 1,042 [1,024–1,059]). Un OR non significatif change de polarité. Le modèle réalisé sur l’ensemble des naissances retrouve des coefficients comparables dont l’intervalle de confiance est plus précis.
Discussion/conclusion
Ce travail permet de valider notre méthode d’imputation multiple. L’utilisation de MICE permet d’obtenir des estimateurs non biaisés et dont la variance est préservée. Les résultats obtenus sur les 394 979 nouveau-nés appuient nos conclusions avec une taille d’échantillon dix fois supérieure.},
	urldate = {2015-04-04},
	journal = {Revue d'Épidémiologie et de Santé Publique},
	author = {Caron, A. and Clément, G. and Heyman, C. and Aernout, E. and Chazard, E. and Le Tertre, A.},
	month = mar,
	year = {2015},
	keywords = {Bases administratives, Imputations multiples, Épidémiologie},
	pages = {S9},
}

Downloads: 0