Vers une définition des big data en santé basée sur la littérature. Baro, E. Ph.D. Thesis, Université du droit et de la santé, Lille ; 1969-2017, France, 2015.
abstract   bibtex   
Contexte : Le terme « Big data » émerge récemment dans la littérature scientifique. Ce terme n’est pas encore référencé dans le MeSH (Medical Subject Headings). Or son usage semble ambigu et les propriétés attribuées à ce terme par les auteurs varient selon les articles. L’objectif de ce travail est de proposer une définition du terme « Big data » à partir d’une revue de la littérature incluant les articles mentionnant ce terme et de décrire systématiquement les propriétés rattachées à ce terme par les auteurs. Méthode : Nous avons conduit une recherche systématique de la base de données PubMed de tous les articles publiés jusqu’au 9 mai 2014 en utilisant le terme de recherche « Big data ». Ces articles ont été classés en domaines d’études. Le nombre d’individus statistiques (n) et le nombre de variables (p) ont été relevés pour les articles décrivant un jeu de données. Nous avons également considéré les caractéristiques attribuées aux Big data par les auteurs. En s’appuyant sur cette analyse, une définition des Big data a été proposée. Résultats : Cent quatre-vingt-seize articles ont été inclus. Trois principales catégories d’études ont été identifiées : les spécialités « omiques », les spécialités médicales et la santé publique. Les Big data peuvent être définies comme des données avec un Log(n * p) supérieur ou égal à 7. Les propriétés des Big data sont ses grandes variétés de données et leur importante vélocité. Les Big data soulèvent des défis concernant la véracité, la gestion des données, l’extraction d’informations utiles, le partage des informations et l’existence d’experts humains ayant à la fois des compétences cliniques et analytiques. L’émergence des Big data nécessitent la création de nouvelles méthodes de calcul qui optimisent la gestion de données. Les concepts reliés sont la réutilisation des données (data reuse), la possibilité de connaissances erronées et la question de la confidentialité des données. Conclusion : Les Big data sont définies par le volume. La taille des données qui les qualifie de « Big data » va probablement augmenter avec le temps. Les Big data ne doivent pas être confondues avec le data reuse : les données peuvent être massives sans être forcément réutilisées dans un autre objectif, par exemple dans le cas des spécialités « omiques ». Inversement, des données peuvent être réutilisées sans être nécessairement de grande dimension. C’est le cas par exemple de l’utilisation secondaire du dossier patient informatisé.
@phdthesis{baro_vers_2015,
	address = {Lille ; 1969-2017, France},
	type = {Thèse d'exercice},
	title = {Vers une définition des big data en santé basée sur la littérature},
	abstract = {Contexte : Le terme « Big data » émerge récemment dans la littérature scientifique. Ce terme n’est pas encore référencé dans le MeSH (Medical Subject Headings). Or son usage semble ambigu et les propriétés attribuées à ce terme par les auteurs varient selon les articles. L’objectif de ce travail est de proposer une définition du terme « Big data » à partir d’une revue de la littérature incluant les articles mentionnant ce terme et de décrire systématiquement les propriétés rattachées à ce terme par les auteurs. Méthode : Nous avons conduit une recherche systématique de la base de données PubMed de tous les articles publiés jusqu’au 9 mai 2014 en utilisant le terme de recherche « Big data ». Ces articles ont été classés en domaines d’études. Le nombre d’individus statistiques (n) et le nombre de variables (p) ont été relevés pour les articles décrivant un jeu de données. Nous avons également considéré les caractéristiques attribuées aux Big data par les auteurs. En s’appuyant sur cette analyse, une définition des Big data a été proposée. Résultats : Cent quatre-vingt-seize articles ont été inclus. Trois principales catégories d’études ont été identifiées : les spécialités « omiques », les spécialités médicales et la santé publique. Les Big data peuvent être définies comme des données avec un Log(n * p) supérieur ou égal à 7. Les propriétés des Big data sont ses grandes variétés de données et leur importante vélocité. Les Big data soulèvent des défis concernant la véracité, la gestion des données, l’extraction d’informations utiles, le partage des informations et l’existence d’experts humains ayant à la fois des compétences cliniques et analytiques. L’émergence des Big data nécessitent la création de nouvelles méthodes de calcul qui optimisent la gestion de données. Les concepts reliés sont la réutilisation des données (data reuse), la possibilité de connaissances erronées et la question de la confidentialité des données. Conclusion : Les Big data sont définies par le volume. La taille des données qui les qualifie de « Big data » va probablement augmenter avec le temps. Les Big data ne doivent pas être confondues avec le data reuse : les données peuvent être massives sans être forcément réutilisées dans un autre objectif, par exemple dans le cas des spécialités « omiques ». Inversement, des données peuvent être réutilisées sans être nécessairement de grande dimension. C’est le cas par exemple de l’utilisation secondaire du dossier patient informatisé.},
	language = {français},
	school = {Université du droit et de la santé},
	author = {Baro, Emilie},
	collaborator = {Chazard, Emmanuel},
	year = {2015},
	keywords = {Bases de données factuelles -- Dissertation universitaire, Big data. exploration de données. réutilisation des données. omiques, Données massives -- Thèses et écrits académiques, Exploration de données -- Thèses et écrits académiques, Fouille de données -- Dissertation universitaire, Informatique médicale -- statistiques et données numériques -- Dissertation universitaire, Revue de la littérature -- Dissertation universitaire, Santé -- Bases de données -- Thèses et écrits académiques, Systèmes d'information sur la santé -- statistiques et données numériques -- Dissertation universitaire}
}

Downloads: 0