{"id":10734,"date":"2015-07-06T18:02:06","date_gmt":"2015-07-06T16:02:06","guid":{"rendered":"https:\/\/www.etalab.gouv.fr\/?p=10734"},"modified":"2019-06-18T10:30:29","modified_gmt":"2019-06-18T08:30:29","slug":"preparer-les-donnees-avec-la-cnamts-pour-le-hackathon-opendamir","status":"publish","type":"post","link":"https:\/\/preprod.etalab.gouv.fr\/preparer-les-donnees-avec-la-cnamts-pour-le-hackathon-opendamir","title":{"rendered":"Comment nous avons pr\u00e9par\u00e9 le hackathon DAMIR"},"content":{"rendered":"\n
L\u2019objectif d\u2019un hackathon est de montrer comment une mise \u00e0 \ndisposition de donn\u00e9es permet de cr\u00e9er de nouveaux services et de \nr\u00e9aliser de nouvelles \u00e9tudes. Pour que les participants puissent \nr\u00e9utiliser les donn\u00e9es facilement et sans perdre de temps, quelques \n\u00e9tapes pr\u00e9paratoires sont parfois n\u00e9cessaires. D\u2019autant plus lorsque ce \nhackathon porte sur des donn\u00e9es techniques, volumineuses et ayant un \ncaract\u00e8re personnel.<\/p>\n\n\n\n
Illustrations de ces travaux pr\u00e9liminaires \u00e0 partir de l\u2019exemple du hackathon \u201cdonn\u00e9es de sant\u00e9\u201d<\/a> organis\u00e9 par la Caisse Nationale de l\u2019Assurance Maladie des Travailleurs Salari\u00e9s<\/em> (CNAMTS) et Etalab en janvier dernier pour lequel l\u2019\u00e9quipe de l\u2019Administrateur g\u00e9n\u00e9ral des donn\u00e9es (AGD) s\u2019est mobilis\u00e9e.<\/p>\n\n\n\n Avant toute chose, la premi\u00e8re \u00e9tape avant d\u2019ouvrir des donn\u00e9es \nconsistait \u00e0 \u00e9liminer les informations \u00e0 caract\u00e8re personnel de la base \nde donn\u00e9es en v\u00e9rifiant l\u2019impossibilit\u00e9 de r\u00e9identifier les individus (patients ou professionnels de sant\u00e9)<\/strong>.<\/p>\n\n\n\n L\u2019\u00e9quipe de la CNAMTS a adopt\u00e9 deux strat\u00e9gies distinctes. Un premier jeu de donn\u00e9es<\/a> contient des donn\u00e9es agr\u00e9g\u00e9es au niveau du d\u00e9partement avec un nombre limit\u00e9 de variables alors qu\u2019un second jeu de donn\u00e9es, l\u2019OpenDAMIR<\/a>, contient l\u2019ensemble des variables contenues dans le jeu de donn\u00e9es initial mais agr\u00e9g\u00e9es par groupe de r\u00e9gions.<\/p>\n\n\n\n Une fois les risques de r\u00e9identification \u00e9cart\u00e9s, nous avons standardis\u00e9 la base de donn\u00e9es pour en faciliter la r\u00e9utilisation.<\/strong>\n En effet, les donn\u00e9es fournies par la CNAMTS \u00e9taient issues du syst\u00e8me \nd\u2019information interne et pens\u00e9es pour ses usages. Pour faciliter la \nr\u00e9utilisation des donn\u00e9es par un public plus large, nous avons :<\/p>\n\n\n\n Ces op\u00e9rations ont permis de r\u00e9duire par quatre la taille de la base \nsur le disque et de faciliter le chargement des donn\u00e9es sur un \nordinateur. Le volume de donn\u00e9es (pr\u00e8s de 200 GO et un milliard et demi \nde lignes) restait cependant important. Pour permettre aux participants \nd\u2019acc\u00e9der aux donn\u00e9es le jour J nous avons mis en place une base de \ndonn\u00e9es PostgreSQL sur un serveur et install\u00e9 un r\u00e9seau Ethernet local. \nCela a permis aux participants de faire plus d\u2019un million de requ\u00eates et\n de t\u00e9l\u00e9charger 650 Go de donn\u00e9es au total dans de bonnes conditions. \nNous avions \u00e9galement pr\u00e9par\u00e9 des programmes R et Python pour faciliter \nl\u2019acc\u00e8s \u00e0 la base PostgreSQL.<\/p>\n\n\n\n Enfin, le succ\u00e8s d\u2019un hackathon repose sur l\u2019exploitation des donn\u00e9es<\/strong>\n et les r\u00e9utilisations qui en r\u00e9sultent. Or, avoir acc\u00e8s aux donn\u00e9es et \nen conna\u00eetre le format ne suffit pas pour les utiliser, il est aussi \nn\u00e9cessaire d\u2019en comprendre le contenu. C\u2019est pour cette raison que nous \nnous sommes associ\u00e9s avec l\u2019\u00e9quipe de la CNAMTS pour \u00e9laborer un wiki<\/a> \u00e0 destination des utilisateurs.<\/strong><\/p>\n\n\n\n Le DAMIR \u00e9tant une base administrative, il \u00e9tait important de \npr\u00e9ciser la nature des informations qu\u2019elle contenait et les concepts \nqui leurs \u00e9taient associ\u00e9s. On trouve par exemple sur ce wiki une vision\n synth\u00e9tique de ce qu\u2019est un acte m\u00e9dical mais aussi une description \ntechnique des tables et un dictionnaire des codes. La marche \u00e0 suivre \npour se connecter au serveur avec des exemples de codes sont aussi \ndisponible sur le wiki. Ce dernier a \u00e9t\u00e9 pr\u00e9cieux lors du hackathon \npuisqu\u2019il a permis aux participants d\u2019\u00eatre presque autonomes sur \nl\u2019utilisation des donn\u00e9es.<\/p>\n\n\n\n C\u2019est en g\u00e9n\u00e9ral en croisant diff\u00e9rentes bases de donn\u00e9es qu\u2019on \nobtient les r\u00e9sultats les plus int\u00e9ressants. Pour faciliter le travail \ndes participants, nous avons aussi pr\u00e9par\u00e9 des donn\u00e9es en open data \nsusceptibles d\u2019\u00eatre crois\u00e9es avec la base du DAMIR. Nous avions ainsi \npr\u00e9par\u00e9 les donn\u00e9es de d\u00e9mographie m\u00e9dicale issue du R\u00e9pertoire partag\u00e9 des professions de sant\u00e9<\/a>, les donn\u00e9es sur la structure d\u00e9mographique par d\u00e9partement<\/a> produites par l\u2019Insee, les donn\u00e9es sur la m\u00e9t\u00e9o<\/a>, les donn\u00e9es d\u2019accidentologie<\/a> ou encore les limites administratives des d\u00e9partements<\/a> pour pouvoir r\u00e9aliser des cartes.<\/p>\n\n\n\n Le jour du hackathon, nous avons aussi particip\u00e9 activement en \nproposant des sujets et en prenant part aux diff\u00e9rents groupes. Les \ncodes et r\u00e9utilisations peuvent \u00eatre trouv\u00e9s sur data.gouv.fr<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":" L\u2019objectif d\u2019un hackathon est de montrer comment une mise \u00e0 disposition de donn\u00e9es permet de cr\u00e9er de nouveaux services et de r\u00e9aliser de nouvelles \u00e9tudes. Pour que les participants puissent r\u00e9utiliser les donn\u00e9es facilement et sans perdre de temps, quelques \u00e9tapes pr\u00e9paratoires sont parfois n\u00e9cessaires. D\u2019autant plus lorsque ce hackathon porte sur des donn\u00e9es techniques, …<\/p>\n