{"id":17577,"date":"2023-07-07T09:50:43","date_gmt":"2023-07-07T07:50:43","guid":{"rendered":"https:\/\/preprod.etalab.gouv.fr\/?p=17577"},"modified":"2023-07-07T09:53:39","modified_gmt":"2023-07-07T07:53:39","slug":"programme-10-newsletter-du-mois-de-juillet-2023","status":"publish","type":"post","link":"https:\/\/preprod.etalab.gouv.fr\/programme-10-newsletter-du-mois-de-juillet-2023","title":{"rendered":"Programme 10% – Newsletter du mois de juillet 2023"},"content":{"rendered":"\n
Lanc\u00e9 en 2022, le programme 10%, port\u00e9 par la Dinum<\/strong> en lien avec l’Insee<\/strong>, est une collaboration in\u00e9dite entre experts publics de la donn\u00e9e et de l’IA sur des projets d’int\u00e9r\u00eat commun<\/strong>. Int\u00e9grer la communaut\u00e9 10%, c’est aussi monter en comp\u00e9tence, \u00e9changer entre pairs et partager des moments informels autour de valeurs communes. Chaque mois, la newsletter du programme 10% vous fait d\u00e9couvrir les parcours de participants. Serena Gruarin<\/strong> (photo \u00e0 gauche) et Nathalie Four<\/strong> (photo \u00e0 droite) sont data scientists au minist\u00e8re de l’Europe et des Affaires \u00e9trang\u00e8res. Leur mission : acculturer les agents du minist\u00e8re \u00e0 la data. Leur point commun : mettre leur talent au service de l’int\u00e9r\u00eat g\u00e9n\u00e9ral. R\u00e9daction :<\/em> Lucie Clemot, participante 10% au projet datanonyme<\/strong><\/p>\n\n\n\n Dans le contexte actuel de \ufeffmultiplication de jeux de donn\u00e9es<\/strong>\ufeff contenant des \u00e9l\u00e9ments \u00e0 caract\u00e8re sensible, l’Etat cherche \u00e0 diffuser plus de donn\u00e9es. Ceci semble paradoxal, mais ne l’est pas en r\u00e9alit\u00e9 : ces jeux de donn\u00e9es repr\u00e9sentent des leviers cl\u00e9s pour encourager l’exploitation et la r\u00e9utilisation par une pluralit\u00e9 d’acteurs, ainsi que pour favoriser la transparence de l’action publique. Cependant, la publication de ces bases de donn\u00e9es ne peut \u00eatre possible que si elles sont anonymes<\/strong>. On entend ici anonyme selon la d\u00e9finition de la CNIL<\/strong>, qui assure une protection compl\u00e8te des donn\u00e9es sensibles aux individus.<\/strong><\/p>\n\n\n\n Les trois crit\u00e8res d’anonymisation selon la CNIL sont les suivants : la non-individualisation, la non-inf\u00e9rence, et la non-corr\u00e9lation.<\/strong><\/p>\n\n\n\n Le premier, la non-individualisation<\/strong>, est \u00e0 l’incapacit\u00e9 d’un attaquant \u00e0 identifier un individu parmi le jeu de donn\u00e9es, ou \u00e0 retrouver \u00e0 quel individu une ligne du jeu de donn\u00e9e correspond. Le deuxi\u00e8me, la non-inf\u00e9rence<\/strong>, repr\u00e9sente l’incapacit\u00e9 d’un attaquant \u00e0 pr\u00e9dire un attribut d’un individu pr\u00e9sent dans la base de donn\u00e9es. Le troisi\u00e8me, la non-corr\u00e9lation<\/strong>, repr\u00e9sente un risque li\u00e9 aux jeux de donn\u00e9es disponibles en ligne ou en vente aupr\u00e8s de courtiers en donn\u00e9e. Il s’agit de l’incapacit\u00e9 d’un attaquant, en exploitant ces donn\u00e9es externes, \u00e0 r\u00e9identifier un individu du jeu initial, ou \u00e0 inf\u00e9rer un attribut d’un de ces individus.<\/p>\n\n\n\n L’enjeu d’\u00eatre capable de bien anonymiser les donn\u00e9es est double. D’abord, les usagers, \u00e0 travers des plateformes telles que data.gouv.fr, pourront b\u00e9n\u00e9ficier d’une plus grande diversit\u00e9 de jeux de donn\u00e9es<\/strong> et sauront que leurs donn\u00e9es personnelles sont mieux prot\u00e9g\u00e9es.<\/strong><\/p>\n\n\n\n Cet enjeu est aussi au c\u0153ur des pr\u00e9occupations des administrations. En effet, certains acteurs du service public portent au sein de leurs engagements le partage de donn\u00e9es en toute s\u00e9curit\u00e9, tandis que d’autres manipulent des donn\u00e9es sensibles en interne et souhaiteraient pouvoir opter pour la version anonymis\u00e9e de ces donn\u00e9es.<\/p>\n\n\n\n C’est dans ce contexte et pour r\u00e9pondre \u00e0 cet enjeu double que l’id\u00e9e est arriv\u00e9e de consacrer un projet du programme 10 % \u00e0 la question de l’anonymisation. Ce projet, depuis appel\u00e9 datanonyme<\/strong>, avait initialement pour vocation de cr\u00e9er un outil capable d’anonymiser n’importe quel jeu de donn\u00e9es tabulaire. L’ambition de ce projet a depuis \u00e9volu\u00e9 dans une direction plus ad-hoc : il s’agit maintenant de co-construire un outil adapt\u00e9 aux besoins respectifs de tous les participants du projet et de leurs administrations respectives.<\/strong><\/p>\n\n\n\n Il existe d\u00e9j\u00e0 des solutions techniques pour r\u00e9pondre au besoin d\u00e9crit, cependant, elles sont parfois on\u00e9reuses, souvent des bo\u00eetes noires, et r\u00e9pondent \u00e0 des cas d’usages trop sp\u00e9cifiques. Cependant, il existe des outils qui quantifient la qualit\u00e9 d’une anonymisation, avec entre autres deux outils libres qui ont \u00e9t\u00e9 approuv\u00e9s par la CNIL : anonymeter<\/strong> et querysnout<\/strong>.<\/p>\n\n\n\n D’un point de vue technique, l’outil se constitue de deux volets. Le premier correspond \u00e0 l’anonymisation en tant que telle<\/strong>, et le deuxi\u00e8me en une approche adverse, qui en tentant de d\u00e9faire l’anonymisation (en utilisant les crit\u00e8res de la CNIL), vient quantifier la performance<\/strong>(soit la qualit\u00e9) de l’anonymat<\/strong>. En r\u00e9unissant ces deux volets, nous chercherons \u00e0 optimiser la qualit\u00e9 de la donn\u00e9e statistique tout en maintenant le secret statistique.<\/p>\n\n\n\n Il existe un certain nombre de m\u00e9thodes d’anonymisation qui ont fait leurs preuves math\u00e9matiques. Dans l’ensemble, la strat\u00e9gie consiste \u00e0 prendre du recul sur les donn\u00e9es<\/strong> (il y a donc n\u00e9cessairement une perte d’information), tout en conservant une diversit\u00e9 suffisante des attributs des points de donn\u00e9es<\/strong> (pour \u00e9viter que l’inf\u00e9rence sur un nouvel individu soit trop simple). Lorsqu’il s’agit de donn\u00e9es num\u00e9riques, il existe de nombreuses strat\u00e9gies pour bruiter les donn\u00e9es. Enfin, des mod\u00e8les plus sophistiqu\u00e9s bas\u00e9s sur les probabilit\u00e9s existent aussi pour prot\u00e9ger des donn\u00e9es.<\/p>\n\n\n\n Nous avons \u00e9tudi\u00e9 diff\u00e9rentes id\u00e9es pour impl\u00e9menter l’approche adverse sur les trois crit\u00e8res de la CNIL. Entre autres, l’\u00e9tude des points trop particuliers (appel\u00e9s outliers) permet d’estimer le risque d’identification. De plus, la performance de mod\u00e8les de classification ou de r\u00e9gression de variable sensible entra\u00een\u00e9s sur la donn\u00e9e brute d’une part et anonymis\u00e9e d’autre part permet de r\u00e9v\u00e9ler un axe de comparaison pour le crit\u00e8re d’inf\u00e9rence. Le crit\u00e8re de corr\u00e9lation, lui, est plus dur \u00e0 \u00e9tudier de mani\u00e8re syst\u00e9matique.<\/p>\n\n\n\n Pour les membres du projet Datanonyme, l’int\u00e9r\u00eat de ce projet est multiple. Tout d’abord, nous avons tous et toutes \u00e0 y gagner en terme d’expertise sur le sujet<\/strong>. De plus, d\u00e9velopper un outil libre<\/strong> repr\u00e9sente une r\u00e9elle occasion de rattraper le retard du service public sur les probl\u00e9matiques d’anonymisation.<\/p>\n\n\n\n
En 2023, 8 projets font l’objet d’une collaboration :
Transformers :<\/strong> une IA open-source pour l’analyse de texte par les administrations.
ChartsGouv :<\/strong> l’outil de datavisualisation des donn\u00e9es de l’\u00c9tat.
Datanonyme<\/strong> : l’outil pour aider les administrations \u00e0 anonymiser leurs donn\u00e9es.
FormIAble :<\/strong> l’outil pour aider les administrations \u00e0 extraire des informations de documents difficilement exploitables.
Cartiflette :<\/strong> un outil facilitant la r\u00e9alisation de cartes g\u00e9ographiques gr\u00e2ce \u00e0 la r\u00e9cup\u00e9ration de fonds de cartes produits par des acteurs publics.
Impact environnemental :<\/strong> former \u00e0 l’impact environnemental et mesurer celui des projets 10%.
PoufDoc :<\/strong> l’outil pour aider les administrations dans leur production r\u00e9currente de rapports.
Trouver mon expert data (TED) :<\/strong> le moteur de recherche les experts de la data de l’\u00c9tat par organisations, missions et comp\u00e9tences.
Vous \u00eates un expert de la data\/IA en poste au sein de l’Etat ? <\/strong>Vous avez envie de rejoindre un de ces projets ? Vous avez une id\u00e9e de projet d’int\u00e9r\u00eat commun r\u00e9pliquable \u00e0 d’autres minist\u00e8res ?
Contactez-nous : 10pourcent.dinum@modernisation.gouv.fr<\/strong>
Pour en savoir plus : https:\/\/www.10pourcent.etalab.gouv.fr\/<\/p>\n\n\n\nPortraits 10%<\/strong><\/h2>\n\n\n\n
\n\t\t\t\t<\/picture>\n\t\t\t\t
\n\t\t\t\t<\/picture>\n\t\t\t\t
Quel est votre parcours ?<\/strong>
Nathalie : J’ai commenc\u00e9 par un master d’\u00e9conom\u00e9trie et statistique puis un master 2 sp\u00e9cialis\u00e9 en data science. La data science m’a tout de suite passionn\u00e9e. C’\u00e9tait d\u00e9j\u00e0 un domaine en plein essor. Ce master n’a fait que confirmer mon app\u00e9tence pour la data science que j’avais d\u00e9j\u00e0 d\u00e9couvert lors d’un stage \u00e0 l’Institut National de la Sant\u00e9 et de la Recherche M\u00e9dicale.
Serena : J’ai commenc\u00e9 mes \u00e9tudes sup\u00e9rieures par une double-licence \u00e9conomie et droit car mon coeur balan\u00e7ait entre les deux. J’ai m\u00eame pens\u00e9 \u00e0 faire l’Ecole nationale de la magistrature. Mon choix s’est fix\u00e9 en L3 quand j’ai d\u00e9couvert l’\u00e9conom\u00e9trie. En me renseignant, j’ai d\u00e9couvert que les d\u00e9bouch\u00e9s \u00e9taient tr\u00e8s vari\u00e9s, pour quelqu’un qui ne savait pas vraiment dans quel domaine travailler, c’\u00e9tait une opportunit\u00e9! Je me suis donc tourn\u00e9e vers un master \u00e9conom\u00e9trie statistique et c’est l\u00e0 que j’ai entendu pour la 1\u00e8re fois le terme de data science.
Comment \u00eates-vous arriv\u00e9es dans le public ?<\/strong>
Nathalie : Le public m’a toujours attir\u00e9e, j’avais d\u00e9j\u00e0 fait un stage dans le public. Servir l’int\u00e9r\u00eat g\u00e9n\u00e9ral est ce qui a d\u00e9termin\u00e9 mon choix.
Serena : Mon choix s’est fait un peu par hasard, apr\u00e8s un stage dans le domaine de l’\u00e9nergie. Je suis tomb\u00e9e sur une offre d’apprentissage au minist\u00e8re de l’Europe et des Affaires \u00e9trang\u00e8res. Cette offre d’apprentissage a attir\u00e9 mon attention, la plupart des offres \u00e9taient propos\u00e9es dans les secteurs de la banque ou des assurances. Pouvoir travailler sur des donn\u00e9es publiques avec tous leurs enjeux, c’\u00e9tait un vrai challenge. Nathalie avait besoin d’un apprenti et m’a recrut\u00e9. Apr\u00e8s une ann\u00e9e, j’ai int\u00e9gr\u00e9 le minist\u00e8re en tant que contractuel.
C’est quoi le quotidien d’un data scientist au Minist\u00e8re de l’Europe et des Affaires \u00e9trang\u00e8res ?<\/strong>
Nathalie : L’int\u00e9gration des data scientists au MAE en est encore \u00e0 ses pr\u00e9mices. Notre mission est essentielle : faire connaitre la data science aux agents du minist\u00e8re, montrer l’\u00e9tendue des possibles, bien identifier les besoins. Nous sommes les deux seules data scientists.
Serena : Nous avons int\u00e9gr\u00e9 le bureau en charge du SIRH \u00e0 un moment o\u00f9 la DRH a eu la volont\u00e9 d’exploiter justement les nombreuses donn\u00e9es qui s’y trouvent. Un grand challenge au quotidien r\u00e9side dans le fait d’acculturer nos coll\u00e8gues aux donn\u00e9es et de r\u00e9colter leur besoin qui pourraient \u00e9ventuellement \u00eatre combl\u00e9s par la data science. Nous sommes entour\u00e9s et travaillons au quotidien aupr\u00e8s des agents dits du \u00ab m\u00e9tier \u00bb.
Quel est le projet sur lequel vous travaillez actuellement en interne ?<\/strong>
Serena : Depuis d\u00e9but janvier, je travaille sur un projet qui s’\u00e9loigne de la data science \u00ab\u00a0pure\u00a0\u00bbmais qui me permet de d\u00e9couvrir un r\u00f4le qui se rapproche d’un MOE et d’un data engineer ce qui est tr\u00e8s int\u00e9ressant. Au sein du bureau du dialogue social, je travaille \u00e0 la construction d’une base de donn\u00e9e sociale. L’id\u00e9e est de r\u00e9cup\u00e9rer les donn\u00e9es puis les mettre en forme pour pouvoir calculer des indicateurs RH.
Nathalie : De mon c\u00f4t\u00e9, je travaille \u00e0 d\u00e9velopper une fili\u00e8re donn\u00e9e au sein du minist\u00e8re avec l’objectif de montrer aux agents l’\u00e9tendue des possibilit\u00e9s ouvertes en mati\u00e8re de donn\u00e9e. Des projets de valorisation de donn\u00e9es sont \u00e9galement en cours \u00e0 travers des tableaux de bord RH \u00e0 destination des directions.
Qu’est-ce vous aimez dans votre m\u00e9tier ?<\/strong>
Nathalie : Faire parler les donn\u00e9es, c’est tout l’int\u00e9r\u00eat de mon m\u00e9tier. Les donn\u00e9es donnent un \u00e9tat des lieux qui est indispensable \u00e0 toute r\u00e9flexion. Par ailleurs, parler avec une multiplicit\u00e9 d’interlocuteurs, directement travailler avec les m\u00e9tiers c’est enrichissant.
Serena : Dans la data science en g\u00e9n\u00e9ral, le fait que ce soit un m\u00e9tier pluridisciplinaire. Ayant toujours eu peur de la routine, le fait que ce m\u00e9tier puisse s’exercer dans diff\u00e9rents secteurs m’a \u00e9galement beaucoup attir\u00e9.
Pourquoi avez-vous rejoint le programme 10% ?<\/strong>
Nathalie : Nous sommes seulement deux au MAE. Le programme 10%, c’\u00e9tait pour nous l’occasion de rencontrer d’autres data scientists issus de diff\u00e9rents minist\u00e8res, maintenir nos comp\u00e9tences data et d\u00e9couvrir de nouveaux outils comme le SSP cloud qui nous est directement utile.
Serena : Quand on a entendu parl\u00e9 de ce programme, on a tout de suite \u00e9t\u00e9 tr\u00e8s enthousiastes. Notre manager nous a \u00e9galement beaucoup encourag\u00e9 \u00e0 rejoindre cette communaut\u00e9. Pour ma part, avec mon projet en interne qui s’\u00e9loigne de la data science, le programme 10%, c’est l’opportunit\u00e9 pour moi de ne pas perdre en comp\u00e9tence.
Quel est le projet auquel vous participez dans le programme 10 % ?<\/strong>
Nathalie : Nous travaillons sur le projet \u00ab\u00a0G\u00e9n\u00e9ration de documents word\u00a0\u00bb. L’id\u00e9e est de produire des rapports de mani\u00e8re automatique. Actuellement, la production de rapport word est tr\u00e8s chronophage pour les administrations. Le but du projet est de leur permettre de mettre \u00e0 jour leurs donn\u00e9es par un simple clic.
Serena : Pour illustrer le projet par un cas concret, on peut prendre l’exemple du rapport social unique que les minist\u00e8res doivent \u00e9laborer chaque ann\u00e9e. D’une ann\u00e9e \u00e0 l’autre, les donn\u00e9es changent et donc les graphiques, mais le format reste identique. Gr\u00e2ce au projet, on pourra facilement actualiser le rapport et rendre le m\u00e9tier autonome.
Par ailleurs, l’\u00e9quipe 10% est int\u00e9ressante car on a une pluralit\u00e9 de profils (dev, data analyst, data scientists) et de minist\u00e8res (DITP, Minist\u00e8re de la justice, MAE).
Vous \u00eates deux femmes dans un univers de data scientists majoritairement masculin, quel est votre regard sur la place des femmes dans la data ?<\/strong>
Serena : Ce n’est pas pas forc\u00e9ment une difficult\u00e9. Les choses \u00e9voluent positivement et le monde de la data s’ouvre de plus en plus. Quand j’\u00e9tais en L3 et que je regardais les promotions pr\u00e9c\u00e9dentes de mon master, il y avait 3 femmes sur 30 \u00e9l\u00e8ves. Aujourd’hui, les femmes repr\u00e9sentent 50% des effectifs.
Nathalie : Au MAE, on est les 2 seules femmes data scientists, autant dire un taux de 100% de repr\u00e9sentation f\u00e9minine ! <\/p>\n\n\n\nZoom sur un projet 10% : Datanonyme<\/strong><\/h2>\n\n\n\n
<\/figure>\n\n\n\n