Newsletter du programme 10% – Septembre 2023

La communauté interministérielle des talents de la data et de l’IA

Rejoindre le programme 10%
Lancé en 2022, le programme 10%, co-porté par la Dinum et l’Insee, est une collaboration inédite entre experts publics de la donnée et de l’IA sur des projets d’intérêt commun. Intégrer la communauté 10%, c’est aussi monter en compétence, échanger entre pairs et partager des moments informels autour de valeurs communes.

En 2023, 7 projets font l’objet d’une collaboration :
Transformers : une IA open-source pour l’analyse de texte par les administrations.
ChartsGouv : l’outil de datavisualisation des données de l’État.
FormIAble : l’outil pour aider les administrations à extraire des informations de documents difficilement exploitables.
Cartiflette : un outil facilitant la réalisation de cartes géographiques grâce à la récupération de fonds de cartes produits par des acteurs publics.
Impact environnemental : former à l’impact environnemental et mesurer celui des projets 10%.
PoufDoc : l’outil pour aider les administrations dans leur production récurrente de rapports.
Trouver mon expert data (TED) : le moteur de recherche les experts de la data de l’État par organisations, missions et compétences.

Vous êtes un expert de la data/IA en poste au sein de l’Etat ? Vous avez envie de rejoindre un de ces projets ? Contactez-nous : 10pourcent.dinum@modernisation.gouv.fr
Rejoignez-nous sur le tchap du programme 10% : https://www.tchap.gouv.fr/#/room
/#Programme10o8dLNp7HWV:agent.dinum.tchap.gouv.fr  (demande d’invitation à sabrina.hedroug@modernisation.gouv.fr)

Zoom sur un projet 10% : Chartsgouv

Rédaction : Quentin Leroy, datascientist au ministère de l’Intérieur

Le projet ChartsGouv est né de l’envie de proposer un cadre cohérent à la valorisation et la visualisation de données pour les agents de l’Etat, en se basant sur un outil existant open source de référence que l’on peut personnaliser et faire évoluer pour les besoins de l’administration.
Superset, créé par le français Maxime Beauchemin (également à l’origine d’Airflow !), est passé sous la gouvernance de la fondation Apache en 2017, et est développé et maintenu par des ingénieurs d’Airbnb, Lyft, Apple… et utilisé par tant d’autres (https://github.com/apache/superset/blob/master/RESOURCES/INTHEWILD.md).

Superset présente l’avantage de se connecter à tout type de sources de données et rend faisable la conception de graphiques, de filtres et de tableaux de bord pour des utilisateurs non techniques.
Nous avons réuni une communauté d’entraide et de partage autour de Superset, ses fonctionnalités cachées et ses possibilités de personnalisation et d’évolution.
Grâce à DuckDB, nous avons montré que Superset pouvait directement ingérer les fichiers CSV ou Parquet hébergés sur data.gouv.fr, sans avoir besoin de les télécharger ou d’utiliser une chaîne de traitement de données, ce qui facilite la valorisation directe des données.
Nous avons pu travailler collaborativement sur ce sujet grâce à notre plateforme Superset sur le SSPCloud de l’Insee (https://chartsgouv.lab.sspcloud.fr/superset/dashboard/dgafp), qui comprend un début du theming de l’interface aux couleurs de l’Etat avec le DSFR.
Nous avons mis en place une plateforme de documentation (https://etalab-ia.github.io/chartsgouv/) pour détailler dans des articles des solutions à des problemes récurrents comme l’embedding de charts dans un site externe, le templating de requêtes SQL avec Jinja, l’installation et la configuration initiale… Les contributions sont les bienvenues ! Et nous sommes encore à la recherche de cas d’usage ! (contact : quentin.leroy@interieur.gouv.fr)

Liens utiles :

Instance ChartsGouv sur le SSPCloud : https://chartsgouv.lab.sspcloud.fr/superset/dashboard/dgafp Repo github : https://github.com/etalab-ia/chartsgouv Site de documentation : https://etalab-ia.github.io/chartsgouv/ Replay du passage à Datarama : https://www.youtube.com/watch?v=xvrr5X70puo&t=22648s

Appel à contributions !

Rédaction :Clement Guenais, data urbanist au ministère de l’Intérieur
Le projet Trouver mon Expert data (TED)  est un des 7 projets 10% de la saison 2. Son objectif : mettre en place un outil de mise en relation entre services par les experts de la donnée.
Vous souhaitez découvrir un service, trouver un pair dans une administration, savoir qui s’occupe d’accessibilité ou organiser une communauté data dans votre organisation ? Venez aider le projet  en nous indiquant simplement votre fiche de poste et votre service depuis lannuaire.service-public.fr.

Vous êtes un expert de la data au sein d’une administration ? Aidez-vous en répondant à ce questionnaire : https://framaforms.org/participer-a-trouver-mon-expertise-data-un-projet-du-programme-10-pour-cent-1686903329

Portrait de participant 10%

Thomas Grandjean : ingénieur de l’Agriculture et de l’Environnement, Dreal Hauts-de-France.

Quel est ton parcours ?
Je suis ingénieur en eau et environnement. J’ai débuté ma carrière dans l’ingénierie publique, puis je suis parti en service régalien (en police de l’eau). Au cours de cette période, j’ai rapidement pris conscience de l’importance cruciale de l’accès à l’information environnementale. Il y avait de nombreux problèmes liés aux systèmes d’information géographique et au partage des données, ce qui a suscité mon intérêt pour divers sujets à cette époque.
Rapidement, nous avons constaté la nécessité d’utiliser Python pour effectuer des traitements larges de données spatiales. Par la suite, j’ai changé de poste et j’ai rejoint la DREAL nord Pas-de-Calais (Direction Régionale de l’Environnement, de l’Aménagement et du Logement) où j’ai occupé un poste de vulgarisation scientifique axé sur l’environnement. Nous avons été confrontés à d’importants défis liés aux données et à la fusion de bases de données existantes, tant du côté de la Picardie que du Nord-Pas-de-Calais.
Sur certains sujets, nous nous sommes retrouvés avec d’énormes volumes de données qui étaient devenues difficilement exploitables avec nos outils d’alors. C’est ainsi que je me suis totalement acculturé à python (que je pratique presque quotidiennement depuis).
Progressivement, avec python on a appuyé des services métiers sur tous les sujets, en dérivant très clairement du poste tel qu’il a été fléché au départ. Cela m’a amené à traiter beaucoup de jeux de données différents sur des champs de compétences très variés (web, statistique, datavisualisation, bases de données, cartographie…).Pourquoi avoir choisi le domaine de l’environnement?
Mon engagement dans le domaine environnemental découle d’une conviction personnelle. À l’origine, j’ai été formé au ministère de l’Agriculture mais sur des thématiques portées par le ministère de l’Environnement, et j’ai choisi de continuer à évoluer dans ce domaine. Puis, comme je l’ai dit précédemment, la gestion des données a commencé à devenir un aspect important de mon travail. Typiquement, lorsque vous recevez un dossier détaillant les impacts d’un projet, il est essentiel de pouvoir croiser les informations pour déterminer si vous vous trouvez dans des zones naturelles présentant des intérêts spécifiques, identifier les cours d’eau à proximité, etc.. Ainsi, la gestion de bases de données géographiques est devenue un enjeu majeur, et cela constituait une nouveauté au sein des services à l’époque.
Historiquement, les équipes SIG (Systèmes d’Informations Géographiques) utilisaient des outils sous licence tels que MapInfo, mais une transition vers des solutions open source a complètement chamboulé le système avec l’arrivée de QGIS, en permettant le traitement des données au sein des services métiers. Tout cela nous a incité à développer nos compétences dans ce domaine.
Et puis, les réorganisations de l’Etat étant ce qu’elles sont, je me suis vite rendu compte que booster le numérique permettait de pallier une partie des réductions d’effectifs. Nous avons donc entrepris d’automatiser autant que possible nos processus, afin de maximiser notre efficacité avec les ressources qui nous restaient.
Sur quel projet travailles-tu actuellement ?
J’occupe mon poste actuel depuis environ 8 ans. Aujourd’hui, je travaille principalement sur un projet appelé « Mission Connaissance » qui s’inspire du fonctionnement de l’Insee avec ses pôles thématiques dans chaque direction. Il a été lancé par la direction centrale, plus précisément par la partie CGDD (Commissariat Général au Développement Durable) du ministère.
Le constat de départ était que les services connaissance des DREAL avaient beaucoup de sujets à couvrir mais que ces projets étaient dispersés et que chaque service développait ses propres outils. Lorsqu’il s’agissait de mettre en place des solutions à plus grande échelle, cela devenait problématique en raison de cette fragmentation. En réponse, le ministère a proposé aux services déconcentrés de se recentrer sur des thématiques spécifiques lors d’un appel à manifestation d’intérêt. Nous avons répondu à cet appel en nous positionnant sur le domaine de l’eau et des rejets polluants. D’autres services ont choisi les énergies renouvelables, la rénovation de l’habitat, la gestion du foncier, les mobilités durables et l’appui aux productions reproductibles. Des réflexions sont aussi en cours sur la gestion quantitative de l’eau, l’usage des drones ou de la donnée satellitaire.
Cette mission nous a aussi amené à échanger avec d’autres acteurs (habituels pour les DREAL, mais moins connu des services « connaissance ») : des établissements publics tels que les agences de l’eau, des collectivités.
Nous travaillons sur ce projet depuis environ 2 ans, dont une année a été consacrée principalement au prototypage, et depuis environ une année, le projet a été validé.

Est-ce que tu penses qu’être un expert sur un territoire dans ton domaine est plus complexe qu’être un expert en administration centrale ?
Traditionnellement au sein des DREAL, il y a deux branches distinctes de la donnée : la partie statistique (plutôt outillée en langage R et appuyée par des agents issus de l’INSEE) et la partie systèmes d’information géographique (parfois outillée en python, parfois en R, parfois uniquement avec des outils métier spécialisés). Sorti de ces deux métiers, il n’y a qu’assez peu de spécialisation dans nos services et les compétences pointues sont rares. Cela nous amène à être des « data couteaux suisses ». Nous nous retrouvons à travailler sur des domaines très variés, sans doute plus que des experts très spécialisés en administration centrale.
La Mission Connaissance est une opportunité intéressante, car elle nous a accordé des ressources supplémentaires et nous a permis de collaborer avec des prestataires externes DevOps qui nous ont réellement apporté des connaissances. Pour autant, notre approche restera encore longtemps différente de l’administration centrale, dans le sens où nous ne sommes pas près d’avoir ces spécialistes (DevOps, DataScientist, DataEngineer) dans nos services. En administration centrale, ces postes commencent à être présents, ce qui permet d’atteindre une expertise collective. A notre niveau, notre rôle demande une plus grande polyvalence.
Un autre sujet qui nous occupe beaucoup (et qui nous différencie aussi de la centrale) c’est la manière de récupérer des données. Nous sommes confrontés quotidiennement à des services métiers qui enregistrent leurs données dans des applications centralisées (qui n’ont parfois même pas de système d’export des données). Là où une administration centrale négociera plus ou moins facilement l’accès à une base intégrale (à plus ou moins long terme), nous sommes contraints d’effectuer de nombreuses opérations de scraping. Ce n’est bien sûr pas idéal, mais ces opérations restent malheureusement incontournables pour récupérer certaines données.
Au sein du programme 10%, tu travailles sur le projet Cartiflette ? En quoi consiste ce projet et pourquoi l’as-tu choisi ?
Cartiflette est un outil facilitant la réalisation de cartes grâce à la récupération de fonds de plans produits par des acteurs publics. Il y avait de nombreux sujets qui m’intéressaient dans les projets, comme la datavisualisation, par exemple. Mais il a fallu que je me focalise, et je pense que la cartographie était peut-être le domaine où je pouvais apporter le plus directement ma contribution. Les problèmes qui avaient été exposés, tels que la récupération des fonds de plan, leur agrégation, la gestion du snapping et des géométries qui ne se superposent pas bien, sont des défis que j’ai rencontrés et que je continue à rencontrer.

Comment as-tu connu le programme 10% et pourquoi l’as-tu rejoint ?
J’ai découvert les principes de ce qui n’était pas (encore) le programme 10 % dans le rapport DINUM sur l’évaluation des besoins de l’État en compétences et expertises en matière de donnée. Un peu plus tard, j’ai donné quelques formations sur la donnée publique à l’IRA de Lille ; cela a été l’occasion de rechercher des sources pour documenter mon cours. En parcourant le site d’ETALAB, j’ai découvert que la recommandation du rapport avait été concrétisée (et que j’avais d’ailleurs raté la première saison). Le programme m’a semblé très attrayant, d’autant plus que, comme je l’ai mentionné, nous nous posions de nombreuses questions sur les compétences qui nous faisaient défaut au sein des services déconcentrés.
J’en ai aussi entendu parler en parallèle par des collègues de la DREAL Pays-de-la-Loire qui avaient rejoint la première saison.
Pour ma part, j’y suis venu initialement pour découvrir ce qui se passait, car je ne suis pas un data scientist et le programme était clairement axé sur l’intelligence artificielle. Cependant, j’ai rapidement trouvé ma place dans le programme.
Ce programme est très intéressant pour nous, car il nous permet de collaborer avec des profils très différents de ceux que l’on trouve généralement au sein des services déconcentrés. De plus, il offre l’accès à des masterclass et à d’autres initiatives que nous avons du mal à trouver ailleurs. Par exemple, les sujets liés à la formation en intelligence artificielle sont rares, voire inexistants, au sein des services déconcentrés (même si cela commence à changer). Étant relativement isolés dans notre bulle au sein des services déconcentrés, il est vraiment intéressant de pouvoir échanger avec d’autres ministères. Cela nous permet de rencontrer d’autres personnes, de découvrir d’autres services, d’observer différentes organisations et compétences, et de développer notre réseau. En fin de compte, je suis très satisfait du programme.

Regard sur un projet ministériel : predNatinf

Daphné Pertsekos, datscientist à la Gendarmerie nationale

Que cherche-t-on à résoudre avec la solution predNatinf ?
Lorsqu’un gendarme traite un dossier de police judiciaire, il doit décrire les événements marquants de l’affaire et qualifier les infractions (natinf) relatées, parmi près de 20000 items. Il est difficile de tout garder à l’esprit, surtout qu’elle se distinguent parfois par de subtiles nuances. Le recours à un moteur de recherche intelligent se révèle dès lors indispensable.

Qu’apporte la solution du datalab ?
Le moteur de recherche développé au datalab repose sur un LLM (Large Language Model), c’est à dire un modèle d’intelligence artificielle pré-entraîné sur des textes en français. En l’affinant sur notre corpus de données, le datalab a été capable de fournir un moteur de recherche qui prend en compte la proximité sémantique des mots, de sorte que les gendarmes peuvent désormais fournir une brève description des faits pour retrouver l’intitulé de l’infraction.

Concrètement, ça donne quoi ?
La requête du gendarme pourrait ressemble à ceci :
«L’agresseur a donné de nombreux coups de pied dans les jambes de la victime. Celle-ci a une fracture du tibia à la jambe droite. Le médecin légiste prévoit une ITT de 5 jours.»

Dans cet exemple, le 1er résultat retourné est «violence ayant entrainé une incapacité de travail n’excédant pas 8 jours», mais si on change simplement le nombre de jours d’ITT de 5 à 25 par exemple, le 1er résultat devient «violence suivie d incapacité supérieure a 8 jours», comme si le modèle maîtrisait les bases de l’arithmétique !

Cette nouveauté aura-t-elle un gros impact ?
La gendarmerie rédige près de 1,5 millions de compte-rendus de PJ chaque année. Une classification juste dès le début de la procédure permet d’orienter les auditions dans la bonne direction, et éventuellement de profiter des aides méthodologiques fournies pour certaines infractions. Cela facilite également le travail de la justice, et améliore la qualité des données dans nos bases.

Focus sur des initiatives data dans les territoires

DATAcculturation porté par le SGAR Auvergne Rhône-Alpes
Lancé en 2021 par le SGAR Auvergne Rhône-Alpes, DATAcculturation est un dispositif pédagogique et convivial permettant de sensibiliser les agents publics à la donnée et l’open data. Aujourd’hui, DATAacculturation, c’est un kit composé de supports (vidéos et guide) disponibles en libre accès pour permettre à chaque agent de les consulter et de se les approprier.

Le kit DATAcculturation :
– 5 vidéos courtes et explicatives : https://www.youtube.com/playlist?list=PLXxI21OaojJyAwX-Tg1m-z4NYKx11cJ3l
– un guide de sensibilisation
– un format innovant et interactif : les cafés de la data : en 15, 30 ou 60 minutes, acculturez-vous et vos collègues à la donnée et à l’open data ! Grâce à des déroulés d’animation clés en main, vous pouvez organiser un café de la data dans toutes les administrations. Rejoignez les plus de 200 agents publics déjà sensibilisé.e.s : https://macarte.ign.fr/carte/hN4KIx/Cafes-de-la-data-organises-et-a-venir-
Nouveauté : les cafés de la data se déclinent en visio, pour faciliter leur organisation et la participation des agents partout sur le territoire!

Pour en savoir plus : écrire à justine.sperandio-martinez@ara.gouv.fr
Rejoindre le fil Tchap DATAcculturation : https://tchap.gouv.fr/#/room/#DATAcculturationfildactualitduprojethcj8dHyW0N8:agent.interieur.tchap.gouv.fr
Recensez-vous prochainement sur le site du laboratoire d’innovation publique Archipel : https://lab-archipel.fr/projet/datacculturation/

DATA ETAT Bretagne lance un nouveau service cartographique : VisuTerritoires
Dans le cadre de sa feuille de route de la donnée de l’État en Bretagne et de ses usages, le projet « DATA ETAT »  a été lauréat du plan de Relance fin 2022 pour expérimenter une nouvelle infrastructure de partage et de réutilisation de la donnée de l’État. Le SGAR Bretagne avec la DREAL (démarche GéoBretagne) et le GIP SIB (dont le Préfet est membre) ont mis en production la solution en 2022 pour servir tous les profils des agents de l’administration territoriale de l’État :
tous les agents décisionnels, métiers, instructeurs… avec des solutions clefs en main pour leur faciliter l’accès et la manipulation des données importantes locales et nationales qui ne leur sont normalement pas accessibles directement ;
les experts de la donnée (statisticiens, géomaticiens, chargés d’études…) qui accèdent à des outils avancés et préconfigurés pour faciliter et réduire leur temps d’accès aux données, leurs analyses et valorisation ;
les développeurs et Tech pour leur donner un environnement de travail simplifié, ouvert et souverain de l’État pour (co)développer des solutions liées à la donnée ;
La première application « Budget.DATAETAT » (https://budget.databretagne.fr/) est opérationnelle avec des données CHORUS de 2019 à 2023 et de l’ADEME (depuis 2020) qui sont actualisées tous les mois en lien avec la DRFIP/ CBR. La solution permet pour un département et jusqu’à la commune de voir les financements par BOP ou multi BOPs sur une période choisie et de générer un tableau de suivi dynamique qui peut être enregistré dans son profil pour suivre ses évolutions (Il est possible de partager ces tableaux avec d’autres utilisateurs disposant d’un compte sur DATA.ETAT). Elle permet aussi de rechercher un bénéficiaire (achat public, subvention…) et de voir sur la période choisie et les BOPs sélectionnés l’ensemble des financements État obtenus.
Grâce à l’interconnexion de ces données avec DATA-Subvention ou Démarches Simplifiées, il est aussi possible d’avoir le détail qualitatif de nombreuses opérations (subventions associatives, dotations aux collectivités…).  En effet, DATA Subvention » est pleinement intégré dans la solution Budget.DATAETAT, la diffusion dans les services de Budget.DATAETAT permet directement l’extension de l’utilisation des données produites et valorisées par DATA.Subvention.

Le projet est suivi par le national (DINUM / DTNUM MIOM) et peut être étendu dans de nouvelles régions. DATA-ETAT vise aussi à libérer des données en OPEN-DATA et les valoriser via la cartographie interactive et les DATAVIZ. En septembre, un premier service cartographique qui répond à ces usages pour croiser des données de territoires avec les données budgétaires de l’État et ses opérateurs est lancé : « VisuTerritoires » : https://geobretagne.fr/app/visuterritoire
VisuTerritoire fait partie de la gamme de services databretagne.fr qui offre aux agents de l’État en Bretagne un accès simple et direct aux données de pilotage des politiques publiques. Il donne un accès cartographique aux données financières de l’État en Bretagne : montants engagés, montants payés, par programme budgétaire et par territoire. Ce service permettra aux agents et aux services de facilement valoriser des données budgétaires de l’État par une visualisation géographique
L’administration recrute des experts de la donnée !

La brigade d’intervention numérique de la Dinum recherche un architecte data : https://choisirleservicepublic.gouv.fr/offre-emploi/architecte-data-hf-reference-2023-1284387/

La DGDDI recherche un data analyst :
https://choisirleservicepublic.gouv.fr/offre-emploi/dgddi—dnred—-data-analyst-cat-a-hf-reference-MEF_2023-9750/ et un datascientist : https://choisirleservicepublic.gouv.fr/offre-emploi/dgddi—dnred—-data-scientist-cat-a-hf-reference-MEF_2023-9749/

La cellule numérique de la DGCCRF recherche un datascientist :
https://choisirleservicepublic.gouv.fr/offre-emploi/data-scientist-au-sein-de-la-cellule-numerique-du-service-national-des-enquetes-hf-reference-MEF_2023-10118/

La DGFIP recherche un datascientist expert :
https://choisirleservicepublic.gouv.fr/offre-emploi/si2—data-scientist-expert-hf-reference-MEF_2023-12815/